更改

采集项目定价的方法

添加3,172字节, 2016年1月21日 (四) 16:19

→‎结论

===手动操作网页的步数===

软件只是把人类重复操作的事情变成自动化了。

所以写软件的前提条件就是要知道人工是怎么操作的。

往往人工操作的步骤越多，就意味着软件里需要处理的逻辑越复杂。

逻辑越复杂，往往就意味着开发成本越高的。

===涉及的网页的数目===

少量数据的采集往往是很简单的，大量数据的采集就是一个很复杂的问题了。

采集是否需要支持去重？重复的数据不采集，是可以加快采集速度的。

采集后的数据有什么后续处理？比如导入数据库之类的工作。

少量的数据，我们这边都可以代为采集。

大量的数据，采集的时间可能很长。这个采集成本就无法忽略不计的。

大量采集的时候，很容易触发网站的反采集保护机制。数据少的时候，可以不予考虑。数据多的时候，处理反采集对抗机制就是必须的。

===有没有IP保护机制===

别人把一个网站搭建到服务器上，是要给网络运营商付费的，一般都是按照流量计费。

比如一个G是多少MONDEY。

当采集器大量采集一个网站的数据的时候，实际上网站方式要多付出许多MONEY的。

为了避免网站的企业浪费钱，大的网站一般都会有IP保护机制。

基础的规则就是，如果一个网站发现某个IP的访问网页的流量过大，就认为是非法访问，从而禁止访问。

有许多换IP的方法来绕过IP访问检测，比如路由器切换、VPN切换、代理服务器切换等等。

但是每种方法都引入了新的复杂性。怎么换IP，换IP过程中会不会出错，出错了怎么容错？

这些事情都会给开发带来新的开发工作量，也就意味着更多的钱。

===有没有帐号保护机制===

有些网站必须登录后才能看到数据。这时候就需要处理登录相关的逻辑。

有些登录的逻辑是非常复杂的，这时候新增的工作量就非常大。

阿里巴巴的登录就是一个很典型的问题。用人工登录的时候，看不出什么。软件批量登录的时候就会有许多问题。

因为黑客很喜欢利用登录接口尝试密码，所以网站开发人员会耗费许多时间去保护登录接口，防止频繁的登入。

一般让我们采集需要登录的网站的人员都是网站的合法用户，只是不希望把人工干的事情自动化，比如采集微博的博文。

这个没有什么法律的风险。

但是登录逻辑的处理工作量可能不小。

===项目加急的情况===

许多客户对项目有时间的要求。时间约短，成本越高。

这个也很好理解，您发邮件的时候，快递和平邮绝对是不一样的。

要是项目很急的时候，往往需要我们的开发人员加班处理，这时候的加班费用就需要客户承担。

复杂的项目，我们一般是七天交付。

简单的项目，我们一把是三天交付。

您要是有额外的加急要求，就需要单独付费。

==结论==

不能简单的以数据多少来讨论价格的。

软件的价格是数量与复杂度的一个乘积关系。

==备注==

←上一编辑

Storm

行政员、管理员

3,360

个编辑

更改

采集项目定价的方法

JsRobot