“采集项目定价的方法”的版本间的差异
来自JsRobot
(→手动操作网页的步数) |
(→涉及的网页的数目) |
||
第25行: | 第25行: | ||
===涉及的网页的数目=== | ===涉及的网页的数目=== | ||
+ | 少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。 | ||
+ | 采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。 | ||
+ | 采集后的数据有什么后续处理?比如导入数据库之类的工作。 | ||
+ | 少量的数据,我们这边都可以代为采集。 | ||
+ | 大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。 | ||
+ | 大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。 | ||
+ | |||
===有没有IP保护机制=== | ===有没有IP保护机制=== | ||
===有没有帐号保护机制=== | ===有没有帐号保护机制=== |
2016年1月21日 (四) 17:51的版本
目录
概述
采集项目的定价是与许多因素有关的。 我们一般建议客户找一个最小的数据要求来采集。 这样可以在开发成本和您要解决的问题之间找到一个合适的平衡。
因素
涉及的典型页面的个数
客户需求的数据往往是一个网站的部分数据。 这些数据一定是在一些网页上面的。 我们需要客户提供这些页面的典型页面。 同类页面只必须提供一个样例。 有具体的网址和截图说明。 人工区分不同类型的页面是比较容易的,就是看你网页的布局是不是一样的。 就好比说,医院的和自己家的摆设一定是不一样。 不同功能的网页往往页面布局也是不一样的。 不同功能的网页的网址也往往是不一样的。 我们需要针对不同的页面类型写不一样的处理代码。 也就是说典型页面的数目与我们我们动作量是直接相关的。
手动操作网页的步数
软件只是把人类重复操作的事情变成自动化了。 所以写软件的前提条件就是要知道人工是怎么操作的。 往往人工操作的步骤越多,就意味着软件里需要处理的逻辑越复杂。 逻辑越复杂,往往就意味着开发成本越高的。
涉及的网页的数目
少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。 采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。 采集后的数据有什么后续处理?比如导入数据库之类的工作。 少量的数据,我们这边都可以代为采集。 大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。 大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。