===涉及的网页的数目===
少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。
采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。
采集后的数据有什么后续处理?比如导入数据库之类的工作。
少量的数据,我们这边都可以代为采集。
大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。
大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。
===有没有IP保护机制===
===有没有帐号保护机制===