3,360
个编辑
更改
→网络速度
机器性能就好比是工厂的大小的一样。多线程的线程数是与机器的性能有直接关系的。工厂大了,容纳的干活的人多了,整体的效率就很好。这个就没有什么取巧的了。当然多个电脑也是一种解决方案。不过,我们的客户大多数都只要一台电脑做采集就可以了。毕竟,直接HTTP包模式加上多线程,速度已经非常快了。
===网络速度===
===网站限制===
有些网站是有限制的。采集微博数据的时候,喜多数据必须登录帐号后才能看到。同一个帐号反问数据一多,网站就提示你非法访问呢。一些政府网站的稳定性是糟糕的。我们采集某个政府网站的公开的房产信息的时候,开启多线程,线程太多,网站很快就崩溃了。遇到这种情况,就必须降低采集的速度,绕过网站的限制。
==结论==
综合以上因素,实际采集的速度是具体网站具体分析的。采集器模式,多线程,是我们软件开发人员可以控制的因素。机器性能,网速是客户可以控制的因素。网站限制就是被采集网站本身的特性了,是我们和客户无法控制的。这就导致,有些网站采集很快,有些网站采集很慢。不是我们软件的问题,也不是客户运行软件的环境问题,而是网站本身的限制。有客户就有这样的疑问,看你们百度采集的速度飞快,但是采集我们的项目就慢。问题就在这里了。