更改

跳转至: 导航搜索

你们软件的速度快吗

添加496字节, 2016年1月11日 (一) 16:33
网站限制
===网站限制===
有些网站是有限制的。采集微博数据的时候,喜多数据必须登录帐号后才能看到。同一个帐号反问数据一多,网站就提示你非法访问呢。一些政府网站的稳定性是糟糕的。我们采集某个政府网站的公开的房产信息的时候,开启多线程,线程太多,网站很快就崩溃了。遇到这种情况,就必须降低采集的速度,绕过网站的限制。有些网站是有限制的。采集微博数据的时候,喜多数据必须登录帐号后才能看到。同一个帐号反问数据太多,网站就提示你非法访问呢。一些政府网站的稳定性是糟糕的。我们采集某个政府网站的公开的房产信息的时候,开启多线程,线程太多,网站很快就崩溃了。我们开玩笑说,豆腐渣工程不光是道路建设上存在,网站建设上一样存在。遇到这些情况,就必须采用某种方法绕过网站的限制。最稳定的解决方法是降低采集的速度。对于大多数政府公开信息采集来说,也是唯一的方法。对于其他的一些网站来说,可能可以通过代理服务器或者ADSL重置换IP的方法解决一些问题。多帐号登录也是一种解决问题的方法。不过,具体问题具体分析。有反采集的网站,会让采集速度降低一两个数量级的。 
==结论==
综合以上因素,实际采集的速度是具体网站具体分析的。采集器模式,多线程,是我们软件开发人员可以控制的因素。机器性能,网速是客户可以控制的因素。网站限制就是被采集网站本身的特性了,是我们和客户无法控制的。这就导致,有些网站采集很快,有些网站采集很慢。不是我们软件的问题,也不是客户运行软件的环境问题,而是网站本身的限制。有客户就有这样的疑问,看你们百度采集的速度飞快,但是采集我们的项目就慢。问题就在这里了。
3,360
个编辑

导航菜单