更改

跳转至: 导航搜索

你们软件的速度快吗

添加1字节, 2016年1月11日 (一) 16:28
网络速度
机器性能就好比是工厂的大小的一样。多线程的线程数是与机器的性能有直接关系的。工厂大了,容纳的干活的人多了,整体的效率就很好。这个就没有什么取巧的了。当然多个电脑也是一种解决方案。不过,我们的客户大多数都只要一台电脑做采集就可以了。毕竟,直接HTTP包模式加上多线程,速度已经非常快了。
===网络速度===
网络速度就好比是公路的宽窄。公路越宽,容纳的车流量就越多。这个就没有什么特别的了。在大陆,一般情况下,网速都不是一个问题。但是海外网站的采集,网速就是一个大问题。如果访问海外的网站太慢,火鹤干脆无法访问,客户就需要自己购买VPN去翻墙。现在一般VPN都会提供许多个服务器。你可以多试几个,找一个相应最快的服务器作为你的VPN服务器。网络速度就好比是公路的宽窄。公路越宽,容纳的车流量就越多。这个就没有什么特别的了。在大陆,一般情况下,网速都不是一个问题。但是海外网站的采集,网速就是一个大问题。如果访问海外的网站太慢,或者干脆无法访问,客户就需要自己购买VPN去翻墙。现在一般VPN都会提供许多个服务器。你可以多试几个,找一个相应最快的服务器作为你的VPN服务器。 
===网站限制===
有些网站是有限制的。采集微博数据的时候,喜多数据必须登录帐号后才能看到。同一个帐号反问数据一多,网站就提示你非法访问呢。一些政府网站的稳定性是糟糕的。我们采集某个政府网站的公开的房产信息的时候,开启多线程,线程太多,网站很快就崩溃了。遇到这种情况,就必须降低采集的速度,绕过网站的限制。
==结论==
综合以上因素,实际采集的速度是具体网站具体分析的。采集器模式,多线程,是我们软件开发人员可以控制的因素。机器性能,网速是客户可以控制的因素。网站限制就是被采集网站本身的特性了,是我们和客户无法控制的。这就导致,有些网站采集很快,有些网站采集很慢。不是我们软件的问题,也不是客户运行软件的环境问题,而是网站本身的限制。有客户就有这样的疑问,看你们百度采集的速度飞快,但是采集我们的项目就慢。问题就在这里了。
3,360
个编辑

导航菜单