更改

跳转至: 导航搜索

你们软件的速度快吗

添加1,073字节, 2016年1月11日 (一) 16:27
无编辑摘要
==影响采集器速度的因素==
影响采集速度的问题有几个:采集器模式是什么,是否支持多线程,机器性能怎么样,你的网速快慢,网站是否有速度限制影响采集速度的问题有几个:采集器模式是什么,是否支持多线程,机器性能怎么样,你的网速快慢,网站有什么限制...
====采集器模式===
采集方案有主要的分支两种,一种是浏览器模式的,一种是直接发HTTP包模式的。
===网络速度===
网络速度就好比是公路的宽窄。公路越宽,容纳的车流量就越多。这个就没有什么特别的了。在大陆,一般情况下,网速都不是一个问题。但是海外网站的采集,网速就是一个大问题。如果访问海外的网站太慢,火鹤干脆无法访问,客户就需要自己购买VPN去翻墙。现在一般VPN都会提供许多个服务器。你可以多试几个,找一个相应最快的服务器作为你的VPN服务器。
===网站限制===
有些网站是有限制的。采集微博数据的时候,喜多数据必须登录帐号后才能看到。同一个帐号反问数据一多,网站就提示你非法访问呢。一些政府网站的稳定性是糟糕的。我们采集某个政府网站的公开的房产信息的时候,开启多线程,线程太多,网站很快就崩溃了。遇到这种情况,就必须降低采集的速度,绕过网站的限制。
==结论==
综合以上因素,实际采集的速度是具体网站具体分析的。采集器模式,多线程,是我们软件开发人员可以控制的因素。机器性能,网速是客户可以控制的因素。网站限制就是被采集网站本身的特性了,是我们和客户无法控制的。这就导致,有些网站采集很快,有些网站采集很慢。不是我们软件的问题,也不是客户运行软件的环境问题,而是网站本身的限制。有客户就有这样的疑问,看你们百度采集的速度飞快,但是采集我们的项目就慢。问题就在这里了。
3,360
个编辑

导航菜单