3,360
个编辑
更改
无编辑摘要
当然,如果也有人真的想成为数据采集的高手,的确可以自己学习。
但是对大多数人来说,想吃鸡蛋是不用买一只鸡养在家里下蛋的。
工具一般都是很廉价的,解决问题的技能学习成本却很高。
对于简单的网页来说,可能只需要懂得什么叫HTML。以前很古老的网页大都是直接用HTML写的。
对于稍微复杂点的网页来说,可能就需要懂得AJAX。现在新的网页大部分都是用来AJAX技术来获取一些易变的信息。
对于更复杂的网页就可能要知道什么叫做COOKIE,怎么处理COOKIE。如果需要登录才能看到的信息就是需要处理COOKIE的。
对于超复杂的网页来说,你可能就需要知道什么叫做反采集技术。什么叫做换IP,什么叫做多用户登录等等。
许多采集器宣传的时候是说支持所拥有的网页。这个理论上是没有任何问题。但是实际上是把网站的差异性的处理是推给客户的。
我们的一些客户就是买了通用的采集器,但是没有时间去学习采集的知识才找我们的。