“阿里巴巴诚信通企业名录采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
注意
 
第26行: 第26行:
  
 
==注意==
 
==注意==
     采集诚信通的数据的时候,如果数据量比较大,会遇到饭采集的问题。
+
     采集诚信通的数据的时候,如果数据量比较大,会遇到采集不到数据的问题。
     具体表现特征就是采集一段时间之后,就出现验证码。
+
     这个是阿里的反采集措施导致的。当阿里发现某个用户访问的数据太大的时候,就会提示验证码。
     处理方法是把数据分段采集。
+
     处理方法是把数据分段采集,发现有验证码的时候,手工输入一下验证码,然后继续采集。
 
     具体操作如下:
 
     具体操作如下:
 
     a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。
 
     a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。

2016年8月31日 (三) 08:09的最新版本

简介

     阿里巴巴的诚信通是最大的企业名录网站,数据最全。
     阿里巴巴的企业名录的企业都是阿里巴巴认证过的,资料比较详细,也比较可靠。
     通过诚信通可以让买家更容易找到有实力的供货商。

演示

     Alibaba chengxintong qiyeminglu.gif

安装

     先安装JsRobot
     软件安装指南
     然后安装插件
     Install ie plugin.gif

使用

     在开始采集前,
     必须先安装好插件,
     然后先在IE里登陆诚信通的帐号,
     然后搜索某个的关键词,
     然后把IE的地址栏里的网址拷贝到JSROBOT的设置里,
     然后开始抓取

数据

    样例数据alibaba_chengxintong_qiyeminglu.rar

注意

    采集诚信通的数据的时候,如果数据量比较大,会遇到采集不到数据的问题。
    这个是阿里的反采集措施导致的。当阿里发现某个用户访问的数据太大的时候,就会提示验证码。
    处理方法是把数据分段采集,发现有验证码的时候,手工输入一下验证码,然后继续采集。
    具体操作如下:
    a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。
    b.如果有验证码就输入验证码后,刷新页面,再次检查时有验证码。如果没有验证码了,就执行c
    c.启动采集器,然后指定一个采集页数的范围比如(1到10页或者11到20页),然后开始采集。
    d.在这次采集完后,再刷新一下IE的诚信通页面,查看是否有验证码出来。如果有验证码,再人工输入一下验证码。