“阿里巴巴诚信通企业名录采集”的版本间的差异
来自JsRobot
(→安装) |
(→注意) |
||
(未显示同一用户的5个中间版本) | |||
第1行: | 第1行: | ||
==简介== | ==简介== | ||
− | + | 阿里巴巴的诚信通是最大的企业名录网站,数据最全。 | |
− | + | 阿里巴巴的企业名录的企业都是阿里巴巴认证过的,资料比较详细,也比较可靠。 | |
通过诚信通可以让买家更容易找到有实力的供货商。 | 通过诚信通可以让买家更容易找到有实力的供货商。 | ||
+ | |||
==演示== | ==演示== | ||
[[image:Alibaba_chengxintong_qiyeminglu.gif]] | [[image:Alibaba_chengxintong_qiyeminglu.gif]] | ||
==安装== | ==安装== | ||
− | + | 先安装JsRobot | |
− | + | [[软件安装指南]] | |
+ | |||
+ | 然后安装插件 | ||
+ | [[image:install_ie_plugin.gif]] | ||
==使用== | ==使用== | ||
第19行: | 第23行: | ||
==数据== | ==数据== | ||
− | [[Media:alibaba_chengxintong_qiyeminglu.rar|alibaba_chengxintong_qiyeminglu.rar]] | + | 样例数据[[Media:alibaba_chengxintong_qiyeminglu.rar|alibaba_chengxintong_qiyeminglu.rar]] |
+ | |||
+ | ==注意== | ||
+ | 采集诚信通的数据的时候,如果数据量比较大,会遇到采集不到数据的问题。 | ||
+ | 这个是阿里的反采集措施导致的。当阿里发现某个用户访问的数据太大的时候,就会提示验证码。 | ||
+ | 处理方法是把数据分段采集,发现有验证码的时候,手工输入一下验证码,然后继续采集。 | ||
+ | 具体操作如下: | ||
+ | a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。 | ||
+ | b.如果有验证码就输入验证码后,刷新页面,再次检查时有验证码。如果没有验证码了,就执行c | ||
+ | c.启动采集器,然后指定一个采集页数的范围比如(1到10页或者11到20页),然后开始采集。 | ||
+ | d.在这次采集完后,再刷新一下IE的诚信通页面,查看是否有验证码出来。如果有验证码,再人工输入一下验证码。 |
2016年8月31日 (三) 08:09的最新版本
简介
阿里巴巴的诚信通是最大的企业名录网站,数据最全。 阿里巴巴的企业名录的企业都是阿里巴巴认证过的,资料比较详细,也比较可靠。 通过诚信通可以让买家更容易找到有实力的供货商。
演示
安装
先安装JsRobot 软件安装指南
然后安装插件![]()
使用
在开始采集前, 必须先安装好插件, 然后先在IE里登陆诚信通的帐号, 然后搜索某个的关键词, 然后把IE的地址栏里的网址拷贝到JSROBOT的设置里, 然后开始抓取
数据
样例数据alibaba_chengxintong_qiyeminglu.rar
注意
采集诚信通的数据的时候,如果数据量比较大,会遇到采集不到数据的问题。 这个是阿里的反采集措施导致的。当阿里发现某个用户访问的数据太大的时候,就会提示验证码。 处理方法是把数据分段采集,发现有验证码的时候,手工输入一下验证码,然后继续采集。 具体操作如下: a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。 b.如果有验证码就输入验证码后,刷新页面,再次检查时有验证码。如果没有验证码了,就执行c c.启动采集器,然后指定一个采集页数的范围比如(1到10页或者11到20页),然后开始采集。 d.在这次采集完后,再刷新一下IE的诚信通页面,查看是否有验证码出来。如果有验证码,再人工输入一下验证码。