查看“阿里巴巴诚信通企业名录采集”的源代码
←
阿里巴巴诚信通企业名录采集
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==简介== 阿里巴巴的诚信通是最大的企业名录网站,数据最全。 阿里巴巴的企业名录的企业都是阿里巴巴认证过的,资料比较详细,也比较可靠。 通过诚信通可以让买家更容易找到有实力的供货商。 ==演示== [[image:Alibaba_chengxintong_qiyeminglu.gif]] ==安装== 先安装JsRobot [[软件安装指南]] 然后安装插件 [[image:install_ie_plugin.gif]] ==使用== 在开始采集前, 必须先安装好插件, 然后先在IE里登陆诚信通的帐号, 然后搜索某个的关键词, 然后把IE的地址栏里的网址拷贝到JSROBOT的设置里, 然后开始抓取 ==数据== 样例数据[[Media:alibaba_chengxintong_qiyeminglu.rar|alibaba_chengxintong_qiyeminglu.rar]] ==注意== 采集诚信通的数据的时候,如果数据量比较大,会遇到采集不到数据的问题。 这个是阿里的反采集措施导致的。当阿里发现某个用户访问的数据太大的时候,就会提示验证码。 处理方法是把数据分段采集,发现有验证码的时候,手工输入一下验证码,然后继续采集。 具体操作如下: a.先刷新IE里的诚信通页面,然后查看页面是否有验证码。 b.如果有验证码就输入验证码后,刷新页面,再次检查时有验证码。如果没有验证码了,就执行c c.启动采集器,然后指定一个采集页数的范围比如(1到10页或者11到20页),然后开始采集。 d.在这次采集完后,再刷新一下IE的诚信通页面,查看是否有验证码出来。如果有验证码,再人工输入一下验证码。
返回至
阿里巴巴诚信通企业名录采集
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息