“Kompass公司企业名录采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
备注
第1行: 第1行:
==摘要==
+
==简介==
 
     这个工具按照关键词采集康帕斯的企业名录
 
     这个工具按照关键词采集康帕斯的企业名录
==展示==
 
[[image:20160116_compass_ui.gif]]
 
<br>
 
[[image:20160116_compass_data.gif]]
 
==背景==
 
 
     康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。
 
     康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。
==需求==
+
==功能==
 
     采集康帕斯上面的某个关键词相关的公司的公司的信息,
 
     采集康帕斯上面的某个关键词相关的公司的公司的信息,
 
     保存为EXCEL文件
 
     保存为EXCEL文件
==功能==
+
==演示==
===输入===
+
    [[image:kompass_use.gif]]
  http://cn.kompass.com
+
  参数设置出的关键词汇设置为led
+
 
+
===输出===
+
*数据文件
+
      数据文件.csv
+
*字段列表
+
      来源,公司名,地址,网址,负责人,职位,电话,员工数目
+
*数据样例
+
      以“http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/”为例
+
      http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/,深圳市亮点领先科技有限公司,广东省深圳市龙岗区龙城街道君悦龙庭6栋201 Shenzhen 518172 中国大陆,http://www.ondenn.com,张军辉,总经理,+86 755 84502264,760
+
===处理===
+
模拟打开某个关键词的搜索页面<br>
+
解析是搜索结果的分页<br>
+
解析每个分页中的公司信息的网址<br>
+
解析公司信息网页的公司信息内容<br>
+
 
+
 
==设置==
 
==设置==
[[image:20160116_compass_setting.gif]]<br>
+
    [[image:20160116_compass_setting.gif]]
您需要修改的四个地方<br>
+
    您需要修改的四个地方
并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20.<br>
+
    并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20.
开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。<br>
+
    开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。
关键词汇:默认为led,你可以修改为其他的词汇比如car.<br>
+
    关键词汇:默认为led,你可以修改为其他的词汇比如car.
  
 
==备注==
 
==备注==
这个网站有一些反采集保护措施。<br>
+
    这个网站有一些反采集保护措施,
基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。<br>
+
    少量数据采集一般不会触发反采集规则,
基于COOOKI的保护,软件内部已经处理。<br>
+
    大量时间采集可能会触发反采集规则。
基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。<br>
+
    基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。
推荐的处理逻辑是
+
    基于COOOKI的保护,软件内部已经处理。
手工查询你要的关键词,
+
    基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。
然后获得查询结果的数目,
+
    推荐的处理逻辑是
然后把数目除以20就得到了列表页的个数,
+
    手工查询你要的关键词,
然后200个列表页一个IP作为一组采集数据。
+
    然后获得查询结果的数目,
每采集200个列表页,采集完后,就手动换一下IP.
+
    然后把数目除以20就得到了列表页的个数,
 
+
    然后200个列表页一个IP作为一组采集数据。
==其他==
+
    每采集200个列表页,采集完后,就手动换一下IP.

2016年8月2日 (二) 10:07的版本

简介

   这个工具按照关键词采集康帕斯的企业名录
   康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。

功能

   采集康帕斯上面的某个关键词相关的公司的公司的信息,
   保存为EXCEL文件

演示

   Kompass use.gif

设置

   20160116 compass setting.gif
   您需要修改的四个地方
   并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20.
   开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。
   关键词汇:默认为led,你可以修改为其他的词汇比如car.

备注

   这个网站有一些反采集保护措施,
   少量数据采集一般不会触发反采集规则,
   大量时间采集可能会触发反采集规则。
   基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。
   基于COOOKI的保护,软件内部已经处理。
   基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。
   推荐的处理逻辑是
   手工查询你要的关键词,
   然后获得查询结果的数目,
   然后把数目除以20就得到了列表页的个数,
   然后200个列表页一个IP作为一组采集数据。
   每采集200个列表页,采集完后,就手动换一下IP.