“Kompass公司企业名录采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
备注
输入
第12行: 第12行:
 
==功能==
 
==功能==
 
===输入===
 
===输入===
   http://cn.kompass.com/searchCompanies?searchType=ALL&acClassif=&text=LED
+
   http://cn.kompass.com
 +
  参数设置出的关键词汇设置为led
 +
 
 
===输出===
 
===输出===
 
*数据文件
 
*数据文件

2016年1月16日 (六) 18:21的版本

摘要

   这个工具按照关键词采集康帕斯的企业名录

展示

20160116 compass ui.gif
20160116 compass data.gif

背景

   康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。

需求

   采集康帕斯上面的某个关键词相关的公司的公司的信息,
   保存为EXCEL文件

功能

输入

  http://cn.kompass.com
  参数设置出的关键词汇设置为led

输出

  • 数据文件
      数据文件.csv
  • 字段列表
      来源,公司名,地址,网址,负责人,职位,电话,员工数目
  • 数据样例
      以“http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/”为例
      http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/,深圳市亮点领先科技有限公司,广东省深圳市龙岗区龙城街道君悦龙庭6栋201 Shenzhen 518172 中国大陆,http://www.ondenn.com,张军辉,总经理,+86 755 84502264,760

处理

设置

20160116 compass setting.gif
您需要修改的四个地方
并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20.
开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。
关键词汇:默认为led,你可以修改为其他的词汇比如car.

备注

这个网站有一些反采集保护措施。 基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。 基于COOOKI的保护,软件内部已经处理。 基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。

其他