“Kompass公司企业名录采集”的版本间的差异
来自JsRobot
(→备注) |
|||
第1行: | 第1行: | ||
− | == | + | ==简介== |
这个工具按照关键词采集康帕斯的企业名录 | 这个工具按照关键词采集康帕斯的企业名录 | ||
− | |||
− | |||
− | |||
− | |||
− | |||
康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。 | 康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。 | ||
− | == | + | ==功能== |
采集康帕斯上面的某个关键词相关的公司的公司的信息, | 采集康帕斯上面的某个关键词相关的公司的公司的信息, | ||
保存为EXCEL文件 | 保存为EXCEL文件 | ||
− | == | + | ==演示== |
− | + | [[image:kompass_use.gif]] | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
==设置== | ==设置== | ||
− | [[image:20160116_compass_setting.gif]] | + | [[image:20160116_compass_setting.gif]] |
− | 您需要修改的四个地方 | + | 您需要修改的四个地方 |
− | 并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20. | + | 并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20. |
− | 开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。 | + | 开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。 |
− | 关键词汇:默认为led,你可以修改为其他的词汇比如car. | + | 关键词汇:默认为led,你可以修改为其他的词汇比如car. |
==备注== | ==备注== | ||
− | + | 这个网站有一些反采集保护措施, | |
− | 基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。 | + | 少量数据采集一般不会触发反采集规则, |
− | 基于COOOKI的保护,软件内部已经处理。 | + | 大量时间采集可能会触发反采集规则。 |
− | 基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。 | + | 基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。 |
− | 推荐的处理逻辑是 | + | 基于COOOKI的保护,软件内部已经处理。 |
− | 手工查询你要的关键词, | + | 基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。 |
− | 然后获得查询结果的数目, | + | 推荐的处理逻辑是 |
− | 然后把数目除以20就得到了列表页的个数, | + | 手工查询你要的关键词, |
− | 然后200个列表页一个IP作为一组采集数据。 | + | 然后获得查询结果的数目, |
− | 每采集200个列表页,采集完后,就手动换一下IP. | + | 然后把数目除以20就得到了列表页的个数, |
− | + | 然后200个列表页一个IP作为一组采集数据。 | |
− | + | 每采集200个列表页,采集完后,就手动换一下IP. |
2016年8月2日 (二) 10:07的版本
简介
这个工具按照关键词采集康帕斯的企业名录 康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。
功能
采集康帕斯上面的某个关键词相关的公司的公司的信息, 保存为EXCEL文件
演示
设置
您需要修改的四个地方 并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20. 开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。 关键词汇:默认为led,你可以修改为其他的词汇比如car.
备注
这个网站有一些反采集保护措施, 少量数据采集一般不会触发反采集规则, 大量时间采集可能会触发反采集规则。 基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。 基于COOOKI的保护,软件内部已经处理。 基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。 推荐的处理逻辑是 手工查询你要的关键词, 然后获得查询结果的数目, 然后把数目除以20就得到了列表页的个数, 然后200个列表页一个IP作为一组采集数据。 每采集200个列表页,采集完后,就手动换一下IP.