查看“Kompass公司企业名录采集”的源代码
←
Kompass公司企业名录采集
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==摘要== 这个工具按照关键词采集康帕斯的企业名录 ==展示== [[image:20160116_compass_ui.gif]] <br> [[image:20160116_compass_data.gif]] ==背景== 康帕斯国际集团60多个国家的子公司员工定期面访企业决策人更新数据库内企业信息。中国企业在康帕斯70国子网站上能用25种语言推广,更能找到全球几乎所有主要目标客户信息,获得更多出口机会。 ==需求== 采集康帕斯上面的某个关键词相关的公司的公司的信息, 保存为EXCEL文件 ==功能== ===输入=== http://cn.kompass.com 参数设置出的关键词汇设置为led ===输出=== *数据文件 数据文件.csv *字段列表 来源,公司名,地址,网址,负责人,职位,电话,员工数目 *数据样例 以“http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/”为例 http://cn.kompass.com/c/深圳市亮点领先科技有限公司/cn225671/,深圳市亮点领先科技有限公司,广东省深圳市龙岗区龙城街道君悦龙庭6栋201 Shenzhen 518172 中国大陆,http://www.ondenn.com,张军辉,总经理,+86 755 84502264,760 ===处理=== 模拟打开某个关键词的搜索页面<br> 解析是搜索结果的分页<br> 解析每个分页中的公司信息的网址<br> 解析公司信息网页的公司信息内容<br> ==设置== [[image:20160116_compass_setting.gif]]<br> 您需要修改的四个地方<br> 并行任务数:这个就是线程数,数值越大,速度越快。最大不要超过20.<br> 开始页面和采集页数:从第几页开始采集多少页。这个是为了方便客户一个区间一个区间的采集数据。<br> 关键词汇:默认为led,你可以修改为其他的词汇比如car.<br> ==备注== 这个网站有一些反采集保护措施。 基础的保护有两点:一个是基于COOKIE的保护,一个是基于IP的保护。 基于COOOKI的保护,软件内部已经处理。 基于IP的保护,你可以通过分区快采集加上换IP的方式绕过。 ==其他==
返回至
Kompass公司企业名录采集
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息