百度搜索采集工具

来自JsRobot
Storm讨论 | 贡献2016年1月18日 (一) 04:31的版本 (创建页面,内容为“==摘要== 这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。 ==展示== ==背景== 大多数的业务...”)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

摘要

     这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。

展示

背景

     大多数的业务员找客户还是通过百度搜索。
     通过百度搜索找到自己要找的企业,
     然后进一步找到联系方式打电话。

需求

     可以输入关键词
     要求每次采集发现新的企业网址
     支持关键词过滤无效网址

功能

输入

输出

处理

     模拟人工查询的方法输入关键词
     获取查询结果
     解析返回结果中的标题 内容 网址
     根据网址的域名进行网址过滤
     根据网址的域名进行网址去重
     保存新发现的结果

备注

     由于无法把各个企业的官网的格式是千差万别的,
     无法调转到特定企业的官网去进一步获取联系方式
     这个是一个缺憾。