百度贴吧采集工具

Storm讨论 | 贡献2016年3月16日 (三) 10:16的版本 (创建页面,内容为“==摘要== 这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。 ==展示== image:20160111_baidu_ui.gif<br> ...”)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
Storm讨论 | 贡献2016年3月16日 (三) 10:16的版本 (创建页面,内容为“==摘要== 这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。 ==展示== image:20160111_baidu_ui.gif<br> ...”)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

摘要

     这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。

展示

20160111 baidu ui.gif
20160111 baidu view data.gif

背景

     大多数的业务员找客户还是通过百度搜索。
     通过百度搜索找到自己要找的企业,
     然后进一步找到联系方式打电话。

需求

     可以输入关键词
     要求每次采集发现新的企业网址
     支持关键词过滤无效网址

功能

输入

输出

处理

     模拟人工查询的方法输入关键词
     获取查询结果
     解析返回结果中的标题 内容 网址
     根据网址的域名进行网址过滤
     根据网址的域名进行网址去重
     保存新发现的结果
     解析结果内容,
     提取QQ 微信 电话 邮箱

使用

20160111 baidu ui setting.gif

备注

     由于无法把各个企业的官网的格式是千差万别的,
     无法调转到特定企业的官网去进一步获取联系方式
     这个是一个缺憾。