摘要
这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。
展示
背景
大多数的业务员找客户还是通过百度搜索。
通过百度搜索找到自己要找的企业,
然后进一步找到联系方式打电话。
需求
可以输入关键词
要求每次采集发现新的企业网址
支持关键词过滤无效网址
功能
默认处理
模拟人工查询的方法输入关键词
获取查询结果
解析返回结果中的标题 内容 网址
根据网址的网址进行去重
保存新发现的结果
解析结果内容,
提取第几页、第几条、标题、网址、正文、QQ、微信、电话、邮箱。
批量处理
从一个文本文件读取一组关键词,
从设置位置读取采集的页数,
生成采集任务,
提取这些关键词搜索出来的结果,
根据网址进行去重,
从一个文本文件读取过滤关键词,
保存标题包含这些标题的结果,
解析结果内容,
提取第几页、第几条、标题、真实网址、正文、QQ、微信、电话、邮箱。
使用
备注
由于无法把各个企业的官网的格式是千差万别的,
无法调转到特定企业的官网去进一步获取联系方式
这个是一个缺憾。


