“百度贴吧采集工具”的版本间的差异
来自JsRobot
(创建页面,内容为“==摘要== 这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。 ==展示== image:20160111_baidu_ui.gif<br> ...”) |
|||
第1行: | 第1行: | ||
==摘要== | ==摘要== | ||
− | + | 这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。 | |
+ | |||
==展示== | ==展示== | ||
[[image:20160111_baidu_ui.gif]]<br> | [[image:20160111_baidu_ui.gif]]<br> |
2016年3月16日 (三) 10:21的版本
摘要
这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。
展示
背景
大多数的业务员找客户还是通过百度搜索。 通过百度搜索找到自己要找的企业, 然后进一步找到联系方式打电话。
需求
可以输入关键词 要求每次采集发现新的企业网址 支持关键词过滤无效网址
功能
输入
输出
处理
模拟人工查询的方法输入关键词 获取查询结果 解析返回结果中的标题 内容 网址 根据网址的域名进行网址过滤 根据网址的域名进行网址去重 保存新发现的结果 解析结果内容, 提取QQ 微信 电话 邮箱
使用
备注
由于无法把各个企业的官网的格式是千差万别的, 无法调转到特定企业的官网去进一步获取联系方式 这个是一个缺憾。