==摘要==
这个工具解决提取百度搜索结果获取企业网址以及电话和QQ和微信的问题。==展示==[[image:20160111_baidu_ui.gif]]<br>[[image:20160111_baidu_view_data.gif]]<br>这个工具是用户根据需要提取百度贴吧的帖子内容。
==背景==
大多数的业务员找客户还是通过百度搜索。 百度搜索还是很多人用的最多的网站之一, 通过百度搜索找到自己要找的企业, 需要在网站上面分析一些热点话题, 然后进一步找到联系方式打电话。 采集这些话题用于数据分析或者毕业论文的依据。==需求== 通过百度搜索找到自己要找的话题进行采集, 可以输入关键词 然后对于这些话题进行数据分析。 要求每次采集发现新的企业网址 支持关键词过滤无效网址
==功能==
===输入=== 功能一. 采集指定贴吧的所有发帖内容===输出=== [[image:BaiDuTieBa_TieBaTieZi.png]]===处理=== 模拟人工查询的方法输入关键词功能二.采集指定帖子的内容和回复内容 获取查询结果[[image:BaiDuTieBa_TieZiHeHuiFu.png]] 解析返回结果中的标题 内容 网址数据保存为下面几种格式 根据网址的域名进行网址过滤CSV格式,方便EXCEL打开,方便后续的数据处理 根据网址的域名进行网址去重HTM格式,方便WORD打开,方便后去的文档处理。 保存新发现的结果TXT格式,方便直接查看。 解析结果内容, 提取QQ 微信 电话 邮箱功能三.采集指定人的所有发帖及回复 [[image:BaiDuTieBa_MouRenTieZiHeHuiFu.png]] ==使用演示== [[image:20160111_baidu_ui_settingBaiDuTieBaCaiJi_Use.gif]] ==输出== 数据样例[[media:BaiDuTieBaCaiJi_Dat.rar]] [[image:BaiDuTieBaCaiJi_TieZi.png]] [[image:BaiDuTieBaCaiJi_HuiFu.png]] [[image:BaiDuTieBaCaiJi_Word.png]]
==备注==
由于无法把各个企业的官网的格式是千差万别的,应用者根据自己需要找到需要分析的热点话题进行采集, 无法调转到特定企业的官网去进一步获取联系方式 这个是一个缺憾。对收集到的数据进行数据分析。