更改

百度贴吧采集工具

删除38字节, 2016年10月13日 (四) 15:15
无编辑摘要
==摘要==
这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。 ==展示==[[image:201603161.png]]<br>[[image:201603162.png]]<br>[[image:201603163.png]]<br>这个工具是用户根据需要提取百度贴吧的帖子内容。
==背景==
然后对于这些话题进行数据分析。
==需求==
可以输入关键词
要求每次采集发现新的企业网址
支持关键词过滤无效网址
==功能==
功能一. 采集指定贴吧的所有发帖内容 [[image:BaiDuTieBa_TieBaTieZi.png]]  功能二.采集指定帖子的内容和回复内容 [[image:BaiDuTieBa_TieZiHeHuiFu.png]] 数据保存为下面几种格式 CSV格式,方便EXCEL打开,方便后续的数据处理 HTM格式,方便WORD打开,方便后去的文档处理。 TXT格式,方便直接查看。  功能三.采集指定人的所有发帖及回复 [[image:BaiDuTieBa_MouRenTieZiHeHuiFu.png]] ===输入=演示=== [[image:BaiDuTieBaCaiJi_Use.gif]] ==输出=== 数据样例[[media:BaiDuTieBaCaiJi_Dat.rar]]  [[image:BaiDuTieBaCaiJi_TieZi.png]]  [[image:201603163BaiDuTieBaCaiJi_HuiFu.png]]<br>
===处理=== 模拟人工查询的方法输入关键词 获取查询结果 解析返回结果中的标题 内容 网址 根据网址的域名进行网址过滤 根据网址的域名进行网址去重 保存新发现的结果 解析结果内容, 提取QQ 微信 电话 邮箱==使用==[[image:20160111_baidu_ui_settingBaiDuTieBaCaiJi_Word.gifpng]]
==备注==
由于无法把各个企业的官网的格式是千差万别的,应用者根据自己需要找到需要分析的热点话题进行采集, 无法调转到特定企业的官网去进一步获取联系方式 这个是一个缺憾。对收集到的数据进行数据分析。
3,360
个编辑