更改

百度贴吧采集工具

删除20字节, 2016年10月13日 (四) 15:15
无编辑摘要
==摘要==
这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。 ==展示==[[image:201603161.png]]<br>[[image:201603162.png]]<br>[[image:201603163.png]]<br>这个工具是用户根据需要提取百度贴吧的帖子内容。
==背景==
通过百度搜索找到自己要找的话题进行采集,
然后对于这些话题进行数据分析。
 
==需求==
应用者根据自己需要找到需要分析的热点话题进行采集,
对收集到的数据进行数据分析。
==功能==
===输入======输出=== 功能一. 采集指定贴吧的所有发帖内容 [[image:201603163BaiDuTieBa_TieBaTieZi.png]]<br>
===处理=== 模拟人工查询的方法输入关键词 获取查询结果功能二.采集指定帖子的内容和回复内容 解析返回结果中的标题 作者 内容 最后回复时间 回复数目 话题编号[[image:BaiDuTieBa_TieZiHeHuiFu.png]] 根据网址的域名进行网址过滤数据保存为下面几种格式 根据网址的域名进行网址去重CSV格式,方便EXCEL打开,方便后续的数据处理 保存新发现的结果HTM格式,方便WORD打开,方便后去的文档处理。 解析结果内容TXT格式,方便直接查看。
功能三.采集指定人的所有发帖及回复 [[image:BaiDuTieBa_MouRenTieZiHeHuiFu.png]] ==使用演示== [[image:BaiDuTieBaCaiJi_Use.gif]] ==输出== 数据样例[[media:BaiDuTieBaCaiJi_Dat.rar]]  [[image:BaiDuTieBaCaiJi_TieZi.png]]  [[image:BaiDuTieBaCaiJi_HuiFu.png]]  [[image:BaiDuTieBaCaiJi_Word.png]]
==备注==
由于无法把各个企业的官网的格式是千差万别的,应用者根据自己需要找到需要分析的热点话题进行采集, 无法调转到特定企业的官网去进一步获取联系方式 这个是一个缺憾。对收集到的数据进行数据分析。
3,360
个编辑