“百度贴吧采集工具”的版本间的差异
来自JsRobot
(→功能) |
(→输出) |
||
| 第23行: | 第23行: | ||
==输出== | ==输出== | ||
数据样例[[media:BaiDuTieBaCaiJi_Dat.rar]] | 数据样例[[media:BaiDuTieBaCaiJi_Dat.rar]] | ||
| + | |||
| + | [[image:BaiDuTieBaCaiJi_TieZi.png]] | ||
| + | |||
| + | [[image:BaiDuTieBaCaiJi_HuiFu.png]] | ||
| + | |||
| + | [[image:BaiDuTieBaCaiJi_Word.png]] | ||
==备注== | ==备注== | ||
应用者根据自己需要找到需要分析的热点话题进行采集, | 应用者根据自己需要找到需要分析的热点话题进行采集, | ||
对收集到的数据进行数据分析。 | 对收集到的数据进行数据分析。 | ||
2016年8月27日 (六) 18:41的版本
摘要
这个工具是用户根据需要提取百度贴吧的帖子内容。
背景
百度搜索还是很多人用的最多的网站之一,
需要在网站上面分析一些热点话题,
采集这些话题用于数据分析或者毕业论文的依据。
通过百度搜索找到自己要找的话题进行采集,
然后对于这些话题进行数据分析。
功能
主要提取发帖内容和回复内容
发帖内存保存:帖子ID,作者,内容,发帖时间
回复你让保存:帖子ID,回复人,内容,回复时间
数据保存为下面几种格式
CSV格式,方便EXCEL打开,方便后续的数据处理
HTM格式,方便WORD打开,方便后去的文档处理。
TXT格式,方便直接查看。
使用
输出
数据样例media:BaiDuTieBaCaiJi_Dat.rar
备注
应用者根据自己需要找到需要分析的热点话题进行采集,
对收集到的数据进行数据分析。



