百度贴吧采集工具

Storm讨论 | 贡献2016年8月27日 (六) 19:37的版本 功能

Storm讨论 | 贡献2016年8月27日 (六) 19:37的版本 功能

摘要

     这个工具是用户根据需要提取百度贴吧的帖子内容。

背景

    百度搜索还是很多人用的最多的网站之一,
    需要在网站上面分析一些热点话题,
    采集这些话题用于数据分析或者毕业论文的依据。
    通过百度搜索找到自己要找的话题进行采集,
    然后对于这些话题进行数据分析。

功能

     主要提取发帖内容和回复内容
     发帖内存保存:帖子ID,作者,内容,发帖时间
     回复你让保存:帖子ID,回复人,内容,回复时间
     数据保存为下面几种格式
     CSV格式,方便EXCEL打开,方便后续的数据处理
     HTM格式,方便WORD打开,方便后去的文档处理。
     TXT格式,方便直接查看。

使用

   BaiDuTieBaCaiJi Use.gif

输出

     数据样例media:BaiDuTieBaCaiJi_Dat.rar

备注

     应用者根据自己需要找到需要分析的热点话题进行采集,
     对收集到的数据进行数据分析。