“百度贴吧采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
备注
展示
第3行: 第3行:
  
 
==展示==
 
==展示==
[[image:201603161.png]]<br>
+
    [[]]
[[image:201603162.png]]<br>
+
[[image:201603163.png]]<br>
+
  
 
==背景==
 
==背景==

2016年8月27日 (六) 19:16的版本

摘要

     这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。

展示

   [[]]

背景

    百度搜索还是很多人用的最多的网站之一,
    需要在网站上面分析一些热点话题,
    采集这些话题用于数据分析或者毕业论文的依据。
    通过百度搜索找到自己要找的话题进行采集,
    然后对于这些话题进行数据分析。

需求

     应用者根据自己需要找到需要分析的热点话题进行采集,
     对收集到的数据进行数据分析。

功能

输入

输出

201603163.png

处理

     模拟人工查询的方法输入关键词
     获取查询结果
     解析返回结果中的标题 作者 内容 最后回复时间 回复数目 话题编号
     根据网址的域名进行网址过滤
     根据网址的域名进行网址去重
     保存新发现的结果
     解析结果内容

使用

备注