“百度贴吧采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
需求
第1行: 第1行:
 
==摘要==
 
==摘要==
 
       这个工具是用户根据需要提取百度贴吧的话题的内容。
 
       这个工具是用户根据需要提取百度贴吧的话题的内容。
 
==使用==
 
    [[image:BaiDuTieBaCaiJi_Use.gif]]
 
  
 
==背景==
 
==背景==
第13行: 第10行:
  
 
==功能==
 
==功能==
      应用者根据自己需要找到需要分析的热点话题进行采集,
 
      对收集到的数据进行数据分析。
 
 
       主要提取发帖内容和回复内容
 
       主要提取发帖内容和回复内容
 
       发帖内存保存:帖子ID,作者,内容,发帖时间
 
       发帖内存保存:帖子ID,作者,内容,发帖时间
 
       回复你让保存:帖子ID,回复人,内容,回复时间
 
       回复你让保存:帖子ID,回复人,内容,回复时间
  
==功能==
+
==使用==
===输入===
+
    [[image:BaiDuTieBaCaiJi_Use.gif]]
===输出===
+
[[image:201603163.png]]<br>
+
  
===处理===
+
==输出==
      模拟人工查询的方法输入关键词
+
      获取查询结果
+
      解析返回结果中的标题 作者 内容 最后回复时间 回复数目 话题编号
+
      根据网址的域名进行网址过滤
+
      根据网址的域名进行网址去重
+
      保存新发现的结果
+
      解析结果内容
+
 
+
==使用==
+
  
 
==备注==
 
==备注==
 +
      应用者根据自己需要找到需要分析的热点话题进行采集,
 +
      对收集到的数据进行数据分析。

2016年8月27日 (六) 19:22的版本

摘要

     这个工具是用户根据需要提取百度贴吧的话题的内容。

背景

    百度搜索还是很多人用的最多的网站之一,
    需要在网站上面分析一些热点话题,
    采集这些话题用于数据分析或者毕业论文的依据。
    通过百度搜索找到自己要找的话题进行采集,
    然后对于这些话题进行数据分析。

功能

     主要提取发帖内容和回复内容
     发帖内存保存:帖子ID,作者,内容,发帖时间
     回复你让保存:帖子ID,回复人,内容,回复时间

使用

   BaiDuTieBaCaiJi Use.gif

输出

备注

     应用者根据自己需要找到需要分析的热点话题进行采集,
     对收集到的数据进行数据分析。