“百度贴吧采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
用户根据需求采集热点话题,采集数据进行分析
需求
第16行: 第16行:
 
==需求==
 
==需求==
 
       应用者根据自己需要找到需要分析的热点话题进行采集,
 
       应用者根据自己需要找到需要分析的热点话题进行采集,
    对收集到的数据进行数据分析。
+
      对收集到的数据进行数据分析。
  
 
==功能==
 
==功能==

2016年3月16日 (三) 10:53的版本

摘要

     这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。

展示

201603161.png
201603162.png
201603163.png

背景

    百度搜索还是很多人用的最多的网站之一,
    需要在网站上面分析一些热点话题,
    采集这些话题用于数据分析或者毕业论文的依据。
    通过百度搜索找到自己要找的话题进行采集,
    然后对于这些话题进行数据分析。

需求

     应用者根据自己需要找到需要分析的热点话题进行采集,
     对收集到的数据进行数据分析。

功能

输入

输出

201603163.png

处理

     模拟人工查询的方法输入关键词
     获取查询结果
     解析返回结果中的标题 内容 网址
     根据网址的域名进行网址过滤
     根据网址的域名进行网址去重
     保存新发现的结果
     解析结果内容,
     提取QQ 微信 电话 邮箱

使用

20160111 baidu ui setting.gif

备注

     由于无法把各个企业的官网的格式是千差万别的,
     无法调转到特定企业的官网去进一步获取联系方式
     这个是一个缺憾。