“百度贴吧采集工具”的版本间的差异
来自JsRobot
(→摘要) |
(→需求) |
||
第12行: | 第12行: | ||
然后对于这些话题进行数据分析。 | 然后对于这些话题进行数据分析。 | ||
− | == | + | ==功能== |
应用者根据自己需要找到需要分析的热点话题进行采集, | 应用者根据自己需要找到需要分析的热点话题进行采集, | ||
对收集到的数据进行数据分析。 | 对收集到的数据进行数据分析。 | ||
+ | 主要提取发帖内容和回复内容 | ||
+ | 发帖内存保存:帖子ID,作者,内容,发帖时间 | ||
+ | 回复你让保存:帖子ID,回复人,内容,回复时间 | ||
==功能== | ==功能== |
2016年8月27日 (六) 19:21的版本
摘要
这个工具是用户根据需要提取百度贴吧的话题的内容。
使用
背景
百度搜索还是很多人用的最多的网站之一, 需要在网站上面分析一些热点话题, 采集这些话题用于数据分析或者毕业论文的依据。 通过百度搜索找到自己要找的话题进行采集, 然后对于这些话题进行数据分析。
功能
应用者根据自己需要找到需要分析的热点话题进行采集, 对收集到的数据进行数据分析。 主要提取发帖内容和回复内容 发帖内存保存:帖子ID,作者,内容,发帖时间 回复你让保存:帖子ID,回复人,内容,回复时间
功能
输入
输出
处理
模拟人工查询的方法输入关键词 获取查询结果 解析返回结果中的标题 作者 内容 最后回复时间 回复数目 话题编号 根据网址的域名进行网址过滤 根据网址的域名进行网址去重 保存新发现的结果 解析结果内容