“百度贴吧采集工具”的版本间的差异
来自JsRobot
(→处理) |
(→处理) |
||
| 第30行: | 第30行: | ||
根据网址的域名进行网址去重 | 根据网址的域名进行网址去重 | ||
保存新发现的结果 | 保存新发现的结果 | ||
| − | + | 解析结果内容 | |
==使用== | ==使用== | ||
2016年3月16日 (三) 10:57的版本
摘要
这个工具是用户根据需要提取百度贴吧的话题的工具,主要提取标题,作者,内容,最后回复时间和回复数目的,用于数据分析。
展示
背景
百度搜索还是很多人用的最多的网站之一,
需要在网站上面分析一些热点话题,
采集这些话题用于数据分析或者毕业论文的依据。
通过百度搜索找到自己要找的话题进行采集,
然后对于这些话题进行数据分析。
需求
应用者根据自己需要找到需要分析的热点话题进行采集,
对收集到的数据进行数据分析。
功能
输入
输出
处理
模拟人工查询的方法输入关键词
获取查询结果
解析返回结果中的标题 作者 内容 最后回复时间 回复数目 话题编号
根据网址的域名进行网址过滤
根据网址的域名进行网址去重
保存新发现的结果
解析结果内容
使用
备注
由于无法把各个企业的官网的格式是千差万别的,
无法调转到特定企业的官网去进一步获取联系方式
这个是一个缺憾。



