“百家号信息提取文件工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
(创建页面,内容为“==简介== 百家号个人文章的数据是很有价值的,可以统计关注的百度号一段时期内的热评和阅读量。 为了方便的查看数...”)
 
演示
 
第14行: 第14行:
 
     设置开始时间,结束时间,开始时间不能大于结束时间,否则软件报错。
 
     设置开始时间,结束时间,开始时间不能大于结束时间,否则软件报错。
 
==演示==
 
==演示==
     [[image:oced_use.gif]]
+
     [[image:baijiahaowenzhang.jpg]]
 +
 
 
==数据==
 
==数据==
 
     数据样例:[[Media:baijiahaowenzhang.rar|baijiahaowenzhang.rar]]
 
     数据样例:[[Media:baijiahaowenzhang.rar|baijiahaowenzhang.rar]]

2018年9月3日 (一) 06:52的最新版本

简介

   百家号个人文章的数据是很有价值的,可以统计关注的百度号一段时期内的热评和阅读量。
   为了方便的查看数据,我们写了一个提取数据的工具。

功能

   采集目标
   https://mi.mbd.baidu.com/d6zvxvq?f=cp 
   采集要求
   选择抓取的时间段:比如选择2018年5月1号--2018年6月1号的数据
   添加网址,能一起抓取。抓取后可以按照阅读量排序或者评论排序
   采集字段:标题,标题链接,评论,时间,作者,阅读量
   输出数据

操作说明

   设置采集页数=100,把100改为2,可以测试
   设置开始时间,结束时间,开始时间不能大于结束时间,否则软件报错。

演示

   Baijiahaowenzhang.jpg

数据

   数据样例:baijiahaowenzhang.rar

备注

   采集有三个必要条件:
   1、需要在IE11里登录百度号
   2、打开一个百度号页面
   3、采集的开始时间不能太早,带登录的,采集数据量过大,就会触发网站反采集措施,就无法采集了,然后需要清理缓存文件,重新启动路由器,再在IE里登录,运行软件采集。