查看“百家号信息提取文件工具”的源代码
←
百家号信息提取文件工具
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==简介== 百家号个人文章的数据是很有价值的,可以统计关注的百度号一段时期内的热评和阅读量。 为了方便的查看数据,我们写了一个提取数据的工具。 ==功能== 采集目标 https://mi.mbd.baidu.com/d6zvxvq?f=cp 采集要求 选择抓取的时间段:比如选择2018年5月1号--2018年6月1号的数据 添加网址,能一起抓取。抓取后可以按照阅读量排序或者评论排序 采集字段:标题,标题链接,评论,时间,作者,阅读量 输出数据 ==操作说明== 设置采集页数=100,把100改为2,可以测试 设置开始时间,结束时间,开始时间不能大于结束时间,否则软件报错。 ==演示== [[image:baijiahaowenzhang.jpg]] ==数据== 数据样例:[[Media:baijiahaowenzhang.rar|baijiahaowenzhang.rar]] ==备注== 采集有三个必要条件: 1、需要在IE11里登录百度号 2、打开一个百度号页面 3、采集的开始时间不能太早,带登录的,采集数据量过大,就会触发网站反采集措施,就无法采集了,然后需要清理缓存文件,重新启动路由器,再在IE里登录,运行软件采集。
返回至
百家号信息提取文件工具
。
导航菜单
个人工具
3.145.149.120
该IP地址的讨论
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息