简介
易撰网的文章很多是畅销贴,点击量非常高,采集下来是非常有价值的。
为了方便的查看数据,我们写了一个提取数据的工具。
功能
操作说明
1、提取参数,先下载安装谷歌浏览器,然后打开网址登录,并设置好筛选条件,按F12,弹出开发工具,选择network,然后手动翻一页,再选择左边选择左边的HotMContent的最新数据包,选择Headers,选择From Data,选择view Parsed,然后按住鼠标左键,从左边拖到右边,ctrl+v复制,然后复制到软件里参数提取后面。
自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。
先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。
2、选择全部批量采集,生成百家号任务清单.txt文件。
3、选择批量采集百家号任务清单,即可下载图片,生成文章.txt。如样例。
4、带登录的采集,采集的数据量不能太多,否则会跳出反采集措施:验证码,所以设置了开始页数和结束页数,可以进行分段采集,既可以采集完整,又可以避开反采集措施。
演示
数据
备注
采集有两个必要条件:
需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。
需要在谷歌里访问要采集的网站,并把过滤条件都设置好,复制出参数粘贴到软件的参数提取后面。