更改

易撰网信息采集

添加14字节, 2018年11月5日 (一) 17:40
备注
==功能==
采集目标
https://wwwq.yizhuan5.com/work.html#1-4
采集要求
采集自媒体下百家号的文章
==操作说明==
1、提取参数,先下载安装谷歌浏览器,然后打开网址登录,并设置好筛选条件,按F12,弹出开发工具,选择network,然后手动翻一页,再选择左边选择左边的HotMContent的最新数据包,选择Headers,选择From Data,选择view Parsed,然后按住鼠标左键,从左边拖到右边,ctrl+v复制,然后复制到软件里提取参数后面。v复制,然后复制到软件里参数提取后面。
自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。
先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。
采集有两个必要条件:
需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。
需要在谷歌里访问要采集的网站,并把过滤条件都设置好,复制出参数粘贴到软件的提取参数后。需要在谷歌里访问要采集的网站,并把过滤条件都设置好,复制出参数粘贴到软件的参数提取后面。
3,360
个编辑