3,360
个编辑
更改
易撰网信息采集
,→备注
==功能==
采集目标
https://wwwq.yizhuan5.com/work.html#1-4
采集要求
采集自媒体下百家号的文章
https://mbd.baidu.com/newspage/data/landingshare?context=%7B%22nid%22%3A%22news_9499981322380932157%22%2C%22sourceFrom%22%3A%22bjh%22%7D
按图片+TXT文章的格式下载,文件夹命名为文章的标题,文章.txt和下载的图片都保存在文件夹里,文章.txt里,需要把图片位置替换为 这里是文章图片\0.JPG,这里是文章图片\1.JPG等等。
因为有的百家号作者不是原创,需要过滤,所以设置了 过滤百家号作者文件.txt,进行过滤,里面的作者名一个一行,回车符分开保存。
输出数据
==操作说明==
自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。
先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。
2、选择全部批量采集,生成百家号任务清单.txt文件。
3、选择批量采集百家号任务清单,即可下载图片,生成文章.txt。如样例。
4、带登录的采集,采集的数据量不能太多,否则会跳出反采集措施:验证码,所以设置了开始页数和结束页数,可以进行分段采集,既可以采集完整,又可以避开反采集措施。
==演示==
[[image:yizhuanwang_canshu.gif]]
[[image:yizhuanwang.gif]]
==数据==
数据样例:[[Media:oced_datayizhuanwang.rar|oced_datayizhuanwang.rar]]
==备注==
采集有两个必要条件:
需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。