更改

易撰网信息采集

添加912字节, 2018年11月5日 (一) 17:40

→‎备注

==功能==

采集目标

https://~~www~~q.yizhuan5.com/work.html#1-4

采集要求

采集自媒体下百家号的文章

样例网址：

https://mbd.baidu.com/newspage/data/landingshare?context=%7B%22nid%22%3A%22news_9499981322380932157%22%2C%22sourceFrom%22%3A%22bjh%22%7D

按图片+TXT文章的格式下载，文件夹命名为文章的标题，文章.txt和下载的图片都保存在文件夹里，文章.txt里，需要把图片位置替换为这里是文章图片\0.JPG,这里是文章图片\1.JPG等等。

因为有的百家号作者不是原创，需要过滤，所以设置了过滤百家号作者文件.txt，进行过滤，里面的作者名一个一行，回车符分开保存。

输出数据

==操作说明==

提取参数，先下载安装谷歌浏览器，然后打开网址登录，并设置好筛选条件，按F12，弹出开发工具，选择network，然后手动翻一页，再选择左边选择左边的HotMContent的最新数据包，选择Headers1、提取参数，先下载安装谷歌浏览器，然后打开网址登录，并设置好筛选条件，按F12，弹出开发工具，选择network，然后手动翻一页，再选择左边选择左边的HotMContent的最新数据包，选择Headers,选择From Data,选择view Parsed，然后按住鼠标左键，从左边拖到右边，ctrl+~~v复制，然后复制到软件里提取参数后面。~~v复制，然后复制到软件里参数提取后面。

自动登录做好了。只需要设置好登录账户和密码，还有参数，就可以采集了。

先打开软件，然后选择“全部采集”，点击修改设置，可以设置 --提取参数，采集开始和结束页数。

2、选择全部批量采集，生成百家号任务清单.txt文件。

3、选择批量采集百家号任务清单，即可下载图片，生成文章.txt。如样例。

4、带登录的采集，采集的数据量不能太多，否则会跳出反采集措施：验证码，所以设置了开始页数和结束页数，可以进行分段采集，既可以采集完整，又可以避开反采集措施。

==演示==

[[image:~~oced_use~~yizhuanwang_canshu.gif]] [[image:yizhuanwang.gif]]

==数据==

数据样例:[[Media:~~oced_data~~yizhuanwang.rar|~~oced_data~~yizhuanwang.rar]]

==备注==

采集有两个必要条件：

需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中，也可以新建一个文本重命名。然后里面的作者名一个一行保存。

~~需要在谷歌里访问要采集的网站，并把过滤条件都设置好，复制出参数粘贴到软件的提取参数后。~~需要在谷歌里访问要采集的网站，并把过滤条件都设置好，复制出参数粘贴到软件的参数提取后面。

←上一编辑

Storm

行政员、管理员

3,360

个编辑

更改

易撰网信息采集

JsRobot