“易撰网信息采集”的版本间的差异
来自JsRobot
(创建页面,内容为“==简介== 易撰网的文章很多是畅销贴,点击量非常高,采集下来是非常有价值的。 为了方便的查看数据,我们写了一个...”) |
(→备注) |
||
(未显示同一用户的10个中间版本) | |||
第4行: | 第4行: | ||
==功能== | ==功能== | ||
采集目标 | 采集目标 | ||
− | https:// | + | https://q.yizhuan5.com/work.html#1-4 |
采集要求 | 采集要求 | ||
采集自媒体下百家号的文章 | 采集自媒体下百家号的文章 | ||
第11行: | 第11行: | ||
样例网址: | 样例网址: | ||
https://mbd.baidu.com/newspage/data/landingshare?context=%7B%22nid%22%3A%22news_9499981322380932157%22%2C%22sourceFrom%22%3A%22bjh%22%7D | https://mbd.baidu.com/newspage/data/landingshare?context=%7B%22nid%22%3A%22news_9499981322380932157%22%2C%22sourceFrom%22%3A%22bjh%22%7D | ||
+ | 按图片+TXT文章的格式下载,文件夹命名为文章的标题,文章.txt和下载的图片都保存在文件夹里,文章.txt里,需要把图片位置替换为 这里是文章图片\0.JPG,这里是文章图片\1.JPG等等。 | ||
+ | 因为有的百家号作者不是原创,需要过滤,所以设置了 过滤百家号作者文件.txt,进行过滤,里面的作者名一个一行,回车符分开保存。 | ||
输出数据 | 输出数据 | ||
+ | |||
==操作说明== | ==操作说明== | ||
− | + | 1、提取参数,先下载安装谷歌浏览器,然后打开网址登录,并设置好筛选条件,按F12,弹出开发工具,选择network,然后手动翻一页,再选择左边选择左边的HotMContent的最新数据包,选择Headers,选择From Data,选择view Parsed,然后按住鼠标左键,从左边拖到右边,ctrl+v复制,然后复制到软件里参数提取后面。 | |
自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。 | 自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。 | ||
先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。 | 先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。 | ||
+ | 2、选择全部批量采集,生成百家号任务清单.txt文件。 | ||
+ | 3、选择批量采集百家号任务清单,即可下载图片,生成文章.txt。如样例。 | ||
+ | 4、带登录的采集,采集的数据量不能太多,否则会跳出反采集措施:验证码,所以设置了开始页数和结束页数,可以进行分段采集,既可以采集完整,又可以避开反采集措施。 | ||
+ | |||
==演示== | ==演示== | ||
− | [[image: | + | [[image:yizhuanwang_canshu.gif]] |
+ | [[image:yizhuanwang.gif]] | ||
+ | |||
==数据== | ==数据== | ||
− | 数据样例:[[Media: | + | 数据样例:[[Media:yizhuanwang.rar|yizhuanwang.rar]] |
+ | |||
==备注== | ==备注== | ||
采集有两个必要条件: | 采集有两个必要条件: | ||
需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。 | 需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。 | ||
− | + | 需要在谷歌里访问要采集的网站,并把过滤条件都设置好,复制出参数粘贴到软件的参数提取后面。 |
2018年11月5日 (一) 19:40的最新版本
简介
易撰网的文章很多是畅销贴,点击量非常高,采集下来是非常有价值的。 为了方便的查看数据,我们写了一个提取数据的工具。
功能
采集目标 https://q.yizhuan5.com/work.html#1-4 采集要求 采集自媒体下百家号的文章 需要先登录网站,然后点击筛选,筛选点击量比较高的百家号的文章。 采集字段:网址,公众号,时间,标题,文件 样例网址: https://mbd.baidu.com/newspage/data/landingshare?context=%7B%22nid%22%3A%22news_9499981322380932157%22%2C%22sourceFrom%22%3A%22bjh%22%7D 按图片+TXT文章的格式下载,文件夹命名为文章的标题,文章.txt和下载的图片都保存在文件夹里,文章.txt里,需要把图片位置替换为 这里是文章图片\0.JPG,这里是文章图片\1.JPG等等。 因为有的百家号作者不是原创,需要过滤,所以设置了 过滤百家号作者文件.txt,进行过滤,里面的作者名一个一行,回车符分开保存。 输出数据
操作说明
1、提取参数,先下载安装谷歌浏览器,然后打开网址登录,并设置好筛选条件,按F12,弹出开发工具,选择network,然后手动翻一页,再选择左边选择左边的HotMContent的最新数据包,选择Headers,选择From Data,选择view Parsed,然后按住鼠标左键,从左边拖到右边,ctrl+v复制,然后复制到软件里参数提取后面。 自动登录做好了。只需要设置好登录账户和密码,还有参数,就可以采集了。 先打开软件,然后选择“全部采集”,点击修改设置,可以设置 --提取参数,采集开始和结束页数。 2、选择全部批量采集,生成百家号任务清单.txt文件。 3、选择批量采集百家号任务清单,即可下载图片,生成文章.txt。如样例。 4、带登录的采集,采集的数据量不能太多,否则会跳出反采集措施:验证码,所以设置了开始页数和结束页数,可以进行分段采集,既可以采集完整,又可以避开反采集措施。
演示
数据
数据样例:yizhuanwang.rar
备注
采集有两个必要条件: 需要把“过滤百家号作者文件.txt”文件拷贝到C:\OUTPUT目录中,也可以新建一个文本重命名。然后里面的作者名一个一行保存。 需要在谷歌里访问要采集的网站,并把过滤条件都设置好,复制出参数粘贴到软件的参数提取后面。