“新浪博客文章采集工具”的版本间的差异
来自JsRobot
(→默认处理) |
(→输出) |
||
| (未显示同一用户的5个中间版本) | |||
| 第22行: | 第22行: | ||
===批量采集=== | ===批量采集=== | ||
功能: | 功能: | ||
| + | 从一个文本文件中读取博客的网址,依次采集每个博客的内容。 | ||
设置: | 设置: | ||
[[image:XinLangBokeWenZhangCaiJiGongJu_Setting2.png]] | [[image:XinLangBokeWenZhangCaiJiGongJu_Setting2.png]] | ||
| + | 请不要修改任务列表里的内容。 | ||
| + | 参数列表中的网址清单的文件网址可以换成客户自己的网址清单。 | ||
| + | 采集页数默认为1,表示采集一页。 | ||
| + | 采集页数为0,表示采集所有的页面。 | ||
==输出== | ==输出== | ||
| 第30行: | 第35行: | ||
[[image:XinLangBokeWenZhangCaiJiGongJu_Dir1.png]] | [[image:XinLangBokeWenZhangCaiJiGongJu_Dir1.png]] | ||
[[image:XinLangBokeWenZhangCaiJiGongJu_Dir2.png]] | [[image:XinLangBokeWenZhangCaiJiGongJu_Dir2.png]] | ||
| + | 文章索引如下图: | ||
| + | [[image:XinLangBokeWenZhangCaiJiGongJu_Csv.png]] | ||
| + | 文章正文如下图: | ||
| + | [[image:XinLangBokeWenZhangCaiJiGongJu_Text.png]] | ||
2016年12月1日 (四) 08:43的最新版本
摘要
这个工具解决新浪博客的文章采集问题
简介
这个工具将新浪博客的文章保存为一个通用的格式。
这种格式支持图文混排的内容。
这种格式的存储,可以很方便的被其他的上传模块使用。
比如上传内容到其他的CMS系统,甚至是上传到论坛。
演示
功能
默认处理
功能:
指定博客的网址采集博客的内容。
设置:
任务列表中的网址,注意可以单行,也支持多行网址。
采集页数默认为1,表示采集一页。
采集页数为0,表示采集所有的页面。
批量采集
功能: 从一个文本文件中读取博客的网址,依次采集每个博客的内容。
设置:
请不要修改任务列表里的内容。
参数列表中的网址清单的文件网址可以换成客户自己的网址清单。
采集页数默认为1,表示采集一页。
采集页数为0,表示采集所有的页面。
输出
数据存储如下图:
文章索引如下图:
文章正文如下图:
