“新浪博客文章采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
默认处理
输出
 
(未显示同一用户的6个中间版本)
第17行: 第17行:
 
     [[image:XinLangBokeWenZhangCaiJiGongJu_Setting.png]]
 
     [[image:XinLangBokeWenZhangCaiJiGongJu_Setting.png]]
 
     任务列表中的网址,注意可以单行,也支持多行网址。
 
     任务列表中的网址,注意可以单行,也支持多行网址。
     采集页数默认为1,采集一页。
+
     采集页数默认为1,表示采集一页。
     采集页数
+
     采集页数为0,表示采集所有的页面。
  
 
===批量采集===
 
===批量采集===
 
     功能:
 
     功能:
 +
    从一个文本文件中读取博客的网址,依次采集每个博客的内容。
  
 
     设置:
 
     设置:
 
     [[image:XinLangBokeWenZhangCaiJiGongJu_Setting2.png]]
 
     [[image:XinLangBokeWenZhangCaiJiGongJu_Setting2.png]]
 +
    请不要修改任务列表里的内容。
 +
    参数列表中的网址清单的文件网址可以换成客户自己的网址清单。
 +
    采集页数默认为1,表示采集一页。
 +
    采集页数为0,表示采集所有的页面。
  
 
==输出==
 
==输出==
第30行: 第35行:
 
       [[image:XinLangBokeWenZhangCaiJiGongJu_Dir1.png]]
 
       [[image:XinLangBokeWenZhangCaiJiGongJu_Dir1.png]]
 
       [[image:XinLangBokeWenZhangCaiJiGongJu_Dir2.png]]
 
       [[image:XinLangBokeWenZhangCaiJiGongJu_Dir2.png]]
 +
      文章索引如下图:
 +
      [[image:XinLangBokeWenZhangCaiJiGongJu_Csv.png]]
 +
      文章正文如下图:
 +
      [[image:XinLangBokeWenZhangCaiJiGongJu_Text.png]]

2016年12月1日 (四) 09:43的最新版本

摘要

     这个工具解决新浪博客的文章采集问题

简介

     这个工具将新浪博客的文章保存为一个通用的格式。
     这种格式支持图文混排的内容。
     这种格式的存储,可以很方便的被其他的上传模块使用。
     比如上传内容到其他的CMS系统,甚至是上传到论坛。

演示

    XinLangBokeWenZhangCaiJiGongJu Ui.png

功能

默认处理

    功能:
    指定博客的网址采集博客的内容。
    设置:
    XinLangBokeWenZhangCaiJiGongJu Setting.png
    任务列表中的网址,注意可以单行,也支持多行网址。
    采集页数默认为1,表示采集一页。
    采集页数为0,表示采集所有的页面。

批量采集

   功能:
   从一个文本文件中读取博客的网址,依次采集每个博客的内容。
   设置:
    XinLangBokeWenZhangCaiJiGongJu Setting2.png
   请不要修改任务列表里的内容。
   参数列表中的网址清单的文件网址可以换成客户自己的网址清单。
   采集页数默认为1,表示采集一页。
   采集页数为0,表示采集所有的页面。

输出

     数据存储如下图:
     XinLangBokeWenZhangCaiJiGongJu Dir1.png
     XinLangBokeWenZhangCaiJiGongJu Dir2.png
     文章索引如下图:
     XinLangBokeWenZhangCaiJiGongJu Csv.png
     文章正文如下图:
     XinLangBokeWenZhangCaiJiGongJu Text.png