“按作者公众号采集微信公众号文章”的版本间的差异

2016年1月10日 (日) 05:34的版本

摘要

   这个工具是解决客户收集某个特定微信公众号文章的问题。

背景

   微信营销是一个大的趋势。
   微信营销中的一个核心问题就是微信文章的编写。
   古语说，读书破万卷,下笔如有神。
   写好微信公众文章的第一件事情，就是学习高手的公众号文章怎么写。

需求

   把某个微信公众号的所有文章都保存下来。
   要求保存为HTML格式，方便用户编辑。
   要求保存为TXT格式，方便用户检索。

功能

输入

   某个公众号的网址。
   例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I
   你可以在搜狗搜索上搜索该公众号的名字，就可以找到这个公众号的网址。

输出

   以网址http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd
   对应的数据保存为例子
   数据保存如下：
       热辣小短片
           2016-01-09\
               年底了泡个妞_回家过年
                   img\
                       0.jpg
                       1.jpg
                       ...
                   文章正文.htm
                   文章正文.txt
       文章列表.csv
   文章列表.csv的字段如下
       网址,公众号,时间,标题,文件
       http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd,热辣小短片,2016-01-09,年底了，泡个妞，回家过年！,热辣小短片\2016-01-09\年底了_泡个妞_回家过年

处理

   主要处理逻辑
   1.软件打开搜狗搜索的公众号的网址
   2.依次翻页，枚举文章列表页面
   3.分析文章列表页面，获得文章的网址
   4.依次各个文章的网址，把数据保存下来
   5.保存TXT的时候，剔除所有的HTML标签，并自动排版
   6.保存HTML的时候，下载所有重要图片到本地，并修改HTM中的链接为本地链接。

“按作者公众号采集微信公众号文章”的版本间的差异

2016年1月10日 (日) 05:34的版本

目录

摘要

背景

需求

功能

输入

输出

处理

展示

其他

导航菜单

个人工具

命名空间

变种

视图

更多

搜索

导航

工具