“按作者公众号采集微信公众号文章”的版本间的差异

来自JsRobot
跳转至: 导航搜索
(创建页面,内容为“==摘要== 这个工具是解决客户收集某个特定微信公众号文章的问题。 ==背景== 微信营销是一个大的趋势。 微信营销中的一...”)
 
第1行: 第1行:
 
==摘要==
 
==摘要==
  这个工具是解决客户收集某个特定微信公众号文章的问题。
+
    这个工具是解决客户收集某个特定微信公众号文章的问题。
 
==背景==
 
==背景==
  微信营销是一个大的趋势。
+
    微信营销是一个大的趋势。
  微信营销中的一个核心问题就是微信文章的编写。
+
    微信营销中的一个核心问题就是微信文章的编写。
  古语说,读书破万卷,下笔如有神。
+
    古语说,读书破万卷,下笔如有神。
  写好微信公众文章的第一件事情,就是学习高手的公众号文章怎么写。
+
    写好微信公众文章的第一件事情,就是学习高手的公众号文章怎么写。
 
==需求==
 
==需求==
  把某个微信公众号的所有文章都保存下来。
+
    把某个微信公众号的所有文章都保存下来。
  要求保存为HTML格式,方便用户编辑。
+
    要求保存为HTML格式,方便用户编辑。
  要求保存为TXT格式,方便用户检索。
+
    要求保存为TXT格式,方便用户检索。
 
==功能==
 
==功能==
 
===输入===
 
===输入===
  某个公众号的网址。
+
    某个公众号的网址。
  例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I
+
    例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I
  你可以在搜狗搜索上搜索该公众号的名字,就可以找到这个公众号的网址。
+
    你可以在搜狗搜索上搜索该公众号的名字,就可以找到这个公众号的网址。
 
===输出===
 
===输出===
  以网址http://www.weixinqun.com/group?id=897549对应的数据保存为例子
+
    以网址http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd
  数据保存如下:
+
    对应的数据保存为例子
  时间目录\
+
    数据保存如下:
      城市\
+
        热辣小短片
          杭州市\
+
            2016-01-09\
              宝妈 辣妈 代理 购物 推广 交流.png
+
                年底了泡个妞_回家过年
      行业\
+
                    img\
          微商\
+
                        0.jpg
              宝妈 辣妈 代理 购物 推广 交流.png
+
                        1.jpg
      微信群信息清单.csv
+
                        ...
  微信群信息清单.csv的字段如下
+
                    文章正文.htm
  编号,名称,行业,城市
+
                    文章正文.txt
  897549,宝妈 辣妈 代理 购物 推广 交流,微商,杭州市
+
        文章列表.csv
 +
    文章列表.csv的字段如下
 +
        网址,公众号,时间,标题,文件
 +
        http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd,热辣小短片,2016-01-09,年底了,泡个妞,回家过年!,热辣小短片\2016-01-09\年底了_泡个妞_回家过年
 
===处理===
 
===处理===
  主要处理逻辑
+
    主要处理逻辑
  1.软件打开网址http://www.weixinqun.com/group
+
    1.软件打开搜狗搜索的公众号的网址
  2.依次翻页
+
    2.依次翻页,枚举文章列表页面
  3.解析各个翻页中的特定微信群的信息网址
+
    3.分析文章列表页面,获得文章的网址
  4.依次打开特定微信群的网址(例如http://www.weixinqun.com/group?id=897549)
+
    4.依次各个文章的网址,把数据保存下来
  5.解析网页内容,把二维码图片保存下来。
+
    5.保存TXT的时候,剔除所有的HTML标签,并自动排版
  次要处理逻辑
+
    6.保存HTML的时候,下载所有重要图片到本地,并修改HTM中的链接为本地链接。
  1.在处理特定微信群的网址之前,先判断一下微信群是否在上次已经采集过。
+
  2.如果没有采集过,则采集,并把网址加入历史清单
+
  4.如果以及擦剂过,则跳过处理。
+
 
==展示==
 
==展示==
  
 
==其他==
 
==其他==

2016年1月10日 (日) 06:34的版本

摘要

   这个工具是解决客户收集某个特定微信公众号文章的问题。

背景

   微信营销是一个大的趋势。
   微信营销中的一个核心问题就是微信文章的编写。
   古语说,读书破万卷,下笔如有神。
   写好微信公众文章的第一件事情,就是学习高手的公众号文章怎么写。

需求

   把某个微信公众号的所有文章都保存下来。
   要求保存为HTML格式,方便用户编辑。
   要求保存为TXT格式,方便用户检索。

功能

输入

   某个公众号的网址。
   例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I
   你可以在搜狗搜索上搜索该公众号的名字,就可以找到这个公众号的网址。

输出

   以网址http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd
   对应的数据保存为例子
   数据保存如下:
       热辣小短片
           2016-01-09\
               年底了泡个妞_回家过年
                   img\
                       0.jpg
                       1.jpg
                       ...
                   文章正文.htm
                   文章正文.txt
       文章列表.csv
   文章列表.csv的字段如下
       网址,公众号,时间,标题,文件
       http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd,热辣小短片,2016-01-09,年底了,泡个妞,回家过年!,热辣小短片\2016-01-09\年底了_泡个妞_回家过年

处理

   主要处理逻辑
   1.软件打开搜狗搜索的公众号的网址
   2.依次翻页,枚举文章列表页面
   3.分析文章列表页面,获得文章的网址
   4.依次各个文章的网址,把数据保存下来
   5.保存TXT的时候,剔除所有的HTML标签,并自动排版
   6.保存HTML的时候,下载所有重要图片到本地,并修改HTM中的链接为本地链接。

展示

其他