“按作者公众号采集微信公众号文章”的版本间的差异
来自JsRobot
(创建页面,内容为“==摘要== 这个工具是解决客户收集某个特定微信公众号文章的问题。 ==背景== 微信营销是一个大的趋势。 微信营销中的一...”) |
|||
第1行: | 第1行: | ||
==摘要== | ==摘要== | ||
− | + | 这个工具是解决客户收集某个特定微信公众号文章的问题。 | |
==背景== | ==背景== | ||
− | + | 微信营销是一个大的趋势。 | |
− | + | 微信营销中的一个核心问题就是微信文章的编写。 | |
− | + | 古语说,读书破万卷,下笔如有神。 | |
− | + | 写好微信公众文章的第一件事情,就是学习高手的公众号文章怎么写。 | |
==需求== | ==需求== | ||
− | + | 把某个微信公众号的所有文章都保存下来。 | |
− | + | 要求保存为HTML格式,方便用户编辑。 | |
− | + | 要求保存为TXT格式,方便用户检索。 | |
==功能== | ==功能== | ||
===输入=== | ===输入=== | ||
− | + | 某个公众号的网址。 | |
− | + | 例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I | |
− | + | 你可以在搜狗搜索上搜索该公众号的名字,就可以找到这个公众号的网址。 | |
===输出=== | ===输出=== | ||
− | + | 以网址http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd | |
− | + | 对应的数据保存为例子 | |
− | + | 数据保存如下: | |
− | + | 热辣小短片 | |
− | + | 2016-01-09\ | |
− | + | 年底了泡个妞_回家过年 | |
− | + | img\ | |
− | + | 0.jpg | |
− | + | 1.jpg | |
− | + | ... | |
− | + | 文章正文.htm | |
− | + | 文章正文.txt | |
− | + | 文章列表.csv | |
+ | 文章列表.csv的字段如下 | ||
+ | 网址,公众号,时间,标题,文件 | ||
+ | http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd,热辣小短片,2016-01-09,年底了,泡个妞,回家过年!,热辣小短片\2016-01-09\年底了_泡个妞_回家过年 | ||
===处理=== | ===处理=== | ||
− | + | 主要处理逻辑 | |
− | + | 1.软件打开搜狗搜索的公众号的网址 | |
− | + | 2.依次翻页,枚举文章列表页面 | |
− | + | 3.分析文章列表页面,获得文章的网址 | |
− | + | 4.依次各个文章的网址,把数据保存下来 | |
− | + | 5.保存TXT的时候,剔除所有的HTML标签,并自动排版 | |
− | + | 6.保存HTML的时候,下载所有重要图片到本地,并修改HTM中的链接为本地链接。 | |
− | + | ||
− | + | ||
− | + | ||
==展示== | ==展示== | ||
==其他== | ==其他== |
2016年1月10日 (日) 06:34的版本
摘要
这个工具是解决客户收集某个特定微信公众号文章的问题。
背景
微信营销是一个大的趋势。 微信营销中的一个核心问题就是微信文章的编写。 古语说,读书破万卷,下笔如有神。 写好微信公众文章的第一件事情,就是学习高手的公众号文章怎么写。
需求
把某个微信公众号的所有文章都保存下来。 要求保存为HTML格式,方便用户编辑。 要求保存为TXT格式,方便用户检索。
功能
输入
某个公众号的网址。 例如http://weixin.sogou.com/gzh?openid=oIWsFt747RYx3-dEPsVs7v0KKY0o&ext=h3NILeBbx87b0bsxUG4QV7cjR8Alm7QdOzbDVLiWKs_s7AsdmvGByqKS0axEvj5I 你可以在搜狗搜索上搜索该公众号的名字,就可以找到这个公众号的网址。
输出
以网址http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd 对应的数据保存为例子 数据保存如下: 热辣小短片 2016-01-09\ 年底了泡个妞_回家过年 img\ 0.jpg 1.jpg ... 文章正文.htm 文章正文.txt 文章列表.csv 文章列表.csv的字段如下 网址,公众号,时间,标题,文件 http://mp.weixin.qq.com/s?__biz=MzAxNjA5NTY0OQ==&mid=401667265&idx=5&sn=1393f3b9e774d08b906d12bffc78e091&3rd=MzA3MDU4NTYzMw==&scene=6#rd,热辣小短片,2016-01-09,年底了,泡个妞,回家过年!,热辣小短片\2016-01-09\年底了_泡个妞_回家过年
处理
主要处理逻辑 1.软件打开搜狗搜索的公众号的网址 2.依次翻页,枚举文章列表页面 3.分析文章列表页面,获得文章的网址 4.依次各个文章的网址,把数据保存下来 5.保存TXT的时候,剔除所有的HTML标签,并自动排版 6.保存HTML的时候,下载所有重要图片到本地,并修改HTM中的链接为本地链接。