“金象网药品信息采集”的版本间的差异
来自JsRobot
(创建页面,内容为“==摘要== 这个工具解决采集药品信息收集的问题。 ==展示== image:20160112_qq114_ui.gif<br> image:20160112_qq114_data.gif<br> ==背景...”) |
(→输出) |
||
(未显示同一用户的6个中间版本) | |||
第2行: | 第2行: | ||
这个工具解决采集药品信息收集的问题。 | 这个工具解决采集药品信息收集的问题。 | ||
==展示== | ==展示== | ||
− | [[image: | + | [[image:20160117_jingxiangwang_ui.gif]]<br> |
− | [[image: | + | [[image:20160117_jingxiangwang_data.gif]]<br> |
+ | |||
==背景== | ==背景== | ||
药品采购的时候,需要知道药品的价格。 | 药品采购的时候,需要知道药品的价格。 | ||
第9行: | 第10行: | ||
上面有两万多个药品产品。 | 上面有两万多个药品产品。 | ||
==需求== | ==需求== | ||
− | + | 采集内容:网址,分类1,分类2,分类3,分类4,分类5,分类6,分类7,分类8,分类9,分类10,编号,编码,商品名称,通用名称,规格,生产企业,批准文号,有效期至,说明书 | |
− | + | ||
− | + | ||
− | + | ||
==功能== | ==功能== | ||
===输入=== | ===输入=== | ||
− | 输入网址为http://www. | + | 输入网址为http://www.jxdyf.com |
+ | |||
===输出=== | ===输出=== | ||
− | + | 输出有三个。 | |
− | + | 药品信息.csv。字段列表:网址,分类1,分类2,分类3,分类4,分类5,分类6,分类7,分类8,分类9,分类10,编号,编码,商品名称,通用名称,规格,生产企业,批准文号,有效期至,说明书 | |
− | 网址, | + | 图片信息.csv。字段列表:编号,外链,内链 |
− | + | imgs目录。这个目录保存药品相关的图片。 | |
+ | |||
===处理=== | ===处理=== | ||
− | + | 打开网址http://www.jxdyf.com, | |
− | + | 枚举药品分类, | |
− | + | 处理药品子类翻页 | |
− | + | 解析出每个翻页的中的药品信息网址 | |
+ | 依次处理每个药品信息也的具体内容 | ||
保存输出数据 | 保存输出数据 | ||
+ | |||
==其他== | ==其他== |
2016年1月17日 (日) 04:59的最新版本
摘要
这个工具解决采集药品信息收集的问题。
展示
背景
药品采购的时候,需要知道药品的价格。 金象网是第二大的药品展示网站。 上面有两万多个药品产品。
需求
采集内容:网址,分类1,分类2,分类3,分类4,分类5,分类6,分类7,分类8,分类9,分类10,编号,编码,商品名称,通用名称,规格,生产企业,批准文号,有效期至,说明书
功能
输入
输入网址为http://www.jxdyf.com
输出
输出有三个。 药品信息.csv。字段列表:网址,分类1,分类2,分类3,分类4,分类5,分类6,分类7,分类8,分类9,分类10,编号,编码,商品名称,通用名称,规格,生产企业,批准文号,有效期至,说明书 图片信息.csv。字段列表:编号,外链,内链 imgs目录。这个目录保存药品相关的图片。
处理
打开网址http://www.jxdyf.com, 枚举药品分类, 处理药品子类翻页 解析出每个翻页的中的药品信息网址 依次处理每个药品信息也的具体内容 保存输出数据