金象网药品信息采集

来自JsRobot
Storm讨论 | 贡献2016年1月17日 (日) 04:37的版本 (创建页面,内容为“==摘要== 这个工具解决采集药品信息收集的问题。 ==展示== image:20160112_qq114_ui.gif<br> image:20160112_qq114_data.gif<br> ==背景...”)

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

摘要

     这个工具解决采集药品信息收集的问题。

展示

20160112 qq114 ui.gif
20160112 qq114 data.gif

背景

     药品采购的时候,需要知道药品的价格。
     金象网是第二大的药品展示网站。
     上面有两万多个药品产品。

需求

     采集QQ、名称、区域、行业、主页、邮箱、电话、地址、描述
     以http://88881560.114.qq.com/网址为例

20160112 qq114 xuqiu 1.gif
20160112 qq114 xuqiu 2.gif

功能

输入

      输入网址为http://www.114.qq.com/

输出

   输出为CSV文件,
   字段如下
   网址,商品分类,编号,编码,商品名称,通用名称,规格,生产企业,批准文号,有效期至,说明书
   数据样例

处理

      打开QQ114的网址,
      依次翻页
      解析出每个翻页的中的QQ信息网址
      依次处理每个QQ信息也的具体内容
      保存输出数据

其他