“顺风快递价格采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
使用
 
第31行: 第31行:
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Ui.png]]
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Ui.png]]
 
==使用==
 
==使用==
     软件有两种工作模式
+
     软件有三种工作模式
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Mode.png]]
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Mode.png]]
  
     第一次使用的时候,先使用“生成任务清单”模式,生成“地址清单.txt”。
+
     第一步:先使用“生成地址清单”模式,生成“地址清单.txt”。
    这个文件默认生成在“c:\output\时间目录”里。
+
    你需要手动把此文件拷贝到“C:\OUTPUT”目录中。
+
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Setting0.png]]
 
     [[image:ShunFengKuaiDiJiaGeCaiJi_Setting0.png]]
 +
    执行完成后,
 +
    点击“查看输出”按钮,
 +
    找到“地址清单.txt”文件,
 +
    然后拷贝到c:\output目录内
  
     以后运行的时候,直接使用“执行任务清单”模式,采集具体的快递资费信息。
+
     第二步:使用“生成任务清单”模式,生成“任务清单.txt”。
 +
    [[image:ShunFengKuaiDiJiaGeCaiJi_Setting1.png]]
 +
    执行完成后,
 +
    点击“查看输出”按钮,
 +
    找到“任务清单_xxxxxxxx.txt”文件,
 +
    然后拷贝到c:\output目录内
 +
 
 +
    第三步:使用“执行任务清单”模式,采集具体的快递资费信息。
 
     寄件时间的格式是yyyy-mm-dd hh:mm,注意中间的空格和补零.
 
     寄件时间的格式是yyyy-mm-dd hh:mm,注意中间的空格和补零.
 
     如果寄件时间为空值,那么就把现在采集的时间作为寄件时间。
 
     如果寄件时间为空值,那么就把现在采集的时间作为寄件时间。
     [[image:ShunFengKuaiDiJiaGeCaiJi_Setting1.png]]
+
    任务清单里的文件路径是前面生成的“任务清单_xxxxxxxx.txt”文件路径
 +
     [[image:ShunFengKuaiDiJiaGeCaiJi_Setting2.png]]
 +
 
 +
==备注==
 +
    采集过程中,我们发现地址清单有三千多条。
 +
    快递数目=地址条数*(地址条数-1)   
 +
    要采集的数据就是千万级的数据。
 +
    为了避免采集工具显示假死,就把任务做了拆分,20000个快递信息作为一个子任务文件。
 +
    所以,整个任务的执行流程就是,先获得地址清单,然后在获得任务清单,然后再执行任务清单。

2017年5月8日 (一) 14:00的最新版本

简介

   这个项目采集了顺风快递的价格。

功能

   采集了顺风快递的快递资费
   原始内容网页截图如图
   ShunFengKuaiDiJiaCaiJi Src0.jpg
   ShunFengKuaiDiJiaCaiJi Src1.jpg
   数据输出字段如下:
   [出发城市]:世界
   [出发区县]:韩国
   [到达城市]:世界
   [到达区县]:马来西亚
   [产品1]:顺丰国际特惠
   [到达1]:4-6
   [首重1]:韩元27100
   [续重1]:韩元2200
   [产品2]:顺丰国际特惠
   [到达2]:4-6
   [首重2]:韩元20900
   [续重2]:韩元6200
   [产品3]:顺丰次日
   [到达3]:2-3
   [首重3]:韩元23800
   [续重3]:韩元12000
   首重:运送一公斤的价格。
   续重:在首重基础上,每增加一公斤,增加多少钱。

演示

   ShunFengKuaiDiJiaGeCaiJi Ui.png

使用

   软件有三种工作模式
   ShunFengKuaiDiJiaGeCaiJi Mode.png
   第一步:先使用“生成地址清单”模式,生成“地址清单.txt”。
   ShunFengKuaiDiJiaGeCaiJi Setting0.png
   执行完成后,
   点击“查看输出”按钮,
   找到“地址清单.txt”文件,
   然后拷贝到c:\output目录内
   第二步:使用“生成任务清单”模式,生成“任务清单.txt”。
   ShunFengKuaiDiJiaGeCaiJi Setting1.png
   执行完成后,
   点击“查看输出”按钮,
   找到“任务清单_xxxxxxxx.txt”文件,
   然后拷贝到c:\output目录内
   第三步:使用“执行任务清单”模式,采集具体的快递资费信息。
   寄件时间的格式是yyyy-mm-dd hh:mm,注意中间的空格和补零.
   如果寄件时间为空值,那么就把现在采集的时间作为寄件时间。
   任务清单里的文件路径是前面生成的“任务清单_xxxxxxxx.txt”文件路径
   ShunFengKuaiDiJiaGeCaiJi Setting2.png

备注

   采集过程中,我们发现地址清单有三千多条。
   快递数目=地址条数*(地址条数-1)    
   要采集的数据就是千万级的数据。
   为了避免采集工具显示假死,就把任务做了拆分,20000个快递信息作为一个子任务文件。
   所以,整个任务的执行流程就是,先获得地址清单,然后在获得任务清单,然后再执行任务清单。