“赶集网招商保险投资信息采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
使用说明
使用说明
第16行: 第16行:
  
 
==使用说明==
 
==使用说明==
     点击生成城市列表,会生成一个[城市列表.csv]文件,有城市列表网址。
+
     点击生成城市列表,会生成一个[城市列表.csv]文件,有城市列表网址。点击查看数据,打开一个最近的时间目录。
 
     点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。
 
     点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。
 
     开始页数=1  (从第1页开始采)
 
     开始页数=1  (从第1页开始采)
 
     结束页数=2  (采集到第2页)
 
     结束页数=2  (采集到第2页)
 
     表示一个页码范围:1-2
 
     表示一个页码范围:1-2
 +
    采集完毕后,点击查看数据,打开一个最近的时间目录即可。
  
 
==演示==
 
==演示==

2017年3月27日 (一) 14:55的版本

简介

   赶集网站的数据是很有价值的,但是这个网站访问非常慢。
   为了方便的查看数据,我们写了一个提取数据的工具。

功能

   采集目标
   http://cd.ganji.com/zhaoshangjiameng/ 
   http://cd.ganji.com/danbaobaoxian/ 
   http://cd.ganji.com/touzi/
   赶集网的3个版块
   1、投资加盟;
   2、担保保险;
   3、投资。
   采集字段:网址,城市,标题,公司名称,联系人,联系电话
   输出数据

使用说明

   点击生成城市列表,会生成一个[城市列表.csv]文件,有城市列表网址。点击查看数据,打开一个最近的时间目录。
   点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。
   开始页数=1  (从第1页开始采)
   结束页数=2  (采集到第2页)
   表示一个页码范围:1-2
   采集完毕后,点击查看数据,打开一个最近的时间目录即可。

演示

   Oced use.gif

数据

   数据样例:Ganjizhaoshang.rar

备注

   采集有三个必要条件:
   采集前先生成城市列表
   采集前把城市网址复制到任务列表
   采集时要换ip采集,需要一条秒换ip的vps服务器