“赶集网个人求租信息采集”的版本间的差异

来自JsRobot
跳转至: 导航搜索
(创建页面,内容为“==简介== 赶集网站的数据是很有价值的,而且这个网站数据非常多。 为了方便的查看数据,我们写了一个提取数据的工...”)
 
第1行: 第1行:
 
==简介==
 
==简介==
     赶集网站的数据是很有价值的,而且这个网站数据非常多。
+
     此项目采集了赶集网站的求租信息。
    为了方便的查看数据,我们写了一个提取数据的工具。
+
  
 
==功能==
 
==功能==
    采集目标
+
  采集赶集网上全国各个城市的求组信息。
    http://cd.ganji.com/zhaoshangjiameng/ 
+
  输出字段如下
    http://cd.ganji.com/danbaobaoxian/ 
+
  [网址]:http://bj.ganji.com/fang2/2675203306x.htm
    http://cd.ganji.com/touzi/
+
  [标题]:白先生正在找-的房子
    赶集网的3个版块
+
  [姓名]:白先生(个人)
    1、投资加盟;
+
  [电话]:15042245322
    2、担保保险;
+
  [期望租金]:600-1000元/月
    3、投资。
+
  [期望户型]:2室1厅1卫
    采集字段:网址,城市,标题,公司名称,联系人,联系电话
+
  [期望小区]:
    赶集网有反采集措施,必须换ip采集,需要提前准备一台秒换Ip的vpm拨号服务器
+
  [期望区域]:北京(查看周边高薪工作)
    输出数据
+
 
+
==使用说明==
+
    点击生成城市列表,会生成一个[城市列表.csv]文件,有城市列表网址。点击查看数据,打开一个最近的时间目录。
+
    点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。
+
    开始页数=1  (从第1页开始采)
+
    结束页数=2  (采集到第2页)
+
    表示一个页码范围:1-2
+
    采集完毕后,点击查看数据,打开一个最近的时间目录即可。
+
    如果采集速度慢,可以点击修改设置,采集速度 修改为2-20之间就可以。
+
  
 
==演示==
 
==演示==
     [[image:Ganjizhaoshang.gif]]
+
     [[image:GanJiWangGeRenZuFangXinXiCaiJi_Ui.png]]
 +
==使用==
 +
    [[image:GanJiWangGeRenZuFangXinXiCaiJi_Setting.png]]
 +
 
 +
    采集页数:
 +
    赶集最新更新的数据总是在最前面,
 +
    如果您每次只是需求最新更新的数据,就可以把这个设置为1或者2。
 +
    如果您要采集所有展示出来的页面,就设置为0.
  
==数据==
+
    开始日期和结束日期:
     数据样例:[[Media:Ganjizhaoshang.rar|Ganjizhaoshang.rar]]
+
    指定了采集某个时间范围内的内容。
 +
    如果开始日期和结束日期留空,就表示最近三天的内容。
 +
    如果开始日期和结束日期不为空,则表示获取指定的日期区间的内容。
 +
     日期的格式是YYYY-MM-DD,例如2017-05-18
  
 +
    搜索词汇
 +
    搜索词汇可以多个,每个搜索词汇之间用逗号隔开。
 +
 +
    测试模式
 +
    测试模式为1的时候,只处理了三个省份的前三个城市,也就是9个城市的数据。
 +
    测试模式仅仅是为了方便客户快速验证问题而留的。
 +
    当客户正常使用采集器的时候,请将测试模式设置为0.
 +
 
 
==备注==
 
==备注==
     采集有三个必要条件:
+
     赶集网采集的时候,必须不断换IP采集。
     采集前先生成城市列表
+
     采集时要换ip采集,需要一个秒换ip的vps服务器
     采集前把城市网址复制到任务列表
+
 
     采集时要换ip采集,需要一条秒换ip的vps服务器
+
    软件是二级过滤体系。
 +
    软件里先对采集页数做了过滤,
 +
     然后在对指定的采集页数里面采集的条目在做时间的过滤。
 +
     这个日期的范围应该是采集页数对于的内容里的时间范围,指定一个网站上不显示的内容的时间范围,或者指定一个采集页数内容外面的时间范围都是无意义的。

2017年5月19日 (五) 08:08的版本

简介

   此项目采集了赶集网站的求租信息。

功能

  采集赶集网上全国各个城市的求组信息。
  输出字段如下
  [网址]:http://bj.ganji.com/fang2/2675203306x.htm
  [标题]:白先生正在找-的房子
  [姓名]:白先生(个人)
  [电话]:15042245322
  [期望租金]:600-1000元/月
  [期望户型]:2室1厅1卫
  [期望小区]:
  [期望区域]:北京(查看周边高薪工作)

演示

   GanJiWangGeRenZuFangXinXiCaiJi Ui.png

使用

   GanJiWangGeRenZuFangXinXiCaiJi Setting.png
  
   采集页数:
   赶集最新更新的数据总是在最前面,
   如果您每次只是需求最新更新的数据,就可以把这个设置为1或者2。
   如果您要采集所有展示出来的页面,就设置为0.
   开始日期和结束日期:
   指定了采集某个时间范围内的内容。
   如果开始日期和结束日期留空,就表示最近三天的内容。
   如果开始日期和结束日期不为空,则表示获取指定的日期区间的内容。
   日期的格式是YYYY-MM-DD,例如2017-05-18
   搜索词汇
   搜索词汇可以多个,每个搜索词汇之间用逗号隔开。
   测试模式
   测试模式为1的时候,只处理了三个省份的前三个城市,也就是9个城市的数据。
   测试模式仅仅是为了方便客户快速验证问题而留的。
   当客户正常使用采集器的时候,请将测试模式设置为0.
  

备注

   赶集网采集的时候,必须不断换IP采集。
   采集时要换ip采集,需要一个秒换ip的vps服务器
   软件是二级过滤体系。
   软件里先对采集页数做了过滤,
   然后在对指定的采集页数里面采集的条目在做时间的过滤。
   这个日期的范围应该是采集页数对于的内容里的时间范围,指定一个网站上不显示的内容的时间范围,或者指定一个采集页数内容外面的时间范围都是无意义的。