“58北京生意转让信息采集工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
第31行: 第31行:
 
       参考[[软件使用指南]]
 
       参考[[软件使用指南]]
  
 +
==设置==
 
       软件设置
 
       软件设置
 
       [[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Setting.png]]
 
       [[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Setting.png]]
第42行: 第43行:
 
       软件内部做了去重处理,已经采集过的不会二次采集。
 
       软件内部做了去重处理,已经采集过的不会二次采集。
 
       配合采集页数可以完美的解决客户的需求。
 
       配合采集页数可以完美的解决客户的需求。
 +
 +
      生成EXCEL
 +
      这个开关默认为1
 +
      当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件
 +
      当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件
 +
 +
      数据去重
 +
      默认为1
 +
      当这个开关为0时,关闭采集过程的数据去重功能。
 +
      当这个开关为1是,开启采集过程的数据去重功能。
 +
     
 +
      分组大小
 +
      需要设置为30
 +
      太大的分组大小会导致触发58的反采集规则,导致获取不到数据
 +
 +
      换IP
 +
      采用Rasdial的方式换IP
 +
      需要点击右边的按钮,设置相应的宽带账号和密码。
 +
      必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据
 +
     
 +
      特别注意,这个采集必须
 +
      在可以换IP的VPS上采集,
 +
      必须设置换IP的参数,
 +
      必须指定分组大小。
 +
      三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
 +
     
 
==其他==
 
==其他==
 +
      漏数据问题
 +
      由于用户的过滤条件比较多,
 +
      过滤规则很复杂,
 +
      当用户说溜掉数据的事情,
 +
      可能是以下几种情况导致的
 +
      1.网站故障
 +
      2.被过滤规则过滤掉了。
 +
      3.软件故障
 +
 +
      问题1,网站故障
 +
      手工在浏览器里打开相关的网页看看是否正常。
 +
      如果正常,则表示网站是正常的。
 +
 +
      问题2.被过滤规则过滤掉了。
 +
      请在采集的时候,关闭开关“数据去重”,然后采集数据。
 +
      如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
 +
      如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
 +
     
 +
      3.软件故障
 +
      软件故障则交给我们处理

2017年10月19日 (四) 06:44的版本

摘要

     这个工具采集了58个人生意转让信息。

功能

     1.采集网址http://bj.58.com/shengyizr/0/
     2.采集字段:采集时间,网址,行业,联系人,电话,区域,地址,类型,面积,转让费,租金
     3.采集当天的信息
     4.转让费面议的不采集
     5.电话重复不采集
     6.租金低于8000不采集
     7.每天采集数据不用按照天区分保存,按照行业保存在一个文件夹内

展示

    58GeReShengYiZhuanRangXinXiCaiJiGongJv Ui.png

数据

    [网址]:http://bj.58.com/shangpu/30747284974786x.shtml
    [标题]:(转让)西客站北京西站南广场旅馆宾馆商业街卖场
    [联系人]:张女士
    [电话]:15611018130
    [时间]:2017-07-22 10:35:13
    [区域]: 丰台 西客站
    [地址]:北京西站南广场
    [行业]:旅馆
    [类型]:商业街卖场
    [面积]:410㎡
    [租金]:3元/㎡/天
    [转让费]:210万元

使用

      软件安装
      参考软件安装指南
      软件使用
      参考软件使用指南

设置

      软件设置
      58GeReShengYiZhuanRangXinXiCaiJiGongJv Setting.png
      采集页数:
      采集信息列表页的多少页。我们在分析问题的时候发现,58的信息是越新的在越前面显示。
      太老的信息对于客户是无意义的。也就每次都采集前几页就可以了。
      客户的原始需求是采集当天的信息,
      但是实际上的需要的是最近的新更新的数据。
      用采集页数可以很好的控制之采集最近的数据。
      软件内部做了去重处理,已经采集过的不会二次采集。
      配合采集页数可以完美的解决客户的需求。
      生成EXCEL
      这个开关默认为1
      当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件
      当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件
      数据去重
      默认为1
      当这个开关为0时,关闭采集过程的数据去重功能。
      当这个开关为1是,开启采集过程的数据去重功能。
      
      分组大小
      需要设置为30
      太大的分组大小会导致触发58的反采集规则,导致获取不到数据
      换IP
      采用Rasdial的方式换IP
      需要点击右边的按钮,设置相应的宽带账号和密码。
      必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据
      
      特别注意,这个采集必须
      在可以换IP的VPS上采集,
      必须设置换IP的参数,
      必须指定分组大小。
      三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
     

其他

     漏数据问题
     由于用户的过滤条件比较多,
     过滤规则很复杂,
     当用户说溜掉数据的事情,
     可能是以下几种情况导致的
     1.网站故障
     2.被过滤规则过滤掉了。
     3.软件故障
     问题1,网站故障
     手工在浏览器里打开相关的网页看看是否正常。
     如果正常,则表示网站是正常的。
     问题2.被过滤规则过滤掉了。
     请在采集的时候,关闭开关“数据去重”,然后采集数据。
     如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
     如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
     
     3.软件故障
     软件故障则交给我们处理