58二手房个人房源抢单器

Storm讨论 | 贡献2016年1月27日 (三) 19:03的版本 使用

Storm讨论 | 贡献2016年1月27日 (三) 19:03的版本 使用

摘要

     这个工具58二手房个人房源抢单的问题。

展示

     20160128 58ershoufang qiangdan ui.gif

背景

     58同城是中国第一中文分类信息网站,涵盖房产、车辆、招工、兼职、黄页等海量的生活分类信息,满足您不同的查询需求。同时也是您最好的免费发布信息网站。
     许多小公司都在关注58同城上面的新发布信息。
     “抓得快,抓的准”就是决定业务员抢单成功与否的一个关键。
     抓得快,要求第一时间发现房源信息。
     抓的准要求过滤中介信息,过滤历史信息,只保留新增个人房源信息,确保业务员打电话打的少,但是有价值。

需求

     1.采集特定城市的二手房信息
     2.要求提供新客户通知功能
     3.采用IE弹出窗口的模式提醒用户
     4.要求过滤中介人员
     5.软件要设置密码避免别人随意使用
     6.要求过滤老的单子

分析

    中介识别规则:
    如果房源来源是中介则必然是中介,必须忽略。
    如果房源来源是个人,则可能是中介也可能是个人。
    如果房源的信息页面里出现了特殊的关键词(比如 经纪人 链家 我爱我家 中原 21世纪 美联 中大恒基 中天置地 麦田 鑫尊 爱屋吉屋)则认为是中介。
    如果发现一个人的电话在多个信息中出现,就可以认为是中介。
    如果同一个电话在不同房源上出现超过2次以上即可视为中介电话。
    同一房源如果出现过多个不同的电话,也可视为中介房源。
    开发过程中发现:
    在“来源是个人房源”和“重复信息不采集”和“出现特殊关键词过滤”三种种技术过滤后,剩余的房源已经很少了。
    来源是中介房源的电话不是图片,占房源信息的99%,但是直接通过来源就可以过滤,不需要通过电话,
    来源是个人房源的电话是图片,58每天换一次电话号码识别算法,导致电话号码的100%很难做到,从而采用电话号码过滤的技术无法实现。

功能

输入

      58某个城市的二手房的网址。
      http://bj.58.com/ershoufang/

输出

      发现有新的个人房源采用弹出IE窗口的方式提示。

处理

      通过采集“来源是个人房源”的数据,过滤中介数据。
      采用历史记录技术过滤历史数据,避免数据二次采集。
      采集最前面几页,避免数据的二次采集。
      采用关键词过滤技术,过滤“发布在个人房源里,但是实际上是中介”的房源信息。

使用

软件设置

      20160128 58ershoufang qiangdan setting.gif
      采集集页:采集信息列表页的多少页。我们在分析问题的时候发现,58的信息是越新的在越前面显示。太老的信息对于客户是无意义的。也就每次都采集前几页就可以了。
      代理清单:这个可以不用。
      刷新时间:刷新页面的时间。间隔多长时间去检查一次页面的更新情况。取值越小,检查的越频繁。这个值根据客户自己试验设定。
      弹出通知:发现新的个人房源信息就弹出IE窗口提示客户的开关。为1,表示弹IE,为0,就表示不弹IE。
      中介过滤=c:\output\中介过滤.txt

使用步骤

      软件下载
      参考软件下载指南
      第一次使用
      弹出通知设置为0,
      点击开始采集,采集几分钟,然后停止采集。
      这样可以把老的数据采集一遍,让采集器记忆下那些信息是无效的,以后就不采集了。
  
      以后使用  
      弹出通知设置为1,
      点击开始采集
      采集过程中发现有新的个人房源信息,在主界面上显示,同时就弹出IE提示。

其他