58二手房个人房源抢单器

来自JsRobot
Storm讨论 | 贡献2016年1月27日 (三) 18:46的版本 展示

跳转至: 导航搜索

摘要

     这个工具58二手房个人房源抢单的问题。

展示

     20160128 58ershoufang qiangdan ui.gif

背景

     58同城是中国第一中文分类信息网站,涵盖房产、车辆、招工、兼职、黄页等海量的生活分类信息,满足您不同的查询需求。同时也是您最好的免费发布信息网站。
     许多小公司都在关注58同城上面的新发布信息。
     “抓得快,抓的准”就是决定业务员抢单成功与否的一个关键。
     抓得快,要求第一时间发现房源信息。
     抓的准要求过滤中介信息,过滤历史信息,只保留新增个人房源信息,确保业务员打电话打的少,但是有价值。

需求

     1.采集特定城市的二手房信息
     2.要求提供新客户通知功能
     3.采用IE弹出窗口的模式提醒用户
     4.要求过滤中介人员
     5.软件要设置密码避免别人随意使用
     6.要求过滤老的单子

分析

    中介识别规则:
    如果房源来源是中介则必然是中介,必须忽略。
    如果房源来源是个人,则可能是中介也可能是个人。
    如果房源的信息页面里出现了特殊的关键词(比如 经纪人 链家 我爱我家 中原 21世纪 美联 中大恒基 中天置地 麦田 鑫尊 爱屋吉屋)则认为是中介。
    如果发现一个人的电话在多个信息中出现,就可以认为是中介。
    如果同一个电话在不同房源上出现超过2次以上即可视为中介电话。
    同一房源如果出现过多个不同的电话,也可视为中介房源。
    开发过程中发现:
    在“来源是个人房源”和“重复信息不采集”和“出现特殊关键词过滤”三种种技术过滤后,剩余的房源已经很少了。
    个人房源的电话是图片,58每天换一次电话号码识别算法,导致电话号码的100%很难做到,从而采用电话号码过滤的技术无法实现。

功能

输入

      58某个城市的二手房的网址。
      http://bj.58.com/ershoufang/

输出

      发现有新的个人房源采用弹出IE窗口的方式提示。

处理

      通过采集“来源是个人房源”的数据,过滤中介数据。
      采用历史记录技术过滤历史数据,避免数据二次采集。
      采集最前面几页,避免数据的二次采集。
      采用关键词过滤技术,过滤“发布在个人房源里,但是实际上是中介”的房源信息。

其他