摘要
展示
背景
链家是一家涉及资产管理服务、交易管理服务和金融管理服务为一体的综合性房地产服务公司,业务覆盖租赁、新房、二手房、资产管理、海外房产、互联网平台、金融、理财、后房产市场等领域,是国内最大且唯一具有全产业链服务能力的房产O2O平台。
需求
采集链家北京站上的房产交易信息。
客户需要定期采集最新的房产交易数据。
客户有一个月的数据断了,没有采集。但是现在链家只显示100页数据。所以需要采用某种方法尽可能采集更多的数据。
需要采集的字段如下图
功能
输入
默认网址
输出
房源编号,小区名,区位,商圈,总楼层,楼层,建成年代,户型,面积,建筑类型,朝向,挂牌均价,成交价格,成交时间,成交单价,学校地址,地标志
处理
下载北京链家的网页,解析出子页面网址
下载子页面,解析网页,提取链家的交易条目信息的网址
下载交易条目信息网页,提取字段内容,并保存。
使用
使用步骤
打开IE
在IE里访问链家网
在IE里登陆您的链家账号
然后启动采集器
然后修改设置
然后点击开始
就开始采集了
软件设置
任务列表
默认网址
采集页数
指定采集的页数,取值范围在1到100.
扫描区域
指定是否扫描所有区域,为1,表示扫描所有区域,为0,表示不扫描区域
备注
链家网有两个限制:登陆显示数据限制,显示内容页面限制。
登陆显示数据限制。必须在登录后才能看到最近三个月的数据。不登陆只能看到老的历史数据。
显示内容页面显示。链家只能显示100页内容,老的内部不予显示。
为了采集最新的数据,我们采集模拟账户访问的方式获取数据。
为了采集超过100页的数据,我们采集去了采集各个区的数据的方法来采集更多的数据。
如果每隔几天采集一次,那么就不需要把扫描区域开关打开采集。
如果一个月才采集一次,那么就把扫描区域开关打开进行采集。