==简介==
赶集网站的数据是很有价值的,而且这个网站数据非常多。 为了方便的查看数据,我们写了一个提取数据的工具。此项目采集了赶集网站的求租信息。
==功能==
采集目标 采集赶集网上全国各个城市的求组信息。 输出字段如下 [网址]:http://cdbj.ganji.com/zhaoshangjiamengfang2/ 2675203306x.htm http [标题]://cd.ganji.com/danbaobaoxian/ 白先生正在找-的房子 http [姓名]://cd.ganji.com/touzi/白先生(个人) 赶集网的3个版块 [电话]:15042245322 1、投资加盟; [期望租金]:600-1000元/月 2、担保保险; [期望户型]:2室1厅1卫 3、投资。 [期望小区]: 采集字段:网址,城市,标题,公司名称,联系人,联系电话 赶集网有反采集措施,必须换ip采集,需要提前准备一台秒换Ip的vpm拨号服务器 输出数据 ==使用说明== 点击生成城市列表,会生成一个 [城市列表.csv期望区域]文件,有城市列表网址。点击查看数据,打开一个最近的时间目录。 点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。 开始页数=1 (从第1页开始采) 结束页数=2 (采集到第2页) 表示一个页码范围:1-2 采集完毕后,点击查看数据,打开一个最近的时间目录即可。 如果采集速度慢,可以点击修改设置,采集速度 修改为2-20之间就可以。:北京(查看周边高薪工作)
==演示==
[[image:GanjizhaoshangGanJiWangGeRenZuFangXinXiCaiJi_Ui.gifpng]]==使用== [[image:GanJiWangGeRenZuFangXinXiCaiJi_Setting.png]] 采集页数: 赶集最新更新的数据总是在最前面, 如果您每次只是需求最新更新的数据,就可以把这个设置为1或者2。 如果您要采集所有展示出来的页面,就设置为0.
==数据== 开始日期和结束日期: 指定了采集某个时间范围内的内容。 如果开始日期和结束日期留空,就表示最近三天的内容。 如果开始日期和结束日期不为空,则表示获取指定的日期区间的内容。 数据样例:[[Media:Ganjizhaoshang.rar|Ganjizhaoshang.rar]]日期的格式是YYYY-MM-DD,例如2017-05-18
搜索词汇
搜索词汇可以多个,每个搜索词汇之间用逗号隔开。
测试模式
测试模式为1的时候,只处理了三个省份的前三个城市,也就是9个城市的数据。
测试模式仅仅是为了方便客户快速验证问题而留的。
当客户正常使用采集器的时候,请将测试模式设置为0.
==备注==
采集有三个必要条件:赶集网采集的时候,必须不断换IP采集。 采集前先生成城市列表采集时要换ip采集,需要一个秒换ip的vps服务器 软件是二级过滤体系。 软件里先对采集页数做了过滤, 采集前把城市网址复制到任务列表然后在对指定的采集页数里面采集的条目在做时间的过滤。 采集时要换ip采集,需要一条秒换ip的vps服务器这个日期的范围应该是采集页数对于的内容里的时间范围,指定一个网站上不显示的内容的时间范围,或者指定一个采集页数内容外面的时间范围都是无意义的。