“赶集网个人求租信息采集”的版本间的差异
来自JsRobot
(创建页面,内容为“==简介== 赶集网站的数据是很有价值的,而且这个网站数据非常多。 为了方便的查看数据,我们写了一个提取数据的工...”) |
(→功能) |
||
(未显示同一用户的2个中间版本) | |||
第1行: | 第1行: | ||
==简介== | ==简介== | ||
− | + | 此项目采集了赶集网站的求租信息。 | |
− | + | ||
==功能== | ==功能== | ||
− | + | 采集赶集网上全国各个城市的求组信息。 | |
− | + | 输出字段如下 | |
− | + | [网址]:北京 | |
− | + | [网址]:http://bj.ganji.com/fang2/2675203306x.htm | |
− | + | [标题]:白先生正在找-的房子 | |
− | + | [姓名]:白先生(个人) | |
− | + | [电话]:15042245322 | |
− | + | [期望租金]:600-1000元/月 | |
− | + | [期望户型]:2室1厅1卫 | |
− | + | [期望小区]: | |
− | + | [期望区域]:北京(查看周边高薪工作) | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
==演示== | ==演示== | ||
− | [[image: | + | [[image:GanJiWangGeRenZuFangXinXiCaiJi_Ui.png]] |
+ | ==使用== | ||
+ | [[image:GanJiWangGeRenZuFangXinXiCaiJi_Setting.png]] | ||
+ | |||
+ | 采集页数: | ||
+ | 赶集最新更新的数据总是在最前面, | ||
+ | 如果您每次只是需求最新更新的数据,就可以把这个设置为1或者2。 | ||
+ | 如果您要采集所有展示出来的页面,就设置为0. | ||
− | + | 开始日期和结束日期: | |
− | + | 指定了采集某个时间范围内的内容。 | |
+ | 如果开始日期和结束日期留空,就表示最近三天的内容。 | ||
+ | 如果开始日期和结束日期不为空,则表示获取指定的日期区间的内容。 | ||
+ | 日期的格式是YYYY-MM-DD,例如2017-05-18 | ||
+ | 搜索词汇 | ||
+ | 搜索词汇可以多个,每个搜索词汇之间用逗号隔开。 | ||
+ | |||
+ | 测试模式 | ||
+ | 测试模式为1的时候,只处理了三个省份的前三个城市,也就是9个城市的数据。 | ||
+ | 测试模式仅仅是为了方便客户快速验证问题而留的。 | ||
+ | 当客户正常使用采集器的时候,请将测试模式设置为0. | ||
+ | |||
==备注== | ==备注== | ||
− | + | 赶集网采集的时候,必须不断换IP采集。 | |
− | + | 采集时要换ip采集,需要一个秒换ip的vps服务器 | |
− | + | VPS上软件设置操作请参考[[怎么设置软件自动换IP]] | |
− | + | ||
+ | 软件是二级过滤体系。 | ||
+ | 软件里先对采集页数做了过滤, | ||
+ | 然后在对指定的采集页数里面采集的条目在做时间的过滤。 | ||
+ | 这个日期的范围应该是采集页数对于的内容里的时间范围,指定一个网站上不显示的内容的时间范围,或者指定一个采集页数内容外面的时间范围都是无意义的。 |
2017年5月19日 (五) 08:55的最新版本
简介
此项目采集了赶集网站的求租信息。
功能
采集赶集网上全国各个城市的求组信息。 输出字段如下 [网址]:北京 [网址]:http://bj.ganji.com/fang2/2675203306x.htm [标题]:白先生正在找-的房子 [姓名]:白先生(个人) [电话]:15042245322 [期望租金]:600-1000元/月 [期望户型]:2室1厅1卫 [期望小区]: [期望区域]:北京(查看周边高薪工作)
演示
使用
采集页数: 赶集最新更新的数据总是在最前面, 如果您每次只是需求最新更新的数据,就可以把这个设置为1或者2。 如果您要采集所有展示出来的页面,就设置为0.
开始日期和结束日期: 指定了采集某个时间范围内的内容。 如果开始日期和结束日期留空,就表示最近三天的内容。 如果开始日期和结束日期不为空,则表示获取指定的日期区间的内容。 日期的格式是YYYY-MM-DD,例如2017-05-18
搜索词汇 搜索词汇可以多个,每个搜索词汇之间用逗号隔开。
测试模式 测试模式为1的时候,只处理了三个省份的前三个城市,也就是9个城市的数据。 测试模式仅仅是为了方便客户快速验证问题而留的。 当客户正常使用采集器的时候,请将测试模式设置为0.
备注
赶集网采集的时候,必须不断换IP采集。 采集时要换ip采集,需要一个秒换ip的vps服务器 VPS上软件设置操作请参考怎么设置软件自动换IP
软件是二级过滤体系。 软件里先对采集页数做了过滤, 然后在对指定的采集页数里面采集的条目在做时间的过滤。 这个日期的范围应该是采集页数对于的内容里的时间范围,指定一个网站上不显示的内容的时间范围,或者指定一个采集页数内容外面的时间范围都是无意义的。