“赶集网招商保险投资信息采集”的版本间的差异
来自JsRobot
(→使用说明) |
(→使用说明) |
||
(未显示同一用户的3个中间版本) | |||
第1行: | 第1行: | ||
==简介== | ==简介== | ||
− | + | 赶集网站的数据是很有价值的,而且这个网站数据非常多。 | |
为了方便的查看数据,我们写了一个提取数据的工具。 | 为了方便的查看数据,我们写了一个提取数据的工具。 | ||
第13行: | 第13行: | ||
3、投资。 | 3、投资。 | ||
采集字段:网址,城市,标题,公司名称,联系人,联系电话 | 采集字段:网址,城市,标题,公司名称,联系人,联系电话 | ||
+ | 赶集网有反采集措施,必须换ip采集,需要提前准备一台秒换Ip的vpm拨号服务器 | ||
输出数据 | 输出数据 | ||
第22行: | 第23行: | ||
表示一个页码范围:1-2 | 表示一个页码范围:1-2 | ||
采集完毕后,点击查看数据,打开一个最近的时间目录即可。 | 采集完毕后,点击查看数据,打开一个最近的时间目录即可。 | ||
+ | 如果采集速度慢,可以点击修改设置,采集速度 修改为2-20之间就可以。 | ||
==演示== | ==演示== | ||
− | [[image: | + | [[image:Ganjizhaoshang.gif]] |
+ | |||
==数据== | ==数据== | ||
数据样例:[[Media:Ganjizhaoshang.rar|Ganjizhaoshang.rar]] | 数据样例:[[Media:Ganjizhaoshang.rar|Ganjizhaoshang.rar]] |
2017年3月27日 (一) 15:12的最新版本
简介
赶集网站的数据是很有价值的,而且这个网站数据非常多。 为了方便的查看数据,我们写了一个提取数据的工具。
功能
采集目标 http://cd.ganji.com/zhaoshangjiameng/ http://cd.ganji.com/danbaobaoxian/ http://cd.ganji.com/touzi/ 赶集网的3个版块 1、投资加盟; 2、担保保险; 3、投资。 采集字段:网址,城市,标题,公司名称,联系人,联系电话 赶集网有反采集措施,必须换ip采集,需要提前准备一台秒换Ip的vpm拨号服务器 输出数据
使用说明
点击生成城市列表,会生成一个[城市列表.csv]文件,有城市列表网址。点击查看数据,打开一个最近的时间目录。 点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。 开始页数=1 (从第1页开始采) 结束页数=2 (采集到第2页) 表示一个页码范围:1-2 采集完毕后,点击查看数据,打开一个最近的时间目录即可。 如果采集速度慢,可以点击修改设置,采集速度 修改为2-20之间就可以。
演示
数据
数据样例:Ganjizhaoshang.rar
备注
采集有三个必要条件: 采集前先生成城市列表 采集前把城市网址复制到任务列表 采集时要换ip采集,需要一条秒换ip的vps服务器