更改

赶集网招商保险投资信息采集

添加1,159字节, 2017年3月27日 (一) 12:45
创建页面,内容为“==简介== oced网站的数据是很有价值的,但是这个网站访问非常慢。 为了方便的查看数据,我们写了一个提取数据的工具...”
==简介==
oced网站的数据是很有价值的,但是这个网站访问非常慢。
为了方便的查看数据,我们写了一个提取数据的工具。
==功能==
采集目标
http://cd.ganji.com/zhaoshangjiameng/ 
http://cd.ganji.com/danbaobaoxian/ 
http://cd.ganji.com/touzi/
赶集网1、投资加盟;2、担保保险;3、投资
采集字段:网址,城市,标题,公司名称,联系人,联系电话
输出数据
==使用说明==
点击生成城市列表,会生成一个[数据文件.csv]文件,有城市列表网址。
点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。
开始页数=1 (从第1页开始采)
结束页数=2 (采集到第2页)
表示一个页码范围:1-2
==演示==
[[image:oced_use.gif]]
==数据==
数据样例:[[Media:oced_data.rar|oced_data.rar]]
==备注==
采集有两个必要条件:
需要把城市列表和参数信息文件拷贝到C:\OUTPUT目录中
需要在IE里访问要采集的网站,并把过滤条件都设置好。
3,360
个编辑