查看“赶集网招商保险投资信息采集”的源代码
←
赶集网招商保险投资信息采集
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==简介== 赶集网站的数据是很有价值的,但是这个网站访问非常慢。 为了方便的查看数据,我们写了一个提取数据的工具。 ==功能== 采集目标 http://cd.ganji.com/zhaoshangjiameng/ http://cd.ganji.com/danbaobaoxian/ http://cd.ganji.com/touzi/ 赶集网的3个版块 1、投资加盟; 2、担保保险; 3、投资。 采集字段:网址,城市,标题,公司名称,联系人,联系电话 输出数据 ==使用说明== 点击生成城市列表,会生成一个[数据文件.csv]文件,有城市列表网址。 点击默认处理,修改参数,把城市列表网址复制到任务列表里,一行一个,回车换行。运行软件即可。 开始页数=1 (从第1页开始采) 结束页数=2 (采集到第2页) 表示一个页码范围:1-2 ==演示== [[image:oced_use.gif]] ==数据== 数据样例:[[Media:Ganjizhaoshang.rar|Ganjizhaoshang.rar]] ==备注== 采集有两个必要条件: 需要把城市列表和参数信息文件拷贝到C:\OUTPUT目录中 需要在IE里访问要采集的网站,并把过滤条件都设置好。
返回至
赶集网招商保险投资信息采集
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息