查看“58北京生意转让信息采集工具”的源代码
←
58北京生意转让信息采集工具
跳转至:
导航
、
搜索
因为以下原因,你没有权限编辑本页:
您所请求的操作仅限于该用户组的用户使用:
用户
您可以查看与复制此页面的源代码。
==摘要== 这个工具采集了58个人生意转让信息。 ==功能== 1.采集网址http://bj.58.com/shengyizr/0/ 2.采集字段:采集时间,网址,行业,联系人,电话,区域,地址,类型,面积,转让费,租金 3.采集当天的信息 4.转让费面议的不采集 5.电话重复不采集 6.租金低于8000不采集 7.每天采集数据不用按照天区分保存,按照行业保存在一个文件夹内 ==展示== [[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Ui.png]] ==数据== [网址]:http://bj.58.com/shangpu/30747284974786x.shtml [标题]:(转让)西客站北京西站南广场旅馆宾馆商业街卖场 [联系人]:张女士 [电话]:15611018130 [时间]:2017-07-22 10:35:13 [区域]: 丰台 西客站 [地址]:北京西站南广场 [行业]:旅馆 [类型]:商业街卖场 [面积]:410㎡ [租金]:3元/㎡/天 [转让费]:210万元 ==使用== 软件安装 参考[[软件安装指南]] 软件使用 参考[[软件使用指南]] ==设置== 软件设置 [[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Setting.png]] 采集页数: 采集信息列表页的多少页。我们在分析问题的时候发现,58的信息是越新的在越前面显示。 太老的信息对于客户是无意义的。也就每次都采集前几页就可以了。 客户的原始需求是采集当天的信息, 但是实际上的需要的是最近的新更新的数据。 用采集页数可以很好的控制之采集最近的数据。 软件内部做了去重处理,已经采集过的不会二次采集。 配合采集页数可以完美的解决客户的需求。 生成EXCEL 这个开关默认为1 当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件 当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件 数据去重 默认为1 当这个开关为0时,关闭采集过程的数据去重功能。 当这个开关为1是,开启采集过程的数据去重功能。 分组大小 需要设置为30 太大的分组大小会导致触发58的反采集规则,导致获取不到数据 换IP 采用Rasdial的方式换IP 需要点击右边的按钮,设置相应的宽带账号和密码。 必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据 特别注意,这个采集必须 在可以换IP的VPS上采集, 必须设置换IP的参数, 必须指定分组大小。 三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。 ==其他== 漏数据问题 由于用户的过滤条件比较多, 过滤规则很复杂, 当用户说溜掉数据的事情, 可能是以下几种情况导致的 1.网站故障 2.被过滤规则过滤掉了。 3.软件故障 问题1,网站故障 手工在浏览器里打开相关的网页看看是否正常。 如果正常,则表示网站是正常的。 问题2.被过滤规则过滤掉了。 请在采集的时候,关闭开关“数据去重”,然后采集数据。 如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。 如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。 3.软件故障 软件故障则交给我们处理
返回至
58北京生意转让信息采集工具
。
导航菜单
个人工具
登录
命名空间
页面
讨论
变种
视图
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
帮助
工具
链入页面
相关更改
特殊页面
页面信息