“58北京生意转让信息采集工具”的版本间的差异
来自JsRobot
(→其他) |
|||
第106行: | 第106行: | ||
历史数据问题 | 历史数据问题 | ||
− | 如果一个老帖子的作者刷新了帖子, | + | 如果一个老帖子的作者刷新了帖子, |
− | + | 58就会把帖子排在最前面。 | |
软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来 | 软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来 | ||
判断是否采集过,是根据软件里的一个去重数据库判断的 | 判断是否采集过,是根据软件里的一个去重数据库判断的 |
2017年10月19日 (四) 07:17的最新版本
摘要
这个工具采集了58个人生意转让信息。
功能
1.采集网址http://bj.58.com/shengyizr/0/ 2.采集字段:采集时间,网址,行业,联系人,电话,区域,地址,类型,面积,转让费,租金 3.采集当天的信息 4.转让费面议的不采集 5.电话重复不采集 6.租金低于8000不采集 7.每天采集数据不用按照天区分保存,按照行业保存在一个文件夹内
展示
数据
[网址]:http://bj.58.com/shangpu/30747284974786x.shtml [标题]:(转让)西客站北京西站南广场旅馆宾馆商业街卖场 [联系人]:张女士 [电话]:15611018130 [时间]:2017-07-22 10:35:13 [区域]: 丰台 西客站 [地址]:北京西站南广场 [行业]:旅馆 [类型]:商业街卖场 [面积]:410㎡ [租金]:3元/㎡/天 [转让费]:210万元
使用
软件安装 参考软件安装指南
软件使用 参考软件使用指南
设置
软件设置![]()
采集页数: 采集信息列表页的多少页。我们在分析问题的时候发现,58的信息是越新的在越前面显示。 太老的信息对于客户是无意义的。也就每次都采集前几页就可以了。 客户的原始需求是采集当天的信息, 但是实际上的需要的是最近的新更新的数据。 用采集页数可以很好的控制之采集最近的数据。 软件内部做了去重处理,已经采集过的不会二次采集。 配合采集页数可以完美的解决客户的需求。
生成EXCEL 这个开关默认为1 当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件 当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件
数据去重 默认为1 当这个开关为0时,关闭采集过程的数据去重功能。 当这个开关为1是,开启采集过程的数据去重功能。 分组大小 需要设置为30 太大的分组大小会导致触发58的反采集规则,导致获取不到数据
换IP 采用Rasdial的方式换IP 需要点击右边的按钮,设置相应的宽带账号和密码。 必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据
特别注意, 必须在可以换IP的VPS上采集, 必须设置换IP的参数, 必须指定分组大小。 三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。 建议使用 如果您采集的间隔时间是一天,那么采集页数设置为30比较合适 如果您采集的间隔时间是一小时,那么采集的页数设置为3页比较合适 如果您采集的间隔时间是几分钟,那么采集的页数设置为1也就可以了 推荐使用方式是,第一次采集的时候,采集30页的内容,然后以后采集就采集前几页的内容就可以了。 这样可以达到速度和效率的最优。
其他
漏数据问题
可能是以下几种情况导致的 1.网站故障 2.不在采集的页内 3.被过滤规则过滤掉了。 4.软件故障
问题1,网站故障 手工在浏览器里打开相关的网页看看是否正常。 如果正常,则表示网站是正常的。
问题2,不在采集的页内 请把采集页数调整大一些,再采集看看。
问题3.被过滤规则过滤掉了。 由于过滤条件比较多,过滤规则很复杂,被规则过滤掉是很正常的。 请在采集的时候,关闭开关“数据去重”,然后采集数据。 如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。 如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。 问题4.软件故障 软件故障则交给我们处理。 请用户先排查确认是软件问题后,再找我们处理。
历史数据问题
如果一个老帖子的作者刷新了帖子, 58就会把帖子排在最前面。 软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来 判断是否采集过,是根据软件里的一个去重数据库判断的 以前采集过的,相关信息就会被记忆到去重数据库里 如果清理掉了记忆,再次采集的时候,就会把所有前面展示的内容都采集到的 这就好比是, 如果别人给你打过电话,你记录这个人的人名在电话本里, 下次别人再打电话过来,你就知道是谁了。 但是如果你把电话本内容清空,你就不知道打进电话的人是谁了。