更改

58北京生意转让信息采集工具

添加1,476字节, 2017年10月19日 (四) 05:17
无编辑摘要
特别注意,这个采集必须特别注意, 在可以换IP的VPS上采集,必须在可以换IP的VPS上采集,
必须设置换IP的参数,
必须指定分组大小。
三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
建议使用
如果您采集的间隔时间是一天,那么采集页数设置为30比较合适
如果您采集的间隔时间是一小时,那么采集的页数设置为3页比较合适
如果您采集的间隔时间是几分钟,那么采集的页数设置为1也就可以了
推荐使用方式是,第一次采集的时候,采集30页的内容,然后以后采集就采集前几页的内容就可以了。
这样可以达到速度和效率的最优。
 
==其他==
漏数据问题
由于用户的过滤条件比较多, 过滤规则很复杂, 当用户说溜掉数据的事情,
可能是以下几种情况导致的
1.网站故障
2.被过滤规则过滤掉了。不在采集的页内 3.被过滤规则过滤掉了。 4.软件故障
问题1,网站故障
如果正常,则表示网站是正常的。
问题2问题2,不在采集的页内 请把采集页数调整大一些,再采集看看。  问题3.被过滤规则过滤掉了。 由于过滤条件比较多,过滤规则很复杂,被规则过滤掉是很正常的。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
3问题4.软件故障 软件故障则交给我们处理软件故障则交给我们处理。 请用户先排查确认是软件问题后,再找我们处理。   历史数据问题  如果一个老帖子的作者刷新了帖子, 58就会把帖子排在最前面。 软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来 判断是否采集过,是根据软件里的一个去重数据库判断的 以前采集过的,相关信息就会被记忆到去重数据库里 如果清理掉了记忆,再次采集的时候,就会把所有前面展示的内容都采集到的 这就好比是, 如果别人给你打过电话,你记录这个人的人名在电话本里, 下次别人再打电话过来,你就知道是谁了。 但是如果你把电话本内容清空,你就不知道打进电话的人是谁了。
3,360
个编辑