更改

58北京生意转让信息采集工具

添加1,476字节, 2017年10月19日 (四) 05:17
无编辑摘要
特别注意,这个采集必须特别注意, 在可以换IP的VPS上采集,必须在可以换IP的VPS上采集,
必须设置换IP的参数,
必须指定分组大小。
三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
建议使用
如果您采集的间隔时间是一天,那么采集页数设置为30比较合适
如果您采集的间隔时间是一小时,那么采集的页数设置为3页比较合适
如果您采集的间隔时间是几分钟,那么采集的页数设置为1也就可以了
推荐使用方式是,第一次采集的时候,采集30页的内容,然后以后采集就采集前几页的内容就可以了。
这样可以达到速度和效率的最优。
 
==其他==
=== 漏数据问题=== 由于用户的过滤条件比较多, 过滤规则很复杂, 当用户说溜掉数据的事情,
可能是以下几种情况导致的
1.网站故障
2.被过滤规则过滤掉了。不在采集的页内 3.被过滤规则过滤掉了。 4.软件故障
问题1,网站故障
如果正常,则表示网站是正常的。
问题2问题2,不在采集的页内 请把采集页数调整大一些,再采集看看。  问题3.被过滤规则过滤掉了。 由于过滤条件比较多,过滤规则很复杂,被规则过滤掉是很正常的。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
3问题4.软件故障 软件故障则交给我们处理软件故障则交给我们处理。 请用户先排查确认是软件问题后,再找我们处理。   历史数据问题  如果一个老帖子的作者刷新了帖子, 58就会把帖子排在最前面。 软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来 判断是否采集过,是根据软件里的一个去重数据库判断的 以前采集过的,相关信息就会被记忆到去重数据库里 如果清理掉了记忆,再次采集的时候,就会把所有前面展示的内容都采集到的 这就好比是, 如果别人给你打过电话,你记录这个人的人名在电话本里, 下次别人再打电话过来,你就知道是谁了。 但是如果你把电话本内容清空,你就不知道打进电话的人是谁了。
3,360
个编辑