3,360
个编辑
更改
无编辑摘要
必须设置换IP的参数,
必须指定分组大小。
三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
建议使用
如果您采集的间隔时间是一天,那么采集页数设置为30比较合适
如果您采集的间隔时间是一小时,那么采集的页数设置为3页比较合适
如果您采集的间隔时间是几分钟,那么采集的页数设置为1也就可以了
推荐使用方式是,第一次采集的时候,采集30页的内容,然后以后采集就采集前几页的内容就可以了。
这样可以达到速度和效率的最优。
==其他==
可能是以下几种情况导致的
1.网站故障
2.被过滤规则过滤掉了。不在采集的页内 3.被过滤规则过滤掉了。 4.软件故障
问题1,网站故障
如果正常,则表示网站是正常的。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。