3,360
个编辑
更改
无编辑摘要
参考[[软件使用指南]]
==设置==
软件设置
[[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Setting.png]]
软件内部做了去重处理,已经采集过的不会二次采集。
配合采集页数可以完美的解决客户的需求。
生成EXCEL
这个开关默认为1
当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件
当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件
数据去重
默认为1
当这个开关为0时,关闭采集过程的数据去重功能。
当这个开关为1是,开启采集过程的数据去重功能。
分组大小
需要设置为30
太大的分组大小会导致触发58的反采集规则,导致获取不到数据
换IP
采用Rasdial的方式换IP
需要点击右边的按钮,设置相应的宽带账号和密码。
必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据
特别注意,这个采集必须
在可以换IP的VPS上采集,
必须设置换IP的参数,
必须指定分组大小。
三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
==其他==
漏数据问题
由于用户的过滤条件比较多,
过滤规则很复杂,
当用户说溜掉数据的事情,
可能是以下几种情况导致的
1.网站故障
2.被过滤规则过滤掉了。
3.软件故障
问题1,网站故障
手工在浏览器里打开相关的网页看看是否正常。
如果正常,则表示网站是正常的。
问题2.被过滤规则过滤掉了。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
3.软件故障
软件故障则交给我们处理