3,360
个编辑
更改
无编辑摘要
参考[[软件使用指南]]
==设置==
软件设置
[[image:58GeReShengYiZhuanRangXinXiCaiJiGongJv_Setting.png]]
采集页数:
采集信息列表页的多少页。我们在分析问题的时候发现,58的信息是越新的在越前面显示。
太老的信息对于客户是无意义的。也就每次都采集前几页就可以了。
客户的原始需求是采集当天的信息,
但是实际上的需要的是最近的新更新的数据。
用采集页数可以很好的控制之采集最近的数据。
软件内部做了去重处理,已经采集过的不会二次采集。
配合采集页数可以完美的解决客户的需求。
生成EXCEL
这个开关默认为1
当这个开关为0时,采集完毕不会将CSV文件转换为EXCEL文件
当这个开关为1是,采集完毕后会将CSV文件转换为EXCEL文件
数据去重
默认为1
当这个开关为0时,关闭采集过程的数据去重功能。
当这个开关为1是,开启采集过程的数据去重功能。
分组大小
需要设置为30
太大的分组大小会导致触发58的反采集规则,导致获取不到数据
换IP
采用Rasdial的方式换IP
需要点击右边的按钮,设置相应的宽带账号和密码。
必须设置换IP参数,否则可能会触发反采集规则,导致获取不到数据
特别注意,
必须在可以换IP的VPS上采集,
必须设置换IP的参数,
必须指定分组大小。
三者任意一个出错,都会导致采集触发58的反采集规则,采集漏数据。
建议使用
如果您采集的间隔时间是一天,那么采集页数设置为30比较合适
如果您采集的间隔时间是一小时,那么采集的页数设置为3页比较合适
如果您采集的间隔时间是几分钟,那么采集的页数设置为1也就可以了
推荐使用方式是,第一次采集的时候,采集30页的内容,然后以后采集就采集前几页的内容就可以了。
这样可以达到速度和效率的最优。
==其他==
漏数据问题
可能是以下几种情况导致的
1.网站故障
2.不在采集的页内
3.被过滤规则过滤掉了。
4.软件故障
问题1,网站故障
手工在浏览器里打开相关的网页看看是否正常。
如果正常,则表示网站是正常的。
问题2,不在采集的页内
请把采集页数调整大一些,再采集看看。
问题3.被过滤规则过滤掉了。
由于过滤条件比较多,过滤规则很复杂,被规则过滤掉是很正常的。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果采集结果的CSV文件中有用户确认漏掉的网址的数据,则表示数据是被规则给过滤掉的。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
问题4.软件故障
软件故障则交给我们处理。
请用户先排查确认是软件问题后,再找我们处理。
历史数据问题
如果一个老帖子的作者刷新了帖子,
58就会把帖子排在最前面。
软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来
判断是否采集过,是根据软件里的一个去重数据库判断的
以前采集过的,相关信息就会被记忆到去重数据库里
如果清理掉了记忆,再次采集的时候,就会把所有前面展示的内容都采集到的
这就好比是,
如果别人给你打过电话,你记录这个人的人名在电话本里,
下次别人再打电话过来,你就知道是谁了。
但是如果你把电话本内容清空,你就不知道打进电话的人是谁了。