更改

58北京生意转让信息采集工具

添加924字节, 2017年10月19日 (四) 05:06
其他
可能是以下几种情况导致的
1.网站故障
2.被过滤规则过滤掉了。不在采集的页内 3.被过滤规则过滤掉了。 4.软件故障
问题1,网站故障
如果正常,则表示网站是正常的。
问题2问题2,不在采集的页内 请把采集页数调整大一些,再采集看看。  问题3.被过滤规则过滤掉了。
由于过滤条件比较多,过滤规则很复杂,被规则过滤掉是很正常的。
请在采集的时候,关闭开关“数据去重”,然后采集数据。
如果没有,则检查安装目录下的jsrobot.log文件,可以在这个文件里看到过指定网址被滤掉的原因。
3问题4.软件故障
软件故障则交给我们处理。
请用户先排查确认是软件问题后,再找我们处理。
 
 
历史数据问题
 
如果一个老帖子的作者刷新了帖子,
帖子就会被排在前面
软件采集的时候,发现在帖子出现在列表页前面,然后以前又没有采集过,就会采集出来
判断是否采集过,是根据软件里的一个去重数据库判断的
以前采集过的,相关信息就会被记忆到去重数据库里
如果清理掉了记忆,再次采集的时候,就会把所有前面展示的内容都采集到的
这就好比是,
如果别人给你打过电话,你记录这个人的人名在电话本里,
下次别人再打电话过来,你就知道是谁了。
但是如果你把电话本内容清空,你就不知道打进电话的人是谁了。
3,360
个编辑