3,360
个编辑
更改
→使用
==使用==
[[image:20160125_openlaw_setting.gif]]
历史去重:是否以前已经采集过的就不予采集。默认为0。
代理清单: 默认设置设置为c:\output\代理清单.txt。该文件内容放代理服务器的信息,每行是一个代理服务器。每行内容是Ip:端口。
如果每天都采集,那么就可以把采集页数设置为1,历史去重设置为1。我们大致可以想象的出,一个法庭一天判决的案件不会特别多。采用这样的设置采集起来是最快的,也是很有效的。
如果一个月采集一次,那么就必须把采集页数设置为一个很大的值。这样就可以确保把所有的案件都采集下来。
如果你只关注某个城市的法庭判决的案件,那么你也可以把任务列表中的内容,修改为某个特定城市的网址。
例如,你要采集“北京”的案件,那么就可以把任务列表中的内容修改为,http://openlaw.cn/justic/court.jsp?zone=%E5%8C%97%E4%BA%AC%E5%B8%82
如果你只关注某个法庭判决的案件,那么你也可以把任务列表中的内容,修改为某个法庭的网址。
例如,你要采集“北京市高级人民法院”的案件,那么就可以把任务列表中的内容修改为,http://openlaw.cn/court/ad0237a686644b33ac48b655a0f5271c
如果你只关注某个特定的案件,那么你可以把任务列表中的内容修改为某个特定案件的网址。
例如,http://openlaw.cn/judgement/c0bfd1189298493c9a57777dc53cfae0
==说明==