更改

OpenLaw法律文书采集

添加822字节, 2016年1月25日 (一) 10:40
使用
==使用==
[[image:20160125_openlaw_setting.gif]]
采集页数:一个法庭判决的案件有许多件。列表页都有许多页。这个参数指定采集多少页。默认设置为1页。
历史去重:是否以前已经采集过的就不予采集。默认为0。
代理清单: 默认设置设置为c:\output\代理清单.txt。该文件内容放代理服务器的信息,每行是一个代理服务器。每行内容是Ip:端口。
如果每天都采集,那么就可以把采集页数设置为1,历史去重设置为1。我们大致可以想象的出,一个法庭一天判决的案件不会特别多。采用这样的设置采集起来是最快的,也是很有效的。
如果一个月采集一次,那么就必须把采集页数设置为一个很大的值。这样就可以确保把所有的案件都采集下来。
 
==说明==
这个网站有几个反采集措施。
一个是网站加密的逻辑。这块采用了某些XSS注入的技术实现了代码加密。常规的访问无法获取内容。
一个是IP保护。如果一个IP访问的页面过多,就会弹出验证码。这个只能采用高匿的代理服务器绕过。
3,360
个编辑