摘要
展示
背景
OpenLaw 开放法律联盟,2014年成立于上海。是一个面向律师、法官、检察官、法学教师、学者、学生以及从事法律相关的工作人员的 NGO 开放型组织,OpenLaw 的用户被视为法律技术和知识的源泉,共同分享法律专业知识以及智慧和经验成果。
OpenLaw是获取法律方面的资料的一个最有效的途径。
需求
字段列表
案由,标题,法院,类型,程序,案号,判决时间,审判长,审判员,书记员,原告,被告,上诉人,被上诉人,再申请人,被申请人,第三人,申诉人,被申诉人,赔偿请求人,义务机关,公诉机关,复议人,追加人,申请执行人,被执行人,原告委托人,原告代理人,原告律师,原告律师事务所,被告委托人,被告代理人,被告律师,被告律师事务所,涉及法律法规,判决内容
位置信息
特殊要求
涉及相关人物时,多个用‘,’因为逗号隔开,相关人物可能为公司
大数据问题
大量访问的时候,网站会提示验证码,会封IP。
显示的不完整
有些页面,只显示到100页,需要处理这个问题
采集难度很高
客户已经找了4个采集人员做,都没有做下来。
功能
输入
默认网址
输出
输出内容
案件信息
案件编号.htm
案件编号.txt
数据文件.csv
数据文件的字段列表如下
网址,编号,案由,标题,法院,类型,程序,案号,判决时间,审判长,审判员,书记员,原告,被告,罪犯,上诉人,被上诉人,再申请人,被申请人,第三人,申诉人,被申诉人,赔偿请求人,义务机关,公诉机关,复议人,追加人,申请执行人,被执行人,原告委托人,原告代理人,原告律师,原告律师事务所,被告委托人,被告代理人,被告律师,被告律师事务所,涉及法律法规
案件编号.htm
保存完整的网页内容
案件编号.txt
保存案件正文内容,去掉所有HTML字符
处理
枚举城市列表
枚举城市中的法庭列表
枚举一个法庭发出的文书
提取文书内容,解析字段并保存。
说明
这个网站有几个反采集措施。
一个是网站加密的逻辑。这块采用了某些XSS注入的技术实现了代码加密。常规的访问无法获取内容。
一个是IP保护。如果一个IP访问的页面过多,就会弹出验证码。这个只能采用高匿的代理服务器绕过。