摘要
展示
背景
网上有许多验证代理服务器有效性的工具。比较出名的是花刺代理。
我试用了几个代理服务器验证的工具,总感觉不好用。
操作太复杂。花刺代理之类的工具,虽然功能很强悍,但是就验证代理服务器有效性而言,很不好用。
不支持https验证。许多代理验证工具不支持https的服务器验证,但是现在许多网站都是用了https,比较典型的是百度。
不支持编码转换。许多代理验证工具没有考虑网页编码的问题,导致网页下载后是乱码,无法与标记正确匹配。
为了解决这些问题,我就编写了一个代理服务器验证的工具。
这个工具可以验证代理服务器信息是否有效,把有效的保存出来。
你可以配合http://www.daili666.net/使用。
需求
使用要很简单。
支持http和https的验证。
速度要快。
支持多线程处理。
功能
输入
输入是一个代理清单文件
文件的内容是代理服务器的信息
每行是一个代理服务器的信息
代理服务器的信息是ip:端口。
输出
验证成功.csv 采用CSV格式保存验证成功的代理信息。
验证失败.csv 采用CSV格式保存验证失败的代理信息。
代理清单.txt 采用TXT格式保存验证成功的代理信息。
处理
读取输入的代理清单内容
读取用户的设置信息
根据代理类型依次生成验证代理任务
依次处理验证代理任务
把处理结果保存下来
使用
并行任务为10,表示10线程运行。你也可以修改为其他值,看你的机器的性能。线程数越多,扫描的越快。但如果设置的过大,会导致程序看起来像是卡死的情况。
等待时间为3,表示请求一个网页到获取这个网页的等待时间。如果一个代理服务器的延迟过大,或者根本无法访问,对我们来说都是没有价值的,必须过滤掉。
代理类型为http,你也可以修改为https。这个根据你要把代理服务器用于做什么。要是要用来采集https的网站,就必须用https类型的代理。支持http的代理比较多,支持https的代理很少的。
其他