验证代理服务器信息
来自JsRobot
摘要
这个工具解决验证代理服务器有效性的问题。
展示
背景
网上有许多验证代理服务器有效性的工具。比较出名的是花刺代理。 我试用了几个代理服务器验证的工具,总感觉不好用。 操作太复杂。花刺代理之类的工具,虽然功能很强悍,但是就验证代理服务器有效性而言,很不好用。 不支持https验证。许多代理验证工具不支持https的服务器验证,但是现在许多网站都是用了https,比较典型的是百度。 不支持编码转换。许多代理验证工具没有考虑网页编码的问题,导致网页下载后是乱码,无法与标记正确匹配。 为了解决这些问题,我就编写了一个代理服务器验证的工具。 这个工具可以验证代理服务器信息是否有效,把有效的保存出来。 你可以配合http://www.daili666.net/使用。
需求
使用要很简单。 支持http和https的验证。 速度要快。 支持多线程处理。
功能
输入
输入是一个代理清单文件 文件的内容是代理服务器的信息 每行是一个代理服务器的信息 代理服务器的信息是ip:端口。
输出
验证成功.csv 采用CSV格式保存验证成功的代理信息。 验证失败.csv 采用CSV格式保存验证失败的代理信息。 代理清单.txt 采用TXT格式保存验证成功的代理信息。
处理
读取输入的代理清单内容 读取用户的设置信息 根据代理类型依次生成验证代理任务 依次处理验证代理任务 把处理结果保存下来
使用
并行任务为10,表示10线程运行。你也可以修改为其他值,看你的机器的性能。线程数越多,扫描的越快。但如果设置的过大,会导致程序看起来像是卡死的情况。 等待时间为3,表示请求一个网页到获取这个网页的等待时间。如果一个代理服务器的延迟过大,或者根本无法访问,对我们来说都是没有价值的,必须过滤掉。 代理类型为http,你也可以修改为https。这个根据你要把代理服务器用于做什么。要是要用来采集https的网站,就必须用https类型的代理。支持http的代理比较多,支持https的代理很少的。