验证代理服务器信息

来自JsRobot
Storm讨论 | 贡献2016年1月25日 (一) 20:02的版本 使用

(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转至: 导航搜索

摘要

     这个工具解决验证代理服务器有效性的问题。

展示

     20160126 checkproxy ui.gif
     20160126 checkproxy file.gif

背景

     网上有许多验证代理服务器有效性的工具。比较出名的是花刺代理。
     我试用了几个代理服务器验证的工具,总感觉不好用。
     操作太复杂。花刺代理之类的工具,虽然功能很强悍,但是就验证代理服务器有效性而言,很不好用。
     不支持https验证。许多代理验证工具不支持https的服务器验证,但是现在许多网站都是用了https,比较典型的是百度。
     不支持编码转换。许多代理验证工具没有考虑网页编码的问题,导致网页下载后是乱码,无法与标记正确匹配。
     为了解决这些问题,我就编写了一个代理服务器验证的工具。
     这个工具可以验证代理服务器信息是否有效,把有效的保存出来。
     你可以配合http://www.daili666.net/使用。

需求

     使用要很简单。
     支持http和https的验证。
     速度要快。
     支持多线程处理。

功能

输入

      输入是一个代理清单文件
      文件的内容是代理服务器的信息
      每行是一个代理服务器的信息
      代理服务器的信息是ip:端口。

输出

      20160126 checkproxy dir.gif
      验证成功.csv 采用CSV格式保存验证成功的代理信息。
      验证失败.csv 采用CSV格式保存验证失败的代理信息。
      代理清单.txt 采用TXT格式保存验证成功的代理信息。

处理

     读取输入的代理清单内容
     读取用户的设置信息
     根据代理类型依次生成验证代理任务
     依次处理验证代理任务
     把处理结果保存下来

使用

     20160126 checkproxy setting.gif
     并行任务为10,表示10线程运行。你也可以修改为其他值,看你的机器的性能。线程数越多,扫描的越快。但如果设置的过大,会导致程序看起来像是卡死的情况。
     等待时间为3,表示请求一个网页到获取这个网页的等待时间。如果一个代理服务器的延迟过大,或者根本无法访问,对我们来说都是没有价值的,必须过滤掉。
     代理类型为http,你也可以修改为https。这个根据你要把代理服务器用于做什么。要是要用来采集https的网站,就必须用https类型的代理。支持http的代理比较多,支持https的代理很少的。

其他