“深圳最新注册公司检索工具”的版本间的差异

来自JsRobot
跳转至: 导航搜索
 
(未显示同一用户的2个中间版本)
第26行: 第26行:
 
     采集速度设置为10,意思是十个工作线程同时处理。
 
     采集速度设置为10,意思是十个工作线程同时处理。
 
     分组大小设置为10,意思是每处理10个注册号,就换一次IP
 
     分组大小设置为10,意思是每处理10个注册号,就换一次IP
 +
    周期运行设置为1秒,意思把所有任务执行完成后,间隔1秒,重新执行一遍。
 
     切换IP设置为使用Rasdial命令行换IP。注意需要点击右边的按钮,在弹出的对话框里填入宽带账号和密码。
 
     切换IP设置为使用Rasdial命令行换IP。注意需要点击右边的按钮,在弹出的对话框里填入宽带账号和密码。
     开始编号是指开始处理的注册号。
+
     开始编号是指保存开始处理的注册号的文本文件的路径。
 
     处理个数是指从指定的注册号开始处理多少个注册号。
 
     处理个数是指从指定的注册号开始处理多少个注册号。
  
 
     然后点击OK
 
     然后点击OK
 
     然后点击开始处理就可以了。
 
     然后点击开始处理就可以了。
 +
 +
==技巧==
 +
  怎么最快速度获取到最新公司的名字
 +
  这个问题与什么时间采集,与采集的起点注册号是多少,与采集的注册号个数都有关系。
 +
 +
  我们可以假设现在有注册号 1 2 3 4 5 6 7,新增了一个编号8
 +
  现在您要采集新的注册号,有几种处理方法。
 +
  第一种,从编号1开始采集5个
 +
  第二种,从编号1开始采集10个,
 +
  第三种,从编号7开始采集5个。
 +
 
 +
 +
  第一种情况,我们知道怎么都采集不到最新的编号8的。
 +
  采集的注册号的起点要是太老,采集的个数又少,就会反复采集到历史数据。
 +
 +
  第二种情况,我们知道可以采集到编号8,但是会时间很长。
 +
  当采集的注册号的个数很多的时候,采集时间就会自动变得很长。
 +
  虽然在采集数据的时候,不影响最终的采集结果,
 +
  但是在抢单环境下,当你采集老的数据的时候,可能别人就已经采集到了新新的数据并提交了。
 +
 
 +
  第三种情况,采集程序只需要扫描一个编号就发现了编号8
 +
  这时候的采集速度是最快的。
 +
 +
  我们可以得出结论:
 +
  采集的注册号个数越少,速度越快。
 +
  采集的注册号的起点离最后的注册号越近,速度越快。
 +
 +
  那么怎么获的到最优的注册号的起点呢?
 +
  最后一个有效的公司的注册号就是最好的起点。
 +
  你可以在你们的抢单系统中找到最后录入的一个公司的名字,
 +
  然后在网站上使用这个公司名字的全称,查询到注册号。
 +
  这个注册号应该是最后一个有效公司的注册号。
 +
  可以以这个作为采集的注册号的起点。
 +
 +
  当前软件把这个技巧自动化处理了。
 +
  软件在启动后会读取保存起始注册号的文件内容,
 +
  根据这个起始的注册号和处理个数生成一组采集任务。
 +
  在执行采集任务过程中,
 +
  如果发现一个注册号有效,
 +
  而且比保存起始注册号的文件内容中的注册号大
 +
  那么就修改起始注册号的文件内容为当前的有效注册号的值加一。
 +
  下个采集周期开始的时候,就会使用新的注册号ID作为起点,开始处理。
  
 
==备注==
 
==备注==
 
     这个网站后比较强的反采集措施,
 
     这个网站后比较强的反采集措施,
 
     必须在可以换IP的VPS上采集数据。
 
     必须在可以换IP的VPS上采集数据。

2017年11月13日 (一) 10:37的最新版本

简介

   这个工具可以根据注册号提取公司的名字信息。

背景

   公司新登记后,总是在政府的网站上可以查到。
   这个工具模拟人工去根据注册号检索了公司信息。
   通过这个工具恶意找出最近注册的公司名称。

功能

   1.支持指定一个注册号的范围
   2.支持根据注册号提取公司的名字

演示

   20171111 001500 0001.jpg

安装

  请参考软件安装指南
  请阅读软件使用指南
  请阅读怎么设置软件自动换IP

使用

   安装好软件后,
   启动软件,
   然后在软件的主界面点击设置按钮
   在弹出的对话框里按如下设置
   20171111 001500 0002.jpg
   
   设置里的注意事项说明如下
   采集速度设置为10,意思是十个工作线程同时处理。
   分组大小设置为10,意思是每处理10个注册号,就换一次IP
   周期运行设置为1秒,意思把所有任务执行完成后,间隔1秒,重新执行一遍。
   切换IP设置为使用Rasdial命令行换IP。注意需要点击右边的按钮,在弹出的对话框里填入宽带账号和密码。
   开始编号是指保存开始处理的注册号的文本文件的路径。
   处理个数是指从指定的注册号开始处理多少个注册号。
   然后点击OK
   然后点击开始处理就可以了。

技巧

  怎么最快速度获取到最新公司的名字
  这个问题与什么时间采集,与采集的起点注册号是多少,与采集的注册号个数都有关系。
  我们可以假设现在有注册号 1 2 3 4 5 6 7,新增了一个编号8
  现在您要采集新的注册号,有几种处理方法。
  第一种,从编号1开始采集5个
  第二种,从编号1开始采集10个,
  第三种,从编号7开始采集5个。
  
  第一种情况,我们知道怎么都采集不到最新的编号8的。
  采集的注册号的起点要是太老,采集的个数又少,就会反复采集到历史数据。
  第二种情况,我们知道可以采集到编号8,但是会时间很长。
  当采集的注册号的个数很多的时候,采集时间就会自动变得很长。
  虽然在采集数据的时候,不影响最终的采集结果,
  但是在抢单环境下,当你采集老的数据的时候,可能别人就已经采集到了新新的数据并提交了。
  
  第三种情况,采集程序只需要扫描一个编号就发现了编号8
  这时候的采集速度是最快的。
  我们可以得出结论:
  采集的注册号个数越少,速度越快。
  采集的注册号的起点离最后的注册号越近,速度越快。
  那么怎么获的到最优的注册号的起点呢?
  最后一个有效的公司的注册号就是最好的起点。
  你可以在你们的抢单系统中找到最后录入的一个公司的名字,
  然后在网站上使用这个公司名字的全称,查询到注册号。
  这个注册号应该是最后一个有效公司的注册号。
  可以以这个作为采集的注册号的起点。
  当前软件把这个技巧自动化处理了。
  软件在启动后会读取保存起始注册号的文件内容,
  根据这个起始的注册号和处理个数生成一组采集任务。
  在执行采集任务过程中,
  如果发现一个注册号有效,
  而且比保存起始注册号的文件内容中的注册号大
  那么就修改起始注册号的文件内容为当前的有效注册号的值加一。
  下个采集周期开始的时候,就会使用新的注册号ID作为起点,开始处理。

备注

   这个网站后比较强的反采集措施,
   必须在可以换IP的VPS上采集数据。