“采集项目定价的方法”的版本间的差异

来自JsRobot
跳转至: 导航搜索
手动操作网页的步数
涉及的网页的数目
第25行: 第25行:
  
 
===涉及的网页的数目===
 
===涉及的网页的数目===
 +
    少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。
 +
    采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。
 +
    采集后的数据有什么后续处理?比如导入数据库之类的工作。
 +
    少量的数据,我们这边都可以代为采集。
 +
    大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。
 +
    大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。
 +
 
===有没有IP保护机制===
 
===有没有IP保护机制===
 
===有没有帐号保护机制===
 
===有没有帐号保护机制===

2016年1月21日 (四) 17:51的版本

概述

     采集项目的定价是与许多因素有关的。
     我们一般建议客户找一个最小的数据要求来采集。
     这样可以在开发成本和您要解决的问题之间找到一个合适的平衡。

因素

涉及的典型页面的个数

    客户需求的数据往往是一个网站的部分数据。
    这些数据一定是在一些网页上面的。
    我们需要客户提供这些页面的典型页面。
    同类页面只必须提供一个样例。
    有具体的网址和截图说明。
    人工区分不同类型的页面是比较容易的,就是看你网页的布局是不是一样的。
    就好比说,医院的和自己家的摆设一定是不一样。
    不同功能的网页往往页面布局也是不一样的。
    不同功能的网页的网址也往往是不一样的。
    我们需要针对不同的页面类型写不一样的处理代码。
    也就是说典型页面的数目与我们我们动作量是直接相关的。

手动操作网页的步数

    软件只是把人类重复操作的事情变成自动化了。
    所以写软件的前提条件就是要知道人工是怎么操作的。
    往往人工操作的步骤越多,就意味着软件里需要处理的逻辑越复杂。
    逻辑越复杂,往往就意味着开发成本越高的。

涉及的网页的数目

    少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。
    采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。
    采集后的数据有什么后续处理?比如导入数据库之类的工作。
    少量的数据,我们这边都可以代为采集。
    大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。
    大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。

有没有IP保护机制

有没有帐号保护机制

项目加急的情况

结论

备注