“采集项目定价的方法”的版本间的差异
(→涉及的典型页面的个数) |
(→结论) |
||
(未显示同一用户的10个中间版本) | |||
第1行: | 第1行: | ||
==概述== | ==概述== | ||
采集项目的定价是与许多因素有关的。 | 采集项目的定价是与许多因素有关的。 | ||
+ | 我们一般建议客户找一个最小的数据要求来采集。 | ||
+ | 这样可以在开发成本和您要解决的问题之间找到一个合适的平衡。 | ||
==因素== | ==因素== | ||
===涉及的典型页面的个数=== | ===涉及的典型页面的个数=== | ||
− | 客户需求的数据往往是一个网站的部分数据。 | + | 客户需求的数据往往是一个网站的部分数据。 |
− | 这些数据一定是在一些网页上面的。 | + | 这些数据一定是在一些网页上面的。 |
− | 我们需要客户提供这些页面的典型页面。 | + | 我们需要客户提供这些页面的典型页面。 |
− | 同类页面只必须提供一个样例。 | + | 同类页面只必须提供一个样例。 |
− | 有具体的网址和截图说明。 | + | 有具体的网址和截图说明。 |
− | 人工区分不同类型的页面是比较容易的,就是看你网页的布局是不是一样的。 | + | 人工区分不同类型的页面是比较容易的,就是看你网页的布局是不是一样的。 |
− | 就好比说,医院的和自己家的摆设一定是不一样。 | + | 就好比说,医院的和自己家的摆设一定是不一样。 |
− | 不同功能的网页往往页面布局也是不一样的。 | + | 不同功能的网页往往页面布局也是不一样的。 |
− | 不同功能的网页的网址也往往是不一样的。 | + | 不同功能的网页的网址也往往是不一样的。 |
+ | 我们需要针对不同的页面类型写不一样的处理代码。 | ||
+ | 也就是说典型页面的数目与我们我们动作量是直接相关的。 | ||
===手动操作网页的步数=== | ===手动操作网页的步数=== | ||
+ | 软件只是把人类重复操作的事情变成自动化了。 | ||
+ | 所以写软件的前提条件就是要知道人工是怎么操作的。 | ||
+ | 往往人工操作的步骤越多,就意味着软件里需要处理的逻辑越复杂。 | ||
+ | 逻辑越复杂,往往就意味着开发成本越高的。 | ||
+ | |||
===涉及的网页的数目=== | ===涉及的网页的数目=== | ||
+ | 少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。 | ||
+ | 采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。 | ||
+ | 采集后的数据有什么后续处理?比如导入数据库之类的工作。 | ||
+ | 少量的数据,我们这边都可以代为采集。 | ||
+ | 大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。 | ||
+ | 大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。 | ||
+ | |||
===有没有IP保护机制=== | ===有没有IP保护机制=== | ||
+ | 别人把一个网站搭建到服务器上,是要给网络运营商付费的,一般都是按照流量计费。 | ||
+ | 比如一个G是多少MONDEY。 | ||
+ | 当采集器大量采集一个网站的数据的时候,实际上网站方式要多付出许多MONEY的。 | ||
+ | 为了避免网站的企业浪费钱,大的网站一般都会有IP保护机制。 | ||
+ | 基础的规则就是,如果一个网站发现某个IP的访问网页的流量过大,就认为是非法访问,从而禁止访问。 | ||
+ | 有许多换IP的方法来绕过IP访问检测,比如路由器切换、VPN切换、代理服务器切换等等。 | ||
+ | 但是每种方法都引入了新的复杂性。怎么换IP,换IP过程中会不会出错,出错了怎么容错? | ||
+ | 这些事情都会给开发带来新的开发工作量,也就意味着更多的钱。 | ||
+ | |||
===有没有帐号保护机制=== | ===有没有帐号保护机制=== | ||
+ | 有些网站必须登录后才能看到数据。这时候就需要处理登录相关的逻辑。 | ||
+ | 有些登录的逻辑是非常复杂的,这时候新增的工作量就非常大。 | ||
+ | 阿里巴巴的登录就是一个很典型的问题。用人工登录的时候,看不出什么。软件批量登录的时候就会有许多问题。 | ||
+ | 因为黑客很喜欢利用登录接口尝试密码,所以网站开发人员会耗费许多时间去保护登录接口,防止频繁的登入。 | ||
+ | 一般让我们采集需要登录的网站的人员都是网站的合法用户,只是不希望把人工干的事情自动化,比如采集微博的博文。 | ||
+ | 这个没有什么法律的风险。 | ||
+ | 但是登录逻辑的处理工作量可能不小。 | ||
+ | |||
===项目加急的情况=== | ===项目加急的情况=== | ||
+ | 许多客户对项目有时间的要求。时间约短,成本越高。 | ||
+ | 这个也很好理解,您发邮件的时候,快递和平邮绝对是不一样的。 | ||
+ | 要是项目很急的时候,往往需要我们的开发人员加班处理,这时候的加班费用就需要客户承担。 | ||
+ | 复杂的项目,我们一般是七天交付。 | ||
+ | 简单的项目,我们一把是三天交付。 | ||
+ | 您要是有额外的加急要求,就需要单独付费。 | ||
==结论== | ==结论== | ||
+ | 不能简单的以数据多少来讨论价格的。 | ||
+ | 软件的价格是数量与复杂度的一个乘积关系。 | ||
+ | |||
==备注== | ==备注== |
2016年1月21日 (四) 18:19的最新版本
概述
采集项目的定价是与许多因素有关的。 我们一般建议客户找一个最小的数据要求来采集。 这样可以在开发成本和您要解决的问题之间找到一个合适的平衡。
因素
涉及的典型页面的个数
客户需求的数据往往是一个网站的部分数据。 这些数据一定是在一些网页上面的。 我们需要客户提供这些页面的典型页面。 同类页面只必须提供一个样例。 有具体的网址和截图说明。 人工区分不同类型的页面是比较容易的,就是看你网页的布局是不是一样的。 就好比说,医院的和自己家的摆设一定是不一样。 不同功能的网页往往页面布局也是不一样的。 不同功能的网页的网址也往往是不一样的。 我们需要针对不同的页面类型写不一样的处理代码。 也就是说典型页面的数目与我们我们动作量是直接相关的。
手动操作网页的步数
软件只是把人类重复操作的事情变成自动化了。 所以写软件的前提条件就是要知道人工是怎么操作的。 往往人工操作的步骤越多,就意味着软件里需要处理的逻辑越复杂。 逻辑越复杂,往往就意味着开发成本越高的。
涉及的网页的数目
少量数据的采集往往是很简单的,大量数据的采集就是一个很复杂的问题了。 采集是否需要支持去重?重复的数据不采集,是可以加快采集速度的。 采集后的数据有什么后续处理?比如导入数据库之类的工作。 少量的数据,我们这边都可以代为采集。 大量的数据,采集的时间可能很长。这个采集成本就无法忽略不计的。 大量采集的时候,很容易触发网站的反采集保护机制。数据少的时候,可以不予考虑。数据多的时候,处理反采集对抗机制就是必须的。
有没有IP保护机制
别人把一个网站搭建到服务器上,是要给网络运营商付费的,一般都是按照流量计费。 比如一个G是多少MONDEY。 当采集器大量采集一个网站的数据的时候,实际上网站方式要多付出许多MONEY的。 为了避免网站的企业浪费钱,大的网站一般都会有IP保护机制。 基础的规则就是,如果一个网站发现某个IP的访问网页的流量过大,就认为是非法访问,从而禁止访问。 有许多换IP的方法来绕过IP访问检测,比如路由器切换、VPN切换、代理服务器切换等等。 但是每种方法都引入了新的复杂性。怎么换IP,换IP过程中会不会出错,出错了怎么容错? 这些事情都会给开发带来新的开发工作量,也就意味着更多的钱。
有没有帐号保护机制
有些网站必须登录后才能看到数据。这时候就需要处理登录相关的逻辑。 有些登录的逻辑是非常复杂的,这时候新增的工作量就非常大。 阿里巴巴的登录就是一个很典型的问题。用人工登录的时候,看不出什么。软件批量登录的时候就会有许多问题。 因为黑客很喜欢利用登录接口尝试密码,所以网站开发人员会耗费许多时间去保护登录接口,防止频繁的登入。 一般让我们采集需要登录的网站的人员都是网站的合法用户,只是不希望把人工干的事情自动化,比如采集微博的博文。 这个没有什么法律的风险。 但是登录逻辑的处理工作量可能不小。
项目加急的情况
许多客户对项目有时间的要求。时间约短,成本越高。 这个也很好理解,您发邮件的时候,快递和平邮绝对是不一样的。 要是项目很急的时候,往往需要我们的开发人员加班处理,这时候的加班费用就需要客户承担。 复杂的项目,我们一般是七天交付。 简单的项目,我们一把是三天交付。 您要是有额外的加急要求,就需要单独付费。
结论
不能简单的以数据多少来讨论价格的。 软件的价格是数量与复杂度的一个乘积关系。