深度遍历的方法,
优点是客户可以很快的看到数据。优点是,客户可以很快的看到数据。 缺陷是,可能会导致COOKIE失效。缺陷是,不方便多任务的并行处理。
广度遍历的方法,
缺陷是,客户要在枝干遍历完成后才能看到数据。
优点是,可以在COOKIE使失效前就完成树干的遍历。优点是,方便多任务并行处理。
现在的采集已经不单纯是简单的网页处理了,许多网站都有采集保护措施。 为了处理的方便性和对付反采集算法,我们采集用的是广度遍历的处理方法,所以在采集开始后,要过一段时间才能看到数据。为了支持大数据的并行采集,我们使用的是广度优先遍历的处理方法,所以在采集开始后,要过一段时间才能看到数据。