3,360
个编辑
更改
无编辑摘要
我们可以把数据采集的过程想象为一个猴子在树上摘苹果的过程。
猴子的起点是地面。
猴子的处理过程如下:
1 从地面爬到树干上面,
2 从树干爬到枝干上面,
这时候就有两种处理逻辑
深度遍历:从某个顶点出发,首先访问这个顶点,然后找出刚访问这个结点的第一个未被访问的邻结点,然后再以此邻结点为顶点,继续找它的下一个新的顶点进行访问,重复此步骤,直到所有结点都被访问完为止。
[[image:20160119_GuanDuBianLi.gif]]
[[image:20160119_ShengDuBianLi.gif]]
深度遍历的方法,
优点是,客户可以很快的看到数据。
缺陷是,不方便多任务的并行处理。
广度遍历的方法,
缺陷是,客户要在枝干遍历完成后才能看到数据。
优点是,方便多任务并行处理。
为了支持大数据的并行采集,我们使用的是广度优先遍历的处理方法,所以在采集开始后,要过一段时间才能看到数据。