连接模式

MapReduce中的连接并不这么简单。因为整个框架被分解为简单的map任务和reduce任务,所以有很多的动手工作需要完成,并且需要考虑多种因素。当你了解了所有的可能性后,需要的面对的是:在什么场景下使用什么样的模式。对每一个MapReduce操作来说,网络带宽通常都是一个非常重要的资源,并且连接操作有需要消耗大量的网络带宽的趋势。因此所有能使网络传输更高效的尝试都是值得的,网络优化是区分这些连接模式的不同点。

本章讨论的模式有reduce端连接(reduce side join),也是最基本的,同时讨论一种使用布隆过滤器的演变版本。此后会讨论两种可以在map端完成的连接,一种使用分布式高速缓存,另一种使用hadoop MapReduce API中的聚合特性。

results matching ""

    No results matching ""