输入和输出模式

本章介绍三种输入的模式:生成数据(generating data)、外部源输入(external source input)和分区裁剪(Partition pruning)。这三种模式都有一个有趣的特性:map在拿到输入的输入对之前完全不知道这个复杂的事情是如何发生的。如果你想抽象出你用于加载数据的方法的细节,那么自定义输入格式是一种极好的方式。

另一方面,Hadoop并不总是按照你需要的方式存储数据。在本章中有一种模式叫外部源输出,它将数据写入到Hadoop及HDFS之外的其他系统。就像自定义输入格式一样,自定义输出格式也使得在map或reduce数据输出之前隐藏了这个复杂过程的实现细节。

results matching ""

    No results matching ""