Linux

Hadoop 集群启用 rack 策略

注:文中采用的 Hadoop 集群环境为 Hadoop 2.2.0。 最近由于工作需要,对 Hadoop 的机架(rack)策略做了调研。下面记录下调研结果。 背景 首先需要明确的是,机架是硬件,机房里的服务器都放在机架(rack)上。放在不同的 rack 上的机器,有什么区别呢? 每个 rack 上的机器连接的是相同的电源,不同的…

Read More

Awk 获取输入所在的文件名

之前一篇博客提到了在 Hadoop 程序中如何获取 input split 所在的文件名。其实,写 Awk 程序时,也可能有同样的需求。那么,Awk 是如何处理的呢? Awk 提供了一个内置变量 FILENAME,表示被读取文件的绝对路径。 闲话少说,直接上示例代码: cat /dev/null…

Read More

MapReduce 程序调试心得

相信用 Java 写过稍微大型点儿的 MapReduce 程序的朋友都有体会,MapReduce 程序调试起来并不方便。粗略想了一下,原因大概有以下两点: MapReduce 的处理思路增加了数据流的环节。 按照 MapReduce 的思想,业务逻辑在实现时,被人为地拆分成了 map 和 reduce 两个不同的阶段,两个阶段需要通过…

Read More