Hadoop 集群启用 rack 策略
注:文中采用的 Hadoop 集群环境为 Hadoop 2.2.0。 最近由于工作需要,对 Hadoop 的机架(rack)策略做了调研。下面记录下调研结果。 背景 首先需要明确的是,机架是硬件,机房里的服务器都放在机架(rack)上。放在不同的 rack 上的机器,有什么区别呢? 每个 rack 上的机器连接的是相同的电源,不同的…
Read More注:文中采用的 Hadoop 集群环境为 Hadoop 2.2.0。 最近由于工作需要,对 Hadoop 的机架(rack)策略做了调研。下面记录下调研结果。 背景 首先需要明确的是,机架是硬件,机房里的服务器都放在机架(rack)上。放在不同的 rack 上的机器,有什么区别呢? 每个 rack 上的机器连接的是相同的电源,不同的…
Read MoreWhen using Hadoop under Linux, we need to type lots of commands to operate on…
Read More在写 Hadoop 程序时,有时侯需要从文件名中提取某些信息,比如说文件名中可能包含有时间戳。下面,就针对这种需求,谈谈在 Hadoop 程序中该怎么做。 在用 Java 写的 MapReduce 程序中 MapReduce 的 mapper 类的 map()…
Read More最近工作中遇到的问题,简单记录下。 工作中用到了 Hadoop/Hive,但是搭建的集群硬件配置很差,磁盘空间严重不足。我只好先找了台虚拟机,暂时凑合着用一下,好歹硬盘算是够用了。 但是没过两天,发现用 Hive 执行 HiveQL 语句时,经常出现下面的错误: Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/hive-hduser/hive_2013-11-26_13-14-51_742_5228871571450845489/_task_tmp.-ext-10002/_tmp.000003_0 could…
Read More