阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

HDFS 上传文件不均衡和Balancer太慢的问题

106次阅读
没有评论

共计 1236 个字符,预计需要花费 4 分钟才能阅读完成。

向 HDFS 上传文件,如果是从某个 datanode 开始上传文件,会导致上传的数据优先写满当前 datanode 的磁盘,这对于运行分布式程序是非常不利的。

解决的办法:

1、从其他非 datanode 节点上传

可以将 Hadoop 的安装目录复制一份到一个不在集群中的节点(直接从非 datanode 的 namenode 上传也可以,但是这样不太好,会增加 namenode 的负担,并且时间长了会让 namenode 上放了各种乱七八糟的文件),在这个节点上不启动任何 hadoop 进程,但是可以当作客户端使用。上传文件到集群。

也可以自己写一个上传文件的程序、在其他非集群节点上运行来上传文件。在程序中要注意自己设置必要的配置,比如 namenode 的 url、副本数等等,因为如果不设置,会使用你程序中所带的 hadoop jar 包中的默认配置,而不是集群的默认配置。

2、使用 balancer

可以通过

hdfs balancer -threshold XX

来进行平衡,xx 是一个百分比。关于这个命令的用法网上一搜一大堆。

但是默认情况下,这个平衡时非常慢的,因为默认的 hadoop 不允许 balancer 占用很大的网络带宽。

可以通过

hdfs dfsadmin -setBalanacerBandwidth newbandwidth

来设置带宽,单位是字节

————————————– 分割线 ————————————–

将本地文件拷到 HDFS 中 http://www.linuxidc.com/Linux/2013-05/83866.htm

从 HDFS 下载文件到本地 http://www.linuxidc.com/Linux/2012-11/74214.htm

将本地文件上传至 HDFS http://www.linuxidc.com/Linux/2012-11/74213.htm

HDFS 基本文件常用命令 http://www.linuxidc.com/Linux/2013-09/89658.htm

Hadoop 中 HDFS 和 MapReduce 节点基本简介 http://www.linuxidc.com/Linux/2013-09/89653.htm

《Hadoop 实战》中文版 + 英文文字版 + 源码【PDF】http://www.linuxidc.com/Linux/2012-10/71901.htm

Hadoop: The Definitive Guide【PDF 版】http://www.linuxidc.com/Linux/2012-01/51182.htm

————————————– 分割线 ————————————–

更多 Hadoop 相关信息见 Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-20发表,共计1236字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中