阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hadoop HDFS 数据一致性

139次阅读
没有评论

共计 1479 个字符,预计需要花费 4 分钟才能阅读完成。

HDFS 会对写入的所有数据计算 校验和 (checksum),并在读取数据时 验证校验和 。针对指定字节的数目计算校验和。字节数默认是 512 字节,可以通过io.bytes.per.checksum 属性设置。通过 CRC-32 编码后为 4 字节。
 
Datanode 在保存数据前负责验证checksum。client 会把数据和校验和一起发送到一个由多个 datanode 组成的队列中,最后一个 Datanode 负责验证checksum。如果验证失败,会抛出一个 ChecksumException。客户端需要处理这种异常。
 
客户端从 datanode 读取数据时,也会验证 checksum。每个 Datanode 都保存了一个 验证 checksum 的日志。每次客户端成功验证一个数据块后,都会告知 datanode,datanode 会更新日志。
 
每个 datanode 也会在一个后台线程中运行一个DataBlockScanner,定期验证这个 datanode 上的所有数据块。
 
在用 Hadoop fs get 命令读取文件时,可以用 -ignoreCrc 忽略验证。如果是通过 FileSystem API 读取时,可以通过setVerifyChecksum(false),忽略验证。

Hadoop 中的 LocalFileSystem 会进行客户端的检验和,写文件时,会在目录下创建一个名为 .filename.crc 的隐藏文件,如果想禁止校验和功能,可以用 RawLocalFileSystem 代替LocalFileSystem

Configuration conf = …
FileSystem fs = newRawLocalFileSystem();
fs.initialize(null, conf);
或者直接设置 fs.file.impl 属性为 org.apache.hadoop.fs.RawLocalFileSystem 这样会全局禁用checksum

LocalFileSystem 内部使用了 ChecksumFileSystem 完成 checksum 工作。通过 ChecksumFileSystem 可以添加校验和功能。

FileSystem rawFs = …
FileSystem checksummedFs = newChecksumFileSystem(rawFs);

相关阅读:

将本地文件拷到 HDFS 中 http://www.linuxidc.com/Linux/2013-05/83866.htm

从 HDFS 下载文件到本地 http://www.linuxidc.com/Linux/2012-11/74214.htm

将本地文件上传至 HDFS http://www.linuxidc.com/Linux/2012-11/74213.htm

HDFS 基本文件常用命令 http://www.linuxidc.com/Linux/2013-09/89658.htm

Hadoop 中 HDFS 和 MapReduce 节点基本简介 http://www.linuxidc.com/Linux/2013-09/89653.htm

《Hadoop 实战》中文版 + 英文文字版 + 源码【PDF】http://www.linuxidc.com/Linux/2012-10/71901.htm

Hadoop: The Definitive Guide【PDF 版】http://www.linuxidc.com/Linux/2012-01/51182.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

正文完
星哥说事-微信公众号
post-qrcode
 
星锅
版权声明:本站原创文章,由 星锅 2022-01-20发表,共计1479字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中