阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Hunk/Hadoop: 性能最佳实践

102次阅读
没有评论

共计 1915 个字符,预计需要花费 5 分钟才能阅读完成。

无论有没有使用 Hunk,当运行 Hadoop 时,有很多种方式导致偶尔的性能底下。多数时候人们是增加更多的硬件来解决问题,但是有时候只需要简单更改下文件的名称就可以解决问题。

运行 Map-Reduce 任务[Hunk]

Hunk 运行在 Hadoop 之上,但是这并不意味着一定做到有效的使用。如果 Hunk 运行在“复杂模式”,而不是“智能模式”的话,它就没有真正的用到 Map-Reduce。相反它会直接将所有的 Hadoop 数据拉到 Splunk 引擎,并在那里处理它。

HDFS 存储[hadoop]

在 Hadoop 的很多事项和 Hunk 有关联时如何部署文件?你需要在文件路径中包含时间戳,Hunk 可以使用目录结构来当作一个过滤器,可以极大的减少被拉到 Splunk 的数据量。

在文件名称中包含时间戳也可以生效,但是效果较差,因为 Hunk 仍然会读取所有的文件名。

为了更好的性能,你可以在文件路径中包含一个健-值对。例如“…/2015/3/2/app=webserver/…”。在遍历目录时查询指令会将包含键-值对的过滤掉,再次减少了被拉到 Splunk 的数据量。

基于时间戳的 VIX/indexs.conf[hunk]

当文件存储模式对于任何的 Hadoop Map-Reduce 有利时,你就需要修改 indexs.conf,以让 Hunk 可以识别目录结构。

文件格式[Hunk]

诸如 JSON 和 CSV 这样的自我描述的文件,对于 Hunk 来说是很容易读取的,它们更加的详细,且消除了代价昂贵的映射操作。

压缩类型/文件大小 [Hdaoop]

要避免过大的文件,例如 500MB 的 GZ 压缩且没有分片的文件。(诸如 LZO 压缩的分片文件也是可以接受的。)对于没有分片的文件来说,在 core 和文件之间是一对一的映射关系,这就意味着只能有一个 core 来处理大文件,而其它定 core 只能空转等待。也就是说处理没有分片的文件花费了大量的时间,那么 Map-Reduce 的任务就无法快速的处理。

同样,你也应该避免使用大量的大小在几十 KB 到几百 KB 之间的碎文件。如果文件太小,你会在启动和管理任务花费大量的时间,而不是真正的用在处理数据本身之上。

报告加速[hunk]

Hunk 现在可以利用 Splunk 的报告加速功能了,这会在 HDFS 中缓存搜索的结果,减少或消除了需要从主的 Hadoop 集群中读取数据量。

在你启用此功能之前,请确保你的 Hadoop 集群拥有足够的空间来存储缓存。

硬件[Hadoop]

确保你拥有合适的硬件。虽然 Hadoop 是能够运行在甚至是双核的笔记本电脑中,但是你要真正使用它,还是需要每个节点拥有至少 4 颗 4 个核的 CPU,为了能够确保拥有足够的暂存空间,你须配置至少 12GB 的内存,两块本地磁盘(10K 或固态)

搜索 Head Clustering[Hunk]

搜索 Head Clustering 在 Splunk 6.2 中是相对较新的一个特性,在 Splunk6.3 中,对于基于 Hunk 的查询将是一个可行的属性。

下面关于 Hadoop 的文章您也可能喜欢,不妨看看:

Ubuntu14.04 下 Hadoop2.4.1 单机 / 伪分布式安装配置教程  http://www.linuxidc.com/Linux/2015-02/113487.htm

CentOS 安装和配置 Hadoop2.2.0  http://www.linuxidc.com/Linux/2014-01/94685.htm

Ubuntu 13.04 上搭建 Hadoop 环境 http://www.linuxidc.com/Linux/2013-06/86106.htm

Ubuntu 12.10 +Hadoop 1.2.1 版本集群配置 http://www.linuxidc.com/Linux/2013-09/90600.htm

Ubuntu 上搭建 Hadoop 环境(单机模式 + 伪分布模式)http://www.linuxidc.com/Linux/2013-01/77681.htm

Ubuntu 下 Hadoop 环境的配置 http://www.linuxidc.com/Linux/2012-11/74539.htm

单机版搭建 Hadoop 环境图文教程详解 http://www.linuxidc.com/Linux/2012-02/53927.htm

更多 Hadoop 相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

查看英文原文:Hunk/Hadoop:Performance Best Practices

本文永久更新链接地址:http://www.linuxidc.com/Linux/2015-09/123626.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计1915字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中