阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Spark1.5堆内存分配

456次阅读
没有评论

共计 3362 个字符,预计需要花费 9 分钟才能阅读完成。

这是 spark1.5 及以前堆内存分配图
Spark1.5 堆内存分配
下边对上图进行更近一步的标注,红线开始到结尾就是这部分的开始到结尾
Spark1.5 堆内存分配
spark 默认分配 512MB JVM 堆内存。出于安全考虑和避免内存溢出,Spark 只允许我们使用堆内存的 90%,这在 spark 的 spark.storage.safetyFraction 参数中配置着。也许你听说的 spark 是一个内存工具,Spark 允许你存储数据在内存。其实,Spark 不是真正的内存工具,它只是允许你使用内存的 LRU(最近最少使用)缓存。所以,一部分内存要被用来缓存你要处理的数据,这部分内存占可用安全堆内存的 60%,这个值在 spark.storage.memoryFraction 参数中配置。所以如果你想知道你可以存多少数据在 spark 中,spark.storage.safetyFraction 默认值为 0.9,spark.storage.memoryFraction 的默认值为 0.6,
Storage= 总堆内存 *0.9*0.6, 所以你有 54% 的堆内存用来存储数据。
shuffle 内存:
spark.shuffle.safetyFraction * spark.shuffle.memoryFraction
spark.shuffle.safetyFraction 默认为 0.8 或 80%,spark.shuffle.memoryFraction 默认为 0.2 或 20%,则你最终可以使用 0.8*0.2=0.16 或 16% 的 JVM 堆内存用于 shuffle。
Unroll 内存:
spark 允许数据以序列化或非序列化的形式存储,序列化的数据不能拿过来直接使用,所以就需要先反序列化,即 unroll。
 Heap Size*spark.storage.safetyFraction*spark.storage.memoryFraction*spark.storage.unrollFraction=Heap Size *0.9*0.6*0.2=Heap Size * 0.108 或 10.8% 的 JVM 堆内存。
到此为止,你应该就知道 Spark 是如何使用 jvm 内存的了,下边是集群模式,以 yarn 为例,其它类似。
Spark1.5 堆内存分配
在 Yarn 集群中,Yarn Resource Manager 管理集群的资源(实际就是内存)和一系列运行在集群 Node 上 yarn resource manager 及集群 Nodes 资源的使用。从 YARN 的角度,每一个 Node 都代表了一个可控制的内存资源,当你向 Yarn Resource Manager 申请资源时,它会反馈给你哪个 yarn node manager 可以连接并启动一个 execution container 给你。每一个 execution container 都是一个可以提供堆内存的 JVM,JVM 的位置是由 Yarn Resource manager 选择的。
 
当你在 Yarn 上启动 Spark 时,你可以指定 executor 的数量(–num-executors flag or spark.executor.instances parameter)、每个 executor 的内存大小(–executor-memory flag or spark.executor.memory  parameter)、每个 executor 的内核数量(–executor-cores flag of spark.executor.coresparameter)、每个 task 执行的内核数量(spark.task.cpusparameter),你也可以指定 driver 的内存大小(–driver-memory flag or spark.driver.memory parameter)。
 
当你在集群中执行某项任务时,一个 job 会被切分成 stages, 每个 stage 会被分成多个 task, 每个 task 会被单独分配,你可以把这些 executor 看成一个个执行 task 的槽池(a pool of tasks execution slots)。如下看一个例子:一个集群有 12 个节点(yarn node manager), 每个节点有 64G 内存、32 核的 CPU(16 个物理内核,一个物理内核可以虚拟成两个)。每个节点你可以启动两个 executors、每个 executor 分配 26G 内存(留一部分用于 system process、yarn NM、DataNode). 所以集群一共可以处理 12 machines * 2 executors per machine * 12 cores per executor / 1 core for each task = 288 task slots。这意味着该集群可以并行运行 288 个 task,充分利用集群的所有资源。你可以用来存储数据的内存为 = 0.9 spark.storage.safetyFraction * 0.6 spark.storage.memoryFraction * 12 machines * 2 executors per machine * 26 GB per executor = 336.96 GB。没有那么多,但是也足够了。
 
到此,你已经知道 spark 如何分配 jvm 内存,在集群中可以有多少个 execution slots。那么什么是 task,你可以把他想像成 executor 的某个线程,executor 是一个进程,它可以多线程的执行 task.
 
下边来解释一下另一个抽象概念 ”Partition”,你用来分析的所有数据都将被切分成 partitions, 那么何为一个 partition,它又是由什么决定的?partition 的大小是由你使用的数据源决定的,在 spark 中你可以使用的所有读取数据的方式,大多你可以指定你的 RDD 中有多少个 partitions。当你从 HDFS 中读取一个文件时,Hadoop 的 InputFormat 决定 partition。通常由 InputFormat 输入的每一个 split 对应于 RDD 中的一个 partition,而每一个 split 通常相当于 hdfs 中的一个 block(还有一些其它情况,暂不解释,如 text file 压缩后传过一整个 partition 不能直接使用)。
一个 partition 产生一个 task, 并在数据所在的节点 task slot 执行(数据本地性)
 
 
参考译自:https://0x0fff.com/spark-architecture/

更多 Spark 相关教程见以下内容

CentOS 7.0 下安装并配置 Spark  http://www.linuxidc.com/Linux/2015-08/122284.htm

Spark1.0.0 部署指南 http://www.linuxidc.com/Linux/2014-07/104304.htm

Spark 官方文档 – 中文翻译  http://www.linuxidc.com/Linux/2016-04/130621.htm

CentOS 6.2(64 位)下安装 Spark0.8.0 详细记录 http://www.linuxidc.com/Linux/2014-06/102583.htm

Spark 简介及其在 Ubuntu 下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm

安装 Spark 集群(在 CentOS 上) http://www.linuxidc.com/Linux/2013-08/88599.htm

Hadoop vs Spark 性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm

Spark 安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm

Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm

Ubuntu 14.04 LTS 安装 Spark 1.6.0(伪分布式)http://www.linuxidc.com/Linux/2016-03/129068.htm

Spark 的详细介绍:请点这里
Spark 的下载地址:请点这里

本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-08/133775.htm

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计3362字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19350
评论数
4
阅读量
7958595
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
Prometheus:监控系统的部署与指标收集

Prometheus:监控系统的部署与指标收集

Prometheus:监控系统的部署与指标收集 在云原生体系中,Prometheus 已成为最主流的监控与报警...
手把手教你,购买云服务器并且安装宝塔面板

手把手教你,购买云服务器并且安装宝塔面板

手把手教你,购买云服务器并且安装宝塔面板 前言 大家好,我是星哥。星哥发现很多新手刚接触服务器时,都会被“选购...
2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025年11月28日-Cloudflare史诗级事故:一次配置失误,引爆全球宕机

2025 年 11 月 28 日 -Cloudflare 史诗级事故: 一次配置失误,引爆全球宕机 前言 继今...
升级自动部署更新SSL证书系统、申请godaddy的APIKEY

升级自动部署更新SSL证书系统、申请godaddy的APIKEY

升级自动部署更新 SSL 证书系统、申请 godaddy 的 APIKEY 公司之前花钱购买的 ssl 证书快...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...
颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

  颠覆 AI 开发效率!开源工具一站式管控 30+ 大模型 ApiKey,秘钥付费 + 负载均衡全...
星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的NAS中!

星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的NAS中!

星哥带你玩飞牛 NAS-10:备份微信聊天记录、数据到你的 NAS 中! 大家对「数据安全感」的需求越来越高 ...
星哥带你玩飞牛NAS-12:开源笔记的进化之路,效率玩家的新选择

星哥带你玩飞牛NAS-12:开源笔记的进化之路,效率玩家的新选择

星哥带你玩飞牛 NAS-12:开源笔记的进化之路,效率玩家的新选择 前言 如何高效管理知识与笔记,已经成为技术...
仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

仅2MB大小!开源硬件监控工具:Win11 无缝适配,CPU、GPU、网速全维度掌控

还在忍受动辄数百兆的“全家桶”监控软件?后台偷占资源、界面杂乱冗余,想查个 CPU 温度都要层层点选? 今天给...