阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

数据库和数据湖的关键概念性差异

278次阅读
没有评论

共计 1288 个字符,预计需要花费 4 分钟才能阅读完成。

导读在数据库和数据湖的工作中,有几个关键的概念性差异。在这篇文章中,让我们来确定其中的一些差异,这些差异在第一眼看到时可能并不直观,特别是对于具有强大关系型数据库背景的人来说。

数据库和数据湖的关键概念性差异

服务器是一次性的。数据在云中。

解耦存储和计算。在谈论数据湖时,这是一个典型的问题。

在传统的数据库系统 (以及最初的基于 Hadoop 的数据湖) 中,存储与计算服务器紧密结合。服务器要么有内置的存储,要么直接连接到存储。

在现代基于云的数据湖架构中,数据存储和计算是独立的。数据被保存在云对象存储 (例如:AWS S3、Azure Storage) 中,通常是以一种开放的格式,如 parquet,而计算服务器是无状态的,它们可以在必要时启动 / 关闭。

拥有一个解耦的存储和计算使。

    降低计算成本。服务器在必要时运行。当不使用时,它们可以被关闭,从而降低了计算成本。
    可扩展性。你不必为高峰期的使用而购置硬件。服务器 / 中央处理器 / 内存的数量可以根据当前的使用情况动态地增加 / 减少。
    沙盒化。相同的数据可以被多个计算服务器 / 集群同时读取。这使得你可以让多个团队在不同的集群中并行工作,读取相同的数据,而不影响彼此。
    RAW 数据才是王道! 策划的数据只是衍生的。

在数据库范式中,来自源系统的数据被转化并加载到数据库表中后,它就不再有用了。在数据湖范式中,RAW 数据被保留为真理的源泉,最终永远保留,因为它是真正的资产。

然而,RAW 数据通常不适合商业用户的消费,因此它要经过一个策划过程,以提高其质量,提供结构并方便消费。经过整理的数据最终被储存起来,供数据科学团队、数据仓库、报告系统以及业务用户的一般消费使用。

数据库和数据湖的关键概念性差异

典型的数据湖消费者只看到策划过的数据,因此他们对策划过的数据的重视程度远远超过产生这些数据的 RAW 数据。

然而,数据湖的真正资产是 RAW 数据(连同策展管道),从某种意义上说,策展的数据类似于一个可以随时刷新的物化视图。

主要收获:

    可以在任何时候从 RAW 中重新创建。
    可以通过改进策展过程来重新创建。
    我们可以有多个策划好的视图,每个视图都用于特定的分析。

今天做出的模式决定不会制约未来的需求

通常情况下,信息需求会发生变化,一些原先没有从源头 / 运营系统中收集的信息需要被分析。

在一个典型的情况下,如果原始的 RAW 数据没有被存储,历史数据就会永远丢失。

然而,在数据湖架构中,今天决定不把某个字段加载到策划的模式中,以后可以推翻,因为所有的详细信息都安全地存储在数据湖的 RAW 区域,历史策划的数据可以用额外的字段重新创建。

数据库和数据湖的关键概念性差异

主要收获:

    如果你现在不需要,就不要花大量的时间去创建一个通用的一刀切的策划模式。
    迭代地创建一个策划的模式,从添加你现在需要的字段开始。
    当需要额外的字段时,将它们添加到策展过程中并重新处理。
最后的思考

数据湖不是数据库的替代品,每种工具都有它的优势和致命弱点。

将数据湖用于 OLTP 可能是一个坏主意,就像使用数据库来存储数千兆字节的非结构化数据一样。

我希望这篇文章有助于阐明两个系统之间的一些关键设计差异。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计1288字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19352
评论数
4
阅读量
8026445
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换...
三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Android 的最优解?

  三大开源投屏神器横评:QtScrcpy、scrcpy、escrcpy 谁才是跨平台控制 Andr...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个AI智能体—跟创业大佬对话

自己手撸一个 AI 智能体 — 跟创业大佬对话 前言 智能体(Agent)已经成为创业者和技术人绕...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞定

多服务器管理神器 Nexterm 横空出世!NAS/Win/Linux 通吃,SSH/VNC/RDP 一站式搞...
欧洲无限速云盘免费10GB永久存储 + WebDAV部署+图床搭建,多平台联动一步到位!

欧洲无限速云盘免费10GB永久存储 + WebDAV部署+图床搭建,多平台联动一步到位!

欧洲无限速云盘免费 10GB 永久存储 + WebDAV 部署 + 图床搭建,多平台联动一步到位! 大家好,我...
你的云服务器到底有多强?宝塔跑分告诉你

你的云服务器到底有多强?宝塔跑分告诉你

你的云服务器到底有多强?宝塔跑分告诉你 为什么要用宝塔跑分? 宝塔跑分其实就是对 CPU、内存、磁盘、IO 做...
支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare 也瘫了连监控都挂,根因藏在哪? 最近两天的互联网堪称“故障...
150元打造低成本NAS小钢炮,捡一块3865U工控板

150元打造低成本NAS小钢炮,捡一块3865U工控板

150 元打造低成本 NAS 小钢炮,捡一块 3865U 工控板 一块二手的熊猫 B3 工控板 3865U,搭...