阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

大数据和开源查询

288次阅读
没有评论

共计 3349 个字符,预计需要花费 9 分钟才能阅读完成。

导读Apache Hive 是基于 Hadoop 生态系统的旗舰数据仓库工具。它不仅将结构化的数据文件映射到数据库表,而且还提供 SQL(HQL)查询功能 (例如 SQL 语句) 并将 SQL 语句转换为 MapReduce 任务以供执行。
阿帕奇 Hive

大数据和开源查询

它是由 Facebook 开发的,于 2008 年进入 Apache 孵化器,并于 2010 年 9 月成为优秀 Apache 项目。背后的原理是利用熟悉的 SQL 模型来处理 HDFS(Hadoop)上的数据。借助 Hive,学习成本低,并且可以通过 HQL 语句快速转换简单的 MapReduce 统计信息,而无需担心开发其他特殊的 MapReduce 应用程序。

Hive 非常方便地在整个企业范围内对数据仓库进行建模和构建,而 Hive SQL 模型则可以对数据仓库中的数据进行统计和分析。

但是,Hive 的底层被转换为 MR,而 MR 的改组依赖于系统磁盘,因此它只能处理离线分析,这效率相对较低,在开发人员社区中不可接受。Hive 通常使用 Hive 在整个组织中构建数据仓库。

Apache SparkSQL

大数据和开源查询

Apache SparkSQL 是主要的 Spark 组件构建,用于处理结构化数据。Spark SQL 于 2014 年发布,并吸收了 Hive-on-Spark 项目,该项目现在是使用最广泛的 Spark 模块。它提供了一个称为 DataFrames 的可编程抽象数据模型,并被视为分布式 SQL 查询引擎。

SparkSQL 取代了 Hive 的查询引擎,但也与 hive 系统兼容。关于 Spark RDD API,Spark SQL 提供的接口将为 Spark 提供有关结构化数据和计算的更多信息。SparkSQL 最底层是 Spark Core,它使您可以轻松地在不同的 SQL 和 API 之间切换。

Presto

大数据和开源查询

Presto 是一个分布式数据查询引擎,但从不存储数据本身 Presto 将提供对多个数据源的访问,并支持跨不同数据源的级联查询。它是一个分布式 SQL 交互式查询引擎,它也在 2012 年由 Facebook 开发,并于 2013 年开源。

Presto 是一种 OLAP 工具,适用于海量数据的复杂分析,但不适用于 OLTP 方案。Presto 仅提供计算和分析功能,而不能用作数据库系统。

就 Hive 而言,Presto 是一种低延迟,高并发性的内存计算引擎。它的执行效率比 Hive 高得多。它的 MPP(大规模并行处理)模型可以处理 PB 级数据。Presto 的原理只是将一些数据放入内存中进行计算,完成后将其取出,然后再次处理其他一些数据,例如循环和类似于管道处理模式。

Apache Kylin

大数据和开源查询

Apache Kylin 是针对 Hadoop 生态系统的开源分布式分析引擎。其针对 Hadoop / Spark 的 SQL 查询接口和 OLAP 功能广泛支持超大规模数据。它使用基于多维数据集的预计算技术,该技术可快速高效地处理大数据 SQL 查询。Kylin 由 eBay 开发,并于 2014 年 11 月进入 Apache 孵化器。

凯林 (Kylin) 的出现是为了解决分析需要的 TB 数据。它可以在蜂巢中预先计算数据,并使用 Hadoop 的 MapReduce 框架实施。它可以在几秒钟内查询大量的 Hive 表。

麒麟最关键的两个过程是

  • 多维数据集的预计算过程,并将 SQL 查询转换为多维数据集。
  • 此外,在查询时要预先计算汇总结果并同时获得查询结果,避免直接扫描。
Apache Impala

大数据和开源查询

与其他框架相比,它是用于大数据的实时交互式 SQL 查询引擎。Apache Impala 是由 Cloudera 开发的 SQL MPP 查询工具,受 Google Dremel 的启发,后来于 2012 年 10 月开源,并于 2017 年 11 月 28 日成为优秀项目。

Impala 使用完全开放且不同的形式集成到 Hadoop 生态系统中,从而使其使用者可以使用 SQL 来处理 Hadoop 生态系统中的大量数据。

目前,它支持多种类型的存储选项,例如:

  • Apache Kudu
  • 亚马逊 S3
  • 微软 ADLS
  • 本地存储

它诞生时仅支持对大量 HDFS 数据的交互式分析。它的灵活性和领先的分析数据库性能促进了在全球企业中的大量部署。

Ir 为企业业务提供 BI 和交互式 SQL 高效分析,并允许第三方生态系统快速增长。

Apache Druid

大数据和开源查询

Apache Druid 是用于实时数据分析的开源工具,旨在快速处理大规模数据。它的分布式实时分析通过快速查询和大规模数据集解决了复杂的任务。

2018 年 2 月 28 日进入 Apache 孵化器。它提供了以交互方式访问数据的功能。进入 Druid 系统后,可以实时摄取数据并立即进行验证。输入的数据 a 几乎是不可变的。通常是基于时间顺序的事实事件。

Elastic Search

它是一个分布式,可伸缩的实时搜索和分析引擎。它由 Shay Banon 于 2010 年建造,后来开源。它具有全文搜索引擎的功能,并具有 RESTful Web 界面的分布式多用户支持。

ES 的工作原理主要分为以下几个步骤。

  • 首先,用户将数据输入 ES 数据库
  • 然后利用分词控制器对相应的句子进行分段
  • 存储细分结果的权重。

当用户搜索特定数据时,将根据权重对结果进行排名和评分,然后返回给用户。ES 是完全用 Java 开发的,并且是当前比较受欢迎的企业搜索引擎。

它稳定,可靠,快速且易于安装,专为在云计算环境中使用而设计。

官方客户提供以下语言版本

  • Java
  • .NET(C#)
  • PHP
  • Python
  • Apache Groovy
  • Ruby
Apache HAWQ

大数据和开源查询

Apache HAWQ(带有查询的 Hadoop)是 Hadoop 本机并行 SQL 分析引擎。它是 Pivotal 在 2012 年推出的具有商业许可的高性能 SQL 引擎。

它是 Hadoop 的本机 SQL 查询引擎,结合了 MPP 数据库的技术优势,巨大的可扩展性和 Hadoop 的便利性。

经验证,HAWQ 的 OLAP 性能是 Hive 和 Impala 的 4 倍以上。它非常适合在 Hadoop 平台上快速构建数据仓库系统。

HAWQ 具有以下功能,例如

  • 大规模并行处理
  • 完全的 SQL 兼容性,
  • 支持存储过程和事务。

它也可以轻松地与其他开源数据挖掘库 (如 MADLib) 集成。

Apache Lucene

大数据和开源查询

Apache Lucene 是基于 Java 的开源全文搜索引擎工具箱。它是功能比较强大且被广泛采用的搜索引擎。Lucene 不是完整的搜索引擎,而是全文搜索引擎体系结构,使用此原型,您可以制造其他搜索引擎产品。它是一种全文本搜索引擎体系结构,可提供完整的索引创建和查询索引以及文本分析引擎。

Lucene 的目标是为软件开发人员提供一个简单易用的工具包,以促进在所需系统中实现全文搜索功能,甚至基于此原型构建完整的全文搜索引擎。它提供了一个简单但功能强大的应用程序编程接口(API),可以进行全文索引和搜索。

Apache Solr

大数据和开源查询

Apache Solr 是一个基于 Apache Lucene 架构的开源企业搜索平台。它于 2004 年发布,于 2007 年 1 月 17 日成为 Apache 优秀项目。

它的高可靠性,可伸缩性和容错能力提供分布式索引,复制和负载平衡查询,自动故障转移,恢复和集中式配置。它是一个完全用 Java 语言编写的独立全文搜索服务器,并在 Servlet 容器环境 (Apache Tomcat 或 Jetty) 中运行。

Solr 依靠 Lucene Java 搜索库进行全文索引和搜索,并使用 HTTP / XML 和 JSON API 执行类似 REST 的操作。Solr 强大的外部配置功能使其无需使用 Java 语言即可进行调整,以适合多种类型的软件。Solr 支持许多大型 Internet 企业站点的搜索和导航功能。

Apache Phoenix

大数据和开源查询

Apache Phoenix 是基于 HBase 的 SQL 类型框架。Apache Phoenix JDBC API 取代了传统的 HBase 客户端 API 的需求,它还创建表,插入数据和查询 HBase 数据。基本上,这是 Java 中间层,允许开发人员使用 HBase 中的数据表,例如关系数据库(例如,通过 Phoenix 的 MySQL)。

Phoenix 会将 SQL 查询语句编译为一系列 Scan 操作,并生成 JDBC 结果集并将其返回给服务使用者。它使您能够使用基础层,例如 HBase 协处理器和过滤器。无论数据响应时间以秒为单位,小规模查询都会以毫秒为单位进行响应。

阿里云 2 核 2G 服务器 3M 带宽 61 元 1 年,有高配

腾讯云新客低至 82 元 / 年,老客户 99 元 / 年

代金券:在阿里云专用满减优惠券

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2024-07-25发表,共计3349字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19348
评论数
4
阅读量
7805040
文章搜索
热门文章
开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南

开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南

开发者必备神器:阿里云 Qoder CLI 全面解析与上手指南 大家好,我是星哥。之前介绍了腾讯云的 Code...
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
云服务器部署服务器面板1Panel:小白轻松构建Web服务与面板加固指南

云服务器部署服务器面板1Panel:小白轻松构建Web服务与面板加固指南

云服务器部署服务器面板 1Panel:小白轻松构建 Web 服务与面板加固指南 哈喽,我是星哥,经常有人问我不...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
终于收到了以女儿为原型打印的3D玩偶了

终于收到了以女儿为原型打印的3D玩偶了

终于收到了以女儿为原型打印的 3D 玩偶了 前些日子参加某网站活动,获得一次实物 3D 打印的机会,于是从众多...
星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛NAS-7:手把手教你免费内网穿透-Cloudflare tunnel

星哥带你玩飞牛 NAS-7:手把手教你免费内网穿透 -Cloudflare tunnel 前言 大家好,我是星...
如何免费使用强大的Nano Banana Pro?附赠邪修的用法

如何免费使用强大的Nano Banana Pro?附赠邪修的用法

如何免费使用强大的 Nano Banana Pro?附赠邪修的用法 前言 大家好,我是星哥,今天来介绍谷歌的 ...
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

  开源 MoneyPrinterTurbo 利用 AI 大模型,一键生成高清短视频! 在短视频内容...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
开发者福利:免费 .frii.site 子域名,一分钟申请即用

开发者福利:免费 .frii.site 子域名,一分钟申请即用

  开发者福利:免费 .frii.site 子域名,一分钟申请即用 前言 在学习 Web 开发、部署...
还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手!

还在找免费服务器?无广告免费主机,新手也能轻松上手! 前言 对于个人开发者、建站新手或是想搭建测试站点的从业者...
支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare也瘫了连监控都挂,根因藏在哪?

支付宝、淘宝、闲鱼又双叕崩了,Cloudflare 也瘫了连监控都挂,根因藏在哪? 最近两天的互联网堪称“故障...
星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛NAS硬件02:某鱼6张左右就可拿下5盘位的飞牛圣体NAS

星哥带你玩飞牛 NAS 硬件 02:某鱼 6 张左右就可拿下 5 盘位的飞牛圣体 NAS 前言 大家好,我是星...
把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地

把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地

把小米云笔记搬回家:飞牛 NAS 一键部署,小米云笔记自动同步到本地 大家好,我是星哥,今天教大家在飞牛 NA...