业界动态
Shark:针对大数据的实时查询和分析
2024-11-10 18:23

Hadoop的优势在于批处理,MapReduce并不特别适用于交互/特殊指定的查询。 实时(Real-time)1SQL查询(在Hadoop数据上)通常使用自定义连接器来执行MPP数据库。实际上这意味着在独立的Hadoop和数据库集群之间有连接器。在过去几个月中,一些提供快速的系统Hadoop集群中的SQL访问受到关注。 Hadoop和快速MPP数据库集群之间的连接器并没有消失,但是人们越来越感兴趣于将许多交互式SQL任务转移到与Hadoop共存于同一集群上的系统中。

Shark:针对大数据的实时查询和分析

拥有支持快速/交互式SQL查询的Hadoop集群可以追溯到几年前HadoopDB,一个来自耶鲁的开源项目。 HadoopDB的创建者此后开始了一家商业软件公司(Hadapt),旨在构建一个将Hadoop /MapReduce和SQL相结合的系统。在Hadapt中,(Postgres)数据库放置在Hadoop集群的节点中,形成一个系统2可以使用MapReduce、SQL和搜索(Solr)。从版本2.0开始,Hadapt是容错系统,具有分析功能(HDK),可以通过SQL使用。

开源系统本文的其余部分介绍了两个相对较新的开源工具:Impala和Shark。 自Strata NYC发布以来,Cloudera的Impala系统产生的嗡嗡声突出显示了大数据社区需要Hadoop中的实时查询系统的程度。自从发布以来,已经有许多关于Impala的优秀文章(参见这里和这里),所以这里不会深入涉及它的设计细节。我会强调一下Cloudera展现的令人印象深刻的性能数据。

对于纯粹的I/O绑定查询,我们通常会看到3-4倍范围内的性能提升。 …对于至少有一次连接的查询,我们已经看到7-45X的性能提升。 …如果通过查询访问的数据从缓存中提取出来,由于Impala的卓越效率,加速将更加激烈。在这些情况下,即使在简单的聚合查询中,我们也看到了Hive上20倍-90倍的加速。

Shark Shark是一个Spark组件,一个开源的分布式和容错内存分析系统,可以安装在与Hadoop相同的集群上。特别是,Shark完全兼容Hive和支持HiveQL,Hive数据格式和用户自定义功能。另外Shark可以用来查询来自4在HDFS,Hbase和Amazon S3的数据。

Shark的创作者刚刚发表了一篇论文,在文中他们系统地比较了它与Hive的表现,Hadoop和MPP数据库。他们发现Shark比Hive在各种查询上快得多:大概来说,Shark在磁盘上的速度要快5-10倍,而Shark内存模式的速度要快100倍。重要的是,Shark的表现收益是与MPP数据库中观察到的相当!

在这个阶段,用户至少有两个可用于Hadoop中快速/交互式SQL的开源系统。虽然Impala引起了更多的关注,但Shark团队已悄悄地将高扩展系统集成在一起,该系统具有引人注目的功能包括数据联合分区(co-partitioning),容错(fault-tolerance)以及将机器学习(machine-learning)集成到分析师的工作流程中。

内存列存储和列压缩使用Impala时获得的最佳性能是通过使用Trevni列存储格式实现的。在Shark的情况下,他们的自定义列式存储和压缩将存储和查询时间缩短了大约5倍。

控制数据分区=>快速,分散式JOINSShark让用户使用指定的键分区表。特别是如果表经常是“joined”,那么可以使用通用(“join”)键对它们进行分区。 Co-partitioning是许多MPP数据库用来加速“joins”涉及大量表的技巧。

容错(Fault-tolerance)Shark可以从节点故障中优雅地恢复6,并且在重建丢失的(数据)分区之后继续执行查询。对大数据集的初始测试表明恢复对性能的影响很小(并且比re-executing查询快得多)。

SQL “optimizer”Shark已经实现了一个简单的优化器(部分DAG执行或PDE)使用数据统计(重击者,近似直方图)在需要时动态地改变查询计划。例如,Shark的PDE系统使用数据统计信息为“joins”执行run-time优化。

机器学习(Machine-learning)支持 RDD的是分散式可以缓存在跨计算节点集群内存中的对象。它们是Spark中使用的基本数据对象。用户可以创建RDD(使用sql2rdd命令)并将machine-learning函数应用于它们。目前machine-learning和分析函数可以用Scala和Java编写,并且即将支持Python。用户不仅可以从相同的内部获得执行简单SQL查询和复杂计算的好处7框架,而且Shark比Hadoop快100倍:

与BI工具集成Impala与Tableau和QlikView的。有Shark用户使用Tableau之类的工具,但BI集成是Shark内的相对未探索(“unexplored”)区域。

总结Impala和Shark是Hadoop的交互式SQL系统。一个新文章显示Shark提供加速与MPP数据库中观察到的相当。除了比Hive for SQL快100倍以外,Shark的框架比(迭代式)machine-learning算法的Hadoop快100倍。

    以上就是本篇文章【Shark:针对大数据的实时查询和分析】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/5279.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新新闻
(完整版)excel试题及答案(可编辑修改word版)
Excel 试题一.选择题1、“Excel2000­”属于哪个公司的产品(C )A、IBMB、苹果C、微软D、网景2、可同时打开(D )个Excel 窗口
如何评估第三方客服机器人的效率?
在电商竞争激烈的今天,客服机器人的表现直接关系到你的销售业绩:是推动增长,还是成为负担。企业如果用了高
三亚旅游攻略:玩转美丽海滨城市的费用指南
引言:三亚的魅力 三亚,这个被誉为“东方夏威夷”的美丽海滨城市,以其绚丽的阳光、碧蓝的海水和洁白的沙滩吸引了无数游客。无论是令人陶醉的海上运动,还是独特的热带风情,三亚都能让每位前来的人流连忘返。在这里,我们将为您提供一份
五行养生:健康之源
五行养生的智慧 五行养生源于中国古代哲学理论,强调木、火、土、金、水五种元素之间的相生相克关系。这一理念不仅是中医基础理论的核心,更是现代养生的重要参考。五行养生讲求的是与自然和谐相处,强调通过调理身体的内外环境来达到健康
海底捞预约点单全攻略:轻松享受美味火锅
引言:海底捞的魅力所在 海底捞,作为中国最受欢迎的火锅品牌之一,以其优质的服务和新鲜的食材受到广大食客的喜爱。这不仅仅是一家火锅店,更是一种高品质就餐体验的代名词。随着人们生活水平的提高,对饮食的要求也在不断升级,火锅当然
优化你的网络体验:2023年服务器配置推荐指南
优化你的网络体验:2023年服务器配置推荐指南 随着互联网的迅速发展,服务器的性能和配置也越来越受到重视。作为一个网站管理员或者企业主,选择适合自己需求的服务器配置至关重要。在2023年,服务器配置将更加先进和高效,为您的网络体验
网站优化总代理的成功之道:如何有效提升网络营销效果与运营效率
引言 在当今数字化时代,网络营销作为企业推广和品牌建设的重要手段,正变得越来越至关重要。然而,许多企业在进行网络营销时,往往会面临各种挑战和困境。为了帮助企业克服这些难题,网站优化总代理应运而生。他们凭借专业的知识和丰富的
旅游景区基础设施的重要组成部分及其优化提升措施探讨
引言 随着经济的不断发展和人们生活水平的提高,旅游业逐渐成为热门的消费领域。我国拥有丰富的自然和人文景观,吸引了大量国内外游客。然而,旅游景区的基础设施水平直接影响游客的体验感和满意度,因此,提升景区的基础设施建设显得尤为
AI视频工具的功能大揭秘您绝对不能错过!
AI视频工具的功能大揭秘 随着科技的迅猛发展,AI视频工具作为一种创新的技术手段,正逐渐走进我们的生活。它不仅在影视制作行业大放异彩,还在各种在线视频平台上得到了广泛的应用。那么,AI视频工具到底有哪些功能?让我们一起来揭秘。 智
大型企业网站优化策略解析
大型企业网站优化策略解析 随着互联网的快速发展,大型企业越来越重视在线营销和网站优化。一家优秀的企业网站不仅可以提升企业形象,还可以吸引更多潜在客户,增加销售额。那么针对大型企业网站,我们应该采取怎样的优化策略呢? 1. 网站
本企业新闻