相关动态
大数据平台架构02_实时数据平台
2024-11-10 18:33

大数据和人工智能是天然的一对最佳搭档,尤其是在实时数据方面。实时数据训练的算法效果和离线数据训练的算法效果有着天壤之别,实时数据训练得到的算法用到的数据就是算法正式上线后输入的数据,因此准确性有保障,是算法工程师和业务的首选。

大数据平台架构02_实时数据平台

1.整体框架

[外链图片转存失败(img-Wsz3gmMr-1566876624131)(C:UserszhangzhenquanAppDataRoamingTypora	ypora-user-images1566872271259.png)]

(1)技术四件套

实时数据平台的支撑技术主要包含四个方面,目前主流的实时数据平台也都是基于这四个方面相关的技术搭建的。

实时数据采集(如Flume

消息中间件(如Kafka

流计算框架(如Strom 、Spark 、Flink 和Beam 等

实时数据存储(如列族存储的Hbase

(2)数据来源

实时数据平台首先要保证数据来源的实时性。数据来源通常可以分为两类

数据库 日志文件

对于前者,业界的最佳实践并不是直接访问数据库抽取数据,而是会直接采集 数据库变更日志气

(3)主要技术

实时数据处理通常采用某种流计算处理框架,实时数据平台最为核心的技术是流计算。目前使用最为广泛的是Storm (不仅指原生Storm ,还包含其他类Storm 框架如JStorm 、Storm Trident 等)、Spark 和Flink 等。

2.流计算特征

(1)特征

无边界:流计算的数据源头是源源不断的,就像河水一样不停地流过来,相应地,流计算任务也需要始终运行。

触发:不同于Hadoop 离线任务是定时调度触发,流计算任务的每次计算是由源头数据触发的。触发是流计算一个非常重要的概念,在某些业务场景下,触发消息的逻辑比较复杂,对流计算挑战很大。

延迟:很显然,流计算必须能够高效地、迅速地处理数据。不同于离线Hadoop 任务 至少以分钟甚至小时计的处理延迟,流计算的延迟通常在秒甚至毫秒级,分钟级别 的延迟只在有些特殊情况下才被接受。

历史数据: Hadoop 离线任务如果发现历史某天的数据有问题,通常很容易修复问题而且重运行任务,但是对于流计算任务来说基本不可能或者代价非常大,因为首先实时流消息通常不会保存很久(一般几天, 而且保存历史的完全现场基本不可能,所以实时流计算一般只能从问题发现的时刻修复数据,历史数据是无法通过流式方 式来补的。

(2)两种实现机制

模仿离线的批处理方式,也就是采用微批处理(即m ini batch ) 。微批处理带来了吞吐量的提升,但是相应的数据延迟也会增大,基本在秒级和分钟级,典型的技术是Spark Streaming 。

另一种是原生的消息数据,即处理单位是单条数据,早期原生的流计算技术延迟低(一般在几十毫秒,但是数据吞吐量有限,典型的是原生的Storm 框架,但是随着Flink 等技术的产生和发展, 吞吐量也不再是问题。

3.几个开源框架

Storm 是最早的流计算技术和框架,也是目前最广为所知的实时数据处理技术,但是实际上还有其他的开源流计算技术,如Storm Trident 、Spark Streaming 、Samza 、Flink 、Beam 等,商业性的技术还有Google MillWheel 和亚马逊的Kinesis 等。

(1)storm

Storm 是原生的流计算框架,数据一条一条被处理,所以其数据延迟可以非常低,基本在lOOms 之内,调优的情况下甚至可以到lOms 。但是相应地,代价就是处理性能,原生Storm 的数据吞吐量一般,而且它不提供高级API ,也不支持状态的管理。数据可靠性方面, Storm 不支持exactly once 的处理,只支持实时消息的at least once 处理。

(2)Storm Trident

Trident 是对原生Storm 的一个更高层次的抽象,其最大的特点是以mini batch 的形式进行流处理。同时,Trident 简化topology 构建过程,增加了窗口操作、聚合操作或者状态管理等高级操作API 。对应于Storm 提供的at most once 可靠性, Trident 还支持exactly once 可靠性。

(3)Spark Streaming

Spark 也是目前业界比较受欢迎也比较流行的实时数据处理方案,尤其对于采用Spark生态作为数据平台解决方案的公司或者组织来说。从本质上讲, Spark Streaming 也是基于微批处理的流计算框架,即它将源头数据分成很小的批井以类似于离线batch 的方式来处理这小部分数据。不同于Storm Trident 的是,Spark Streaming 微批处理框架底层依赖于Spark Core 的RDD 实现

(4)Flink

Flink 项目开始得非常早,大概是在2008 年,但是直到2016 年才日渐受到重视并变成Apache 的顶级项目。Flink 是原生的流计算处理框架,提供高级API 、状态管理、exactly once 可靠性等,同时数据处理吞吐量也很不错,从目前社区的发展来看, Flink 也非常有活力。

    以上就是本篇文章【大数据平台架构02_实时数据平台】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/news/5767.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多   
最新文章
电信卡怎么异地销户 销户流程是什么手机卡停机多久会被注销「电信卡怎么异地销户 销户流程是什么」
随着手机普及率越来越高,人们因为更工作、学习等各种原因更换手机号的频率也是越来越高,对于不用的手机号我们都需要进行销户,
梦金园去年净利同比降17.8%至1.89亿元 海外增700%
《科创板日报》3月29日讯(记者 徐赐豪)近期,黄金行情不断上涨,引发资本市场高度关注,黄金相关的企业也备受瞩目。昨晚公布其
怎么找回qq密码qq密码忘记了手机号也换了怎么办「怎么找回qq密码」
在日常的数字生活中,QQ作为我们常用的通讯工具之一,其账号安全显得尤为重要。然而,偶尔我们可能会遇到忘记密码的尴尬情况。别
大屏智能千元机 酷派5860价格欲破1100元酷派5860手机「大屏智能千元机 酷派5860价格欲破1100元」
(中关村在线手机频道行情报道)2012年3月6日,酷派5860(行货)在“ZOL商城”促销,最新报价为1181元,含发票。本款的配件为:
计步器怎么删掉手机自动计步器「计步器怎么删掉」
计步器作为现代智能设备的一部分,已经成为许多人日常健康管理的得力助手。然而,在某些情况下,用户可能需要删除计步器中的数据
三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元手机爆炸「三星今天上午宣布Note7爆炸原因 已导致损失超10亿美元」
2016年8月, Galaxy Note 7智能手机在上市后,“引爆”了全球对于手机市场安全问题的关注,上百起电池燃烧事故让三星频繁陷入舆
CBA八强出炉!下半区比上半区惨烈,9-12最终排名确定!
在附加赛全部结束之后,八强的对阵已经全部出来了。其中上半区:广厦-青岛、辽宁-新疆。广厦和青岛的比赛,大家肯定都看好广厦。
财知道 | 爆卖上百万件!巴掌大的小东西,是年轻人的“到此一游”
或是四四方方、圆圆造型,或是形态各异,一块硬板刻着各式内容,再配上一块方寸大小的磁力贴片,曾被人吐槽“又土又贵”的冰箱贴
Z趋势:4G高速时代 机会与挑战并存4g手机价格「Z趋势:4G高速时代 机会与挑战并存」
2013年12月4日下午,工业和信息化部向中国联通、中国电信、中国移动正式发放了第四代移动通信业务牌照(即4G牌照),三家均获得T
华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)手机工程模式「华为手机工程模式怎么进入(华为手机工程模式怎么进入桌面)」
华为手机工程模式怎么进入相信很多小伙伴还不知道,现在让我们一起来看看吧!华为手机工程模式怎么进入(华为手机工程模式怎么进入