当前所在位置: 首页 > 生活常识 > 正文

大数据框架有哪些(大数据框架Hadoop)

2023-02-12 canyinms.com 【 字体:

大数据框架有哪些,大数据框架Hadoop。小编来告诉你更多相关信息。

大数据框架有哪些(大数据框架Hadoop)

介绍大数据框架

市场上有许多可用的框架。其中一些更受欢迎,例如Spark,Hadoop,Hive和Storm。Presto在效用指数上得分很高,而Flink具有巨大的潜力。另外还有一些需要提及的其他内容,例如Samza,Impala,Apache Pig等。在这里,我们将讨论其中的一些。

1. Apache Hadoop

大数据框架有哪些(大数据框架Hadoop)

Hadoop是基于Java的平台。这是一个开放源代码框架,可跨集群排列的一组硬件机器提供批处理数据处理和数据存储服务。Hadoop同样适用于可靠,可扩展和分布式的计算。但是,它也可以用作通用文件存储。它可以存储和处理PB的信息。Hadoop由三个主要组件组成。

HDFS文件系统-负责Hadoop集群中的数据存储;

MapReduce系统-用于处理集群中的大量数据;

YARN-它是处理资源管理的核心。

优点

它提供了经济高效的解决方案,高吞吐量,多语言支持以及与大数据服务中大多数新兴技术的兼容性。还通过出色的故障处理机制支持高可伸缩性,容错能力,更适合研发,高可用性。

缺点

它包含安全漏洞的漏洞,不执行内存中的计算,因此会遭受处理开销,不适用于流处理和实时处理,这是处理大量小文件的问题。

像Amazon,Adobe,AOL,阿里巴巴,EBay和Facebook这样的组织也使用Hadoop。

2. Apache Spark

大数据框架有哪些(大数据框架Hadoop)

Spark框架由加利福尼亚大学伯克利分校成立。它是具有改进的数据流处理的批处理框架。借助完整的内存计算以及处理优化,它保证了极其快速的集群计算系统。

Spark框架由五层组成。

HDFS和HBASE:它们构成了数据存储系统的第一层。

YARN和Mesos:它们形成资源管理层。

核心引擎:这形成了第三层。

库:构成第四层,其中包含用于流查询处理时的SQL查询的Spark SQL,用于处理图形数据的GraphX和Spark R实用程序以及用于机器学习算法的MLlib。

第五层包含一个应用程序接口,例如Java或Scala。

Spark可以作为独立的集群与功能强大的存储层一起使用,也可以与Hadoop进行一致的集成。它也支持一些流行的语言,例如Python,R,Java和Scala。

优点 速度 使用方便 进阶分析 自然动态 多种语言

Apache Spark功能强大

增加对大数据的访问

对Spark开发人员的需求

开源社区 缺点

Spark带来了一些弊端,例如设置和实现的复杂性,语言支持限制,而不是真正的流引擎。

3.Apache Storm

大数据框架有哪些(大数据框架Hadoop)

Apache Storm是另一个引人注目的解决方案,专注于处理巨大的实时数据流。Storm的主要亮点是可伸缩性和停机后的迅速恢复能力。您可以在Java,Python,Ruby和Fancy的帮助下使用此解决方案。Storm包含一些使其在本质上与模拟产品不同的组件。第一个是Tuple,它是支持序列化的关键数据表示元素。然后是Stream,它在Tuple中合并了命名字段的方案。Spout从外部源获取数据,从它们中形成元组,然后将它们发送到Stream。另外还有Bolt(数据处理器)和Topology(拓扑),这是一整套元素及其相关描述。将所有这些元素组合在一起,可以帮助工程师监督大量的非结构化数据流。

谈到性能,Storm提供了比Flink和Spark更好的延迟。尽管如此,它的吞吐量却更糟。最近,Twitter移至另一个框架Heron。Yelp,Yahoo !、阿里巴巴等大型组织尚未利用Storm。到2020年,它将拥有庞大的客户群和支持。

4. Apache Flink

大数据框架有哪些(大数据框架Hadoop)

Apache Flink是一个开源框架,同样适用于批处理和流数据处理。它最适合于集群环境。该框架基于转换–流概念。它也是大数据的4G。它比Hadoop – Map Reduce快100倍。

Flink框架由多层组成-

部署层 运行层 图书馆层 优点

低延迟,高吞吐量,容错,逐项输入,批处理轻松以及流数据处理,与Hadoop的兼容性。

缺点 很少有可伸缩性问题。

5. Presto

大数据框架有哪些(大数据框架Hadoop)

Presto是最适合较小数据集的开源分布式SQL工具。Presto配备了协调员以及各种工人。当客户提交查询时,将对这些查询进行解析,分析,计划执行并分配给协调员在工作人员之间进行处理。

优点

即使并发查询工作量增加,查询降级最少。

它的查询执行速度比Hive快三倍。

易于添加图像和嵌入链接。 高度用户友好。 缺点 可靠性问题

6. Samza

大数据框架有哪些(大数据框架Hadoop)

Apache Samza是有状态的流,准备与Kafka共同开发的大数据系统。Kafka提供数据服务,缓冲和容错能力。两者结合起来被提议用于需要快速单级处理的地方。使用Kafka,可以以低延迟使用它。Samza还在处理过程中保存了局部状态,从而提供了更多的容错能力。它是为Kappa体系结构设计的,但可以在其他体系结构中使用。Samza使用YARN来安排资源。因此,它需要一个Hadoop集群才能工作,这意味着您可以依赖YARN提供的亮点。这个大数据处理框架是为Linkedin开发的,也被eBay和TripAdvisor使用,以进行欺诈发现。Kafka利用了相当一部分代码来创建竞争的数据处理框架Kafka流。

结论

没有一个最适合所有业务需求的框架。但是,以某些框架为特色,Storm似乎最适合流式传输,而Spark是批处理的赢家。对于每个组织或企业,自己的数据都是最重要的。将资源投入大数据结构包括支出。许多框架都是可自由访问的,而有些框架则需要付费。视项目需求而定,可提供初步版本。对于适当的选择,请了解业务目标。您可以在较小规模的项目上尝试使用该框架,以更精确地了解其功能。投资于正确的框架可以使企业成功。

阅读全文
相关推荐

如何自制蛋挞

如何自制蛋挞
1、倒入低筋面、黄油和水,揉成面团状,藏一小时后取出,抹上黄油卷起,包上保鲜膜冷藏半小时。2、取出,将面团切成一厘米的面团,放入模具内,用力按压,中间稍薄,外缘要比模具高,将蛋挞液倒入蛋挞皮中,放入烤箱里烤30分钟即可。

肉火烧面怎么和面

肉火烧面怎么和面
1、首先用温水把酵母融开,加入面粉,用手把面粉揉成非常软的面团,可以放一点熬好的猪油在面团里面。2、然后放在温暖的地方,盖上保鲜膜发酵至2倍大,发好的面团用手插入不回缩,就说明面团发酵好了。

奶茶几分糖好喝

奶茶几分糖好喝
1、不同的人对奶茶的口感要求是不一样的,一般来说,奶茶有三分糖、五分糖、七分糖三种不同的口味。2、女生一般都喜欢喝甜一点的,而男生则喜欢喝不那么甜的,七分糖的奶茶最好喝。

过桥米线是哪里的?

过桥米线是哪里的?
过桥米线是来自云南省滇南地区的一种有名特色小吃。过桥米线最早是在清朝就已经出现,距离现在至少有一百多年的历史啦!起源于建水县东城外锁龙桥西侧的鸡市街头处,有建水的特产草芽、地椒作配料,风味独特而远近闻名。深受广大美食爱好者的喜欢,不少人为此专门长途跋涉,只为尝

面霜和乳液的区别

面霜和乳液的区别
面霜和乳液的区别,相较而言乳液的水分含量要比面霜高,乳液质地要轻薄一些,乳液主要作用是保湿,滋润可以隔离外界干燥的气候,面霜既可保湿,又可美白,还能抗衰老,乳液的吸收快一些,而面霜吸收比较慢一些,因为液体的吸收速度都比较快。

怎么摘隐形眼镜

怎么摘隐形眼镜
在摘隐形眼镜之前,先用洗手液将手清洗干净,以免将细菌带入眼睛内,对着镜子,用右手中指轻拉眼睛下眼睑,左手中指轻拉眼睛上眼睑,让黑色眼球暴露在空气中,用右手食指和拇指轻触镜片的两边缘部分,向中间推使镜片拱起,再用两手指轻轻捏出镜片即可。

粉饼和散粉的区别

粉饼和散粉的区别
粉饼是呈压缩固体状态,多呈圆形或者方形,散粉则是细腻的粉末状,粉饼遮瑕力会比较强一些,可以湿用做粉底,或者用来补妆,而散粉则是定妆的效果,粉饼通常用在底妆的第一步,而散粉通常用在底妆最后一步。

冷烫和热烫的区别

冷烫和热烫的区别
冷烫和热烫的区别:冷烫对头发的要求是要在保温状态下才能给卷有个好的效果,而热烫是在干和湿的情况下都行,热烫烫出来的头发比较自然明显而有弹力,冷烫的头发风干后基本看不出来,并且发质会有点干。

高品质香水如何鉴别?用三步就可以解决

高品质香水如何鉴别?用三步就可以解决
1、看色泽以天然香料调制而成的高级香水,都有它本来的颜色,且大都是琥珀色或褐色,看起来很像宝石,比如,从茉莉、玫瑰或水仙等天然鲜花中所萃取的精油都呈黄色、褐白或绿褐色;此外,香水中所添加的魅惑香气物性香料也是褐色,苔类中的橡树苔是绿色,从树根或树根脂类中萃取的

如何去除黑眼圈

如何去除黑眼圈
去除黑眼圈首先可以用热毛巾敷眼,然后再用冷毛巾敷,十分钟就能让黑眼圈淡化的不那么严重,其次将去壳后的鸡蛋用无菌纱布包裹住,敷于眼部轻轻转动,可以急救去除黑眼圈,另外抹完眼霜后,用双手顺时针按摩,可以促进血液循环消除黑眼圈。
本文Tag