首页 求职招聘 房产资讯 家居生活 电脑资讯 宠物资讯 大数据 新能源 五金资讯 电商资讯 财经理财 育儿资讯 家电资讯 范文论文 小说 影视头条 数码资讯
您当前的位置 :大数据 >  正文
Hadoop之后:实时数据的未来
http://yangyinchun.cn2020-06-28
在实时数据世界里,为什么我们还这么执着于hadoop?根据451 Research调查数据显示,围绕批处理架构的Hadoop仍然是大数据的代表技术,尽管其声誉仍然超过实际部署情况。

还没有真正部署Hadoop的企业可能想要再等一等。而随着Apache Spark等其他技术(Storm、Kafka等)的出现,我们似乎与Hadoop的批处理渐行渐远,逐渐转向实时数据的未来。

大数据

批处理不是重点

Cloudera的Doug Cutting是一个非常聪明的人,也是开源开发人员,Hadoop、Lucene等大数据工具的开发都有他的功劳。

虽然Cutting承认实时流媒体技术的重要性,但他并没有否认面向批处理的Hadoop的价值,他表示:并不是因为我们觉得批处理是最好的,所以Hadoop围绕批处理而构建。批处理(特别是MapReduce)很自然是第一步,因为它相对容易部署,并提供很重要的价值。在Hadoop之前,没有办法使用开源软件在商品硬件存储和处理千兆字节。Hadoop的MapReduce是很大的进步。我们很难说清楚大数据的商品化对这个世界的重要性。这并不是说在Hadoop之前我们没有存储和分析大量数据,而是Hadoop让我们非常廉价地实现这个过程。

总之,Hadoop民主化了大数据。

转向流数据

然而,Hadoop并没有让大数据分析变得容易。正如DataStax首席布道者Patrick McFadin表示,从企业数据挖掘价值并没有那么简单:我们都听说过存储和分析PB级数据的投资回报率的问题。谷歌、雅虎和Facebook都在从中创造惊人的价值,而大部分企业都在试图研究如何分析所有数据,第一:收集所有数据;第二:解析所有数据;第三:利润!在数据收集和利润之间有很多麻烦的步骤。随着企业试图加快对实时数据的分析能力,新技术为他们提供了可能。

McFadin发现了这个新大数据堆栈的关键要素。首先是一个排队系统,Kafka、RabbitMQ和Kinesis等。然后是流处理层,这可能包括Storm、Spark Streaming或者Samza.对于高速存储,企业经常转向Cassandra、HBase、MongoDB或者MySQL等关系型数据库。

最有趣的是批处理仍然有用武之地。McFadin表示,批处理现在可用于处理,即汇总和更深入的分析。批处理和实时的融合被称为“Lambda架构”,这涉及让三个元素和谐地共处:批处理、速度和服务。

换句话说,批处理仍然有用。

淘汰批处理

但并不是每个人都同意。Zoomdata公司首席执行官和联合创始人Justin Langseth认为Lambda是“不必要的”,并称,“现在有端到端工具可以从采购、运输、存储到分析和可视化来处理数据,而不需要批处理”。在他看来,批处理是大数据过去的遗留物:实时数据显然最好应该作为流来处理,而且还可以加载历史数据,正如你的DVR可以加载电影《飘》或者上周的电视节目《美国偶像》到你的电视。这种区别很重要,Zoomdata认为将数据作为流来分析可以增加可扩展性和灵活性,而无论数据是实时还是历史数据。

然而,超越可扩展性和灵活性好处的可能是将批处理从大数据过程移除所带来的简单性。Langseth认为,“当你不需要担心批处理窗口以及从批处理故障中恢复时,这可以极大地简化大数据架构。”

流分析取代Hadoop

Cutting称,还没有那么快,Cutting认为未来Hadoop等技术并不会完全被淘汰,流分析会得以发展,Cloudera的Enterprise Data Hub也是一样。事实上,他不认为会广泛转向流分析,而是为大家带来了又一种选择。

更有趣的是,大数据的大爆炸会让行业催生出一些好方法来应对数据处理。

我认为我们不会再那么频繁地看到Spark这样的主要技术增加,随着时间的推移,我们将会标准化这些工具,为大多数人提供功能来满足其大数据应用需求。Hadoop带来了技术爆炸,但我们可能会进入比较正常的演化过程,在各行业广泛使用这些技术。

DataStax社区经理Scott Hirleman同意说:“批处理并不会消失,总是会需要对大量数据的大规模分析。”现在大家对流分析有极大的兴趣,但称现在还不清楚这种趋势对大数据计划的影响。

总之,流分析完全是关于“和”,而不是“或者”,这是对围绕批处理系统(例如Hadoop)的很好的补充,但这肯定不会完全取代Hadoop。

相关报道
Hadoop之后:实时数据的未来
.cn域名8月份注册量突破1951万个 今年已新增270万
快应用不会取代 App,未来将赋能 IoT!
中移欲投资科大讯飞 打造匹敌Siri语音产品
采用云计算为大数据建立严格安全标准
贵还是便宜?四拼.CC域名yunduanshenghuo.cc1.5万元成交!
Hadoop中Hive原理及安装
如何提高云服务器网站加载速度
资金充裕蒸蒸日上的ofo小黄车,怎么就被“贪腐”了?
西部数码快讯:神速!腾讯今日已率先启用qq.store域名
 
 
 热门新闻
· 今日头条:2017今日头条图书阅读大数据(附下载)
· 余额宝累计申购资金13592亿 为用户盈利75亿元
· 谷歌证实Stadia手柄支持蓝牙音频 玩家需耐心等待
· 演讲达人支招:想和任何人都能轻松搭话?
· 女工程师独家揭秘:双11秘密武器阿里云数据库团队故事
· 云端时代 云主机大盘点
· 一直播即将强势来袭 直播江湖再添新力量
· 创业说:IT界创业的些许体会
· 云计算讨论:自建IT服务还是选择第三方云服务
· 资金充裕蒸蒸日上的ofo小黄车,怎么就被“贪腐”了?
 推荐
· 含义好颜值高,叠域名DDD.cn以30万元结拍
· AI赋能加速进化 Qualcomm AI & IoT开发技术开放日即将
· 数据是制造业实现物联网价值的关键
· 为何大数据很多,能赚钱的公司却很少?
· 群脉SCRM车传利:新零售时代,传统快消破局三步走
· 改善云安全塑造机遇
· 拼多多成功上市,发行价19美元
· 北京航空航天大学线上开学 腾讯课堂成护“航”者
· Hadoop之后:实时数据的未来
· .cn域名8月份注册量突破1951万个 今年已新增270万
鹏正P网