首页 求职招聘 房产资讯 家居生活 电脑资讯 宠物资讯 大数据 新能源 五金资讯 电商资讯 财经理财 育儿资讯 家电资讯 范文论文 小说 影视头条 数码资讯
您当前的位置 :大数据 >  正文
Hadoop与Storm的对比
http://yangyinchun.cn2020-06-21
1、Hadoop上运行的是MapReduce jobs,而在Storm上运行的是topology。   2、 Hadoop使用磁盘作为中间交换的介质,而storm的数据是一直在内存中流转。   3、hadoop的数据源是HDFS上某文件夹下已经存在的TB级的大数据,待处理的数据是相对不变的;而Storm的数据源是实时新增的B或KB级的小数据,处理的数据是支持增加的。   4、一个MapReduce job数据处理完后会自动结束, 而一个topology数据处理完后会一直等待下一个数据的到来,不会自动停止(除非你手动强制停止)。   5、hadoop擅长批处理、吞吐量大、做全量数据的离线分析,Storm的优势是数据的实时分析,以实时性高被广泛应用,单位时间内的吞吐量要小于hadoop。   6、对比Hadoop的批处理,Storm是一个实时处理计算框架,是针对在线业务而存在的计算平台。同Hadoop一样Storm也可以处理大批量的数据,然而Storm在保证高可靠性的前提下还可以让处理进行的更加实时。Storm同样具备容错和分布计算这些特性。Storm易于扩展,随着业务的发展,数据量、计算量的增大,只需要添加机器和改变对应的topology(拓扑)设置。Storm使用Zookeeper进行集群协调,充分保证集群的稳定运行。Storm一旦递交topology就会一直运行,直到topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务,一个节点挂了不能影响我的应用。   7、Hadoop下的Map/Reduce计算框架对于数据的处理流程是:   (1) 将要处理的数据上传到Hadoop的文件系统HDFS中。   (2) Map阶段: 对于大量的数据进行切分,划分为M个16~64M的数据分片(可通过参数自定义分片大小)。调用Mapper函数:Master为Worker分配Map任务,每个分片都对应一个Worker进行处理。各个Worker读取并调用用户定义的Mapper函数处理数据,并将结果存入HDFS,返回存储位置给Master。一个Worker在Map阶段完成时,在HDFS中,生成一个排好序的Key-values组成的文件。并将位置信息汇报给Master。   (3)Reduce阶段:Master为Worker分配Reduce任务,他会将所有Mapper产生的数据进行映射,将相同key的任务分配给某个Worker。调用Reduce函数:各个Worker将分配到的数据集进行排序,并调用用户自定义的Reduce函数,并将结果写入HDFS。每个Worker的Reduce任务完成后,都会在HDFS中生成一个输出文件。   使用Hadoop需要先将数据put到Hdfs,按每16-64MB切一个文件的粒度来计算,1分钟已经过去了,Hadoop 开始计算时,开始调度任务又花了一分钟,然后作业运行起来,假设机器特别多,几钞钟就计算完,然后假设写数据库也花了很少的时间,这样从数据产生到最后可以使用已经过去了两分钟多。
\
\
  8、Storm是一个流式计算框架,对于数据的处理流程是:Storm将数据以Stream的方式,并按照Topology的顺序,依次处理并最终生成结果。   流计算是数据产生时,就有一个程序一直在监控数据,产生一行就通过传输系统发给流式计算系统,然后流式计算系统直接处理,处理完后直接写入数据库,每条数据从产生到写入数据库,可以在毫秒内完成。
\

第三十届CIO班招生
法国布雷斯特商学院硕士班招生
北达软EXIN网络空间与IT安全基础认证培训
北达软EXIN DevOps Professional认证培训
相关报道
Hadoop与Storm的对比
应用宝7.0极“智”发布 打造先锋手游体验馆
双拼youge.com超10万元成交!“郎朗”域名大五位易主
薛蛮子谈区块链:今天热闹的公司大多数会完蛋
圆舟科技“柚客”荣获华为HTML5移动应用大赛三等奖
基于云计算的EMR系统 真的成熟了吗?
Uber高管或离职曾创办无人卡车公司Otto
特斯拉要求供应商返还现金助其盈利,引发现金流担忧
阿里钉钉正式启动国际化战略 目标10亿用户量
十问云计算:最不可阻挡的流行趋势
 
 
 热门新闻
· 硅谷的创业公司都做了哪些有趣的大数据产品
· 分享15个机器学习的在线教程和课程
· 混合云新秩序下的 IT 工作什么样
· 今日头条:2017今日头条图书阅读大数据(附下载)
· 余额宝累计申购资金13592亿 为用户盈利75亿元
· 谷歌证实Stadia手柄支持蓝牙音频 玩家需耐心等待
· 演讲达人支招:想和任何人都能轻松搭话?
· 女工程师独家揭秘:双11秘密武器阿里云数据库团队故事
· 云端时代 云主机大盘点
· 一直播即将强势来袭 直播江湖再添新力量
 推荐
· IDG牛奎光:SaaS CRM要抓紧数据化,未来市场规模应该相当于百度市值
· 第二届国际智慧医疗创新论坛暨智创奖颁奖盛典圆满落幕!
· 87个终端放弃原有.com等域名转向新顶级(二)
· 大数据分析你必须掌握的6个核心技术
· 扎克伯格身家缩水至660亿美元 跌出福布斯富豪榜前五
· 投资人木星中七位售出三数字域名399.com
· 虚拟化安全问题如何应对
· 鸿合科技亮相GET2019教育科技文化节,推动教育行业变革与发展!
· 美媒:2017世界最具创新力企业Top 50排行榜 IBM登顶
· 含义好颜值高,叠域名DDD.cn以30万元结拍
鹏正P网