`
run_xiao
  • 浏览: 192580 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Hadoop Online

阅读更多
MapReduce框架适合用来处理大数据量计算和分析工作,但实际应用中许多任务并不能表示成单个MapReduce Job。

比如K均值聚类,SVM等迭代式的算法,仅执行一次Job是不可能完成计算。而MapReduce框架,包括Hadoop最初设计成解


决批处理任务的,用它来实现这种迭代式的算法时,只能在每次迭代后,由reducer将临时结果写入HDFS的文件;在下次迭


代中,由mapper读入。这样需执行大量IO操作,开销很大,编程也比较麻烦些。如果MapReduce框架能支持类似于管道的


方式,可将上一个Job的输出直接输入到下一个Job的mapper中,不仅可以节省大量IO的开销,对于众多迭代式的机器学习算法的实现将是莫大的福音。


UC Berkly的博士生Tyson Condie
,在他的一篇论文MapReduce Online中,提出了Pipelining Hadoop的想法,并实


现了一个原型 HOP
- Hadoop Online Prototype project。



最初的MapReduce为简化容错处理,mapper和reducer都先将输出写入磁盘。HOP(Hadoop Online Prototype)在


保留Hadoop的容错性前提下,使数据在各个任务间以管道的方式交互,可增加任务的并发性,缩短响应时间,而且拓宽了


MapReduce框架的应用领域。


管道化同时面临一些设计上的挑战:

(1)需改进MapReduce简单容错机制以适应管道

中间结果写入磁盘简化了容错,任何任务失败后,JobTracker仅需简单的再分配一个新节点重新执行相同的任务即可,因为任务执行中并未输出任何数据。



(2)管道要求消费者“贪心”地获取生产者产生的数据,

这与MapReduce中的Combiner相冲突。Combiner与Mapper运行在同一节点,通常执行本地的数据压缩和运算,以减少网络通信量。



(3)管道需要解决生产者和消费者的并发和互斥问题。


HOP的设计策略:修改mapper任务,使其产生输出后将数据“推”给reducer




分享到:
评论

相关推荐

    Hadoop The Definitive Guide, 4th Edition.pdf

    Case studies from the previous editions can now be found online. Many corrections, updates, and improvements have been made to existing chapters to bring them up to date with the latest releases of ...

    Hadoop权威掼.pdf

    Hadoop: The Definitive Guide is still in progress, but you can get started on this technology with the Rough Cuts edition, which lets you read the book online or download it in PDF format as the ...

    Hadoop权威

    Hadoop权威

    Hadoop MapReduce Cookbook

    Solve complex problems such as classifications, finding relationships, online marketing, and recommendations Using MapReduce for massive text data processing How to use cloud environments to perform ...

    GBDT on Hadoop

    Online advertising allows advertisers to only bid and pay for measurable user responses, such as clicks on ads. As a consequence, click prediction systems are central to most online advertising ...

    基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现源码

    文件在线预览服务:file-online-preview 基于SpringCloud+Hadoop+Vue企业网盘系统主要分为前台和后台两大模块,前台模块分为首页,网盘,分享,资源库,关注用户,系统公告模块,不同的功能模块拥有的功能也是不...

    MapReduce Online(Doc)版一

    Hop 项目的原理论文 MapReduce Online英文版原版和翻译后文档的doc格式,方便阅读学习!

    MR_online_eclipse:hadoop WordCount 演示

    Maven在Eclipse中远程调试hadoop2.6.0项目 1.系统环境 调试:Win7,64bit Cluster: Linux, Centos 2.创建hadoop项目命令 mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=org....

    pegasos-online-svm:在Hadoop上本地运行的SVM并行版本

    pegasos-online-svm 支持向量机分类算法的并行实现。 在Hadoop上本地运行。 基于Pegasos pagasos论文的思想-用于二进制分类的L2调节L1损失线性SVM。参考Shai Shalev-Shwartz,Yoram Singer和Nathan Srebro。 (2007...

    hadoop 权威指南(第三版)英文版

    The Command-Line Interface Basic Filesystem Operations Hadoop Filesystems Interfaces The Java Interface Reading Data from a Hadoop URL Reading Data Using the FileSystem API Writing Data Directories ...

    Hadoop MapReduce v2 Cookbook(PACKT,2ed,2015)

    HDFS, and other Hadoop ecosystem components, with this book, you will soon learn about many exciting topics such as MapReduce patterns, using Hadoop to solve analytics, classifications, online ...

    Hadoop.MapReduce.v2.Cookbook.2nd.Edition.1783285478

    HDFS, and other Hadoop ecosystem components, with this book, you will soon learn about many exciting topics such as MapReduce patterns, using Hadoop to solve analytics, classifications, online ...

    基于SpringCloud+Hadoop+Vue的企业级网盘系统设计与实现+毕业论文材料+答辩(高分毕业设计+荣获推荐)

    文件在线预览服务:file-online-preview github地址: 1.vue-projectManage:https://github.com/chenxingxing6/vue-projectManage 2.mycloud-admina:https://github.com/chenxingxing6/mycloud-admin 3.mycloud:...

    Learning.Hadoop.2

    Develop a prototype on a local cluster and deploy to the cloud (Amazon Web Services) Who This Book Is For If you are a system or application developer interested in learning how to solve practical ...

    hadoop_the_definitive_guide_3nd_edition

    Hadoop on Amazon EC2 332 10. Administering Hadoop . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 HDFS 337 Persistent Data Structures 337 Safe ...

    校车在线购票系统online-ticket.zip

    购票系统是一种用于方便用户购买门票、交通票、电影票等各种类型票务的系统。这种系统通常涉及以下几个方面的功能和流程: ...大数据技术:包括Hadoop、Spark、Hive等用于处理和分析大规模数据集的技术。

    education-online.zip

    在线教育项目 1.dwd 数据清洗 数据脱敏 清洗规则 脱敏字段,存储基础表 2.dws 降维 对表轻度聚合 做题表 课程表 主修行业表 试卷表。 3.join 方式:Spark SQL 、DF API、DS API , RDD DF DS 三者区别 优点和劣势。...

    spring-hadoop.pdf

    spring hadoop 分布式 海量数据 集群 mapreduce 将hadoop于spring集成到一起工作

Global site tag (gtag.js) - Google Analytics