Dremel对现有map-reduce的改进 - To Be the OnE - ITeye博客

`

Mysun

浏览: 270507 次
性别:
来自: 杭州

最近访客更多访客>>

guan_fight

yanxin64

孤叶翔云

yangyongjie

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

muyufenghua： public static <T super B> ...
浅谈Java泛型中的extends和super关键字
wantodare： class Test1 { { a=1; } pr ...
Java对象初始化详解
wubo2qml：问下如何进行列中数字大小的比较。我看了几个过滤器，最接近的是S ...
利用Filter进行HBase查询
blackproof： rowkey是A_B我知道要的A集合，也知道要的B范围不用自定 ...
利用Filter进行HBase查询
bin_1715575332：文章不错，尤其了后半部分讲解一些原理。
利用Filter进行HBase查询

Dremel对现有map-reduce的改进

博客分类：

综合

阅读更多

Google在2010年的时候对外公布了其使用的一个大数据交互式分析系统，名字叫Dremel。同时还发布了相关的论文，http://research.google.com/pubs/pub36632.html。

从论文中看，Dremel有两个方面的重大创新点，

以面向列的结构存储记录
并行聚合计算

以面向列的结构存储记录
Dremel将数据集合中的每条记录中的相同属性组织称一个列。比如说，有一份数据，每条记录有三个属性，分别是F1、F2和F3，在Dremel中，所有记录的F1会被放到一起进行存储，相同的、F2和F3也会被放到一起存储。这个就是基于列的结构。
采用这种结构，如果统计或者分析的时候只用到了F1属性，那么F2和F3就不需要被加载了，这可以有效降低系统从磁盘读取数据的量，加快处理速度。
目前流行的hadoop在存储的时候，是面向行的存储结构，就算只需要行中的几个属性，整行数据也必须要被加载进来，对磁盘的消耗对比可想而知。
并行聚合计算
Dremel采用了执行树来进行具体查询语句的执行，整棵树的每一层都会将查询条件进行拆分，提交给下一层，叶子节点执行数据加载和最初的计算，然后从下往上进行聚合。并行程度是相当搞的，可以充分利用集群的计算能力。

从论文中的数据来看，Dremel在执行聚合查询方面的能力要比hadoop的map-reduce快很多，一般都在10秒以内完成。主要就是应为Dremel做了上述两个改进导致的。

分享到：

通过Map-Reduce实现Join系列之一 | Change Mac OS X user Limits

2012-08-22 17:49
浏览 1756
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

3D-Cura-Dremel-3D20-Plugin.zip: 3D-Cura-Dremel-3D20-Plugin.zip,Dremel IDEA Builder 3D20插件，适用于Cura 3.x版及更高版本。此插件允许用户使用dremel ideabuilder 3d20打印机，并使用cura导出专有的.g3drem文件。,3D建模使用专门的软件来创建...

Cura-Dremel-3D20-Plugin：用于Cura 3.x及更高版本的Dremel Idea Builder 3D20插件。该插件使用户能够使用Dremel Ideabuilder 3D20打印机并使用Cura导出专有的.g3drem文件。: Cura-Dremel-3D20-插件这是的插件，该插件将Dremel Ideabuilder 3D20打印机添加到Cura，并使Cura能够导出为IdeaBuilder 3D20使用的专有g3drem文件格式。目录介绍该插件使用户能够选择与Cura一起使用的Dremel ...

spanner-Pregel-Dremel-Caffeine.rar: Colossus Papers: spanner, Pregel, Dremel, Caffeine. A second generation of google file system and large-scale distributed computing patforms and database

Google 存储、计算、调度软件 Stack解析: 《What does it take to make Google work at scale?》。Google 存储、计算、调度的软件 Stack：GFS，bigtable，dremel，spanner，Map-Reduce，borg，还有和open source的对比。

Dremel+made+simple+with+Parquet.pdf: 推特写的博客，用于描述parquet底层设计。https://blog.twitter.com/2013/dremel-made-simple-with-parquet 生成的pdf

Google Dremel - Paper & PPT: Google Dremel Paper <<Dremel:Interactive Analysis of Web-Scale Datasets>>

Dremel- A Decade of Interactive SQL Analysis at Web Scale: Dremel- A Decade of Interactive SQL Analysis at Web Scale

Dremel论文下载: Dremel论文下载

dremel原文及译文: dremel，分布式数据库，支持嵌套类型本文件包括译文和原文

google 新旧三驾马车MapReduce/Bigtable/GFS和Caffeine/Dremel/Pregel: 6个pdf，Google官方发布的。 [1]Bigtable: A Distributed Storage System for Structured Data ...[5]Dremel: Interactive Analysis of Web-Scale Datasets [6]Pregel: A System for Large-Scale Graph Processing

apache-tez-0.8.3-src.tar.gz: Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、...

apache-tez-0.9.0-bin.tar.gz: Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、...

Dremel 4000 3 用户手册: Dremel 4000 3 用户手册

google_dremel: google三架马车

Google Dremel及Raft对比Paoxs.doc: 一个课程作业

Dremel 16英寸卷轴锯型号1671 用户手册: Dremel 16英寸卷轴锯型号1671使用说明书

OctoPrint-FlashForge:OctoPrint插件支持FlashForge，PowerSpec和Dremel的封闭源打印机: OctoPrint-FlashForge 增加了对 3D打印机Web界面的支持，以便与封闭源打印机进行通信，例如： FlashForge Creator Max，FlashForge Dreamer，FlashForge Dreamer NX，FlashForge Finder，FlashForge Finder II，...

Dremel_300_series_mount_fdsgfgdfsgdfs_kkjkjjkjjjkjkjkjk_: If you are not able to change your power supply voltage you can limit the voltage set to motor in softwareFinally check the value of the maximum current I_max with the datasheet of your driver board....

谷歌Bigtable File-System MapReduce论文: 谷歌三大论文，bigtable，File-system， mapreduce的中文版论文

Android代码-parquet-mr: Parquet uses the record shredding and assembly algorithm described in the Dremel paper to represent nested structures. You can find some details about the format and intended use cases in our Hadoop ...

Global site tag (gtag.js) - Google Analytics