Google在2010年的时候对外公布了其使用的一个大数据交互式分析系统,名字叫Dremel。同时还发布了相关的论文,
http://research.google.com/pubs/pub36632.html。
从论文中看,Dremel有两个方面的重大创新点,
- 以面向列的结构存储记录
- 并行聚合计算
以面向列的结构存储记录
Dremel将数据集合中的每条记录中的相同属性组织称一个列。比如说,有一份数据,每条记录有三个属性,分别是F1、F2和F3,在Dremel中,所有记录的F1会被放到一起进行存储,相同的、F2和F3也会被放到一起存储。这个就是基于列的结构。
采用这种结构,如果统计或者分析的时候只用到了F1属性,那么F2和F3就不需要被加载了,这可以有效降低系统从磁盘读取数据的量,加快处理速度。
目前流行的hadoop在存储的时候,是面向行的存储结构,就算只需要行中的几个属性,整行数据也必须要被加载进来,对磁盘的消耗对比可想而知。
并行聚合计算
Dremel采用了执行树来进行具体查询语句的执行,整棵树的每一层都会将查询条件进行拆分,提交给下一层,叶子节点执行数据加载和最初的计算,然后从下往上进行聚合。并行程度是相当搞的,可以充分利用集群的计算能力。
从论文中的数据来看,Dremel在执行聚合查询方面的能力要比hadoop的map-reduce快很多,一般都在10秒以内完成。主要就是应为Dremel做了上述两个改进导致的。
分享到:
相关推荐
3D-Cura-Dremel-3D20-Plugin.zip,Dremel IDEA Builder 3D20插件,适用于Cura 3.x版及更高版本。此插件允许用户使用dremel ideabuilder 3d20打印机,并使用cura导出专有的.g3drem文件。,3D建模使用专门的软件来创建...
Cura-Dremel-3D20-插件 这是的插件,该插件将Dremel Ideabuilder 3D20打印机添加到Cura,并使Cura能够导出为IdeaBuilder 3D20使用的专有g3drem文件格式。目录介绍该插件使用户能够选择与Cura一起使用的Dremel ...
Colossus Papers: spanner, Pregel, Dremel, Caffeine. A second generation of google file system and large-scale distributed computing patforms and database
《What does it take to make Google work at scale?》。Google 存储、计算、调度的软件 Stack:GFS,bigtable,dremel,spanner,Map-Reduce,borg,还有和open source的对比。
推特写的博客,用于描述parquet底层设计。https://blog.twitter.com/2013/dremel-made-simple-with-parquet 生成的pdf
Google Dremel Paper <<Dremel:Interactive Analysis of Web-Scale Datasets>>
Dremel- A Decade of Interactive SQL Analysis at Web Scale
Dremel论文下载
dremel,分布式数据库,支持嵌套类型 本文件包括译文和原文
6个pdf,Google官方发布的。 [1]Bigtable: A Distributed Storage System for Structured Data ...[5]Dremel: Interactive Analysis of Web-Scale Datasets [6]Pregel: A System for Large-Scale Graph Processing
Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、...
Tez是Apache开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Merge和Output, Reduce被拆分成Input、Shuffle、Sort、...
Dremel 4000 3 用户手册
google三架马车
一个课程作业
Dremel 16英寸卷轴锯型号1671使用说明书
OctoPrint-FlashForge 增加了对 3D打印机Web界面的支持,以便与封闭源打印机进行通信,例如: FlashForge Creator Max,FlashForge Dreamer,FlashForge Dreamer NX,FlashForge Finder,FlashForge Finder II,...
If you are not able to change your power supply voltage you can limit the voltage set to motor in softwareFinally check the value of the maximum current I_max with the datasheet of your driver board....
谷歌三大论文,bigtable,File-system, mapreduce的中文版论文
Parquet uses the record shredding and assembly algorithm described in the Dremel paper to represent nested structures. You can find some details about the format and intended use cases in our Hadoop ...