Spark开源的各模块组成结构:

1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。

2. Stage——分为多个阶段进行作业。

3. Wide Dependency——宽依赖。子RDD对父RDD中的全部data partition依赖。

4. RDD——Resillient Distributed Dataset 分布式数据集。

 

5. Operation——作用于RDD的各种操作分为transformation和action。

 

6. Job——作业,一个JOB包括多个RDD及作用于对应RDD上的各种operation。

 

7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。

8. DAG——Directed Acycle graph,有向无环图。RDD之间的依赖关系。

9. Caching Managenment——缓存管理。对RDD的中间计算结果进行缓存管理以加快总体的处理速度。

參考资料(reference)

1.Lightning-Fast Cluster Computing with Spark and Shark

2.Introduction to Spark Internals

3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing

最新文章

  1. 分布式一致性算法--Paxos
  2. 【bzoj4518】 Sdoi2016—征途
  3. 【webGL】插件的使用的,实现一个鼠标动画的盒子
  4. Centos 开机自启动一些软件配置
  5. UITableView和UICollectionView的方法学习一
  6. String类详解(1)
  7. DataGridView 的cell赋值没有线程间访问的限制吗?
  8. oracle中decode()函数
  9. The Greate Wall 相关网络知识(一)域名劫持
  10. 增强iOS应用程序性能的提示和技巧(25个)
  11. python基础教程第4章——字典
  12. Linux 零碎知识点
  13. Android各层推荐开发书籍及参考资料
  14. vue+vuex初入门
  15. Android开发之漫漫长途 X——Android序列化
  16. EXCEL VLOOKUP函数怎么返回多列结果
  17. layui中弹出层的两种表达方式
  18. <sdoi2017>树点涂色
  19. Tomcat里面的APR配置问题研究
  20. Qt 学习之路 2(55):数据库操作

热门文章

  1. 使用递归计算n的阶乘n!
  2. Git & GitHub 学习
  3. Js~对数组的操作
  4. JSTL-2
  5. pm2常用的命令
  6. 「ZJOI2017」仙人掌
  7. 【树形DP】BZOJ1040-[ZJOI2008]骑士
  8. 两个函数彻底理解Lua中的闭包
  9. linux基础命令学习(三)文件搜索 find
  10. 为什么TCP连接需要三次握手分开需要四次握手?