Spark开源学习模块
Spark开源的各模块组成结构:
1. Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
2. Stage——分为多个阶段进行作业。
3. Wide Dependency——宽依赖。子RDD对父RDD中的全部data partition依赖。
4. RDD——Resillient Distributed Dataset 分布式数据集。
5. Operation——作用于RDD的各种操作分为transformation和action。
6. Job——作业,一个JOB包括多个RDD及作用于对应RDD上的各种operation。
7. Partition——数据分区, 一个RDD中的数据分成不同的多个区。
8. DAG——Directed Acycle graph,有向无环图。RDD之间的依赖关系。
9. Caching Managenment——缓存管理。对RDD的中间计算结果进行缓存管理以加快总体的处理速度。
參考资料(reference)
1.Lightning-Fast Cluster Computing with Spark and Shark
2.Introduction to Spark Internals
3.Resilient Distributed Datasets: A Fault-tolerant Abstraction for In-Memory Cluster Computing
最新文章
- 分布式一致性算法--Paxos
- 【bzoj4518】 Sdoi2016—征途
- 【webGL】插件的使用的,实现一个鼠标动画的盒子
- Centos 开机自启动一些软件配置
- UITableView和UICollectionView的方法学习一
- String类详解(1)
- DataGridView 的cell赋值没有线程间访问的限制吗?
- oracle中decode()函数
- The Greate Wall 相关网络知识(一)域名劫持
- 增强iOS应用程序性能的提示和技巧(25个)
- python基础教程第4章——字典
- Linux 零碎知识点
- Android各层推荐开发书籍及参考资料
- vue+vuex初入门
- Android开发之漫漫长途 X——Android序列化
- EXCEL VLOOKUP函数怎么返回多列结果
- layui中弹出层的两种表达方式
- <;sdoi2017>;树点涂色
- Tomcat里面的APR配置问题研究
- Qt 学习之路 2(55):数据库操作