关于学习 Spark 的部分,英文好点的话,跟着 Spark 官方文档的英文版走就行了。如果英语不是很好,可以阅读下由 ApacheCN 组织翻译的 Spark 2.2.0 官方文档中文版。从概述开始,然后编程指南的快速入门,Spark 编程指南,Spark streaming 一步一步往下走。
软件特色
1、高速:运行程序的速度在存储器中比Hadoop MapReduce快上百倍,在磁盘中比Hadoop MapReduce快数十倍。
Spark 拥有一个先进的DAG执行引擎,支持循环数据流和内存计算。
2、易用:编写Java、Scala、Python、R程序快速高效。
Spark提供超过80个易于构建并行应用程序的高阶运算符,你也可以在Scala、 Python和R shells中对它进行交互使用。
3、通用:可结合SQL、流媒体和复杂的分析。
Spark支持一系列元件库堆栈,包括SQL与 DataFrames,用于机器学习的MLlib ,GraphX,Spark Streaming。你可以在同一个应用程序无缝地结合这些元件库。
4、无处不在:Spark可以运行在Hadoop、Mesos、standalone以及云端。它可以访问包括 HDFS、 Cassandra、 HBase和S3在内的不同数据源。
你可以使用其独立集群模式来运行Spark,运行在 EC2、 Hadoop YARN还是Apache Mesos都不是问题。它可以访问HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop数据源。
∨ 展开