Spark之四:Spark提交任务
spark程序一般是提交在集群中来执行。大概执行流程如下:IDEA编写spark程序 打包spark程序 上传spark程序至spark集群
spark程序一般是提交在集群中来执行。大概执行流程如下:IDEA编写spark程序 打包spark程序 上传spark程序至spark集群
spark可以从多个数据源读取数据,下面介绍一下常用的数据源的读取方式。 使用load加载不同格式的数据源。load是最简单,最通用的一种加载方式。
SparkSQL是Spark的一个模块,它主要用来处理结构化数据。它是相对于SparkCore更高层的一个API,底层实现也是spark core的方式来实现。
spark提供了一个抽象的数据集:弹性分布式数据集(RDD)。这是一个多集群数据集合,意味着它可以并行操作,每个节点操作自己所拥有的元素,所有节点的并行操作就是RDD的一个算子。