标签：Spark - 技术文章—

　　本篇文章就要根据源码分析SparkContext所做的一些事情，用过Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类，足以说明SparkContext的重要性；这里先摘抄SparkContext源码注释来简单介绍介绍SparkContext，注释的第一句话就是

　　Spark作为分布式的大数据处理框架必然或涉及到大量的作业调度，如果能够理解Spark中的调度对我们编写或优化Spark程序都是有很大帮助的；　　在Spark中存在转换操作（Transformation Operation）与行动操作(Action Operation)两种；而转换操作只是会

Spark编译与打包

编译打包　　Spark支持Maven与SBT两种编译工具，这里使用了Maven进行编译打包；　　在执行make-distribution脚本时它会检查本地是否已经存在Maven还有当前Spark所依赖的Scala版本，如果不存在它会自动帮你下载到build目录中并解压使用；Maven源最好配置成

Spark核心——RDD

　　Spark中最核心的概念为RDD（Resilient Distributed DataSets）中文为：弹性分布式数据集，RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集；RDD为可序列化的、可缓存到内存对RDD进行操作过后还可以存到内存中，下次操作直接把内存中RDD作

　　上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况，这里主要是介绍Spark运行模式与Spark Standalone模式的部署； Spark运行模式　　在Spark中存在着多种运行模式，可使用本地模式运行、可使用伪分布式模式运行、使用分布式模式也存在多种模式如：Spark

Scala初入

何为Scala物　　Scala为基于JVM虚拟机中的面向对象与函数式编程思想并且完全兼容Java的混合编程语言，可以是Scala与Java是同根同源的，既然Scala与JAVA都是基于JVM之上的编程语言那么Scala的特色又在哪呢 Scala最大的特色就是他是支持函数式编程的，函数式编程风格使得

Spark概述

背景　　目前按照大数据处理类型来分大致可以分为：批量数据处理、交互式数据查询、实时数据流处理，这三种数据处理方式对应的业务场景也都不一样；　　关注大数据处理的应该都知道Hadoop，而Hadoop的核心为HDFS与MapReduce，HDFS分布式文件系统在Hadop中是用来存储数据的；MapR

2025-01-14

AI Agents(智能体)是什么能做什么

Spark——SparkContext简单分析