关于 SequoiaDB
快速入门
安装
基本操作
数据模型
SQL引擎
S3引擎
系统架构
数据库管理
连接器
驱动
参考手册
故障排除
SAC 管控中心
Web服务
版本信息
Apache的Spark是一个高速的通用集群式计算系统。Spark是一个可扩展的数据分析平台,该平台集成了原生的内存计算,因此它在使用中相比Hadoop 的集群存储来说,会有不少的性能优势。
Apache Spark提供了高级的Java、Scala和Python APIs,同时还拥有优化的引擎来支持常用的执行图。Spark 还支持多样化的高级工具,其中包括了处理结构化数据和SQL的SparkSQL,处理机器学习的MLlib,图形处理的 GraphX,还有SparkStreaming。
在集群中,Spark应用以独立的进程集合的方式运行,并由主程序(driver program)中的SparkContext 对象进行统一的调度。当需要在集群上运行时,SparkContext会连接到几个不同类的ClusterManager(集群管理器)上(Spark 自己的Standalone/Mesos/YARN), 集群管理器将给各个应用分配资源。连接成功后,Spark 会请求集群各个节点的Executor(执行器),它是为应用执行计算和存储数据的进程的总称。之后,Spark会将应用提供的代码(应用已经提交给 SparkContext 的JAR或Python文件)交给executor。最后,由SparkContext 发送tasks提供给其执行。
关于这个架构的几点介绍:
通过使用Spark-SequoiaDB连接组件,SequoiaDB可以作为Spark的数据源,从而可以通过SparkSQL实例对SequoiaDB数据存储引擎的数据进行查询、统计操作。