v2.8

快速入门
安装
基本操作
- CRUD操作
  - 插入
  - 查询
  - 更新
  - 删除
- 索引
- 聚集
- 事务
- 数据分区
数据模型
- 概述
- 文档
- 数据类型
- 集合
- 集合空间
- 大对象
SQL引擎
- SequoiaSQL
系统架构
数据库管理
连接器
- Hadoop
  - 部署
  - 集成
- Hive
- Spark
  - 概述
  - 安装
  - Sparksql
- PostgreSQL
  - 概述
  - 部署
  - 连接
  - 开发
- SequoiaSQL
  - 概述
  - 部署
  - 连接
  - 开发
驱动
参考手册
- SequoiaDB Shell方法
  - 概述
    - 命令位置参数
  - Global
  - Sdb
  - SecureSdb
  - SdbCS
  - SdbCollection
    - aggregate()
    - alter()
    - attachCL()
    - count()
    - createIdIndex()
    - createIndex()
    - deleteLob()
    - detachCL()
    - dropIdIndex()
    - dropIndex()
    - find()
    - findOne()
    - getIndex()
    - getLob()
    - insert()
    - listIndexes()
    - listLobs()
    - putLob()
    - remove()
    - split()
    - splitAsync()
    - truncate()
    - update()
    - upsert()
  - SdbCursor
    - close()
    - current()
    - next()
  - SdbQuery
    - explain()
    - count()
    - query()
    - hint()
    - limit()
    - remove()
    - size()
    - skip()
    - sort()
    - toArray()
    - update()
  - SdbReplicaGroup
    - attachNode()
    - createNode()
    - detachNode()
    - getDetail()
    - getMaster()
    - getNode()
    - getSlave()
    - reelect()
    - removeNode()
    - start()
    - stop()
  - SdbNode
  - SdbDomain
  - Oma
  - 特殊类型对象
    - OID
    - Timestamp
    - SdbDate
    - Regex
    - BinData
    - MinKey
    - MaxKey
    - NumberLong
    - NumberDecimal
- 操作符
  - 匹配符
    - 概述
    - $gt
    - $gte
    - $lt
    - $lte
    - $ne
    - $et
    - $mod
    - $in
    - $isnull
    - $nin
    - $all
    - $and
    - $not
    - $or
    - $type
    - $exists
    - $elemMatch
    - $+标识符
    - $size
    - $regex
    - $field
    - $expand
    - $returnMatch
  - 选择符
    - 概述
    - $include
    - $default
    - $elemMatch
    - $elemMatchOne
  - 函数操作
    - 概述
    - $abs
    - $ceiling
    - $floor
    - $mod
    - $add
    - $subtract
    - $multiply
    - $divide
    - $substr
    - $strlen
    - $lower
    - $upper
    - $ltrim
    - $rtrim
    - $trim
    - $cast
    - $size
    - $type
    - $slice
  - 更新符
    - 概述
    - $inc
    - $set
    - $unset
    - $addtoset
    - $pop
    - $pull
    - $pull_all
    - $pull_by
    - $pull_all_by
    - $push
    - $push_all
    - $replace
  - 聚集符
    - 概述
    - $project
    - $match
    - $limit
    - $sort
    - $skip
    - $group
    - SQL to Aggregate 映射表
- SQL语法
  - 语句
  - 子句
    - where
    - group by
    - order by
    - split by
    - limit
    - offset
    - is null
    - is not null
    - as
    - inner join
    - left outer join
    - right outer join
    - hint
  - 函数
    - sum()
    - count()
    - avg()
    - max()
    - min()
    - first()
    - last()
    - push()
    - addtoset()
    - buildobj()
    - mergearrayset()
  - 表达式
  - 运算符
  - 数据类型
- SQL to SequoiaDB 映射表
- 限制
- 错误码
故障排除
- 常见错误
  - 常见错误处理指南
SAC
- 运行环境
- 安装与登录
- 部署
- 监控
  - 总览
  - 节点
  - 资源
    - 会话
    - 上下文
    - 域
    - 存储过程
    - 事务
    - 图表
  - 主机
- 数据操作
  - 集合空间
  - 集合
  - 索引
  - 记录
    - 查询
    - 插入
    - 更新
    - 删除
    - 显示模式
  - Lob
版本信息

概述

虽然 Hadoop 占据了大部分的分布式数据分析市场，如今也有其他的平台提供了 Hadoop 平台所没有的许多特性。

Apache 的 Spark 是一个高速的通用集群式计算系统。Spark 是一个可扩展的数据分析平台，该平台集成了原生的内存计算，因此它在使用中相比 Hadoop 的集群存储来说，会有不少的性能优势。

Apache Spark 提供了高级的 Java，Scala 和 Python APIs, 同时还拥有优化的引擎来支持常用的执行图。Spark 还支持多样化的高级工具，其中包括了处理结构化数据和 SQL 的 Spark SQL，处理机器学习的 MLlib，图形处理的 GraphX，还有 SparkStreaming。

虽然 Spark 最初是为了分布式数据集的迭代工作而设计的，但现在 Spark 已经几乎完全拥有了 Hadoop 的所有功能，并且可以基于 Hadoop 文件系统（HDFS）使用。集群模式中，Spark 有几种不同的运行模式，包括了 YARN、Mesos 还有 Standalone。

Spark 组成

在集群中，Spark 应用以独立的进程集合的方式运行，并由主程序（driver program）中的 SparkContext 对象进行统一的调度。当需要在集群上运行时，SparkContext 会连接到几个不同类的 ClusterManager（集群管理器）上（Spark 自己的 Standalone/Mesos/YARN）, 集群管理器将给各个应用分配资源。连接成功后，Spark 会请求集群各个节点的 Executor（执行器），它是为应用执行计算和存储数据的进程的总称。之后，Spark 会将应用提供的代码（应用已经提交给 SparkContext 的 JAR 或 Python 文件）交给 executor。最后，由 SparkContext 发送 tasks 提供给其执行。

关于这个架构的几点介绍：

每一个应用有其独立的 Executor 进程，这些进程将会在应用整个生命周期内为应用服务，并且会在多个线程中执行任务 tasks。这种做法能有效的隔离不同的应用，在调度和执行端都能很好的隔离（每个驱动调度自己的任务，不同的任务在不同的 JVM 中执行）。但是，这也意味着，如果不写入外部的存储设备，那数据就不能在不同的 Spark 应用（SparkContext 实例）之中共享。
Spark 对于下列的集群管理者是不可知的：只要 Spark 能请求 executor 进程，且这些进程之间能互相通信，那么他就相对容易的去运行支持其他应用的集群管理器（如 Mesos/YARN）。
因为驱动在集群中调度任务，它将在 worker nodes（工作节点）附近运行，最好是在相同的局域网当中。如果你不喜欢远程向集群发送请求，那么最好为驱动打开一个 RPC 然后让其在附近提交操作而不是在远离 worker nodes 处运行驱动。

收起

本页导航

粤ICP备16118040号

回到顶部