【Spark】Spark2.x版的新特性

首页 > 【Spark】Spark2.x版的新特性

【Spark】Spark2.x版的新特性

一、API

1. 出现新的上下文接口：SparkSession，统一了SQLContext和HiveContext，并且为SparkSession开发了新的流式调用的configuration API

2. 统一了DataFrame和DataSet。DataFrame相当于DataSet[Row]，以及DataSet的增强聚合API

3. 增强了累加器accumulator的功能，支持Web UI，便捷的API，性能更高

二、SQL

1. 支持SQL2003标准

2. 支持ansi-sql 和hive ql的sql parser(SQL解析器)

3. 支持DDL，支持子查询（in/not in 、 exists/ not exists）

三、性能

1. 通过whole-stage-code generation（全流程代码生成）技术将SparkSQL和DataSet的性能提升了2~10倍。（在下一篇博文中会浅谈全流程代码生成技术）

2. 通过vectorization(向量化)技术提升parquet文件的扫描吞吐量

3. 提升orc文件的读写性能

4. 提升catalyst查询优化器的性能

5. 通过native实现方式提升窗口函数的性能

四、 Spark Streaming

1. Structured Streaming在Spark2.0中是测试版，2.0之后是released版，它基于SparkSQL和Catalyst引擎构建，支持DataFrame风格的API进行流式计算。

2. 基于DStream的API支持kafka0.10版本

五、Spark MLlib

1. 基于DataFrame的API支持持久化保存、加载模型、Pipeline，支持更多的算法，支持向量和矩阵使用性能更高的序列化机制。

2. Spark R支持MLlib算法，包括线性回归、朴素贝叶斯等

3. 未来Spark MLlib将主要基于DataSet API来实现，基于RDD和API将转为维护阶段

六、Other

1. 支持csv文件

2. 支持hive风格的bucket表

3. 支持缓存和程序运行的堆外内存管理

4. 完全移除了对akka的依赖

5. 使用Scala2.11代替了Scala2.10，要求基于Scala2.11版本进行开发，而不是Scala2.10

6. Mesos粗粒度模式下，支持启动多个Executor

转载于:https://www.cnblogs.com/snova/p/9195693.html

更多相关：

ts转换mp4 linux_佳佳MPEG4格式转换器官方版下载-佳佳MPEG4格式转换器v6.5.5.0下载

很多情况下需要对视频格式转换才能正常观看，下面就由微侠网小编给您介绍这款软件,佳佳MPEG4格式转换器是专业的MPEG4、H264和MP4格式转换工具，软件支持将MPEG4视频转换成多种格式音频播放，操作简单，转换速度快。看完的小伙伴可以关注微侠网下载最新版软件以及查看最新攻略及资讯！软件介绍超快的转换速度和完美的转换质量。通过顶级音...
软件工程第二次课后作业——Gaoooo

代码量：9行码云仓库：https://gitee.com/Gaooo/2016035107059.git 实现时间：emmmmm（9行代码，自己估计！！）程序对表达式类型的支持程度：全部支持！能支持两个操作数，一种运算符。能支持两个操作数的简单四则运算（只有一个操作符）。能支持简单混合四则运算（最多有3个操作符，没有括号）。能支...
项目管理和缺陷跟踪工具Redmine

官网： http://www.redmine.org/ http://demo.redmine.org/ 下载： http://www.redmine.org/projects/redmine/wiki/Download Redmine 是一个开源的、基于Web的项目管理和缺陷跟踪工具。它用日历和甘特图辅助项目及进度可视化显示。同...
重庆市公安局北碚分局所需容灾备份设备及软件采购

项目编号：BBZC12-106-1 项目名称：重庆市公安局北碚分局所需容灾备份设备及软件采购重庆市北碚区公共资源综合交易中心二〇一二年六月二十五日第一部分招标邀请书重庆市北碚区公共资源综合交易中心根据重庆市北碚区政府采购办公室下达的采购任务，拟对重庆市公安局北碚分局所需容灾备份设备及软件采购进行公开招标，欢迎...
25. javacript高级程序设计-新兴的API

1. 新兴的API requestAnimationFrame()：是一个着眼于优化js动画的api，能够在动画运行期间发出信号。通过这种机制，浏览器就能够自动优化屏幕重绘操作 Page Visibility API：让开发人员知道用户什么时候正在看着页面，而什么时候页面是隐藏。 Geolocation API：在得到用户许可的情况下...
pmdk -- libpmemlog 介绍

文章目录1. libpmemlog 应用背景2. libpmemlog 使用方式2.1 基本接口2.2 接口使用3. Libpmemlog 性能3.1 write sys call 性能3.2 libpmemlog 性能...
Intel Optane PMEM 概览

文章目录前言基本架构编程模型PMDK接口架构接口概览pmdk 安装开发文档汇总PMEM性能官方性能实测性能...
磁盘I:O 性能指标以及如何通过 fio 对nvme ssd,optane ssd, pmem 性能摸底

文章目录1. 磁盘I/O性能指标1.1 性能指标1.2 I/O 观测1.2.1 磁盘I/O 观测1.2.2 进程I/O观测2. Fio 性能测试2.1 环境准备2.2 测试维度选择2.3 测试2.3.1 optane ssd和nvme ssd性能测试2.3.2 aep性能测试(intel persistent memory)...
Linux系统性能分析: I/O栈优化

原始文件路径Mind-mapping Linux I/O栈性能分析及优化...
ab测试nginx Nginx性能优化

转自：https://www.cnblogs.com/nulige/p/9369700.html 1.性能优化概述在做性能优化前, 我们需要对如下进行考虑 1.当前系统结构瓶颈观察指标压力测试2.了解业务模式接口业务类型系统层次化结构3.性能与安全性能好安全弱安全好性能低2.压力测试工具 1.安装压力测试工具ab [r...