Spark2 ML 学习札记

首页 > Spark2 ML 学习札记

Spark2 ML 学习札记

摘要：

　　1.pipeline 模式

　　　　1.1相关概念

　　　　1.2代码示例

　　2.特征提取，转换以及特征选择

　　　　2.1特征提取

　　　　2.2特征转换

　　　　2.3特征选择

　　3.模型选择与参数选择

　　　　3.1 交叉验证

　　　　3.2 训练集-测试集切分

　　4.spark新增SparkSession与DataSet

内容：

1.pipeline 模式

　　1.1相关概念

　　　　DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型，text,特征向量，Label和预测结果

　　　　Transformer:将DataFrame转化为另外一个DataFrame的算法，通过实现transform()方法

　　　　Estimator：将DataFrame转化为一个Transformer的算法，通过实现fit()方法

　　　　PipeLine:将多个Transformer和Estimator串成一个特定的ML Wolkflow

　　　　Parameter:Tansformer和Estimator共用同一个声明参数的API

　　　　上图中蓝色标识的是Transformer(Tokenizer and HashingTF)，红色标识的是Estimator(LogisticRegression)

　　1.2代码示例　　　

val tokenizer = new Tokenizer() .setInputCol("text") .setOutputCol("words") val hashingTF = new HashingTF() .setNumFeatures(1000) .setInputCol(tokenizer.getOutputCol) .setOutputCol("features") val lr = new LogisticRegression() .setMaxIter(10) .setRegParam(0.01) val pipeline = new Pipeline() .setStages(Array(tokenizer, hashingTF, lr)) // Fit the pipeline to training documents. val model = pipeline.fit(training)

// Make predictions on test documents.
model.transform(test) .select("id", "text", "probability", "prediction") .collect() .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) => println(s"($id, $text) --> prob=$prob, prediction=$prediction") }

2.特征提取，转换以及特征选择

　　2.1特征提取　

- TF-IDF：提取文档的关键词
- Word2Vec：将文档转换成词向量
- CountVectorizer：向量值计数

　　2.2特征转换

- Tokenizer：分词器
- StopWordsRemover：停词表　　注：The list of stopwords is specified by the stopWords parameter. Default stop words for some languages are accessible by calling StopWordsRemover.loadDefaultStopWords(language)
- Binarizer
- PCA：主成分分析，一种降维方法，可以提取出区分度比较高的特征，并计算权重
- PolynomialExpansion：多项式核转换
- Discrete Cosine Transform (DCT)
- StringIndexer
- IndexToString
- OneHotEncoder：独热编码
- VectorIndexer
- -----------------------------------------------------------------标准化和归一化-------------------------------------------------------------------------------------
- Normalizer：向量正则化处理，参见http://www.cnblogs.com/arachis/p/Regulazation.html
- StandardScaler：标准化方法1：( x-mean ) / standard deviation
- MinMaxScaler：标准化方法2:
- MaxAbsScaler 标准化方法3: x / abs(max)
- ----------------------------------------------------------------离散化-----------------------------------------------------------------------------------------------
- Bucketizer：分区，可指定分区的上下界
- QuantileDiscretizer：等宽离散化
- ----------------------------------------------------------------交叉特征---------------------------------------------------------------------------------------------
- ElementwiseProduct
- ----------------------------------------------------------------SQL-------------------------------------------------------------------------------------------------
- SQLTransformer
- VectorAssembler

　　2.3特征选择　

- VectorSlicer:截取指定的特征，可以是索引，也可以是特征标识
- RFormula：RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值，输出结果为一个特征向量和Double类型的label。R文档
- ChiSqSelector：ChiSqSelector用于使用卡方检验来选择特征（降维）。

3.模型选择与参数选择

　　　　3.1 交叉验证

　　　　　　将数据分为K分，每次测评选取一份作为测试集，其余为训练集；

　　　　3.2 训练集-测试集切分

　　　　　　根据固定的比例将数据分为测试集和训练集

代码示例：　　　　

val cv = new CrossValidator() .setEstimator(pipeline) .setEvaluator(new BinaryClassificationEvaluator) .setEstimatorParamMaps(paramGrid) .setNumFolds(2) // Use 3+ in practice



4.spark新增SparkSession与DataSet



http://blog.csdn.net/yhao2014/article/details/52215966

http://blog.csdn.net/u013063153/article/details/54615378

http://blog.csdn.net/lsshlsw/article/details/52489503

转载于:https://www.cnblogs.com/arachis/p/Spark2_ML.html

更多相关：

PCL点云配准（3）

(1)关于点云的配准 1.首先给定源点云与目标点云。 2.提取特征确定对应点 3.估计匹配点对应的变换矩阵 4.应用变换矩阵到源点云到目标点云的变换配准的流程图通过特征点的匹配步骤（1）计算源点云与目标点云的关键点（2）计算关键点的特征描述子（比如：FPFH等等）（3）匹配特征点计算出对应关系（4）从特征点之间的对应...
ORB特征原理（浅显易懂）

特征点的检测图像的特征点可以简单的理解为图像中比较显著的点，如轮廓点，较暗区域中的亮点，较亮区域中的暗点等。原图轮廓线（可能的特征点） ORB采用FAST（features from accelerated segment test）算法来检测特征点。FAST核心思想就是找出那些卓尔不群的点，即拿一个点跟它周围的...
PCA降维

1.1算法流程假设有m个samples，每个数据有n维。 1. 计算各个feature的平均值，计μj ;（Xj(i)表示第i个样本的第j维特征的value） μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scaling：将在不同scale上的f...
关于PCA算法的一点学习总结

本文出处：http://blog.csdn.net/xizhibei ============================= PCA，也就是PrincipalComponents Analysis，主成份分析，是个非常优秀的算法，依照书上的说法：寻找最小均方意义下，最能代表原始数据的投影方法然后自己的说法就是：主要用于特征...
rtsp流转 http播放视频

1打开vlc播放器点击媒体菜单选择打开网络串流 2输入RTSP播放地址 3点击播放右下角箭头选择串流 4修改为HTTP，点击添加 5设置请求端口和路径 6选择输出格式完成后即可使用 H5video标签播放
vim粘帖的一个问题分析(pastetoggle)

选择缓冲区和剪切板不同于Windows，Linux系统里存在两个剪切板：一个叫做选择缓冲区(X11 selection buffer)，另一个才是剪切板(clipboard)。选择缓冲区是实时的，当使用鼠标或键盘选择内容时，内容已经存在于选择缓冲区了，这或许就是选择缓冲区的由来吧。使用下面的命令查看选择缓冲区的内容：: $ x...
sublime text 3 中改变.vue文件的颜色

1、按 Ctrl+Shift+P 2、输入install，选择install Package 3、输入vue，选择 vue syntax hightlight 如果上述方法不起作用，可以选择在下面连接中下载文件，手动安装如何让你的.vue在sublime text 3 中变成彩色? 转载于:https://www...
[转]Ext Grid控件的配置与方法

http://www.blogjava.net/wangdetian168/archive/2011/04/12/348651.html 1、Ext.grid.GridPanel 主要配置项： store：表格的数据集 columns：表格列模式的配置数组，可自动创建ColumnModel列模式 autoExpandColum...
安装部署VMware vSphere 5.5文档 (6-1) 配置IBM DS4700 共享存储

部署VMware vSphere 5.5 ################################################################################# ver1.0 2014-09-09 #### 本文内容来自中国专利信息中心 - 基础系统处 — 张阳## 如有转载，请务必保留...
传统的6d位姿估计fangfa1_基于改进的点对特征的6D位姿估计

来源：公众号|计算机视觉工坊（系投稿）作者：仲夏夜之星「3D视觉工坊」技术交流群已经成立，目前大约有12000人，方向主要涉及3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、...
自动驾驶中基于激光雷达的车辆道路和人行道实时检测（代码开源）

点云PCL免费知识星球，点云论文速读。文章：Real-Time LIDAR-Based Urban Road and Sidewalk Detection for Autonomous Vehicles作者：Ern˝o Horváth , Claudiu Pozna ,and Miklós Unger编译：点云PCL代码：http...
大规模环境下基于语义直方图的多机器人实时全局定位图匹配

文章：Semantic Histogram Based Graph Matching for Real-Time Multi-Robot Global Localization in Large Scale Environment作者：Xiyue Guo, Junjie Hu, Junfeng Chen, Fuqin Deng, T...
基于成像激光雷达的鲁棒位置识别

点云PCL免费知识星球，点云论文速读。文章：Robust Place Recognition using an Imaging Lidar作者：Tixiao Shan, Brendan Englot, Fabio Duarte, Carlo Ratti, and Daniela Rus编译：点云PCL（ICRA 2021）开源代码：...
头戴式AR/VR 光学标定

文章：A Survey of Calibration Methods for Optical See-Through Head-Mounted Displays作者：Jens Grubert , Yuta Itoh, Kenneth Moser编译：点云PCL本文仅做学术分享，如有侵权，请联系删除。欢迎各位加入免费知识星球，获取PD...