嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高特定模型的效力有更好的效果。由于考虑特征对模型的贡献,将低贡献的特征删除,本质上还是特征过滤。
人工智能专栏,分享图像处理、 NLP算法、深度学习、神经网络等领域的知识。
嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高特定模型的效力有更好的效果。由于考虑特征对模型的贡献,将低贡献的特征删除,本质上还是特征过滤。
上一篇文章中讲到相关性判断的的卡方过滤法,本文介绍另外两种:F检验、互信息法。使用方法和作用,都与卡方过滤类似,目的都是用来探索合适的有效特征K值。
上一篇文章介绍了特征的方差过滤,方差过滤完毕之后,我们要考虑下一个问题:相关性。Sklearn中有三种常用方法,来判断特征和标签之间的相关性:卡方、F检验、互信息。本文先介绍第一种卡方过滤。
方差过滤,是机器学习特征选择的一种方法。所谓的特征选择,就是从所有特征中,选择出有意义,对模型有帮助的特征,避免将所有特征都导入模型去训练。本文以Kaggle上的手写数字识别训练集为例,来演示特征选择对模型训练时间和准确率的影响。
在数据处理中,除了前面文章介绍过的非数值数据外,可能还有一些连续数值需要处理。比如年龄这个特性,如果按未成年和成年来划分,就是二值化,如果按少年、青年、中年、老年来划分,就是分箱。下面我们依然用泰坦尼克号的数据,来演示二值化和分箱。
上一篇文章中,我们使用OrdinalEncoder把分类特征Sex和Embarked转换成了数值,但在Embarked这个特征中,我们用[0,1,2]表示港口其实是不合理的。对于这类没有关联的名义变量,我们需要使用OneHot编码,将其转换成哑变量。
在机器学习中,大多数场景都只能处理数值型数据,但在现实场景中,很多特征和标签在采集完毕后,都不是以数字呈现的,这种情况下为了让数据适应算法和库,我们必须对数据进行编码,即文字型数据转化为数值型。
在机器学习和数据挖掘的实际场景中,数据一般都不会像Sklearn给我们提供的数据那么完美,难免会有一些缺失值,所以在做数据预处理时,对缺失值的处理,是必不可少的一个步骤。
前一篇文章讲到数据归一化,本文继续讲解无量纲化的第二种方法,数据标准化。其过程是先将数据按均值中心化后,再按标准差缩放,得到的数据服从均值为0,标准差为1的标准正态分布。
归一化(Normalization)和数据标准化(Standardization),是数据无量纲化的两大常用方法。归一化的方法是先按最小值中心化之后,再按极差(最大值-最小值)缩放,即数据先移动最小值个单元,在缩放使其收敛于[0,1]之间。归一化后的数据服从正态分布。
随机森林是最简单的集成学习算法,其核心是两个随机加多棵CART树,最后通过投票表决,决定数据属于哪一类别。本文依然以Sklearn数据为例,来对比随机森林和决策树的分类效果。
Sklearn红酒数据集,是一份非常适合用来做决策树模型数据集,本文介绍使用GraphViz在线工具,来绘制一个Sklearn红酒数据集决策树。
在这个Sklearn决策树泰坦尼克号幸存者预测挑战中,我们要求你完成对哪些人可能生存的分析。特别是,我们要求您运用机器学习的工具来预测哪些乘客幸免于难。
在上一篇文章中,介绍了Sklearn使用决策树训练分类模型,但在模型构建过程中,出现了拟合的问题。本文主要介绍两种剪枝方式,并使用GridSearchCV网格搜索方式,找到最优参数。
决策树学习算法,通常是递归地根据某一准则(信息增益或基尼系数)选择最优切分点/特征,并根据该特征对训练数据集进行分割,使得对各个子数据集有一个最好的分类的过程。
前面文章中,详细介绍了用批量梯度下降法(BGD),求解线性回归问题的过程。本文再另外介绍两种:随机梯度下降和小批量梯度下降,并使用图形的方式,对三种方法做一个横向对比。
前面文章中,我们用数学推导的方式,求解了线性回归问题,但直接求解计算量很大,特别是矩阵求逆的过程会很麻烦。在机器学习中,人们更倾向于用一种近似的方式,去拟合线性规律,那就是梯度下降法。
前面文章中,介绍了推导公式和手写代码的形式,来求解多元线性回归问题。但在真实项目中,一般都会使用调库的方式来完成任务。以下依然以波士顿房价预测需求为例,来介绍使用sklearn求解多元线性回归问题的方法。
K-means 是最常用的基于欧式距离的机器学习聚类算法,其认为两个目标的距离越近,相似度越大。K-means是无监督学习的基础算法。
深度学习中,RNN网络在理解上有一些难度,本文以最简单的LSTM模型,实现MNIST数字识别,来帮助大家理解RNN的模型参数。因为基础的RNN模型在案例中表现不佳,故使用改进版的LSTM模型。