上一篇文章介绍了,保证能用最小二乘法求解线性回归的第一种方案岭回归,本文介绍第二种方法Lasso回归,和岭回归一样,Lasso也是通过正则项,来解决多重共线性问题,不同的是Lasso使用的是系数w的L1范式,乘以正则化系数alpha。
人工智能专栏,分享图像处理、 NLP算法、深度学习、神经网络等领域的知识。
上一篇文章介绍了,保证能用最小二乘法求解线性回归的第一种方案岭回归,本文介绍第二种方法Lasso回归,和岭回归一样,Lasso也是通过正则项,来解决多重共线性问题,不同的是Lasso使用的是系数w的L1范式,乘以正则化系数alpha。
之前的文章中,我们介绍了最小二乘法求解多元线性回归问题,可以用最小二乘法求解的条件,就是特征矩阵必须是满秩矩阵。岭回归,就是在线性回归的损失函数上加上了正则项,可以通过对正则化系数alpha进行调节,保证最小二乘法有解。
回归类算法的模型评估一直是一个难点,但回归和分类其实是相似的法则,就是找真是标签和预测值的差异,只不过分类算法中,我们只需要判断是否预测了正确的分类,而在回归算法中,需要从是否预测了正确的数值,和是否拟合了足够的信息两个角度来评判回归效果。
前面两篇文章介绍了澳大利亚天气数据集的特征工程,将数据处理到了可以建模的程度,本文介绍SVM建模来做天气预测。同时在线性模型基础上,介绍准确率和召回率的平衡调节方法。
澳大利亚天气预测,是Kaggle上一个非常接近真实场景的数据集,因为其数据结构复杂,前期需要做大量的数据预处理,所以本文先介绍澳大利亚天气数据集的特征工程部分,下节再进行建模分析。
本文是澳大利亚天气预测项目的前置数据处理环节,在大项目中需要将观测点所在城市转化为气候区域,以方便探究气候区域与天气的关系。
上一篇文章中介绍了常用的模型评估指标,但一个好的模型,往往追求的是多个指标的平衡,而非某一个指标的大小。本文介绍的ROC,可以直观的展示评估效果。
分类任务中,一个模型的好坏,可以有很多评价指标,本文将系统介绍混淆矩阵,和常见的几种评价指标。
上一篇文章,我们介绍了SVM在不同数据集上的表现,本文以乳腺癌数据集为例,对比SVM不同核函数的效果,并通过调参,优化模型效果。
核函数,是SVM中为了能够找到非线性数据的线性决策边界,将数据从原始空间x投射到新空间φ(x)的映射关系,SVM中常用的核函数有linear、poly、sigmoid、rbf。
支持向量机(SVM),是机器学习中最重要的算法之一,也是除集成算法外,最强的学习器。它能解决有监督、无监督、半监督,分类和回归几乎所有场景。支持向量机,就是通过找出边际最大的决策边界,来对数据进行分类的分类器。
前一篇文章介绍了Sklearn中KMeans算法的基本使用方法,并用乳腺癌数据集对KMeans的属性和常用方法做了演示。本文我们要介绍一个KMeans的高级用法,对图片进行矢量量化操作,即在尽量不损失图片质量的情况下,压缩图片大小。
前面文章中,介绍过《手写KMeans聚类算法》,本文介绍用Sklearn中的cluster.KMeans类,来实现聚类算法。并使用轮廓系数来评估KMeans中的K值是否合适。
逻辑回归,是一种用回归思想解决二分类问题的算法。它是用线性模型去拟合事件的对数几率,其公式化简后,就是著名的Sigmoid函数。逻辑回归通常被用于处理二分类问题,但逻辑回归也可以做多分类,就是Softmax。
前面通过一些小案例介绍了PCA降维的参数和属性,最后我们来做一个综合案例,对手写数字的数据集进行降维,然后用随机森林和KNN两种方式,来做一个交叉验证。
上一篇文章介绍了PCA降维后的矩阵特征矩阵可视化,可以直观得看出降维后提取的综合特征,但我们想继续探究降维后的信息,能否通过逆转还原呢。
在机器学习中,图片信息转化为数据之后,一般维度都比较高,以下我们就以Sklearn中一个经典的人脸数据集fetch_lfw_people为例,为大家介绍PCA降维和降维后的特征矩阵可视化。
上一篇文章中,以鸢尾花数据集分类问题为例,实现了PCA降维后的分类和可视化,本节继续介绍PCA的属性和参数,并介绍如何通过探索属性返回值,找到合适的参数。
降维算法中的”降维“,指的是降低特征矩阵中特征的数量。降维的目的一是为了让算法运算更快,效果更好,另一个就是数据可视化。主成分分析(PCA)是机器学习中常用的降维算法,它是利用矩阵分解的原理,将多维特征转化为低维度的综合指标。
包装法也是一种特征选择和算法训练同时进行的方法,和嵌入法十分类似,他也是依赖算法自身的选择,比如coef_或者feature_importances_属性来完成特征选择,但不同的是,包装法会使用一个目标函数来进行特征选择,而不需要我们输入某个指标或者阈值。