这篇短文对最近梳理的机器学习基础技术系列做一个摘要总结,以备后续复习和查阅,也希望能够对相关感兴趣的读者有所帮助,如有问题,欢迎读者联系作者勘误修订。感谢大家一直以来的关注和鼓励,后续将继续向大家分享计算机基础核心课程的知识技能和AI基础算法以及相关前言方向进展。
1、线性模型以及广义线性模型,如线性回归,逻辑回归,SoftmaxRegression等,都属于广义上的线性模型(广义线性模型形式上统一为指数分布的公式,上述分布实例都可以写成广义线性模型的公式表示),多项式回归也可以看成是经过了特征映射(feature mapping,类似于核方法)后的线性模型。线性模型基于统计概率的联合概率分布最大似然的原理去求解模型参数(线性模型得出用MSE损失函数,逻辑回归用SigmoidLoss,多分类用SoftmaxLoss,并根据loss可以求得梯度后采用梯度下降求解),优化的方法还有解析解(直接通过矩阵的计算得出参数解,在属性和参数量很大,样本量很大的场景下不适合),还可以基于牛顿法去求解,类似的原因,由于求解Hessian矩阵以及其逆矩阵的代价,牛顿法一般也限于参数量不大的时候去求解。
2、生成学习算法和判别学习算法,直接学习从属性x映射到目标y的函数及其参数学习到后验概率p(y|x)的学习算法称为判别学习算法;而通过概率建模学习条件概率p(x|y)(属性生成的过程特征)以及先验概率p(y)的算法,然后通过贝叶斯规则求解后验概率p(y|x)=argmax(y)p(x|y)p(y)的方法称为生成学习算法,其中GDA(Guassian Determinant Analysis)算法假设p(x|y)服从多元高斯分布,并通过对数似然函数最大化根据样本统计出相关分布的参数,如先验分布和条件分布的概率(如服从高斯分布则参数为均值向量和和协方差矩阵和先验概率)。GDA是比线性回归模型等更强的假设,其假设p(x|y)服从多元高斯分布,而线性回归模型中没有此要求。朴素贝叶斯算法是生成学习算法的一种特例应用,并根据邮件分类和收入预测进行了实际场景应用示例的算法具体化的实现和说明。
3、核方法,核方法是将数据属性通过feature map函数映射到高维空间从而提升算法performance但同时计算量没有显著增加的一种计算策略,有形如参数求解过程中在所有样本上计算<x(i),x(j)>这种内积形式的算法都可以采用核方法。常见的核函数有多项式核函数和高斯核函数(RBF),通过高斯核函数的指数形式的泰勒展开可得高斯核经数据原始属性映射到了无穷维,高斯核函数在可以用到核方法的算法中通常表现不错。
4、SVM,介绍了函数间隔和几何间隔的定义以及之间的关系,其中几何间隔有空间的几何意义是确定的,而函数间隔可以任意scaling因子有任意性。找出对所有样本分类置信度高的决策平面的问题转化为最小几何间隔最大化,这时的分类器又称为最优间隔分类器(The optimal margin classifier)。最后转化为基于线性不等式约束的二次函数优化问题。通过拉格朗日乘数子和朗格朗日对偶优化,在对偶问题中采用KKT条件实现快速优化算法SMO,该方法采用类似于coordinate ascent方法进行alpha参数的优化,由于alpha之间存在着约束,这时采用同时更新两个alpha进行。采用核函数的SVM算法,松弛变量处理在决策边界存在的线性不可分的样本点
5、统计学习理论,假设类(假设空间),根据统计概率的相关引理(1、多个事件至少发生一个的概率最多为每个事件发生的概率和,2、霍夫丁不等式,期望和统计均值之间的差距gamma和样本数量满足不等式关系,当n越来越大时,统计均值可以看成是期望的近似)。根据上述的引理,我们将经验风险最小化(训练误差),泛化误差(generalization error)分别看作为统计均值和期望并采用上述的霍夫丁不等式得出训练样本和两个误差间距的不等式关系(同时得出假设空间中假设函数个数k得出的训练误差最小化和泛化误差最小化的模型之间的关系中的bias和variance的平衡的形式化描述)。描述了假设类打散(shatter)样本数据集的定义,如果存在着样本标签的所有可能的分配,都能在假设类(假设空间)中找到一个假设函数,实现正确的预测,则称假设类打散数据集。VC维定义为假设类打散数据集的最大的样本数量。最小化经验风险和模型泛化误差的置信度关系,bias和variance的关系以及之间的tradeoff。
6、模型选择和验证,介绍了cross validation方法,k-fold cross validation算法性能验证策略。模型选择部分主要前向搜索和后向搜索以及基于互信息(KL散度的)属性重要性得分高低作为重要性进行排序。
7、结构分析(structure analysis,KMeans,DBSCAN,Hierarchical Clustering),KMeans的收敛和局部最小化,KMeans的K超参搜索方法,Kmeans在非凸集数据上表现不好的问题,基于密度的聚类算法,核心样本,边界样本和离群点,层次聚类的聚类时的依据,层次聚类从最细粒度的每个样本一个类别到最粗粒度的一个大簇的中间每一次聚合(两个簇合并)的结果都有展现,通过dendrogram树状图进行可视化展示,方便看到不同层次聚类的结果状态。
8、EM算法,在有隐变量的模型场合,隐变量没有在观测数据中体现,通过对含有隐变量的似然概率建模的情况下,并通过相关的等式(设计出每个样本基于隐变量的概率分布的表达式并进行相关的等式变换和)不等式(jesen不等式)变换去求解对数似然函数的下界,在下界成立时得出相关的条件即为E-step,下一步去最大化这个下界M-step,通过这两个步骤的不停迭代,最后求出包含隐变量的相关模型参数的解。
9、因素分析(Factor analysis)。通过少数的几个因素建模大量属性之间的关系,假设少数维度的隐向量满足高斯分布,通过仿射变换矩阵Lambda将隐变量映射到属性x的空间,通过学习这个仿射变换,x均值u,以及x的噪声协方差矩阵就可以通过z和模型参数构建属性x,而模型参数的学习方法主要是通过EM去迭代,这里主要用到了多维高斯分布以及对矩阵变量的求导方法;PCA: 将样本进行归一化(如z-score normalization之后,相当于平移到原点,不同维度按标准差缩放到差不多可比较的量纲)然后根据属性的协方差去进行特征值特征向量的计算,并将特征值排序后前面的k个向量作为主向量进行降维;ICA:独立成分分析,主要解决从混合后的信号重建原始信号的问题。
10、神经网络,介绍了多层感知机的前向推理和基于链式规则的后向传播算法(以及基于矩阵计算的实践实现)
11、树系列的相关算法,包括决策树(ID3,ID4.5,CART)以及决策树节点分裂的度量方法(信息增益,信息增益率,基尼系数,和方差等),集成学习方法(随机森林,AdaBoost,梯度提升树及其增强版XGBoost),随机森林基于Bagging的集成学习方法,采用Bootstrap有重复的放回采样方法,而且每个决策树都会选择属性的子集进行树的生成,随机森林的测试数据可以基于袋外数据进行;Adaboost为{-1,1}的二分类,基于指数损失函数,基于样本权重训练弱分类器,每个弱学习器也有对应的权重,其权重为其错误率的相关函数,同时每个样本的权重也在学习器的效果上逐步随之更新(分类错误的样本的权重更高,相当于分配更高的注意力);梯度提升树利用泰勒一节展开每一步回归前些步骤集成结果的残差,XGBoos采用二阶泰勒展开,利用二阶导数信息进行每个树的生成,其生成采用贪心算法,以及基于树的复杂度的正则化方法。
12、HMM为概率图模型的一个特殊应用实例,之前在语音识别中用到的比较多,模型参数为隐状态的初始概率,隐状态之间的转移概率矩阵A,隐状态到显示状态的B,隐马尔可夫模型的三个问题:1,基于模型参数和观测序列求得观测序列的概率;2,基于模型参数和观测序列解码出最可能的隐序列状态;3,根据观测序列X,求解模型参数的问题,基于EM算法的迭代过程,具体会使用到前向函数和后向函数等。
References
Leave a Reply