数据降维(Dimensionality Reduction):维度灾难与降维技术的几何本质(数据降维的常用方法有哪些?)

更新时间:2025-12-26 10:06:13指尖网 - fjmyhfvclm

在机器学习实践中,常常面临一个普遍而棘手的问题:过拟合!模型在训练集上表现出色,却在测试集中泛化能力不足。

指尖网(www.zhijiancq.com)™

为了解决这一问题,曾引入正则化技术,并取得了很好的效果。

但接下来,我们将要讨论另一条同样重要却更为根本的路径——降维

文章速览

ARITCLE CONTENTS

PART .01 >>>

过拟合现象

PART .02 >>>

“维度灾难”

PART .03 >>>

降维的三大方法

指尖网(www.zhijiancq.com)™

01

过拟合现象

机器学习中的知识诅咒

在深入降维之前,首先需要理解机器学习中最经典的现象:过拟合

模型过度迎合训练数据中的细节与噪声。

指尖网(www.zhijiancq.com)™

导致其决策边界变得异常复杂,失去了捕捉数据低效普遍规律的能力。

其结果就是,训练误差可能极低,但泛化误差(在未知数据上的误差)却可能高得惊人。

指尖网(www.zhijiancq.com)™

对抗过拟合,通常有三大策略:

1. 增加数据量:最直接有效的方法,但往往需要高昂的成本。

2. 正则化技术:过在损失函数中增加对模型复杂度的惩罚项,限制模型的参数空间(如岭回归,Lasso回归)。

3. 降维技术:通过减少特征数量来降低模型的复杂度,这也是本文要深入探讨的主题

那么,高维度本身为何会成为“祸源”呢?

指尖网(www.zhijiancq.com)™

02

维度灾难

高维空间的几何悖论

“维度灾难”一词,精准地描述了在高维空间中机器学习模型所面临的根本困境。

它并非是指计算复杂度的增加,而是指数据结构的极度稀疏与分布畸变。

指尖网(www.zhijiancq.com)™

这与我们在低维空间中的几何直觉是背道而驰的。以下是两个经典的例子:

超立方体与内切超球体

在高维空间中,单位超立方体内切球的体积占比趋近于0。

这意味着数据点更多地分布在立方体的“角落”,而非中心区域,导致数据稀疏且分布不均匀。

指尖网(www.zhijiancq.com)™

超球体的“壳层”现象

在高维单位球中,一个任意薄的球壳(环形带)的体积占比会趋近于1。

即,几乎所有“体积”都集中在表面,内部几乎是“空”的。

这再次印证了高维数据的稀疏性和分布特性与低维直觉完全不同。

指尖网(www.zhijiancq.com)™

这两个例子揭示了维度灾难的核心:

在高维空间中,数据点不再“稠密”,而是变得极度稀疏,并且以一种反直觉的方式(集中在边界或壳层)不均匀分布。

指尖网(www.zhijiancq.com)™

这使得任何基于“邻近”或“密度”的算法都变得异常困难,因为“大多数地方都是空的”。

模型极易捕捉到这些稀疏样本分布中的偶然噪声模式,从而导致过拟合。

指尖网(www.zhijiancq.com)™

03

降维方法

如何对抗维度灾难?

既然高维是症结,降维便是药方。降维方法根据其哲学与技术的不同,可分为三大类:

直接降维:特征选择

这是最直观的方式——根据领域知识或统计指标,从原始 个特征中,直接选择或保留 个重要特征,丢弃其余 个。

这种方法可以人工经验选择,也可以通过算法(如Lasso回归)自动实现。

指尖网(www.zhijiancq.com)™

例如,Lasso回归通过L1正则化将不重要的特征系数压缩至零,天然实现了特征选择。

此法简单高效,但风险在于可能丢弃特征间蕴藏的交互信息。

线性降维:寻求最优投影

线性降维旨在通过一个线性变换,将原始高维数据投影到一个有意义的低维子空间上,并尽可能保留关键信息。

🤗 主成分分析(PCA):最经典和重要的方法,下一期重点讲解。

指尖网(www.zhijiancq.com)™

PCA通过寻找数据方差最大的方向(主成分)进行投影,旨在用最少的信息损失保留最多的数据变异性。

它是理解数据结构、去除噪声相关的强大工具。

🤗 多维尺度分析(MDS):其核心目标是在保持样本间距离不变的前提下进行降维。当距离采用欧氏距离时,MDS与PCA在本质上等价。

非线性降维:流形学习

假设高维数据实际上分布在一个潜在的低维流形(Manifold)上,就像是一张揉皱的纸(高维观测)蕴藏着平坦的内在结构(低维流形)。

指尖网(www.zhijiancq.com)™

此时,流形学习的目标就是发现并展开这个低维结构

🤗 等度量映射(Isomap):摒弃了高维空间中的直线距离(欧氏距离),转而计算并保持数据在流形曲面上的真实距离(测地线距离),然后进行降维映射。

指尖网(www.zhijiancq.com)™

🤗 局部线性嵌入(LLE):假设了每个数据点都可以由其最近邻的线性组合来重构。

降维时,它不再保持全局距离,而是尽力保持每个局部邻域内这种线性重构关系

这三种方法构成了一个从简单到复杂、从全局线性到局部非线性的完整降维技术谱系。

指尖网(www.zhijiancq.com)™

结语

维度灾难揭示了高维空间的几何悖论,而降维技术则是我们对抗这一悖论的智慧结晶。

从直接特征选择到复杂的流形学习,降维不仅仅是技术操作,更是我们对数据本质理解的深化。

注:文章中未声明图片均来源于互联网

全部评论
    等待你的评论,点击抢沙发。
取消