特征缩放 | AmosTian

[TOC]

常用的特征缩放算法：归一化（normalization）和标准化（standardization）

归一化(normalization)

归一化是利用特征（可理解为某个数据集合）的最大值，最小值，将特征的值缩放到[0,1]区间，对于每一个特征使用min - max函数进行缩放。

数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面

数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加和不能正确反映不同作用的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用同趋化，再加和才能得出正确结果。

消除纲量，加快收敛：不同特征往往具有不同的量纲单位，不同量纲的特征值不具有可比性。为了消除指标之间的量纲影响，需要进行数据归一化处理。原始数据经过数据归一化处理后，各指标处于[0,1]之间的小数，适合进行综合对比评价。

提高精度：在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和数量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

min-max：离差标准化，对原始数据的线性变换，使结果落到[0,1]区间，转换函数如下

$x^*=\frac{x-min}{max-min}$

其中，max 为特征 $x$ 的最大值，min 为特征 $x$ 的最小值

经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射

包括log、指数、正切。根据数据分布情况，决定非线性函数的曲线，比如：$\log_{10}$ 还是 $\log_2$

$x^*=\frac{\lg x}{\lg \max}$

但必须确保x的取值都大于0

log1p 函数通常指的是对 1 + x 取自然对数的运算，即 log1p(x) = log(1 + x)。由于直接对小的正数取对数可能会因为下溢而导致数值不稳定,在处理概率分布和对数变换时非常用用

标准化是通过特征的平均值和标准差，将特征缩放成一个标准的正态分布，缩放后均值为0，方差为1。但即使数据不服从正态分布，也可以用此法。特别适用于数据的最大值和最小值未知，或存在孤立点。

1）、标准化是为了方便数据的下一步处理，而进行的数据缩放等变换，不同于归一化，并不是为了方便与其他数据一同处理或比较。

2）、标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

Z 标准化，SPSS 默认的标准化方法——标准差标准化

需要知道原始数据的均值与标准差

$z=\frac{x-\mu}{\sigma}$

其中μ为所有样本数据的均值，σ为所有样本数据的标准差。

这个方法还可以理解为：距离均值有z个标准差 ( x - μ = zσ)

适用于变量 x 的最大值和最小值未知的情况，或有超出取值范围的利群数据情况

归一化(SampleNormalization) 为了消除样本自身或者测样的技术差异，使样本间可以比较，可以理解为组间数据的处理。

标准化(standardization) 为了使不同变量之间可以比较，消除极大值和极小值带来的影响，可以理解为组内数据的处理