在应用大数据技术挖掘流程和质量数据中的重要信息和价值之前,有很多重要的内容是我们需要了解的,这可以帮助我们在相关实践的过程中避免很多错误,其中的一部分如下:
有监督的学习(Supervised learning)是指在数据中有输入变量和输出变量,我们可以建立从输入变量映射到输出变量的模型,并对模型进行优化,然后通过这个优化的模型对输出变量的未知情况进行预测。比如在统计过程控制SPC中,根据历史数据(在过去,质量专家已经做了大量的研究),人们得到了多条SPC判异准则(可以认为每条判异准则这是一个模型),比如有一点超过控制线即判断为异常。当新的生产数据出现后,我们就可以通过这条准则去判断新数据是否为异常了。再比如,人的身高和体重之间通常存在着一定的关系,于是,我们就可以通过对一部分人身高和体重数据的研究得到一个模型,此后,当我们知道一个人的身高时,就能大致知道其体重是多少了。
无监督学习(Unsupervised learning)是指数据集中没有区分输入变量或者输出变量,需要直接对数据进行建模。比如在质量检验中,我们将外观不良的产品放在一起,而将加工精度不够的放在另一边,将发生了扭曲的产品放在第三个位置等。
根据输出变量的类型不同,有监督的学习主要有两种情形:
常见的无监督学习的方法和应用场景包括:
目前,更多无监督学习方法在快速发展和更新中。
常用的预测方法有两种:基于最小二乘法的线性模型和K-最近邻法。前者通常更稳定,方差较小,但偏倚较大;而后者通常方差较大,但偏倚较小。
K-最近邻法的特点:当K减小,训练集数据量很大时,预测误差损失会迅速减小,当K=0时,误差会减小到0; 然而,当输入变量维数较多(5及以上)时,其会遭遇维灾难(Curse of dimensionality),方差会大到不可接受;但即使在低维空间,当存在结构化的方法可以使数据的使用更有效时,K-最近邻法可能也不是最好的选择。
对K-最近邻法而言,我们不能用“误差的平方和最小”为标准来选择K,因为误差及误差的平方和都是K的增函数,因此这样我们总是倾向于选择K=1;其有效参数的个数通常是N/K,一般应远大于p(X的维数)。
我们通常使用最小二乘法来估计模型参数,但其不足之处有二:第一,预测精度有限,最小二乘估计通常具有低偏倚和高方差;第二,有时候模型过于复杂:当模型中存在较多的输入变量时,我们通常希望确定出有较强影响的少数输入变量,这样模型的复杂度和可解释性就能得到提高。
第一,线性模型相对简单,可解释性更强,其常常能对输入如何影响输出提供充分和可解释的描述;第二,对于预测,它们通常远胜于非线性模型,特别是在训练数据量较少,信噪比较低或者数据稀疏的情况下更是如此。
线性回归模型的X变量可以是定量输入、定量输入的变换(如对数、平方等)、基展开(如X2,X3等)、定性输入的值或哑变量等; 一般而言,如果一个定性变量有K个水平,我们通常可以用K-1个值来对它们进行编码,以回避多重共线性(多重共线性通常需要回避,但也不绝对是这样); 线性回归模型通常都需要考虑截距,不考虑截距的情况非常少,除非X和Y的样本均值恰好为零; 4. 线性回归模型的Y变量可以是定量变量,也可以是定性变量(通常需要编码) 。
当数据量足够时,最好的方法随机地将数据集分成三个部分:训练集(Train set)、验证集(Validation set)和检验集(Test set)。训练集用于拟合模型,验证集用于评估模型的预测误差以选择预测误差最小的模型,检验集用于估计最终选定的模型用于预测时的泛化误差(Generalization error)。其中,“检验集”应该直到数据分析结束时才能使用,否则就需要假定我们重复地使用检验集,在模型选择时考虑选取具有最小检验集误差的模型。上述三个部分各占多少比例并没有严格的标准,其比例取决于数据的信噪比和样本容量,需要根据实际情况进行判断。典型的情况可能是训练集占50%,验证集和检验集各占25%。
多少数据才算“数据量足够”呢,对于这点并没有严格的规则,其依赖于潜在模型的信噪比和复杂性,需要根据实际情况进行判断。
当数据量不足时,我们通常使用一些分析指标(如AIC、BIC、MDL、SRM等)进行模型选择,或者通过有效样本复用(如交叉验证或自助法(Bootstrap))近似地实现验证(对于交叉验证,一般情况下,5折或10折已被推荐为较好的折中方案)。在高斯模型下BIC与AIC(Cp)成比例。假设N>e2=7.4,BIC倾向于更多地惩罚复杂模型,在选择中偏爱简单的模型。
当数据量(N)不太多的时候,AIC在实践中更容易选到合适的模型;而当数据量足够多的时候,BIC更容易选到正确的模型。实际中应根据情况选择使用AIC还是BIC,不过实际情况是,AIC应用更多些。
一般而言,我们可以用平方误差损失来衡量线性回归模型“Y=f(x)+Ƹ”的预测误差,其预测误差可以分解为三个部分:ERR=预测方差+预测偏倚2+ Ƹ的方差。其中Ƹ服从正态分布,其方差是无法避免的。对于K-最近邻法也有类似的等式。通常,偏倚会随模型复杂性的增加而减小,而方差的变化在训练集上的表现与在验证集和检验集上的表现不同。
通常,我们可以用一些方法来减少线性回归模型中输入变量的个数,这样做可以在牺牲一部分偏倚的同时降低预测方差,同时能够降低模型的复杂度。常用的方法有:最佳子集选择(可以用逐步回归法实现)、岭回归、套索(Lasso)、主成分回归和偏最小二乘法等。当线性模型中存在多个相关变量时,这些变量的系数确定性会变差,表现为其系数的方差较大,这时可借助岭回归或套锁方法对其系数进行惩罚。