在平时的质量管理和质量改进工作中,我们常常需要用到“回归分析(Regression)”的统计方法,以定量地刻画一个质量特性(比如PCB生产过程中的线宽及其间距)和其可能的影响因子(如药水浓度、温度、操作员等)之间是否存在显著的相关关系,并进而用模型来刻画这种相关关系并进行变量控制、预测和决策。
使用统计分析软件,我们只需要点击几下鼠标就能基于已有的数据计算出相应的回归分析结果和回归方程。但我们还需要特别注意一些典型的问题(这些问题统计分析软件往往并不会提醒我们),特别是当我们对于深奥抽象的统计分析原理一知半解的时候。
为了更加准确地对回归模型中的参数进行估计,提高估计值的稳定性,我们在收集数据时,应尽可能使数据尽量分散一些,不要集中在一个比较小的范围内;另一方面,在人力物力允许的情况下,收集更多的数据也有助于提高对模型中的参数的估计的稳定性。
我们在构建回归模型的时候,需要特别注意线性回归模型的一些基本假设。
比如,我们通常假设线性回归模型的误差是等方差而且不相关的。虽然在许多情况下,这个假设总是可以认为近似成立,但是还是有许多实际问题中,这样的假设并不合适。这时我们就需要根据情况使用特别的方法,如广义最小二乘法等,来对回归模型的参数进行估计。
回归模型建立后,工程师们往往都知道需要对模型进行显著性检验,以确定模型是否有效,即根据p值、R2值,F值等来判断模型本身和模型参数的显著性。但试试上,回归模型的显著性检验需要包含三个方面:
可见,我们不能仅仅从统计理论的角度来判断模型是否可靠,其他两方面的检验很多时候往往更加重要。
在实际应用回归模型进行参数分析、控制和预测时,用于预测的输入变量不能与样本数据的均值相差太多,如果偏离太多,往往会得不到理想的效果。
比如,如果我们搜集了多组“跑步时间”和对应的“心跳速率”的数据,来通过回归模型刻画“跑步时间”和“心跳速率”之间的相关关系。如果我们搜集的跑步时间的数据在5分钟~10分钟之间,我们就很难用所得到的回归模型去预测如果跑步11分钟,心跳速率将会是多少,因为那样的预测将很不准确。
参考文献:《应用回归分析》,王黎明、陈颖、杨楠编著,复旦大学出版社