设计矩阵(英語:design matrix、model matrix、regressor matrix)在统计学和机器学习中,是一组观测结果中的所有解释变量的值构成的矩阵,常用X表示。设计矩阵常用于一些统计模型,如一般线性模型,方差分析中。
定义
通常情况下,设计矩阵的第i行代表第i次观测的结果,第j列代表第j种解释变量。如此一来,线性回归模型就可以用矩阵乘法表达为

其中
是设计矩阵,
是对应每一种解释变量的系数组成的系数向量,
是每一个观测对应的预测值构成的向量。[1]
例子
算数平均
算数平均的设计矩阵是一个全为1的列向量。
简单线性回归
本节给出了一个简单线性回归的例子,其中有一个解释变量和有七个观测值。这七个数据点是
。该简单线性回归模型可以表示为:

其中
为y轴的截距,
是回归线的斜率。该模型可以表示为矩阵形式:

其中设计矩阵中的第一列用以估计y轴的截距,而第二列包含与相应y值相关的x值。
多元回归
本节给出了一个有两个协变量(解释变量)的多元回归例子:
和
。假设数据由七个观测值组成,对于每个待预测的观测值
,两个协变量的值
和
也被观察到。该模型可以表示为:

该模型可以表示为矩阵形式:

右侧的
矩阵即为设计矩阵。
单方向方差分析
在单方向方差分析中,此时的模型为

限制:
为0

参考文献
延伸閲讀
- Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (编). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.