三、矩阵运算 - 向量导数的基本公式理解 - 《线性代数基础》

1. 问题设定
2. 具体例子
3. 计算导数
4. 几何意义 ★★★
5. 应用场景
6. 总结

我们通过一个简单的例子来理解这个公式：

$\frac{\partial (\vec{a}^T \vec{x})}{\partial \vec{x}} = \frac{\partial (\vec{x}^T \vec{a})}{\partial \vec{x}} = \vec{a}$

1. 问题设定

假设我们有一个常数向量 $\vec{a}$ 和一个变量向量 $\vec{x}$ ：

$\vec{a} = \begin{pmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{pmatrix}$

$\vec{x} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix}$

它们的点积为：

$\vec{a}^T \vec{x} = a_1 x_1 + a_2 x_2 + \cdots + a_n x_n$

我们下面通过具体的例子看看计算这种点积对 $\vec{x}$ 的导数。

2. 具体例子

假设：

$\text{常数向量} \vec{a} = \begin{pmatrix} 2 \\ 3 \end{pmatrix}$

$\text{变量向量} \vec{x} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$

则点积为：

$\vec{a}^T \vec{x} = 2x_1 + 3x_2$

3. 计算导数

根据公式：

$\frac{\partial (\vec{a}^T \vec{x})}{\partial \vec{x}} = \vec{a}$

具体计算过程如下：
对 $x_1$ 求偏导：

$\frac{\partial (2x_1 + 3x_2)}{\partial x_1} = 2$

注:
在对 (x_1) 求偏导时，(x_2) 被看作常数。这是因为偏导数的定义是：在多元函数中，对某一个变量求导时，其他变量都视为常数。
偏导数的定义：
偏导数是多元函数对其中一个变量的导数，而其他变量保持不变。对于函数 $f(x_1, x_2, \ldots, x_n)$ ，对 $x_i$ 的偏导数记为： $\frac{\partial f}{\partial x_i}$
在计算时，除了 $x_i$ 以外的所有变量都被视为常数。
例子分析：
以函数 (f(x_1, x_2) = 2x_1 + 3x_2) 为例：
对 (x_1) 求偏导时，(x_2) 被看作常数。因此：

$\frac{\partial (2x_1 + 3x_2)}{\partial x_1} = \frac{\partial (2x_1)}{\partial x_1} + \frac{\partial (3x_2)}{\partial x_1} = 2 + 0 = 2$
其中：
$2x_1$ 对 $x_1$ 的导数是 2。
$3x_2$ 对 $x_1$ 的导数是 0（因为 $x_2$ 是常数）。
几何意义：
偏导数 $\frac{\partial f}{\partial x_1}$ 表示函数 $f$ 在 $x_1$ 方向上的变化率。
在这个过程中， $x_2$ 被固定为常数，相当于在 $x_2$ 方向上“切片”观察函数的行为。

对 $x_2$ 求偏导：

$\frac{\partial (2x_1 + 3x_2)}{\partial x_2} = 3$

因此，导数为：

$\frac{\partial (\vec{a}^T \vec{x})}{\partial \vec{x}} = \begin{pmatrix} 2 \\ 3 \end{pmatrix} = \vec{a}$

4. 几何意义 ★★★

点积 $\vec{a}^T \vec{x}$ 表示向量 $\vec{x}$ 在向量 $\vec{a}$ 方向上的投影长度乘以 $\vec{a}$ 的长度。

导数 $\frac{\partial (\vec{a}^T \vec{x})}{\partial \vec{x}} = \vec{a}$ 表示，当 $\vec{x}$ 变化时，点积 $\vec{a}^T \vec{x}$ 的变化率由 $\vec{a}$ 决定。

5. 应用场景

优化问题：假设我们需要最小化目标函数 $f(\vec{x}) = \vec{a}^T \vec{x}$ ，则梯度为 $\vec{a}$ 。梯度下降法的更新规则为：

$\vec{x}_{\text{new}} = \vec{x}_{\text{old}} - \eta \vec{a}$

其中 $\eta$ 是学习率。

线性回归：在线性回归中，损失函数可能包含 $\vec{a}^T \vec{x}$ 这样的项，其中 $\vec{a}$ 是数据向量， $\vec{x}$ 是模型参数。通过这个公式，可以快速计算损失函数对参数的梯度。

6. 总结

通过这个简单的例子，我们可以看到：
公式 $\frac{\partial (\vec{a}^T \vec{x})}{\partial \vec{x}} = \vec{a}$ 的意义是：点积 $\vec{a}^T \vec{x}$ 对 $\vec{x}$ 的导数就是 $\vec{a}$ 。
这个公式在优化、机器学习等领域中非常有用，可以简化梯度计算。