(以下内容待整理)
概率与似然¶
在《动手学深度学习》的线性回归一节中,在解释"为什么偏偏要使用均方误差(MSE)作为损失函数"时,引入了一个重要的假设:观测数据中包含的噪声服从正态分布。
基于这个假设,教材通过特定数据的函数,指出通过"极大似然估计"(Maximum Likelihood Estimation, MLE)就可以推导出均方误差。
似然(Likelihood)是概统的东西, 这里回顾一下相关概念。
理解"概率"与"似然"¶
在统计学中,“似然”和“概率”虽然在日常语言中经常被混用,但在数学和机器学习中,它们有着截然不同且互逆的含义。
要直观地理解“似然”,最好的方法是把它和“概率”对比来看:
1. 概率 (Probability):已知“规则”,预测“结果”¶
- 情境:环境或模型的参数是已知的,你想知道发生某种特定数据的可能性。
- 通俗例子:假设你知道一枚硬币是绝对均匀的(已知参数:正面概率 \(p=0.5\))。你抛掷10次,出现7次正面的概率是多少?
- 视角:参数是常量,数据是变量。
2. 似然 (Likelihood):已知“结果”,反推“规则”¶
- 情境:事情已经发生了,数据已经摆在面前(数据已知),你想评估“到底是哪组参数导致了这种结果”的可能性。
- 通俗例子:你捡到一枚硬币,抛了10次发现有7次是正面(已知观测数据)。你现在想猜这枚硬币的质地(未知参数 \(p\))。
- 如果假设 \(p=0.5\),算出一个似然值。
- 如果假设 \(p=0.7\),又算出一个似然值。
- 显然,在“已经抛出7次正面”这个既定事实下,参数 \(p=0.7\) 的似然要远高于 \(p=0.5\)。
- 视角:数据是常量(因为已经观测到了),参数是变量。
结合《线性回归》片段来理解:¶
在教材的推导中,我们正在尝试为线性回归寻找最优的权重 \(\mathbf{w}\) 和偏置 \(b\)。
- 既定事实(已知数据):我们手头已经有了训练集,即特征 \(\mathbf{X}\) 和对应的真实标签 \(\mathbf{y}\)。
- 似然函数 \(P(\mathbf y \mid \mathbf X)\) 的含义:如果我们假设某一组特定的 \(\mathbf{w}\) 和 \(b\) 就是真实的参数,那么在这个假设下,生成我们手头这批真实观测数据 \(\mathbf{y}\) 的概率有多大? 这个算出来的概率值,就是当前这组参数 \(\mathbf{w}\) 和 \(b\) 的“似然”。
什么是“极大似然估计”(Maximum Likelihood Estimation, MLE)?¶
既然“似然”代表了“在某组参数下,发生当前既定事实的可能性”,那么统计学中一个非常自然且霸道的逻辑就是:存在即合理。
既然这批数据 \(\mathbf{y}\) 已经在现实中被我们观测到了(说明它发生的概率应该非常大),那么我们就应该去寻找那样一组参数 \(\mathbf{w}\) 和 \(b\),使得这批数据发生的概率(即似然)达到最大。
这就是文本中这句话的核心思想:
“根据极大似然估计法,参数 \(\mathbf{w}\) 和 \(b\) 的最优值是使整个数据集的似然最大的值”
推导到均方误差(MSE): 因为多个样本同时发生的概率是各自概率的连乘(\(\prod\)),连乘在数学上很难求导求极值。所以我们通过取对数把连乘变成连加(\(\sum\)),再取负号把“求最大值”变成“求最小值”(即最小化负对数似然)。
文本最后的结论非常优美:如果我们假设数据中的误差(噪声)服从高斯分布(正态分布),那么经过数学化简后,“最大化似然”在数学公式上完全等价于“最小化均方误差(MSE)”。这就从概率统计的底层逻辑上,解释了为什么线性回归要用均方误差作为损失函数。
总结一句话:“似然”就是用来衡量“在已经看到这些客观数据的前提下,你猜的这组模型参数有多靠谱”的指标。
量化领域的应用¶
- 风险管理(VaR计算) 概率应用:计算在给定置信水平下,投资组合在未来特定时间段内的最大可能损失。
- 例如:95%置信水平下,单日VaR为100万元,意味着有5%的概率单日损失超过100万元
似然应用:基于历史数据估计风险模型的参数,比如波动率、相关性等
-
资产定价模型 概率应用:Black-Scholes期权定价模型中,假设资产价格服从几何布朗运动 似然应用:使用极大似然估计法校准模型参数,如波动率σ
-
投资组合优化 概率应用:基于资产收益的概率分布进行均值-方差优化 似然应用:估计资产收益的联合分布参数,优化投资权重
投资行为分布的现实假设¶
在量化金融实践中,投资行为(资产收益率)很少严格服从正态分布,主要存在以下现象:
- 肥尾现象(Fat Tails):极端事件(如金融危机)的发生概率远高于正态分布预测
- 尖峰现象(Excess Kurtosis):收益率集中在均值附近的程度高于正态分布
- 偏度(Skewness):收益率分布不对称,可能左偏或右偏
为什么正态分布假设仍然常用?¶
- 数学简便性:正态分布具有良好的数学性质,便于推导和计算
- 中心极限定理:在大样本下,许多统计量近似正态分布
- 历史传统:许多经典金融理论基于正态分布假设
不同分布假设下的推导¶
案例1:假设t分布(处理肥尾现象)¶
如果假设误差项服从学生t分布,其概率密度函数为:
f(ε) ∝ [1 + (ε²/ν)]^{-(ν+1)/2}
对应的负对数似然函数推导:
L(w,b) = -∑ log f(y_i - (w·x_i + b))
∝ ∑ log[1 + ((y_i - ŷ_i)²/ν)] (忽略常数项)
对应的损失函数:当ν→∞时,趋近于MSE;当ν较小时,对异常值不敏感
案例2:假设拉普拉斯分布(处理稀疏性)¶
如果假设误差项服从拉普拉斯分布:
f(ε) ∝ exp(-|ε|/b)
对应的负对数似然函数:
L(w,b) = -∑ log f(y_i - ŷ_i)
∝ ∑ |y_i - ŷ_i| (绝对值损失,MAE)
结论:假设拉普拉斯分布推导出的就是平均绝对误差(MAE)
案例3:混合分布(处理多模态)¶
现实中的投资行为可能更适合混合分布,如: - 正常市场状态:服从一个分布 - 极端市场状态:服从另一个分布
对应的似然函数是各个成分分布的加权和,参数估计更复杂但更贴近现实。
量化实践中的选择¶
在实际量化策略中,分布假设的选择取决于:
- 数据特征:通过统计检验(如Jarque-Bera检验)判断分布形态
- 业务目标:风险管理更关注尾部,交易策略更关注中心趋势
- 计算复杂度:复杂分布需要更强大的计算资源
现代量化趋势:越来越多使用非参数方法(如核密度估计)和机器学习方法,减少对特定分布假设的依赖。
总结来说,虽然正态分布假设在理论推导中很便利,但现实量化工作中需要根据具体场景选择合适的分布假设或采用更灵活的方法论。