这使得时光序列猜测在办法论层面出现出一种隐性的停止,即研究重心持续向模型表达才能倾斜,而对损掉函数所隐含的统计假设缺乏体系反思。
点对点误差的核心假设在于,标签序列中的各时光步可被视为给定汗青前提下互相自力的猜测对象。然而,这一假设与时光序列数据的生成机制之间始终存在张力。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
真实世界中的时光序列由随机过程演变而来,不应时光点之间存在明显的相干关系。将多步猜测问题拆解为一组自力的回归义务,弗成避免地为损掉函数引入了构造性误差,使模型难以进修标签序列的整体形态、相干构造以及前提依附关系。
$$\int \mathcal{W}_p\left(\mathbb{P}(\mathbf{y}|\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})\right) d\mathbb{P}(\mathbf{x}) \leq \mathcal{W}_p \left(\mathbb{P}(\mathbf{y},\mathbf{x}), \mathbb{P}(\hat{\mathbf{y}},\mathbf{x})\right)$$
针对这一问题,北京大年夜学林宙辰团队深刻分析了此类构造性误差的成因。在此基本上,团队提出了 DistDF:一种经由过程结合分布对齐练习猜测模型的损掉函数。DistDF 的提出不仅为时光序列猜测供给了一种新的损掉函数设计思路,也在更一般的意义上,对序列建模中“应当优化什么”这一经久被默认的问题给出了新的答复。

论文地址:https://arxiv.org/pdf/2510.24574v1
当自力性假设被实验证伪之后
当前时光序列猜测范畴的主流办法广泛采取逐时光点的均方误差(MSE)作为损掉函数:
$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$
$$\mathcal{L}_\mathrm{MSE}$$隐式地做了自力性假设:在给定汗青序列的前提下,标签序列各时光点的不雅测互相自力。然而,真及时光序列存在明显的标签自相干:标签序列各时光点的不雅测往往存在明显的相干性。是以,$$\mathcal{L}_\mathrm{MSE}$$的自力性假设与时光序列数据的生成机制相悖,导致其作为损掉函数是有偏的(具体见定理1)。
[定理1] 推敲单变量标签序列$$\mathbf{y}\in\mathbb{R}^{T\times 1}$$,其前提自相干矩阵为$$\mathbf{\Sigma}_\mathbf{x}\in\mathbb{R}^{T\times T}$$,则标签序列的实用负对数似然可表示为:$$\mathcal{L}_\mathrm{NLL} = \left\|\mathbf{y}-\hat{\mathbf{y}}\right\|_{\mathbf{\Sigma}^{-1}}^2$$。显然,仅当$$\mathbf{\Sigma}_\mathbf{x}$$是单位阵,即标签自相干不存在时,才有$$\mathcal{L}_\mathrm{NLL} = \mathcal{L}_\mathrm{MSE}$$。
研究团队经由过程实证分析验证了这一抵触:在给定汗青序列$$\mathbf{x}$$的前提下,标签序列仍出现明显的前提相干构造,从而在实证意义上证伪了自力性假设。实验进一步注解,即使采取频域变换或主成分分化等标签变换办法,变换后的标签序列依然存在残存相干性;是以,在变换后的标签应用均方误差作为损掉函数仍会导致构造性误差。

DistDF:基于分布对齐的时光序列损掉函数
为规避传统办法中的自力性假设,DistDF 提出直接对齐猜测序列的前提分布$$\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x})$$与真实标签的前提分布$$\mathbb{P}(\mathbf{y}|\mathbf{x})$$。直不雅上,该目标可经由过程最小化两个前提分布间的距离$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$来实现。
然而,直接将其作为损掉函数面对严重的样本稀缺问题。对于给定的汗青序列$$\mathbf{x}$$,时光序列数据集平日仅包含独一的标签序列$$\mathbf{y}$$,模型也仅产生单一猜测$$\hat{\mathbf{y}}$$。这种“单样本”情况导致直接估计前提分布距离$$\mathrm{Disc}(\mathbb{P}(\hat{\mathbf{y}}|\mathbf{x}),\mathbb{P}(\mathbf{y}|\mathbf{x}))$$在统计上弗成靠。
为解决这一难题,我们应用概率恒等式$$\mathbb{P}(\mathbf{y},\mathbf{x}) = \mathbb{P}(\mathbf{y}|\mathbf{x})\mathbb{P}(\mathbf{x})$$。因为边沿分布$$\mathbb{P}(\mathbf{x})$$是共享的,若结合分布对齐,则前提分布必定对齐。基于此,我们将前提分布匹配问题转化为结合分布匹配问题。
进一步结合最优传输理论,本文证清楚明了却合分布的 Wasserstein 距离构成了前提分布 Wasserstein 距离期望的上界:
是以,经由过程最小化汗青-猜测结合分布$$\mathbb{P}(\hat{\mathbf{y}},\mathbf{x})$$与汗青-标签结合分布$$\mathbb{P}(\mathbf{y},\mathbf{x})$$之间的 Wasserstein 距离,可有效实现前提分布对齐,进一步实现猜测模型的无偏练习。同时,这一转换许可应用全部数据集的样本来估计结合分布距离,明显晋升了分布距离估计的靠得住性。雷峰网
DistDF 的实现流程如下:
在时光序列猜测研究中,一个耐人寻味的现象经久存在:
起首,构造结合序列:$$\mathbf{z}=[\mathbf{y},\mathbf{x}]$$和$$\hat{\mathbf{z}}=[\hat{\mathbf{y}},\mathbf{x}]$$;
接着,计算两个结合序列之间的Wasserstein距离:$$\mathcal{L}_\mathrm{dist}=\mathcal{W}_p \left(\mathbb{P}(\mathbf{z}), \mathbb{P}(\hat{\mathbf{z}})\right)$$,
最后,与 MSE 损掉加权融合:$$\mathcal{L}_{\alpha} = \alpha \cdot \mathcal{L}_\mathrm{dist} + (1-\alpha) \cdot \mathcal{L}_\mathrm{MSE}$$
一方面,模型构造赓续演进,从轮回收集到 Transformer,再到频域与混淆构造;另一方面,几乎所有办法在练习阶段依附同一类损掉函数,即以均方误差(MSE)为代表的点对点误差。
DistDF 作为模型无关的损掉函数,可适配各类猜测模型架构。
在大年夜量实验中,一致验证优势

论文起首将DistDF与现有损掉函数进行了比较,包含经由过程标签变换减弱标签相干性的 FreDF 和 Time-o1。成果注解,这些办法固然削减了似然估计的误差并晋升了机能,但残差误差仍然存在,是以机能仍有改进空间。而DistDF经由过程最小化前提分布之间的距离,实现了猜测模型的无偏练习,取得了最佳的猜测机能。

其次,论文经由过程消融实验对两个关键身分进行了验证;分别考察在DF的基本上,仅对齐均值、仅对齐协方差以及同时对齐二者的情况。成果注解,两种身分零丁对齐时均能带来机能晋升,而二者同时对齐时后果最为明显。雷峰网("大众,"号:雷峰网)
接着,论文也对模型输出的猜测序列进行了可视化分析。成果注解,采取 DistDF 练习的模型可以或许较好地跟随序列中的突发变更,使得猜测序列在整体形态上加倍接近真实数据。这进一步注解,DistDF 的感化不仅表如今降低数值误差上,更重要的是在练习过程中引导模型进修到了真实将来时光序列的整体分布形态。

最后,论文对DistDF与不合猜测模型的兼容性进行了验证。成果注解,无论模型本身的复杂度和建模方法若何,引入 DistDF 练习策略后,模型猜测机能几乎都可以或许获得进一步晋升。这一成果注解,DistDF 的感化并非弥补模型构造本身的不足,而是供给了更好的练习旌旗灯号。
「多义务进修」须要分布对齐
整体来看,这项研究从新核阅了多义务进修场景中的损掉函数设计。研究团队强调:多义务进修的核心目标不该局限于对 T个标签的逐点建模,而应转向对一个在义务维度上具有内涵相干构造的随机过程进行整体建模。
在这一视角下,传统损掉函数(如MSE)隐含了“给定输入前提下各义务标签互相自力”的假设,从而将一个高维、相干的随机过程建模义务退化为一组彼此自力的标量回归义务。因该假设忽视了标签序列的内生构造,这些损掉函数往往是有偏的。
DistDF 经由过程将猜测序列与真实标签建模为概率分布,实现对义务维度上相干构造的整体建模。经由过程优化基于分布对齐的损掉函数,模型可以或许显式进修标签序列的整体形态、相干构造以及前提依附关系。
进一步看,该研究揭示的问题具有广泛的普适性。只要进修义务的输出构成具有明显相干性的序列(如语音、图像、文本或用户行动),若仍沿用基于自力性假设的损掉函数(如 MSE),则必定会引入构造性误差。是以,DistDF 所倡导的结合分布对齐思惟,不仅实用于时光序列猜测,也同样实用于语音合成、轨迹猜测等义务。它并非针对时光序列义务的特定技能,而是为多义务进修问题供给了一种更为通用的损掉函数构造范式。
作者信息
论文第一作者王浩,现为浙江大年夜学控制学院博士研究生,研究偏向聚焦于因果揣摸、多义务进修技巧及其在大年夜说话模型中的应用。2022 年- 2023 年,他曾在蚂蚁金服、微软亚洲研究院科研练习,从事推荐体系理论研究。2025 年起,他在小红书参加 RedStar 练习项目,进行大年夜说话模型、可托嘉奖模型范畴的研究工作。

论文通信作者林宙辰,现任北京大年夜学智能学院、通用人工智能全国重点实验室传授。他的研究范畴包含机械进修和数值优化。他已揭橥论文360余篇,谷歌学术引用跨越42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG会士,多次担负CVPR、NeurIPS、ICML等会议的Senior Area Chair,现任ICML Board Member。

参考链接:https://zhouchenlin.github.io/
本工作获得了北京市科学技巧委员会、中关村科技园区治理委员会的大年夜力支撑,在此深表感激。

发表评论 取消回复