然而,在实际猜测义务中,权重矩阵$\boldsymbol{\bar{\Sigma}}$难以估计。为解决这一问题,研究团队受到元进修启发,将$\boldsymbol{\bar{\Sigma}}$作为可进修的对象,经由过程一个双层优化机制将$\boldsymbol{\bar{\Sigma}}$从数据中“学”出来:

在多步时光序列猜测义务中,猜测机能随时光步长敏捷退化几乎成为一种共鸣。例如:在气候猜测中,短期的温度变更可以或许较为精确地描述,但当猜测跨度扩大至数日甚至一周时,猜测误差就会逐渐放大年夜,周期与趋势构造逐渐偏离真实轨迹。类似的问题在金融价格走势和电力负荷猜测等场景中也广泛存在。

无论模型构造若何变更,当猜测范围从短期扩大至中经久时,误差积聚、趋势漂移和构造掉真往往弗成避免地出现。这类现象在实践中被频繁不雅察,却平日被视为模型表达才能或依附建模不足的直接成果。

然而,与模型构造持续演进形成光鲜比较的是,多步猜测在练习阶段所应用的损掉函数却经久保持固定。大年夜多半办法仍以逐时光点的均方误差(MSE)作为优化目标,默认将将来不合猜测步视为互相自力且重要性一致的猜测对象。

然则,多步猜测并非一组彼此自力的回归义务,将来不应时光点之间往往出现明显的相干性;此外,不合猜测步在优化阶段的重要性也并不雷同。若损掉函数无法显式描述这些构造特点,模型在经久猜测中出现体系性误差便并非有时,而是练习阶段缺点假设的天然成果。

恰是在这一背景下,林宙辰团队提出了题为《Quadratic Direct Forecast for Training Multi-step Time-Series Forecast Models》的研究工作。经由过程重构练习目标的加权构造,引入对猜测步相干性与不肯定性差别的显式建模。研究团队展示了在不改变模型架构的前提下,仅经由过程调剂练习目标即可明显改良多步猜测机能的可能性,从而为时光序列猜测供给了一种从练习机制层面懂得经久猜测掉效的新视角。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

论文链接:https://arxiv.org/pdf/2511.00053v1

问题根源:均方误差的两个先验

在当下的时序猜测范畴,绝大年夜多半文献仍以逐时光点的均方误差(MSE)作为损掉函数:

$$\mathcal{L}_{\text{MSE}} = \|\mathbf{y} - g_\theta(\mathbf{x})\|^2=\sum_{t=1}^\mathrm{T}\left(y_t-g_{\theta,t}(\mathbf{x})\right)$$

从概率建模的视角出发,幻想的损掉函数应来源于负对数似然。在高斯误差假设下。在高斯误差假设下,给定汗青序列 $\mathbf{x}$,标签序列 $$\mathbf{y}\in\mathbb{R}^\mathrm{T\times 1}$$ 的前提分布为多元高斯分布,其负对数似然(忽视常数项)可表示为:

这个损掉函数隐含了两个先验:1. 将来不应时光点的猜测是互相自力的;2. 所有猜测步的重要性是雷同的。

然而,实际并非如斯:明天的气象与后天的气象存在相干性,猜测将来1小时和1周的难度也完全不合。是以,多步猜测并非一组自力的回归义务;不合猜测步在优化阶段的重要性也并不雷同。如损掉函数无法精确描述这些构造特点,模型在经久猜测中出现体系性误差,就并非有时,而是练习阶段缺点假设的必定成果。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

起首,对标签序列的前提协方差进行了偏相干分析,以描述在控制汗青输入的影响之后,标签序列不应时光点 $Y_t$ 与 $Y_{t'}$ 之间的直接关系。实验成果显示,将来时光点之间存在大年夜量非零偏相干系数,否定了均方误差所隐含的前提自力假设。雷峰网

进一步,对标签序列的前提方差进行了分析。实验成果显示,不应时光点的误差方差存在明显差别,且跟着猜测步整体增大年夜,解释将所有猜测步视难堪度一致的义务并不相符数据特点,否定了均方误差隐含重要性一致假设。

QDF:从数据中自适应进修猜测损掉

针对MSE存在的两个不合理先验,林宙辰传授团队提出了QDF(Quadratic Direct Forecast)办法,核心立异在于:不再将损掉函数视为固定不变的优化目标,而是将其本身作为可进修的对象,从而主动“发明”最合适特定义务数据构造的损掉表述。

$$\mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x},\mathbf{y};g_\theta) = (\mathbf{y} - g_\theta(\mathbf{x}))^\top \boldsymbol{\bar{\Sigma}} (\mathbf{y} - g_\theta(\mathbf{x}))$$

个中,$\boldsymbol{\Sigma} \in \mathbb{R}^{T \times T}$是标签序列的前提协方差矩阵,$T$ 为猜测步长,$\boldsymbol{\bar{\Sigma}} = \boldsymbol{\Sigma}^{-1}$为该二次型的权重矩阵。在该二次型中:权重矩阵的非对角元素描述了将来不应时光点之间的前提相干性,从而可以或许显式建模标签自相干效应,打破了MSE所隐含的前提自力假设;权重矩阵的对角元素反应了不合猜测步的不肯定性差别,使得模型可以或许为不合难度的猜测义务分派异构权重,打破了MSE所隐含的重要性一致假设。雷峰网("大众,"号:雷峰网)

是以,该二次型损掉函数在理论上可以或许同时解决传统MSE损掉在多步猜测场景下的两个构造性误差问题。

$$\min_{\boldsymbol{\Sigma} \succeq 0} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{out}}, \mathbf{y}_{\text{out}};g_{\theta^*}) \quad \text{s.t.} \quad \theta^* = \arg\min_{\theta} \mathcal{L}_{\boldsymbol{\Sigma}}(\mathbf{x}_{\text{in}}, \mathbf{y}_{\text{in}};g_\theta)$$

该双层优化问题的求解过程包含两个阶段。起首,在给定$\boldsymbol{\Sigma}$ 的前提下,经由过程在元练习集$(\mathbf{x}_{\text{in}}, \mathbf{y}_{\text{in}})$上最小化损掉函数$\mathcal{L}_{\boldsymbol{\Sigma}}$来更新模型参数$\theta$。接着,根据模型在元验证集$(\mathbf{x}_{\text{out}}, \mathbf{y}_{\text{out}})$上的猜测误差,反向传播更新$\boldsymbol{\Sigma}$。个中,元练习集和元验证集来自对练习集的不合切片。

这种双层设计的核心优势在于:练习目标的好坏不再由拟合优度决定,而是由元验证集上的泛化机能来描述。经由过程多次数据拆分与迭代更新,算法得以进修到在不应时光区间内一致的误差相干模式,从而形成稳定且可泛化的练习目标。

在大年夜量实验中,一致验证优势

论文起首将 QDF 与现有损掉函数进行了比较,包含经由过程标签变换减弱标签相干性的 FreDF 和 Time-o1。这些办法相较于均方误差均能带来必定的机能晋升,但在稳定性和机能上限方面仍不及 QDF。原因在于这些办法仅部分处理标签之间的相干性,仍隐含地假设残剩误差可经由过程平均加权方法进行优化,而 QDF 同时建模了标签间的相干性以及不合猜测步的不肯定性,并经由过程元进修获得最优加权权重,彻底解决了损掉函数中可能存在的误差。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

其次,研究人员经由过程消融实验对上述两个关键身分进行了验证。实验分别考察仅建模不合猜测步权重、仅建模时光相干性以及同时建模二者的情况。成果显示,两种身分零丁引入时均能带来机能晋升,而二者同时感化时后果最为明显。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

一次针对均方误差的体系性审判

从研究意义的角度来看,这项研究起首颠覆了一个在时光序列范畴经久被默认接收的假设:多步猜测可以被视为多个互相自力且等权重的回归义务。这一假设在实践中被广泛采取,却缺乏体系性的经验验证。研究经由过程严格的概率建模分析与周全的实证考验注解,**这一前提假设在多步猜测场景中并不成立**。

在此基本上,研究进一步提出了一种新鲜的研究办法:将损掉函数本身视为可以被进修的对象。不合于传统经由过程超参数调节或启发式设计的方法,该研究经由过程引入构造化的权重参数来显式建模标签间的接洽关系性和不合猜测步的重要性差别,并经由过程双层优化机制,直接应用未见数据上的泛化误差进修权重参数。这种设计使得损掉函数的情势可以或许根据数据特点自适应地调剂,从而形成既相符统计建模道理又具有优胜泛化才能的练习目标。

对于后续研究而言,该工作所供给的启发并不局限于具体办法本身,而表如今更一般的研究范式上。其一,研究强调了对范畴内默认假设保持持续核阅的重要性;其二,展示了若何从统计建模出发反推优化目标的合理情势;其三,为元进修思惟在时光序列猜测范畴的应用和成长供给了理论和实践参考,展示了若何将元进修的思惟与范畴特定的统计办法有机结合。

作者信息

论文第一作者王浩,现为浙江大年夜学控制学院博士研究生,研究偏向聚焦于因果揣摸、多义务进修技巧及其在大年夜说话模型中的应用。2022 年- 2023 年,他曾在蚂蚁金服、微软亚洲研究院科研练习,从事推荐体系理论研究。2025 年起,他在小红书参加 RedStar 练习项目,进行大年夜说话模型、可托嘉奖模型范畴的研究工作。

研究人员上述两点先验进行了实验考验,发明它们在多步猜测场景中均不成立。

论文通信作者林宙辰,现任北京大年夜学智能学院、通用人工智能全国重点实验室传授。他的研究范畴包含机械进修和数值优化。他已揭橥论文360余篇,谷歌学术引用跨越42,000次。他是IAPR、IEEE、AAIA、CCF和CSIG会士,多次担负CVPR、NeurIPS、ICML等会议的Senior Area Chair,现任ICML Board Member。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

研究人员也对模型输出的猜测序列进行了可视化分析。成果注解,基于均方误差练习的模型在周期性时光序列中广泛存在振幅紧缩、峰值被抹平以及拐点响应滞后的现象。引入QDF后,模型在峰值地位、周期相位以及经久趋势稳定性方面均表示出更高一致性,时光构造获得了更完全的保存,解释QDF有效练习模型尊敬将来不应时光点之间的整体关系。

参考链接:https://zhouchenlin.github.io/

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

北大年夜林宙辰团队论文:从数据中自适应进修时序猜测损掉丨ICLR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部