新闻中心

地枭陈福遇害2次没死透

2026-02-10 11:13:17

来源:

《通义发布》QwenLo:ngL1 长上下文大型推理模型; 强在哪里

为了解决大型推理模型如何将 LRM 扩展至通过强化学习有效地处理和推理长上下文输入的难题,通义智文提出了 QwenLong-L1 框架,该框架通过渐进式上下文扩展将短上下文 LRM 适配到长上下文场景。具体而言,就是利用预热监督微调 (SFT) 阶段建立稳健的初始策略,然后采用课程引导的分阶段强化学习技术来稳定策略演化,并采用难度感知的回顾性采样策略来激励策略探索。

首先需要知道,它解决了什么问题?

虽然最近的大型推理模型 (LRM)(例如 OpenAI 的 o1)通过强化学习展现出了令人印象深刻的推理能力,但这些改进仅限于短上下文任务(约 4K 个 token)。

长上下文推理强化学习面临两大关键挑战:训练效率不理想,由于熵值降低较多导致奖励得分提升较慢;优化过程不稳定,由于较长输出的方差较大,导致 KL 散度波动较大。

挑战在于,如何扩展这些模型以处理长上下文输入(超过 12 万个 token)同时保持强大的推理能力仍未得到解决。这对于需要处理大量文档、进行深入研究或处理信息密集型环境的实际应用尤其成问题,因为在这些环境中,模型既需要从长上下文中检索相关信息,又需要执行多步推理。

它是如何解决这个问题的?

QwenLong-L1 是一个渐进式上下文扩展框架,该框架集成了群体相关强化学习算法、混合奖励机制和渐进式上下文扩展策略,能够稳定地从短上下文到长上下文的 LRM 进行自适应,并具备强大的上下文基础和多步推理能力,可以系统地将短上下文推理模型适应长上下文场景。

他们的方法包括三个关键组成部分:

首先,预热监督微调 (SFT) 阶段,用于建立强大的初始策略;

其次,课程指导的分阶段强化学习技术,在训练阶段逐步增加上下文长度以稳定优化;

第三,采用难度感知的回顾性抽样策略,优先考虑具有挑战性的样本,以鼓励策略探索。他们还实施了混合奖励机制,将基于规则的验证与 LLM 作为评判者的评估相结合,以平衡准确率和召回率。

主要发现是什么?

QwenLong-L1 在七个长上下文文档问答基准测试中取得了领先的性能,其中 32B 模型的表现超过OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗舰模型,甚至与 Claude-3.7-Sonnet-Thinking 的性能相当。研究表明,渐进式上下文缩放可以在训练过程中实现更高的熵并稳定 KL 散度,而强化学习则自然地培养了专门的长上下文推理行为,例如基础推理、子目标设定、回溯和验证,从而提升了最终性能。

为什么这很重要?

这使得 LRM 在需要大量上下文处理的实际应用中具有实用价值。这项研究为长上下文推理强化学习提供了首个系统性框架,解决了训练效率和优化稳定性方面的关键挑战。这一进展为人工智能系统打开了大门,使其能够进行自动化科学研究、分析长视频,以及处理复杂的信息密集型任务,这些任务需要上下文基础和对海量信息进行复杂的推理。

天火强光手电筒充电器:快速充电的秘密!

天火强光手电筒充电器的快速充电的秘密

快速充电技术是什么?

快速充电技术是一种提高电压和电流的方式,缩短充电时间的技术。天火强光手电筒的充电器采用先进的快速充电协议(如QC、PD等),可以短时间内为手电筒充入更多的电量。

快速充电的优势有哪些?

使用快速充电技术能够显著节省充电时间,尤其是需要频繁使用手电筒的情况。例如,原本需要4小时充满的电池,使用快速充电可能只需1-2小时。快速充电还可以提高设备的使用效率,更好地满足用户的需求。

快速充电对电池寿命有影响吗?

快速充电正常情况下不会显著影响电池寿命。天火强光手电筒的充电器设计时已考虑到电池的特点,采用智能调节充电电流的方式,以降低对电池的压力,延长电池使用寿命。

天火强光手电筒充电器与普通充电器有何不同?

天火强光手电筒充电器使用专业的快速充电芯片和高效的电源管理系统,实现更高的充电效率。与普通充电器相比,它能够更精准地控制充电过程,避免过充和过热现象,保证手电筒的安全和电池的健康。

用户使用快速充电时需要注意什么?

使用快速充电时,用户应确保使用原装或高质量的充电器和数据线,以避免因不兼容导致的充电问题。尽量通风良好的环境中充电,以降低设备发热的风险,确保安全。

孙颖莎王曼昱收视率打法李威妻子出庭痛哭自责没救死者李威妻子出庭痛哭自责没救死者偶遇林俊杰七七逛街华晨宇灭梦导师来了谢嘉怡称看着奶奶的房子被烧光张凌赫金靖去看刘宇宁演唱会法医刘良全程参与手术离世女婴尸检中国网络文学用户规模超5亿人近50℃高温侵袭南亚!中国今年也有“超热夏天”吗?

(内容来源:科技真探社)

作者: 编辑:曹雨萱

  • 越牛新闻客户端

  • 越牛新闻微信

  • 绍兴发布微信

  • 越牛新闻微博

  • 绍兴发布微博

爆料

新闻热线

0575-88880000

投稿信箱

zjsxnet@163.com