|

新车库
2000活跃值=1葫芦

首页 > 新车性能 > 新车性能 > 突破后训练瓶颈？Meta超级智能实验室力作：CaT解决RL监督难题

突破后训练瓶颈？Meta超级智能实验室力作：CaT解决RL监督难题

发布时间：2025-09-22 11:46:49

AI 领域，大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调，或通过可验证的程序化检查器提供奖励。

这就带来一些问题，目前许多有价值的任务可能同时缺乏这两种资源。例如在不可验证的场景中（临床、自由对话和创意写作），可能存在多个有效答案，确定性规则检查难以实施。

在这种情况下，实践者往往只能依赖（i）繁琐的标注流程，或（ii）通过另一个 LLM 对自由形式输出进行粗略奖励。

然而，当后训练缺乏真实标注时，学习信号从何而来？

为了回答这一问题，来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想：

推理计算是否可以替代缺失的监督？

本文认为答案是肯定的，他们提出了一种名为CaT（Compute as Teacher）的方法，核心思想是把推理时的额外计算当作教师信号，在缺乏人工标注或可验证答案时，也能为大模型提供监督信号。

结果显示，推理时直接应用 CaT显著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能，即使在不可验证领域（MATH-500 最高提升 27%；HealthBench 提升 12%）。结合强化学习的CaT（CaT-RL）可进一步获得增益（最高提升 33% 和 30%），训练后的策略甚至能超越初始教师信号。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“新车库用户上传并发布"，本平台仅提供信息存储服务。

下一篇:7亿人每周狂发180亿条消息！OpenAI首次揭秘ChatGPT最火用途

上一篇:人单合一20周年再进化，“组织智能”成为新蓝图

新车性能更多>>

铭凡MS-S1 MAX桌面AI超算中心测评国补叠加限时直降，这篇华为平板上车攻略不容错过苹果M系列芯片只用五年便逼近AMD在笔记本市场的占有率 2025年度国内旗舰销量排名出炉，苹果才是真正赢家一加Nord 6手机跑分曝光：骁龙8s Gen 4芯片、12GB内存荣耀Magic8 Pro Air评测：Pro在前 Air在后淘宝天猫将上线售后AI假图识别模型，治理AI造假骗退款天猫超市联手菜鸟年货节再提速，杭州成为全国首个全城闪购4小时达城市谷歌前CEO：欧洲不投钱，就用中国的喽 Meta新模型要来了，Llama 4锅谁来接？1300多位作者联合报告来了 249元起的工业级风扇，有多强？苹果在iOS 26.3测试新的App Store广告样式，用户更难以分辨荣耀方飞透露Magic8 Pro Air青海湖电池有黑科技用户猛增、估值暴涨，一款App爆火又消失的120小时马斯克点火全球最大超算，首个1GW狂飙奇点！6万亿Grok 5在训来伊份年度预亏1.7亿元，拟用不超10亿元买理财专家称零食品牌业绩分化明显马斯克称特斯拉基本完成AI5芯片设计已开始开发下一代AI6 迟到了16年，利比亚商人收到2010年订购的一批诺基亚手机 2025年Q4中国手机市场出货量苹果第一全年海外手机市场荣耀增速第一苹果连续三年稳居全球第一！iPhone 17系列创下历史记录矩阵营销是什么？为什么越来越多品牌选择矩阵营销？仅用10天？Anthropic最新智能体Cowork的代码竟然都是Claude写的一加Turbo 6搭载9000mAh巨量电池 2699元起！荣耀Power2登场：超强防水、两天续航、电梯信号满格摩托罗拉新设备曝光：AI感知伴侣造型亮眼，手机赛道要变了？苹果2026年首款新品！AirPods Pro 3马年特别款发布 1899元一周手机畅销榜更新：华为Nova15排名第九，第一名继续遥遥领先 2019-2025年埃安维修手册埃安UT 埃安V 埃安RT 埃安S MAX 埃安Y 埃安S 噪音大油耗高，为何我还推荐领克01？ 2026款雷克萨斯LX美哭！白色车身太绝，气场全开谁能拒绝？

Copyright 2012-2025 新车库版权所有京ICP备2012061759号-1