网问答>>训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
问题
已解决

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

时间:2026-02-03 13:09:04
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线
最佳回答
斯坦福大学等机构提出的新方法 s1,仅用 1000 个样本训练并结合测试时间扩展技术,使模型推理性能超越 OpenAI 的 o1-preview。s1 方法的核心创新测试时间扩展(Test-Time Scaling):通过在模型推理阶段(而非训练阶段)引入额外计算,提升性能。具体实现为“预算强制”(Budget Forcing),即通过控制模型生成思考 token 的数量(如强制提前结束思考或延长思考)引导模型优化答案。小样本训练:构建仅含 1000 个问题的数据集 s1K,并匹配高质量推理轨迹。使用该数据集对基础模型(Qwen2.5-32B-Instruct)进行监督微调,仅需 16 块 H100 GPU 训练 26 分钟,生成模型 s1-32B。性能表现竞赛数学基准测试:在 AIME24(美国数学竞赛)和 MATH500 基准上,s1-32B 的表现比 o1-preview 高出 27%,显著优于 DeepSeek R1 和 QwQ-32B-preview 等模型。科学问题基准测试:在 GPQA Diamond(博士级科学问题)上,s1-32B 同样展现竞争力,验证其跨领域推理能力。扩展性验证:通过预算强制技术,s1-32B 的性能随测试时间计算资源增加而提升,但最终趋于平缓,表明需平衡计算量与推理效率。技术优势样本效率极高:仅用 1000 个样本即达到领先性能,而 DeepSeek R1 需数百万样本训练,OpenAI o1 的训练样本量更大。序列扩展优于并行扩展:实验表明,通过预算强制实现的序列扩展(后续计算依赖中间结果)比并行扩展(独立计算后投票)更有效。完全开源:模型权重、推理数据和代码均公开,促进可复现性和社区协作。方法细节预算强制的实现:强制提前结束思考:通过追加结束 token 分隔符(如“Final Answer:”)限制思考 token 数量,使模型快速输出当前最佳答案。延长思考时间:抑制结束 token 分隔符生成,并在推理轨迹后追加“Wait”字符串,鼓励模型反思并修正答案。数据集构建:s1K 数据集的 1000 个问题按难度、多样性和质量筛选,并匹配详细推理轨迹,确保训练数据的高信息密度。实验与评估训练配置:使用 PyTorch FSDP 框架在 16 块 H100 GPU 上微调 Qwen2.5-32B-Instruct,耗时 26 分钟。评估基准:AIME24:30 道美国数学竞赛题,覆盖算术、代数、几何等领域。MATH500:包含不同难度的竞赛数学问题。GPQA Diamond:198 道博士级科学问题,涉及生物学、化学和物理学。对比模型:包括 OpenAI o1 系列(闭源)、DeepSeek R1(开源)、QwQ-32B-preview 等。结论与影响s1 方法通过测试时间扩展和小样本训练,为 AI 推理效率提供了新范式,降低对算力和数据规模的依赖。其开源特性将推动学术界和工业界探索更高效的模型优化路径,加速通用人工智能(AGI)的研究进展。
时间:2026-02-03 13:09:10
本类最有帮助
Copyright © 2008-2013 www.wangwenda.com All rights reserved.冀ICP备12000710号-1
投诉邮箱: