本文作者:访客

微软重磅发布Phi-4推理模型,小型AI挑战大模型霸主

访客 2025-05-01 16:04:46 72414
微软重磅发布Phi-4推理模型,小型AI挑战大模型霸主摘要: 5月1日消息,微软昨日(4月30日)发布Phi-4-reasoning系列推理模型,通过监督微调Phi-4,并利用o3-...
5月1日消息,微软昨日(4月30日)发布Phi-4-reasoning系列推理模型,通过监督微调Phi-4,并利用o3-mini生成的高质量“可教导”提示数据集训练,专为复杂推理任务设计。援引博文介绍,微软本次共推出Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning三款模型,官方称该系列模型不仅延续了小型模型的高效特性,还在推理能力上实现重大突破。
该系列模型通过推理时间扩展(inference-timescaling)技术,擅长处理需要多步骤分解和内部反思的复杂任务,尤其在数学推理和代理型应用中表现突出,具备媲美大型前沿模型的潜力。Phi-4-reasoning是一款拥有140亿参数的开源推理模型,通过监督微调(SupervisedFine-Tuning,SFT)Phi-4,结合OpenAIo3-mini的高质量推理演示数据,并充分利用额外计算资源,生成详细的推理链条。
Phi-4-reasoning-plus增强版通过强化学习(ReinforcementLearning,RL)进一步提升性能,tokens用量比标准版多1.5倍,支持更高精度。
两款模型在数学推理和博士级科学问题测试中,均超越OpenAIo1-mini和DeepSeek-R1-Distill-Llama-70B,甚至在AIME2025(美国数学奥林匹克资格赛)中击败6710亿参数的DeepSeek-R1满血模型。Phi-4-mini-reasoning专为计算资源有限的环境设计,是一款基于Transformer的紧凑型语言模型,优化用于数学推理。
该模型通过DeepSeek-R1生成的合成数据微调,能在低延迟场景下提供高质量的逐步问题解决方案。这款模型覆盖从中学到博士级的百万级多样化数学问题,非常适合教育应用、嵌入式辅导和边缘设备部署。在多项数学基准测试中,其3.8亿参数的表现超越OpenThinker-7B和Llama-3.2-3B-instruct等更大模型,甚至在部分测试中接近OpenAIo1-mini的水平。

微软重磅发布Phi-4推理模型,小型AI挑战大模型霸主

阅读
分享