OpenAI最近的新模型o1大家关注了吗?体验了一下雀食功能强大,逻辑和推理能力基本碾压GPT4o。研究了一下OpenAI给的技术博客,o1采用的是大模型+强化学习的策略,通过强化学习进行训练,成功突破LLM推理极限。这种策略一直以来都挺火,结合了俩热点,不仅实现了更高效的学习和更强的泛化能力,也减少了训练成本,提高系统的整体性能。目前这个方向的研究主要围绕四个技术路线展开:LLM 作为信息处理者、LLM 作为奖励设计者、LLM 作为决策者、LLM 作为生成者。最近也有了不少阶段性的成果,比如ICLR 2...【查看原文】