Kimi创始人杨植麟：Scaling laws依然有效强化学习是重点

《科创板日报》11月17日讯（记者黄心怡） 在月之暗面Kimi Chat上线一周年之际，Kimi发布了新一代数学推理模型k0-math模型，以及包含了k0-math强化模型的Kimi探索版，未来几周将会分批陆续上线Kimi网页版和Kimi智能助手APP。

“如果说长文本是月之暗面登月的第一步，那么提升模型深度推理能力则是第二步。”月之暗面创始人杨植麟在接受包括《科创板日报》在内的媒体采访时表示。

除数学推理模型外，杨植麟透露，几个多模态能力也在内测中。

作为炙手可热的AI独角兽公司，近日杨植麟陷入一场仲裁纠纷，并面临人才流失的质疑。

对此杨植麟回应称，并没有人才流失，而是主动选择做了业务的减法。

“先聚焦，然后全球化，需要更耐心一点。我们不希望把团队扩那么大，这对创新的影响是有致命性的伤害。如果想把团队保持在一定的规模，那么最好的方式是业务上做一些减法。”

据悉，kimi每月的活跃用户规模已经达到3600万。谈及用户投流策略，杨植麟表示最关键的提升用户留存，这是目前最核心的任务，对此没有上限的限制。

“百模大战”已经经历了一年多时间，业界的焦点从卷模型转向了卷应用。此前有消息称，一些大模型企业放弃了预训练模型,业务重心转向AI应用。

对于预训练大模型未来发展，杨植麟认为，预训练大模型还有迭代空间。“预计还有半代到一代的模型的空间会在明年释放出来，我觉得在明年，业内领先的模型会把预训练做到一个比较极致的阶段。”

▌Scaling laws依然有效但需要更好的方法

大模型的Scaling laws，即规模法则，是当前AI圈不少人所信奉的定律。所谓Scaling laws是相信“大力出奇迹”，随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,

杨植麟认为，“Scaling”对AI而言是不变的关键词。“支撑AI技术在过去几年发生的进展，基本上可以归功于一个词是Scaling。”

不过，杨植麟表示，Scaling并不意味把模型做得更大就好，而是要找到有效的方法来Scale，比如更好的数据和方法。

“我们接下来会越来越关注基于强化学习的方法来Scale。我们认为，接下来AI发展的方向，还是持续地Scale，只是Scale的过程不一样，是更多的强化学习，在强化学习的过程中生成更多的数据来做。”

杨植麟把AI的发展比作荡秋千，会在两种状态之间来回切换。“一种状态是算法数据已经完备了，但是算力不够，这就要求做更多的工程，把基础设施做得更好，就能够持续的提升。从transformer诞生到GPT4，更多的矛盾就是怎么能够Scale，但在算法和数据上可能没有本质的问题。”

但是随着算力扩展到一定的规模，这时算力的增加很难再直接提升模型的质量。

“这时的状态是，你会发现再加更多的算力，并不一定能看到直接的提升。因为核心是没有高质量的数据，小几十G的token是人类互联网积累了20多年的上限。于是，要通过算法的改变，来释放Scaling的潜力，所有的好算法是跟Scaling做朋友，它就会持续变得更好。”

▌大模型需要提升思考能力

大模型的出现、AIGC的应用改变了人机交互方式，在不少业内展望中，在以大模型为代表的AIGC技术加持下，人机交互体验将彻底被重构。而杨植麟认为，在强调交互能力的同时，更应该注重大模型的思考能力。

“AI最重要的是思考和交互这两个能力。思考的重要性远大于交互，不是说交互不重要，交互是一个必要条件，但思考会决定上限。因此，接下来很重要的一件事是让AI具备思考的能力。”

最适合让AI锻炼思考的能力，无疑是数学场景。

“伽利略曾说过，宇宙是由数学这门语言书写而成的。它是整个宇宙的基石，很多规律只是通过数学来刻划的。而且好处是并不需要跟外界进行交互，相对来说比较严密的自成一体，它自己可以成为一个体系，这让数学成为AI学习这种思考能力的一种非常好的场景。”杨植麟称。

相比文字应用能力，大模型的数学能力一直存在较大的差距。

今年6月，上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示，三科总分420分，大模型最高分仅303分，其中语文、英语表现相对良好，数学全不及格。

杨植麟表示，目前的模型还是有一些局限性。“比如拿高考数学全国范围内最难的题去考大模型，现在有一定的概率会做错。但本身模型的能力提升是很快的，比如去年对高考题大概能做百分之二三十的准确率，但如今我们能做到90%的准确率。”

在现场的演示中，Kimi对2024AIME数学竞赛、高等数学题目进行了解答，通过用强化学习的方式来逼近更强的链路思考，来确保每一步的正确性，并且在得出答案，会像人类一样进行二次验算。

“当然，还有非常大的提升空间，但如果持续的做强化学习的Scaling，应该是可以能够在更多的场景完成长链路的思考、复杂的推理。还有很重要的一点，就是更多的泛化，把这种推理泛化到更多的任务里。”杨植麟称。

据悉，月之暗面计划在教育领域进行探索，并与Kimi搜索场景结合。“无论是K12、大学甚至竞赛，这里会有很多的场景可使用。我们还是希望把它更多的泛化，比如把强化学习的技术用在搜索场景里，跟Kimi探索版相结合，提升模型在搜索过程中的推理能力，做更复杂的搜索。”

▌聚焦核心业务不要把自己变成大厂

近日来，关于月之暗面缩减出海项目、聚焦Kimi的消息在市场上流传。杨植麟透露，大概今年三、四月份，做出了聚焦Kimi，对业务做减法的决定。

“这一是基于美国市场的判断，二是基于自身的观察。我们主动选择做了业务的减法，应该聚焦在上限最高的事情，然后做好。”

杨植麟认为，创业团队的人数不能太多，而是要真正聚焦于把核心的创新能力做好。如果把自己变成大厂，就没有任何优势了。

“在国内大模型创业公司里，我们始终保持人数最少，始终保持卡和人的比例是最高的，这是非常关键的。我们不希望把团队扩那么大，因为人数扩张对创新的影响有致命性的伤害。如果你想把团队保持在一定的规模，那么最好的方式是业务上做一些减法。”

杨植麟透露，“一开始也尝试过比如说几个产品一块做，这在一定的时期内可能是有效的，到后来发现还是要聚焦，把一个产品做到极致是最重要的。比如三个业务一起做，就活生生把自己变成大厂，那会没有任何的优势。”

对于在大模型研发上，杨植麟表示，预训练大模型还有半代到一代的空间，预计明年预训练大模型就会达到比较极致的阶段，但重点会在强化学习上。此外，几个多模态的能力也在内测中。

谈及用户投流和商业化变现的平衡，杨植麟称，目前最核心的任务就是提升留存。“留存是一个重要的衡量指标，这对我们来说是最重要的。留存到多少会满意？我的回答是永无止境。”