阶跃星辰发布多模态理解大模型Step-1o Vision 节前还将上新更多模型

《科创板日报》1月21日讯（记者黄心怡）既发布推理模型Step R-mini之后，阶跃星辰再发布Step-1o Vision多模态理解大模型。

据了解，Step-1o系列是阶跃星辰研发的端到端文本、视觉、语音三模态生成理解一体化模型。一个月前，阶跃星辰发布了1o家族的首个模型Step-1o Audio，这也是国内首个千亿参数端到端语音大模型。

在Step-1o Vision多模态理解大模型上线的同时，Step-1o Audio语音模型能力也迎来升级。相对于Step-1V系列多模态理解模型，Step-1o Vision在视觉识别、感知、指令跟随、推理等方面进行了提升。而升级后的Step-1o Audio则情商更高，声音更自然，支持多语种及方言理解，同时实现了更低的时延。

在LMSYS Org发布的大模型竞技场Chatbot Arena最新榜单中，Step-1o Vision在视觉领域位列中国大模型第一，超过所有国内大模型公司。

同时，在国内的大型模型评估平台“司南”（OpenCompass）多模态模型评测实时榜单中，位列第一。

在实际测试中，Step-1o Vision能够识别复古插画中的“个人交通工具”、“未来城市”等关键词，并翻译了小字的意大利语。 

上传了一张挤在一块儿的幼年猫科动物图，Step-1o Vision识别了动物数量和品种，并可以进行互动。  

在下面这张图中，模型能通过表格、logo等元素识别出对应的软件工具，并理解了其中黑色幽默的表达方式，将软件分成了五个等级，还对每个层级的软件进行了介绍。

Step-1o Vision还可以识别出图中是用铰链连接的三个手机，而非真正的折叠屏手机。

《科创板日报》获悉，Step系列将在春节前继续推出更多通用大模型。