幻方量化旗下AI公司DeepSeek一夜爆火,刷屏美国各大主流媒体和社交网站。
1月24号,一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称,现在Meta内部因为DeepSeek的模型,已经进入恐慌模式。这位Meta员工写道:“一切源于DeepSeek-V3的出现,它在基准测试中已经让Llama 4相形见绌。更让人难堪的是,一家‘仅用550万美元训练预算的中国公司’就做到了这一点。
甚至有投资者将英伟达周五下跌的原因指向DeepSeek的爆火。德国世界报知名市场评论员Holger Zschaepitz表示:“中国的DeepSeek可能代表对美国股市的最大威胁,因为该公司似乎以极低的成本构建了一个突破性的人工智能模型,并且无需使用尖端芯片。这让人质疑投入该行业的数千亿美元资本支出的实际效用。”
据了解,DeepSeek仅用2048块H800显卡、耗时两个月,就训出了一个6710亿参数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3,用了16,384块更强的H100显卡,花了54天。Deepseek的训练效率提升了11倍。
近期DeepSeek更是重大进展不断,1月20日,DeepSeek发布DeepSeek-R1模型,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版;1月25日,AMD宣布,已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上,该模型旨在与SGLang一起实现最佳性能。
中信证券研报指出,DeepSeek模型相比GPT4模型更小的参数量也意味着更低的推理成本,推理成本的降低,将是AI应用普及的前奏,正如4G提速降费给我国移动互联网产业提供了助力。预计模型性价比持续提升下,国内AI应用依托丰富生态和成熟流量加速各领域落地。其中,Agent模式有望以更长的任务流程、更好的场景理解、更高的自主能力,成为所有互联网用户的数字助手,在企业管理、教育、办公、金融等领域展现应用价值。
据财联社不完全统计,A股中目前与DeepSeek相关的公司有: