蚂蚁集团依靠国产半导体来训练人工智能模型,以降低成本并减少对受限美国技术的依赖,这是知情人士透露的信息。
该公司已使用国内供应商的芯片,包括与阿里巴巴和华为技术有关的芯片,使用专家混合(MoE)方法训练大型语言模型。据称,这些结果与使用英伟达H800芯片产生的结果相当。虽然蚂蚁继续为其部分人工智能开发使用英伟达芯片,但一位消息源表示,该公司正越来越多地转向AMD和中国芯片制造商的替代方案来开发最新模型。
这一发展标志着蚂蚁在中美科技公司之间日益激烈的人工智能竞赛中的深度参与,尤其是在公司寻找训练模型的成本效益方法时。对国产硬件的尝试反映了中国企业更广泛地努力绕过出口限制,这些限制阻止了获取高端芯片,如英伟达的H800芯片,尽管它不是最先进的,但仍是中国组织可获得的更强大的GPU之一。
蚂蚁发表了一篇描述其工作的研究论文,指出在某些测试中,其模型的表现优于Meta开发的模型。彭博新闻最初报道了这一事件,但尚未独立验证公司的结果。如果模型表现如声称的那样,蚂蚁的努力可能代表了中国降低运行人工智能应用成本并减少对外国硬件依赖的一步。
MoE模型将任务分成由不同组件处理的较小数据集,并在人工智能研究人员和数据科学家中引起了关注。谷歌和杭州的初创公司DeepSeek已使用这种技术。MoE概念类似于拥有一个专家团队,每个人处理任务的一部分,以使模型生成过程更加高效。蚂蚁拒绝就其硬件来源的工作发表评论。
训练MoE模型依赖于高性能GPU,这对于较小的公司来说可能太昂贵。蚂蚁的研究focused于降低这一成本壁垒。论文标题后缀明确了目标:在"没有高端GPU"的情况下扩展模型。
蚂蚁采取的方向以及使用MoE来降低训练成本,与英伟达的方法形成对比。首席执行官黄仁勋表示,即使随着像DeepSeek R1这样更高效的模型的推出,对计算能力的需求仍将持续增长。他的观点是,公司将寻求更强大的芯片来推动收入增长,而不是通过更便宜的替代方案来削减成本。英伟达的战略仍然专注于构建具有更多核心、晶体管和内存的GPU。
根据蚂蚁的论文,使用传统高性能硬件训练一万亿个代币(人工智能模型用于学习的基本数据单位)的成本约为635万元人民币(约88万美元)。该公司优化的训练方法通过使用低规格芯片,将成本降低到约510万元人民币。
蚂蚁表示计划将以这种方式生产的模型——Ling-Plus和Ling-Lite应用于医疗和金融等行业人工智能用例。今年早些时候,该公司收购了好大夫网,这是一个中国在线医疗平台,以推进蚂蚁在医疗保健领域部署基于人工智能的解决方案的雄心。它还运营其他人工智能服务,包括名为智小宝的虚拟助手应用和名为马小财的金融咨询平台。
"如果你找到一个攻击点击败世界上最好的功夫大师,你仍然可以说你击败了他们,这就是为什么现实世界的应用很重要,"北京人工智能公司盛商科技的首席技术官余鲁宾说。
蚂蚁已将其模型开源。Ling-Lite有168亿个参数——这些设置有助于确定模型的功能,而Ling-Plus有2900亿个参数。作为对比,根据《麻省理工科技评论》的估计,闭源的GPT-4.5大约有1.8万亿个参数。
尽管取得进展,但蚂蚁的论文指出,训练模型仍然具有挑战性。在模型训练期间对硬件或模型结构进行微小调整有时会导致不稳定的性能,包括错误率的波动。
(图片来自Unsplash)
另请参阅:DeepSeek V3-0324在开源首发中领先非推理人工智能模型

想要从行业领袖那里了解更多关于人工智能和大数据的信息吗?请查看在阿姆斯特丹、加利福尼亚和伦敦举行的人工智能与大数据博览会。这个全面的活动与其他领先活动同地举办,包括智能自动化大会、区块链大会、数字转型周和网络安全与云计算博览会。
探索由TechForge提供支持的其他即将到来的企业技术活动和网络研讨会,请点击此处。
这篇文章最初发表在蚂蚁集团使用国产芯片训练人工智能模型并降低成本,首发于人工智能新闻。