国内多数AI模型训练使用的中文数据占比已超60%

国内多数AI模型训练使用的中文数据占比已超60%
更新于2025-09-11

国内多数AI模型训练使用的中文数据占比已超60%

2025-08-22 09:00:28 来源:新华网

  中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

  国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

  “在人工智能时代,Token,也就是大家通常所说的词元,是处理

消耗 1 篇笔墨文库配额,会员有效期内无限次查看