您的位置：首页 > 要闻

国内多数模型训练使用中文数据占比超60%

2025年08月19日 15:15:12 来源：人民网－人民日报

本报北京8月18日电（记者王云杉）记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

《人民日报》（ 2025年08月19日 06 版）

(责编：赵欣悦、袁勃)

责任编辑：乔妙妙

token
大数据

欢迎关注中国城市报微信号

分享到：

新闻推荐

新闻图集

更多>

中国城市报
抖音号

抖音号
dyrjb32my0kv
官方微信
官方微博
观城者微信
观城者微博
官方快手号

1417597972

视频专区

更多>

网站备案号：京ICP备15005404号-4 京公网安备 11010502043907号
互联网新闻信息服务许可证10120190005 举报邮箱: jubao@people.cn 违法和不良信息举报电话: 010-65367114 010-65363263 地址：北京市金台西路2号人民日报社邮编 100733

国内多数模型训练使用中文数据占比超60%

新闻推荐

新闻图集

中国城市报
抖音号

抖音号
dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

5G增强版上线我国首个海上采油平台5.5G站点开通

7岁女孩用防晒喷雾后接近白肺

黑神话悟空取景地门票销量暴涨3倍

中欧班列东通道通行量突破3万列

关于我们

城市服务

报社业务

国内多数模型训练使用中文数据占比超60%

新闻推荐

新闻图集

中国城市报抖音号

抖音号dyrjb32my0kv

官方微信

官方微博

观城者微信

观城者微博

官方快手号

1417597972

视频专区

5G增强版上线 我国首个海上采油平台5.5G站点开通

7岁女孩用防晒喷雾后接近白肺

黑神话悟空取景地门票销量暴涨3倍

中欧班列东通道通行量突破3万列

关于我们

城市服务

报社业务

中国城市报
抖音号

抖音号
dyrjb32my0kv

5G增强版上线我国首个海上采油平台5.5G站点开通