国内多数模型训练使用中文数据占比超60%_中国城市网

首页

国内多数模型训练使用中文数据占比超60%

2025年08月19日 15:15:12 人民网－人民日报

本报北京8月18日电（记者王云杉）记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

《人民日报》（ 2025年08月19日 06 版）

(责编：赵欣悦、袁勃)

责任编辑：乔妙妙

token大数据

热点新闻

2025世界人形机器人运动会举行

中国城市报

着力建设习近平文化思想实践新高地奋力谱写中华民族现代文明巴蜀新篇章

四川日报

新增2.14万亿元流向A股？多家券商解读

21经济网

“红色物业”助力社区与城市治理现代化

浙江嵊州：厚植先进制造业“生态圈”

新华社

SHEIN第二届匠心工具日：已研发超170项创新工具助供应商精益升级

世界最大直径水下盾构隧道贯通

中国新闻网

新闻推荐

国内多数模型训练使用中文数据占比超60%

人民网－人民日报

全国青少年科技创新大赛进行大幅改革

人民网－人民日报

北京亦庄综合保税区顺利通过预验收打造全国首个新质生产力综保区

人民网－北京频道

人民建议丨赋能城市发展，上海网友“支招”提升城市软实力

人民网－上海频道

从“身首复位”到“人工心续航” 致敬身怀绝技的中国医生

人民建议丨河南平顶山落实防暑措施为环卫工人撑起“清凉伞”

人民网－河南频道

“趣”打卡丨新手滑雪选“单”还是选“双”？

人民网

关于我们

报社简介联系我们

城市服务

广告服务诚招英才

版权合作商务合作

报社业务

报社公告品牌监督

Copyright © 2016-2026 by www.zgcsb.com.

《中国城市报》社有限公司中国城市网版权所有

京ICP备15005404号-4 京公网安备 11010502043907号