• 最新
  • 热门
  • 所有
  • 期货市场
  • 外汇动态
  • 股票行情
今日pd999钯金回收价格查询(2025年06月27日)

「数据是 AI 的新战场」 AI 高质量数据集交易爆发式增长 需求集中于行业知识底座构建

2025 年 7 月 6 日
【财经分析】全球首个文化用纸期货期权品种正式上市,首日交易怎么做?

【财经分析】 全球首个文化用纸期货期权品种正式上市,首日交易怎么做?

2025 年 9 月 10 日
英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」

英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」

2025 年 9 月 10 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

ETF 今日收评 | 多只黄金股相关 ETF 涨超 5%,半导体相关 ETF 跌幅居前

2025 年 9 月 10 日
半导体设备年会将至,新凯来将参加,科创半导体ETF(588170)获资金逆势加仓

江苏常州金店周五 (9 月 5 日) 黄金价格 1028 元/克

2025 年 9 月 10 日
第19届杭州亚运会纪念币全套多少钱(2025年9月4日)

上市公司从亏损到单鸡盈利 3-4 元 黄羽肉鸡行业迎来盈利修复

2025 年 9 月 10 日
申万宏源王胜:驱动市场向上的因素未发生任何质变

申万宏源王胜:驱动市场向上的因素未发生任何质变

2025 年 9 月 10 日
锇回收价格多少钱一克(2025年09月01日)

时隔 6 年,东兴证券公开招聘首席经济学家,研究所人员与佣金收入双降,能否借新鲜血液扭转困局?

2025 年 9 月 10 日
AI抢饭碗还是送外挂?好莱坞大咖们吵翻了!(深度观察)

AI 抢饭碗还是送外挂?好莱坞大咖们吵翻了!(深度观察)

2025 年 9 月 10 日
固态电池生产设备企业上半年订单激增

突袭多哈内幕曝光!以色列跨境追杀战术重大升级

2025 年 9 月 10 日
大厂外派员工,在重复中被消耗

大厂外派员工,在重复中被消耗

2025 年 9 月 10 日
OpenAI有意在AI基础设施建设上 扩大与三星电子和SK海力士的合作

OpenAI 有意在 AI 基础设施建设上 扩大与三星电子和 SK 海力士的合作

2025 年 9 月 10 日
老铺黄金,为什么总想跟黄金划清关系?

老铺黄金,为什么总想跟黄金划清关系?

2025 年 9 月 10 日
禾湖财经
  • 登录
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
2025 年 9 月 10 日 星期三
没有结果
查看所有结果
  • 首页
  • 24 小时
  • 行业新闻
  • 股票行情
  • 基金快讯
  • 期货市场
  • 禾湖观察
  • 期货研报
  • 国际金融
  • 外汇动态
  • 贵金属
没有结果
查看所有结果
禾湖财经
没有结果
查看所有结果
首页 24 小时

「数据是 AI 的新战场」 AI 高质量数据集交易爆发式增长 需求集中于行业知识底座构建

2 月 之前
在 24 小时
阅读时间: 1 mins read
0 0
A A
今日pd999钯金回收价格查询(2025年06月27日)

猜您喜欢

「双方和解,银行将支付10万元」 重病老人银行取款身亡最新进展

「双方和解,银行将支付 10 万元」 重病老人银行取款身亡最新进展

4 月 之前
0

新华社权威快报|我国将开展市场准入壁垒清理整治行动

4 月 之前
0

财联社 7 月 5 日讯 (记者 付静)AI 产业从通用模型向行业垂直应用快速融合下沉的阶段演进,人工智能三大基本要素之一数据,面临的高质量数据不足问题却凸显。

财联社记者最新从业内获悉,目前各大模型企业迫切希望获得更多更好的高质量数据集,需求集中于头部企业行业知识底座构建,人工智能高质量数据集的需求量、交易量激增,已成为数据流通最活跃的领域。不过,高质量数据集的建设、流通环节均面临诸多问题,目前数据交易所并非模型语料最主要的采购途径。

需求、交易爆发式增长

「我们从市场流通的角度做了一些分析,认为人工智能数据集已经成为数据流通最活跃的领域。去年开始,高质量数据集呈现了爆发式的增长态势,主要需求就是模型训练数据。24 年人工智能数据只占我们交易量的 10%,现在累加起来已经接近 80%,说明包括实际交易量都在呈现爆发式增长。」 正在举行的 2025 全球数字经济大会上,北京国际大数据交易所 (以下简称 「北数所」) 董事长李振军介绍。

高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023 年 12 月 31 日,国家数据局等 17 部门联合印发的 《「数据要素×」 三年行动计划 (2024-2026 年)》 提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年 4 月 30 日,《高质量数据集建设指南 (征求意见稿)》 发布,高质量数据集建设提速。

据了解,北数所已深度服务了多家国内人工智能头部企业,前述数据的主力购买者正是 AI 头部企业。「他们买数据主要是在构建行业的知识底座,模型的训练是先构建行业知识底座,才能再进行行业的细的参数调优。」 李振军称。

数据交易网 CEO 张瑶在接受财联社记者采访时表示,前述数据需求主要以行业垂直模型为主。「很多大厂都做了完整的通用模型解决方案产品,对于行业垂直模型来说,核心点在于对于细分行业的理解程度。」

大会期间,亦有信通院人士分析称,人工智能对于数据集的需求主要可分为多模态、具身智能、思维链、长视频等四类需求。

财联社记者最新获悉,目前北数所已交付的人工智能高质量数据集数据规模达 1814TB,总交易量接近 2500TB,覆盖 20 个应用模型场景。北数所为模型企业提供了 475 个高质量数据集,已达成交易 171 个 (完成了实际交付和现金结算),数据源覆盖行业 32 个。

不过张瑶也表示,「对于模型语料的需求程度,不同细分行业是不一样的。」 其认为,需考虑各行业的数字化完成水平,如金融、医疗等行业原本的数字化完成度较高、从业企业数量也多,相对来说行业基础数据就比较全,进而通过标注、治理等工作后,能提供的数据集产品也就比较丰富;但其他数字化能力相对低的行业 (如农业) 基础数据较少,形成高质量的数据集还需要一定前期准备工作。

不仅北数所,截至今年 5 月初,贵阳大数据交易所已发布 939 个高质量数据集。6 月 26 日,深圳市政务服务和数据管理局印发 《深圳市人工智能语料券专项资金操作规程》 的通知显示,为促进人工智能语料数据开放和交易,深圳每年设置最高 5000 万元作为语料券专项资金,其中要求申报企业应通过数据交易所完成语料采购。

数交所并非语料最主要采购途径

不过据财联社记者了解,数据交易所并非最主要的模型训练数据采购途径。

「人工智能语料采购大部分不是实际通过交易所来完成的,但各地的数据交易所目前承担着市场价值发现的职能,对于数据供需双方的业务开展起到一定推动作用。之前有机构测算,全国数据交易市场超过 95% 的交易都来源于非数据交易所参与的场景,但仍然有不少机构选择与数据交易所合作,对于数据要素市场建设来说,交易所是一个很重要的基础设施提供方,但具体的商业模式还需要进一步探索。」 张瑶表示。

对此,据前述信通院人士分析,目前高质量数据集建设层面面临不小的挑战。其一,目标定位相对模糊,「其实很少有人为真正模型需要什么样的数据去做深入的研究,仅限于对已有数据加工处理」;其二,实施路径碎片化,「从数据资源变成高质量数据集,中间有非常长的加工链条,需要管理机制、技术手段协同、专业化人才的加入」;其三,技术底座薄弱,技术工具链条相对来说还较匮乏。

另据财联社记者了解,高质量数据集流通层面也面临着寻源难、评价难、协同难等问题。

与此同时,包括大模型 「六小虎」 相关负责人在内的多位受访者向财联社记者介绍了模型训练所需语料数据常见的获取方式:一是互联网公开数据 (占最大比例,但比例在下降),二是购买有版权的数据,三是厂商间通过置换资源方式获取语料,四是建设采集-清洗-加工-治理的数据生产线自行生产私域语料数据。

某基座大模型相关负责人透露,其公司内部数据清洁流程主要有以下步骤:包括明确数据责任人,端到端管理数据全生命周期流程;明确数据标准,数据存入数据仓之前有哪些标准,各部门要形成共识;认证数据源头,须符合唯一性、完整性等要求;验收数据入库之后的质量;使用前对原数据进行登记等。

据悉,厂商还会使用蒸馏数据和合成数据,即由机器生成的符合真实世界客观发展规律的数据。有媒体此前报道,Epoch AI 研究人员预测,到 2028 年左右,用于训练人工智能模型的典型数据集的规模将达到公共在线文本的估计总存量。换言之,人工智能训练数据或在 3 年左右时间内耗尽。

有专家在大会上表示,数据是 AI 的新战场,AI 正在从 model-centric 到 data-centric 转变,要真正使 data-centric 落地,数据基础设施建设是下一个关键点。‌

「将来人工智能的业态是,做模型的人非常少,90% 以上从业人员都是做数据产线,包括数据的采集、生成、AI-ready 数据的生产。」 前述专家进一步展望。

此外,财联社记者采访获悉,当前大模型语料主要面临质量参差不齐、产权不清晰、加工方式不统一、垂类领域缺口大、获取成本高、数据合规性等制度待完善在内的痛点。

例如在成本方面,语料获取过程主要面临合规成本,而加工过程主要是专家成本。

「数据标注基地以前是做通用人工智能训练数据,现在侧重垂类行业,基于自动标注等技术的演进,已经从粗放式标注到了精细化标注阶段,但在法律等非常窄非常垂的领域,交叉型人才还是很稀缺的。」 一位供职于数据交易所的人士告诉记者。

需要注意的是,不同行业数据面临的问题也存在差异。如政务领域,有上市公司人士告诉财联社记者,数据分散与壁垒、政务数据标准化不足、敏感信息处理难题、政策时效性问题、地方性政策覆盖不足等问题急需得到解决。

相关 文章

【财经分析】全球首个文化用纸期货期权品种正式上市,首日交易怎么做?
24 小时

【财经分析】 全球首个文化用纸期货期权品种正式上市,首日交易怎么做?

6 分 之前

新华财经北京 9 月 10 日电 (记者 王小璐)10 日,全球首个文化用纸金融衍生品——胶版印刷纸期货及期权正式在上海期货交易所挂牌交易。这是我国继纸浆期货后,在造纸产业...

英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」
行业新闻

英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」

12 分 之前

文 | 海豚投研在最近博通带着 ASIC 高歌猛进的情况下,英伟达为首的 GPU  阵营明显是遇到了挑战。博通的股价在财报发布的当天上涨将近 ...

  • 热门
  • 评论
  • 最新
老凤祥回收黄金多少钱一克(2025年6月27日)

国海证券策略首席分析师胡国鹏:下半年 A 股牛途在望,配置核心在科技成长

2025 年 8 月 1 日
铑多少钱一克(2025年06月27日)

人工智能+行动重磅发布!资金借道软件 ETF(515230) 布局,连续两日吸金近 2 亿元

2025 年 8 月 1 日
郑州宝泉钱币周五(6月27日)银条价格8.79元/克

老凤祥黄金价格今天多少一克 (2025 年 07 月 30 日)

2025 年 8 月 1 日
Lesson 1: Basics Of Photography With Natural Lighting

The Single Most Important Thing You Need To Know About Success

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

Lesson 1: Basics Of Photography With Natural Lighting

5 Ways Animals Will Help You Get More Business

【财经分析】全球首个文化用纸期货期权品种正式上市,首日交易怎么做?

【财经分析】 全球首个文化用纸期货期权品种正式上市,首日交易怎么做?

2025 年 9 月 10 日
英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」

英伟达:Rubin CPX 登场!要和博通 ASIC「掰掰手腕」

2025 年 9 月 10 日
通信ETF(515880)午后反弹超3%,算力核心环节占比超77%,规模大幅攀升超115亿元

ETF 今日收评 | 多只黄金股相关 ETF 涨超 5%,半导体相关 ETF 跌幅居前

2025 年 9 月 10 日
  • 隐私政策
  • 联系我们
  • 关于禾湖
联系我们:+86 15388934451

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

没有结果
查看所有结果
  • Home
  • Tech

Copyright © 2025 长沙禾湖信息科技有限公司. 湘 ICP 备 2023006560 号-2

欢迎回来!

在下面登录您的帐户

忘记密码?

重置您的密码

请输入您的用户名或电子邮件地址以重置密码。

登录