股票代码:301159.SZ 检验检测信息管理: 400-686-4199 数据资产管理: 400-643-4668 供应链管理: 400-629-4066

构建高质量数据集,夯实行业模型底座

2026-05-14

两部门联合印发的2026年“模数共振”行动通知明确提出,面向钢铁、汽车、医药等20个重点行业,分行业梳理数据资源,通过数据标注、知识工程等手段,提炼形成行业通识高质量数据集,并聚焦高价值场景构建行业专识高质量数据集。到2026年底,基本形成“数据—模型—场景应用”良性互促的循环,推动人工智能高水平赋能新型工业化。
然而,现实却是海量异构的图像、文本、音视频等多模态数据分散于各类系统中,结构化数据存于数据仓库,非结构化数据堆积在对象存储,面向AI的向量数据又依赖专门的向量数据库。这种割裂的存储方式造成数据冗余、架构复杂、协同效率低下,各类数据之间难以流动与融合,形成牢固的“数据孤岛”,严重制约了AI应用的快速开发与迭代。
那么,高质量数据集从何而来?三维天地从三个维度给出了答案。
 
一、核心方法:数据治理三阶五步法
 
高质量数据集的构建,首先需要一套完整的方法。三维天地深耕数据资产管理领域多年,提出“数据治理三阶五步法”,通过“盘、规、管、建、用”实现全域数据资产的可见、可控、可用、可信。
“盘”,是摸清家底,将分散于各系统的数据资源系统清查;“规”,是统一标准,破除各系统间的数据烟囱;“管”,是精细管控,实现数据全生命周期管理;“建”,是加工提炼,将原始数据转化为可用的高质量数据集;“用”,是赋能场景,让数据真正驱动业务决策。这一框架涵盖从战略解读、数据规范定义、清洗加工到应用运营的全生命周期管理,是各重点行业构建高质量数据集的“路线图”。
 
二、技术基座:多模态数据湖SW-DBLake
 
有了清晰的方法,还需要坚实的技术基座。2026年初,三维天地正式发布颠覆性的多模态数据湖产品——SW-DBLake,定位于AI时代面向多模态数据的统一治理底座,支撑全量数据分析与价值挖掘。
SW-DBLake以四大技术突破实现高质量数据集建设能力的体系化跃升。
第一,统一存储,终结数据碎片化。以Apache Lance为核心,原生支持向量数据与标量数据的统一存储,图片、文档、视频及其对应的向量化特征可作为整体无缝共存与管理。无需在对象存储、数据湖和向量数据库间来回搬运,数据一致性问题迎刃而解,存储与管理成本大幅降低。
第二,端到端多模态处理链路。从多样的数据源接入到批量导入或实时流式写入,无论图像、文本、音频、视频,均可轻松应对。内置强大的数据处理引擎,完成格式解析、元数据提取、质量清洗等任务,为后续AI就绪打下坚实基础。
第三,AI原生设计,开箱即用。深度融入AI基因,内置多模态特征提取与向量化能力,自动将各类内容转化为高维向量。无需额外构建复杂的特征工程管道,即可高效支撑RAG检索增强生成、多模态相似性搜索、智能分类等前沿场景。
第四,统一查询服务,简化开发。允许通过单一API或SQL语句执行标量过滤与向量检索相结合的混合查询,如“从历史汽车故障视频中,找出与某零部件视觉上最相似的片段”,这极大地简化了应用开发复杂度,让开发团队能快速构建体验卓越的智能应用。
 
三、能力积淀:多维数据模型与标准体系
 
三维天地在数据资产管理领域还形成了产品质量、计量、标准、检验检测、认证认可等5大类数十种数据模型,覆盖质量基础设施的核心维度。这些模型是各重点行业构建通识与专识数据集的“通用语言”,能够大幅降低数据集构建的标准化成本。
公司深耕数据领域多年,在该领域取得发明专利40余项、软件著作权70余项,牵头或深度参与多部专著及蓝、白皮书;今年以来,进一步参与《高质量数据集 数据采集技术要求》《高质量数据集 数据清洗技术要求》《高质量数据集 数据标注产业 识别及分级分类》《药品高质量数据集 建设指南》《知识数据质量评估要求》等5项与高质量数据集密切相关的国家标准研制,这些都为高质量数据集建设持续注入动能。
在“模数共振”行动全面推进之际,三维天地正以清晰的治理方法、强大的技术基座和深厚的行业积淀,为20个重点行业的高质量数据集建设提供坚实支撑,夯实行业模型的底层根基,助力“数据—模型—场景应用”良性互促循环加速形成。
构建高质量数据集,从三维天地开始。