如今,人工智能正在重塑千行百业,矿业也毫无例外地加速向智能化转型。9月4日,国家发展改革委、国家能源局发布《关于推进"人工智能+"能源高质量发展的实施意见》,重点部署人工智能赋能煤炭行业。然而,从智能矿山的无人采矿设备精准作业,到地质灾害的提前预警,再到矿产资源的高效勘探,每一项突破背后,都离不开高质量数据集的支撑。国家数据局指导编制的《高质量数据集建设指引》(以下简称《指引》),则为包括矿山在内的各行业高质量数据集建设提供了系统性框架。
请在底部附件处下载PDF
党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。习近平总书记在二十届中央政治局第二十次集体学习时指出:“人工智能作为引领新一轮科技革命和产业变革的战略性技术,深刻改变人类生产生活方式。我国数据资源丰富,产业体系完备,应用场景广阔,市场空间巨大。”
在国家政策层面,2022年12月中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,明确提出探索开展数据质量标准化体系建设。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024-2026年)》,强调打造高质量人工智能大模型训练数据集。2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”概念。
在矿山行业,高质量数据集建设已取得实质性进展。2025年4月,国务院国资委发布的首批10余个行业30项央企人工智能行业高质量数据集优秀建设成果中,就包含了国家能源集团《煤炭行业机器视觉数据集》、中国钢研《冶金行业高质量多模态数据集》、中铝集团《铝合金材料金相组织图片数据集》。
2025年8月28日,在2025中国国际大数据产业博览会上,国家数据局启动高质量数据集建设先行先试工作,煤科总院《矿山多模态大模型高质量数据集建设》、中铝物资《有色金属行业供应链协同高质量数据集》《中铝材料院“高端铝合金材料研发与生产高质量数据集》、中国矿产资源集团大数据有限公司《矿产资源行业高质量数据集》云鼎科技股份有限公司《煤炭行业生产风险防控高质量数据集建设》、中国移动通信集团贵州有限公司《喀斯特地貌下智能煤矿行业高质量数据集》纷纷入选。
国际层面也在积极行动。国际采矿与金属理事会(ICMM)联合埃森哲、全球能源监测机构等合作伙伴,发布了《全球采矿数据集》,旨在填补行业数据空白。该数据集整合了15,188个采矿及金属加工设施(公开版含8,508个),覆盖151个国家、47种大宗商品,其中中国占1,840处。
很多人可能会疑惑,什么样的数据集才能被称为“高质量”?《指引》给出了明确答案:高质量数据集是经过采集、加工等处理,可直接用于开发和训练AI模型,且能有效提升模型表现的数据集合,主要由特征、标签、元数据和样本四个核心要素构成。
比如机器学习领域经典的鸢尾花数据集,包含150条样本,均匀分为三类,每类50条,以花萼长度、花萼宽度、花瓣长度和花瓣宽度作为分类特征,这些特征就是模型训练的输入变量;而样本所属的鸢尾花类别,则是模型需要预测的标签;元数据则记录了这些数据的采集时间、地点等信息。
再如图像识别领域的ImageNet数据集,涵盖1400多万张高分辨率图像,覆盖2万多个类别,每张图像都有准确标签,部分还包含物体边界框等精细标注,这些丰富的信息能让AI模型更精准地学习图像特征。
在矿山领域,中国矿业大学程德强教授团队开源了国内首个煤矿专用视频AI分析数据集,涵盖井下异物检测、图像超分辨率重建及安全帽佩戴识别三大场景。其中:CUMT-BelT数据集(6,000张图像)聚焦皮带运输异物(大块、锚杆等),分训练集与测试集;CUMT-CMUID数据集(900张图像)采集自井下巷道、车间等场景,统一裁剪为2040×1368分辨率;CUMT-HelmeT数据集针对安全帽检测,助力智慧矿山建设。该数据集填补了煤矿AI训练数据的空白,为智能化转型提供基础支撑。
《指引》指出,主要包括规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等维度。
为了衡量这些维度,《指引》提出了静态和动态两种质量评价方法。静态质量关注数据本身的属性,除了准确性、完整性、一致性、时效性等基础指标,还增加了多样性、真实性、合规性等维度,比如评估数据是否覆盖足够多的领域、来源是否可靠、是否符合隐私保护要求等。动态质量则更关注数据集在实际应用中的效果,通过引入代表性模型开展基准测试,用量化指标衡量模型性能提升程度,以此判断数据集的质量水平。
此外,不同行业对数据集的要求存在差异。比如工业制造领域,时序数据、图像、图纸文档等数据类型较多,更注重时序数据处理、高精度合成和专业标注,对数据真实性、多样性要求更严格。
从分类来看,《指引》从数据模态、模型阶段和行业应用三个维度对高质量数据集进行了划分。
按数据模态,可分为单模态(如文本、图像、音频、IoT数据)和多模态数据集,多模态数据通过融合不同类型信息,能提升模型鲁棒性,适用于图文生成、视频理解等场景。
按模型阶段,可分为预训练、微调、评估数据集,预训练数据集像“通识教育”,为模型提供通用知识;微调数据集像“专业精修”,让模型在特定领域表现更优;评估数据集则用于衡量模型性能。
按行业应用,可分为通识、行业通识、行业专识数据集,分别对应通用知识、行业通用知识和行业专业知识,满足不同模型的需求。
AI系统的能力发展是循序渐进的,从建立基础认知,到理解复杂场景,再到规划具体行动,不同阶段对高质量数据集的需求也存在明显差异。《指引》根据AI系统能力的认知层次,将数据集应用需求划分为基础认知层、场景理解层、行动规划层三个递进层次。
基础认知层是AI系统的“地基”,核心目标是让AI掌握“这是什么”的基本判断能力。这一阶段需要海量数据支撑,数据规模通常达到TB至PB级别。比如大语言模型的预训练语料包含数万亿词元,ImageNet数据集包含1400多万张图像,如此大规模的数据能让模型学习到通用模式和基础概念,遵循“尺度定律”——数据规模越大,模型性能提升越显著。同时,这一阶段对数据覆盖广度和基础质量要求较高,需要涵盖多领域、多语言、多场景,还要经过去重、去噪等处理,但对标注精度要求相对较低,更多依赖自监督学习。目前,GPT、BERT等语言模型,ResNet、Vision Transformer等视觉模型,都是在基础认知层数据集的支撑下发展起来的。
场景理解层是AI从“看到”到“看懂”的关键,需要AI解析“这里发生了什么”“关系如何”等问题。这一阶段的数据集标注更精细、语义信息更丰富,规模通常在十万到百万级别。以语言理解数据集SQuAD为例,不仅包含问答对,还标注了答案在原文中的位置和推理依据;视觉场景数据集COCO有多层次标注,从场景类别到像素级分割,再到动态动作描述,形成完整的视觉语义体系。
在矿山领域,西安科技大学张旭辉教授团队在《Scientific Data》发布的全球首个综采工作面异常状态图像数据集DsLMF+,包含138,004张标注图像,覆盖人员、设备、环境等6类异常状态(如液压支架位姿、矿工不安全行为)。数据集具有高可靠性(ViT-Adapter-L等模型测试精度超95%)和全面性,支持YOLO/COCO格式,解决了井下异常状态识别数据匮乏问题,为“无人巡检”提供了关键数据支撑。
同时,场景理解层对数据语义完整性、逻辑一致性要求严格,需要专业标注团队通过多轮验证保障质量。在这一层数据集的支撑下,机器阅读理解、目标检测、动作识别等复杂理解任务得以实现。
行动规划层是AI系统的最高能力层,要让AI掌握“怎么做”的决策能力,实现从认知到执行的闭环。这一阶段的数据集包含完整的推理链和决策过程,比如思维链(Chain-of-Thought)数据会展示从问题到答案的每一步推理过程,代码数据集会记录从需求分析到测试验证的完整开发流程。数据规模虽相对精炼(通常在千到百万级别),但每个样本都蕴含丰富的决策信息。此外,行动规划层对数据质量要求极高,推理需严密、结果需正确,更关键的是要与人类价值观对齐,避免产生有害输出。目前,数学定理证明系统、自主导航机器人、代码生成系统等前沿AI应用,都依赖行动规划层数据集的支撑。
近年来,在国家统筹部署下,我国高质量数据集建设成效显著。截至2025年6月,全国建设高质量数据集超3.5万个,总量超400PB;数据交易机构挂牌高质量数据集3364个,累计交易额近40亿元,国内多数模型使用中文数据占比达60%-80%,形成了“统筹规划、分层推进、多元协作”的发展格局。
在区域建设方面,国家数据局统筹建设了成都、沈阳、合肥等七大数据标注基地,已建设行业高质量数据集524个,数据规模超29PB,赋能163个国产AI大模型研发,带动相关产值超83亿元。
同时,各地也结合自身特色推进建设,比如贵州用专项资金支持重点行业数据集建设,苏州发布30个覆盖工业制造、交通等领域的高质量数据集,北京国际大数据交易所引入567个覆盖20多个行业的高质量数据集,形成了各具特色、协同发展的局面。
行业建设层面,中央企业、大模型企业、科研机构等多方协同发力。国务院国资委发布首批央企人工智能行业高质量数据集优秀建设成果,国家数据局遴选出104个涵盖12个重点领域和5个创新领域的高质量数据集典型案例。
在矿山行业,数据资产化进程加速推进。郑州煤电股份有限公司在郑州数据交易中心挂牌河南省首批煤炭行业数据产品:“煤炭行业综合数据智库”整合法律法规、标准化管理案例及安全生产知识,通过智能问答引擎提供合规预警与决策支持;“供应商核心数据集”基于物资供销数据脱敏加工,涵盖供应链全流程信息,助力优化采购效率与风险评估。此次挂牌标志着煤炭行业数据资产化迈出关键一步。
在标准化建设上,相关组织积极开展研讨会,完善标准体系;大模型企业和科研机构也不断丰富数据资源,如阿里巴巴发布中文问答数据集,智源研究院发布中英双语行业预训练数据,为AI技术创新注入动力。
不过,我国高质量数据集建设也面临一些挑战。比如数据供给存在结构性短缺,专业领域数据储备不足,跨部门、跨地区数据共享机制不健全;技术方面,处理混合结构数据的能力薄弱,自动化清洗、标注工具成熟度低;标准与治理体系不完善,关键标准不充分且推广力度不足;安全合规上,隐私保护技术规模化应用滞后,数据权属规则不明晰;成本与商业模式方面,投入产出比失衡,缺乏成熟的商业生态。针对这些问题,《指引》后续章节也给出了相应的建设方法和运营体系解决方案。
建设高质量数据集是一项系统性工程,《指引》从建设方法、核心技术、质量评价、运营体系等方面,给出了详细的实施路径。
在建设模式上,主要有“场景驱动”和“数据驱动”两种。“场景驱动”以明确的业务需求为起点,通过“需求拆解-数据设计-数据采集-数据处理-质量检测-数据运营”的闭环推进,数据针对性强、质量高,更契合当前高质量数据集建设的核心目标;“数据驱动”则以现有海量数据为基础,通过挖掘数据价值反向发现需求,适合通用大模型等需要海量数据的任务。
建设核心环节涵盖数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证六个步骤。数据需求环节要明确数据集的范围、内容、可用性和质量要求;数据规划环节设计数据架构、制定实施计划;数据采集环节从确定的数据源收集实时和历史数据,并测试、改进采集方法;数据预处理环节通过转换、清洗、聚合等操作,将数据处理成可用形式;数据标注环节为有监督学习的数据集赋值;模型验证环节则评估数据集是否满足模型训练需求,若不满足则反馈优化。
核心技术方面,数据采集技术呈现多源融合、边缘智能等趋势,如工业领域的多源异构数据融合采集、智慧园区的边缘侧数据采集;数据转换技术向自动化、智能化发展,医疗行业用规则引擎实现数据标准化,京东用知识图谱实现异构数据转换;数据清洗技术通过规则引擎、机器学习等手段提升效率,工商银行、阿里巴巴等企业都有成熟应用;特征选择技术能筛选出关键特征,提升模型训练速度;数据标注技术则从人工向智能化转变,半自动化标注、众包标注等方式广泛应用。
在矿山领域,煤炭科学研究总院有限公司联合北京市政务服务和数据管理局,发布了“矿山数工—数据标注赋能矿山行业高质量发展”案例,旨在解决矿山行业数据标注标准缺失、多模态数据标注成本高等问题。团队构建了矿山行业知识标签体系及多模态数据生成算法,显著提升了标注效率(30%)、跨模态语义一致性(20%)及数据复用率(50%),并将AI应用研发周期从3个月缩短至3周。通过行业大模型与小模型协同优化数据标注流程,形成“生成-标注-训练-优化”闭环;建立结构化知识库,支持动态更新与快速迁移;为矿山百通、视巡等应用提供核心数据支撑。数据集覆盖500亿传感数据、300万视频数据及200亿词元文本数据,实现了多模态数据的统一标注与高效处理。
质量评价是保障数据集高质量的关键。《指引》构建了涵盖说明文档、数据质量、模型应用三个维度的评价指标体系。说明文档指标评价配套文档的完整性,包括基本信息、内容特征、建设过程、应用说明等;数据质量指标衡量数据本体质量,如格式规范性、安全规范性、标注准确性等;模型应用指标评估数据集对AI模型的支撑效果,包括内容多样性、规模完整性、时效性等。同时,《指引》还明确了质量评价的实施流程,从评估准备、指标体系构建实施,到综合评价与反馈应用,形成闭环管理。
在运营体系建设上,《指引》提出从体系规划、工程建设、运营管理三方面推进。体系规划环节搭建行业知识索引框架、绘制数据资源地图、构建全链条标准体系;工程建设环节涵盖研发、交付、运维,确保数据集研发规范、交付安全、运维稳定;运营管理环节围绕用户需求响应、成本管理、质量安全维护、生态协同发展,实现数据集可持续发展。
为推动高质量数据集建设持续发展,《指引》提出了体系化布局、设施化推进、生态化赋能的推进思路。
体系化布局方面,要加强政产学研用分工协作,明确各方角色;突出建设重点,结合地方产业特色和行业特性推进,前瞻布局新领域;畅通数据供给渠道,拓展公共数据、企业数据等多元化来源;完善标准规范体系,推进国家标准制定与应用;加强技术攻关,提升核心技术自主可控能力。
设施化推进方面,充分发挥数据基础设施效能,部署“数据生产车间”“数据中试车间”,利用隐私计算、区块链等技术支撑数据流通;建立全国数据集统一目录体系,搭建国家和地方/行业两级管理服务平台;探索建设数据集集成应用平台,提供全链条支撑,完善商业运营模式。
生态化赋能方面,搭建合作平台,成立产业共同体,鼓励金融机构参与;完善制度机制,探索交易定价和收益分配策略;加强人才培养,通过学科建设、产教融合、职业认证等培育专业人才;推动共建共享,支持开源生态建设,打造示范案例,营造良好氛围。
在矿山技术研究领域,多个团队通过高质量数据集推动算法创新与应用落地。中国矿业大学田子建团队提出基于Transformer的矿井低照度图像增强方法,配套自建数据集解决井下图像亮度低、细节丢失等问题。算法通过生成对抗网络(GAN)框架分离亮度与反射分量,结合CEM-Transformer Encoder提升全局亮度,并利用自适应特征融合保留细节。实验显示,该算法在PSNR、SSIM等指标上平均提升10%以上,优于现有方法。
中国矿业大学程德强教授团队在《煤炭学报》发表论文,提出低光环境下无人矿卡遮挡目标检测网络LECODNet,并配套自制数据集LAOMD。该数据集针对露天矿区低光、遮挡及多尺度目标干扰等复杂场景设计,支撑了LECODNet在mAP@0.5指标上达到83.5%,较基线模型提升3.3%。
煤炭科学研究总院程健团队在《煤炭科学技术》发表论文,提出基于多维特征与残差注意力网络的矿井图像超分辨率重建方法,解决了井下图像因光照不足、煤尘干扰导致的模糊问题。团队构建了包含煤矿井下场景的专用数据集,结合公开数据集DIV2K进行训练验证。技术核心为多维交互注意力机制与递归稀疏自注意力机制,在PSNR和SSIM指标上分别提升4.10%和2.30%,LPIPS降低10.97%。
中国矿业大学赵小虎教授团队在《工矿自动化》发表煤体红外热像异常区域分割研究,提出基于多尺度通道注意力模块(MS-CAM)的U-Net模型,配套自制煤体红外热像数据集。数据集包含单轴压缩实验生成的382×288分辨率热像图,经预处理后分为训练集、验证集和测试集。模型在精确率、Dice系数等指标上均优于对比算法(如Deeplab和U-Net+SENet),最高达94.75%。
这些研究成果为矿山安全监测、无人驾驶、灾害预警等应用提供了高质量的图像处理方案和技术支撑,推动了智能化技术在矿山领域的落地应用。
《高质量数据集建设指引》的发布,为我国人工智能高质量发展奠定了坚实的数据基础。在这份指引的推动下,未来我国高质量数据集建设将更加规范、高效,数据要素价值将充分释放,为“人工智能+”场景落地提供有力支撑,助力我国在新一轮科技革命和产业变革中抢占先机。