贵大新闻网讯(学生记者 姚依红)还在为天文数据太繁杂、AI训练没素材发愁吗?近日,贵州大学省部共建公共大数据国家重点实验室,大数据与信息工程学院张利教授团队打造了一个“亿级天文AI训练数据集ADAM”,这是专门为AI学天文准备的“超级题库”。
ADAM——当前全球规模最大、效应最全的天文人工智能训练数据集,包含图像达6亿1248万张,以SKA与FAST模拟观测数据为核心,为全球射电天文研究筑牢数据根基。

直击射电天文“数据痛点”
射电天文领域曾有个棘手的痛点——像SKA、FAST这些新一代望远镜投入使用后,每天会接收海量宇宙信号,但这些数据中夹杂着各种干扰与噪音,复杂的观测效应与耦合干扰“轮番上阵”,科研人员分析起来简直头疼。
“人工智能是破解这一难题的有效路径,但当时射电天文领域缺少能支撑AI训练的超大规模、高质量数据集。”人工智能本可以帮忙,但以前的天文数据集要么规模太小,要么太单一,AI根本“学不明白”。科研人员缺一份“能用、好用”的AI训练数据,于是ADAM应运而生。
“最开始没想过会做到今天这个高度,只是想填补这份空白,给同行做份‘基础素材’。”张利教授团队最初的目标很朴素,但正是这份“解决实际问题”的初心,让ADAM一步步长成了如今的全球领跑者。
独创“多观测效应协同模拟”
传统数据集就像只给AI看某一种天气的照片,但真实观测时可能是刮风、下雨、打雷同时到来。一边是射电望远镜的“数据井喷”,一边是“多效应耦合”的解析难题——传统单一维度的数据集根本没法兼顾。
团队没走老路,而是搭出了一套“多观测效应协同模拟”的新打法:
ADAM不同于以往数据集,它首次把四大望远镜阵列、六类关键观测效应全部“打包”在一起,以SKA、FAST的模拟观测数据为核心,从预处理到观测执行反复打磨,模拟出近乎真实的复杂观测环境。
团队把这套方法称为 “多观测效应协同模拟” 。通俗讲,就是先“复刻”望远镜的真实工作场景,再让AI在这个高度仿真的“训练营”里学本事——数据降噪、天体识别、效应消除……从此,复杂数据在AI眼里也变得“听话”起来。
三大亮点成就ADAM领跑全球优势
作为全球领先的天文AI训练数据集,ADAM的“底气”藏在三个实打实的优势里。
——够全也够大。不仅拥有亿级(最高达6亿多张)图像规模,更首次系统覆盖射电天文关键观测效应及多效应耦合场景——以前领域的空白,一次性全补上。
——好看更实用。ADAM绝不是“中看不中用”的花架子,它通过“多观测效应协同模拟”技术,还原出来的射电观测环境和真实情况几乎没差,AI练完就能直接用到基础科研、望远镜工程优化等众多“战场”上。
——价值辐射广。既能推进天文科研,也能支撑“东数西算”工程科研落地、赋能“人工智能+天文”行动,还能带动AI算法研发、数据处理等产业发展,同时以“无国界科研资源”的身份深化国际合作,构建全球天文大数据生态——ADAM的价值早已远超单一数据集本身。
张利坦言:“ADAM不是短期突击就能完成的,团队前后历时三年持续攻关,整个过程历经多轮调整打磨,才磨成如今的质量与规模。”目前,ADAM已应用于国际大科学工程SKA、国家大科学工程FAST及FAST核心阵列的关键技术开发,形成20余套关键技术及解决方案,为大科学工程装置发挥更大效能提供关键支撑,但团队的脚步从未停下。
要把ADAM做得更“灵”,张利教授团队表示:“未来将持续迭代ADAM,以数据赋能天文科研与多学科融合,希望人类探索宇宙的脚步,能因此走的更远。”
编辑:庞爱忠
责编:李旭锋
编审:姚作舟






