影响因子突破10!大数据与信息工程学院本科生在国际权威期刊IEEE TKDE发表学术成果

发布者:系统管理员发布时间:2026-03-02浏览次数:10

贵大新闻网讯(大数据与信息工程学院 供稿)近日,我校大数据与信息工程学院2022级数据科学与大数据技术专业本科生杨曦以第一作者身份撰写的论文CSMVL: Cluster Structure Aware Multi-View Representation Learning for Domain Identification in Spatial Transcriptomics被国际权威期刊IEEE Transactions on Knowledge and Data Engineering收录。

IEEE Transactions on Knowledge and Data Engineering简称TKDE,作为电气与电子工程师学会(IEEE)旗下知识工程与数据工程领域的国际顶级期刊,不仅是中国计算机学会(CCF)推荐的A类期刊,更是中国科学院分区一区TOP期刊。该期刊最新影响因子高达10.4,在同类期刊中名列前茅,在国际学术界享有极高的声望。它长期引领着知识发现、数据挖掘及机器学习等核心方向的前沿发展,被相关领域研究者公认为最具影响力的学术交流平台之一。

杨曦的主要研究方向包括空间转录组学与计算机视觉。在此次发表的论文中,他提出了一种名为CSMVL的聚类结构感知多视图表示学习框架。该框架通过深度协同空间邻域信息与基因表达信息,能够学习到极高质量的细胞点表示。此外,借助聚类结构学习策略与图平滑正则化技术的加持,该方法有效增强了特征表示的判别性与空间连续性,在空间域识别任务中实现了性能的显著突破。

谈及此次科研历程,杨曦感慨良多。他表示,这是自己首次深入探索生物信息学领域,整个过程既充满新奇又极具挑战,开展高水平研究不仅需要深厚的理论功底,更需要敢于打破学科壁垒、不断求索创新的勇气。未来,他将继续深耕人工智能与生命科学的交叉领域,致力于将先进的计算方法更深入地应用于解析复杂的生物医学问题。

延伸阅读:

随着空间转录组学技术的发展,研究人员得以在保留组织空间信息的同时,以高分辨率精准捕获细胞基因表达谱,为揭示复杂组织微环境中的细胞特征、空间分布及相互作用机制提供了前所未有的机遇。其中,空间域识别是空间转录组学数据分析的核心目标,旨在精准划定组织切片中具有独特基因表达模式和特定生物功能的区域。然而,空间转录组学数据固有的高维性、高噪声、稀疏性及测序深度不均等挑战,使得如何有效融合基因表达信息与空间坐标以实现精准的空间域识别,至今仍是领域内的研究热点与难点。

现有方法在空间域识别上虽取得了一定进展,但仍面临两大核心挑战。其一是表示的高判别性问题,要求相似细胞点在特征空间中紧密聚集,不同类型细胞点被有效区分。其二是空间平滑性问题,要求同一域内相邻细胞点的特征表示平滑过渡,反映生物组织固有的局部连续性。以GraphST、Spatial-MGCN为代表的图神经网络方法虽融合了空间与基因信息,但所学表示的判别能力往往不足。而stMMR、DeepST等依赖苏木精伊红染色图像特征的方法,则受限于高质量图像的获取和图像配准的复杂性,难以广泛推广。

针对上述挑战,杨曦同学提出了CSMVL框架。该框架构建空间图、基因表达图和融合图三种视图,通过多视图图卷积网络分别提取细胞点的空间邻域结构、基因表达相似性及二者的自适应融合信息,并借助注意力机制对三种视图进行动态加权融合,获得综合表示。在此基础上,CSMVL引入聚类结构学习策略,通过优化域内紧致性和域间可分性,显著提升表示的判别能力。同时,图平滑正则化利用带伪标签掩码的图拉普拉斯矩阵,约束同一域内空间相邻细胞点的特征表示保持平滑一致,从而使学习到的表示准确反映生物组织的空间连续性。此外,框架还引入零膨胀负二项分布解码器对基因表达数据的稀疏性和过离散性进行建模,确保学习到的表示保留生物层面的真实信息。

实验结果表明,CSMVL在人类背外侧前额叶皮质、人类乳腺癌及小鼠脑前部三个公开数据集上,平均调整兰德指数达到71.64%,平均归一化互信息达到73.43%,全面超越现有最先进方法,充分验证了该框架在空间域识别任务上的有效性与优越性。


编辑:庞爱忠 康梅花

责编:李旭锋

编审:姚作舟