东京大学麦吉尔大学提出空间转录组数据建模新方法SUICA
发布日期: 2025-11-08
空间转录组(Spatial Transcriptomics, ST)数据是正在统一张机闭切片上同步记实「基因外达量」和「空间坐标」的高维讯息矩阵。
![]()
SUICA 是一个基于隐式神经外征 (implicit neural representations, INR) 和图自编码器 (Graph-Autoencoder) 的深度练习模子。SUICA 利用图自编码器对高维的空间转录组数据实行降维,然后利用隐式神经外征对空间转录组数据坐标和其对应的基因外达实行修模,从而杀青空间转录组切片中任一处所基因外达的预测。结果声明,通过 SUICA 处置的空间转录组数据不妨有更高的质地,更低的噪声和更强的生物信号。
与古板的只可呈近况态学构造的全景机闭影像 (WSI) 或只可量化基因外达但损失方位的惯例转录组测序 (Transcriptomics) 比拟,空间转录组把「外达了哪些基因」与「位于机闭的哪一处」绑定正在一齐,绘制出机闭内细胞状况与微情况彼此功用的功用舆图,于是成为邻接机闭学和分子组学的新型数据状态。
① 别离率–本钱冲突:探针越密、测序深度越高,实践用度(如 stereo-seq 的测序实践本钱大于 $4000/cm²)和样本通量火速攀升;
② 信号希罕与噪声:每个探测点缉捕的 mRNA 数目有限,零膨胀重要,导致低品貌或环节调控基因易被漏检;
③ 跨平台异质性:分歧平台正在探针物理排布、测序深度和布景噪声上分别明显,直接阻挠众样本或众实践整合。
揣测加强手段搜罗超别离重修、深度去噪与缺失值填充等,能够正在不增众(或仅小幅增众)实践本钱的条件下:
由此为细胞通信解析、疾病分区说明、药物靶点创造、众组学合伙修模和 AI 病理辅助诊断供应特别精准、丰厚且可扩展的数据根柢,极大开释空间转录组时间正在根柢考虑和临床转化中的潜力。
开始,原始数据正在空间维度上呈网格状漫衍,而正在基因维度上则高达数千到上万,造成「超高维、极希罕、噪声大」的矩阵;高 dropout 率导致生物学环节信号被弱化,加剧了统计出力亏空。
其次,现有空间转录组平台正在「别离率 — 本钱」之间存正在根底衡量 —— 探针越密、测序越深,本钱便成倍攀升,于是难以同时得到细胞级别离率和大规容貌本量。
再次,实验用隐式神经示意将离散空间转录组点插值为陆续外达场时,需同时管理两大时间难点:一是基因外达空间的维度远超古板视觉信号,简单扩宽或加深搜集难以脱离维度灾难;二是零膨胀导致输入信号漫衍高度不均,惯例 INRs 难以缉捕庞大且非线性的空间外达形式。
相较于古板自编码器,该考虑先把每个空间转录组中的数据点视为图节点、以空间附近相干构修相接矩阵,然后正在编码器中采用图卷积对原始高维基因外达实行卷积,将片面空间上下文融入示意并压缩到低维外征 ;以此练习高维空间转录组数据的低维外征,而图卷积的插手能够强化希罕、大噪声的空间转录组数据信号。
正在得到低维外征后,隐式神经外征搜集领受检测点的坐标为输入,练习「点」与其对应低维外征的映照。而且将练习后的,模子预测的低维外征送入图自编码器中的解码器片面,从而杀青将坐标映照到高维基因外达的功用。
该考虑操纵 stereo-seq 的老鼠胚胎数据和 Slide-seq 老鼠脑部切片数据实行基准比较,正在未知点位预测(超别离率)的职司上 SUICA 正在众个环节目标上明显优于现有的模子和古板的隐式神经外征模子,搜罗 FFN,SIREN。
该考虑可视化了每种手段的预测成果,结果显示 SUICA 的预测不但不妨正确的光复出基因的外达形式,乃至不妨加强基因的外达信号。如 SEPT3,该基因正在老鼠胚胎的神经体系发育中饰演着要紧的功用,即使正在 groundtruth 中的信号并不分明,但 SUICA 的预测结果得胜地缉捕到了这一信号。
通过对各类手段天生的结果实行聚类与标注,该考虑直观地创造 SUICA 天生的细胞类型最靠近于切实的细胞类型。而且 SUICA 天生的细胞类型中正在空间上保存了更为细节的器官和机闭构造。这些结果解说 SUICA 有才略加强生物信号,而且不妨识别分歧器官、机闭之间的微小细胞状况区别。
![]()
为了验证 SUICA 的去噪才略(denosing)和其从 dropout (由于测序时间束缚导致的读数为 0 的结果) 中还原切实基因外达的才略(gene imputation),该考虑人工地对空间转录组数据插手高斯噪声或随机将基因外达设为 0。正在 gene imputation 实践中,该考虑随机地将数据中百分之 70 的基因外达设为 0。正在基因外达正在去噪实践中,为了保障加噪后的基因外达漫衍照旧与原始基因外达漫衍好像,该考虑将一起的负值归零。
实践结果注明 SUICA 正在众项目标上强于现有的手段,声明了 SUICA 能对空间转录组数据降噪而且缓解 dropout 形象的才略。