近日,國際學術期刊Genomics, Proteomics & Bioinformatics在線發表了中國科學院上海營養與健康研究所生物醫學大數據中心張國慶研究員團隊的最新研究成果,題為“PreDigs: A Database of Context-specific Cell-type Markers and Precise Cell Subtypes for Digestive Cell Annotation”。研究團隊構建了一個面向消化系統細胞標志物研究的綜合數據庫PreDigs(https://www.biosino.org/predigs/),系統整合了124個精選單細胞RNA測序數據集,涵蓋340萬余個細胞。此外,PreDigs還提供了在線細胞注釋工具,允許用戶更靈活地對單細胞進行分類,并能完整支持消化系統細胞亞型鑒定、腫瘤微環境分析和細胞異質性研究等過程。
消化道癌癥是全球健康的主要威脅,其腫瘤微環境(Tumor Microenvironment, TME)具有高度異質性,亟需精準的單細胞圖譜進行解析。然而現有的細胞標志物數據庫普遍缺乏細胞類型的標準化工序、跨組織比對功能以及針對TME復雜性的深度注釋信息。PreDigs的建立有效填補了這一空白。
研究團隊通過整合大量scRNA-seq數據集并采用先進的注釋流程,構建了包含8個層級(圖1B)、142種細胞類型的本體樹。同時,針對不同研究需求,團隊創新性地定義了三種上下文特異性標志物:(1)“Cell Markers”——用于跨組織比較同一細胞類型;(2)“Subtype Markers”——用于揭示組織內細胞亞型差異;(3)“TPN Markers”——用于解析腫瘤組織、癌旁組織及正常組織特異性(圖1A)。該數據庫還特別提供了三種精心設計的標志物分析模塊,用于支持不同場景的研究需求(圖2)。這些細胞與標志物數據主要來源于消化系統的正常、癌旁及癌變組織(圖1A),為深入研究消化道癌癥的TME提供了全面可靠的資源。
在此基礎上,PreDigs還提供了包括細胞本體樹瀏覽、標志物可視化比較、單細胞數據集交互探索和在線細胞注釋工具在內的多種功能。通過PreDigs,用戶不僅可以系統查詢與比較不同生理病理背景下細胞類型的標志物及其功能特征,還可瀏覽并下載經過統一處理的單細胞數據集。該數據庫目前已支持超過140種細胞類型的精準注釋,極大促進了消化道腫瘤微環境中細胞異質性的深入解析,為研究人員開展高通量單細胞數據挖掘提供了關鍵平臺支撐。
中國科學院上海營養與健康研究所生物醫學大數據中心博士后孟佳玥、工程師黃俞瑋,同濟大學博士研究生韓夢瑤為論文共同第一作者。中國科學院上海營養與健康研究所張國慶研究員、高級工程師袁力贇為論文共同通訊作者。該研究得到了國家自然科學基金、上海市市級科技重大專項、中國科學院戰略性先導科技專項(B類)、科技部國家重點研發計劃等項目的支持。
文章鏈接:https://academic.oup.com/gpb/advance-article/doi/10.1093/gpbjnl/qzaf066/8224594

圖1:PreDigs數據概況。A)PreDigs數據庫包含124個經過專門處理的單細胞RNA測序數據集,涵蓋142種細胞類型,總共涉及約340萬個細胞,來源于5種消化器官和3種組織類型。餅圖分別展示了不同消化器官(上圖)及不同組織類型(下圖)中數據集和單細胞的分布情況。B)細胞本體樹結構示意圖,共包含8個層級。該層次結構中所使用的細胞類型名稱均遵循細胞本體數據庫(Cell Ontology)提供的標準化命名及格式規范。

圖2:PreDigs 數據庫概覽
推送單元:生物醫學大數據中心、科技規劃與任務處