人體由近 40 萬億個(gè)細(xì)胞組成,有許多不同類型。實(shí)驗(yàn)生物學(xué)的最新進(jìn)展使探索單個(gè)細(xì)胞的遺傳物質(zhì)成為可能。隨著單細(xì)胞基因組學(xué)這一新領(lǐng)域的誕生,科學(xué)家們現(xiàn)在可以探測人體內(nèi)單個(gè)細(xì)胞的 DNA 和 RNA 。
單細(xì)胞基因組分析已經(jīng)確定了人體內(nèi)的新型細(xì)胞,發(fā)現(xiàn)了是什么使這些細(xì)胞彼此不同,以及不同類型的細(xì)胞如何對疾病或藥物作出反應(yīng)。單細(xì)胞基因組學(xué)也被證明是當(dāng)前 COVID-19 大流行的關(guān)鍵,它可以識別易受感染的細(xì)胞并揭示感染患者免疫系統(tǒng)的變化。
圖 1 。單細(xì)胞 RNA 測序?qū)嶒?yàn)的工作流程。分離單個(gè)細(xì)胞并測量每個(gè)細(xì)胞的基因活性。具有相似基因活性的細(xì)胞聚集在一起以識別群體中的各種類型的細(xì)胞。
隨著最近的實(shí)驗(yàn)對數(shù)百萬個(gè)細(xì)胞進(jìn)行測序,單細(xì)胞數(shù)據(jù)的可用性和數(shù)據(jù)集的大小也在不斷增加。這種分析通常是探索性的,并從互動(dòng)中得到進(jìn)一步的好處——在更精細(xì)的尺度上識別不同類型的細(xì)胞,比較細(xì)胞類型并可視化它們之間的關(guān)系。當(dāng)前的工作流仍然非常緩慢,這使得它們對于研究所需的交互分析來說是不可能的。
RAPIDS :用 GPUs 加速數(shù)據(jù)科學(xué)
RAPIDS 是一套開源庫,通過 GPU 加速的力量,可以加速端到端的數(shù)據(jù)科學(xué)工作流程。 RAPIDS 使得使用類似于 NumPy 、 pandas 和 scikit learn 的 Python api 對大型數(shù)據(jù)集執(zhí)行交互式數(shù)據(jù)分析成為可能。
考慮執(zhí)行單單元分析的典型工作流。這從一個(gè)矩陣開始,這個(gè)矩陣映射每個(gè)細(xì)胞中遇到的每個(gè)基因的數(shù)量。對數(shù)據(jù)進(jìn)行預(yù)處理,濾除噪聲,然后對數(shù)據(jù)進(jìn)行歸一化處理,得到每個(gè)細(xì)胞中每個(gè)人類基因的活性。在這一步中,機(jī)器學(xué)習(xí)也常用于糾正數(shù)據(jù)收集中的工件。接下來,在聚類和可視化之前執(zhí)行維數(shù)縮減,以識別具有相似遺傳活動(dòng)的細(xì)胞簇。最后,你比較這些細(xì)胞群的遺傳活動(dòng),以了解為什么不同類型的細(xì)胞表現(xiàn)和反應(yīng)不同。
圖 2 :顯示單細(xì)胞 RNA 測序數(shù)據(jù)分析步驟的管道。從每個(gè)細(xì)胞的基因活性矩陣開始, RAPIDS 庫可以用于進(jìn)行數(shù)據(jù)處理、降維、聚類和可視化,并在不同的簇間發(fā)現(xiàn)不同活性的差異基因。
我們在 clara-parabricks/rapids-single-cell-examples GitHub repo 中發(fā)布了這個(gè)精確工作流的 GPU – 加速版本。 repo 包含一個(gè)示例 notebook ,它使用 RAPIDS 和 Scanpy 分析 70000 個(gè)人體肺細(xì)胞的數(shù)據(jù)集,以識別對 COVID-19 敏感的細(xì)胞。 Scanpy 是一個(gè)用于分析單細(xì)胞基因表達(dá)數(shù)據(jù)的工具包,提供了使用 RAPIDS 加速特定命令的選項(xiàng)。我們在回購中也有一個(gè)筆記本的 CPU 版本 以供比較。
例如,運(yùn)行 UMAP 以使用 RAPIDS 可視化近 70000 個(gè)單元格需要以下命令:
sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')
圖 3 。由 RAPIDS 創(chuàng)建的人肺樣本中約 70000 個(gè)細(xì)胞的 UMAP 可視化。細(xì)胞被洛文聚類標(biāo)記。
使用 RAPIDS 生成這個(gè) UMAP 可視化需要 1 秒,而在 CPU 上則需要 80 秒。事實(shí)上, RAPIDS 可以加速整個(gè)單單元分析工作流程,甚至可以在大型數(shù)據(jù)集上進(jìn)行交互式探索性數(shù)據(jù)分析。
在 11 分鐘內(nèi)分析一百萬個(gè)細(xì)胞
我們將我們的 RAPIDS 分析工作流程應(yīng)用于現(xiàn)有最大的單細(xì)胞數(shù)據(jù)集之一, 100 萬個(gè)小鼠腦細(xì)胞通過 10 倍基因組學(xué)測序。有關(guān)詳細(xì)信息,請參閱 1M_brain_gpu_analysis_uvm.ipynb Jupyter 筆記本。
有了如此大的數(shù)據(jù)量,對 CPU 的分析變得不切實(shí)際地慢了下來;我們的端到端工作流在 awsm5a CPU 實(shí)例上運(yùn)行了 3 個(gè)多小時(shí)。這使得交互式分析幾乎不可能。另一方面,我們在這個(gè)更大的數(shù)據(jù)集上觀察到了更高的 GPU 加速,并且能夠在一個(gè) GPU 上分析整個(gè)數(shù)據(jù)集。在 AWS 上運(yùn)行 RAPIDS 分析也比 CPU 版本便宜 3 倍!
用于交互式單細(xì)胞分析的 GPU 功能單元瀏覽器
如前所述, RAPIDS 的數(shù)據(jù)分析速度使研究人員能夠?qū)崟r(shí)交互式地分析數(shù)據(jù)。我們開發(fā)了一個(gè)在 Jupyter 筆記本 中運(yùn)行的、支持 GPU 的交互式小區(qū)瀏覽器,使這一過程更加簡單。在這個(gè)單元格瀏覽器中,您可以可視化數(shù)據(jù)集中的所有單元格,并通過點(diǎn)擊方法對數(shù)據(jù)執(zhí)行聚類分析。使用 RAPIDS ,這些步驟可以實(shí)時(shí)運(yùn)行。
在這篇文章中,我將向您展示如何輕松地選擇一組細(xì)胞,并執(zhí)行 UMAP 和 Louvain 聚類來識別這種細(xì)胞類型中的子種群。
圖 4 通過在交互式單元格瀏覽器中使用 RAPIDS 指向并單擊實(shí)時(shí)重新聚類選定的單元格組。
結(jié)論
在這篇文章中,您看到了使用 RAPIDS 加速 GPUs 上的單細(xì)胞基因組分析是多么容易。使用 RAPIDS ,可以方便地實(shí)時(shí)交互地探索數(shù)據(jù),對不同尺度的單元進(jìn)行聚類,以及對具有不同參數(shù)的大型數(shù)據(jù)集進(jìn)行重新分析。所有這些都有助于更快的科學(xué)發(fā)現(xiàn)。
除了涵蓋的 API 之外, RAPIDS 還有一個(gè)大型的其他算法庫,您會(huì)發(fā)現(xiàn)這些算法在您的工作中很有用。
關(guān)于作者
Avantika Lal 是 NVIDIA 基因組學(xué)團(tuán)隊(duì)的資深科學(xué)家。她開發(fā)了使用 GPUs 和深入學(xué)習(xí)來加速和改進(jìn)人類基因組分析的工具。在 NVIDIA 之前,她是斯坦福大學(xué)遺傳學(xué)和病理學(xué)系的博士后研究員。
審核編輯:郭婷
-
cpu
+關(guān)注
關(guān)注
68文章
11031瀏覽量
215907 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1222瀏覽量
25268
發(fā)布評論請先 登錄
功率放大器在液滴微流控細(xì)胞分選中的應(yīng)用

太赫茲細(xì)胞能量儀主控芯片方案單片機(jī)開發(fā)控制板布局規(guī)劃
Evo 2 AI模型可通過NVIDIA BioNeMo平臺(tái)使用
NVIDIA攜手多家機(jī)構(gòu)推動(dòng)醫(yī)療健康產(chǎn)業(yè)變革
NVIDIA 攜手行業(yè)領(lǐng)先機(jī)構(gòu)推動(dòng)基因組學(xué)、藥物發(fā)現(xiàn)及醫(yī)療健康行業(yè)發(fā)展

RAPIDS cuDF將pandas提速近150倍

NVIDIA AI助力日本制藥公司推進(jìn)藥物研發(fā)
使用原代腫瘤細(xì)胞進(jìn)行藥物篩選的數(shù)字微流控系統(tǒng)

NVIDIA加速計(jì)算技術(shù)助力癌癥研究
活細(xì)胞的“聚光燈”——前沿活細(xì)胞成像的案例分享

NVIDIA Parabricks v4.3.1版本的新功能

利用NVIDIA RAPIDS加速DolphinDB Shark平臺(tái)提升計(jì)算性能

熒光檢測器適用范圍有哪些
寬帶功率放大器基于微流控技術(shù)的細(xì)胞分選的應(yīng)用

評論