新闻资讯
ph

Nature重大突破:CRISPR系统用于细胞转录历史信息记录

2023-02-15


摘要

 

随时间记录细胞内转录事件的能力将有助于阐明分子事件如何引起复杂的细胞行为和状态。然而,目前的分子记录技术仅捕获一小组定义的刺激。在这里,我们使用CRISPR间隔序列获取技术来捕获细胞内RNA并将其转化为DNA,从而实现基于DNA的转录信息存储。在大肠杆菌中,我们显示了确定的刺激,例如RNA病毒或任意序列,以及复杂的刺激,也包括氧化应激,引起存储在细胞群内的可量化转录记录。我们证明转录记录使我们能够对复杂的细胞行为进行分类和描述,并确定协调不同细胞反应的精确基因。将来,CRISPR间隔序列采集介导的RNA记录并进行深度测序(Record-seq)可用于重建描述复杂细胞行为或病理状态的转录历史。

原文:Schmidt, F., et al. (2018). "Transcriptional recording by CRISPR spacer acquisition from RNA." Nature 562(7727): 380-385.

生物学的一个主要挑战是了解细胞的分子成分如何发挥作用并整合以实现复杂的细胞行为。这一挑战推动了越来越复杂的技术的创造,这些技术促进了DNA、RNA、蛋白质和代谢物水平的详细细胞内观察。特别是,RNA测序技术使研究人员能够量化多个或单个细胞内的转录组,以前所未有的细节揭示细胞行为、状态和类型的分子特征。尽管这些技术具有强大的功能,但它们需要破坏性的方法,因此观察仅限于某一时刻的状态或选择异步细胞过程。对此的一种令人兴奋的解决方案是在细胞内引入合成存储装置,其能够编码、存储和检索转录信息。

细菌获得性免疫系统CRISPR-Cas是理想的分子记录器。质粒或病毒感染的分子记忆以短核酸区段(间隔区;Spacer)的形式存储在CRISPR阵列内,所述短核酸区段通过重复序列隔开。通过Cas1和Cas2复合物的作用获得新的储存,其在CRISPR阵列内的旧间隔序列之前整合新的间隔序列,从而提供分子事件的时间记忆。最近利用来自大肠杆菌的原型I-E CRISPR采集系统来存储任意信息以及细菌群体内定义的刺激的可量化记录。这些系统证明了使用CRISPR间隔序列获取作为分子记录器的潜力,但它们目前受限于需要对化学合成的核苷酸进行电穿孔,或者类似于先前的技术,诱导型启动子的可用性。此外,这些系统获得源自DNA而非RNA的间隔序列,因此不能全面反映细胞的转录历史。尽管Cas1和逆转录酶(RT)结构域(RT-Cas1)之间的一种天然存在的融合蛋白最近通过实验验证直接从RNA获得间隔序列,但它在大肠杆菌中不能保持这种功能。

我们假设可以利用从RNA获得的直接CRISPR间隔区来存储活细胞内CRISPR阵列中的转录记录(图1a,b)。为此,我们测试了几种含有直链同源RT-Cas1的CRISPR-Cas系统,发现来自Fusicatenibacter saccharivorans的一种可以在大肠杆菌中异源获得RNA间隔区。利用F. saccharivorans 的RT-Cas1和Cas2(FsRT-Cas1-Cas2),我们开发了Record-seq,这种方法可以将转录组规模的分子记录到细胞群中。根据RNA丰度记录转录事件,存储在DNA的CRISPR阵列中,并且可用于描述连续和瞬时复杂细胞行为。

 

图1 | 从RNA中获得间隔序列的转录记录。 a,RT-Cas1-Cas2的表达可获得细胞内RNA,提供存储在DNA内的转录事件的分子记忆。 b,RNA-seq和Record-seq的比较。 RNA-seq在单个时间点捕获一群细胞的转录组,提供细胞事件的瞬时快照。 相比之下,Record-seq永久性地将关于先前转录事件的信息存储在CRISPR阵列中,提供可用于重建随时间发生的转录事件的分子记录。

 

通过FsRT-Cas1-Cas2获得CRISPR间隔区

我们开始鉴定RT-Cas1-Cas2 CRISPR获得复合物,其可以在大肠杆菌中异源表达时直接从RNA获得间隔序列。我们鉴定了121个RT-Cas1直向同源物,并选择其中14个用于功能表征。我们从也含有其预测的CRISPR阵列的质粒中过表达相应的RT-Cas1和Cas2蛋白。 使用前建立的间隔序列获得测定,我们发现仅测试的一个直系同源物(F. saccharivorans)主动获得新的间隔序列。内源性F. saccharivorans基因座含有两个CRISPR阵列,并且我们观察到来自过表达质粒以及大肠杆菌基因组的新型间隔区被获得到任一阵列中。

 

CRISPR扩展阵列的选择性富集

 

使用先前建立的间隔序列获得测定,我们获得了对于FsRT-Cas1-Cas2的每100万深度测序读数大约1,300个新获得的间隔区。为了改进新型间隔序列的检测,我们开发了“扩增的CRISPR阵列的选择性扩增”(selective amplification of expanded CRISPR arrays;SENECA),这是一种选择性扩增获得新间隔序列的CRISPR阵列的方法(图2a)。典型的SENECA辅助的Record-seq实验使用从过量表达FsRT-Cas1-Cas2的大肠杆菌的过夜培养物中提取约180 ng质粒DNA,并且每100万个测序产生950,000个总间隔序列(图2a)。使用Record-seq,我们容易地证明了FsRT-Cas1-Cas2在各种大肠杆菌菌株和整个生长期中的体内活性。

 

图2a

 

FsRT-Cas1-Cas2直接从RNA获得间隔序列

 

为了确定FsRT-Cas1-Cas2是否直接从RNA获得间隔序列,我们使用自剪接td group I内含子。该内含子是功能性核酶,其催化其自身从前mRNA的切除,从而在DNA水平上不存在的特征性剪接点。我们基于间隔序列高度采样的基因构建了三个内含子中断构建体,即cspA,rpoS和argR(图3a)。在表达这些构建体后紧接着Record-seq,我们观察到跨越剪接点的独特间隔区(图3a,b)。为了排除从大肠杆菌中通过非特异性逆转录酶活性产生的扩展互补DNA拷贝获得含有剪接点的间隔区的可能性,我们对从表达td内含子构建体的培养物中提取的基因组DNA进行了靶向深度测序,并发现在DNA水平上不存在剪接点。

 

为了进一步验证这一发现,我们使用肠杆菌噬菌体MS2。MS2噬菌体在其生命周期中作为有义和反义单链RNA存在,但没有DNA中间体。鉴于MS2噬菌体需要F菌毛进入细胞,这在大肠杆菌BL21(DE3)细胞中缺失,我们转向大肠杆菌K12菌株NovaBlue(DE3)。在用MS2噬菌体感染表达FsRT-Cas1-Cas2的细胞后,我们可以容易地观察到从整个MS2基因组中取样的新型MS2-比对间隔区(图3c-e)。 MS2比对间隔区与质粒或宿主基因组没有序列相似性,证实了它们的特异性。总之,FsRT-Cas1-Cas2能够直接从外源RNA获得间隔区,从而提供入侵病毒的分子记忆。

 

图3

 

使用Record-seq记录任意转录本

为了评估FsRT-Cas1-Cas2定量记录转录事件的可能性,我们使用诱导型表达系统直接确定是否根据RNA丰度获得间隔区。相应的构建体在脱水四环素(aTc)诱导的PtetA启动子的转录控制下含有绿色荧光蛋白(sfGFP)或海肾荧光素酶(Rluc)基因。我们将这些构建体引入以递增水平的aTc培养的大肠杆菌中,随后分别用逆转录和Record-seq收集总RNA和质粒DNA用于定量PCR。在增加sfGFP或Rluc的诱导后,与各自的编码序列对齐的间隔序列的覆盖度存在一致的剂量依赖性增加(图3e)。我们量化了这种反应并观察到间隔序列计数和绝对mRNA拷贝数或培养基中的aTc浓度之间的线性关系。

 

此外,sfGFP比对间隔序列很容易在基因组比对间隔序列的背景下检测几乎一个数量级,这与在PtetA使用强合成诱导型启动子一致。值得注意的是,与组成型表达的KanR基因对齐的间隔区不依赖于aTc浓度(图3f)。为了进一步推广这些发现,我们评估了第二个诱导型表达系统,将萤火虫荧光素酶(Fluc)基因置于3-氧代己酰基-高丝氨酸内酯(3OC6-HSL)诱导型PLuxR启动子的下游。感应导致Fluc对准间隔序列增加了四倍。此外,结合aTc诱导型PtetA和3OC6-HSL诱导型PLuxR转录系统使得能够并行地正交记录两个独立刺激(图3g)。这表明Record-seq与看似任何可诱导的表达系统相容,从而能够在活细胞群内记录多组正确定义的刺激。总之,这些结果表明从RNA获得CRISPR间隔序列可以产生累积转录物丰度的可量化记录,并且还使用标准分子和测序方法有效地检索转录记录。

 

Record-seq显示累积高表达的基因

考虑到FsRT-Cas1-Cas2以丰度依赖的方式直接从RNA获得间隔区,我们研究了这是否能够对累积的细胞转录组进行定量。我们收集了Record-seq的质粒DNA和来自过表达FsRT-Cas1-Cas2的大肠杆菌培养物的RNA-seq的总RNA(图4a)。因此,间隔序列从高度转录的基因系统地获得,并代表累积的转录物表达。

 

图4

转录组规模记录显示细胞行为

 

为了确定Record-seq是否可用于记录和描述复杂的细胞行为,我们转向大肠杆菌中充分研究的氧化应激和酸应激反应。我们对表达FsRT-Cas1-Cas2的氧化和酸胁迫刺激的培养物进行了Record-seq,并使用无监督的层次聚类和主成分分析(PCA)分析了累积表达计数。两种方法都成功地区分了条件,表明Record-seq捕获了不同的分子历史(图4b-e)。为了鉴定累积差异表达的基因,我们利用为RNA测序开发的标准差异表达分析工具。为了克服各个工具的特定偏差和假设,我们使用了三个互补工具,即DESeq2,edgeR和baySeq。在用每种工具鉴定差异表达的基因后,我们基于每个分析的前20个差异表达基因的联合为每个刺激产生一组特征基因,我们将其分层聚类并绘制其表达值(图4f,g)。在这些特征基因中,我们确定了几种预期会在每种刺激中主导细胞反应的因素。我们通过Record-seq研究了评估复杂细胞行为所需的最小细胞数,发现8.8×106细胞足以对治疗条件进行适当分类。总之,这些数据支持这样的观点,即存储在CRISPR阵列中的RNA衍生的间隔序列可用于重建复杂细胞行为的转录反应。

 

 

除草剂暴露下,哨兵细胞的瞬时编码

为了确定Record-seq是否可以用于产生前哨细胞,我们使用除草剂百草枯并测试Record-seq是否可以捕获剂量依赖性和瞬时暴露。百草枯是一种抑菌除草剂,可导致微生物中的超氧阴离子生成,由于其对人类的急性毒性和用于自杀,因此在许多国家被禁用。使用改进的FsRT-Cas1-Cas2表达构建体,我们将大肠杆菌培养物暴露于增加浓度的百草枯并通过Record-seq检索转录记忆。在不同处理条件下对累积基因表达的定量显示,使用无监督的层次聚类和PCA,样品很容易分类为暴露组(图5a,b)。此外,特征基因在大肠杆菌中捕获剂量反应性和规范的百草枯暴露基因(图5c)。例如,在签名基因中我们发现了ahpC和ahpF,它们编码先前显示的烷基氢过氧化物还原酶的两个亚基,以促进由百草枯引起的活性氧物质(ROS)的清除。

 

此外,我们鉴定了一组参与半胱氨酸代谢的cys-regulon基因,即cysC,cysJ和cysK,它们已被证明可促进大肠杆菌中的百草枯抗性。我们接下来确定Record-seq是否也能捕获生理范围内的短暂百草枯暴露。在用百草枯瞬时刺激培养物后(图5d),我们分别量化了Record-seq和RNA-seq数据集的累积基因表达和基因表达。然后,我们评估了这两种方法是否能够利用PCA捕获瞬时百草枯暴露(图5e,f)和差异表达的特征基因聚类。这些分析表明,Record-seq而非RNA-seq能够捕获瞬时百草枯暴露(图5e,f)。总之,这些结果表明,RNA-SEQ不能捕获百草枯曝露的细胞转录信息,但前哨细胞的CRISPR阵列的DNA内的分子存储器内保留了百草枯暴露信息。

 

讨论

在这里,我们描述了Record-seq,一种将转录组规模事件编码到DNA中并评估细胞群的累积基因表达的技术。我们通过记录特定和复杂的转录信息证明了它的潜力。首先,为了改进现有的间隔序列读数方法,我们开发了SENECA,与最近的报告相比,使间隔序列检测效率提高了数千倍,从而能够深入表征FsRT-Cas1-Cas2及其应用作为分子记录器。我们的研究结果表明RNA衍生的间隔区优先从富含AT的丰富转录本的末端获得,没有PAM,并且在转录组规模上进行广泛取样,从而能够对累积转录物表达进行平行定量。

 

在一组实验中,表明在增加任意序列的诱导时,间隔序列以正交的、剂量依赖性的方式获得并且与细胞中的绝对mRNA拷贝数高度相关,从而证明分子记录忠实地概括了以可预测的方式进行初步刺激。这也为越来越多路复用和正交的分子记录装置铺平了道路。在诱导复杂的细胞行为后,Record-seq提供了有意义的转录组规模的分子事件记录,超过了仅记录特定刺激的当前分子记录技术的能力。最后,我们使用Record-seq来阐明对抑菌性除草剂百草枯的复杂细胞反应的剂量依赖性特征,并且已经显示Record-seq而非RNA-seq可记录短暂的百草枯刺激。

 

虽然还需要额外的工作来极大地提高Record-seq在更少的细胞内编码更丰富,更动态的表达和谱系信息的能力,但我们的原理验证实验引入了一种强有力的工具,用于在DNA中永久记录转录组规模事件用于后来从细胞群重建复杂的分子历史。记录的转录历史反映了潜在的基因表达变化,因此可用于询问生物或疾病过程。从长远来看,我们设想可以将CRISPR间隔区获取组分引入其他细胞类型,以记录事件的分子序列和谱系路径,从而产生特定的细胞行为,细胞状态和类型。