miRNA杂谈:你所不知道的miRNA
在miRBase中,我们看到的miRNA序列是这样的:
整个Deep sequencing的结果是miRNA前体的序列,第一个圈表示的是5p的序列,第二个圈表示的是3p的序列,而每个碱基上面的柱子表示的是在测序结果中出现的reads数量。在不同测序结果中,miRNA序列的结果会有个别碱基的区别,可能这个测序结果认为miRNA序列是A(BCDEF)G,另一个认为是A(BCDEFG)。导致结果不同的可能原因有:1、测序时,miRNA前体的标志性发卡(Hairpin)结构能够用来预测新的miRNA。对于未知序列,会将其比对到基因组并取其自身和附近的一段序列,通过二级结构的折叠模型分析,来预测新miRNA序列信息与二级结构。通过折叠模型分析,若能形成经典的茎环结构且序列都处于发夹结构的臂上,符合miRNA的二级结构特征,则初步判定该序列为一个候选的新miRNA,这计算和预测的过程中可能会存在偏差和不同;
2、测序本身可能产生偏差,这方面的原因就比较多了,这里就不赘述了。
所以miRBase上的标准序列,其实指的是有测序中得到的reads数量最多的结果。当然可能有例外,比如hsa-miR-383-3p,它只有一个read,所以它的标准序列参考了小鼠的序列。(从序列上对miRNA进行注释时,对于没有已知miRNA的物种,可以与近缘物种已知的miRNA进行比对,给该物种的miRNA注释作为参考)
小鼠序列比实际测序结果左边多了CC两个碱基:
相似性与同源性
既然hsa-miR-383-3p能够参考mmu-miR-383-3p的序列,也就是说这两者之间存在生物序列的相似性,又或者说这二者是同源的。这里要说的是相似性和同源性常常被误用。
生物序列的相似性(Similarity)
相似性是指一种很直接的数量关系。比如说,A序列和B序列的相似性是80%。这是一个量化的关系。
同源性(Homology)
同源性是从一些数据中推断出的两个基因或者蛋白质序列具有共同祖先的结论,属于质的判断。比如说,A序列和B序列的关系只有同源序列或者非同源序列两种关系,A和B的同源性为80%的说法是不准确的。
一般来说,序列的相似性越高,它们是同源序列的可能性越高,所以经常可以通过序列的相似性来推测序列是否同源。
基因保守性
可能不少童鞋在做miRNA研究之前,都会做一个工作,确定该miRNA的保守性。为什么要确定该miRNA的保守性呢?
其实不光是miRNA,其它基因的研究也需要考量基因的保守性。一般来说保守的基因通常比较好做,我们利用各种模式生物进行基因相关的实验,最终目的是为了研究人类基因的功能, 即研究我们的共处,而非异处。首先我们默认这样一个前提:相似的基因序列会有相似的功能。如果所选基因不存在保守性,那么你如何确定该基因在模式物种中的功能与在人类中的功能是一致的呢?而如果我们通过序列比对证明基因的序列具有保守性,那么我们就能够通过研究该miRNA在模式生物中的功能来反推在人类中的功能。
而非保守的基因,它通常可以被代偿,它的功能很难确定,导致研究很难做。之前在知乎上看到一个例子说保守基因和非保守基因的区别,本宫觉得说的不错,这里借用一下:
举个例子,一个城市里只有公交车。
比如说你研究学校到寝室的公交车线路,一共有十多条公交可以从寝室到学校,然后你敲除了四五条公交线路,学生还是能从寝室到学校,你这个时候难道能说:我们发现,被敲除的这些公交车对于学生能否从寝室到学校是没有显著性联系的。
但是如果你研究寝室到机场的线路,只要敲除机场大巴线路,就不能从寝室去机场了。
保守的基因通常是生命活动必须的,因为在进化的过程中,这段保守序列始终存在,不存在这段保守序列的都挂了。当然也会有例外,有研究敲除了小鼠中一个lncRNA的一小段保守序列,然而没有发现任何表型变化(找不到文章名字了,知道的童鞋可以在留言处留个言)。
用Blast验证基因序列保守性
保守性的验证可以用Blast实现。有关Blast之前有介绍过一大波工具、数据库丢你一脸,这里讲讲Blast在保守性验证上的用法。当然了保守性验证也可以用UCSC Genome Brower,详见如何查询分子的物种保守性?。
我们还是看miR-383。
我们比对hsa-miR-383前体的序列,
结果如下图,在多个物种中,其序列都能完全匹配上,所以我们可以说hsa-miR-383具有保守性。
要研究miRNA的功能,离不开它的靶基因。
鉴定miRNA靶基因的最常用方法是依赖计算机算法,如TargetScan、MiRanda和PicTar。它们预测miRNA种子区的结合。种子区(Seed region)指的是miRNA上进化最为保守的片段,从第2个到第8个核苷酸,通常与mRNA 3’-UTR上的靶位点完全互补。
每种软件都有自己独特的一套算法规则,但主要遵循以下几个基本原则:1、miRNA 与其靶位点的互补性;2、miRNA靶位点在不同物种之间的保守性;miRNA-mRNA 双链之间的热稳定性;3、miRNA 靶位点处不应有复杂的二级结构等。当然,具体允许有多少个错配,哪里有错配,这就因算法而异了。
然而,这种鉴定通常会有偏差,因为动物miRNA:mRNA双链往往含有错配、缺口或凸出,而且目前明确的miRNA靶基因并不多,在算法编写过程中没有足够的样本可以参考。
除了计算机方法,实验鉴定靶基因的方法可以用芯片或者测序。
我们可以提高或抑制miRNA的活性,然后通过芯片分析或RNA-Seq来研究mRNA表达的变化(一般来说,芯片更快一点,而测序更深一点)。通过瞬时转染或病毒转导来过表达miRNA或模拟物,可以提高miRNA活性,不过要小心脱靶效应(Off-target effect)。同样地,通过反义核酸或miRNA抑制剂,可以抑制miRNA的活性。之后利用基因芯片分析mRNA的变化可找出相应miRNA的靶基因。
预测之后,miRNA的靶基因还必须经过验证。这个过程与一开始寻找靶基因的过程相似,也就是抑制或过表达miRNA,然后检查mRNA或蛋白水平的反应。
目前最常用的方法是荧光素酶报告基因法。首先,构建荧光素酶表达载体,将希望鉴定的miRNA靶基因的3’UTR插入荧光素酶基因的3’UTR中,然后将构建好的重组载体转染到细胞中,并改变miRNA的表达水平,最后检测荧光素酶的表达情况,以分析3’UTR中是否含有miRNA的靶位点。
好了,有关miRNA今天就天马行空的扯到这里了,更多有关miRNA的实验技术,尽在荔枝微课益加医。
https://m.lizhiweike.com/channel/520208返回搜狐,查看更多