基因组分析
在获得生物的基因组信息后,我们希望通过分析基因组信息获得其遗传特性。基因组分析的主要目的是在基因组水平对物种有更好的认识:一种是对自身的认识,研究自身基因组的特点,例如基因组上哪些区域对应基因、不同基因的功能是什么、哪些区域对应非编码 RNA、哪些区域是重复序列、哪些区域编码特殊基因组元件等;另一种是通过比较不同物种的基因组变化,寻找物种间基因组的差异(包括单碱基和染色体变化),研究生物进化等。
基因组分析主要包括基因预测、基因功能注释、非编码 RNA 分析、小 RNA 分析、重复序列分析、其他基因组特征分析、共线性分析和在线序列分析等。这里的一些基因组分析非常基础,很多时候并不需要自己再重新分析一遍,比如我专注的人类基因组,各种人类基因组计划已经将基因区域、基因功能注释等基因组上的分析完成。我们在此只简单总结一下各分析的作用和目的。
基因预测
基因是控制生物体性状的基本单位,在生物数据挖掘过程中,最终都是围绕基因展开的。我们需要知道基因执行哪些功能,即使是在比较基因组学研究中,最终检测的变异位点都需要对应到基因上,查看突变对基因产生了哪些影响。准确找出基因组上的基因,是一项重要且非常基础的工作。
预测基因方法:
- 利用软件对物种基因组直接进行预测;因为基因通常包含开放阅读框,具有一定的规律结构。
- 通过同源序列比对,与已知近源物种基因集进行比对,将同源对比结果筛选出来,作为基因。
开放阅读框:开放阅读框是指从 5’ 端的起始密码子(ATG)到终止密码子(TAA、TAG、TGA)的蛋白质编码碱基序列。每个序列都有六个可能的开放阅读框,其中3个从第1、2、3个碱基位点开始并沿着给定序列的 5’->3’ 方向延伸,另外3个从第1、2、3个碱基位点开始并沿着互补序列的 5’->3’ 方向延伸。在开始这项工作之前,我们并不知道 DNA 双链中的哪一条单链是编码链,也不知道准确的翻译起始点在哪里。我们的目的就是从这6个可能的开放阅读框中找出一个正确的开放阅读框。根据这个开放阅读框翻译得到的氨基酸序列才是真正表达的蛋白质产物。
基因功能注释
在获得一个基因组的基因集之后,就需要对这些基因做基因功能的注释,了解这些基因具有哪些功能,参与哪些生物过程。只有了解基因的功能后,我们才能对基因型和表型的关系有更深刻的认识。
ENCODE计划:又称人类基因组元件百科全书计划,是2003年在人类基因组计划完成之后,紧接着的又一个大型的国际科研项目,是人类基因组计划的后续。
注:基因功能通常通过与数据库比对获得,利用已知信息推测未知信息。
基因功能分类
在知道了单个基因的功能之后,基因需要相互作用协同来完成生物功能,因此我们还需要对基因功能做一些分类,如功能显著性富集分析。
- COG数据库:蛋白质相邻类的聚簇。该数据库对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。对于预测单个蛋白质的功能和整个新基因组中的蛋白质功能非常有用。
- Gene Ontology (GO): 基因注释是对基因产物的功能描述。
- 具有特定的分子功能(molecular function)
- 涉及到特定的生物过程(biological process)
- 作用在特定的细胞组分(cellular component)
- KEGG数据库:基因组百科全书。
非编码 RNA 分析
DNA、RNA 和蛋白质是三种重要的大分子,传统的观念认为 DNA 携带着遗传信息,蛋白质体现生物功能,而 RNA 在这二者之间起传递信息的桥梁作用。
人体的每个细胞都含有相同的染色体,但为什么最终会分化为不同的形态并执行不同的功能呢?这是因为转录和翻译过程中产生的 RNA 不同。
RNA 分类
- Coding RNA,也就是我们常说的 mRNA;
- Non-Coding RNA,如核糖体 RNA、转运 RNA、核仁 RNA、小 RNA 等。
- 很多都来自基因组的非编码区;
- 人类基因组中只有约 10% 的区域是基因区,编码区仅占 1% 到 1.5%。以前认为 90% 以上的区域没有作用,现在已经证实这些非编码区域也参与转录,并且往往起到表达调控的作用。
- 重要的非编码 RNA 分析及其生物学意义
- 核糖体 RNA(rRNA):是含量最丰富的一类 RNA,也是三类 RNA(tRNA、mRNA、rRNA)中相对分子质量最大的一类 RNA。它与蛋白质结合形成核糖体,其功能是作为 mRNA 的结合位点,使 mRNA 分子在其上展开,从而促进肽链的合成。
- 转运 RNA(tRNA):是生命活动过程中非常重要的生物大分子,在基因转录和翻译过程中起重要作用。
- snoRNA(small nuclear RNAs):是近年来的研究热点,它可以独立转录,也可以由内含子编码。已证明它具有多种功能,反义 snoRNA 指导 rRNA 核糖体甲基化。
- 长链非编码 RNA(Long non-coding RNA, lncRNA):是一类长度超过 200 个核苷酸的非编码转录本,参与多种生物过程。
- 很多都来自基因组的非编码区;
小 RNA 分析
小 RNA 也属于一类非编码 RNA。小 RNA 称为 MicroRNA,简称 miRNA,长约 22 个核苷酸,通过与其靶基因 3’ 非翻译区结合,导致 RNA 诱导的沉默复合体(RNA-induced silencing complex,简称 RISC)降解其靶 mRNA 或者阻碍其靶 mRNA 的翻译。
重复序列分析
基因组上有很多的重复序列,重复序列是物种基因组的一个明显特征。在真核生物中重复序列区域占据很大的比例,例如人类基因组中,重复序列占据了 90% 以上的区域。ENCODE 计划证明超过 80% 的重复序列是有功能的,其中包括大量的非编码 RNA 等。
重复序列可以简单分为散在重复和串联重复。
根据重复序列的重复长度可以分为:
- 卫星 DNA(satellite DNA)
- 小卫星 DNA(minisatellite DNA)
- 微卫星 DNA(microsatellite DNA)
基因组特殊元件分析
- CRISPR 是近几年才发现的原核生物中的调控 RNA 系统。
- CpG 岛是指 DNA 序列上的一个区域,此区域含有大量相连的胞嘧啶 (C) 和鸟嘌呤 (G)。
- 操纵子(operon)指启动基因、操纵基因和一系列紧密连锁的结构基因的总称。它是转录的调控单位。很多功能上相关的基因前后相连成串,由一个共同的控制区进行转录的调控,包括结构基因以及调节基因的整个 DNA 序列。

- 基因岛是有水平转移起源迹象的一部分基因组。一个基因岛可以与多种生物功能相关,能与共生生活病原机理相关,与生物体的适应性相关等。
- 启动子是基因的一个调控元件,是位于结构基因 5’ 端上游区的 DNA 序列,控制基因表达的起始时间和表达的程度。启动子本身并不控制基因活动,而是通过与成为转录因子的蛋白质结合而控制基因活动。

共线性分析
基因组的共线性分析主要是用一种线性图的方式来比较两个或多个基因组是否具有较好的同源性。
共线性图:

