您如何识别基因组中的基因?

在将DNA序列的部分组装成完整的基因组序列后,我们需要识别基因和关键特征的位置,但我们如何做到这一点?

生物信息学3:注释

什么是挑战?

  • 我们有一致性和组装基因组序列,但我们如何识别在哪里基因和基因组的其他功能区域位于?

我们需要做什么?

  • 注释涉及标记基因开始和停止的地方脱氧核糖核酸序列以及其他相关和有趣区域在序列中。
  • 尽管基因组注释管道可以彼此不同,但是,一些元素可以是手动,而其他元素必须自动化,它们都共享一组核心功能。
  • 它们通常分为两个不同的阶段:基因预测和手动注释。

基因预测

  • 有两种类型的基因预测:
    • AB Initio.- 该技术依赖于DNA序列内的信号。它是一种自动化过程,由此计算机被赋予用于在序列中查找基因的指令,然后离开以找到它们。计算机寻找已知在基因的开始和结束时发现的常见序列(如启动子序列(其中)蛋白质绑定在基因上打开),开始密码子(其中基因产品的代码,RNA.或蛋白质,开始)和终止密码子(基因产物的代码结束)。
显示基因的结构的例证。图像信用:Genome Research Limited

显示基因的结构的例证。图像信用:Genome Research Limited

    • 证据为基础- 该技术依赖于超出DNA序列的证据。它涉及从转录序列中收集各种遗传信息(MRNA.)和基因组的已知蛋白质序列。随着这些证据,可以通过向后工作来解决原始DNA序列的想法转录翻译(逆转录/翻译)。例如,如果您才有蛋白质序列,则可以通过制定的方法来计算出可能的DNA序列的家族氨基酸组成蛋白质,然后将密码子的组合可以编码那些氨基酸等,直到你进入DNA序列。
    • 然后将来自这两种预测方法的信息组合并与测序的基因组结合并排列。

手动注释

  • 一旦基因预测完成第二阶段,可以开始手动注释或“策策”。
  • 这是当从预测阶段收集的信息被人看待,以便找到特定基因或回答特定问题。

比较基因组

  • 一旦注释,序列可以与相似或密切相关的生物的已知基因组序列进行比较,以识别任何关键的相似性或差异。
    • 例如,动物的基因组序列数据,或模型生物,可以注释,然后与人的注释序列进行注释。
    • 通过比较它们,可以识别任何类似的基因。例如,小鼠基因组与人类基因组非常相似。
    • 然后可以使用这些信息来研究相似之处表型老鼠和人。例如,一个遗传变异与鼠标中的耳聋有关,但这也是人类的情况吗?
    • 突变体也可以被创建(具有特定遗传药物的生物体突变)为了研究特定基因的功能。例如,该基因与耳发显现,但是当该基因没有运作时,效果是什么?
  • 或者,可以将测序数据与该物种的参考基因组一起放置,以便了解有关特定特征或疾病的起源的更多信息。
    • 2008年推出的1000个基因组项目,旨在产生从世界各地的26个群体的排序约3000名匿名人群的测序中的这些差异的目录。
    • UK10K由2010年的Wellcome Trust推出,旨在分析4,000名健康人的基因组,其中6000人目前患有疑似遗传原因疾病,如严重肥胖症。
  • 一旦测序数据与参考基因组对齐,就可以比较它们以突出差异的差异。
  • 然后将该信息与来自现有基因注释的数据进行比较。
  • 然后可以得出关于差异的重要性以及它们如何影响基因表达的重要性并有助于特定疾病或特质。
显示在β-珠蛋白基因的点突变的例证负责遗传血液障碍β-thalassemia。图像信用:基因组研究有限公司。

显示在β-珠蛋白基因的点突变的例证负责遗传血液障碍β-thalassemia。图像信用:基因组研究有限公司。

  • 注释的速度完全取决于研究问题和充分回答该问题所需的准确性。结果,基因组的注释可能需要几天到几年才能完成。

此页面上次更新于2021-04-21