测序后,你如何将基因组放在一起?

DNA测序完成后,从机器中出来的DNA片段都是混乱的。就像拼图拼图一样,我们需要采取基因组的碎片并将它们放回一起。

生物信息学2:装配

面临的挑战是什么?

  • 的技术DNA测序并不是百分之百的准确,因此产生的DNA序列很可能有错误。
  • 因此,考虑到可能发生的错误,每个碱基基因组按次数次序测序,这被称为覆盖范围。例如,30次(30倍)覆盖范围是指基地测序30次。
  • 有效地,您的顺序越多,或“读取”,与DNA的相同部分,你的最终序列是正确的。
  • 目前,在对人类基因组进行高准确度测序时,标准的覆盖范围是30至50倍。
  • 人类基因组计划覆盖范围仅在5到10折之间,并将不同的测序技术用于今天使用的人。由于一些原因,覆盖率增加了:
    • 虽然大多数电流测序技术现在比人类基因组项目的速度快,但是一些测序技术具有更高的错误率。
    • 一些测序技术处理更短的DNA读数,这意味着在组装基因组时更容易发生间隙。具有更高的覆盖率降低了在最终组装序列中存在间隙的可能性。
    • 对较高的覆盖率进行比在人类基因组项目的时间更高的覆盖范围内也更便宜。
  • 高覆盖率意味着在测序DNA后,我们有大量的DNA序列片段(reads)。
  • 从这个角度来看,一旦一个人类基因组被完全测序,我们大约有100千兆字节(1000亿个碱基)的序列数据。
  • 像拼图拼图的碎片一样,这些DNA读出来乱糟糟,所以我们需要将它们搭配在一起并以正确的顺序将它们放入组装基因组序列。

我们需要做什么?

  • 以正确的顺序将各个部分放在一起以构建完整的基因组序列并识别任何感兴趣的领域。
  • 这是通过称为对齐和组装的过程来完成的:
    • 比对是将新的DNA序列与现有的DNA序列进行比较,找出它们之间的任何相似或差异,然后将其排列以显示这些特征。对中是装配的重要组成部分。
    • 组装包括获取大量的DNA序列,寻找它们相互重叠的区域,然后逐渐将“拼图”拼接起来。这是一次重建原始基因组的尝试。这主要是为了德诺维序列

德诺维测序

  • 德诺维测序是指对生物体的基因组进行第一次测序。
  • 德诺维组装没有现有的参考基因组序列,用于该物种用作组装其基因组序列的模板。
  • 如果你知道新的物种与另一种具有参考基因组的物种非常相似,可以使用类似的基因组作为引导来组装序列。
  • 帮助组装德诺维序列身体基因在测序之前,科学家可以开发出地图来标出“地标”,这样科学家就可以知道DNA各部分之间的相对位置。
  • 生成基因图可以是昂贵的过程,因此一些装配程序依赖于由单个和配对读数的混合组成的数据(参见下文说明):
    • 单次读数是DNA片段的一个结束或全部测序的地方。然后可以通过在序列中找到重叠区域以产生全DNA序列来连接这些序列。
    • 配对末端读数是测序DNA片段的两端的位置。成对末端读取之间的距离可以是200之间的任何位置基对和几千。配对结束读数的关键优势是科学家知道两端的差距多远。这使得它们更容易将它们组装成连续的DNA序列。配对结束读取在组装时特别有用德诺维序列,因为它们提供了在没有基因地图的情况下没有否则在没有基因图的远程信息。
显示单个和配对末端读取之间的差异的例证。图像信用:Genome Research Limited

显示单个和配对末端读取之间的差异的例证。图像信用:Genome Research Limited

  • 组装的德诺维序列从DNA的大量短部分或“读取”开始。
  • 这些读取彼此比较,并且共享相同的DNA序列的那些被分组在一起。
  • 从这里开始,它们被逐渐组装成更大的部分,形成长而连续(按顺序在一起)的序列,称为“contigs”。
  • 然后,这些连接点可以与其他技术获取的信息组合在一起,为如何将连接点组合在一起以及放置它们的大致距离提供线索,即使它们之间的序列仍是未知的。这叫做“脚手架”。
  • 组装可以通过将各个脚手架排序到染色体。物理基因图是这样做的有用工具。
  • 最后的组装被传送到下一阶段——注释,这一阶段识别基因和序列中其他特征的起始和停止位置。
  • 基因组的组装是一项计算机密集型的工作。通常每千兆字节的序列需要20个小时左右的时间,基因组装配程序才能将测序机产生的DNA序列读取结果拼接到一起。
  • 因此,随着序列数据的100千兆比序列,我们在测序人类基因组后,它需要2000小时或大约83天才能组装完整序列。

重新开始

  • 这是已知被测序的基因组是从前测序的物种,因此可获得参考基因组。
  • Resequecing是一个可用于描述两个不同过程的术语:
    • 重测序的一种用途是提高该生物体现有DNA序列的质量。
      • 例如,2003年完成的人类基因组计划提供了第一个完整组装的人类基因组序列。
      • 从那时起,科学家们就一直致力于创造一个更高质量和准确性的参考序列。
      • 因此,自2003年以来,人类参考基因组得到了极大的改进,科学家们修正了错误,重新排列了个体contigs的顺序,并填补了序列中剩余的空白。
    • 重新测序的另一种用途是当我们对一个物种的个体的基因组进行测序时,我们已经有了参考基因组,并且了解了一些。然后,我们可以将新的基因组序列与参考基因组序列进行比较,找出它们是如何变化的。
      • 例如,如果新基因组中出现了参照基因组中没有的碱基对变化,它可能会提供关于特定性状或疾病的遗传来源的线索。
      • 自2003年以来的参考人类基因组的可用性允许为1000个基因组项目和UK10K等项目。
      • 2008年启动的1000个基因组计划是第一个对大量人群(至少1000人)进行基因组测序的项目,为人类遗传变异提供了全面的资源。
      • UK10K由2010年的Wellcome Trust推出,旨在分析英国每6,000人中每6,000名个人的DNA,以揭示稀有遗传变异对人类疾病很重要。
      • 2012年底启动的英格兰10万基因组计划将重点关注罕见疾病患者及其家属和患有罕见疾病的患者癌症。通过比较许多基因组并将调查结果与患者的医疗信息相结合,希望他们能够识别常见的遗传趋势,以帮助进行诊断。更好地诊断医生有更好的机会提供最合适的药物。
  • 为了与参考基因组进行比较而重新排序通常不涉及任何装配,因为这已经对参考基因组做过了。相反,使用对齐。这意味着测序后产生的DNA片段或“reads”将与参考基因组进行比较,并与最相似(理想情况下相同)的对应基因放在一起。
  • 一旦所有部分都对齐了,就可以查找单个序列和参考序列之间的差异。

此页面上次更新于2021-04-21