已排序的基因组如何存储和共享?

基因组测序、组装和注释完成后,需要以一种所有人都能轻松、自由获取的格式来共享它。这可以通过一个叫做基因组浏览器的数据库来完成。

什么是基因组浏览器?

  • 基因组浏览器是用于显示基因组数据的在线图形界面。
  • 一次基因组序列已经组装和注释信息需要存储在数据库中,以便与世界各地的许多人共享。这些数据的可视化是通过一个基因组浏览器完成的。
  • 让数据以这种方式公开获取并易于可视化,对于帮助支持和推动全球的科学研究非常重要。
  • 基因组浏览器的示例包括:
    • Ensembl.这是欧洲生物信息研究所(EBI)和英国威康基金会桑格研究所(Wellcome Trust Sanger Institute)的联合项目。EBI是欧洲分子生物学实验室(EMBL)的一部分。
    • 加州大学位于美国西海岸的加州大学圣克鲁兹分校的一个基因组浏览器。
    • 国家生物技术信息中心信息(NCBI)地图查看器,位于美国马里兰州,提供了各种各样的数据来自基因组映射和测序数据。
  • 1999年,就在人类基因组计划(human genome Project)发布第一份人类基因组草案之前,该计划启动了。
  • 人类基因组发布15年后,Ensembl现在有大约80个基因组注释和存储,其中大部分来自脊椎动物但也有三种无脊椎动物(即果蝇、酵母和蠕虫)。Ensembl的姐妹项目,Ensembl基因组,涵盖更多的无脊椎动物:后生动物,植物,真菌,原生生物,和细菌。
  • UCSC成立于2001年,最初是为了展示人类基因组的草图序列。
  • 拥有一个基因组浏览器的最初目标是显示人类基因组序列,并提供一个平台让人们“浏览”和分析脱氧核糖核酸序列。
  • 不同的基因组浏览器协作共享数据和想法,以确保以一致和统一的方式显示数据。
  • 浏览器上的信息,如Ensembl, UCSC和NCBI可以免费查看,任何人在任何地方都没有限制。唯一的先决条件是有网络连接!

可用的数据是什么,它在浏览器上是什么样子?

  • 像Ensembl和UCSC这样的基因组浏览器使用彩色和交互式图形以集成的方式显示复杂的数据。
  • 许多基因组浏览器上的显示的基本结构是在屏幕上水平地显示基因组序列,其具有根据键的特定颜色和形状呈现的某些元件。

从Ensembl基因组浏览器中拍摄的屏幕截图,显示了人类染色体的基因和其他感兴趣的其他特征(参见全尺寸版本在这里)

  • 每一个物种它在浏览器上有自己的页面,可以让你查看和下载DNA序列,并探索有关该基因组的其他更具体的信息。
  • 数据保存在数据“轨迹”中,可以根据你想观察的基因组的哪个方面打开或关闭。例如,您可以查看蛋白质比对,的遗传变异,基因等等。
  • 要找到特定的基因或基因组区域,用户可以输入该基因的名称(例如,乳腺癌易感基因1)或某一特定位置染色体使用基因组坐标(例如:17:43044295-43125483)。然后,用户将能够探索该区域的特定数据,并根据自己的意愿定制视图。
  • 除了分析单个物种的基因并获取相关信息外,基因组浏览器还允许你比较不同物种的基因和基因组区域。
四种类人猿的基因组及其进化亲缘关系的比较图。图片来源:基因组研究有限公司

四种类人猿的基因组及其进化亲缘关系的比较图。图片来源:基因组研究有限公司

  • 你可以探索遗传变异并找出与特定疾病或特征相关的遗传变异位于染色体上。
  • 从染色体的概述,你可以放大找到序列基地在DNA中(A, C, G和T)。

截图来自于Ensembl基因组浏览器,显示了人类16号染色体的碱基序列的放大视图(见完整尺寸版本)在这里)

  • 基因组数据的数量取决于你所观察的物种。例如,由于许多科学家正在研究人类基因组数据,人类是可以获得最多数据的物种。相比之下,目前关于食蚁兽的基因组信息非常少。

一个土豚。图片来源:来自Flickr的Cucombre Librecc by 2.0

数据多久更新一次?

  • Ensembl每两到三个月发布一个新版本的数据库,作为其“发布周期”的一部分(您可以阅读更多关于它的信息在这里)
  • 除了数据更新,基因组浏览器还可能发布新的工具和方法来可视化数据。
  • 当进行更新时,旧版本仍然可以在其存档中查看。
  • 像Ensembl和UCSC这样的基因组浏览器在不断进化。浏览器上的数据总是在变化,所以对于使用浏览器的人来说,保持最新的版本是很重要的。
  • Ensembl确保浏览器保持用户友好,直观和可靠的界面。

谁会使用基因组浏览器?

  • 有效地使用基因组浏览器,一些先验知识遗传学分子生物学需要理解数据是关于什么的,以及界面显示的是什么。
  • 基因组浏览器,如Ensembl,被来自不同群体的科学家使用:
    • 湿实验室科学家-直接研究生物材料的实验室科学家。
    • 生物信息学家-创建数学模型和复杂的计算机程序来收集、查看和分析生物数据,如遗传/基因组数据的计算机科学家。
    • 临床医生——他们检查人类基因组,以帮助开发诊断疾病的新工具。
    • 教师——在课堂上使用浏览器来支持他们的分子生物学和遗传学教学。

数据从何而来?

  • 基因组浏览器上的数据来自与各种研究项目和数据库的合作,如国际核苷酸序列数据库协作(INSDC)、单核苷酸多态性数据库(dbSNP)、DNA元素百科全书(ENCODE)和1000个基因组计划。
    • INSDC是欧洲生物信息学研究所(EMBL-EBI)、NCBI和日本DNA数据库(DDBJ)的合作项目。这就是基因组浏览器(如Ensembl)获取原始基因组序列的地方。
    • dbSNP是由美国国家生物技术信息中心(NCBI)开发和托管的免费、公共、在线档案。它的目标是为任何生物体的遗传变异(SNPs和一系列其他变异)提供一站式数据库。
    • ENCODE是人类基因组计划的后续研究项目。它的目的是识别和表征人类基因组的所有功能部分,以揭示其实际工作原理。
    • 1000个基因组项目是第一个旨在序列序列大量人群的基因组,以产生详细的人类遗传变异目录。
  • 在加载到数据库并在基因组浏览器中显示之前,数据会经过处理和排序,以便以一种更友好的方式呈现给浏览信息的人们。

我们如何从基因组序列到基因组浏览器?

  • 一旦组装公开,基因组浏览器就可以使用“生物学证据”开始注释,这样基因和转录本就可以被识别。
  • 这种生物证据的形式是核苷酸氨基酸序列,所有这些都需要与我们所掌握的有关该生物体的所有其他遗传信息相结合。
  • 这样做的第一步是将生物证据与该生物体的参考基因组(组合)进行映射和对齐。
  • 然后运行软件来识别序列与基因组的对应位置,并将带有外显子和内含子的基因结构绘制出来并显示在浏览器上。
显示基因的结构的例证。图片来源:基因组研究有限公司

显示基因的结构的例证。图片来源:基因组研究有限公司

  • 然后,这些信息可以与这些基因的功能、它们与什么疾病或特征相关,以及其他基因组信息相结合。
  • 底层数据也经常经历质量检查和评估。
  • 执行这些质量检查有时会导致向数据库上传新数据和在基因组浏览器上显示数据的延迟。然而,这是一个必要的步骤,以确保数据质量保持在用户社区下游分析的高标准。
  • 整个过程通常需要大约两到三个月,从收到基因组序列和生物数据到浏览器上的新版本的释放。

最后更新于2016-01-25