北京基因组所生命组学数据资源建设获进展,北京基因组所生命与健康大数据研究取得进展

1月4日,《国际核酸研究》(Nucleic Acids
Research)数据库专刊,连登四篇中国科学院北京基因组研究所生命与健康大数据研究成果,包括生命组学数据资源建设成果、实时定量PCR内参基因知识库——ICG(Internal
Control
Genes;D121-126),甲基化数据库Methbank升级版以及基因组序列变异库——GVM(Genome
Variation
Map;D944-949)。四篇文章的发表,标志着我国综合型生物信息资源库建设获得国际同行进一步认可。

近日,中国科学院北京基因组研究所生命与健康大数据中心团队题为The BIG
Data Center: from deposition to integration to translation

的研究论文被国际学术期刊《核酸研究》(Nucleic Acids
Research
)在线发表。该研究成果的发表是国内首次以数据中心为模式,整体发布我国生命组学数据资源建设情况,标志着生命与健康大数据中心建设取得实质性重要进展,也标志着我国建设综合性基因组数据资源获得国际同行认可。

自上世纪60年代以来,国际生物信息学家建立了一系列的数据库。特别是上世纪90年代,随着人类基因组计划的展开以及网络在全球普及,数据库数量和体量迅猛增加,形成了以NCBI、EBI、DDBJ等为代表的多个国际大数据中心。随着测序技术不断发展,我国已成为国际基因组数据最大产出国之一,但我国产出的组学数据绝大部分必须提交到国外数据库才能得到认可。据Database
Commons数据库统计,我国数据库资源总数已位居世界第二,但大部分数据库没有进行长期运行维护,严重缺乏深度人工审编,数据库内容边缘化,最终结果是大量数据库资源质量不高,利用率低。

生命与健康大数据中心建成面向国家大数据发展战略的多层次生物组学数据资源系统,包括基于高通量测序的原始组学数据归档库(Genome
Sequence Archive,GSA),围绕国家重要战略生物资源的基因组数据库(Genome
Warehouse,GWH)、基于测序数据的基因表达数据库(Gene Expression
Nebulas,GEN)、基于中国人群以及国家重要物种群体的基因组变异数据库(Genome
Variation
Map,GVM)、基于全基因组DNA甲基化图谱的表观基因组数据库(Methylation
Bank,MethBank)以及基于大众审编(Community
Curation)的生命科学维基知识库(Science
Wikis),初步形成我国生命与健康数据汇交与共享平台,具备可服务于全球的基因组数据共享网络。

北京基因组所面向国家大数据发展战略和科技创新战略,成立生命与健康大数据中心,建立生物大数据储存、整合与挖掘分析研究体系,构建的GSA(Genome
Sequence
Archive)数据库已开展原始组学数据存储与共享服务,并与国际接轨,存储的数据已支持Cell、Nature
Communications、PNAS、Genome
Research等杂志文章发表,建成我国生物大数据汇交共享平台,成为继NCBI、EBI、DDBJ之后第四个综合基因组权威数据库。同时,建成生物大数据多层次组学层面的数据资源体系,包括基因组归档数据库Genome
Warehouse、基因组变异数据库Genome Variation Map、基因表达数据库Gene
Expression Nebulas、甲基化数据库Methylation Bank、生物知识库Science
Wikis,对我国科学研究和产业创新发展起到了重要支撑作用。

国际三大数据中心(NCBI、EBI、DDBJ)对全球生物数据长期占据着主导地位,北京基因组所生命与健康大数据中心(BIG
Data
Center),作为北京基因组所的重要研究单元,承担相关公共数据库资源体系的研究与建设,面向我国人口健康和社会可持续发展的重大战略需求,围绕国家精准医学和重要战略生物资源的组学数据,建立海量生物组学大数据储存、整合与挖掘分析研究体系,发展组学大数据系统构建、挖掘与分析的新技术、新方法,建设组学大数据汇交、应用与共享平台。

生命与健康大数据中心研究员章张、高级工程师赵文明以及研究员肖景发为该文共同通讯作者。该研究得到中科院战略性先导科技专项、中科院国际大科学计划、国家“863”项目、国家“973”项目、国家自然基金项目、中科院百人计划等项目基金的资助。