[2017GCTA]荣之联极道生物数据平台全解析

发布于 2017-06-29

自从20世纪80年代人来基因组测序计划启动以来,生命科学进入了高速发展阶段,越来越多的生物基因测序完成,各种高通量技术引起生物数据的快速增长,在短短几十年时间里积累了大量的数据。如何处理和分析这些庞大、复杂的生物数据,是大数据时代我们面临的主要问题。


(荣之联生物数据平台总经理吴江)

2017年6月29日,第二届基因组云计算技术开发者大会上,荣之联生物数据平台总经理吴江与大家分享了荣之联极道生物数据平台,吴江表示,集生物信息计算、存储、数据管理和分析为一体的生物数据平台,包括存储集群、数据挖掘集群、基因组分析计算集群,满足了以数据为中心的智能化数据平台的生命科学研究的市场需求,让生物数据的价值大放异彩。


(荣之联极道生物数据平台)

数据存储
在经过仔细研究、分析生物信息和基因分析应用后,荣之联针对不同的应用场景,不同的IO模型,以及不同的空间密度和性能需求,设计出三个系列的横向扩展集群存储,采用不同系统结构设计,但都允许透明的横向扩展容量和性能。生物计算卸载技术,能融合应用容器和存储系统,允许生物计算将非计算密集型任务卸载给存储控制器,让存储节点参与计算和数据移动。

数据管理
生物信息、基因应用除了产生了大量的数据以外,还拥有海量的元数据。处理生物数据的复杂性,极道数据管理采用专利的Metahunter和MetaView技术。MetaHunter追踪数据和元数据的变化,自动提取数据特征信息,有效结合基因数据和临床数据,转换大体量的基因“胖数据”到大数据。而MetaView技术结合生物数据的多种元数据,不用关心数据的位置,就能实现数据发现、数据组合、多维度数据观察,帮助存储管理员理解他们的数据和元数据。

数据计算
极道数据系统采用了GATK和其他基因分析工具全容器化设计,所有核心软件组件均为独立容器。极道数据系统内嵌Jail容器可以卸载非计算密集型生物信息,大大减轻了计算集群的负荷。极道数据系统结构灵活,可以在特定硬件配置下做到基因计算和数据集群合二为一,同时内嵌极道Bioflow基因分布式计算调度系统,调度器集群分布式设计消除了传统分布式计算环境中调度器自身的瓶颈,完成跨集群(多个计算/存储集群)调度生物作业任务,实现便捷的作业管理和流程管理。

数据洞察
极道数据分析系统根据多维度数据特征,利用网络可视化算法和工具,可视化数据特征之间的关系和关联,协助生物、基因公司寻找海量数据特征之中蕴藏的秘密,定性指导生物信息,基因分析的研究方向。

在互联网不断发展和普及的时代,大数据和云计算已经渗透到人们的生活的各个方面并广泛应用于各个领域。云平台与生命科学领域的结合势必会为生命科学研究带来无限的可能性,为基因组学研究带来创新的解决方案,加快基因组学相关科学研究进展,促进生命科学领域快速发展,为人类的健康事业做更大的贡献。