极道生物数据平台

方案概述

荣之联极道生物数据平台(极道 BDP)是专门面向生物信息、生命科学领域的生物数据生态系统,集: 存(数据存储)、 管(数据管理)、 算(数据计算)、察(数据特征分析 )四位一体的解决方案。从根本上解决生物信息行业所面临的数据规模问题,充分利用计算和存储资源,灵活有效的解读高复杂度的生物数据关系和结构,让生物数据的价值大放异彩。



(荣之联极道生物数据生态系统




荣之联极道生物数据平台部署架构图



生物信息数据挑战

在现代生命科学领域,以数据为驱动力的改变正引发着巨大的变革。海量生物数据的分析将会增强对疾病的实时监控能力和对潜在流行病做出反应的能力,但海量数据的挖掘、处理、存储却面临着前所未有的挑战。特别是随着新一代测序技术的迅猛发展,基因组学研究所产生的海量数据正以每12-18个月10倍的速度增长,已远超著名的摩尔定律,这使得众多生物企业和科研机构对数据分析能力和存储的需求越来越高。



产品功能

    【存:数据存储】




    通过对生物信息分析应用负载模型的深入研究,发现单一存储系统很难满足所有的需求。应当针对不同的应用场景,不同的 IO 特点,使用相应的存储系统。

    荣之联极道分布式存储系统是为了解决生物信息数据空间和数据持久化问题而设计的。推出了Alamo-DAnna Alamo三个系列的分布式集群存储系统,分别满足应用对高带宽、高 IO 低延迟和数据归档的需求。

    存储系统采用全分布式架构,数据和元数据均匀分布在各个节点上,消除单独元数据节点的访问瓶颈。可从3节点起动态平滑的进行节点扩展,容量、性能随节点增加而线性增加。而且,存储系统具有生物计算卸载技术,在存储系统中融合了应用容器,可将非计算密集型任务卸载给存储控制器,让存储节点参与计算和数据移动,降低计算节点负载。

    同时多套存储系统能够实现统一部署、统一管理,构成统一的数据空间。通过存储特有的数据感知引擎,实时跟踪记录数据特征,配合数据管理系统,实现快速的数据发现和组织。

    面向生物信息应用特点打造的存储系统:

    • 理解应用场景,极致性能优化
    • 融合应用容器: 计算存储一体化
    • 与“管”结合: 数据感知,多维数据呈现
    • 与“算” 结合: 应用感知,智能数据空间分配


    【管:数据管理】




    • 数据多维有序:荣之联极道数据管理系统能够将海量元数据(工业标准元数据和生物信息用户自定义的元数据)作为数据特征标签加在数据上,实现对数据的查询、统计、排序,让管理员更清楚地知道数据的使用情况;
    • 快速数据发现:荣之联极道数据管理系统以数据为中心,用户不必关心数据路径,可通过任意数据特征快速(秒级)发现数据;
    • 数据重组技术:无需手动将相关联的数据拷贝至固定文件夹,可根据任意属性组合数据,形成虚拟的数据集合,作为计算分析的输入;
    • 数据溯源:在每个阶段的分析结束后都会自动的记录新生成数据的来源(将来源作为一种数据特征),最终实现数据的溯源;


    【算:数据计算】


    荣之联极道分布式计算系统通过为生物信息设计的资源调度和分析计算引擎,灵活高效的组织生物信息分析流程、调度生物信息作业。

    采用分布式的调度器设计,多调度器实例、多调度队列相互协作,负载均衡。能够联合多个计算集群的计算资源,形成统一的调度空间,从根本上避免单个集群的规模瓶颈和单一调度器在多任务并发请求时自身的瓶颈。




    荣之联极道分布式计算系统采用了全容器化设计,所有核心软件组件均为独立容器。在计算调度过程中用户无需关心不同工具版本、库之间的复杂依赖关系和冲突问题。

    • 分布式计算环境,多集群统一调度 - 规模无限
    • 基于容器粒度的调度 - 灵活省心
    • 融合多计算框架,同时调度批量计算与Spark - 兼容并包
    • 面向生物信息的执行引擎 - 简单高效


    【察:数据特征分析】


    荣之联极道数据特征分析系统根据多维度数据特征,利用网络可视化算法和工具,通过对可视化数据特征之间的关系进行关联,寻找海量数据特征之中蕴藏的秘密,定性指导生物信息,基因分析的研究方向。




    客户案例

    相关新闻

    产品推荐

    极道极道生物数据平台