业立生物——数据储存

数据存储

横向扩展存储

多年存储系统领域的研发经验，让业立相信“没有完美的存储，只有合适的应用。”在经过仔细研究、分析生物信息和基因分析应用后，业立针对不同的应用场景，不同的IO模型，以及不同的空间密度和性能需求，设计出三个系列的横向扩展集群存储：面向生物基因分析的XTAO Alamo 128位分布式文件存储；面向生物应用的高密度Alamo-D分布式文件存储；面向生物分析过程的文件存储，支持生物云PAAS平台应用以及海量生物SAAS应用的Annapurna分布式统一存储。三个系列的横向扩展集群存储采用不尽相同系统结构设计，但都允许透明的横向扩展容量和性能。

高性能

分布式集群存储使能横向扩展容量的同时，更有效的随着存储节点的增加，线性的扩展带宽和吞吐量；针对生物应用、基因分析经过特殊优化设计的集群存储不同于传统的集群NAS，在感知应用IO模式的基础上，最大化发挥硬件的性能；除了标准存储访问协议如NFS等，定制的文件系统客户端，在同等硬件环境下，大大提高了集群存储的整体性能。

稳定可靠

为了给生物应用，基因计算提供稳定可靠的数据空间，业立设计了多种不同的数据保护模式，关键系统元数据绝对多副本保护，数据可靠性和可用性根据应用场景的不同可以选择三种模型：分布式副本，分布式双控RAID，和纠删码。业立数据空间，保证数据的绝对安全。

生物应用融合

业立数据系统采用了全容器化设计，所有核心软件组件，包括文件系统，数据管理，数据分析和基因分析平台模块均为独立容器，这使能了业立数据系统与应用共生的特性。业立数据系统内嵌Jail容器可以卸载非计算密集型生物信息，基因计算任务，大大减轻了计算集群的负荷，提高了计算集群和数据集群系统之间网络带宽利用率。业立数据系统灵活的结构，可以在特定硬件配置下做到基因计算和数据集群合二为一，即承载数据，执行数据管理，同时内嵌业立Bioflow基因分布式计算调度系统，真正做到存储系统，数据管理，基因计算分析超融合。

基因计算调度

业立设计的Bioflow是一个生物信息，基因分析分布式调度器，Bioflow旨在取代生信基因分析所使用的HPC计算调度框架和BPIPE，大大简化了生物基因分析开发人员的工作。Bioflow调度器本身为分布式设计，解决了原有SGE（Sun Grid Engine）在大规模集群同时调度的时候，调度器本身的瓶颈；高效的设计允许任务在不同的计算集群中进行调度，也解决了单一分布式计算集群的规模瓶颈；Bioflow采用了容器化设计，除了Bioflow本身为容器以外，所管理流水线（pipeline）的每一个阶段都是一个容器实例，这解决了原有多种分析工具在单一平台上相互冲突的问题和极大简化了pipeline各个阶段所使用工具集合的独立升级；Bioflow除了调度计算以外，更重要的是还可以根据应用的不同，调度存储和数据，这简化了生物基因应用过程紧耦合存储路径的问题，解耦合了分析和数据存储路径，使能了分析跨存储集群调度数据。

数据管理

生物信息、基因应用除了产生了大量的数据以外，还拥有海量的元数据，元数据是“数据的数据”，也是数据的特征。根据数据特征管理数据是解决数据空间以后，大多数应用所面临的问题。业立数据管理采用专利的metahunter技术，将主存储和数据管理系统合一，在不损失主存储性能的基础上实时动态提取、汇总数据标准元数据和生物基因应用定义的扩展的元数据，灵活的后端架构除了可以兼容多种主流数据管理客户端工具以外，还为用户自定义的数据管理方式提供可能。

数据发现

拥有海量数据，如何有效的进行数据发现和数据重新组织一直是生物信息和基因行业所面临的挑战。业立数据系统包含的metahunter摒弃了以应用为中心的应用数据库+存储路径的传统数据管理方式，以数据为中心，灵活的捕捉和有效组织元数据，通过多种组织方式简化和加速数据发现，根据不同应用和数据特征进行检索、搜索，多维度数据视图展示。

数据特征分析

业立数据分析系统根据多维度数据特征，利用网络可视化算法和工具，可视化数据特征之间的关系和关联，协助生物、基因公司寻找海量数据特征之中蕴藏的秘密，定性指导生物信息，基因分析的研究方向。同时业立数据特征库，开放大数据分析接入，以供第三方生物信息数据分析和数据挖掘使用，以进一步探索神奇的生物和基因世界。