博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
华大基因BGI Online的云计算实践
阅读量:5741 次
发布时间:2019-06-18

本文共 1775 字,大约阅读时间需要 5 分钟。

本文正在参加“最佳上云实践”评选,来给我们投票吧:(编号13)

基因测序为生命科学领域带来机遇,随着测序技术的发展和测序成本的降低,基因测序在生物信息与医疗健康等领域得到广泛应用。但同时,基因测序行业也面临着处理及分析海量数据的全新挑战。传统的硬盘已无法满足大数据的存储,而大数据处理和分析解读工作存在复杂性和不可预测性,因此需要极强的计算能力。

 

我们的产品生物信息分析云平台BGI Online正是为了解决这个难题而诞生。BGI Online是由华大基因开发的一款基于“云”的生物信息数据云平台。2014年,BGI Online项目启动;2015年,我们在评估了数据存储与计算的需求后,决定与阿里云合作,选择其作为我们产品的主要计算资源供应商。通过在云计算、大数据领域的长期技术积累,阿里云具备支撑这个世界最大基因中心核心业务系统的能力,满足我们在数据处理、隐私安全保护以及传输方面极为严苛的要求。

 

1. 架构解析/优化

任何系统架构的搭建和新技术的应用都是由业务需求催生的。生物信息分析面对的基因数据动则数十G乃至上百G,大文件的传输、存储、计算对平台的IO吞吐、扩展性、伸缩性都有很高的要求。生物信息分析是对大文件的精细分析,同时属于数据密集型、计算密集型、IO密集型应用。大量基因数据的持久化和流动,要求文件管理系统的大容量、高伸缩、高通量;大量的计算需求要求计算资源的高性能、高时效、经济性。

 

为了满足用户基因数据的存、管、算、传,BGI Online系统设计了多个架构组件,分别为前端、后端、任务管理引擎、存储管理、文件传输五大部分。前端通过WEB服务呈现系统业务和提供用户操作,WEB请求通过SLB做负载均衡,并在阿里云提供的VPC和云盾的防护下提供高可用的服务。后端管理系统的业务数据和处理业务逻辑,后端服务部署在多台ECS上,并采用RDS服务存储业务数据。任务管理引擎接受前端请求,管理计算资源实现生物信息数据的分析,阿里云提供了海量的ECS节点,并对每个ECS节点提供了完整、详细的API文档,通过对接ECS节点实现了计算资源的弹性伸缩和强大的分布式计算能力。存储管理负责基因数据的存储和管理,运用OSS和OAS实现了基因数据的冷热存储,除了OSS和OAS本身提供的加密存储外,还对接OSS服务实现数据的去身份化,大大提高了平台的安全性。文件传输通过部署在ECS上的服务提供,庞大的基因数据上云是数据流的起始端和瓶颈,阿里云通过铺设阿里机房到华大集群的专线,显著提升了数据传输的速度。BGI Online的架构见下图:

64643f5ac7d76e78e4ed79846c3590c1ad033f6b

2. 上云前后分析对比

阿里云服务让我们从繁重的基础设施购置与维护中解放出来,从而专注于平台的开发和运营。BGI Online在阿里云上的稳定存储量已经超过400TB,阿里云提供安全、海量的存储服务保障了基因数据的安全和业务需求,促进了我们业务的发展。通过与阿里云的深度合作和研究实践,在双方的共同努力下,将生物信息分析在云上的计算时效一步步向前推进,在21小时47分12秒内完成了1000例人类全外显子组数据的分析,效率提升了400%。阿里云作为中国最大的公有云服务提供商,连接各行各业广大的用户群体,任何用户都可以通过网路享受阿里云上的服务,在保障安全的前提下最大化地连接了用户。BGI Online平台依托开放的阿里云服务提供在线协作功能,不同角色的用户可以在平台上完成数据交付、生物信息分析、项目管理、生物信息工具开发等一系列业务功能,整合了行业的多种分工,建立起了一个完整的行业生态。

 

2016年8月30日,BGI Online国内版正式在公司内部上线内测,此后陆续完成了十几个大型项目的流程部署与测试,如24小时内完成储存峰值超10T、计算任务超1000个的87个遗传病家系基因组分析,和成功部署由开发者自主研发的单细胞基因组分析等项目,并取得突破性成果,阿里云的云服务在这些项目中起到了关键性的作用。

 

总结

BGI Online平台利用阿里云的云技术服务实现了在医学研究、疾病筛查及临床医疗等不同应用场景、模式下的低成本及高效自动化的基因数据传输与存储,同时也解决了数据安全及计算资源的问题。我们团队相信,有了阿里云的核心力量支持,BGI Online平台必将不断创造生物云计算行业的“新纪录”!

 

转载地址:http://jvszx.baihongyu.com/

你可能感兴趣的文章
助社区跨越文化障碍 华裔心理学家获澳大利亚日表彰
查看>>
住建部:对存在配套幼儿园缓建等问题住宅小区追责
查看>>
这些国家纷纷禁用华为,我们三大运营商依然在采购诺基亚爱立信
查看>>
数据挖掘的第一步就是要搞懂聚类分析
查看>>
泛型就这么简单
查看>>
滴滴披露语音识别新进展:基于Attention显著提升中文识别率
查看>>
Element源码分析系列2-Container(布局容器)
查看>>
你真的了解前端路由吗?
查看>>
优化 Swift 编译速度
查看>>
《GraphQL 名词 101:解析 GraphQL 的查询语法》【译】
查看>>
从最大似然估计开始,你需要打下的机器学习基石
查看>>
has(),find()以及filter()方法的区别
查看>>
学习前端路由和vue-router笔记
查看>>
JS正则表达式学习笔记
查看>>
Linux服务器配置——简介
查看>>
一些 ssh 小技巧
查看>>
Android解析WindowManager(一)WindowManager体系
查看>>
iOS 10 SceneKit 新特性 - SceneKit 制作3D 场景框架
查看>>
iOS成长之路3期·WWDC17内参开卖
查看>>
简述go函数的传值与传指针
查看>>