网站地图 │ 联系我们 │ English │ 中国科学院
首页│机构概况 │机构设置 │研究队伍 │ 科研成果 │国际合作 │ 院地合作 │研究生教育│创新文化 │ 党群园地 │科学传播 │信息公开
站内搜索
新闻动态
·图片新闻
·综合新闻
·学术活动
·科研进展
·通知公告
·基建招标公告
学术活动
·第四届基因组医学前沿与健康普惠论坛 [12.04]
·第五届国际生命与健康大数据论坛成功举行 [10.30]
·北京生科院11月8日第166期精品讲座 [10.31]
·学术报告--RNA interference in replication and qui... [10.08]
·北京生科院7月4日第165期精品讲座 [07.01]
研究生信息
您现在的位置:首页 > 新闻动态 > 科研进展
基因组所开发国际首个基于Spark的大数据系统发育建树工具CloudPhylo
2016-10-31 | 作者:生命与健康大数据中心 徐行健 【关闭】

  构建系统发育树是分子进化研究中分析物种间进化关系的基础步骤与重要环节。随着生物大数据时代的到来,传统的建树工具在使用大数据集构建系统发育树时需要消耗更多的计算资源且运行时间超长,使得科研工作者无法快速高效地进行分子进化分析。为此,生命与健康大数据中心(BIG Data Center;http://bigd.big.ac.cn)利用Spark云计算技术,于近期开发了一款适用于大数据集的系统发育树构建工具——CloudPhylo。Spark是一种新的分布式云计算框架,它实现了MapReduce分布式并行算法。基于Spark框架的程序在运算过程中可高效地将中间输出结果保存在内存中,大大降低了因为频繁读写文件造成的损耗。因此,与传统的Hadoop框架相比,Spark能更好地应用于需要反复迭代的大数据分析任务。

  CloudPhylo是目前国际上首款针对大数据集开发的系统发育建树工具,同时也是国内首个使用Spark云计算技术开发的生物信息学分析软件。在应用于模拟和真实的大数据集构建系统发育树时,CloudPhylo均表现出了比传统建树软件更高的运行效率和更大的并行加速比(图1)。

  该工具已经部署在BIGD云平台Qomo(https://cloud.big.ac.cn/users/bigd/tools/clouldphylo)上,无须本地安装,用户可在线提交数据并进行分析。同时本项工作的相关具体内容已经发表在Bioinformatics杂志中(http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645)。

该项研究工作获得了国家高技术研究发展计划(2014AA021503和2015AA020108)和中国科学院国际合作局国际大科学计划(153F11KYSB2016008)等基金资助。

  论文链接:http://bioinformatics.oxfordjournals.org/content/early/2016/10/14/bioinformatics.btw645 

 

  图1 CloudPhylo在不同条件下的并行加速比


中国科学院北京基因组研究所(国家生物信息中心) 版权所有 京ICP备05002857号-1 文保网安备案1101050063号
地址:北京市朝阳区北辰西路1号院104号楼 邮编:100101 联系我们