PhyloSuite—让系统发育分析不再繁琐
来源:聚生物原创|2019-11-28
近日,中国科学院水生生物研究所领衔开发的系统发育分析平台PhyloSuite的相关论文“PhyloSuite: an integrated and scalable desktop platform for streamlined molecular sequence data management and evolutionary phylogenetics studies”在分子生态学综合期刊《Molecular Ecology Resources》发表。
①英文摘要:
Multi-gene and genomic datasets have become commonplace in the field of phylogenetics, but many of the existing tools are not designed for such datasets, which often makes the analysis time-consuming and tedious. Here, we present PhyloSuite, a (cross-platform, open-source, stand-alone Python graphical user interface) user-friendly workflow desktop platform dedicated to streamlining molecular sequence data management and evolutionary phylogenetics studies. It employs a plugin-based system that integrates a number of phylogenetic and bioinformatic tools, thereby streamlining the entire procedure, from data acquisition to phylogenetic tree annotation (in combination with iTOL), with the following features: (i) point-and-click and drag-and-drop graphical user interface, (ii) a workplace to manage and organize molecular sequence data and results of analyses, (iii) GenBank entries extraction and comparative statistics, (iv) a state-of-the-art phylogenetic workflow with batch processing capability, comprising sequence alignment (MAFFT and MACSE), alignment optimization (trimAl, HmmCleaner and Gblocks), dataset concatenation, best partitioning scheme and best evolutionary model selection (PartitionFinder and ModelFinder), and phylogenetic inference (MrBayes and IQ-TREE). PhyloSuite aims both to enable beginners to quick start their way to phylogenetic analysis and experienced researchers to conduct, store and manage their work in a streamlined way, and spend more time playing with scientific questions instead of wasting it on transferring files from one software to another.
图1:PhyloSuite界面与主要功能
随着测序技术的飞速发展,越来越多的基因数据被存放在公共数据库。这开启了许多研究方向的大门,比如基于多基因序列的生物系统发育研究;但是也带来了挑战,特别是对于那些刚入门的“新手”或者不熟悉电脑操作的人来说,搜索、获取、管理及使用这些海量的数据无疑会花费大量时间甚至造成困扰。标准的多基因系统发育分析流程主要包括:数据获取、序列提取、比对、比对序列修剪(可选)、序列串联、最优进化模型选择、系统发育树构建以及系统发育树美化等。
系统发育分析是一个复杂且困难的过程,为了推导出更接近真实进化历史的结果,研究者们常常需要进行多次系统发育分析以比较不同数据集(氨基酸或核苷酸序列)、建树方法(贝叶斯法和最大似然法,同质性模型和异质性模型等)或软件参数对结果的影响,甚至同一个系统发育分析也需要重复多次来确定其结果的稳定性。因此,一个全面的系统发育分析往往需要重复几次到数十次上述系统发育分析流程。鉴于每一次重复均需要经历繁琐的格式转换以满足不同软件对输入文件的要求,并且流程中所用到的软件往往需要一些终端命令行操作技巧甚至是编程语言知识,这无疑压缩了生物学者们钻研科学问题的时间。因此,批量运行、多核操作、自动文件格式转化和流程化操作成为了大多数系统发育学者最迫切的需求。
为了解决上述问题,中国科学院水生生物研究所张东博士经过三年的努力,开发了一款操作简单、界面直观友好、无需编程基础、自动化输入输出以及满足所有上述系统发育分析需求的软件—PhyloSuite。该软件面向所有层次的科研人员,可以使初学者快速入门系统发育分析,并且让有经验的研究者以更高效的方式开展和管理自己的系统发育研究,因此可以解放出更多的时间来思考科学问题。
软件的主要特色包括:①支持Windows、Linux和MAC OSX三大系统跨平台运行;②灵活的序列提取功能,包括提取线粒体基因组、叶绿体基因组、核糖体rDNA基因(18S/28S)等,并且支持用户自定义;③整合了当下最流行、最权威的系统发育分析软件(如MAFFT、MACSE、HmmCleaner、PartitionFinder2、IQ-TREE和MrBayes等),并赋予它们批量运行和多核操作等功能,以提高分析效率;④联合上下游分析软件,自动整理输入和输出文件,解放科研人员的双手;⑤流程化系统发育分析,只需在第一个程序输入文件以及配置好参数,即可一键完成系统发育分析;⑥快速完成系统发育树美化;⑦全面的线粒体基因组分析,包括绝大部分常规分析(如碱基组成、核苷酸偏移、相对同义密码子使用频率等统计和基因顺序可视化等);⑧NCBI氨基酸(Protein)和核苷酸(Nucleotide)数据库搜索功能,方便基因数据的获取。
PhyloSuite最大的亮点在于低门槛,在快速完成系统发育分析的同时还伴随有相关资料、教程让初学者快速入门系统发育分析。更重要的是PhyloSuite迎合了基于基因组、转录组以及细胞器基因组(线粒体基因组、叶绿体基因组等)等的多基因联合分析潮流,并针对这一类需求进行了一系列优化设计:①灵活的序列提取功能可从海量数据中挖掘到需要的信息;②新增多基因串联功能,可与下游分析完美结合;③批量运行与多核操作可大大节省分析时间;④软件参数记忆以及一键流程化功能让系统发育分析不再繁琐。
图2:利用PhyloSuite完成的系统发育分析图例
PhyloSuite的开发历时三年,功能由最初的线粒体基因组提取发展到现在全面的系统发育分析。期间协助完成基于线粒体基因组的鱼类寄生虫系统发育研究近20次,并且该软件在今年年初一经发布,就受到广泛好评,其GitHub网页以及bioRvix预印版累计引用达35次。经过四个多月的同行评审,该软件最终被《Molecular Ecology Resources》杂志接收,期间审稿人和编辑均给出了正面的评价,认为该软件在多基因系统发育方面比现有的其他软件更加全面,界面操作更加直观友好,并且省去了系统发育分析过程中的复杂操作以及节省了学习系统发育分析的时间成本。系统发育树构建新兴软件IQ-TREE的作者Bui Quang Minh也在推特(Twitter)上推荐了PhyloSuite:“PhyloSuite looks like a very useful and easy to use GUI for phylogenetic analysis with lots of options!”。当然,PhyloSuite仍然存在着一些不足,比如说PhyloBayes等热门建树软件还没有整合,PhyloBayes是一款可以使用异质性模型(CAT)的软件,并且该模型具有减轻长枝吸引功能。
本项工作主要由博士研究生张东等人完成,通讯作者为王桂堂研究员和李文祥副研究员。该研究得到国家自然科学基金和国家大宗淡水鱼产业技术体系专项资金的资助。
文章链接:https://onlinelibrary.wiley.com/doi/full/10.1111/1755-0998.13096
PhyloSuite主页:https://dongzhang0725.github.io/
PhyloSuite安装:https://dongzhang0725.github.io/dongzhang0725.github.io/installation/
PhyloSuite公众号:
郑重声明:本网所有文章(包括图片和音视频资料)系出于传递更多信息之目的,且明确注明来源和作者。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。所有文章版权归原作者所有,且仅代表作者观点,不代表本站立场。如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。