比以前更精确地重建进化模型
来源:news medical |校审:Kate Anderton|2019-10-17|翻译:聚生物
还记得我们在高中生物课上学过的生物分类,界、门、纲、目、科、属、种和达尔文生命进化树的比喻吗?这种描述生物谱系的方式是科学家对基因如何随着时间的推移而发生该步和分离,从而将生物界改变成今天的样子的最佳猜测。
随着科学越来越善于识别蛋白质和基因的变化,生物被重新分类为另一个属的情况并不少见;例如,最近不同种类的细菌、植物和珊瑚的分类发生了变化。
如果你能做出一个更好的进化变化模型,尽管考虑到复杂的生物已经进化了数十亿年,模型可能不是百分之百准确——能给你一个比以往任何时候都更清晰的画面,那会怎么样?
弗吉尼亚大学工程学院(University of Virginia School of engineering)生物医学工程和计算机科学副教授、弗吉尼亚大学公共卫生基因组学中心(Center for Public Health Genomics)常驻教员克里斯汀·内格尔(Kristen Naegle)和她的前博士生罗曼·斯劳斯基(Roman Sloutsky),现在是马萨诸塞大学阿姆赫斯特分校(University of Massachusetts Amherst)的博士后研究员,已经完成了这项工作。他们的工作展示了如何建立模型,比以前更精确地重建进化变化,这为理解疾病在人体中的作用带来了突破。
他们的论文《ASPEN,一种使用集成模型重建蛋白质进化的方法,提高了准确性》于10月17日(星期四)发表在《eLife》杂志上。ASPEN的意思是“通过对蛋白质进化的亚抽样来获得准确性”。他们的研究突出了弗吉尼亚大学在生物医学数据科学方面的优势。
弗吉尼亚大学工程学院生物医学工程和计算机科学副教授Kristen Naegle说:“目前使用的大多数蛋白质进化模型可能都是错误的。我们现在有了一种方法来找出这些模型,并询问我们如何利用它们的优点来建立更好的模型。这是重要的一步。”
为了更好地理解他们在模拟进化变化方面的工作的复杂性,Naegle做了一个类比:“如果我让你预测一个人从旧金山到纽约的路线,那就是一个模型。但如果我让1000个人预测一个人走了哪条路,那么这条路在1000个人中分享最多的部分最有可能是真的。这是因为大多数人可能同意,两座城市之间的一条特定公路是最有效的方式,所以这段公路的重量很大,或者说概率很大。”
“如果我看到在所有1000条路径上没有人达成一致意见,那就会告诉我,我没有什么信心认为其中一种路径是很准确的。”相反,如果每个人都同意所有的事情,或者路线的大部分部分,我会很有信心,在这两点之间一定有一种最好的前进方式。我可以想出一条新的路线,不是1000人给我的任何一条,而是抓住所有1000个建议之间最共有的路线,这个模型可能比给我的任何一个模型都更接近真正的路线。最后,它可能仍不完全准确--除非我问实际旅行的人,否则我永远不可能知道真正的路线--但这可能比他们自己提出的任何路线建议都要好得多。
“进化是这样的,只是它就像猜测一条穿越时间的路线,而不是空间。”重建进化分支是很困难的,特别是当许多物种共享一种类似的蛋白质时,这种蛋白质可能进化成不同的功能。从数学上讲,这个问题很快就会变得很大,但是发现这种蛋白质进化的含义可以让我们更好地理解我们的身体是如何处理癌症和其他疾病的。
解决这个问题的方法来自Sloutsky,当时他正在研究一种重要的蛋白质,这种蛋白质在许多不同物种的细胞信号中都很常见。他想知道随着时间的推移,这种蛋白质是如何进化成在不同物种中具有不同功能的。这个问题太大了,他决定只取样几个序列来重建进化上的差异。
尽管进行了1000次尝试,他说:“重建的结果并不一致。”“这本身不会是个大问题——我不指望他们都一致。但我预计一种模式会在大多数情况下重复出现,或者至少在很多情况下重复出现。”
他吃惊的是,他决定看看所有不一致的模型有什么共同之处。他说:“我知道我必须想出一些方法来整合所有这些模型的信息,因为我不能只使用最常见的模型。”“这是一种意外的挑战,引发了这项工作的开展。”
在几个月的时间里,纳格尔和斯劳斯基改进了软件,并对越来越多的蛋白质重建问题进行了测试,他们终于能够开发出一种开源软件,可以结合多种模型非常精确地重建进化模型。
“我们的身体所做的一切都是由蛋白质完成的,”斯劳斯基(Sloutsky)说。“这是一个强大的工具,可以帮助我们理解分子生物学是如何工作的,蛋白质是如何工作的,以及当事情出错时,它们是如何出错的。”
Naegle和Sloutsky的原始数据和代码包含在eLife出版物中,这样其他研究人员就可以使用它进行更精确的建模。
《eLife》杂志专注于生命和生物医学科学,在科学期刊中独树一帜。同行审稿人对文章的研究和质量进行评估,审稿人的问题和作者的回答包含在出版物中。杂志的理念是,知识应该是开放和可获取的。
例如,研究人员将能够利用奈格尔和斯劳斯基的新工具,了解高度相似的蛋白质是如何进化的,然后设计更好的药物,更具体地针对蛋白质。Naegle还想象了一个医生试图用医学成像来辨别隐藏在病人身体深处的肿块的确切位置和形状;这种更精确的建模工具可以帮助医生更好地理解肿块,而不需要切开病人。
Naegle说:“George E.P. Box关于模型的大量引用的哲学在这里是相关的:‘本质上,所有的模型都是错误的,但有些是有用的。’”“我们现在有了一种可以量化的方法来问一个模型有多好,通过在许多模型中使用最有用的部分,我们可以构建更好的模型。”
Source:
University of Virginia School of Engineering and Applied Science
Journal reference:
Sloutsky, R., et al. (2019) ASPEN, a methodology for reconstructing protein evolution with improved accuracy using ensemble models. eLife. doi.org/10.7554/eLife.47676.001.
郑重声明:本网所有文章(包括图片和音视频资料)系出于传递更多信息之目的,且明确注明来源和作者。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。所有文章版权归原作者所有,且仅代表作者观点,不代表本站立场。如作者信息标记有误,请第一时间联系我们修改或删除,谢谢。