编译|李富义
今天给大家介绍由河南农业大学陈震教授、美国弗吉尼亚联邦大学Lukasz Kurgan教授和澳大利亚蒙纳士大学宋江宁教授等团队合作于2021年6月份发表在生物学顶级期刊Nucleic Acids Research上的一个开源自动化机器学习平台。该平台采用“一站式”的方式对生物序列(包含DNA、RNA以及蛋白质序列)进行特征提取和选择、聚类分析、构建和评测机器学习模型,并将预测结果可视化。河南农业大学陈震教授、中国农业科学院棉花所赵佩副研究员和蒙纳士大学李晨博士为并列第一作者。该工具使用Python/PyQt5作为主要开发工具和编程语言,并在目前所有主流系统包括Windows, MacOS和Linux系统下进行了软件测试运行。iLearnPlus平台共包含四个既可独立使用,又可组合使用的系统模块,可以分别实现对生物序列数据进行特征提取、分析、建模以及数据可视化等多种功能。文章通过使用iLearnPlus对对长非编码RNA和蛋白质巴豆酰化修饰的预测作为运行实例充分展示和论证了该工具的强大功能。
介绍
在过去的几十年里,由于高通量测序技术的显著进步和广泛的应用,产生了前所未有的海量生物序列数据。随着这些数据的快速积累,如何有效地、快速地对生物序列进行分析、挖掘和可视化已成为一项重要的研究课题。随着机器学习方法在解决生物学问题中的广泛应用,在完成主要实验的基础上,越来越多的团队选择使用基于机器学习的法方法对生物序列进行精准预测和分析。因此,构建“一站式”的机器学习平台对于预测、分析生物序列数据至关重要。基于机器学习的序列分析大致包括序列特征提取、特征分析、模型构建、模型性能评价以及对数据和结果的可视化五个步骤(图1)。
图1.基于机器学习的生物序列分析的五个主要步骤
基于机器学习的生物序列分析和预测是一个复杂任务,通常需要掌握多种生物信息学技能。因此,为了能让更多没有生物信息学经验的研究人员也能够进行序列分析和预测,我们采用Python/PyQt5开发了一个综合的能够对生物序列进行分析和预测平台,并命名为iLearnPlus。iLearnPlus能够在所有主流的操作系统(Windows、Linux、Mac OSX等)上运行。它包含四个主要的模块:Basic模块、Estimator模块、AutoML模块和LoadModel模块,以满足不同用户的序列分析和建模需求。基于这些模块,用户可以方便的实现图1中序列分析过程中的所有步骤。iLearnPlus的成功开发不仅使非生信背景的研究人员能够方便的进行基于机器学习的序列分析和预测,而且也能够降低生信背景研究人员的开发量,进而提高开发效率。与其他相关工具比较,iLearnPlus具有以下几方面的优点:
序列特征提取
Basic模块可用于对蛋白质和核酸序列进行特征提取。这些特征提取方法可以把输入序列转换成为各种各样的数字表示,并作为后续机器学习任务的输入。iLearnPlus收集了19大类共总共147种编码类型(表1和表2)。
序列特征分析
在一般的分析流程当中,特征分析虽然是可选项,但是也是一个非常重要的步骤。比如:利用特征筛选可以筛选出与目标问题最重要的特征,排除其他具有误导性的或者对预测性能起负面作用的特征,来构建非冗余的特征集,从而有效的提高后续模型的性能。iLearnPlus提供了多种特征分析算法,包含10种聚类算法、5种特征筛选算法、3种降维算法和两种特征标准化方法(表3)。
分类器构建和模型整合
很多基于机器学习的序列分析任务可以看作是分类任务,比如蛋白结构预测,核酸的功能预测等。iLearnPlus支持二分类和多分类任务,并整合了14种常用的机器学习算法和7种深度学习算法(表4)。为了使模型的训练更加方便,iLearnPlus既支持参数自动优化,同时也允许用户指定参数的设置。iLearnPlus可以对这些参数采用网格搜索的算法进行优化。除此之外,iLearnPlus还能够对多种模型进行整合。
性能评价
为了对模型的性能进行评价,iLearnPlus采用K折交叉验证的方式对模型进行训练和优化。对于二分类任务采用sensitivity, specificity, accuracy, Matthews correlation coefficient, Precision, F1 score, the area under ROC curve and the area under the PRC curve等指标对模型的性能进行评价,对于多分类任务则采用accuracy进行评价。除此之外,iLearnPlus还提供了两种统计显著性检验来对不同特征编码的性能和不同模型的预测性能进行差异显著性评测。
数据可视化
iLearnPlus提供了多种图形对数据和结果进行展示(表5),例如采用柱状图和核密度曲线序列编码的分布进行展示,利用散点图对聚类结果和降维结果进行展示,采用boxplot对不同特征编码的预测性能和不同模型的性能进行比较等。这些图都可以保存为多种图片格式。
iLearnPlus的模块设计
iLearnPlus包含四个基本模块(图2)。Basic模块可以实现图1中所概括的五个主要步骤。用户可以根据自己的需要选择Basic模块中不同的功能进行使用。例如,用户可以输入蛋白质序列然后选择编码类型从而获得序列的特征编码,也可以直接输入编码文件进行后续的特征分析或者模型构建。值得注意的是,Basic模块中不同功能中的数据可以相互加载,从而方便用户的使用。由于Basic模块只能选择一种编码类型进行使用,我们设计了Estimator模块。这个模块可以有效的解决用户一次性对多种编码进行性能测试的需求。在Estimator模块中,用户可以一次选择多个特征编码,然后选择一种机器学习算法,对多种编码的性能进行测试。测试的结果以表格和多种图形进行展示。AutoML模块则允许用户同时对多个机器学习算法进行性能测试。三个模块所产生的模型都可以以文件的形式进行保存,用户可以通过LoadModel模块加载保存的模型,并对新的测试数据进行预测。
图2. iLearnPlus的主要框架
安装iLearnPlus
iLearnPlus的安装十分方便。用户既可以通过pip命令方便的安装,其源码也可以通过https://github.com/Superzchen/iLearnPlus/链接进行下载。此外,我们还开发了一个在线的webserver来实现iLearnPlus-Basic模块的功能,其网址为:
http://ilearnplus.erc.monash.edu/。
参考资料
Zhen Chen et al., iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences. Bioinformatics, 2018, 34(14): 2499–2502.
https://doi.org/10.1093/bioinformatics/bty140
Zhen Chen et al., iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data. Briefings in Bioinformatics, 2020, 21(3): 1047–1057.
https://doi.org/10.1093/bib/bbz041
Zhen Chen et al., iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization. Nucleic Acids Research , 2021,49(10): e60.
以上就是本篇文章【iLearnPlus:核酸和蛋白质序列分析、预测模型构建和数据可视化的开源自动化机器学习平台】的全部内容了,欢迎阅览 ! 文章地址:http://sjzytwl.xhstdz.com/quote/1842.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 物流园资讯移动站 http://mip.xhstdz.com/ , 查看更多