机器学习让氨基酸分析不再费时费力
luckweb 蒋波 2019-12-15

在医药、食品、农业和生物化学领域氨基酸分析至关重要。氨基酸的分析方法众多,包括毛细管电泳,气相、液相和离子交换色谱,电子传感器等,这些方法在分析氨基酸之前往往需要进行分离操作,费时而且费力。开发一种简便、经济、无需提前分离氨基酸的分析方法必定是广大研究者 “喜闻乐见”的。


如今机器学习方法(ML)“大行其道”,在许多领域获得了成功,可以处理复杂而且棘手的问题,如药物设计、疾病诊断、虚拟合成、材料筛选等。用ML方法进行氨基酸分析可以带来意想不到的“惊喜”。在惊喜之余,将ML方法用于分析氨基酸最大的困难在于缺乏足够的数据集进行模型训练,这就是所谓的维度灾难(curse of dimensionality),幸运的是高通量实验可以帮助我们获取大量数据而突破数据瓶颈。


有鉴于此,南京大学许昭怡和西安师范大学李剑超课题组利用光谱数据通过机器学习方法进行了5种混合氨基酸的分析研究,这种方法不仅可以区分氨基酸类型,同时还可以得出各种氨基酸的浓度,可谓“一箭双雕”。

图1.机器学习分析氨基酸过程示意图。

要点1

图2基于光谱数据的机器学习方法分析混合氨基酸过程。(A)修正光谱数据以获取数据集,其中1为光源,2是光均衡芯片,3为光谱过滤器,4为样品池,5为高清晰度数码相机;(B)通过机器学习定量分析混合氨基酸。

研究者为了克服维度灾难,对光谱数据进行修正以获取机器学习所需数据。他们首先设计了高通量实验,选择组氨酸(His)、精氨酸(Arg)、苯基丙氨酸(L-phe)、丙氨酸(Ala)和苏氨酸(Thr)为研究对象,随机定量的加入到样品池中形成数千种组合,通过对光源进行调制和过滤,将光照射到样品池中的测试样品上,照射之后的残余光进行成像得到光谱图数据集(CSiM),将这些数据集输入到6种卷积神经元网络中(CNNs):LeNet、Vanilla CNN、Residual Network (RestNet)、SqueezeNet、VGGNet以及GoogLeNet Inception v1,这些深度学习方法利用多组分非线性回归分析法得出氨基酸类型和浓度结果。


要点2

图3.(A)光谱过滤器中的颜色维度,颜色空间可以被定量化为RGB数值(0-255);(B)CSiM中的光谱信息。

在进行高通量实验时,最初可见光在380-780 nm范围内,在RGB空间被调制和过滤成1013种光谱,当含有各种带宽的调制光通过样品后,光和氨基酸发生复杂的相互作用,包括酸碱反应、调和反应、氧化还原反应等,这些作用难以描述,就像人工神经元网络的黑盒子一样,重要的是最终吸收了特定波长可见光的光谱被记录下来进行分析,对机器学习来说这就足够了


要点3图4.利用深度学习方法分析混合氨基酸。(A)CNN的学习规则;(B)Deep Inception v1的网络结构。

研究者用收集的CSiM数据集进行网络训练时采用误差反向传播算法,用梯度下降法连续调整权重因子和阈值,以找到最优的网络结构。以Deep Inception v1网络为例,将CSiM数据集输入后,网络首先通过两个隐含层对图像进行加工,包括卷积化、最大池化、局部响应归一化等,然后经过9个检测模块、深度连接、平均池化、完全连接等过程,最终输出层输出5个含有5种氨基酸浓度的矢量。


要点4


图5.(A)各种卷积网络预测氨基酸浓度值和氨基酸浓度实验值;(B)V1模型测试稀疏数据组的表现;(C)不同CSiM图像尺寸。

研究者采用的不同卷积网络都是以有监督的学习模式进行。所有的数据80%为训练数据集,其余为测试数据集,卷积网络预测值与实验值基本保持一条曲线,预测质量通过确定系数R2和均方根误差RMSE来表示。在6种卷积网络中SqueezeNet由于结构最简单,预测误差相对较大;与SqueezeNet相比,Vanilla CNN和 RestNet预测误差有所下降,但是在高氨基酸浓度下的收敛速度较慢;在LeNet和VGG中,这种情况有显著改善。综合来说,Inception v1网络收敛性好,预测精度高:R2为0.999,RMSE为10.22%。


小结

研究者成功利用光谱数据,通过高通量实验,采用6种不同的机器学习方法分析了5种氨基酸混合物。机器学习方法无需提前对氨基酸混合物进行分离,具有操作简便、省时省力的特点,为广大科研工作者分析氨基酸混合物提供了一条“高大上”的途径。


参考文献及原文链接

Q. Duan, J. Lee, S. Zheng, et al. A color-spectral machine learning path for five mixed amino acids analysis . Chemical Communications . 2019

DOI: 10.1039/C9CC07186E 

https://pubs.acs.org/doi/abs/10.1021/acs.macromol.9b01429


加载更多
2462

版权声明:

1) 本文仅代表原作者观点,不代表本平台立场,请批判性阅读! 2) 本文内容若存在版权问题,请联系我们及时处理。 3) 除特别说明,本文版权归纳米人工作室所有,翻版必究!
luckweb

致力于介绍高分子、锂离子电池领域顶级期刊

发布文章:1篇 阅读次数:1682
纳米人
你好测试
copryright 2016 纳米人 闽ICP备16031428号-1

关注公众号