俄勒冈州立大学的研究人员利用深度学习破译了哪种RNA可能编码蛋白质。由科学院和工程学院开发的门控循环神经网络是朝着更好地了解RNA迈出的重要一步,RNA是生命中基本的必需分子之一。
揭开RNA的神秘面纱意味着理解它与人类健康和疾病的关系。
深度学习是一种不基于特定任务算法的机器学习。它是解决难题的有力工具。
该研究的主要作者大卫亨德里克斯(David Hendrix)表示:“深度学习对一些人来说似乎很可怕,但归根结底,这只是一个令人毛骨悚然的数字。”“就像微积分或线性代数一样,它是我们可以用来学习生物模式的工具。现在我们拥有海量的测序数据,深度学习非常适合面对与大量数据相关的挑战,并学习新的生物规则来表征这些分子的功能。”
RNA是由DNA转录而来的。另一种核酸之所以得名,是因为它最早发现于生物体的细胞核中,从而产生人体所需的蛋白质。
DNA包含一个人的遗传信息,RNA作为信使将信息的编码指令传递到细胞内的蛋白质制造位点。
一些RNA是从DNA转录的功能分子,但不翻译成蛋白质。这些被称为非编码RNA。
亨德里克斯说,每天都有新的RNA被发现,基因测序技术已经发展到分子生物学家面临新的转录本注释的“洪流”,以从中收集信息。
研究人员表示,这些庞大的数据集需要新的方法。他是生物化学/生物物理学和计算机科学领域的联合助理教授。
亨德里克斯和他的同事用门控神经网络训练非编码和信使RNA序列,然后将它们放松到数据上,“自己学习蛋白质编码转录物的定义特征。”
与现有的预测蛋白质编码潜力的最新方法相比,它确实取得了显著的进步。
“这真是令人兴奋,”亨德里克斯说。“通过竞赛程序,开发者会告诉程序什么是开放阅读框,什么是起始密码子,什么是终止密码子。我们认为,最好采取从零开始的方法,让神经网络能够独立学习。”
密码子是由三个核苷酸组成的序列,是核酸的基本结构单位。密码子充当DNA和RNA的核苷酸与蛋白质合成的20种氨基酸之间的翻译。
与其他方法相比,OSU团队开发的mRNN模型在几乎所有可用指标上都具有统计显著优势。
亨德里克斯说,“它不仅找到了终止密码子,还将真正的终止密码子与匹配终止密码子的其他三核苷酸区分开来,并识别了序列中的长距离依赖性。”“它迫不及待地想看到终止密码子。我们发现它早在终止密码子(距离起始密码子200个核苷酸)之前就做出了决定。而且,它学习了密码子的子集,当在潜在的开放阅读框架中观察时,可以高度预测蛋白质的编码潜力。”
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 puzdycom@126.com 举报,一经查实,本站将立刻删除。