几十年来,计算生物学家一直在使用基于人工神经网络的机器学习技术。过去几年机器学习领域的新发展彻底改变了神经网络的效率,并将我们带到了深度学习的时代。在新闻中,你可以读到深度学习在围棋、国际象棋和星际争霸中击败专家,在语言之间翻译文本和语音,转动自动驾驶汽车的方向盘,甚至在图像中标记小猫,而不是热狗。在我们的领域,我们已经见证了这样的系统达到了与经验丰富的放射科医生竞争的准确性,预测蛋白质的折叠和调用基因组数据中的单核苷酸多态性比任何其他方法都好。 在本教程中,我们使用了四个功能强大的免费组件:
TensorFlow是一个用于深度学习和机器学习的开源库。由于第二个是谷歌Collaboratory,需要训练计算资源。
TensorFlow模型是免费的。第三个是TensorFlow.js,它将使我们能够将经过训练的模型部署为一个可以轻松托管的静态网页,例如在GitHub Pages上。最后,hug Face库、数据集和模型将使我们能够用四行代码运行复杂的变压器模型。
本教程的关键部分将是对训练过的模型的评估和解释。会出现什么问题,如何诊断?我们将从简单的技术开始,如测量简单扰动的影响,并以一个综合梯度法结束,以确定输入的部分对决策的贡献最大。