实现基于自然语言的移动端任务自动化

2020 年 8 月 10 日 谷歌开发者


文 / 研究员 Yang Li,Google Research


移动设备为日常活动的完成提供了无限可能,它提供了多种功能来协助或简化我们的日常操作。


但是,对于很多用户来说,其中的大部分功能很难轻松发现或直接上手。这使得用户不得不靠搜索来了解如何执行特定任务。例如,‘如何在地图中打开交通模式’ 或 ‘怎么更改 YouTube 中的通知设置’。


在网络上搜索到这些问题的详细说明很容易,但是用户仍然需要按照这些说明逐步操作,并通过很小的手机触摸屏实现这些繁琐又耗时的操作。这会极大地降低无障碍功能体验。如果可以设计一个计算智能体程序来将这些语言说明转换为各种动作并帮用户自动执行,将会怎样


在 ACL 2020 上发布的Mapping Natural Language Instructions to Mobile UI Action Sequences中,我们提出了解决 自动动作序列映射 (Automatic Action Sequence Mapping) 问题的第一步,同时创建了三个新数据集,用于训练将自然语言说明定位到可执行移动界面操作的深度学习模型。

  • Mapping Natural Language Instructions to Mobile UI Action Sequences
    https://arxiv.org/abs/2005.03776


这项工作为移动端任务自动化奠定了技术基础,从而减轻了通过界面细节进行操作的需求。并且,它对于存在视觉或情境障碍的用户可能特别有用。我们还通过 GitHub 代码库将我们的模型代码和数据流水线开源,以促进这项工作在研究界中的进一步发展。

  • GitHub 代码库
    https://github.com/google-research/google-research/tree/master/seq2act



构建语言定位模型

人们经常相互提供说明建议、彼此协调、共同努力来完成涉及复杂动作序列的任务,例如,按照食谱来烘烤蛋糕,或者让朋友指导建立家庭网络。建立能够帮助进行类似交互的计算智能体是一个重要目标,它需要在动作发生的环境中提供真正的 语言定位 (Symbol Language Grounding)。


此处解决的学习任务包括:在给定一组说明的情况下预测移动平台的动作序列、系统从一个屏幕切换到另一个时生成的屏幕序列以及这些屏幕上的一组交互元素。端到端地训练这种模型需要成对的语言-动作数据,而这难以大规模获取。


我们将问题解构为两个连续的步骤:动作短语提取 (Action Phrase-extraction) 步骤和 定位 (Grounding) 步骤。

将语言说明定位到可执行动作的工作流


动作短语提取步骤使用支持区域注意力的 Transformer 模型来表示每个描述短语,从多步说明中识别操作、对象和参数描述。借助区域注意力 (Area attention),模型可以从整体上关注说明中的一组相邻单词(跨度,Span),对描述进行解码。

动作短语提取模型录入自然语言说明的单词序列,并输出一系列跨度(Span,用红色框表示),跨度描述了任务中每个动作的操作、对象和参数的短语


接下来,定位步骤将提取的操作和对象描述与屏幕上的 UI 对象进行匹配。我们仍然使用 Transformer 模型,但在这种情况下,它可以在上下文中表示 UI 对象,并将对象描述定位到这些对象。

假设执行过程中的每个步骤都有 UI 屏幕,定位模型将提取的跨度作为输入,将其定位到可执行动作(包括施加动作的目标对象)



研究结果

为了研究这项任务的可行性和我们方法的有效性,我们构建了三个新数据集来训练和评估模型。第一个数据集包含用于操作 Pixel 手机完成其相应动作屏幕序列的 187 条多步英语说明,并且能够根据用于测试端到端定位质量的自然发生说明评估整个任务的性能。对于动作短语提取训练和评估,我们获得了可从网络上找到的大量英语“操作方法 (How-to)”说明,并注解了描述每个动作的短语。为了训练定位模型,我们综合生成了 29.5 万个界面动作单步命令,涵盖了公共 Android UI 语料库中 2.5 万个移动 UI 屏幕上的 17.8 万个不同的 UI 对象。

  • 公共 Android UI 语料库
    https://dl.acm.org/doi/10.1145/3126594.3126651


支持区域注意力的 Transformer 在预测与定位实况完全匹配的跨度序列时可以获得 85.56% 的准确率。在将语言说明端到端映射到可执行操作这一更具挑战性的任务中,短语提取器和定位模型在匹配定位实况动作序列方面一起获得了 89.21% 的局部准确率和 70.59% 的完全准确率。


我们还评估了 UI 对象的替代方法和表示,例如使用图卷积网络 (GCN) 或前馈网络,并发现当屏幕中对象表示有上下文时能够提高定位准确率。


在解决将自然语言说明定位到移动设备界面动作这一颇具挑战性的难题方面,这些新数据集、模型和结果迈出了重要的第一步。



结论

总的来说,这项研究以及语言定位是在图形用户界面将多步骤说明转换为操作的重要一步。将任务自动化成功应用于 UI 领域能显著提升无障碍功能服务,其中语言界面可以帮助存在视觉障碍的用户使用基于视觉预测的界面来执行任务。在用户因手头任务影响而无法轻松访问设备的情境障碍下,这也十分重要。


通过将问题分解为动作短语进行提取语言定位,在这两个方面的进展都可以提升任务的整体性能,并降低对难以大规模收集的成对语言-动作数据集的需求。例如,动作跨度提取与语义角色标注和从文本中提取多个事实相关,并且可以从跨度识别和多任务学习的创新中受益。在之前的定位工作中应用的强化学习可能有助于改善 UI 中定位的样本外预测,并通过隐藏状态表示改善直接定位。尽管我们的数据集基于 Android 界面,但我们的方法通常可以应用于在其他界面平台上定位的说明。


最后,我们的工作为研究基于语言的人机交互中的用户体验提供了技术基础。



致谢

非常感谢我的合著者 Jiacong He、Xin Zhou、Yuan Zhang 和 Jason Baldridge 在 Google Research 的这项工作中做出的贡献。还要感谢为创建开源数据集提供慷慨帮助的 Gang Li,以及在注解方面提供大力帮助的 Ashwin Kakarla、Muqthar Mohammad 和 Mohd Majeed。


更多 AI 相关阅读:



登录查看更多
0

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
专知会员服务
29+阅读 · 2020年9月18日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
【APS】PCB企业如何实现APS自动排程系统
产业智能官
12+阅读 · 2018年9月24日
迁移学习在自然语言处理中的应用之通用语言建模
深度学习与NLP
3+阅读 · 2018年9月4日
快讯 | Facebook将推出PyTorch 1.0,整合Caffe2 + PyTorch
大数据文摘
3+阅读 · 2018年5月3日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
8+阅读 · 2019年3月21日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
5+阅读 · 2018年2月26日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2020年9月18日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
基于视觉的三维重建关键技术研究综述
专知会员服务
160+阅读 · 2020年5月1日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【斯坦福&Google】面向机器人的机器学习,63页PPT
专知会员服务
25+阅读 · 2019年11月19日
相关资讯
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
【APS】PCB企业如何实现APS自动排程系统
产业智能官
12+阅读 · 2018年9月24日
迁移学习在自然语言处理中的应用之通用语言建模
深度学习与NLP
3+阅读 · 2018年9月4日
快讯 | Facebook将推出PyTorch 1.0,整合Caffe2 + PyTorch
大数据文摘
3+阅读 · 2018年5月3日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关论文
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
8+阅读 · 2019年3月21日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年3月27日
Arxiv
5+阅读 · 2018年2月26日
Top
微信扫码咨询专知VIP会员