This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.


翻译:---- 本文介绍了 DroidBot-GPT,一种利用类似于 GPT 的大型语言模型 (LLMs) 自动操作 Android 移动应用程序的工具。给定所需任务的自然语言描述,DroidBot-GPT 可以自动生成并执行操作,以导航应用程序并完成任务。它通过将应用 GUI 状态信息和智能手机屏幕上的可用操作转化为自然语言提示,然后要求 LLM 根据提供的信息进行操作选择。由于 LLM 通常是在包括不同软件应用程序的使用手册在内的大量数据上进行训练的,因此它具有根据所提供的信息做出合理操作选择的能力。我们使用自己创建的数据集对 DroidBot-GPT 进行评估,该数据集包含来自 10 个类别的 17 个 Android 应用程序的 33 个任务。它能够成功完成 39.39% 的任务,并且平均部分完成进度约为 66.76%。鉴于我们的方法完全无监督(不需要修改应用程序和 LLM),我们认为可以通过更好的应用程序开发范例和/或自定义模型训练来提高自动化性能。

2
下载
关闭预览

相关内容

【2023新书】《ChatGPT入门》,179页pdf
专知会员服务
252+阅读 · 2023年5月30日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
【2022新书】Python DevOps,245页pdf
专知
5+阅读 · 2022年7月11日
Android Studio Chipmunk 现已发布
谷歌开发者
0+阅读 · 2022年6月28日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
14+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2023年5月31日
Arxiv
0+阅读 · 2023年5月31日
Arxiv
0+阅读 · 2023年5月30日
Arxiv
0+阅读 · 2023年5月29日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2021年12月31日
VIP会员
相关VIP内容
【2023新书】《ChatGPT入门》,179页pdf
专知会员服务
252+阅读 · 2023年5月30日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
【2022新书】Python DevOps,245页pdf
专知
5+阅读 · 2022年7月11日
Android Studio Chipmunk 现已发布
谷歌开发者
0+阅读 · 2022年6月28日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
14+阅读 · 2017年11月16日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关论文
相关基金
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员