With the rise of AI-powered coding assistants, firms and programmers are exploring how to optimize their interaction with them. Research has so far mainly focused on evaluating output quality and productivity gains, leaving aside the developers' experience during the interaction. In this study, we take a multimodal, developer-centered approach to gain insights into how professional developers experience the interaction with Generative AI (GenAI) in their natural work environment in a firm. The aim of this paper is (1) to demonstrate a feasible mixed-method study design with controlled and uncontrolled study periods within a firm setting, (2) to give first insights from complementary behavioral and subjective experience data on developers' interaction with GitHub Copilot and (3) to compare the impact of interaction types (no Copilot use, in-code suggestions, chat prompts or both in-code suggestions and chat prompts) on efficiency, accuracy and perceived workload whilst working on different task categories. Results of the controlled sessions in this study indicate that moderate use of either in-code suggestions or chat prompts improves efficiency (task duration) and reduces perceived workload compared to not using Copilot, while excessive or combined use lessens these benefits. Accuracy (task completion) profits from chat interaction. In general, subjective perception of workload aligns with objective behavioral data in this study. During the uncontrolled period of the study, both higher cognitive load and productivity were perceived when interacting with AI during everyday working tasks. This study motivates the use of comparable study designs, in e.g. workshop or hackathon settings, to evaluate GenAI tools holistically and realistically with a focus on the developers' experience.


翻译:随着人工智能编程助手的兴起,企业与程序员正在探索如何优化其与这些工具的交互。目前的研究主要集中于评估输出质量和生产力提升,而忽略了开发者在交互过程中的体验。本研究采用多模态、以开发者为中心的方法,旨在深入探究专业开发者在企业自然工作环境中与生成式人工智能(GenAI)交互的体验。本文的目标在于:(1)展示一种在企业环境中结合受控与非受控研究阶段的可行混合方法研究设计;(2)通过互补的行为数据与主观体验数据,提供关于开发者与GitHub Copilot交互的初步见解;(3)比较不同交互类型(不使用Copilot、代码内建议、聊天提示或两者兼用)在处理不同任务类别时对效率、准确性和感知工作负荷的影响。本研究中受控阶段的结果表明,与不使用Copilot相比,适度使用代码内建议或聊天提示能提升效率(任务耗时)并降低感知工作负荷,而过度或组合使用则会削弱这些益处。准确性(任务完成度)则受益于聊天交互。总体而言,本研究中的主观工作负荷感知与客观行为数据具有一致性。在研究的非受控阶段,开发者在日常工作任务中与AI交互时,既感知到更高的认知负荷,也感受到了生产力的提升。本研究提倡在研讨会或黑客松等场景中采用类似的研究设计,以全面且真实地评估生成式人工智能工具,并重点关注开发者的体验。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员