Randomised field experiments, such as A/B testing, have long been the gold standard for evaluating the value that new software brings to customers. However, running randomised field experiments is not always desired, possible or even ethical in the development of automotive embedded software. In the face of such restrictions, we propose the use of the Bayesian propensity score matching technique for causal inference of observational studies in the automotive domain. In this paper, we present a method based on the Bayesian propensity score matching framework, applied in the unique setting of automotive software engineering. This method is used to generate balanced control and treatment groups from an observational online evaluation and estimate causal treatment effects from the software changes, even with limited samples in the treatment group. We exemplify the method with a proof-of-concept in the automotive domain. In the example, we have a larger control ($N_c=1100$) fleet of cars using the current software and a small treatment fleet ($N_t=38$), in which we introduce a new software variant. We demonstrate a scenario that shipping of a new software to all users is restricted, as a result, a fully randomised experiment could not be conducted. Therefore, we utilised the Bayesian propensity score matching method with 14 observed covariates as inputs. The results show more balanced groups, suitable for estimating causal treatment effects from the collected observational data. We describe the method in detail and share our configuration. Furthermore, we discuss how can such a method be used for online evaluation of new software utilising small groups of samples.
翻译:A/B测试等随机化实地实验长期以来一直是评估新软件给客户带来的价值的黄金标准。 然而,在开发汽车嵌入软件的过程中,运行随机化现场实验并非总是理想的、可能的甚至合乎道德的。 面对这些限制, 我们提议使用巴耶斯潮流匹配技术来推断汽车领域观测研究的因果关系。 在本文中, 我们提出了一个基于巴耶斯潮流比对匹配框架的方法, 应用于汽车软件工程的独特设置中。 这种方法用来从观察在线评估中产生平衡控制和处理组, 并估计软件变化产生的因果关系处理效果, 即使处理组的样本有限。 我们提议在汽车领域使用一种验证概念的方法。 我们有一个更大的控制( N_c=1100美元) 汽车车队, 使用当前软件和一个小型处理队( N_t=38美元), 我们可以引入一个新的软件变式。 我们展示了一种将新软件运送到所有用户的在线观测组的平衡控制和处理组, 并估计软件的因软件变化而产生因果关系。 我们展示了一个假设, 将新的软件运给所有用户使用新的软件, 使用一种随机化方法, 将这种方法进行这样的计算结果, 我们用一种随机化方法, 将一个测试, 显示一种测量方法, 用来进行这种测量结果,, 以完全化方法, 以测量方法, 一种方法, 用来进行一种测量一种方法, 用来进行一种测量方法, 一种测量方法, 一种方法, 一种方法, 一种方法, 一种方法, 用来 一种 一种 一种 一种 一种 一种 一种 一种 一种完全化方法, 一种方法, 一种方法, 一种 一种 一种 一种 一种 一种 一种方法 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 方法 一种 一种 一种 一种 方法, 一种 一种 方法 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种 一种