经验软件工程数据质量挑战分类 (A Taxonomy of Data Quality Challenges in Empirical Software Engineering) - 专知论文

会员服务 ·

0

Taxonomy · Engineering · ESE · Extensibility · 可辨认的 ·

2021 年 6 月 11 日

A Taxonomy of Data Quality Challenges in Empirical Software Engineering

翻译：经验软件工程数据质量挑战分类

Michael Franklin Bosu,Stephen G. MacDonell

from arxiv, Conference paper, 12 pages, 6 figures

Reliable empirical models such as those used in software effort estimation or defect prediction are inherently dependent on the data from which they are built. As demands for process and product improvement continue to grow, the quality of the data used in measurement and prediction systems warrants increasingly close scrutiny. In this paper we propose a taxonomy of data quality challenges in empirical software engineering, based on an extensive review of prior research. We consider current assessment techniques for each quality issue and proposed mechanisms to address these issues, where available. Our taxonomy classifies data quality issues into three broad areas: first, characteristics of data that mean they are not fit for modeling; second, data set characteristics that lead to concerns about the suitability of applying a given model to another data set; and third, factors that prevent or limit data accessibility and trust. We identify this latter area as of particular need in terms of further research.

翻译：可靠的实证模型,如软件工作估计或缺陷预测中使用的可靠实证模型,必然取决于它们所依赖的数据。随着对流程和产品改进的需求不断增长,测量和预测系统使用的数据的质量需要越来越仔细地审查。在本文件中,我们根据对以往研究的全面审查,提出了实证软件工程数据质量挑战分类法。我们考虑了每个质量问题目前的评估技术,并提出了解决这些问题的机制。我们的分类法将数据质量问题分为三大领域:第一,数据特征意味着它们不适于建模;第二,数据集特征导致人们担心是否适宜将某一模型应用到另一数据集;第三,防止或限制数据获取和信任的因素。我们确定后一个领域特别需要进一步研究。

0

相关内容

Taxonomy

分类学是分类的实践和科学。Wikipedia类别说明了一种分类法，可以通过自动方式提取Wikipedia类别的完整分类法。截至2009年，已经证明，可以使用人工构建的分类法（例如像WordNet这样的计算词典的分类法）来改进和重组Wikipedia类别分类法。从广义上讲，分类法还适用于除父子层次结构以外的关系方案，例如网络结构。然后分类法可能包括有多父母的单身孩子，例如，“汽车”可能与父母双方一起出现“车辆”和“钢结构”；但是对某些人而言，这仅意味着“汽车”是几种不同分类法的一部分。分类法也可能只是将事物组织成组，或者是按字母顺序排列的列表；但是在这里，术语词汇更合适。在知识管理中的当前用法中，分类法被认为比本体论窄，因为本体论应用了各种各样的关系类型。在数学上，分层分类法是给定对象集的分类树结构。该结构的顶部是适用于所有对象的单个分类，即根节点。此根下的节点是更具体的分类，适用于总分类对象集的子集。推理的进展从一般到更具体。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

经济学中的数据科学，Data Science in Economics，附22页pdf

经济学中的数据科学，Data Science in Economics，附22页pdf

专知会员服务

36+阅读 · 2020年4月1日

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

专知会员服务

82+阅读 · 2020年2月27日

【北京智源大会2019】AV+AI -挑战和机遇（AV+AI - Challenges and Opportunities），伯克利DeepDrive副主任詹景尧

【北京智源大会2019】AV+AI -挑战和机遇（AV+AI - Challenges and Opportunities），伯克利DeepDrive副主任詹景尧

专知会员服务

14+阅读 · 2019年11月22日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

IEEE | DSC 2019诚邀稿件 (EI检索)

IEEE | DSC 2019诚邀稿件 (EI检索)

Call4Papers

10+阅读 · 2019年2月25日

人工智能 | SCI期刊专刊信息3条

人工智能 | SCI期刊专刊信息3条

Call4Papers

5+阅读 · 2019年1月10日

大数据 | 顶级SCI期刊专刊/国际会议信息7条

大数据 | 顶级SCI期刊专刊/国际会议信息7条

Call4Papers

10+阅读 · 2018年12月29日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

LibRec 精选：推荐系统的论文与源码

LibRec 精选：推荐系统的论文与源码

LibRec智能推荐

14+阅读 · 2018年11月29日

人工智能类 | 国际会议/SCI期刊专刊信息9条

人工智能类 | 国际会议/SCI期刊专刊信息9条

Call4Papers

4+阅读 · 2018年7月10日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

人工智能 | 国际会议截稿信息9条

人工智能 | 国际会议截稿信息9条

Call4Papers

4+阅读 · 2018年3月13日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

A cross-domain qualitative meta-analysis of digital forensics: Research trends, challenges, and emerging topics

A cross-domain qualitative meta-analysis of digital forensics: Research trends, challenges, and emerging topics

Arxiv

0+阅读 · 2021年8月10日

A Smart and Defensive Human-Machine Approach to Code Analysis

Arxiv

0+阅读 · 2021年8月10日

Privacy-Preserving Machine Learning: Methods, Challenges and Directions

Arxiv

0+阅读 · 2021年8月10日

An Empirical Study on Predictability of Software Code Smell Using Deep Learning Models

Arxiv

0+阅读 · 2021年8月8日

Empirical Analysis on Effectiveness of NLP Methods for Predicting Code Smell

Arxiv

0+阅读 · 2021年8月8日

Synthetic Benchmarks for Scientific Research in Explainable Machine Learning

Arxiv

0+阅读 · 2021年8月6日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

Learning From Positive and Unlabeled Data: A Survey

Learning From Positive and Unlabeled Data: A Survey

Arxiv

5+阅读 · 2018年11月12日

Current Challenges and Visions in Music Recommender Systems Research

Arxiv

7+阅读 · 2018年3月21日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

VIP会员

文章信息

相关主题

相关VIP内容

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

Linux导论，Introduction to Linux，96页ppt

Linux导论，Introduction to Linux，96页ppt

专知会员服务

81+阅读 · 2020年7月26日

经济学中的数据科学，Data Science in Economics，附22页pdf

经济学中的数据科学，Data Science in Economics，附22页pdf

专知会员服务

36+阅读 · 2020年4月1日

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

专知会员服务

82+阅读 · 2020年2月27日

【北京智源大会2019】AV+AI -挑战和机遇（AV+AI - Challenges and Opportunities），伯克利DeepDrive副主任詹景尧

【北京智源大会2019】AV+AI -挑战和机遇（AV+AI - Challenges and Opportunities），伯克利DeepDrive副主任詹景尧

专知会员服务

14+阅读 · 2019年11月22日

【深度学习视频分析/多模态学习资源大列表】

【深度学习视频分析/多模态学习资源大列表】

专知会员服务

92+阅读 · 2019年10月16日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【普林斯顿博士论文】在线学习：优化、控制与学习理论

不确定环境下无人机三维路径规划研究 | 221页

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

大语言模型将如何改变军事指挥结构

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

IEEE | DSC 2019诚邀稿件 (EI检索)

IEEE | DSC 2019诚邀稿件 (EI检索)

Call4Papers

10+阅读 · 2019年2月25日

人工智能 | SCI期刊专刊信息3条

人工智能 | SCI期刊专刊信息3条

Call4Papers

5+阅读 · 2019年1月10日

大数据 | 顶级SCI期刊专刊/国际会议信息7条

大数据 | 顶级SCI期刊专刊/国际会议信息7条

Call4Papers

10+阅读 · 2018年12月29日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

LibRec 精选：推荐系统的论文与源码

LibRec 精选：推荐系统的论文与源码

LibRec智能推荐

14+阅读 · 2018年11月29日

人工智能类 | 国际会议/SCI期刊专刊信息9条

人工智能类 | 国际会议/SCI期刊专刊信息9条

Call4Papers

4+阅读 · 2018年7月10日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

人工智能 | 国际会议截稿信息9条

人工智能 | 国际会议截稿信息9条

Call4Papers

4+阅读 · 2018年3月13日

【学习】Hierarchical Softmax

【学习】Hierarchical Softmax

机器学习研究会

4+阅读 · 2017年8月6日

相关论文

A cross-domain qualitative meta-analysis of digital forensics: Research trends, challenges, and emerging topics

A cross-domain qualitative meta-analysis of digital forensics: Research trends, challenges, and emerging topics

Arxiv

0+阅读 · 2021年8月10日

A Smart and Defensive Human-Machine Approach to Code Analysis

Arxiv

0+阅读 · 2021年8月10日

Privacy-Preserving Machine Learning: Methods, Challenges and Directions

Arxiv

0+阅读 · 2021年8月10日

An Empirical Study on Predictability of Software Code Smell Using Deep Learning Models

Arxiv

0+阅读 · 2021年8月8日

Empirical Analysis on Effectiveness of NLP Methods for Predicting Code Smell

Arxiv

0+阅读 · 2021年8月8日

Synthetic Benchmarks for Scientific Research in Explainable Machine Learning

Arxiv

0+阅读 · 2021年8月6日

A Survey on Distributed Machine Learning

Arxiv

45+阅读 · 2019年12月20日

Learning From Positive and Unlabeled Data: A Survey

Learning From Positive and Unlabeled Data: A Survey

Arxiv

5+阅读 · 2018年11月12日

Current Challenges and Visions in Music Recommender Systems Research

Arxiv

7+阅读 · 2018年3月21日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

微信扫码咨询专知VIP会员