【CIKM2020-清华】物联网数据质量,155页ppt,IoT Data Quality

2020 年 10 月 25 日 专知
第29届国际计算机学会信息与知识管理大会(The 29th ACM International Conference on Information and Knowledge Management, CIKM 2020)于2020年10月19日-10月23日在线上召开。CIKM是CCF推荐的B类国际学术会议,是信息检索和数据挖掘领域顶级学术会议之一。本届CIKM会议共收到投稿920篇,其中录用论文193篇,录取率约为21%。本篇介绍来自清华大学与滑铁卢大学关于物联网IoT的教程,实用干货,值得关注!


数据质量问题在物联网数据中得到了广泛的重视,并阻碍了下游应用的发展。然而,提高物联网数据质量尤其具有挑战性,因为物联网数据具有明显的特征,如普遍的噪声、未对齐的时间戳、连续错误、列错位、相关错误等等。在本教程中,我们将回顾物联网数据质量管理的最新技术。特别地,我们将讨论这些专用方法如何改进各种数据质量维度,包括有效性、完整性和一致性。此外,我们还进一步强调了深度学习技术在物联网数据质量方面的最新进展。最后,我们指出了物联网数据质量管理的开放问题,如基准或数据质量问题的解释。


https://sxsong.github.io/tutorial-iotdq/



参考文献:

Constraint Validity

  • Jun RaoSangeeta DoraiswamyHetal ThakkarLatha S. ColbyA Deferred Cleansing Method for RFID Data Analytics. VLDB 2006: 175-186

  • Ziawasch AbedjanCuneyt Gurcan AkcoraMourad OuzzaniPaolo PapottiMichael StonebrakerTemporal Rules Discovery for Web Data Cleaning. Proc. VLDB Endow. 9(4): 336-347 (2015)

  • Lukasz GolabHoward J. KarloffFlip KornAvishek SahaDivesh SrivastavaSequential Dependencies. Proc. VLDB Endow. 2(1): 574-585 (2009)

  • Shaoxu SongAoqian ZhangJianmin WangPhilip S. YuSCREEN: Stream Data Cleaning under Speed Constraints. SIGMOD Conference 2015: 827-841

  • Bettina FazzingaSergio FlescaFilippo FurfaroFrancesco ParisiCleaning trajectory data of RFID-monitored objects through conditioning under integrityconstraints. EDBT 2014: 379-390

  • Shaoxu SongYue CaoJianmin WangCleaning Timestamps with Temporal Constraints. Proc. VLDB Endow. 9(10): 708-719 (2016)

  • Jianmin WangShaoxu SongXuemin LinXiaochen ZhuJian PeiCleaning structured event logs: A graph repair approach. ICDE 2015: 30-41

Statistical Validity

  • Wush Chi-Hsuan WuMi-Yen YehJian PeiRandom Error Reduction in Similarity Search on Time Series: A Statistical Approach. ICDE 2012: 858-869

  • Aoqian ZhangShaoxu SongJianmin WangSequential Data Cleaning: A Statistical Approach. SIGMOD Conference 2016: 909-924

  • Tamraparni DasuJi Meng LohStatistical Distortion: Consequences of Data Cleaning. Proc. VLDB Endow. 5(11): 1674-1683 (2012)

  • Chris MayfieldJennifer NevilleSunil PrabhakarERACER: a database approach for statistical inference and data cleaning. SIGMOD Conference 2010: 75-86

  • Asif Iqbal BabaManfred JaegerHua LuTorben Bach PedersenWei-Shinn KuXike XieLearning-Based Cleansing for Indoor RFID Data. SIGMOD Conference 2016: 925-936

Completeness

Constraint-based Imputation

  • Ruilin LiuGuan WangWendy Hui WangFlip KorniCoDA: Interactive and exploratory data completeness analysis. ICDE 2014: 1226-1229

  • Jianmin WangShaoxu SongXiaochen ZhuXuemin LinEfficient Recovery of Missing Events. Proc. VLDB Endow. 6(10): 841-852 (2013)

  • Jianmin WangShaoxu SongXiaochen ZhuXuemin LinJiaguang SunEfficient Recovery of Missing Events. IEEE Trans. Knowl. Data Eng. 28(11): 2943-2957 (2016)

Statistical Model

  • Lei LiJames McCannNancy S. PollardChristos FaloutsosDynaMMo: mining and summarization of coevolving sequences with missing values. KDD 2009: 507-516

  • Yongjie CaiHanghang TongWei FanPing JiQing HeFacets: Fast Comprehensive Mining of Coevolving High-order Time Series. KDD 2015: 79-88

  • Shawn R. JefferyMinos N. GarofalakisMichael J. FranklinAdaptive Cleaning for RFID Data Streams. VLDB 2006: 163-174

  • Thanh T. L. TranCharles SuttonRichard CocciYanming NieYanlei DiaoPrashant J. ShenoyProbabilistic Inference over RFID Streams in Mobile Environments. ICDE 2009: 1096-1107

  • Haiquan ChenWei-Shinn KuHaixun WangMin-Te SunLeveraging spatio-temporal redundancy for RFID data cleansing. SIGMOD Conference 2010: 51-62

  • Zhou ZhaoWilfred NgA model-based approach for RFID data stream cleansing. CIKM 2012: 862-871

Deep Learning-based Imputation

  • Wei CaoDong WangJian LiHao ZhouLei LiYitan LiBRITS: Bidirectional Recurrent Imputation for Time Series. NeurIPS 2018: 6776-6786

  • Reza AsadiAmelia ReganA convolution recurrent autoencoder for spatio-temporal missing data imputation. CoRR abs/1904.12413 (2019)

  • Hongyuan MeiGuanghui QinJason EisnerImputing Missing Events in Continuous-Time Event Streams. ICML 2019: 4475-4485

  • Vincent FortuinGunnar RätschStephan MandtMultivariate Time Series Imputation with Variational Autoencoders. CoRR abs/1907.04155 (2019)

  • Yonghong LuoXiangrui CaiYing ZhangJun XuXiaojie YuanMultivariate Time Series Imputation with Generative Adversarial Networks. NeurIPS 2018: 1603-1614

  • Yonghong LuoYing ZhangXiangrui CaiXiaojie YuanE²GAN: End-to-End Generative Adversarial Network for Multivariate Time Series Imputation. IJCAI 2019: 3094-3100

  • Yukai LiuRose YuStephan ZhengEric ZhanYisong YueNAOMI: Non-Autoregressive Multiresolution Sequence Imputation. NeurIPS 2019: 11236-11246

Consistency

Pattern-based Detection

  • Lei CaoYizhou YanSamuel MaddenElke A. RundensteinerMathan GopalsamyEfficient Discovery of Sequence Outlier Patterns. Proc. VLDB Endow. 12(8): 920-932 (2019)

  • Laure Berti-ÉquilleTamraparni DasuDivesh SrivastavaDiscovery of complex glitch patterns: A novel approach to Quantitative Data Cleaning. ICDE 2011: 733-744

  • Pavel SeninJessica LinXing WangTim OatesSunil GandhiArnold P. BoedihardjoCrystal ChenSusan FrankensteinTime series anomaly discovery with grammar-based compression. EDBT 2015: 481-492

Statistical Model

  • Kexin RongPeter BailisASAP: Prioritizing Attention via Time Series Smoothing. Proc. VLDB Endow. 10(11): 1358-1369 (2017)

  • Christos FaloutsosJan GasthausTim JanuschowskiYuyang WangForecasting Big Time Series: Old and New. Proc. VLDB Endow. 11(12): 2102-2105 (2018)

  • Aoqian ZhangShaoxu SongJianmin WangPhilip S. YuTime Series Data Cleaning: From Anomaly Detection to Anomaly Repairing. Proc. VLDB Endow. 10(10): 1046-1057 (2017)

  • Nikolay LaptevSaeed AmizadehIan FlintGeneric and Scalable Framework for Automated Time-series Anomaly Detection. KDD 2015: 1939-1947

  • Sharmila SubramaniamThemis PalpanasDimitris PapadopoulosVana KalogerakiDimitrios GunopulosOnline Outlier Detection in Sensor Data Using Non-Parametric Models. VLDB 2006: 187-198

Deep Learning-based Detection

  • Pankaj MalhotraLovekesh VigGautam M. ShroffPuneet AgarwalLong Short Term Memory Networks for Anomaly Detection in Time Series. ESANN 2015

  • Pankaj MalhotraAnusha RamakrishnanGaurangi AnandLovekesh VigPuneet AgarwalGautam M. ShroffLSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection. CoRR abs/1607.00148 (2016)

  • Dan LiDacheng ChenBaihong JinLei ShiJonathan GohSee-Kiong NgMAD-GAN: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks. ICANN (4) 2019: 703-716

  • Fiete LüerDominik MautzChristian BöhmAnomaly Detection in Time Series using Generative Adversarial Networks. ICDM Workshops 2019: 1047-1048


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“iot155” 可以获取《【CIKM2020-清华】物联网数据质量,155页ppt,IoT Data Quality》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
人工智能药物发现,讲述AI与药物交叉应用研究
专知会员服务
155+阅读 · 2021年1月28日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
38+阅读 · 2020年11月21日
【ISWC2020】如何高效地构建大规模知识图谱?102页ppt
专知会员服务
69+阅读 · 2020年11月7日
【CIKM2020】神经贝叶斯信息处理,220页ppt,国立交通大学
专知会员服务
34+阅读 · 2020年10月26日
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
Arxiv
4+阅读 · 2019年1月14日
VIP会员
相关资讯
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
计算机类 | 低难度国际会议信息6条
Call4Papers
6+阅读 · 2019年4月28日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
人工智能领域顶会IJCAI 2018 接受论文列表
专知
5+阅读 · 2018年5月16日
Top
微信扫码咨询专知VIP会员