Python type inference is challenging in practice. Due to its dynamic properties and extensive dependencies on third-party libraries without type annotations, the performance of traditional static analysis techniques is limited. Although semantics in source code can help manifest intended usage for variables (thus help infer types), they are usually ignored by existing tools. In this paper, we propose PYInfer, an end-to-end learning-based type inference tool that automatically generates type annotations for Python variables. The key insight is that contextual code semantics is critical in inferring the type for a variable. For each use of a variable, we collect a few tokens within its contextual scope, and design a neural network to predict its type. One challenge is that it is difficult to collect a high-quality human-labeled training dataset for this purpose. To address this issue, we apply an existing static analyzer to generate the ground truth for variables in source code. Our main contribution is a novel approach to statically infer variable types effectively and efficiently. Formulating the type inference as a classification problem, we can handle user-defined types and predict type probabilities for each variable. Our model achieves 91.2% accuracy on classifying 11 basic types in Python and 81.2% accuracy on classifying 500 most common types. Our results substantially outperform the state-of-the-art type annotators. Moreover, PYInfer achieves 5.2X more code coverage and is 187X faster than a state-of-the-art learning-based tool. With similar time consumption, our model annotates 5X more variables than a state-of-the-art static analysis tool. Our model also outperforms a learning-based function-level annotator on annotating types for variables and function arguments. All our tools and datasets are publicly available to facilitate future research in this direction.


翻译:Python 类型推论在实践中具有挑战性。 由于其动态属性和对第三方图书馆没有类型说明的高度依赖性, 传统静态分析技术的性能有限。 虽然源代码中的语义可以帮助显示变量( 帮助推断类型) 的预定用途, 但通常被现有工具忽略。 在本文中, 我们建议 PyInfer 是一个基于端到端的学习类型推论工具, 自动生成 Python 变量的型号说明。 关键见解是, 上下文代码描述对于推断变量类型至关重要。 对于变量的每一次使用, 我们收集其上下文范围内的几个符号, 设计一个神经网络来预测其类型。 一个挑战是, 要为此收集高质量的人类标签培训数据集是困难的。 为了解决这个问题, 我们使用一个基于端到端到端的变量分析器来生成源代码中的变量的地面真相。 我们的主要贡献是, 以静态推算的变数类型为有效和高效的。 将类型推论作为分类的模型, 我们可以用最精确的型号类型来分析一个普通的用户类型, 并且用最精确的模型进行我们最精确的模型 。 将一个普通的 Ralevalx 。 。 将一个普通的 Ralx 。 。 将一个普通类型和最精确的 将一个普通的型号 将一个普通的变数 将一个普通的变数 。

0
下载
关闭预览

相关内容

【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
74+阅读 · 2021年5月23日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
115+阅读 · 2020年1月1日
【UAI 2019 Tutorials】深度学习数学(Mathematics of Deep Learning)
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Active Inference for Stochastic Control
Arxiv
0+阅读 · 2021年8月27日
Learning Dynamic Routing for Semantic Segmentation
Arxiv
8+阅读 · 2020年3月23日
Arxiv
5+阅读 · 2020年3月16日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
【2021新书】Python流数据实用机器学习,127页pdf
专知会员服务
74+阅读 · 2021年5月23日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
36+阅读 · 2020年4月1日
【新书】Python数据科学食谱(Python Data Science Cookbook)
专知会员服务
115+阅读 · 2020年1月1日
【UAI 2019 Tutorials】深度学习数学(Mathematics of Deep Learning)
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
93+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
利用动态深度学习预测金融时间序列基于Python
量化投资与机器学习
18+阅读 · 2018年10月30日
已删除
AI科技评论
4+阅读 · 2018年8月12日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】Python机器学习生态圈(Scikit-Learn相关项目)
机器学习研究会
6+阅读 · 2017年8月23日
【推荐】(Keras)LSTM多元时序预测教程
机器学习研究会
24+阅读 · 2017年8月14日
Top
微信扫码咨询专知VIP会员