Python文档字符串生成器:基于CodeBERT,支持Google、Numpy等多种输出格式

2020 年 11 月 26 日 量子位
木易 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

又一款懒人神器问世了:

Visual Studio Code的扩展,基于CodeBERT的Python文档字符串生成器。

看来现在,这群偷「懒」的程序员们连文档字符串都不想自己写了。

基于CodeBERT的生成器

跟正常的DocStrings用法一样,你只需要输入三引号「“””」,之后按Enter,便能调用这个工具。就像这样:

并且,这个生成器还可以在几种不同类型的文档字符串格式之间进行选择。

而这个工具,不仅仅能够帮助写代码的人,还可以方便后来人读代码。可以说是非常方便的一个扩展了。

这个工具的本质,就是一个自然语言识别的AI,它能够识别你所写代码的内容,然后输出对应的字符串。

具体是如何识别的,该AI的作者是这么介绍的:

参数类型是通过PEP 484类型、默认值和var标签进行识别的。

识别输入之后便是推断,这之间进行训练的方法,也并不复杂,通过CodeBERT便可以实现。

CodeBERT是一种双模预训练模型,它可以捕捉自然语言和编程语言之间的语义连接,是目前已知的第一个大型 NL-PL(自然语言-编程语言)预训练模型。

在训练过程中,使用 CodeSearchNet 语料库作为训练数据,并使用 CodeBERT 中的 Code2NL微调任务。

之后,进行的推断基准测试如下:

从上图也能看出,在不同的推断基准测试中,所需要的生成时间都很短(2s内),这体现在操作上的话,就是延迟。

目前,这个生成器可以支持识别args、kwargs、decorators和errors等参数类型。

此外,还可以输出Google、docBlockr、Numpy、Sphinx等Docstring格式,PEP0257类型的格式,也即将上线。

使用方法

1、从容器中运行模型推断服务

具有GPU的话:在安装nvidia-docker后,运行docker run-it-d-GPU 0-p 5000:5000 gray kode/ai-docstring

只有CPU:运行docker run-it-d-p 5000:5000 gray kode/ai-docstring

2、在VSCode中安装扩展并使用

光标必须在定义正下方的行上,以生成完全自动填充的文档字符串。

用三重引号「“””‘’’」打开文档字符串后,按Enter键;

键盘快捷键是ctrl+shift+2,Mac为cmd+shift+2

网友讨论

该生成器一经发布,便引起了网友们的讨论。

有网友认为这是一项非常便利的技术,非常期待:

不过,也有网友认为这项技术仍具有不小的局限性:

比如这位网友认为:更常见的注释,是在代码中没有立即出现的上下文之间添加内容。

不过,虽然有局限,但是人总是在「懒」的过程中变得更「懒」(狗头)。

比如jQuery的流行,是因为开发者懒得为DOM编写跨浏览器兼容性代码;

而之后Angular.js的流行,是因为开发者连DOM都懒得操作。

所以,还是非常期待这个扩展的后续,这些程序员能不能针对这些局限性进一步偷懒的。

获取资源

目前这个扩展已经在Visual Studio Code上免费上线。

进入链接即可获取资源:

https://marketplace.visualstudio.com/items?itemName=graykode.ai-docstring

也可以通过Github获取源文件:

https://github.com/graykode/ai-docstring

—  —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

「MEET 2021智能未来大会」启幕,

早鸟票限时抢购中,扫码预定席位!

李开复博士、 尹浩院士、清华 唐杰教授,以及来自 小米美团爱奇艺小冰亚信浪潮、容联、 澎思地平线G7等知名AI大厂的大咖嘉宾齐聚,期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~




登录查看更多
0

相关内容

必须收藏!MIT-Gilbert老爷子《矩阵图解》,一张图看透矩阵
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
【2020干货书】Python3基础导论介绍,98页pdf
专知会员服务
100+阅读 · 2020年10月11日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
【书籍】深度学习框架:PyTorch入门与实践(附代码)
专知会员服务
163+阅读 · 2019年10月28日
微信小程序官方发布支持Python的自动化测试框架
Python程序员
8+阅读 · 2019年9月4日
VS Code Remote发布!真·远程开发
开源中国
6+阅读 · 2019年5月3日
GitHub 热门:别再用 print 输出来调试代码了
Python开发者
27+阅读 · 2019年4月24日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
Python用于NLP :处理文本和PDF文件
Python程序员
4+阅读 · 2019年3月27日
精选Top30!最实用的python开源项目都在这里
乌镇智库
4+阅读 · 2018年1月26日
隐马尔科夫模型 python 实现简单拼音输入法
Python开发者
3+阅读 · 2017年12月6日
Arxiv
0+阅读 · 2021年1月27日
Arxiv
0+阅读 · 2021年1月26日
Arxiv
0+阅读 · 2021年1月24日
Arxiv
3+阅读 · 2019年11月28日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
6+阅读 · 2019年9月4日
VIP会员
相关资讯
微信小程序官方发布支持Python的自动化测试框架
Python程序员
8+阅读 · 2019年9月4日
VS Code Remote发布!真·远程开发
开源中国
6+阅读 · 2019年5月3日
GitHub 热门:别再用 print 输出来调试代码了
Python开发者
27+阅读 · 2019年4月24日
OpenAI「假新闻」生成器GPT-2的最简Python实现
机器之心
4+阅读 · 2019年4月20日
Python用于NLP :处理文本和PDF文件
Python程序员
4+阅读 · 2019年3月27日
精选Top30!最实用的python开源项目都在这里
乌镇智库
4+阅读 · 2018年1月26日
隐马尔科夫模型 python 实现简单拼音输入法
Python开发者
3+阅读 · 2017年12月6日
相关论文
Arxiv
0+阅读 · 2021年1月27日
Arxiv
0+阅读 · 2021年1月26日
Arxiv
0+阅读 · 2021年1月24日
Arxiv
3+阅读 · 2019年11月28日
Knowledge Distillation from Internal Representations
Arxiv
4+阅读 · 2019年10月8日
Arxiv
6+阅读 · 2019年9月4日
Top
微信扫码咨询专知VIP会员