AI创业公司最佳「开发工具」指南火了,还发现了个可挑战Jupyter的「杀手」

2020 年 8 月 7 日 量子位
白交 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

一份AI创业公司最佳「开发工具」指南,火了。

Reddit上,一份来自41家创业公司的调研答案,热度已达471

除了比较流行的开发环境Jupyter以外,还出现了这样一个身影——Deepnote

小团队制作,堪称可挑战「Jupyter Notebook」的Deepnote,目前已经有少数公司在使用了。

网友纷纷表示要去试试。

于是进一步吸引了Deepnote开发者亲自过来答疑。

所以这究竟是一份怎样的指南?还有哪些其他有意思的开发工具?

调研结果

这份调查来自一家轻量工具集成网站neptune.ai,他们采访了41家AI初创公司。

调查结果如下:

软件开发设置

  • IDE:Jupyter Lab+NB扩展(少数用Deepnote),Colab和PyCharm、VSCode(R用户喜欢 R studio)

  • Github

  • Python(大多数),R(部分)

机器学习框架

  • 处理数据和可视化:Pandas + Matplotlib + Plotly

  • 经典算法:Sklearn + XGBoost

  • 深度学习:Tensorflow + Keras或Pytorch

MLOps

  • 编排:Kubeflow,Airflow,Amazon Sagemaker,Azure

  • 模型包装/服务:Kubeflow,MLflow,Amazon Sagemaker

  • 模型从训练到推理的剖析和优化:pytest-benchmark、MLperf

  • 实验管理:MLflow,Comet,Neptune

具体情况,是这样的。

软件开发设置

开发环境是每个团队工作流程的基础,而对于IDE,很多团队都喜欢Jupyter Notebooks和Jupyter Lab及其NB扩展。

而有些团队则是使用标准软件开发IDE,提及最多的是Pycharm和VSCode。

使用Pycharm的一家公司Hotelmize称,这是最好的Python IDE。

而使用VSCode的公司则为其正名。

VSCode易于与Azure连接,并提供了许多基于ML的扩展。

对于使用R语言的团队来说,RStudio是他们最好的选择。

还有一项工具——GitHub。我想这对每个AI团队都是福音,初创公司更是。

调查结果正是如此,GitHub因为其免费、强大的版本控制系统、共享功能,对团队来说都是超级有用的。

对于最流行的编程语言里,Python、R语言上榜,竟还有一个Clojure。

值得一提的是,对于环境/基础设施的设置方面,有一些团队给出了以下建议:

  • AWS作为部署平台(Simple Report)。

  • Anaconda是我们运行ML实验的首选工具,因为它的活代码功能,可以用来将软件代码、计算输出、解释性文本和多媒体资源结合在一个文档中。(Scanta)

  • Redis作为内存中的数据结构存储,由于它支持不同类型的抽象数据结构,如字符串、列表、映射、集、排序集、HyperLogLogs、位图、流和空间索引等,因此Redis作为内存中的数据结构存储占据了主导地位。(Scanta)

  • Snowflake和Amazon S3用于数据存储。(Hypergiant)

  • Spark-pyspark—-非常简单的api,用于大数据的分配作业。(Hotelmize)

机器学习框架

机器学习框架也必不可少。而这一部分,选择的工具有很多。

在处理表格数据方面,最多提及的是Pandas

Sigma Polaris CEO表示,Pandas可能是最有价值的工具之一,尤其是在与外部开发人员合作进行各种项目时。所有的数据以数据框架的形式存在,协作更加流畅,减少了不必要的麻烦。

提到可视化,MatplotlibPlotly是最多的选择。

还有公司推荐了Dash,它是一个在Plotly图表为基础建立的交互式仪表盘的工具,这对于用户来说更加友好。

对于标准的机器学习问题,大多数团队使用Scikit-Learn和XGBoost,尤其是Scikit-Learn

iSchoolConnect公司就解释道:

Scikit-Learn是机器学习研究人员、工程师和开发人员最常用的工具箱之一。你可以轻松获得你想要的东西,这一点让人惊叹不已!

对于深度学习框架而言,PyTorch、Tensorflow+Keras很受团队欢迎。

而在具体的方向上,比如NLP,Huggingface、Spacy、Gensim是常用的工具,CV方面,OpenCV无疑是必需的了。

MLOps

类似于DevOps,有人称,MLOps是用于机器学习的DevOps。

MLOps是将模型集成并部署到生产系统中的所有工具。

这包括模型被部署到哪里,如何到达那里,如何被更大的软件/应用程序访问,如何跟踪ML模型在现实世界中的性能,以及如何对模型进行实时管理和测试。

每个团队针对于自身的不同任务,所使用的工具也不尽相同。

调查的结果如下:

  • 编排:Kubeflow,Airflow,Amazon Sagemaker,Azure

  • 模型包装/服务:Kubeflow,MLflow,Amazon Sagemaker

  • 模型从训练到推理的剖析和优化:pytest-benchmark、MLperf

  • 实验管理:MLflow,Comet,Neptune

总的来说,很多团队用Jupyter进行探索,用Pycharm/VSCode进行开发。

他们都喜欢GitHub,Python语言使用的最多。

对于深度学习框架,他们更喜欢使用Tensorflow、Keras和Pytorch。

值得注意的是,越来越多的人开始使用高级的PyTorch训练框架,如Lightning、Ignite、Catalyst、fastai和Skorch。

在可视化探索方面,人们使用matplotlib, plotly, altair和hiplot。

对于实验跟踪,团队通常使用如TensorBoard、MLflow和Sacred这些的开源软件包。

想要了解更多,传送门在此:

https://neptune.ai/blog/tools-libraries-frameworks-methodologies-ml-startups-roundup?utm_source=reddit&utm_medium=post&utm_campaign=blog-tools-libraries-frameworks-methodologies-ml-startups-roundup

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能? 

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流


量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


喜欢就点「在看」吧 !


登录查看更多
0

相关内容

Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示的程序。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。
【实用书】Python编程,140页pdf
专知会员服务
41+阅读 · 2020年8月20日
【干货书】Python高级数据科学分析,424页pdf
专知会员服务
112+阅读 · 2020年8月7日
【干货书】Python语音计算导论,408页pdf
专知会员服务
98+阅读 · 2020年7月12日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
256+阅读 · 2020年6月10日
专知会员服务
165+阅读 · 2020年6月4日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
229+阅读 · 2020年5月21日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
刚开始学编程?这几款小工具能让你事半功倍
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
推荐|Google最热门31款开源项目资源
全球人工智能
4+阅读 · 2017年11月24日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
开源巨献:Google最热门60款开源项目
程序猿
5+阅读 · 2017年7月12日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
5+阅读 · 2019年11月22日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关VIP内容
【实用书】Python编程,140页pdf
专知会员服务
41+阅读 · 2020年8月20日
【干货书】Python高级数据科学分析,424页pdf
专知会员服务
112+阅读 · 2020年8月7日
【干货书】Python语音计算导论,408页pdf
专知会员服务
98+阅读 · 2020年7月12日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
256+阅读 · 2020年6月10日
专知会员服务
165+阅读 · 2020年6月4日
【实用书】Python技术手册,第三版767页pdf
专知会员服务
229+阅读 · 2020年5月21日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
相关资讯
21个必须知道的机器学习开源工具!
AI100
13+阅读 · 2019年9月13日
刚开始学编程?这几款小工具能让你事半功倍
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
推荐|Google最热门31款开源项目资源
全球人工智能
4+阅读 · 2017年11月24日
资源 | GitHub上的五大开源机器学习项目
机器之心
9+阅读 · 2017年11月9日
开源巨献:Google最热门60款开源项目
程序猿
5+阅读 · 2017年7月12日
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Arxiv
5+阅读 · 2019年11月22日
Revisiting CycleGAN for semi-supervised segmentation
Arxiv
3+阅读 · 2019年8月30日
Arxiv
15+阅读 · 2019年4月4日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
7+阅读 · 2018年5月23日
Arxiv
4+阅读 · 2018年3月14日
Top
微信扫码咨询专知VIP会员