俄罗斯最大搜索引擎Yandex开源梯度上升机器学习库,背后雄心满满

2017 年 7 月 19 日 量子位 专注报道AI
安妮 编译自 Tech Crunch
量子位出品 | 公众号 QbitAI

昨天,俄罗斯搜索巨头Yandex开源了Gradient boosting机器学习库CatBoost,它能够在数据稀疏的情况下教机器学习。即使没有像视频、文本、图像这类的感官型数据,CatBoost也能根据事务型数据或历史数据进行操作。

开源CatBoost只是Yandex新战略的一个开头。

 Yandex是目前世界第五大搜索引擎

两次亮相

Yandex昨天的登台方式可不只一种。

首先,Yandex宣布,将用自研的新服务框架CatBoost替代原来的机器学习算法MartriNet。自2009年被研发出后,MartriNet一直被Yandex应用在多种任务处理上,比如排名、天气预报、出租车服务以及推荐任务上。现在,这些工作将逐渐被CatBoost取代,于未来几个月持续进行。

之后,Yandex宣布将免费提供CatBoost,任何想应用这项技术的人均可在Apache许可证下应用。“CatBoost是Yandex多年研究的尖端成果,”Yandex机器智能研究的主管Misha Bilenko在接受采访时表示,“我们曾用过很多开源的机器学习工具,是时候向社会作出回馈了。”

成为“中心”

Bilenko补充说,还没有计划要将CatBoost商业化,或以其他任何专利的方式将其关闭。“这和竞争对手无关,”他说,“我们会很高兴看到竞争对手使用它。”

近几年,随着Yandex实力增强,它一直在寻找提升它在俄语世界外的国际影响力。开源这项行为,不仅强调了Yandex对开源社区的承诺,还展示了Yandex想成为世界“中心”的雄心,无论作为大型科技公司还是更大的开发者社区。

CatBoost的三重奏

Bilenko说Yandex开源CatBoost是受到了两方面启示——一是谷歌在2015年开源TensorFlow,二是Linux的建立与成长。正如谷歌持续发展并升级TensorFlow一样,CatBoost的第一版将继续更新并将持续迭代。目前,这一版本主要有三种特性:

减少过拟合:它可以帮你在训练项目中得到更好结果。这是“基于一种专有算法来构造不同于标准Gradient boosting方案的模型”。

支持类别特征:将改进你的训练结果,同时允许使用非数字的因素,“而不是必须预先处理数据,或者花费时间和精力将数据转换为数字。”

用户友好的API界面:它还使用了一个API接口,允许从指令行或通过API让Python或R语言使用CatBoost,包括公式分析和培训可视化工具。

调适量少

虽然有大量其他数据库帮助增加梯度或用其他解决方案帮助训练机器学习系统,但Bilenko认为CatBoost相较其他框架的最大优点是测试精准度高。

“很多恶劣的机器学习代码需要大量调试,”Bilenko说,“CatBoost只需少量调试,并且性能良好。这是最重要的一个区别。”

最后,附CatBoost开源代码区地址:

https://catboost.yandex/

祝你玩得愉快~

【完】

交流沟通

量子位读者6群开启,对人工智能感兴趣的朋友,欢迎加量子位小助手的微信qbitbot2,申请入群,一起探讨AI。

想要更深一步的交流?

量子位还有自动驾驶NLPCV三个专业讨论群,仅接纳相应领域的一线工程师、研究人员等

同样需要添加qbitbot2为微信好友,提交相应说明,符合条件后将被邀请入群。(审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者等岗位,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

 扫码强行关注『量子位』

追踪人工智能领域最劲内容


登录查看更多
2

相关内容

【实用书】Python技术手册,第三版767页pdf
专知会员服务
237+阅读 · 2020年5月21日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
120+阅读 · 2020年5月10日
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
204+阅读 · 2020年2月11日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
212+阅读 · 2020年1月13日
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
官方解读:TensorFlow 2.0 新的功能特性
云头条
3+阅读 · 2019年1月23日
机器学习者必知的 5 种深度学习框架
深度学习世界
7+阅读 · 2018年5月3日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
9+阅读 · 2018年3月23日
VIP会员
相关VIP内容
【实用书】Python技术手册,第三版767页pdf
专知会员服务
237+阅读 · 2020年5月21日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
120+阅读 · 2020年5月10日
【论文扩展】欧洲语言网格:概述
专知会员服务
7+阅读 · 2020年3月31日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
204+阅读 · 2020年2月11日
【新书】深度学习搜索,Deep Learning for Search,附327页pdf
专知会员服务
212+阅读 · 2020年1月13日
相关资讯
俄罗斯Yandex公司ClickHouse团队访问计算所
中国科学院网络数据重点实验室
13+阅读 · 2019年6月12日
官方解读:TensorFlow 2.0 新的功能特性
云头条
3+阅读 · 2019年1月23日
机器学习者必知的 5 种深度学习框架
深度学习世界
7+阅读 · 2018年5月3日
Python 杠上 Java、C/C++,赢面有几成?
CSDN
6+阅读 · 2018年4月12日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
28 款 GitHub 最流行的开源机器学习项目(附地址)
七月在线实验室
4+阅读 · 2017年12月18日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Seeing What a GAN Cannot Generate
Arxiv
8+阅读 · 2019年10月24日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
SepNE: Bringing Separability to Network Embedding
Arxiv
3+阅读 · 2019年2月26日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
9+阅读 · 2018年3月23日
Top
微信扫码咨询专知VIP会员