16岁高中生的「卷」，用13000+行代码，从头写了一个C++机器学习库 - 专知

会员服务 ·

0

16岁高中生的「卷」，用13000+行代码，从头写了一个C++机器学习库

2022 年 2 月 14 日 机器之心

机器之心报道

机器之心编辑部

人工智能领域现在也流行高中生拯救世界了？

一个热爱计算机的少年，16 岁就已经可以做出点东西来了，比如开发个粤语编程语言、拿个 Kaggle 冠军、写个游戏、开发个加密货币投资机器人、从头构建一个 C++ 机器学习库什么的。

今天要介绍的就是一位从头构建 C++ 机器学习库的 16 岁少年（@novak-99），他的自荐帖在 reddit 上获得了数百的点赞量。

他构建的这个库（ML++）有 13000 多行代码，涵盖了统计、线性代数、数值分析、机器学习和深度学习等主题。

项目地址：https://github.com/novak-99/MLPP

@novak-99 表示，他 之所以构建这个库，是因为 C++ 是他所选择的语言，但到了 ML 前端，C++ 却用得非常少 。

C++ 是高效的，而且有利于快速执行。所以大多数库（如 TensorFlow、PyTorch 或 Numpy）都使用 C/ C++ 或某种 C/ C++ 衍生的语言来优化和提高速度。

但当他查看各种机器学习算法的前端实现时，他注意到大多数算法是用 Python、MatLab、R 或 Octave 实现的。他认为，C++ 之所以在 ML 前端用得比较少，主要是因为缺乏用户支持，以及 C++ 语法比较复杂。

与 Python 相比， C++ 的机器学习框架少得可怜 。此外，即使在流行的框架（如 PyTorch 或 TensorFlow）中，C++ 的实现也不像 Python 的实现那样完整，存在的问题包括：缺少文档；并不是所有的主要函数都存在；没有多少人愿意贡献，等等。

此外， C++ 不支持 Python 的 ML 套件的各种关键库。Pandas 和 Matplotlib 都不支持 C++ 。这增加了 ML 算法的实现时间，因为数据可视化和数据分析的元素更难获得。

因此，他就决定自己写一个 C++ 的机器学习库。

他还注意到，由于 ML 算法非常容易实现，所以一些工程师可能会忽略它们背后的实现和数学细节。这可能会带来一些问题，因为在不了解数学细节的前提下，针对特定用例定制 ML 算法是不可能的。所以除了库之外，他还计划发布全面的文档，以解释库中每个机器学习算法背后的数学背景，涵盖统计、线性回归、雅可比矩阵和反向传播等内容。以下是关于统计的部分内容：

打开项目，我们可以看到其中的一些细节：

涵盖 19 大主题，这个 ML++ 足够大且全

与大多数框架一样，这位高中生创建的 ML++ 库是动态的，不断地在变化。这点在机器学习的世界尤为重要，因为每天都会有新的算法和技术被开发出来。

目前，ML++ 库中正在开发以下模型和技术：

卷积神经网络（CNN）
支持向量机（SVM）的内核
支持向量回归

整体而言，ML++ 库包含了 19 大主题以及相关细分内容，分别如下：

回归（线性回归、逻辑回归、Softmax 回归、指数回归、Probit 回归、Cloglog 回归、Tanh 回归）
深度、动态、规模化神经网络（激活函数、优化算法、损失函数、正则化方法、权重初始化方法、学习率规划器）
Prebuilt 神经网络（多层感知机、自编码器、Softmax 网络）
生成建模（表格对抗生成网络）
自然语言处理（Word2Vec、词干提取、词袋模型、TFIDF、辅助文本处理函数）
计算机视觉（卷积操作、最大 / 最小 / 平均池化、全局最大 / 最小 / 平均池化、Prebuilt 特征向量）
主成分分析
朴素贝叶斯分类器（多项分布朴素贝叶斯、伯努利分布朴素贝叶斯、高斯分布朴素贝叶斯）
支持向量分类（原始形成、对偶形成）
K-Means 算法
K 最近邻算法
Outlier Finder（使用标准分数）
矩阵分解（SVD 分解、Cholesky 分解、QR 分解）
数值分析（数值微分、Jacobi 向量计算器、Hessian 矩阵计算器、函数近似器、微分方程求解器）
数学变换（离散余弦变换）
线性代数模块
统计模块
数据处理模块（特征缩放、均值归一化、One Hot 表征、反 One Hot 表征、支持的颜色空间转换类型）
实用工具（TP/FP/TN/FN 函数、精度、召回率、准确率、F1 分数）

更多细节内容请参考原项目。

网友：这么卷，我怎么办

对于 16 岁就能做出如此出色的项目，有网友不禁感叹，这个世界上的高中生都在干些什么啊？！我在他们这个年纪还在『啃手指头』。而他们已经在 ICLR、NeurIPS 会议上发表论文了……

还有网友表示，如果高中生都在做这些事，想象一下几年后博士申请会有多激烈吧。现在，你只需要发表 3 篇以上的 NeurIPS 论文，将来就得获得图灵奖了。

看似开玩笑的话，也可以说是目前某种程度上的「卷」吧。

不过，也有网友指出，项目中有 13000 行代码却没有测试？另一位网友认为，这是一个基于个人爱好创建的项目（pet project），并不适用于实际用例。因此，测试在这里并不重要。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/srbvnc/p_c_machine_learning_library_built_from_scratch/

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

0

相关内容

【2022新书】Python手册，275页pdf

【2022新书】Python手册，275页pdf

专知会员服务

182+阅读 · 2022年3月18日

【干货书】《Pydon'ts：编写优雅的Python代码》，263页pdf

【干货书】《Pydon'ts：编写优雅的Python代码》，263页pdf

专知会员服务

93+阅读 · 2021年11月2日

【经典书】机器学习统计学，476页pdf

【经典书】机器学习统计学，476页pdf

专知会员服务

122+阅读 · 2021年7月19日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

174+阅读 · 2021年3月19日

Python机器学习经典实例，366页pdf

Python机器学习经典实例，366页pdf

专知会员服务

105+阅读 · 2021年1月2日

【2020新书】程序员数学基础，692页pdf，用Python实现3D图形、机器学习和仿真

【2020新书】程序员数学基础，692页pdf，用Python实现3D图形、机器学习和仿真

专知会员服务

250+阅读 · 2020年12月4日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【干货书】Python概率图模型实现，284页pdf带你实战学习概率图模型

【干货书】Python概率图模型实现，284页pdf带你实战学习概率图模型

专知会员服务

236+阅读 · 2020年4月8日

《深度学习》圣经花书的数学推导、原理与Python代码实现

《深度学习》圣经花书的数学推导、原理与Python代码实现

专知会员服务

324+阅读 · 2020年3月6日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

GitHub 热门：机器学习 100 天！

GitHub 热门：机器学习 100 天！

THU数据派

1+阅读 · 2022年4月1日

数据科学家一定要收藏的十个最佳Python库

数据科学家一定要收藏的十个最佳Python库

AI前线

1+阅读 · 2022年3月8日

13000 行代码、19 大技术，这位 16 岁高中生用 C++ 重头到尾构建了一个机器学习库！

13000 行代码、19 大技术，这位 16 岁高中生用 C++ 重头到尾构建了一个机器学习库！

CSDN

0+阅读 · 2022年2月22日

21个必须知道的机器学习开源工具！

21个必须知道的机器学习开源工具！

AI100

13+阅读 · 2019年9月13日

手把手教你学习神经网络的数学原理（代码和教程）

手把手教你学习神经网络的数学原理（代码和教程）

专知

59+阅读 · 2019年7月16日

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

大数据文摘

16+阅读 · 2019年5月13日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

吴恩达机器学习课程：完全用Python完成，可以的！（附代码）

吴恩达机器学习课程：完全用Python完成，可以的！（附代码）

新智元

52+阅读 · 2018年10月13日

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

机器之心

18+阅读 · 2018年3月25日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于学习的复杂并行绘制系统负载平衡算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

三维医学解剖学结构提取的变分模型和快速算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于机器学习的软件调试技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

机器学习中模型选择问题的研究及其在图像理解中的应用

国家自然科学基金

8+阅读 · 2008年12月31日

小世界神经网络中信号传输的建模研究

国家自然科学基金

1+阅读 · 2008年12月31日

A Brief Guide to Designing and Evaluating Human-Centered Interactive Machine Learning

Arxiv

0+阅读 · 2022年4月20日

Combining chest X-rays and electronic health record (EHR) data using machine learning to diagnose acute respiratory failure

Arxiv

0+阅读 · 2022年4月20日

Differentiating Network Flows for Priority-Aware Scheduling of Incoming Packets in Real-Time IoT Systems

Arxiv

0+阅读 · 2022年4月19日

Network Bandwidth Variation-Adapted State Transfer for Geo-Replicated State Machines and its Application to Dynamic Replica Replacement

Arxiv

0+阅读 · 2022年4月19日

An Intuitive Tutorial to Gaussian Processes Regression

Arxiv

0+阅读 · 2022年4月18日

Does Momentum Help? A Sample Complexity Analysis

Arxiv

0+阅读 · 2022年4月17日

FKreg: A MATLAB toolbox for fast Multivariate Kernel Regression

Arxiv

0+阅读 · 2022年4月16日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Machine Learning: Basic Principles

Arxiv

26+阅读 · 2018年8月19日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员

相关主题

相关VIP内容

【2022新书】Python手册，275页pdf

【2022新书】Python手册，275页pdf

专知会员服务

182+阅读 · 2022年3月18日

【干货书】《Pydon'ts：编写优雅的Python代码》，263页pdf

【干货书】《Pydon'ts：编写优雅的Python代码》，263页pdf

专知会员服务

93+阅读 · 2021年11月2日

【经典书】机器学习统计学，476页pdf

【经典书】机器学习统计学，476页pdf

专知会员服务

122+阅读 · 2021年7月19日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

174+阅读 · 2021年3月19日

Python机器学习经典实例，366页pdf

Python机器学习经典实例，366页pdf

专知会员服务

105+阅读 · 2021年1月2日

【2020新书】程序员数学基础，692页pdf，用Python实现3D图形、机器学习和仿真

【2020新书】程序员数学基础，692页pdf，用Python实现3D图形、机器学习和仿真

专知会员服务

250+阅读 · 2020年12月4日

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【干货书】Python概率图模型实现，284页pdf带你实战学习概率图模型

【干货书】Python概率图模型实现，284页pdf带你实战学习概率图模型

专知会员服务

236+阅读 · 2020年4月8日

《深度学习》圣经花书的数学推导、原理与Python代码实现

《深度学习》圣经花书的数学推导、原理与Python代码实现

专知会员服务

324+阅读 · 2020年3月6日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《人与智能体在系统工程建模语言V2任务中的性能表现：基于用户中心化的评估方法》308页

《数据安全国家标准体系（2025版）》征求意见稿

AlphaMosaic：人工智能赋能的作战管理系统

《军事行动中通信平台的战略价值：提升战术效能与作战优势》

相关资讯

GitHub 热门：机器学习 100 天！

GitHub 热门：机器学习 100 天！

THU数据派

1+阅读 · 2022年4月1日

数据科学家一定要收藏的十个最佳Python库

数据科学家一定要收藏的十个最佳Python库

AI前线

1+阅读 · 2022年3月8日

13000 行代码、19 大技术，这位 16 岁高中生用 C++ 重头到尾构建了一个机器学习库！

13000 行代码、19 大技术，这位 16 岁高中生用 C++ 重头到尾构建了一个机器学习库！

CSDN

0+阅读 · 2022年2月22日

21个必须知道的机器学习开源工具！

21个必须知道的机器学习开源工具！

AI100

13+阅读 · 2019年9月13日

手把手教你学习神经网络的数学原理（代码和教程）

手把手教你学习神经网络的数学原理（代码和教程）

专知

59+阅读 · 2019年7月16日

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

大数据文摘

16+阅读 · 2019年5月13日

用Python实现流行机器学习算法

用Python实现流行机器学习算法

Python程序员

21+阅读 · 2018年12月31日

吴恩达机器学习课程：完全用Python完成，可以的！（附代码）

吴恩达机器学习课程：完全用Python完成，可以的！（附代码）

新智元

52+阅读 · 2018年10月13日

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

资源 | 开放Python书籍：一本短小精悍的初学者入门指南

机器之心

18+阅读 · 2018年3月25日

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

资源 | 想用Python学机器学习？Google大神替你写好了所有的编程示范代码

AI100

13+阅读 · 2017年11月28日

相关基金

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于学习的复杂并行绘制系统负载平衡算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

全基因组关联研究中基因-基因、基因-环境交互作用统计分析方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

三维医学解剖学结构提取的变分模型和快速算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于机器学习的软件调试技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

机器学习中模型选择问题的研究及其在图像理解中的应用

国家自然科学基金

8+阅读 · 2008年12月31日

小世界神经网络中信号传输的建模研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

A Brief Guide to Designing and Evaluating Human-Centered Interactive Machine Learning

Arxiv

0+阅读 · 2022年4月20日

Combining chest X-rays and electronic health record (EHR) data using machine learning to diagnose acute respiratory failure

Arxiv

0+阅读 · 2022年4月20日

Differentiating Network Flows for Priority-Aware Scheduling of Incoming Packets in Real-Time IoT Systems

Arxiv

0+阅读 · 2022年4月19日

Network Bandwidth Variation-Adapted State Transfer for Geo-Replicated State Machines and its Application to Dynamic Replica Replacement

Arxiv

0+阅读 · 2022年4月19日

An Intuitive Tutorial to Gaussian Processes Regression

Arxiv

0+阅读 · 2022年4月18日

Does Momentum Help? A Sample Complexity Analysis

Arxiv

0+阅读 · 2022年4月17日

FKreg: A MATLAB toolbox for fast Multivariate Kernel Regression

Arxiv

0+阅读 · 2022年4月16日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Machine Learning: Basic Principles

Arxiv

26+阅读 · 2018年8月19日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

大家都在搜

久别重逢话双塔

CMU博士论文

无人机集群

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员