机器之心原创
机器之心编辑部
作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间,从无到有,机器之心的编译团队一直在积累专业词汇。虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步、一直在积累、一直在提高自己的专业性。
两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典。而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区、跨专业等等原因造成的。举个例子,DeepMind 的一篇论文中有个词汇为 differentiable boundary tree,当时机器之心的翻译为可微分界树,但后来有读者表示这样的译法如果不保留英文很难明白表达的意思且建议翻译为可微分边界树。
因此,我们想把机器之心内部积累的人工智能专业词汇中英对照表开放给大家,希望为大家写论文、中文博客、阅读文章提供帮助。同时,这也是一份开放的表单,希望越来越多的人能够提供增添、修改建议,为人工智能的传播助力。
项目地址:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology
读者在此项目中,可通过以上表盘查看自己想要了解的专业词汇。在单个首字母中,表格的组织形式为:英文/缩写、汉语、来源&扩展。
来源&扩展是对该词汇的注解,内容为机器之心往期的相关文章。例如下图所示的「算法」,我们关联到的三篇文章是《回归、分类与聚类:三大方向剖解机器学习算法的优缺点》和《机器学习算法附速查表》和《深度学习算法全景图:从理论证明其正确性》。因此,我们希望不仅能提供相对应的术语,同时还希望能为读者提供每一个术语的来源和概念上的扩展。但由于这一部分工作量较大,我们还将与读者共同推进这一部分扩展的进程。
本项目中所有英文专业词汇对照的中文都来自机器之心编译的文章和系列机器学习教科书(如周志华的《机器学习》和李航的《统计学习方法》等),我们力求在提供准确翻译的同时保留最常用的形式。同时,为了保证词汇翻译的准确性,我们将此项目向读者开源,并希望能与读者共同迭代术语的准确度。除此之外,我们还将为每一个词汇提供来源与扩展进一步提升词汇的置信度。
因为该项目很多术语都是机器之心平常编译文章所积累的,所以我们首先需要向读者说明机器之心术语编译的标准。
1. 常见术语的编译标准
机器之心常见术语的编译首先会确保术语的正确性,其次再考虑术语的传播广度。例如常见术语。logistic regression,首先机器之心会保证该术语的准确度。我们常见 logistic regression 会翻译为逻辑回归,但中文「逻辑」与 logistic 的含义还是有些差别,因此我们并不太倾向于采用这种译法。在准确度的基础上,我们会考虑术语的传播广度。例如有学者建议可以将 logistic regression 译为对数几率回归,但鉴于该译法的传播度不广,看到中文并不会马上检索到对应英文和概念,所以我们最终在常见术语编译标准下将 logistic regression 译为 logistical 回归。机器之心在对常见术语编译时并不会保留英文,也不会做进一步说明。
2. 非常见术语的编译标准
机器之心在编译技术文章或论文时,常常会遇到非常见的术语。因为像论文那样的文章是在特定领域下为解决特定问题而规范化书写的,所以就会存在较多的非常见的术语。而机器之心在编译非常见术语时,唯一的标准就是准确性,通常我们也会保留英文。因为非常见术语通常是数学、神经科学和物理学等领域上的专业术语,机器之心会尽可能地借鉴其他领域内的译法和意义而确定如何编译。例如 fixed-point theorem,在参考数学的情况下,我们会更倾向于译为不动点定理,fixed-point 译为不动点而不是定点。
3. 歧义术语的编译标准
还有很多术语其实是有歧义的,而对于这一类词,机器之心的编译标准会根据语义进行确定,因此也会有一些误差。例如 bias 在描述神经网络层级单元时可以译为偏置项。而在描述训练误差和与叉验证误差间的关系或学习曲线时,bias 可以译为偏差。这样的例子还有很多,比如 Stationary 在马尔可夫模型中可译为稳态分布(Stationary distribution),在最优化问题中可译为驻点(Stationary point),而在涉及博弈论或对抗性训练时,其又可能表达为静态。
以上是机器之心大概编译术语的标准,虽然我们在常用术语的编译上错误率相对较少,但在非常见术语和歧义术语上仍然会出现一些错误。尤其是在非常见术语的编译上,没有特定的背景知识很容易在编译上出现误差。因此我们希望能与读者共同加强术语的编译质量。
本词汇库目前拥有的专业词汇共计 500 个,主要为机器学习基础概念和术语,同时也是该项目的基本词汇。机器之心将继续完善术语的收录和扩展阅读的构建。词汇更新主要分为两个阶段,第一阶段机器之心将继续完善基础词汇的构建,即通过权威教科书或其它有公信力的资料抽取常见术语。第二阶段机器之心将持续性地把编译论文或其他资料所出现的非常见术语更新到词汇表中。
读者的反馈意见和更新建议将贯穿整个阶段,并且我们将在项目致谢页中展示对该项目起积极作用的读者。因为我们希望术语的更新更具准确度和置信度,所以我们希望读者能附上该术语的来源地址与扩展地址。因此,我们能更客观地更新词汇,并附上可信的来源与扩展。
Letter A
| Accumulated error backpropagation | 累积误差逆传播 | 
| Activation Function | 激活函数 | 
| Adaptive Resonance Theory/ART | 自适应谐振理论 | 
| Addictive model | 加性学习 | 
| Adversarial Networks | 对抗网络 | 
| Affine Layer | 仿射层 | 
| Affinity matrix | 亲和矩阵 | 
| Agent | 代理 / 智能体 | 
| Algorithm | 算法 | 
| Alpha-beta pruning | α-β剪枝 | 
| Anomaly detection | 异常检测 | 
| Approximation | 近似 | 
| Area Under ROC Curve/AUC | Roc 曲线下面积 | 
| Artificial General Intelligence/AGI | 通用人工智能 | 
| Artificial Intelligence/AI | 人工智能 | 
| Association analysis | 关联分析 | 
| Attention mechanism | 注意力机制 | 
| Attribute conditional independence assumption | 属性条件独立性假设 | 
| Attribute space | 属性空间 | 
| Attribute value | 属性值 | 
| Autoencoder | 自编码器 | 
| Automatic speech recognition | 自动语音识别 | 
| Automatic summarization | 自动摘要 | 
| Average gradient | 平均梯度 | 
| Average-Pooling | 平均池化 | 
Letter B
| Backpropagation Through Time | 通过时间的反向传播 | 
| Backpropagation/BP | 反向传播 | 
| Base learner | 基学习器 | 
| Base learning algorithm | 基学习算法 | 
| Batch Normalization/BN | 批量归一化 | 
| Bayes decision rule | 贝叶斯判定准则 | 
| Bayes Model Averaging/BMA | 贝叶斯模型平均 | 
| Bayes optimal classifier | 贝叶斯最优分类器 | 
| Bayesian decision theory | 贝叶斯决策论 | 
| Bayesian network | 贝叶斯网络 | 
| Between-class scatter matrix | 类间散度矩阵 | 
| Bias | 偏置 / 偏差 | 
| Bias-variance decomposition | 偏差-方差分解 | 
| Bias-Variance Dilemma | 偏差 - 方差困境 | 
| Bi-directional Long-Short Term Memory/Bi-LSTM | 双向长短期记忆 | 
| Binary classification | 二分类 | 
| Binomial test | 二项检验 | 
| Bi-partition | 二分法 | 
| Boltzmann machine | 玻尔兹曼机 | 
| Bootstrap sampling | 自助采样法/可重复采样/有放回采样 | 
| Bootstrapping | 自助法 | 
| Break-Event Point/BEP | 平衡点 | 
Letter C
| Calibration | 校准 | 
| Cascade-Correlation | 级联相关 | 
| Categorical attribute | 离散属性 | 
| Class-conditional probability | 类条件概率 | 
| Classification and regression tree/CART | 分类与回归树 | 
| Classifier | 分类器 | 
| Class-imbalance | 类别不平衡 | 
| Closed -form | 闭式 | 
| Cluster | 簇/类/集群 | 
| Cluster analysis | 聚类分析 | 
| Clustering | 聚类 | 
| Clustering ensemble | 聚类集成 | 
| Co-adapting | 共适应 | 
| Coding matrix | 编码矩阵 | 
| COLT | 国际学习理论会议 | 
| Committee-based learning | 基于委员会的学习 | 
| Competitive learning | 竞争型学习 | 
| Component learner | 组件学习器 | 
| Comprehensibility | 可解释性 | 
| Computation Cost | 计算成本 | 
| Computational Linguistics | 计算语言学 | 
| Computer vision | 计算机视觉 | 
| Concept drift | 概念漂移 | 
| Concept Learning System /CLS | 概念学习系统 | 
| Conditional entropy | 条件熵 | 
| Conditional mutual information | 条件互信息 | 
| Conditional Probability Table/CPT | 条件概率表 | 
| Conditional random field/CRF | 条件随机场 | 
| Conditional risk | 条件风险 | 
| Confidence | 置信度 | 
| Confusion matrix | 混淆矩阵 | 
| Connection weight | 连接权 | 
| Connectionism | 连结主义 | 
| Consistency | 一致性/相合性 | 
| Contingency table | 列联表 | 
| Continuous attribute | 连续属性 | 
| Convergence | 收敛 | 
| Conversational agent | 会话智能体 | 
| Convex quadratic programming | 凸二次规划 | 
| Convexity | 凸性 | 
| Convolutional neural network/CNN | 卷积神经网络 | 
| Co-occurrence | 同现 | 
| Correlation coefficient | 相关系数 | 
| Cosine similarity | 余弦相似度 | 
| Cost curve | 成本曲线 | 
| Cost Function | 成本函数 | 
| Cost matrix | 成本矩阵 | 
| Cost-sensitive | 成本敏感 | 
| Cross entropy | 交叉熵 | 
| Cross validation | 交叉验证 | 
| Crowdsourcing | 众包 | 
| Curse of dimensionality | 维数灾难 | 
| Cut point | 截断点 | 
| Cutting plane algorithm | 割平面法 | 
Letter D
| Data mining | 数据挖掘 | 
| Data set | 数据集 | 
| Decision Boundary | 决策边界 | 
| Decision stump | 决策树桩 | 
| Decision tree | 决策树/判定树 | 
| Deduction | 演绎 | 
| Deep Belief Network | 深度信念网络 | 
| Deep Convolutional Generative Adversarial Network/DCGAN | 深度卷积生成对抗网络 | 
| Deep learning | 深度学习 | 
| Deep neural network/DNN | 深度神经网络 | 
| Deep Q-Learning | 深度 Q 学习 | 
| Deep Q-Network | 深度 Q 网络 | 
| Density estimation | 密度估计 | 
| Density-based clustering | 密度聚类 | 
| Differentiable neural computer | 可微分神经计算机 | 
| Dimensionality reduction algorithm | 降维算法 | 
| Directed edge | 有向边 | 
| Disagreement measure | 不合度量 | 
| Discriminative model | 判别模型 | 
| Discriminator | 判别器 | 
| Distance measure | 距离度量 | 
| Distance metric learning | 距离度量学习 | 
| Distribution | 分布 | 
| Divergence | 散度 | 
| Diversity measure | 多样性度量/差异性度量 | 
| Domain adaption | 领域自适应 | 
| Downsampling | 下采样 | 
| D-separation (Directed separation) | 有向分离 | 
| Dual problem | 对偶问题 | 
| Dummy node | 哑结点 | 
| Dynamic Fusion | 动态融合 | 
| Dynamic programming | 动态规划 | 
Letter E
| Eigenvalue decomposition | 特征值分解 | 
| Embedding | 嵌入 | 
| Emotional analysis | 情绪分析 | 
| Empirical conditional entropy | 经验条件熵 | 
| Empirical entropy | 经验熵 | 
| Empirical error | 经验误差 | 
| Empirical risk | 经验风险 | 
| End-to-End | 端到端 | 
| Energy-based model | 基于能量的模型 | 
| Ensemble learning | 集成学习 | 
| Ensemble pruning | 集成修剪 | 
| Error Correcting Output Codes/ECOC | 纠错输出码 | 
| Error rate | 错误率 | 
| Error-ambiguity decomposition | 误差-分歧分解 | 
| Euclidean distance | 欧氏距离 | 
| Evolutionary computation | 演化计算 | 
| Expectation-Maximization | 期望最大化 | 
| Expected loss | 期望损失 | 
| Exploding Gradient Problem | 梯度爆炸问题 | 
| Exponential loss function | 指数损失函数 | 
| Extreme Learning Machine/ELM | 超限学习机 | 
Letter F
| Factorization | 因子分解 | 
| False negative | 假负类 | 
| False positive | 假正类 | 
| False Positive Rate/FPR | 假正例率 | 
| Feature engineering | 特征工程 | 
| Feature selection | 特征选择 | 
| Feature vector | 特征向量 | 
| Featured Learning | 特征学习 | 
| Feedforward Neural Networks/FNN | 前馈神经网络 | 
| Fine-tuning | 微调 | 
| Flipping output | 翻转法 | 
| Fluctuation | 震荡 | 
| Forward stagewise algorithm | 前向分步算法 | 
| Frequentist | 频率主义学派 | 
| Full-rank matrix | 满秩矩阵 | 
| Functional neuron | 功能神经元 | 
Letter G
| Gain ratio | 增益率 | 
| Game theory | 博弈论 | 
| Gaussian kernel function | 高斯核函数 | 
| Gaussian Mixture Model | 高斯混合模型 | 
| General Problem Solving | 通用问题求解 | 
| Generalization | 泛化 | 
| Generalization error | 泛化误差 | 
| Generalization error bound | 泛化误差上界 | 
| Generalized Lagrange function | 广义拉格朗日函数 | 
| Generalized linear model | 广义线性模型 | 
| Generalized Rayleigh quotient | 广义瑞利商 | 
| Generative Adversarial Networks/GAN | 生成对抗网络 | 
| Generative Model | 生成模型 | 
| Generator | 生成器 | 
| Genetic Algorithm/GA | 遗传算法 | 
| Gibbs sampling | 吉布斯采样 | 
| Gini index | 基尼指数 | 
| Global minimum | 全局最小 | 
| Global Optimization | 全局优化 | 
| Gradient boosting | 梯度提升 | 
| Gradient Descent | 梯度下降 | 
| Graph theory | 图论 | 
| Ground-truth | 真相/真实 | 
Letter H
| Hard margin | 硬间隔 | 
| Hard voting | 硬投票 | 
| Harmonic mean | 调和平均 | 
| Hesse matrix | 海塞矩阵 | 
| Hidden dynamic model | 隐动态模型 | 
| Hidden layer | 隐藏层 | 
| Hidden Markov Model/HMM | 隐马尔可夫模型 | 
| Hierarchical clustering | 层次聚类 | 
| Hilbert space | 希尔伯特空间 | 
| Hinge loss function | 合页损失函数 | 
| Hold-out | 留出法 | 
| Homogeneous | 同质 | 
| Hybrid computing | 混合计算 | 
| Hyperparameter | 超参数 | 
| Hypothesis | 假设 | 
| Hypothesis test | 假设验证 | 
Letter I
| ICML | 国际机器学习会议 | 
| Improved iterative scaling/IIS | 改进的迭代尺度法 | 
| Incremental learning | 增量学习 | 
| Independent and identically distributed/i.i.d. | 独立同分布 | 
| Independent Component Analysis/ICA | 独立成分分析 | 
| Indicator function | 指示函数 | 
| Individual learner | 个体学习器 | 
| Induction | 归纳 | 
| Inductive bias | 归纳偏好 | 
| Inductive learning | 归纳学习 | 
| Inductive Logic Programming/ILP | 归纳逻辑程序设计 | 
| Information entropy | 信息熵 | 
| Information gain | 信息增益 | 
| Input layer | 输入层 | 
| Insensitive loss | 不敏感损失 | 
| Inter-cluster similarity | 簇间相似度 | 
| International Conference for Machine Learning/ICML | 国际机器学习大会 | 
| Intra-cluster similarity | 簇内相似度 | 
| Intrinsic value | 固有值 | 
| Isometric Mapping/Isomap | 等度量映射 | 
| Isotonic regression | 等分回归 | 
| Iterative Dichotomiser | 迭代二分器 | 
Letter K
| Kernel method | 核方法 | 
| Kernel trick | 核技巧 | 
| Kernelized Linear Discriminant Analysis/KLDA | 核线性判别分析 | 
| K-fold cross validation | k 折交叉验证/k 倍交叉验证 | 
| K-Means Clustering | K - 均值聚类 | 
| K-Nearest Neighbours Algorithm/KNN | K近邻算法 | 
| Knowledge base | 知识库 | 
| Knowledge Representation | 知识表征 | 
Letter L
| Label space | 标记空间 | 
| Lagrange duality | 拉格朗日对偶性 | 
| Lagrange multiplier | 拉格朗日乘子 | 
| Laplace smoothing | 拉普拉斯平滑 | 
| Laplacian correction | 拉普拉斯修正 | 
| Latent Dirichlet Allocation | 隐狄利克雷分布 | 
| Latent semantic analysis | 潜在语义分析 | 
| Latent variable | 隐变量 | 
| Lazy learning | 懒惰学习 | 
| Learner | 学习器 | 
| Learning by analogy | 类比学习 | 
| Learning rate | 学习率 | 
| Learning Vector Quantization/LVQ | 学习向量量化 | 
| Least squares regression tree | 最小二乘回归树 | 
| Leave-One-Out/LOO | 留一法 | 
| linear chain conditional random field | 线性链条件随机场 | 
| Linear Discriminant Analysis/LDA | 线性判别分析 | 
| Linear model | 线性模型 | 
| Linear Regression | 线性回归 | 
| Link function | 联系函数 | 
| Local Markov property | 局部马尔可夫性 | 
| Local minimum | 局部最小 | 
| Log likelihood | 对数似然 | 
| Log odds/logit | 对数几率 | 
| Logistic Regression | Logistic 回归 | 
| Log-likelihood | 对数似然 | 
| Log-linear regression | 对数线性回归 | 
| Long-Short Term Memory/LSTM | 长短期记忆 | 
| Loss function | 损失函数 | 
Letter M
| Machine translation/MT | 机器翻译 | 
| Macron-P | 宏查准率 | 
| Macron-R | 宏查全率 | 
| Majority voting | 绝对多数投票法 | 
| Manifold assumption | 流形假设 | 
| Manifold learning | 流形学习 | 
| Margin theory | 间隔理论 | 
| Marginal distribution | 边际分布 | 
| Marginal independence | 边际独立性 | 
| Marginalization | 边际化 | 
| Markov Chain Monte Carlo/MCMC | 马尔可夫链蒙特卡罗方法 | 
| Markov Random Field | 马尔可夫随机场 | 
| Maximal clique | 最大团 | 
| Maximum Likelihood Estimation/MLE | 极大似然估计/极大似然法 | 
| Maximum margin | 最大间隔 | 
| Maximum weighted spanning tree | 最大带权生成树 | 
| Max-Pooling | 最大池化 | 
| Mean squared error | 均方误差 | 
| Meta-learner | 元学习器 | 
| Metric learning | 度量学习 | 
| Micro-P | 微查准率 | 
| Micro-R | 微查全率 | 
| Minimal Description Length/MDL | 最小描述长度 | 
| Minimax game | 极小极大博弈 | 
| Misclassification cost | 误分类成本 | 
| Mixture of experts | 混合专家 | 
| Momentum | 动量 | 
| Moral graph | 道德图/端正图 | 
| Multi-class classification | 多分类 | 
| Multi-document summarization | 多文档摘要 | 
| Multi-layer feedforward neural networks | 多层前馈神经网络 | 
| Multilayer Perceptron/MLP | 多层感知器 | 
| Multimodal learning | 多模态学习 | 
| Multiple Dimensional Scaling | 多维缩放 | 
| Multiple linear regression | 多元线性回归 | 
| Multi-response Linear Regression /MLR | 多响应线性回归 | 
| Mutual information | 互信息 | 
Letter N
| Naive bayes | 朴素贝叶斯 | 
| Naive Bayes Classifier | 朴素贝叶斯分类器 | 
| Named entity recognition | 命名实体识别 | 
| Nash equilibrium | 纳什均衡 | 
| Natural language generation/NLG | 自然语言生成 | 
| Natural language processing | 自然语言处理 | 
| Negative class | 负类 | 
| Negative correlation | 负相关法 | 
| Negative Log Likelihood | 负对数似然 | 
| Neighbourhood Component Analysis/NCA | 近邻成分分析 | 
| Neural Machine Translation | 神经机器翻译 | 
| Neural Turing Machine | 神经图灵机 | 
| Newton method | 牛顿法 | 
| NIPS | 国际神经信息处理系统会议 | 
| No Free Lunch Theorem/NFL | 没有免费的午餐定理 | 
| Noise-contrastive estimation | 噪音对比估计 | 
| Nominal attribute | 列名属性 | 
| Non-convex optimization | 非凸优化 | 
| Nonlinear model | 非线性模型 | 
| Non-metric distance | 非度量距离 | 
| Non-negative matrix factorization | 非负矩阵分解 | 
| Non-ordinal attribute | 无序属性 | 
| Non-Saturating Game | 非饱和博弈 | 
| Norm | 范数 | 
| Normalization | 归一化 | 
| Nuclear norm | 核范数 | 
| Numerical attribute | 数值属性 | 
Letter O
| Objective function | 目标函数 | 
| Oblique decision tree | 斜决策树 | 
| Occam's razor | 奥卡姆剃刀 | 
| Odds | 几率 | 
| Off-Policy | 离策略 | 
| One shot learning | 一次性学习 | 
| One-Dependent Estimator/ODE | 独依赖估计 | 
| On-Policy | 在策略 | 
| Ordinal attribute | 有序属性 | 
| Out-of-bag estimate | 包外估计 | 
| Output layer | 输出层 | 
| Output smearing | 输出调制法 | 
| Overfitting | 过拟合/过配 | 
| Oversampling | 过采样 | 
Letter P
| Paired t-test | 成对 t 检验 | 
| Pairwise | 成对型 | 
| Pairwise Markov property | 成对马尔可夫性 | 
| Parameter | 参数 | 
| Parameter estimation | 参数估计 | 
| Parameter tuning | 调参 | 
| Parse tree | 解析树 | 
| Particle Swarm Optimization/PSO | 粒子群优化算法 | 
| Part-of-speech tagging | 词性标注 | 
| Perceptron | 感知机 | 
| Performance measure | 性能度量 | 
| Plug and Play Generative Network | 即插即用生成网络 | 
| Plurality voting | 相对多数投票法 | 
| Polarity detection | 极性检测 | 
| Polynomial kernel function | 多项式核函数 | 
| Pooling | 池化 | 
| Positive class | 正类 | 
| Positive definite matrix | 正定矩阵 | 
| Post-hoc test | 后续检验 | 
| Post-pruning | 后剪枝 | 
| potential function | 势函数 | 
| Precision | 查准率/准确率 | 
| Prepruning | 预剪枝 | 
| Principal component analysis/PCA | 主成分分析 | 
| Principle of multiple explanations | 多释原则 | 
| Prior | 先验 | 
| Probability Graphical Model | 概率图模型 | 
| Proximal Gradient Descent/PGD | 近端梯度下降 | 
| Pruning | 剪枝 | 
| Pseudo-label | 伪标记 | 
Letter Q
| Quantized Neural Network | 量子化神经网络 | 
| Quantum computer | 量子计算机 | 
| Quantum Computing | 量子计算 | 
| Quasi Newton method | 拟牛顿法 | 
Letter R
| Radial Basis Function/RBF | 径向基函数 | 
| Random Forest Algorithm | 随机森林算法 | 
| Random walk | 随机漫步 | 
| Recall | 查全率/召回率 | 
| Receiver Operating Characteristic/ROC | 受试者工作特征 | 
| Rectified Linear Unit/ReLU | 线性修正单元 | 
| Recurrent Neural Network | 循环神经网络 | 
| Recursive neural network | 递归神经网络 | 
| Reference model | 参考模型 | 
| Regression | 回归 | 
| Regularization | 正则化 | 
| Reinforcement learning/RL | 强化学习 | 
| Representation learning | 表征学习 | 
| Representer theorem | 表示定理 | 
| reproducing kernel Hilbert space/RKHS | 再生核希尔伯特空间 | 
| Re-sampling | 重采样法 | 
| Rescaling | 再缩放 | 
| Residual Mapping | 残差映射 | 
| Residual Network | 残差网络 | 
| Restricted Boltzmann Machine/RBM | 受限玻尔兹曼机 | 
| Restricted Isometry Property/RIP | 限定等距性 | 
| Re-weighting | 重赋权法 | 
| Robustness | 稳健性/鲁棒性 | 
| Root node | 根结点 | 
| Rule Engine | 规则引擎 | 
| Rule learning | 规则学习 | 
Letter S
| Saddle point | 鞍点 | 
| Sample space | 样本空间 | 
| Sampling | 采样 | 
| Score function | 评分函数 | 
| Self-Driving | 自动驾驶 | 
| Self-Organizing Map/SOM | 自组织映射 | 
| Semi-naive Bayes classifiers | 半朴素贝叶斯分类器 | 
| Semi-Supervised Learning | 半监督学习 | 
| semi-Supervised Support Vector Machine | 半监督支持向量机 | 
| Sentiment analysis | 情感分析 | 
| Separating hyperplane | 分离超平面 | 
| Sigmoid function | Sigmoid 函数 | 
| Similarity measure | 相似度度量 | 
| Simulated annealing | 模拟退火 | 
| Simultaneous localization and mapping | 同步定位与地图构建 | 
| Singular Value Decomposition | 奇异值分解 | 
| Slack variables | 松弛变量 | 
| Smoothing | 平滑 | 
| Soft margin | 软间隔 | 
| Soft margin maximization | 软间隔最大化 | 
| Soft voting | 软投票 | 
| Sparse representation | 稀疏表征 | 
| Sparsity | 稀疏性 | 
| Specialization | 特化 | 
| Spectral Clustering | 谱聚类 | 
| Speech Recognition | 语音识别 | 
| Splitting variable | 切分变量 | 
| Squashing function | 挤压函数 | 
| Stability-plasticity dilemma | 可塑性-稳定性困境 | 
| Statistical learning | 统计学习 | 
| Status feature function | 状态特征函 | 
| Stochastic gradient descent | 随机梯度下降 | 
| Stratified sampling | 分层采样 | 
| Structural risk | 结构风险 | 
| Structural risk minimization/SRM | 结构风险最小化 | 
| Subspace | 子空间 | 
| Supervised learning | 监督学习/有导师学习 | 
| support vector expansion | 支持向量展式 | 
| Support Vector Machine/SVM | 支持向量机 | 
| Surrogat loss | 替代损失 | 
| Surrogate function | 替代函数 | 
| Symbolic learning | 符号学习 | 
| Symbolism | 符号主义 | 
| Synset | 同义词集 | 
Letter T
| T-Distribution Stochastic Neighbour Embedding/t-SNE | T - 分布随机近邻嵌入 | 
| Tensor | 张量 | 
| Tensor Processing Units/TPU | 张量处理单元 | 
| The least square method | 最小二乘法 | 
| Threshold | 阈值 | 
| Threshold logic unit | 阈值逻辑单元 | 
| Threshold-moving | 阈值移动 | 
| Time Step | 时间步骤 | 
| Tokenization | 标记化 | 
| Training error | 训练误差 | 
| Training instance | 训练示例/训练例 | 
| Transductive learning | 直推学习 | 
| Transfer learning | 迁移学习 | 
| Treebank | 树库 | 
| Tria-by-error | 试错法 | 
| True negative | 真负类 | 
| True positive | 真正类 | 
| True Positive Rate/TPR | 真正例率 | 
| Turing Machine | 图灵机 | 
| Twice-learning | 二次学习 | 
Letter U
| Underfitting | 欠拟合/欠配 | 
| Undersampling | 欠采样 | 
| Understandability | 可理解性 | 
| Unequal cost | 非均等代价 | 
| Unit-step function | 单位阶跃函数 | 
| Univariate decision tree | 单变量决策树 | 
| Unsupervised learning | 无监督学习/无导师学习 | 
| Unsupervised layer-wise training | 无监督逐层训练 | 
| Upsampling | 上采样 | 
Letter V
| Vanishing Gradient Problem | 梯度消失问题 | 
| Variational inference | 变分推断 | 
| VC Theory | VC维理论 | 
| Version space | 版本空间 | 
| Viterbi algorithm | 维特比算法 | 
| Von Neumann architecture | 冯 · 诺伊曼架构 | 
Letter W
| Wasserstein GAN/WGAN | Wasserstein生成对抗网络 | 
| Weak learner | 弱学习器 | 
| Weight | 权重 | 
| Weight sharing | 权共享 | 
| Weighted voting | 加权投票法 | 
| Within-class scatter matrix | 类内散度矩阵 | 
| Word embedding | 词嵌入 | 
| Word sense disambiguation | 词义消歧 | 
Letter Z
| Zero-data learning | 零数据学习 | 
| Zero-shot learning | 零次学习 | 
纵览机器学习基本词汇与概念
来源:机器之心
本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。之后,我们也将表内术语更新到了机器之心 GitHub 项目中。
机器之心人工智能术语项目:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology
A
准确率(accuracy)
分类模型预测准确的比例。在多类别分类中,准确率定义如下:
在二分类中,准确率定义为:
激活函数(Activation function)
一种函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值(典型的非线性)。
AdaGrad
一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。详见论文:http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf。
AUC(曲线下面积)
一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类(Ture Positives)要比假正类(False Positives)概率大的确信度。
B
反向传播(Backpropagation)
神经网络中完成梯度下降的重要算法。首先,在前向传播的过程中计算每个节点的输出值。然后,在反向传播的过程中计算与每个参数对应的误差的偏导数。
基线(Baseline)
被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。
批量
模型训练中一个迭代(指一次梯度更新)使用的样本集。
批量大小(batch size)
一个批量中样本的数量。例如,SGD 的批量大小为 1,而 mini-batch 的批量大小通常在 10-1000 之间。批量大小通常在训练与推理的过程中确定,然而 TensorFlow 不允许动态批量大小。
偏置(bias)
与原点的截距或偏移量。偏置(也称偏置项)被称为机器学习模型中的 b 或者 w0。例如,偏置项是以下公式中的 b:y′=b+w_1x_1+w_2x_2+…w_nx_n。
注意不要和预测偏差混淆。
二元分类器(binary classification)
一类分类任务,输出两个互斥(不相交)类别中的一个。例如,一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。
binning/bucketing
根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征,称为 buckets 或者 bins。例如,将温度表示为单一的浮点特征,可以将温度范围切割为几个离散的 bins。假如给定的温度的敏感度为十分之一度,那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中,15.1 度到 30.0 度放入第二个 bin,30.1 度到 45.0 度放入第三个 bin。
C
标定层(calibration layer)
一种调整后期预测的结构,通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。
候选采样(candidate sampling)
一种优化训练时间的,使用 Softmax 等算法计算所有正标签的概率,同时只计算一些随机取样的负标签的概率。例如,有一个样本标记为「小猎兔狗」和「狗」,候选取样将计算预测概率,和与「小猎兔狗」和「狗」类别输出(以及剩余的类别的随机子集,比如「猫」、「棒棒糖」、「栅栏」)相关的损失项。这个想法的思路是,负类别可以通过频率更低的负强化(negative reinforcement)进行学习,而正类别经常能得到适当的正强化,实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。
检查点(checkpoint)
在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重,也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行(例如,抢占作业)。注意其自身的图式并不包含于检查点内。
类别(class)
所有同类属性的目标值作为一个标签。例如,在一个检测垃圾邮件的二元分类模型中,这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。
类别不平衡数据集(class-imbalanced data set)
这是一个二元分类问题,其中两个类别的标签的分布频率有很大的差异。比如,一个疾病数据集中若 0.01% 的样本有正标签,而 99.99% 的样本有负标签,那么这就是一个类别不平衡数据集。但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。
分类模型(classification)
机器学习模型的一种,将数据分离为两个或多个离散类别。例如,一个自然语言处理分类模型可以将一句话归类为法语、西班牙语或意大利语。分类模型与回归模型(regression model)成对比。
分类阈值(classification threshold)
应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。
混淆矩阵(confusion matrix)
总结分类模型的预测结果的表现水平(即,标签和模型分类的匹配程度)的 NxN 表格。混淆矩阵的一个轴列出模型预测的标签,另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中,N=2。例如,以下为一个二元分类问题的简单的混淆矩阵:
上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。
多类别分类的混淆矩阵可以帮助发现错误出现的模式。例如,一个混淆矩阵揭示了一个识别手写数字体的模型倾向于将 4 识别为 9,或者将 7 识别为 1。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量,比如精度(precision)和召回(recall)率。
连续特征(continuous feature)
拥有无限个取值点的浮点特征。和离散特征(discrete feature)相反。
收敛(convergence)
训练过程达到的某种状态,其中训练损失和验证损失在经过了确定的迭代次数后,在每一次迭代中,改变很小或完全不变。换句话说就是,当对当前数据继续训练而无法再提升模型的表现水平的时候,就称模型已经收敛。在深度学习中,损失值下降之前,有时候经过多次迭代仍保持常量或者接近常量,会造成模型已经收敛的错觉。
凸函数(concex function)
一种形状大致呈字母 U 形或碗形的函数。然而,在退化情形中,凸函数的形状就像一条线。例如,以下几个函数都是凸函数:
L2 损失函数
Log 损失函数
L1 正则化函数
L2 正则化函数
凸函数是很常用的损失函数。因为当一个函数有最小值的时候(通常就是这样),梯度下降的各种变化都能保证找到接近函数最小值的点。类似的,随机梯度下降的各种变化有很大的概率(虽然无法保证)找到接近函数最小值的点。
两个凸函数相加(比如,L2 损失函数+L1 正则化函数)后仍然是凸函数。
深度模型通常是非凸的。出乎意料的是,以凸优化的形式设计的算法通常都能在深度网络上工作的很好,虽然很少能找到最小值。
成本(cost)
loss 的同义词。
交叉熵(cross-entropy)
多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度(perplexity)。
D
数据集(data set)
样本的集合。
决策边界(decision boundary)
在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。
深度模型(deep model)
一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照(wide model)。
密集特征(dense feature)
大多数取值为非零的一种特征,通常用取浮点值的张量(tensor)表示。和稀疏特征(sparse feature)相反。
派生特征(derived feature)
合成特征(synthetic feature)的同义词。
离散特征(discrete feature)
只有有限个可能取值的一种特征。例如,一个取值只包括动物、蔬菜或矿物的特征就是离散(或类别)特征。和连续特征(continuous feature)对照。
dropout 正则化(dropout regularization)
训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多,正则化越强。
动态模型(dynamic model)
以连续更新的方式在线训练的模型。即数据连续不断的输入模型。
E
早期停止法(early stopping)
一种正则化方法,在训练损失完成下降之前停止模型训练过程。当验证数据集(validation data set)的损失开始上升的时候,即泛化表现变差的时候,就该使用早期停止法了。
嵌入(embeddings)
一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。例如,将一个英语句子中的单词以以下任何一种方式表示:
拥有百万数量级(高维)的元素的稀疏向量,其中所有的元素都是整数。向量的每一个单元表示一个单独的英语单词,单元中的数字表示该单词在一个句子中出现的次数。由于一个句子中的单词通常不会超过 50 个,向量中几乎所有的单元都是 0。少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。
拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。
在 TensorFlow 中,嵌入是通过反向传播损失训练的,正如神经网络的其它参量一样。
经验风险最小化(empirical risk minimization,ERM)
选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化(structual risk minimization)对照。
集成(ensemble)
多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法:
设置不同的初始化;
设置不同的超参量;
设置不同的总体结构。
深度和广度模型是一种集成。
评估器(Estimator)
tf.Estimator 类的一个例子,封装 logic 以建立一个 TensorFlow 图并运行一个 TensorFlow session。你可以通过以下方式创建自己的评估器:https://www.tensorflow.org/extend/estimators
样本(example)
一个数据集的一行内容。一个样本包含了一个或多个特征,也可能是一个标签。参见标注样本(labeled example)和无标注样本(unlabeled example)。
F
假负类(false negative,FN)
被模型错误的预测为负类的样本。例如,模型推断一封邮件为非垃圾邮件(负类),但实际上这封邮件是垃圾邮件。
假正类(false positive,FP)
被模型错误的预测为正类的样本。例如,模型推断一封邮件为垃圾邮件(正类),但实际上这封邮件是非垃圾邮件。
假正类率(false positive rate,FP rate)
ROC 曲线(ROC curve)中的 x 轴。FP 率的定义是:假正率=假正类数/(假正类数+真负类数)
特征(feature)
输入变量,用于做出预测。
特征列(feature columns/FeatureColumn)
具有相关性的特征的集合,比如用户可能居住的所有可能的国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。
TensorFlow 中的特征列还可以压缩元数据比如下列情况:
特征的数据类型;
一个特征是固定长度的或应该转换为嵌入。
一个特征列可以仅包含一个特征。「特征列」是谷歌专用的术语。在 VW 系统(Yahoo/Microsoft)中特征列的意义是「命名空间」(namespace),或者场(field)。
特征交叉(feature cross)
将特征进行交叉(乘积或者笛卡尔乘积)运算后得到的合成特征。特征交叉有助于表示非线性关系。
特征工程(feature engineering)
在训练模型的时候,决定哪些特征是有用的,然后将记录文件和其它来源的原始数据转换成上述特征的过程。在 TensorFlow 中特征工程通常意味着将原始记录文件输入 tf.Example 协议缓存中。参见 tf.Transform。特征工程有时候也称为特征提取。
特征集(feature set)
机器学习模型训练的时候使用的特征群。比如,邮政编码,面积要求和物业状况可以组成一个简单的特征集,使模型能预测房价。
特征定义(feature spec)
描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器,必须明确以下信息:
需要提取的数据(即特征的关键信息)
数据类型(比如,浮点数还是整数)
数据长度(固定的或者变化的)
Estimator API 提供了从一群特征列中生成一个特征定义的工具。
完全 softmax(full softmax)
参见 softmax。和候选采样对照。
G
泛化(generalization)
指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。
广义线性模型(generalized linear model)
最小二乘回归模型的推广/泛化,基于高斯噪声,相对于其它类型的模型(基于其它类型的噪声,比如泊松噪声,或类别噪声)。广义线性模型的例子包括:
logistic 回归
多分类回归
最小二乘回归
广义线性模型的参数可以通过凸优化得到,它具有以下性质:
最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。
广义线性模型的能力局限于其特征的性质。和深度模型不同,一个广义线性模型无法「学习新的特征」。
梯度(gradient)
所有变量的偏导数的向量。在机器学习中,梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。
梯度截断(gradient clipping)
在应用梯度之前先修饰数值,梯度截断有助于确保数值稳定性,防止梯度爆炸出现。
梯度下降(gradient descent)
通过计算模型的相关参量和损失函数的梯度最小化损失函数,值取决于训练数据。梯度下降迭代地调整参量,逐渐靠近权重和偏置的最佳组合,从而最小化损失函数。
图(graph)
在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的,表示传递一个操作(一个张量)的结果(作为一个操作数)给另一个操作。使用 TensorBoard 能可视化计算图。
H
启发式(heuristic)
一个问题的实际的和非最优的解,但能从学习经验中获得足够多的进步。
隐藏层(hidden layer)
神经网络中位于输入层(即特征)和输出层(即预测)之间的合成层。一个神经网络包含一个或多个隐藏层。
折页损失函数(Hinge loss)
损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数(或相关的函数,比如平方 hinge 函数)。在二元分类中,hinge 损失函数按以下方式定义:
loss=max(0,1−(y′∗y))
其中 y'是分类器模型的列输出:
y′=b+w_1x_1+w_2x_2+…w_nx_n
y 是真实的标签,-1 或+1。
因此,hinge 损失将是下图所示的样子:
测试数据(holdout data)
有意不用于训练的样本。验证数据集(validation data set)和测试数据集(test data set)是测试数据(holdout data)的两个例子。测试数据帮助评估模型泛化到除了训练数据之外的数据的能力。测试集的损失比训练集的损失提供了对未知数据集的损失更好的估计。
超参数(hyperparameter)
连续训练模型的过程中可以拧动的「旋钮」。例如,相对于模型自动更新的参数,学习率(learning rate)是一个超参数。和参量对照。
I
独立同分布(independently and identically distributed,i.i.d)
从不会改变的分布中获取的数据,且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。例如,网页访客的分布可能是短暂时间窗口上的 i.i.d;即分布不会在该时间窗口发生改变,每个人的访问都与其他人的访问独立。但是,如果你扩展了时间窗口,则会出现网页访客的季节性差异。
推断(inference)
在机器学习中,通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中,推断指在观察到的数据的基础上拟合分布参数的过程。
输入层(input layer)
神经网络的第一层(接收输入数据)。
评分者间一致性(inter-rater agreement)
用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致,则任务说明可能需要改进。有时也叫标注者间信度(inter-annotator agreement)或评分者间信度(inter-rater reliability)。
K
Kernel 支持向量机(Kernel Support Vector Machines/KSVM)
一种分类算法,旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如,考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化,KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。
L
L1 损失函数(L1 loss)
损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。
L1 正则化(L1 regularization)
一种正则化,按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中,L1 正则化帮助促使(几乎)不相关的特征的权重趋近于 0,从而从模型中移除这些特征。
L2 损失(L2 loss)
参见平方损失。
L2 正则化(L2 regularization)
一种正则化,按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。(可与 L1 正则化对照阅读。)L2 正则化通常改善线性模型的泛化效果。
标签(label)
在监督式学习中,样本的「答案」或「结果」。标注数据集中的每个样本包含一或多个特征和一个标签。比如,在房屋数据集中,特征可能包括卧室数量、卫生间数量、房龄,而标签可能就是房子的价格。在垃圾邮件检测数据集中,特征可能包括主题、发出者何邮件本身,而标签可能是「垃圾邮件」或「非垃圾邮件」。
标注样本(labeled example)
包含特征和标签的样本。在监督式训练中,模型从标注样本中进行学习。
lambda
正则化率的同义词。(该术语有多种含义。这里,我们主要关注正则化中的定义。)
层(layer)
神经网络中的神经元序列,可以处理输入特征序列或神经元的输出。
它也是 TensorFlow 的一种抽象化概念。层是将张量和配置选项作为输入、输出其他张量的 Python 函数。一旦必要的张量出现,用户就可以通过模型函数将结果转换成估计器。
学习率(learning rate)
通过梯度下降训练模型时使用的一个标量。每次迭代中,梯度下降算法使学习率乘以梯度,乘积叫作 gradient step。
学习率是一个重要的超参数。
最小二乘回归(least squares regression)
通过 L2 损失最小化进行训练的线性回归模型。
线性回归(linear regression)
对输入特征的线性连接输出连续值的一种回归模型。
logistic 回归(logistic regression)
将 sigmoid 函数应用于线性预测,在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题,但它也用于多类别分类问题(这种情况下,logistic 回归叫作「多类别 logistic 回归」或「多项式 回归」。
对数损失函数(Log Loss)
二元 logistic 回归模型中使用的损失函数。
损失
度量模型预测与标签距离的指标,它是度量一个模型有多糟糕的指标。为了确定损失值,模型必须定义损失函数。例如,线性回归模型通常使用均方差作为损失函数,而 logistic 回归模型使用对数损失函数。
M
机器学习(machine learning)
利用输入数据构建(训练)预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。
均方误差(Mean Squared Error/MSE)
每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。TensorFlow Playground 展示「训练损失」和「测试损失」的值是 MSE。
小批量(mini-batch)
在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在 10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。
小批量随机梯度下降(mini-batch stochastic gradient descent)
使用小批量的梯度下降算法。也就是,小批量随机梯度下降基于训练数据的子集对 梯度进行评估。Vanilla SGD 使用 size 为 1 的小批量。
模型(model)
机器学习系统从训练数据中所学内容的表示。该术语有多个含义,包括以下两个相关含义:
TensorFlow 图,显示如何计算预测的结构。
TensorFlow 图的特定权重和偏差,由训练决定。
模型训练(model training)
确定最佳模型的过程。
动量(Momentum)
一种复杂的梯度下降算法,其中的学习步不只依赖于当前步的导数,还依赖于先于它的步。动量包括随着时间计算梯度的指数加权移动平均数,类似于物理学中的动量。动量有时可以阻止学习陷于局部最小值。
多类别(multi-class)
在多于两类的类别中进行分类的分类问题。例如,有约 128 种枫树,那么分类枫树品种的模型就是多类别的。反之,把电子邮件分成两个类别(垃圾邮件和非垃圾邮件)的模型是二元分类器模型。
N
NaN trap
训练过程中,如果模型中的一个数字变成了 NaN,则模型中的很多或所有其他数字最终都变成 NaN。NaN 是「Not a Number」的缩写。
负类(negative class)
在二元分类中,一个类别是正类,另外一个是负类。正类就是我们要找的目标,负类是另外一种可能性。例如,医疗测试中的负类可能是「非肿瘤」,电子邮件分类器中的负类可能是「非垃圾邮件」。
神经网络(neural network)
该模型从大脑中获取灵感,由多个层组成(其中至少有一个是隐藏层),每个层包含简单的连接单元或神经元,其后是非线性。
神经元(neuron)
神经网络中的节点,通常输入多个值,生成一个输出值。神经元通过将激活函数(非线性转换)应用到输入值的加权和来计算输出值。
归一化(normalization)
将值的实际区间转化为标准区间的过程,标准区间通常是-1 到+1 或 0 到 1。例如,假设某个特征的自然区间是 800 到 6000。通过减法和分割,你可以把那些值标准化到区间-1 到+1。参见缩放。
numpy
Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。
O
目标(objective)
算法尝试优化的目标函数。
离线推断(offline inference)
生成一组预测并存储,然后按需检索那些预测。可与在线推断对照阅读。
one-hot 编码(one-hot encoding)
一个稀疏向量,其中:
一个元素设置为 1。
所有其他的元素设置为 0。
独热编码常用于表示有有限可能值集合的字符串或标识符。例如,假设一个记录了 15000 个不同品种的植物数据集,每一个用独特的字符串标识符来表示。作为特征工程的一部分,你可能将那些字符串标识符进行独热编码,每个向量的大小为 15000。
一对多(one-vs.-all)
给出一个有 N 个可能解决方案的分类问题,一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如,一个模型将样本分为动物、蔬菜或矿物,则一对多的解决方案将提供以下三种独立的二元分类器:
动物和非动物
蔬菜和非蔬菜
矿物和非矿物
在线推断(online inference)
按需生成预测。可与离线推断对照阅读。
运算(Operation/op)
TensorFlow 图中的一个节点。在 TensorFlow 中,任何创建、控制或损坏张量的步骤都是运算。例如,矩阵乘法是一个把两个张量作为输入、生成一个张量作为输出的运算。
优化器(optimizer)
梯度下降算法的特定实现。TensorFlow 的基类优化器是 tf.train.Optimizer。不同的优化器(tf.train.Optimizer 的子类)对应不同的概念,如:
动量(Momentum)
更新频率(AdaGrad = ADAptive GRADient descent;Adam = ADAptive with Momentum;RMSProp)
稀疏性/正则化(Ftrl)
更复杂的数学(Proximal 及其他)
你甚至可以想象 NN-driven optimizer。
异常值(outlier)
与大多数值差别很大的值。在机器学习中,下列都是异常值:
高绝对值的权重。
与实际值差距过大的预测值。
比平均值多大约 3 个标准差的输入数据的值。
异常值往往使模型训练中出现问题。
输出层(output layer)
神经网络的「最后」一层。这一层包含整个·模型所寻求的答案。
过拟合(overfitting)
创建的模型与训练数据非常匹配,以至于模型无法对新数据进行正确的预测。
P
pandas
一种基于列的数据分析 API。很多机器学习框架,包括 TensorFlow,支持 pandas 数据结构作为输入。参见 pandas 文档。
参数(parameter)
机器学习系统自行训练的模型的变量。例如,权重是参数,它的值是机器学习系统通过连续的训练迭代逐渐学习到的。可与超参数对照阅读。
参数服务器(Parameter Server/PS)
用于在分布式设置中跟踪模型参数。
参数更新(parameter update)
在训练过程中调整模型参数的操作,通常在梯度下降的单个迭代中进行。
偏导数(partial derivative)
一个多变量函数的偏导数是它关于其中一个变量的导数,而保持其他变量恒定。例如,f(x, y) 对于 x 的偏导数就是 f(x) 的导数,y 保持恒定。x 的偏导数中只有 x 是变化的,公式中其他的变量都不用变化。
分区策略(partitioning strategy)
在多个参数服务器中分割变量的算法。
性能(performance)
具有多种含义:
在软件工程中的传统含义:软件运行速度有多快/高效?
在机器学习中的含义:模型的准确率如何?即,模型的预测结果有多好?
困惑度(perplexity)
对模型完成任务的程度的一种度量指标。例如,假设你的任务是阅读用户在智能手机上输入的单词的头几个字母,并提供可能的完整单词列表。该任务的困惑度(perplexity,P)是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。
困惑度和交叉熵的关系如下:
流程(pipeline)
机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型,以及最终输出模型。
正类(positive class)
在二元分类中,有两种类别:正类和负类。正类是我们测试的目标。(不过必须承认,我们同时测试两种结果,但其中一种不是重点。)例如,医疗测试中正类可能是「肿瘤」,电子邮件分类器中的正类可能是「垃圾邮件」。可与负类对照阅读。
精度(precision)
分类模型的一种指标。准确率指模型预测正类时预测正确的频率。即:
预测(prediction)
模型在输入样本后的输出结果。
预测偏差(prediction bias)
揭示预测的平均值与数据集中标签的平均值的差距。
预制评估器(pre-made Estimator)
已经构建好的评估器。TensorFlow 提供多个预制评估器,包括 DNNClassifier、DNNRegressor 和 LinearClassifier。你可以根据指导(https://www.tensorflow.org/extend/estimators)构建自己的预制评估器。
预训练模型(pre-trained model)
已经训练好的模型或模型组件(如嵌入)。有时,你将预训练嵌入馈送至神经网络。其他时候,你的模型自行训练嵌入,而不是依赖于预训练嵌入。
先验信念(prior belief)
训练开始之前你对数据的信念。例如,L2 正则化依赖于权重值很小且正常分布在 0 周围的信念。
Q
队列(queue)
实现队列数据结构的 TensorFlow 操作。通常在输入/输出(I/O)中使用。
R
秩(rank)
机器学习领域中包含多种含义的术语:
张量中的维度数量。比如,标量有 1 个秩,向量有 1 个秩,矩阵有 2 个秩。(注:在这个词汇表中,「秩」的概念和线性代数中「秩」的概念不一样,例如三阶可逆矩阵的秩为 3。)
机器学习问题中类别的序数位置,按从高到低的顺序给类别分类。比如,行为排序系统可以把狗的奖励按从高(牛排)到低(甘蓝)排序。
评分者(rater)
为样本提供标签的人,有时也叫「标注者」。
召回率(recall)
分类模型的一个指标,可以回答这个问题:模型能够准确识别多少正标签?即:
修正线性单元(Rectified Linear Unit/ReLU)
一种具备以下规则的激活函数:
如果输入为负或零,则输出为 0。
如果输入为正,则输出与输入相同。
回归模型(regression model)
一种输出持续值(通常是浮点数)的模型。而分类模型输出的是离散值,如「day lily」或「tiger lily」。
正则化(regularization)
对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类:
L1 正则化
L2 正则化
dropout 正则化
early stopping(这不是正式的正则化方法,但可以高效限制过拟合)
正则化率(regularization rate)
一种标量级,用 lambda 来表示,指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用:
minimize(loss function + λ(regularization function))
提高正则化率能够降低过拟合,但可能会使模型准确率降低。
表征
将数据映射到有用特征的过程。
受试者工作特征曲线(receiver operating characteristic/ROC Curve)
反映在不同的分类阈值上,真正类率和假正类率的比值的曲线。参见 AUC。
根目录(root directory)
指定放置 TensorFlow 检查点文件子目录和多个模型的事件文件的目录。
均方根误差(Root Mean Squared Error/RMSE)
均方误差的平方根。
S
Saver
负责存储模型检查点文件的 TensorFlow 对象。
缩放(scaling)
特征工程中常用的操作,用于控制特征值区间,使之与数据集中其他特征的区间匹配。例如,假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500,那么你可以通过将每个值除以 500,缩放特征值区间。还可参见正则化。
scikit-learn
一种流行的开源机器学习平台。网址:www.scikit-learn.org
序列模型(sequence model)
输入具有序列依赖性的模型。例如,根据之前观看过的视频序列对下一个视频进行预测。
会话(session)
保持 TensorFlow 程序的状态(如变量)。
Sigmoid 函数(sigmoid function)
把 logistic 或多项式回归输出(对数几率)映射到概率的函数,返回的值在 0 到 1 之间。sigmoid 函数的公式如下:
其中σ在 logistic 回归问题中只是简单的:
在有些神经网络中,sigmoid 函数和激活函数一样。
softmax
为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如,softmax 可能检测到某个图像是一只狗的概率为 0.9,是一只猫的概率为 0.08,是一匹马的概率为 0.02。(也叫作 full softmax)。
稀疏特征(sparse feature)
值主要为 0 或空的特征向量。比如,一个向量的值有 1 个 1,、一百万个 0,则该向量为稀疏向量。再比如,搜索查询中的单词也是稀疏向量:在一种语言中有很多可以用的单词,但给定的查询中只用了其中的一些。
可与稠密特征对照阅读。
平方损失(squared loss)
线性回归中使用的损失函数(也叫作 L2 Loss)。该函数计算模型对标注样本的预测值和标签真正值之间差的平方。在平方之后,该损失函数扩大了不良预测的影响。即,平方损失比 L1 Loss 对异常值(outlier)的反应更加强烈。
静态模型(static model)
离线训练的模型。
稳态(stationarity)
数据集中的一种数据属性,数据分布在一或多个维度中保持不变。通常情况下,维度是时间,意味着具备平稳性的数据不会随着时间发生变化。比如,具备平稳性的数据从 9 月到 12 月不会改变。
步(step)
一个批量中的前向和后向评估。
步长(step size)
学习速率(learning rate)乘以偏导数的值,即梯度下降中的步长。
随机梯度下降(stochastic gradient descent/SGD)
批量大小为 1 的梯度下降算法。也就是说,SGD 依赖于从数据集中随机均匀选择出的一个样本,以评估每一步的梯度。
结构风险最小化(structural risk minimization/SRM)
这种算法平衡两个目标:
构建预测性最强的模型(如最低损失)。
使模型尽量保持简单(如强正则化)。
比如,在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息,参见 http://www.svms.org/srm/。可与经验风险最小化对照阅读。
摘要(summary)
在 TensorFlow 中,特定步计算的值或值的集合,通常用于跟踪训练过程中的模型指标。
监督式机器学习(supervised machine learning)
利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后,学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。
合成特征(synthetic feature)
不在输入特征中,而是从一个或多个输入特征中派生出的特征。合成特征的类型包括:
特征与自己或其他特征相乘(叫作特征交叉)。
两个特征相除。
将连续的特征放进 range bin 中。
由归一化或缩放单独创建的特征不是合成特征。
T
张量(tensor)
TensorFlow 项目的主要数据结构。张量是 N 维数据结构(N 的值很大),经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。
张量处理单元(Tensor Processing Unit,TPU)
优化 TensorFlow 性能的 ASIC(application-specific integrated circuit,专用集成电路)。
张量形状(Tensor shape)
张量的元素数量包含在不同维度中。比如,[5, 10] 张量在一个维度中形状为 5,在另一个维度中形状为 10。
张量大小(Tensor size)
张量包含的标量总数。比如,[5, 10] 张量的大小就是 50。
TensorBoard
展示一个或多个 TensorFlow 项目运行过程中保存的摘要数据的控制面板。
TensorFlow
大型分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基础 API 层,支持数据流图上的通用计算。
尽管 TensorFlow 主要用于机器学习,但是它也适用于要求使用数据流图进行数值运算的非机器学习任务。
TensorFlow Playground
一个可以看到不同超参数对模型(主要是神经网络)训练的影响的平台。前往 http://playground.tensorflow.org,使用 TensorFlow Playground。
TensorFlow Serving
帮助训练模型使之可部署到产品中的平台。
测试集(test set)
数据集的子集。模型经过验证集初步测试之后,使用测试集对模型进行测试。可与训练集和验证集对照阅读。
tf.Example
一种标准 protocol buffer,用于描述机器学习模型训练或推断的输入数据。
训练(training)
确定组成模型的完美参数的流程。
训练集(training set)
数据集子集,用于训练模型。可与验证集和测试集对照阅读。
真负类(true negative,TN)
被模型正确地预测为负类的样本。例如,模型推断某封电子邮件不是垃圾邮件,然后该电邮真的不是垃圾邮件。
真正类(true positive,TP)
被模型正确地预测为正类的样本。例如,模型推断某封电子邮件是垃圾邮件,结果该电邮真的是垃圾邮件。
真正类率(true positive rate,TP rate)
召回率(recall)的同义词。即:
TruePositiveRate=TruePositives/(TruePositives+FalseNegatives)
真正类率是 ROC 曲线的 y 轴。
U
无标签样本(unlabeled example)
包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中,通常使用无标签样本。
无监督机器学习(unsupervised machine learning)
训练一个模型寻找数据集(通常是无标签数据集)中的模式。
无监督机器学习最常用于将数据分成几组类似的样本。例如,无监督机器学习算法可以根据音乐的各种属性聚类数据。用这种方式收集的数据可以作为其他机器学习算法(如音乐推荐服务)的输入。聚类在难以获取真正标签的情景中非常有用。例如,在反欺诈和反滥用的情景中,聚类可以帮助人类更好地理解数据。
无监督机器学习的另一个例子是主成分分析(principal component analysis,PCA)。如,将 PCA 应用于包含数百万购物车内容的数据集中时,就有可能发现有柠檬的购物车往往也有解酸剂。可与监督式机器学习对照阅读。
V
验证集(validation set)
数据集的一个子集(与训练集不同),可用于调整超参数。可与训练集和测试集对照阅读。
W
权重(weight)
线性模型中的特征系数,或者深度网络中的边缘。线性模型的训练目标是为每个特征确定一个完美的权重。如果权重为 0,则对应的特征对模型而言是无用的。
宽模型(wide model)
线性模型通常具备很多稀疏输入特征。我们称之为「宽」模型,因其具有大量与输出节点直接连接的输入,是一种特殊类型的神经网络。宽模型通常比深度模型更容易调试(debug)和检查。尽管宽模型无法通过隐藏层表达非线性,但它们可以使用特征交叉和 bucketization 等转换用不同方式对非线性建模。可与深度模型对照阅读。
原文链接:https://developers.google.com/machine-learning/glossary
人工智能赛博物理操作系统
AI-CPS OS
“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。
点击“阅读原文”,访问AI-CPS OS官网
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com