【AI术语】机器之心开放人工智能专业词汇集

2017 年 11 月 13 日 产业智能官 机器之心

机器之心原创

机器之心编辑部

作为最早关注人工智能技术的媒体，机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间，从无到有，机器之心的编译团队一直在积累专业词汇。虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家，但我们一直在进步、一直在积累、一直在提高自己的专业性。

两年来，机器之心编译团队整理过翻译词汇对照表「红宝书」，编辑个人也整理过类似的词典。而我们也从机器之心读者留言中发现，有些人工智能专业词汇没有统一的翻译标准，这可能是因地区、跨专业等等原因造成的。举个例子，DeepMind 的一篇论文中有个词汇为 differentiable boundary tree，当时机器之心的翻译为可微分界树，但后来有读者表示这样的译法如果不保留英文很难明白表达的意思且建议翻译为可微分边界树。

因此，我们想把机器之心内部积累的人工智能专业词汇中英对照表开放给大家，希望为大家写论文、中文博客、阅读文章提供帮助。同时，这也是一份开放的表单，希望越来越多的人能够提供增添、修改建议，为人工智能的传播助力。

项目地址：https://github.com/jiqizhixin/Artificial-Intelligence-Terminology

组织形式

读者在此项目中，可通过以上表盘查看自己想要了解的专业词汇。在单个首字母中，表格的组织形式为：英文／缩写、汉语、来源&扩展。

来源&扩展是对该词汇的注解，内容为机器之心往期的相关文章。例如下图所示的「算法」，我们关联到的三篇文章是《回归、分类与聚类：三大方向剖解机器学习算法的优缺点》和《机器学习算法附速查表》和《深度学习算法全景图：从理论证明其正确性》。因此，我们希望不仅能提供相对应的术语，同时还希望能为读者提供每一个术语的来源和概念上的扩展。但由于这一部分工作量较大，我们还将与读者共同推进这一部分扩展的进程。

准确性

本项目中所有英文专业词汇对照的中文都来自机器之心编译的文章和系列机器学习教科书（如周志华的《机器学习》和李航的《统计学习方法》等），我们力求在提供准确翻译的同时保留最常用的形式。同时，为了保证词汇翻译的准确性，我们将此项目向读者开源，并希望能与读者共同迭代术语的准确度。除此之外，我们还将为每一个词汇提供来源与扩展进一步提升词汇的置信度。

机器之心术语编译标准

因为该项目很多术语都是机器之心平常编译文章所积累的，所以我们首先需要向读者说明机器之心术语编译的标准。

1. 常见术语的编译标准

机器之心常见术语的编译首先会确保术语的正确性，其次再考虑术语的传播广度。例如常见术语。logistic regression，首先机器之心会保证该术语的准确度。我们常见 logistic regression 会翻译为逻辑回归，但中文「逻辑」与 logistic 的含义还是有些差别，因此我们并不太倾向于采用这种译法。在准确度的基础上，我们会考虑术语的传播广度。例如有学者建议可以将 logistic regression 译为对数几率回归，但鉴于该译法的传播度不广，看到中文并不会马上检索到对应英文和概念，所以我们最终在常见术语编译标准下将 logistic regression 译为 logistical 回归。机器之心在对常见术语编译时并不会保留英文，也不会做进一步说明。

2. 非常见术语的编译标准

机器之心在编译技术文章或论文时，常常会遇到非常见的术语。因为像论文那样的文章是在特定领域下为解决特定问题而规范化书写的，所以就会存在较多的非常见的术语。而机器之心在编译非常见术语时，唯一的标准就是准确性，通常我们也会保留英文。因为非常见术语通常是数学、神经科学和物理学等领域上的专业术语，机器之心会尽可能地借鉴其他领域内的译法和意义而确定如何编译。例如 fixed-point theorem，在参考数学的情况下，我们会更倾向于译为不动点定理，fixed-point 译为不动点而不是定点。

3. 歧义术语的编译标准

还有很多术语其实是有歧义的，而对于这一类词，机器之心的编译标准会根据语义进行确定，因此也会有一些误差。例如 bias 在描述神经网络层级单元时可以译为偏置项。而在描述训练误差和与叉验证误差间的关系或学习曲线时，bias 可以译为偏差。这样的例子还有很多，比如 Stationary 在马尔可夫模型中可译为稳态分布（Stationary distribution），在最优化问题中可译为驻点（Stationary point），而在涉及博弈论或对抗性训练时，其又可能表达为静态。

以上是机器之心大概编译术语的标准，虽然我们在常用术语的编译上错误率相对较少，但在非常见术语和歧义术语上仍然会出现一些错误。尤其是在非常见术语的编译上，没有特定的背景知识很容易在编译上出现误差。因此我们希望能与读者共同加强术语的编译质量。

词汇更新

本词汇库目前拥有的专业词汇共计 500 个，主要为机器学习基础概念和术语，同时也是该项目的基本词汇。机器之心将继续完善术语的收录和扩展阅读的构建。词汇更新主要分为两个阶段，第一阶段机器之心将继续完善基础词汇的构建，即通过权威教科书或其它有公信力的资料抽取常见术语。第二阶段机器之心将持续性地把编译论文或其他资料所出现的非常见术语更新到词汇表中。

读者的反馈意见和更新建议将贯穿整个阶段，并且我们将在项目致谢页中展示对该项目起积极作用的读者。因为我们希望术语的更新更具准确度和置信度，所以我们希望读者能附上该术语的来源地址与扩展地址。因此，我们能更客观地更新词汇，并附上可信的来源与扩展。

Letter A

Accumulated error backpropagation	累积误差逆传播
Activation Function	激活函数
Adaptive Resonance Theory/ART	自适应谐振理论
Addictive model	加性学习
Adversarial Networks	对抗网络
Affine Layer	仿射层
Affinity matrix	亲和矩阵
Agent	代理 / 智能体
Algorithm	算法
Alpha-beta pruning	α-β剪枝
Anomaly detection	异常检测
Approximation	近似
Area Under ROC Curve／AUC	Roc 曲线下面积
Artificial General Intelligence/AGI	通用人工智能
Artificial Intelligence/AI	人工智能
Association analysis	关联分析
Attention mechanism	注意力机制
Attribute conditional independence assumption	属性条件独立性假设
Attribute space	属性空间
Attribute value	属性值
Autoencoder	自编码器
Automatic speech recognition	自动语音识别
Automatic summarization	自动摘要
Average gradient	平均梯度
Average-Pooling	平均池化

Letter B

Backpropagation Through Time	通过时间的反向传播
Backpropagation/BP	反向传播
Base learner	基学习器
Base learning algorithm	基学习算法
Batch Normalization/BN	批量归一化
Bayes decision rule	贝叶斯判定准则
Bayes Model Averaging／BMA	贝叶斯模型平均
Bayes optimal classifier	贝叶斯最优分类器
Bayesian decision theory	贝叶斯决策论
Bayesian network	贝叶斯网络
Between-class scatter matrix	类间散度矩阵
Bias	偏置 / 偏差
Bias-variance decomposition	偏差-方差分解
Bias-Variance Dilemma	偏差 - 方差困境
Bi-directional Long-Short Term Memory/Bi-LSTM	双向长短期记忆
Binary classification	二分类
Binomial test	二项检验
Bi-partition	二分法
Boltzmann machine	玻尔兹曼机
Bootstrap sampling	自助采样法／可重复采样／有放回采样
Bootstrapping	自助法
Break-Event Point／BEP	平衡点

Letter C

Calibration	校准
Cascade-Correlation	级联相关
Categorical attribute	离散属性
Class-conditional probability	类条件概率
Classification and regression tree/CART	分类与回归树
Classifier	分类器
Class-imbalance	类别不平衡
Closed -form	闭式
Cluster	簇/类/集群
Cluster analysis	聚类分析
Clustering	聚类
Clustering ensemble	聚类集成
Co-adapting	共适应
Coding matrix	编码矩阵
COLT	国际学习理论会议
Committee-based learning	基于委员会的学习
Competitive learning	竞争型学习
Component learner	组件学习器
Comprehensibility	可解释性
Computation Cost	计算成本
Computational Linguistics	计算语言学
Computer vision	计算机视觉
Concept drift	概念漂移
Concept Learning System /CLS	概念学习系统
Conditional entropy	条件熵
Conditional mutual information	条件互信息
Conditional Probability Table／CPT	条件概率表
Conditional random field/CRF	条件随机场
Conditional risk	条件风险
Confidence	置信度
Confusion matrix	混淆矩阵
Connection weight	连接权
Connectionism	连结主义
Consistency	一致性／相合性
Contingency table	列联表
Continuous attribute	连续属性
Convergence	收敛
Conversational agent	会话智能体
Convex quadratic programming	凸二次规划
Convexity	凸性
Convolutional neural network/CNN	卷积神经网络
Co-occurrence	同现
Correlation coefficient	相关系数
Cosine similarity	余弦相似度
Cost curve	成本曲线
Cost Function	成本函数
Cost matrix	成本矩阵
Cost-sensitive	成本敏感
Cross entropy	交叉熵
Cross validation	交叉验证
Crowdsourcing	众包
Curse of dimensionality	维数灾难
Cut point	截断点
Cutting plane algorithm	割平面法

Letter D

Data mining	数据挖掘
Data set	数据集
Decision Boundary	决策边界
Decision stump	决策树桩
Decision tree	决策树／判定树
Deduction	演绎
Deep Belief Network	深度信念网络
Deep Convolutional Generative Adversarial Network/DCGAN	深度卷积生成对抗网络
Deep learning	深度学习
Deep neural network/DNN	深度神经网络
Deep Q-Learning	深度 Q 学习
Deep Q-Network	深度 Q 网络
Density estimation	密度估计
Density-based clustering	密度聚类
Differentiable neural computer	可微分神经计算机
Dimensionality reduction algorithm	降维算法
Directed edge	有向边
Disagreement measure	不合度量
Discriminative model	判别模型
Discriminator	判别器
Distance measure	距离度量
Distance metric learning	距离度量学习
Distribution	分布
Divergence	散度
Diversity measure	多样性度量／差异性度量
Domain adaption	领域自适应
Downsampling	下采样
D-separation （Directed separation）	有向分离
Dual problem	对偶问题
Dummy node	哑结点
Dynamic Fusion	动态融合
Dynamic programming	动态规划

Letter E

Eigenvalue decomposition	特征值分解
Embedding	嵌入
Emotional analysis	情绪分析
Empirical conditional entropy	经验条件熵
Empirical entropy	经验熵
Empirical error	经验误差
Empirical risk	经验风险
End-to-End	端到端
Energy-based model	基于能量的模型
Ensemble learning	集成学习
Ensemble pruning	集成修剪
Error Correcting Output Codes／ECOC	纠错输出码
Error rate	错误率
Error-ambiguity decomposition	误差-分歧分解
Euclidean distance	欧氏距离
Evolutionary computation	演化计算
Expectation-Maximization	期望最大化
Expected loss	期望损失
Exploding Gradient Problem	梯度爆炸问题
Exponential loss function	指数损失函数
Extreme Learning Machine/ELM	超限学习机

Letter F

Factorization	因子分解
False negative	假负类
False positive	假正类
False Positive Rate/FPR	假正例率
Feature engineering	特征工程
Feature selection	特征选择
Feature vector	特征向量
Featured Learning	特征学习
Feedforward Neural Networks/FNN	前馈神经网络
Fine-tuning	微调
Flipping output	翻转法
Fluctuation	震荡
Forward stagewise algorithm	前向分步算法
Frequentist	频率主义学派
Full-rank matrix	满秩矩阵
Functional neuron	功能神经元

Letter G

Gain ratio	增益率
Game theory	博弈论
Gaussian kernel function	高斯核函数
Gaussian Mixture Model	高斯混合模型
General Problem Solving	通用问题求解
Generalization	泛化
Generalization error	泛化误差
Generalization error bound	泛化误差上界
Generalized Lagrange function	广义拉格朗日函数
Generalized linear model	广义线性模型
Generalized Rayleigh quotient	广义瑞利商
Generative Adversarial Networks/GAN	生成对抗网络
Generative Model	生成模型
Generator	生成器
Genetic Algorithm/GA	遗传算法
Gibbs sampling	吉布斯采样
Gini index	基尼指数
Global minimum	全局最小
Global Optimization	全局优化
Gradient boosting	梯度提升
Gradient Descent	梯度下降
Graph theory	图论
Ground-truth	真相／真实

Letter H

Hard margin	硬间隔
Hard voting	硬投票
Harmonic mean	调和平均
Hesse matrix	海塞矩阵
Hidden dynamic model	隐动态模型
Hidden layer	隐藏层
Hidden Markov Model/HMM	隐马尔可夫模型
Hierarchical clustering	层次聚类
Hilbert space	希尔伯特空间
Hinge loss function	合页损失函数
Hold-out	留出法
Homogeneous	同质
Hybrid computing	混合计算
Hyperparameter	超参数
Hypothesis	假设
Hypothesis test	假设验证

Letter I

ICML	国际机器学习会议
Improved iterative scaling/IIS	改进的迭代尺度法
Incremental learning	增量学习
Independent and identically distributed/i.i.d.	独立同分布
Independent Component Analysis/ICA	独立成分分析
Indicator function	指示函数
Individual learner	个体学习器
Induction	归纳
Inductive bias	归纳偏好
Inductive learning	归纳学习
Inductive Logic Programming／ILP	归纳逻辑程序设计
Information entropy	信息熵
Information gain	信息增益
Input layer	输入层
Insensitive loss	不敏感损失
Inter-cluster similarity	簇间相似度
International Conference for Machine Learning/ICML	国际机器学习大会
Intra-cluster similarity	簇内相似度
Intrinsic value	固有值
Isometric Mapping/Isomap	等度量映射
Isotonic regression	等分回归
Iterative Dichotomiser	迭代二分器

Letter K

Kernel method	核方法
Kernel trick	核技巧
Kernelized Linear Discriminant Analysis／KLDA	核线性判别分析
K-fold cross validation	k 折交叉验证／k 倍交叉验证
K-Means Clustering	K - 均值聚类
K-Nearest Neighbours Algorithm/KNN	K近邻算法
Knowledge base	知识库
Knowledge Representation	知识表征

Letter L

Label space	标记空间
Lagrange duality	拉格朗日对偶性
Lagrange multiplier	拉格朗日乘子
Laplace smoothing	拉普拉斯平滑
Laplacian correction	拉普拉斯修正
Latent Dirichlet Allocation	隐狄利克雷分布
Latent semantic analysis	潜在语义分析
Latent variable	隐变量
Lazy learning	懒惰学习
Learner	学习器
Learning by analogy	类比学习
Learning rate	学习率
Learning Vector Quantization/LVQ	学习向量量化
Least squares regression tree	最小二乘回归树
Leave-One-Out/LOO	留一法
linear chain conditional random field	线性链条件随机场
Linear Discriminant Analysis／LDA	线性判别分析
Linear model	线性模型
Linear Regression	线性回归
Link function	联系函数
Local Markov property	局部马尔可夫性
Local minimum	局部最小
Log likelihood	对数似然
Log odds／logit	对数几率
Logistic Regression	Logistic 回归
Log-likelihood	对数似然
Log-linear regression	对数线性回归
Long-Short Term Memory/LSTM	长短期记忆
Loss function	损失函数

Letter M

Machine translation/MT	机器翻译
Macron-P	宏查准率
Macron-R	宏查全率
Majority voting	绝对多数投票法
Manifold assumption	流形假设
Manifold learning	流形学习
Margin theory	间隔理论
Marginal distribution	边际分布
Marginal independence	边际独立性
Marginalization	边际化
Markov Chain Monte Carlo/MCMC	马尔可夫链蒙特卡罗方法
Markov Random Field	马尔可夫随机场
Maximal clique	最大团
Maximum Likelihood Estimation/MLE	极大似然估计／极大似然法
Maximum margin	最大间隔
Maximum weighted spanning tree	最大带权生成树
Max-Pooling	最大池化
Mean squared error	均方误差
Meta-learner	元学习器
Metric learning	度量学习
Micro-P	微查准率
Micro-R	微查全率
Minimal Description Length/MDL	最小描述长度
Minimax game	极小极大博弈
Misclassification cost	误分类成本
Mixture of experts	混合专家
Momentum	动量
Moral graph	道德图／端正图
Multi-class classification	多分类
Multi-document summarization	多文档摘要
Multi-layer feedforward neural networks	多层前馈神经网络
Multilayer Perceptron/MLP	多层感知器
Multimodal learning	多模态学习
Multiple Dimensional Scaling	多维缩放
Multiple linear regression	多元线性回归
Multi-response Linear Regression ／MLR	多响应线性回归
Mutual information	互信息

Letter N

Naive bayes	朴素贝叶斯
Naive Bayes Classifier	朴素贝叶斯分类器
Named entity recognition	命名实体识别
Nash equilibrium	纳什均衡
Natural language generation/NLG	自然语言生成
Natural language processing	自然语言处理
Negative class	负类
Negative correlation	负相关法
Negative Log Likelihood	负对数似然
Neighbourhood Component Analysis/NCA	近邻成分分析
Neural Machine Translation	神经机器翻译
Neural Turing Machine	神经图灵机
Newton method	牛顿法
NIPS	国际神经信息处理系统会议
No Free Lunch Theorem／NFL	没有免费的午餐定理
Noise-contrastive estimation	噪音对比估计
Nominal attribute	列名属性
Non-convex optimization	非凸优化
Nonlinear model	非线性模型
Non-metric distance	非度量距离
Non-negative matrix factorization	非负矩阵分解
Non-ordinal attribute	无序属性
Non-Saturating Game	非饱和博弈
Norm	范数
Normalization	归一化
Nuclear norm	核范数
Numerical attribute	数值属性

Letter O

Objective function	目标函数
Oblique decision tree	斜决策树
Occam's razor	奥卡姆剃刀
Odds	几率
Off-Policy	离策略
One shot learning	一次性学习
One-Dependent Estimator／ODE	独依赖估计
On-Policy	在策略
Ordinal attribute	有序属性
Out-of-bag estimate	包外估计
Output layer	输出层
Output smearing	输出调制法
Overfitting	过拟合／过配
Oversampling	过采样

Letter P

Paired t-test	成对 t 检验
Pairwise	成对型
Pairwise Markov property	成对马尔可夫性
Parameter	参数
Parameter estimation	参数估计
Parameter tuning	调参
Parse tree	解析树
Particle Swarm Optimization/PSO	粒子群优化算法
Part-of-speech tagging	词性标注
Perceptron	感知机
Performance measure	性能度量
Plug and Play Generative Network	即插即用生成网络
Plurality voting	相对多数投票法
Polarity detection	极性检测
Polynomial kernel function	多项式核函数
Pooling	池化
Positive class	正类
Positive definite matrix	正定矩阵
Post-hoc test	后续检验
Post-pruning	后剪枝
potential function	势函数
Precision	查准率／准确率
Prepruning	预剪枝
Principal component analysis/PCA	主成分分析
Principle of multiple explanations	多释原则
Prior	先验
Probability Graphical Model	概率图模型
Proximal Gradient Descent/PGD	近端梯度下降
Pruning	剪枝
Pseudo-label	伪标记

Letter Q

Quantized Neural Network	量子化神经网络
Quantum computer	量子计算机
Quantum Computing	量子计算
Quasi Newton method	拟牛顿法

Letter R

Radial Basis Function／RBF	径向基函数
Random Forest Algorithm	随机森林算法
Random walk	随机漫步
Recall	查全率／召回率
Receiver Operating Characteristic/ROC	受试者工作特征
Rectified Linear Unit/ReLU	线性修正单元
Recurrent Neural Network	循环神经网络
Recursive neural network	递归神经网络
Reference model	参考模型
Regression	回归
Regularization	正则化
Reinforcement learning/RL	强化学习
Representation learning	表征学习
Representer theorem	表示定理
reproducing kernel Hilbert space/RKHS	再生核希尔伯特空间
Re-sampling	重采样法
Rescaling	再缩放
Residual Mapping	残差映射
Residual Network	残差网络
Restricted Boltzmann Machine/RBM	受限玻尔兹曼机
Restricted Isometry Property/RIP	限定等距性
Re-weighting	重赋权法
Robustness	稳健性/鲁棒性
Root node	根结点
Rule Engine	规则引擎
Rule learning	规则学习

Letter S

Saddle point	鞍点
Sample space	样本空间
Sampling	采样
Score function	评分函数
Self-Driving	自动驾驶
Self-Organizing Map／SOM	自组织映射
Semi-naive Bayes classifiers	半朴素贝叶斯分类器
Semi-Supervised Learning	半监督学习
semi-Supervised Support Vector Machine	半监督支持向量机
Sentiment analysis	情感分析
Separating hyperplane	分离超平面
Sigmoid function	Sigmoid 函数
Similarity measure	相似度度量
Simulated annealing	模拟退火
Simultaneous localization and mapping	同步定位与地图构建
Singular Value Decomposition	奇异值分解
Slack variables	松弛变量
Smoothing	平滑
Soft margin	软间隔
Soft margin maximization	软间隔最大化
Soft voting	软投票
Sparse representation	稀疏表征
Sparsity	稀疏性
Specialization	特化
Spectral Clustering	谱聚类
Speech Recognition	语音识别
Splitting variable	切分变量
Squashing function	挤压函数
Stability-plasticity dilemma	可塑性-稳定性困境
Statistical learning	统计学习
Status feature function	状态特征函
Stochastic gradient descent	随机梯度下降
Stratified sampling	分层采样
Structural risk	结构风险
Structural risk minimization/SRM	结构风险最小化
Subspace	子空间
Supervised learning	监督学习／有导师学习
support vector expansion	支持向量展式
Support Vector Machine/SVM	支持向量机
Surrogat loss	替代损失
Surrogate function	替代函数
Symbolic learning	符号学习
Symbolism	符号主义
Synset	同义词集

Letter T

T-Distribution Stochastic Neighbour Embedding/t-SNE	T - 分布随机近邻嵌入
Tensor	张量
Tensor Processing Units/TPU	张量处理单元
The least square method	最小二乘法
Threshold	阈值
Threshold logic unit	阈值逻辑单元
Threshold-moving	阈值移动
Time Step	时间步骤
Tokenization	标记化
Training error	训练误差
Training instance	训练示例／训练例
Transductive learning	直推学习
Transfer learning	迁移学习
Treebank	树库
Tria-by-error	试错法
True negative	真负类
True positive	真正类
True Positive Rate/TPR	真正例率
Turing Machine	图灵机
Twice-learning	二次学习

Letter U

Underfitting	欠拟合／欠配
Undersampling	欠采样
Understandability	可理解性
Unequal cost	非均等代价
Unit-step function	单位阶跃函数
Univariate decision tree	单变量决策树
Unsupervised learning	无监督学习／无导师学习
Unsupervised layer-wise training	无监督逐层训练
Upsampling	上采样

Letter V

Vanishing Gradient Problem	梯度消失问题
Variational inference	变分推断
VC Theory	VC维理论
Version space	版本空间
Viterbi algorithm	维特比算法
Von Neumann architecture	冯 · 诺伊曼架构

Letter W

Wasserstein GAN/WGAN	Wasserstein生成对抗网络
Weak learner	弱学习器
Weight	权重
Weight sharing	权共享
Weighted voting	加权投票法
Within-class scatter matrix	类内散度矩阵
Word embedding	词嵌入
Word sense disambiguation	词义消歧

Letter Z

Zero-data learning	零数据学习
Zero-shot learning	零次学习

纵览机器学习基本词汇与概念

来源：机器之心

本文编译自谷歌开发者机器学习术语表项目，介绍了该项目所有的术语与基本解释。之后，我们也将表内术语更新到了机器之心 GitHub 项目中。

机器之心人工智能术语项目：https://github.com/jiqizhixin/Artificial-Intelligence-Terminology

准确率（accuracy）

分类模型预测准确的比例。在多类别分类中，准确率定义如下：

在二分类中，准确率定义为：

激活函数（Activation function）

一种函数（例如 ReLU 或 Sigmoid），将前一层所有神经元激活值的加权和输入到一个非线性函数中，然后向下一层传递该函数的输出值（典型的非线性）。

AdaGrad

一种复杂的梯度下降算法，重新调节每个参数的梯度，高效地给每个参数一个单独的学习率。详见论文：http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf。

AUC（曲线下面积）

一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类（Ture Positives）要比假正类（False Positives）概率大的确信度。

反向传播（Backpropagation）

神经网络中完成梯度下降的重要算法。首先，在前向传播的过程中计算每个节点的输出值。然后，在反向传播的过程中计算与每个参数对应的误差的偏导数。

基线（Baseline）

被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。

批量

模型训练中一个迭代（指一次梯度更新）使用的样本集。

批量大小（batch size）

一个批量中样本的数量。例如，SGD 的批量大小为 1，而 mini-batch 的批量大小通常在 10-1000 之间。批量大小通常在训练与推理的过程中确定，然而 TensorFlow 不允许动态批量大小。

偏置（bias）

与原点的截距或偏移量。偏置（也称偏置项）被称为机器学习模型中的 b 或者 w0。例如，偏置项是以下公式中的 b：y′=b+w_1x_1+w_2x_2+…w_nx_n。

注意不要和预测偏差混淆。

二元分类器（binary classification）

一类分类任务，输出两个互斥（不相交）类别中的一个。例如，一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。

binning/bucketing

根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征，称为 buckets 或者 bins。例如，将温度表示为单一的浮点特征，可以将温度范围切割为几个离散的 bins。假如给定的温度的敏感度为十分之一度，那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中，15.1 度到 30.0 度放入第二个 bin，30.1 度到 45.0 度放入第三个 bin。

标定层（calibration layer）

一种调整后期预测的结构，通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。

候选采样（candidate sampling）

一种优化训练时间的，使用 Softmax 等算法计算所有正标签的概率，同时只计算一些随机取样的负标签的概率。例如，有一个样本标记为「小猎兔狗」和「狗」，候选取样将计算预测概率，和与「小猎兔狗」和「狗」类别输出（以及剩余的类别的随机子集，比如「猫」、「棒棒糖」、「栅栏」）相关的损失项。这个想法的思路是，负类别可以通过频率更低的负强化（negative reinforcement）进行学习，而正类别经常能得到适当的正强化，实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。

检查点（checkpoint）

在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重，也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行（例如，抢占作业）。注意其自身的图式并不包含于检查点内。

类别（class）

所有同类属性的目标值作为一个标签。例如，在一个检测垃圾邮件的二元分类模型中，这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类，其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。

类别不平衡数据集（class-imbalanced data set）

这是一个二元分类问题，其中两个类别的标签的分布频率有很大的差异。比如，一个疾病数据集中若 0.01% 的样本有正标签，而 99.99% 的样本有负标签，那么这就是一个类别不平衡数据集。但对于一个足球比赛预测器数据集，若其中 51% 的样本标记一队胜利，而 49% 的样本标记其它队伍胜利，那么这就不是一个类别不平衡数据集。

分类模型（classification）

机器学习模型的一种，将数据分离为两个或多个离散类别。例如，一个自然语言处理分类模型可以将一句话归类为法语、西班牙语或意大利语。分类模型与回归模型（regression model）成对比。

分类阈值（classification threshold）

应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。例如，考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型，如果分类阈值是 0.9，那么 logistic 回归值在 0.9 以上的被归为垃圾邮件，而在 0.9 以下的被归为非垃圾邮件。

混淆矩阵（confusion matrix）

总结分类模型的预测结果的表现水平（即，标签和模型分类的匹配程度）的 NxN 表格。混淆矩阵的一个轴列出模型预测的标签，另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中，N=2。例如，以下为一个二元分类问题的简单的混淆矩阵：

上述混淆矩阵展示了在 19 个确实为肿瘤的样本中，有 18 个被模型正确的归类（18 个真正），有 1 个被错误的归类为非肿瘤（1 个假负类）。类似的，在 458 个确实为非肿瘤的样本中，有 452 个被模型正确的归类（452 个真负类），有 6 个被错误的归类（6 个假正类）。

多类别分类的混淆矩阵可以帮助发现错误出现的模式。例如，一个混淆矩阵揭示了一个识别手写数字体的模型倾向于将 4 识别为 9，或者将 7 识别为 1。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量，比如精度（precision）和召回（recall）率。

连续特征（continuous feature）

拥有无限个取值点的浮点特征。和离散特征（discrete feature）相反。

收敛（convergence）

训练过程达到的某种状态，其中训练损失和验证损失在经过了确定的迭代次数后，在每一次迭代中，改变很小或完全不变。换句话说就是，当对当前数据继续训练而无法再提升模型的表现水平的时候，就称模型已经收敛。在深度学习中，损失值下降之前，有时候经过多次迭代仍保持常量或者接近常量，会造成模型已经收敛的错觉。

凸函数（concex function）

一种形状大致呈字母 U 形或碗形的函数。然而，在退化情形中，凸函数的形状就像一条线。例如，以下几个函数都是凸函数：

L2 损失函数
Log 损失函数
L1 正则化函数
L2 正则化函数

凸函数是很常用的损失函数。因为当一个函数有最小值的时候（通常就是这样），梯度下降的各种变化都能保证找到接近函数最小值的点。类似的，随机梯度下降的各种变化有很大的概率（虽然无法保证）找到接近函数最小值的点。

两个凸函数相加（比如，L2 损失函数+L1 正则化函数）后仍然是凸函数。

深度模型通常是非凸的。出乎意料的是，以凸优化的形式设计的算法通常都能在深度网络上工作的很好，虽然很少能找到最小值。

成本（cost）

loss 的同义词。

交叉熵（cross-entropy）

多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度（perplexity）。

数据集（data set）

样本的集合。

决策边界（decision boundary）

在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如，下图就展示了一个二元分类问题，决策边界即橙点类和蓝点类的边界。

深度模型（deep model）

一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照（wide model）。

密集特征（dense feature）

大多数取值为非零的一种特征，通常用取浮点值的张量（tensor）表示。和稀疏特征（sparse feature）相反。

派生特征（derived feature）

合成特征（synthetic feature）的同义词。

离散特征（discrete feature）

只有有限个可能取值的一种特征。例如，一个取值只包括动物、蔬菜或矿物的特征就是离散（或类别）特征。和连续特征（continuous feature）对照。

dropout 正则化（dropout regularization）

训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多，正则化越强。

动态模型（dynamic model）

以连续更新的方式在线训练的模型。即数据连续不断的输入模型。

早期停止法（early stopping）

一种正则化方法，在训练损失完成下降之前停止模型训练过程。当验证数据集（validation data set）的损失开始上升的时候，即泛化表现变差的时候，就该使用早期停止法了。

嵌入（embeddings）

一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。例如，将一个英语句子中的单词以以下任何一种方式表示：

拥有百万数量级（高维）的元素的稀疏向量，其中所有的元素都是整数。向量的每一个单元表示一个单独的英语单词，单元中的数字表示该单词在一个句子中出现的次数。由于一个句子中的单词通常不会超过 50 个，向量中几乎所有的单元都是 0。少量的非零的单元将取一个小的整数值（通常为 1）表示句子中一个单词的出现次数。
拥有数百个（低维）元素的密集向量，其中每一个元素取 0 到 1 之间的浮点数。

在 TensorFlow 中，嵌入是通过反向传播损失训练的，正如神经网络的其它参量一样。

经验风险最小化（empirical risk minimization，ERM）

选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化（structual risk minimization）对照。

集成（ensemble）

多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法：

设置不同的初始化；
设置不同的超参量；
设置不同的总体结构。

深度和广度模型是一种集成。

评估器（Estimator）

tf.Estimator 类的一个例子，封装 logic 以建立一个 TensorFlow 图并运行一个 TensorFlow session。你可以通过以下方式创建自己的评估器：https://www.tensorflow.org/extend/estimators

样本（example）

一个数据集的一行内容。一个样本包含了一个或多个特征，也可能是一个标签。参见标注样本（labeled example）和无标注样本（unlabeled example）。

假负类（false negative，FN）

被模型错误的预测为负类的样本。例如，模型推断一封邮件为非垃圾邮件（负类），但实际上这封邮件是垃圾邮件。

假正类（false positive，FP）

被模型错误的预测为正类的样本。例如，模型推断一封邮件为垃圾邮件（正类），但实际上这封邮件是非垃圾邮件。

假正类率（false positive rate，FP rate）

ROC 曲线（ROC curve）中的 x 轴。FP 率的定义是：假正率=假正类数/(假正类数+真负类数)

特征（feature）

输入变量，用于做出预测。

特征列（feature columns/FeatureColumn）

具有相关性的特征的集合，比如用户可能居住的所有可能的国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。

TensorFlow 中的特征列还可以压缩元数据比如下列情况：

特征的数据类型；
一个特征是固定长度的或应该转换为嵌入。
一个特征列可以仅包含一个特征。「特征列」是谷歌专用的术语。在 VW 系统（Yahoo/Microsoft）中特征列的意义是「命名空间」（namespace），或者场（field）。

特征交叉（feature cross）

将特征进行交叉（乘积或者笛卡尔乘积）运算后得到的合成特征。特征交叉有助于表示非线性关系。

特征工程（feature engineering）

在训练模型的时候，决定哪些特征是有用的，然后将记录文件和其它来源的原始数据转换成上述特征的过程。在 TensorFlow 中特征工程通常意味着将原始记录文件输入 tf.Example 协议缓存中。参见 tf.Transform。特征工程有时候也称为特征提取。

特征集（feature set）

机器学习模型训练的时候使用的特征群。比如，邮政编码，面积要求和物业状况可以组成一个简单的特征集，使模型能预测房价。

特征定义（feature spec）

描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器，必须明确以下信息：

需要提取的数据（即特征的关键信息）
数据类型（比如，浮点数还是整数）
数据长度（固定的或者变化的）

Estimator API 提供了从一群特征列中生成一个特征定义的工具。

完全 softmax（full softmax）

参见 softmax。和候选采样对照。

泛化（generalization）

指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。

广义线性模型（generalized linear model）

最小二乘回归模型的推广/泛化，基于高斯噪声，相对于其它类型的模型（基于其它类型的噪声，比如泊松噪声，或类别噪声）。广义线性模型的例子包括：

logistic 回归
多分类回归
最小二乘回归

广义线性模型的参数可以通过凸优化得到，它具有以下性质：

最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。
最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。

广义线性模型的能力局限于其特征的性质。和深度模型不同，一个广义线性模型无法「学习新的特征」。

梯度（gradient）

所有变量的偏导数的向量。在机器学习中，梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。

梯度截断（gradient clipping）

在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。

梯度下降（gradient descent）

通过计算模型的相关参量和损失函数的梯度最小化损失函数，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数。

图（graph）

在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的，表示传递一个操作（一个张量）的结果（作为一个操作数）给另一个操作。使用 TensorBoard 能可视化计算图。

启发式（heuristic）

一个问题的实际的和非最优的解，但能从学习经验中获得足够多的进步。

隐藏层（hidden layer）

神经网络中位于输入层（即特征）和输出层（即预测）之间的合成层。一个神经网络包含一个或多个隐藏层。

折页损失函数（Hinge loss）

损失函数的一个类型，用于分类模型以寻找距离每个样本的距离最大的决策边界，即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数（或相关的函数，比如平方 hinge 函数）。在二元分类中，hinge 损失函数按以下方式定义：

loss=max(0,1−(y′∗y))

其中 y'是分类器模型的列输出：

y′=b+w_1x_1+w_2x_2+…w_nx_n

y 是真实的标签，-1 或+1。

因此，hinge 损失将是下图所示的样子：

测试数据（holdout data）

有意不用于训练的样本。验证数据集（validation data set）和测试数据集（test data set）是测试数据（holdout data）的两个例子。测试数据帮助评估模型泛化到除了训练数据之外的数据的能力。测试集的损失比训练集的损失提供了对未知数据集的损失更好的估计。

超参数（hyperparameter）

连续训练模型的过程中可以拧动的「旋钮」。例如，相对于模型自动更新的参数，学习率（learning rate）是一个超参数。和参量对照。

独立同分布（independently and identically distributed，i.i.d）

从不会改变的分布中获取的数据，且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。例如，网页访客的分布可能是短暂时间窗口上的 i.i.d；即分布不会在该时间窗口发生改变，每个人的访问都与其他人的访问独立。但是，如果你扩展了时间窗口，则会出现网页访客的季节性差异。

推断（inference）

在机器学习中，通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中，推断指在观察到的数据的基础上拟合分布参数的过程。

输入层（input layer）

神经网络的第一层（接收输入数据）。

评分者间一致性（inter-rater agreement）

用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致，则任务说明可能需要改进。有时也叫标注者间信度（inter-annotator agreement）或评分者间信度（inter-rater reliability）。

Kernel 支持向量机（Kernel Support Vector Machines/KSVM）

一种分类算法，旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如，考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化，KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。

L1 损失函数（L1 loss）

损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。

L1 正则化（L1 regularization）

一种正则化，按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中，L1 正则化帮助促使（几乎）不相关的特征的权重趋近于 0，从而从模型中移除这些特征。

L2 损失（L2 loss）

参见平方损失。

L2 正则化（L2 regularization）

一种正则化，按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。（可与 L1 正则化对照阅读。）L2 正则化通常改善线性模型的泛化效果。

标签（label）

在监督式学习中，样本的「答案」或「结果」。标注数据集中的每个样本包含一或多个特征和一个标签。比如，在房屋数据集中，特征可能包括卧室数量、卫生间数量、房龄，而标签可能就是房子的价格。在垃圾邮件检测数据集中，特征可能包括主题、发出者何邮件本身，而标签可能是「垃圾邮件」或「非垃圾邮件」。

标注样本（labeled example）

包含特征和标签的样本。在监督式训练中，模型从标注样本中进行学习。

lambda

正则化率的同义词。（该术语有多种含义。这里，我们主要关注正则化中的定义。）

层（layer）

神经网络中的神经元序列，可以处理输入特征序列或神经元的输出。

它也是 TensorFlow 的一种抽象化概念。层是将张量和配置选项作为输入、输出其他张量的 Python 函数。一旦必要的张量出现，用户就可以通过模型函数将结果转换成估计器。

学习率（learning rate）

通过梯度下降训练模型时使用的一个标量。每次迭代中，梯度下降算法使学习率乘以梯度，乘积叫作 gradient step。

学习率是一个重要的超参数。

最小二乘回归（least squares regression）

通过 L2 损失最小化进行训练的线性回归模型。

线性回归（linear regression）

对输入特征的线性连接输出连续值的一种回归模型。

logistic 回归（logistic regression）

将 sigmoid 函数应用于线性预测，在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题，但它也用于多类别分类问题（这种情况下，logistic 回归叫作「多类别 logistic 回归」或「多项式回归」。

对数损失函数（Log Loss）

二元 logistic 回归模型中使用的损失函数。

损失

度量模型预测与标签距离的指标，它是度量一个模型有多糟糕的指标。为了确定损失值，模型必须定义损失函数。例如，线性回归模型通常使用均方差作为损失函数，而 logistic 回归模型使用对数损失函数。

机器学习（machine learning）

利用输入数据构建（训练）预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。

均方误差（Mean Squared Error/MSE）

每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。TensorFlow Playground 展示「训练损失」和「测试损失」的值是 MSE。

小批量（mini-batch）

在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在 10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。

小批量随机梯度下降（mini-batch stochastic gradient descent）

使用小批量的梯度下降算法。也就是，小批量随机梯度下降基于训练数据的子集对梯度进行评估。Vanilla SGD 使用 size 为 1 的小批量。

模型（model）

机器学习系统从训练数据中所学内容的表示。该术语有多个含义，包括以下两个相关含义：

TensorFlow 图，显示如何计算预测的结构。
TensorFlow 图的特定权重和偏差，由训练决定。

模型训练（model training）

确定最佳模型的过程。

动量（Momentum）

一种复杂的梯度下降算法，其中的学习步不只依赖于当前步的导数，还依赖于先于它的步。动量包括随着时间计算梯度的指数加权移动平均数，类似于物理学中的动量。动量有时可以阻止学习陷于局部最小值。

多类别（multi-class）

在多于两类的类别中进行分类的分类问题。例如，有约 128 种枫树，那么分类枫树品种的模型就是多类别的。反之，把电子邮件分成两个类别（垃圾邮件和非垃圾邮件）的模型是二元分类器模型。

NaN trap

训练过程中，如果模型中的一个数字变成了 NaN，则模型中的很多或所有其他数字最终都变成 NaN。NaN 是「Not a Number」的缩写。

负类（negative class）

在二元分类中，一个类别是正类，另外一个是负类。正类就是我们要找的目标，负类是另外一种可能性。例如，医疗测试中的负类可能是「非肿瘤」，电子邮件分类器中的负类可能是「非垃圾邮件」。

神经网络（neural network）

该模型从大脑中获取灵感，由多个层组成（其中至少有一个是隐藏层），每个层包含简单的连接单元或神经元，其后是非线性。

神经元（neuron）

神经网络中的节点，通常输入多个值，生成一个输出值。神经元通过将激活函数（非线性转换）应用到输入值的加权和来计算输出值。

归一化（normalization）

将值的实际区间转化为标准区间的过程，标准区间通常是-1 到+1 或 0 到 1。例如，假设某个特征的自然区间是 800 到 6000。通过减法和分割，你可以把那些值标准化到区间-1 到+1。参见缩放。

numpy

Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。

目标（objective）

算法尝试优化的目标函数。

离线推断（offline inference）

生成一组预测并存储，然后按需检索那些预测。可与在线推断对照阅读。

one-hot 编码（one-hot encoding）

一个稀疏向量，其中：

一个元素设置为 1。
所有其他的元素设置为 0。

独热编码常用于表示有有限可能值集合的字符串或标识符。例如，假设一个记录了 15000 个不同品种的植物数据集，每一个用独特的字符串标识符来表示。作为特征工程的一部分，你可能将那些字符串标识符进行独热编码，每个向量的大小为 15000。

一对多（one-vs.-all）

给出一个有 N 个可能解决方案的分类问题，一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如，一个模型将样本分为动物、蔬菜或矿物，则一对多的解决方案将提供以下三种独立的二元分类器：

动物和非动物
蔬菜和非蔬菜
矿物和非矿物

在线推断（online inference）

按需生成预测。可与离线推断对照阅读。

运算（Operation/op）

TensorFlow 图中的一个节点。在 TensorFlow 中，任何创建、控制或损坏张量的步骤都是运算。例如，矩阵乘法是一个把两个张量作为输入、生成一个张量作为输出的运算。

优化器（optimizer）

梯度下降算法的特定实现。TensorFlow 的基类优化器是 tf.train.Optimizer。不同的优化器（tf.train.Optimizer 的子类）对应不同的概念，如：

动量（Momentum）
更新频率（AdaGrad = ADAptive GRADient descent；Adam = ADAptive with Momentum；RMSProp）
稀疏性／正则化（Ftrl）
更复杂的数学（Proximal 及其他）

你甚至可以想象 NN-driven optimizer。

异常值（outlier）

与大多数值差别很大的值。在机器学习中，下列都是异常值：

高绝对值的权重。
与实际值差距过大的预测值。
比平均值多大约 3 个标准差的输入数据的值。

异常值往往使模型训练中出现问题。

输出层（output layer）

神经网络的「最后」一层。这一层包含整个·模型所寻求的答案。

过拟合（overfitting）

创建的模型与训练数据非常匹配，以至于模型无法对新数据进行正确的预测。

pandas

一种基于列的数据分析 API。很多机器学习框架，包括 TensorFlow，支持 pandas 数据结构作为输入。参见 pandas 文档。

参数（parameter）

机器学习系统自行训练的模型的变量。例如，权重是参数，它的值是机器学习系统通过连续的训练迭代逐渐学习到的。可与超参数对照阅读。

参数服务器（Parameter Server/PS）

用于在分布式设置中跟踪模型参数。

参数更新（parameter update）

在训练过程中调整模型参数的操作，通常在梯度下降的单个迭代中进行。

偏导数（partial derivative）

一个多变量函数的偏导数是它关于其中一个变量的导数，而保持其他变量恒定。例如，f(x, y) 对于 x 的偏导数就是 f(x) 的导数，y 保持恒定。x 的偏导数中只有 x 是变化的，公式中其他的变量都不用变化。

分区策略（partitioning strategy）

在多个参数服务器中分割变量的算法。

性能（performance）

具有多种含义：

在软件工程中的传统含义：软件运行速度有多快／高效？
在机器学习中的含义：模型的准确率如何？即，模型的预测结果有多好？

困惑度（perplexity）

对模型完成任务的程度的一种度量指标。例如，假设你的任务是阅读用户在智能手机上输入的单词的头几个字母，并提供可能的完整单词列表。该任务的困惑度（perplexity，P）是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。

困惑度和交叉熵的关系如下：

流程（pipeline）

机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型，以及最终输出模型。

正类（positive class）

在二元分类中，有两种类别：正类和负类。正类是我们测试的目标。（不过必须承认，我们同时测试两种结果，但其中一种不是重点。）例如，医疗测试中正类可能是「肿瘤」，电子邮件分类器中的正类可能是「垃圾邮件」。可与负类对照阅读。

精度（precision）

分类模型的一种指标。准确率指模型预测正类时预测正确的频率。即：

预测（prediction）

模型在输入样本后的输出结果。

预测偏差（prediction bias）

揭示预测的平均值与数据集中标签的平均值的差距。

预制评估器（pre-made Estimator）

已经构建好的评估器。TensorFlow 提供多个预制评估器，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。你可以根据指导（https://www.tensorflow.org/extend/estimators）构建自己的预制评估器。

预训练模型（pre-trained model）

已经训练好的模型或模型组件（如嵌入）。有时，你将预训练嵌入馈送至神经网络。其他时候，你的模型自行训练嵌入，而不是依赖于预训练嵌入。

先验信念（prior belief）

训练开始之前你对数据的信念。例如，L2 正则化依赖于权重值很小且正常分布在 0 周围的信念。

队列（queue）

实现队列数据结构的 TensorFlow 操作。通常在输入／输出（I/O）中使用。

秩（rank）

机器学习领域中包含多种含义的术语：

张量中的维度数量。比如，标量有 1 个秩，向量有 1 个秩，矩阵有 2 个秩。（注：在这个词汇表中，「秩」的概念和线性代数中「秩」的概念不一样，例如三阶可逆矩阵的秩为 3。）
机器学习问题中类别的序数位置，按从高到低的顺序给类别分类。比如，行为排序系统可以把狗的奖励按从高（牛排）到低（甘蓝）排序。

评分者（rater）

为样本提供标签的人，有时也叫「标注者」。

召回率（recall）

分类模型的一个指标，可以回答这个问题：模型能够准确识别多少正标签？即：

修正线性单元（Rectified Linear Unit/ReLU）

一种具备以下规则的激活函数：

如果输入为负或零，则输出为 0。
如果输入为正，则输出与输入相同。

回归模型（regression model）

一种输出持续值（通常是浮点数）的模型。而分类模型输出的是离散值，如「day lily」或「tiger lily」。

正则化（regularization）

对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类：

L1 正则化
L2 正则化
dropout 正则化
early stopping（这不是正式的正则化方法，但可以高效限制过拟合）

正则化率（regularization rate）

一种标量级，用 lambda 来表示，指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用：

minimize(loss function + λ(regularization function))

提高正则化率能够降低过拟合，但可能会使模型准确率降低。

表征

将数据映射到有用特征的过程。

受试者工作特征曲线（receiver operating characteristic/ROC Curve）

反映在不同的分类阈值上，真正类率和假正类率的比值的曲线。参见 AUC。

根目录（root directory）

指定放置 TensorFlow 检查点文件子目录和多个模型的事件文件的目录。

均方根误差（Root Mean Squared Error/RMSE）

均方误差的平方根。

Saver

负责存储模型检查点文件的 TensorFlow 对象。

缩放（scaling）

特征工程中常用的操作，用于控制特征值区间，使之与数据集中其他特征的区间匹配。例如，假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500，那么你可以通过将每个值除以 500，缩放特征值区间。还可参见正则化。

scikit-learn

一种流行的开源机器学习平台。网址：www.scikit-learn.org

序列模型（sequence model）

输入具有序列依赖性的模型。例如，根据之前观看过的视频序列对下一个视频进行预测。

会话（session）

保持 TensorFlow 程序的状态（如变量）。

Sigmoid 函数（sigmoid function）

把 logistic 或多项式回归输出（对数几率）映射到概率的函数，返回的值在 0 到 1 之间。sigmoid 函数的公式如下：

其中σ在 logistic 回归问题中只是简单的：

在有些神经网络中，sigmoid 函数和激活函数一样。

softmax

为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如，softmax 可能检测到某个图像是一只狗的概率为 0.9，是一只猫的概率为 0.08，是一匹马的概率为 0.02。（也叫作 full softmax）。

稀疏特征（sparse feature）

值主要为 0 或空的特征向量。比如，一个向量的值有 1 个 1,、一百万个 0，则该向量为稀疏向量。再比如，搜索查询中的单词也是稀疏向量：在一种语言中有很多可以用的单词，但给定的查询中只用了其中的一些。

可与稠密特征对照阅读。

平方损失（squared loss）

线性回归中使用的损失函数（也叫作 L2 Loss）。该函数计算模型对标注样本的预测值和标签真正值之间差的平方。在平方之后，该损失函数扩大了不良预测的影响。即，平方损失比 L1 Loss 对异常值（outlier）的反应更加强烈。

静态模型（static model）

离线训练的模型。

稳态（stationarity）

数据集中的一种数据属性，数据分布在一或多个维度中保持不变。通常情况下，维度是时间，意味着具备平稳性的数据不会随着时间发生变化。比如，具备平稳性的数据从 9 月到 12 月不会改变。

步（step）

一个批量中的前向和后向评估。

步长（step size）

学习速率（learning rate）乘以偏导数的值，即梯度下降中的步长。

随机梯度下降（stochastic gradient descent/SGD）

批量大小为 1 的梯度下降算法。也就是说，SGD 依赖于从数据集中随机均匀选择出的一个样本，以评估每一步的梯度。

结构风险最小化（structural risk minimization/SRM）

这种算法平衡两个目标：

构建预测性最强的模型（如最低损失）。
使模型尽量保持简单（如强正则化）。

比如，在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息，参见 http://www.svms.org/srm/。可与经验风险最小化对照阅读。

摘要（summary）

在 TensorFlow 中，特定步计算的值或值的集合，通常用于跟踪训练过程中的模型指标。

监督式机器学习（supervised machine learning）

利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后，学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。

合成特征（synthetic feature）

不在输入特征中，而是从一个或多个输入特征中派生出的特征。合成特征的类型包括：

特征与自己或其他特征相乘（叫作特征交叉）。
两个特征相除。
将连续的特征放进 range bin 中。

由归一化或缩放单独创建的特征不是合成特征。

张量（tensor）

TensorFlow 项目的主要数据结构。张量是 N 维数据结构（N 的值很大），经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。

张量处理单元（Tensor Processing Unit，TPU）

优化 TensorFlow 性能的 ASIC（application-specific integrated circuit，专用集成电路）。

张量形状（Tensor shape）

张量的元素数量包含在不同维度中。比如，[5, 10] 张量在一个维度中形状为 5，在另一个维度中形状为 10。

张量大小（Tensor size）

张量包含的标量总数。比如，[5, 10] 张量的大小就是 50。

TensorBoard

展示一个或多个 TensorFlow 项目运行过程中保存的摘要数据的控制面板。

TensorFlow

大型分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基础 API 层，支持数据流图上的通用计算。

尽管 TensorFlow 主要用于机器学习，但是它也适用于要求使用数据流图进行数值运算的非机器学习任务。

TensorFlow Playground

一个可以看到不同超参数对模型（主要是神经网络）训练的影响的平台。前往 http://playground.tensorflow.org，使用 TensorFlow Playground。

TensorFlow Serving

帮助训练模型使之可部署到产品中的平台。

测试集（test set）

数据集的子集。模型经过验证集初步测试之后，使用测试集对模型进行测试。可与训练集和验证集对照阅读。

tf.Example

一种标准 protocol buffer，用于描述机器学习模型训练或推断的输入数据。

训练（training）

确定组成模型的完美参数的流程。

训练集（training set）

数据集子集，用于训练模型。可与验证集和测试集对照阅读。

真负类（true negative，TN）

被模型正确地预测为负类的样本。例如，模型推断某封电子邮件不是垃圾邮件，然后该电邮真的不是垃圾邮件。

真正类（true positive，TP）

被模型正确地预测为正类的样本。例如，模型推断某封电子邮件是垃圾邮件，结果该电邮真的是垃圾邮件。

真正类率（true positive rate，TP rate）

召回率（recall）的同义词。即：

TruePositiveRate=TruePositives/(TruePositives+FalseNegatives)

真正类率是 ROC 曲线的 y 轴。

无标签样本（unlabeled example）

包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中，通常使用无标签样本。

无监督机器学习（unsupervised machine learning）

训练一个模型寻找数据集（通常是无标签数据集）中的模式。

无监督机器学习最常用于将数据分成几组类似的样本。例如，无监督机器学习算法可以根据音乐的各种属性聚类数据。用这种方式收集的数据可以作为其他机器学习算法（如音乐推荐服务）的输入。聚类在难以获取真正标签的情景中非常有用。例如，在反欺诈和反滥用的情景中，聚类可以帮助人类更好地理解数据。

无监督机器学习的另一个例子是主成分分析（principal component analysis，PCA）。如，将 PCA 应用于包含数百万购物车内容的数据集中时，就有可能发现有柠檬的购物车往往也有解酸剂。可与监督式机器学习对照阅读。

验证集（validation set）

数据集的一个子集（与训练集不同），可用于调整超参数。可与训练集和测试集对照阅读。

权重（weight）

线性模型中的特征系数，或者深度网络中的边缘。线性模型的训练目标是为每个特征确定一个完美的权重。如果权重为 0，则对应的特征对模型而言是无用的。

宽模型（wide model）

线性模型通常具备很多稀疏输入特征。我们称之为「宽」模型，因其具有大量与输出节点直接连接的输入，是一种特殊类型的神经网络。宽模型通常比深度模型更容易调试（debug）和检查。尽管宽模型无法通过隐藏层表达非线性，但它们可以使用特征交叉和 bucketization 等转换用不同方式对非线性建模。可与深度模型对照阅读。

原文链接：https://developers.google.com/machine-learning/glossary

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。