【AI术语】机器之心开放人工智能专业词汇集

2017 年 11 月 13 日 产业智能官 机器之心

机器之心原创

机器之心编辑部


作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间,从无到有,机器之心的编译团队一直在积累专业词汇。虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步、一直在积累、一直在提高自己的专业性。


两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典。而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区、跨专业等等原因造成的。举个例子,DeepMind 的一篇论文中有个词汇为 differentiable boundary tree,当时机器之心的翻译为可微分界树,但后来有读者表示这样的译法如果不保留英文很难明白表达的意思且建议翻译为可微分边界树。


因此,我们想把机器之心内部积累的人工智能专业词汇中英对照表开放给大家,希望为大家写论文、中文博客、阅读文章提供帮助。同时,这也是一份开放的表单,希望越来越多的人能够提供增添、修改建议,为人工智能的传播助力。


项目地址:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology


组织形式




读者在此项目中,可通过以上表盘查看自己想要了解的专业词汇。在单个首字母中,表格的组织形式为:英文/缩写、汉语、来源&扩展。


来源&扩展是对该词汇的注解,内容为机器之心往期的相关文章。例如下图所示的「算法」,我们关联到的三篇文章是《回归、分类与聚类:三大方向剖解机器学习算法的优缺点》和《机器学习算法附速查表》和《深度学习算法全景图:从理论证明其正确性》。因此,我们希望不仅能提供相对应的术语,同时还希望能为读者提供每一个术语的来源和概念上的扩展。但由于这一部分工作量较大,我们还将与读者共同推进这一部分扩展的进程。




准确性


本项目中所有英文专业词汇对照的中文都来自机器之心编译的文章和系列机器学习教科书(如周志华的《机器学习》和李航的《统计学习方法》等),我们力求在提供准确翻译的同时保留最常用的形式。同时,为了保证词汇翻译的准确性,我们将此项目向读者开源,并希望能与读者共同迭代术语的准确度。除此之外,我们还将为每一个词汇提供来源与扩展进一步提升词汇的置信度。


机器之心术语编译标准


因为该项目很多术语都是机器之心平常编译文章所积累的,所以我们首先需要向读者说明机器之心术语编译的标准。


1. 常见术语的编译标准


机器之心常见术语的编译首先会确保术语的正确性,其次再考虑术语的传播广度。例如常见术语。logistic regression,首先机器之心会保证该术语的准确度。我们常见 logistic regression 会翻译为逻辑回归,但中文「逻辑」与 logistic 的含义还是有些差别,因此我们并不太倾向于采用这种译法。在准确度的基础上,我们会考虑术语的传播广度。例如有学者建议可以将 logistic regression 译为对数几率回归,但鉴于该译法的传播度不广,看到中文并不会马上检索到对应英文和概念,所以我们最终在常见术语编译标准下将 logistic regression 译为 logistical 回归。机器之心在对常见术语编译时并不会保留英文,也不会做进一步说明。


2. 非常见术语的编译标准


机器之心在编译技术文章或论文时,常常会遇到非常见的术语。因为像论文那样的文章是在特定领域下为解决特定问题而规范化书写的,所以就会存在较多的非常见的术语。而机器之心在编译非常见术语时,唯一的标准就是准确性,通常我们也会保留英文。因为非常见术语通常是数学、神经科学和物理学等领域上的专业术语,机器之心会尽可能地借鉴其他领域内的译法和意义而确定如何编译。例如 fixed-point theorem,在参考数学的情况下,我们会更倾向于译为不动点定理,fixed-point 译为不动点而不是定点。


3. 歧义术语的编译标准


还有很多术语其实是有歧义的,而对于这一类词,机器之心的编译标准会根据语义进行确定,因此也会有一些误差。例如 bias 在描述神经网络层级单元时可以译为偏置项。而在描述训练误差和与叉验证误差间的关系或学习曲线时,bias 可以译为偏差。这样的例子还有很多,比如 Stationary 在马尔可夫模型中可译为稳态分布(Stationary distribution),在最优化问题中可译为驻点(Stationary point),而在涉及博弈论或对抗性训练时,其又可能表达为静态。


以上是机器之心大概编译术语的标准,虽然我们在常用术语的编译上错误率相对较少,但在非常见术语和歧义术语上仍然会出现一些错误。尤其是在非常见术语的编译上,没有特定的背景知识很容易在编译上出现误差。因此我们希望能与读者共同加强术语的编译质量。


词汇更新


本词汇库目前拥有的专业词汇共计 500 个,主要为机器学习基础概念和术语,同时也是该项目的基本词汇。机器之心将继续完善术语的收录和扩展阅读的构建。词汇更新主要分为两个阶段,第一阶段机器之心将继续完善基础词汇的构建,即通过权威教科书或其它有公信力的资料抽取常见术语。第二阶段机器之心将持续性地把编译论文或其他资料所出现的非常见术语更新到词汇表中。


读者的反馈意见和更新建议将贯穿整个阶段,并且我们将在项目致谢页中展示对该项目起积极作用的读者。因为我们希望术语的更新更具准确度和置信度,所以我们希望读者能附上该术语的来源地址与扩展地址。因此,我们能更客观地更新词汇,并附上可信的来源与扩展。


Letter A


Accumulated error backpropagation

累积误差逆传播

Activation Function

激活函数

Adaptive Resonance Theory/ART

自适应谐振理论

Addictive model

加性学习

Adversarial Networks

对抗网络

Affine Layer

仿射层

Affinity matrix

亲和矩阵

Agent

代理 / 智能体

Algorithm

算法

Alpha-beta pruning

α-β剪枝

Anomaly detection

异常检测

Approximation

近似

Area Under ROC Curve/AUC

Roc 曲线下面积

Artificial General Intelligence/AGI

通用人工智能

Artificial Intelligence/AI

人工智能

Association analysis

关联分析

Attention mechanism

注意力机制

Attribute conditional independence assumption 

属性条件独立性假设

Attribute space

属性空间

Attribute value

属性值

Autoencoder

自编码器

Automatic speech recognition

自动语音识别

Automatic summarization

自动摘要

Average gradient

平均梯度

Average-Pooling

平均池化


Letter B


Backpropagation Through Time

通过时间的反向传播

Backpropagation/BP

反向传播

Base learner

基学习器

Base learning algorithm

基学习算法

Batch Normalization/BN

批量归一化

Bayes decision rule 

贝叶斯判定准则

Bayes Model Averaging/BMA

贝叶斯模型平均

Bayes optimal classifier

贝叶斯最优分类器

Bayesian decision theory

贝叶斯决策论

Bayesian network

贝叶斯网络

Between-class scatter matrix

类间散度矩阵

Bias

偏置 / 偏差

Bias-variance decomposition

偏差-方差分解

Bias-Variance Dilemma

偏差 - 方差困境

Bi-directional Long-Short Term Memory/Bi-LSTM

双向长短期记忆

Binary classification

二分类

Binomial test

二项检验

Bi-partition

二分法

Boltzmann machine

玻尔兹曼机

Bootstrap sampling

自助采样法/可重复采样/有放回采样

Bootstrapping

自助法

Break-Event Point/BEP

平衡点


Letter C


Calibration

校准

Cascade-Correlation

级联相关

Categorical attribute

离散属性

Class-conditional probability

类条件概率

Classification and regression tree/CART

分类与回归树

Classifier

分类器

Class-imbalance

类别不平衡

Closed -form

闭式

Cluster

簇/类/集群

Cluster analysis

聚类分析

Clustering

聚类

Clustering ensemble

聚类集成

Co-adapting

共适应

Coding matrix

编码矩阵

COLT

国际学习理论会议

Committee-based learning

基于委员会的学习

Competitive learning

竞争型学习

Component learner

组件学习器

Comprehensibility

可解释性

Computation Cost

计算成本

Computational Linguistics

计算语言学

Computer vision

计算机视觉

Concept drift

概念漂移

Concept Learning System /CLS

概念学习系统

Conditional entropy

条件熵

Conditional mutual information

条件互信息

Conditional Probability Table/CPT

条件概率表

Conditional random field/CRF

条件随机场

Conditional risk 

条件风险

Confidence

置信度

Confusion matrix

混淆矩阵

Connection weight

连接权

Connectionism

连结主义

Consistency

一致性/相合性

Contingency table

列联表

Continuous attribute

连续属性

Convergence

收敛

Conversational agent

会话智能体

Convex quadratic programming 

凸二次规划

Convexity

凸性

Convolutional neural network/CNN

卷积神经网络

Co-occurrence

同现

Correlation coefficient

相关系数

Cosine similarity

余弦相似度

Cost curve

成本曲线

Cost Function

成本函数

Cost matrix

成本矩阵

Cost-sensitive

成本敏感

Cross entropy

交叉熵

Cross validation

交叉验证

Crowdsourcing

众包

Curse of dimensionality

维数灾难

Cut point

截断点

Cutting plane algorithm 

割平面法


Letter D


Data mining

数据挖掘

Data set

数据集

Decision Boundary

决策边界

Decision stump

决策树桩

Decision tree

决策树/判定树

Deduction

演绎

Deep Belief Network

深度信念网络

Deep Convolutional Generative Adversarial Network/DCGAN

深度卷积生成对抗网络

Deep learning

深度学习

Deep neural network/DNN

深度神经网络

Deep Q-Learning

深度 Q 学习

Deep Q-Network

深度 Q 网络

Density estimation 

密度估计

Density-based clustering

密度聚类

Differentiable neural computer

可微分神经计算机

Dimensionality reduction algorithm

降维算法

Directed edge

有向边

Disagreement measure

不合度量

Discriminative model

判别模型

Discriminator

判别器

Distance measure

距离度量

Distance metric learning

距离度量学习

Distribution

分布

Divergence

散度

Diversity measure

多样性度量/差异性度量

Domain adaption

领域自适应

Downsampling

下采样

D-separation (Directed separation)

有向分离

Dual problem 

对偶问题

Dummy node

哑结点

Dynamic Fusion

动态融合

Dynamic programming

动态规划


Letter E


Eigenvalue decomposition

特征值分解

Embedding

嵌入

Emotional analysis

情绪分析

Empirical conditional entropy

经验条件熵

Empirical entropy

经验熵

Empirical error

经验误差

Empirical risk

经验风险

End-to-End

端到端

Energy-based model

基于能量的模型

Ensemble learning

集成学习

Ensemble pruning

集成修剪

Error Correcting Output Codes/ECOC

纠错输出码

Error rate

错误率

Error-ambiguity decomposition

误差-分歧分解

Euclidean distance

欧氏距离

Evolutionary computation 

演化计算

Expectation-Maximization

期望最大化

Expected loss 

期望损失

Exploding Gradient Problem

梯度爆炸问题

Exponential loss function 

指数损失函数

Extreme Learning Machine/ELM

超限学习机


Letter F


Factorization

因子分解

False negative

假负类

False positive

假正类

False Positive Rate/FPR

假正例率

Feature engineering

特征工程

Feature selection

特征选择

Feature vector

特征向量

Featured Learning

特征学习

Feedforward Neural Networks/FNN

前馈神经网络

Fine-tuning

微调

Flipping output

翻转法

Fluctuation

震荡

Forward stagewise algorithm

前向分步算法

Frequentist

频率主义学派

Full-rank matrix

满秩矩阵

Functional neuron

功能神经元


Letter G


Gain ratio

增益率

Game theory

博弈论

Gaussian kernel function

高斯核函数

Gaussian Mixture Model

高斯混合模型

General Problem Solving

通用问题求解

Generalization

泛化

Generalization error

泛化误差

Generalization error bound

泛化误差上界

Generalized Lagrange function

广义拉格朗日函数

Generalized linear model

广义线性模型

Generalized Rayleigh quotient

广义瑞利商

Generative Adversarial Networks/GAN

生成对抗网络

Generative Model

生成模型

Generator

生成器

Genetic Algorithm/GA

遗传算法

Gibbs sampling

吉布斯采样

Gini index

基尼指数

Global minimum

全局最小

Global Optimization

全局优化

Gradient boosting

梯度提升

Gradient Descent

梯度下降

Graph theory

图论

Ground-truth

真相/真实


Letter H


Hard margin 

硬间隔

Hard voting

硬投票

Harmonic mean

调和平均

Hesse matrix

海塞矩阵

Hidden dynamic model

隐动态模型

Hidden layer

隐藏层

Hidden Markov Model/HMM

隐马尔可夫模型

Hierarchical clustering

层次聚类

Hilbert space

希尔伯特空间

Hinge loss function

合页损失函数

Hold-out

留出法

Homogeneous

同质

Hybrid computing

混合计算

Hyperparameter

超参数

Hypothesis

假设

Hypothesis test

假设验证


Letter I


ICML

国际机器学习会议

Improved iterative scaling/IIS

改进的迭代尺度法

Incremental learning

增量学习

Independent and identically distributed/i.i.d.

独立同分布

Independent Component Analysis/ICA

独立成分分析

Indicator function

指示函数

Individual learner

个体学习器

Induction

归纳

Inductive bias

归纳偏好

Inductive learning

归纳学习

Inductive Logic Programming/ILP

归纳逻辑程序设计

Information entropy

信息熵

Information gain

信息增益

Input layer

输入层

Insensitive loss

不敏感损失

Inter-cluster similarity 

簇间相似度

International Conference for Machine Learning/ICML

国际机器学习大会

Intra-cluster similarity

簇内相似度

Intrinsic value

固有值

Isometric Mapping/Isomap

等度量映射

Isotonic regression

等分回归

Iterative Dichotomiser

迭代二分器


Letter K


Kernel method

核方法

Kernel trick

核技巧

Kernelized Linear Discriminant Analysis/KLDA 

核线性判别分析

K-fold cross validation

k 折交叉验证/k 倍交叉验证

K-Means Clustering

K - 均值聚类

K-Nearest Neighbours Algorithm/KNN

K近邻算法

Knowledge base

知识库

Knowledge Representation

知识表征


Letter L


Label space

标记空间

Lagrange duality

拉格朗日对偶性

Lagrange multiplier

拉格朗日乘子

Laplace smoothing

拉普拉斯平滑

Laplacian correction

拉普拉斯修正

Latent Dirichlet Allocation

隐狄利克雷分布

Latent semantic analysis

潜在语义分析

Latent variable

隐变量

Lazy learning 

懒惰学习

Learner

学习器

Learning by analogy

类比学习

Learning rate

学习率

Learning Vector Quantization/LVQ

学习向量量化

Least squares regression tree

最小二乘回归树

Leave-One-Out/LOO

留一法

linear chain conditional random field

线性链条件随机场

Linear Discriminant Analysis/LDA

线性判别分析

Linear model

线性模型

Linear Regression

线性回归

Link function

联系函数

Local Markov property

局部马尔可夫性

Local minimum

局部最小

Log likelihood

对数似然

Log odds/logit

对数几率

Logistic Regression

Logistic 回归

Log-likelihood

对数似然

Log-linear regression

对数线性回归

Long-Short Term Memory/LSTM

长短期记忆

Loss function

损失函数


Letter M


Machine translation/MT

机器翻译

Macron-P

宏查准率

Macron-R

宏查全率

Majority voting

绝对多数投票法

Manifold assumption

流形假设

Manifold learning

流形学习

Margin theory

间隔理论

Marginal distribution

边际分布

Marginal independence 

边际独立性

Marginalization 

边际化

Markov Chain Monte Carlo/MCMC

马尔可夫链蒙特卡罗方法

Markov Random Field

马尔可夫随机场

Maximal clique

最大团

Maximum Likelihood Estimation/MLE

极大似然估计/极大似然法

Maximum margin

最大间隔

Maximum weighted spanning tree

最大带权生成树

Max-Pooling

最大池化

Mean squared error

均方误差

Meta-learner

元学习器

Metric learning

度量学习

Micro-P

微查准率

Micro-R

微查全率

Minimal Description Length/MDL

最小描述长度

Minimax game

极小极大博弈

Misclassification cost

误分类成本

Mixture of experts

混合专家

Momentum

动量

Moral graph

道德图/端正图

Multi-class classification

多分类

Multi-document summarization

多文档摘要

Multi-layer feedforward neural networks

多层前馈神经网络

Multilayer Perceptron/MLP

多层感知器

Multimodal learning

多模态学习

Multiple Dimensional Scaling

多维缩放

Multiple linear regression

多元线性回归

Multi-response Linear Regression /MLR

多响应线性回归

Mutual information

互信息


Letter N


Naive bayes 

朴素贝叶斯

Naive Bayes Classifier

朴素贝叶斯分类器

Named entity recognition

命名实体识别

Nash equilibrium

纳什均衡

Natural language generation/NLG

自然语言生成

Natural language processing

自然语言处理

Negative class

负类

Negative correlation

负相关法

Negative Log Likelihood

负对数似然

Neighbourhood Component Analysis/NCA

近邻成分分析

Neural Machine Translation

神经机器翻译

Neural Turing Machine

神经图灵机

Newton method

牛顿法

NIPS

国际神经信息处理系统会议

No Free Lunch Theorem/NFL

没有免费的午餐定理

Noise-contrastive estimation

噪音对比估计

Nominal attribute

列名属性

Non-convex optimization

非凸优化

Nonlinear model

非线性模型

Non-metric distance

非度量距离

Non-negative matrix factorization

非负矩阵分解

Non-ordinal attribute 

无序属性

Non-Saturating Game

非饱和博弈

Norm

范数

Normalization

归一化

Nuclear norm

核范数

Numerical attribute

数值属性


Letter O


Objective function

目标函数

Oblique decision tree

斜决策树

Occam's razor

奥卡姆剃刀

Odds

几率

Off-Policy

离策略

One shot learning

一次性学习

One-Dependent Estimator/ODE

独依赖估计

On-Policy

在策略

Ordinal attribute

有序属性

Out-of-bag estimate

包外估计

Output layer

输出层

Output smearing

输出调制法

Overfitting

过拟合/过配

Oversampling

过采样


Letter P


Paired t-test

成对 t 检验

Pairwise

成对型

Pairwise Markov property

成对马尔可夫性

Parameter

参数

Parameter estimation

参数估计

Parameter tuning

调参

Parse tree

解析树

Particle Swarm Optimization/PSO

粒子群优化算法

Part-of-speech tagging

词性标注

Perceptron

感知机

Performance measure

性能度量

Plug and Play Generative Network

即插即用生成网络

Plurality voting

相对多数投票法

Polarity detection

极性检测

Polynomial kernel function

多项式核函数

Pooling

池化

Positive class

正类

Positive definite matrix

正定矩阵

Post-hoc test

后续检验

Post-pruning

后剪枝

potential function

势函数

Precision

查准率/准确率

Prepruning

预剪枝

Principal component analysis/PCA

主成分分析

Principle of multiple explanations

多释原则

Prior

先验

Probability Graphical Model

概率图模型

Proximal Gradient Descent/PGD

近端梯度下降

Pruning

剪枝

Pseudo-label

伪标记


Letter Q


Quantized Neural Network

量子化神经网络

Quantum computer

量子计算机

Quantum Computing

量子计算

Quasi Newton method

拟牛顿法


Letter R


Radial Basis Function/RBF

径向基函数

Random Forest Algorithm

随机森林算法

Random walk

随机漫步 

Recall

查全率/召回率

Receiver Operating Characteristic/ROC

受试者工作特征

Rectified Linear Unit/ReLU

线性修正单元

Recurrent Neural Network

循环神经网络

Recursive neural network

递归神经网络

Reference model 

参考模型

Regression

回归

Regularization

正则化

Reinforcement learning/RL

强化学习

Representation learning

表征学习

Representer theorem

表示定理

reproducing kernel Hilbert space/RKHS

再生核希尔伯特空间

Re-sampling

重采样法

Rescaling

再缩放

Residual Mapping

残差映射

Residual Network

残差网络

Restricted Boltzmann Machine/RBM

受限玻尔兹曼机

Restricted Isometry Property/RIP

限定等距性

Re-weighting

重赋权法

Robustness

稳健性/鲁棒性

Root node

根结点

Rule Engine

规则引擎

Rule learning

规则学习


Letter S


Saddle point

鞍点

Sample space

样本空间

Sampling

采样

Score function 

评分函数

Self-Driving

自动驾驶

Self-Organizing Map/SOM

自组织映射

Semi-naive Bayes classifiers 

半朴素贝叶斯分类器

Semi-Supervised Learning

半监督学习

semi-Supervised Support Vector Machine

半监督支持向量机

Sentiment analysis

情感分析

Separating hyperplane

分离超平面

Sigmoid function

Sigmoid 函数

Similarity measure

相似度度量

Simulated annealing

模拟退火

Simultaneous localization and mapping

同步定位与地图构建

Singular Value Decomposition

奇异值分解

Slack variables

松弛变量

Smoothing

平滑

Soft margin 

软间隔

Soft margin maximization

软间隔最大化

Soft voting

软投票

Sparse representation

稀疏表征

Sparsity

稀疏性

Specialization

特化

Spectral Clustering

谱聚类

Speech Recognition

语音识别

Splitting variable

切分变量

Squashing function

挤压函数

Stability-plasticity dilemma

可塑性-稳定性困境

Statistical learning

统计学习

Status feature function

状态特征函

Stochastic gradient descent

随机梯度下降

Stratified sampling

分层采样

Structural risk

结构风险

Structural risk minimization/SRM

结构风险最小化

Subspace

子空间

Supervised learning

监督学习/有导师学习

support vector expansion 

支持向量展式

Support Vector Machine/SVM

支持向量机

Surrogat loss

替代损失

Surrogate function

替代函数

Symbolic learning

符号学习

Symbolism

符号主义

Synset

同义词集


Letter T


T-Distribution Stochastic Neighbour Embedding/t-SNE

T - 分布随机近邻嵌入

Tensor

张量

Tensor Processing Units/TPU

张量处理单元

The least square method

最小二乘法

Threshold

阈值

Threshold logic unit

阈值逻辑单元

Threshold-moving

阈值移动

Time Step

时间步骤

Tokenization

标记化

Training error

训练误差

Training instance

训练示例/训练例

Transductive learning

直推学习

Transfer learning

迁移学习

Treebank

树库

Tria-by-error

试错法

True negative

真负类

True positive

真正类

True Positive Rate/TPR

真正例率

Turing Machine

图灵机

Twice-learning 

二次学习


Letter U


Underfitting

欠拟合/欠配

Undersampling

欠采样

Understandability

可理解性

Unequal cost

非均等代价

Unit-step function

单位阶跃函数

Univariate decision tree

单变量决策树

Unsupervised learning

无监督学习/无导师学习

Unsupervised layer-wise training

无监督逐层训练

Upsampling

上采样


Letter V


Vanishing Gradient Problem

梯度消失问题

Variational inference

变分推断

VC Theory

VC维理论

Version space

版本空间

Viterbi algorithm

维特比算法

Von Neumann architecture

冯 · 诺伊曼架构


Letter W


Wasserstein GAN/WGAN

Wasserstein生成对抗网络

Weak learner

弱学习器

Weight

权重

Weight sharing

权共享

Weighted voting

加权投票法

Within-class scatter matrix

类内散度矩阵

Word embedding

词嵌入

Word sense disambiguation

词义消歧


Letter Z


Zero-data learning

零数据学习

Zero-shot learning

零次学习




纵览机器学习基本词汇与概念


来源:机器之心

本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。之后,我们也将表内术语更新到了机器之心 GitHub 项目中。


机器之心人工智能术语项目:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology


A


准确率(accuracy)


分类模型预测准确的比例。在多类别分类中,准确率定义如下:

在二分类中,准确率定义为:

激活函数(Activation function)


一种函数(例如 ReLU 或 Sigmoid),将前一层所有神经元激活值的加权和输入到一个非线性函数中,然后向下一层传递该函数的输出值(典型的非线性)。


AdaGrad


一种复杂的梯度下降算法,重新调节每个参数的梯度,高效地给每个参数一个单独的学习率。详见论文:http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf。


AUC(曲线下面积)


一种考虑到所有可能的分类阈值的评估标准。ROC 曲线下面积代表分类器随机预测真正类(Ture Positives)要比假正类(False Positives)概率大的确信度。


B


反向传播(Backpropagation)


神经网络中完成梯度下降的重要算法。首先,在前向传播的过程中计算每个节点的输出值。然后,在反向传播的过程中计算与每个参数对应的误差的偏导数。


基线(Baseline)


被用为对比模型表现参考点的简单模型。基线帮助模型开发者量化模型在特定问题上的预期表现。


批量


模型训练中一个迭代(指一次梯度更新)使用的样本集。


批量大小(batch size)


一个批量中样本的数量。例如,SGD 的批量大小为 1,而 mini-batch 的批量大小通常在 10-1000 之间。批量大小通常在训练与推理的过程中确定,然而 TensorFlow 不允许动态批量大小。


偏置(bias)


与原点的截距或偏移量。偏置(也称偏置项)被称为机器学习模型中的 b 或者 w0。例如,偏置项是以下公式中的 b:y′=b+w_1x_1+w_2x_2+…w_nx_n。


注意不要和预测偏差混淆。


二元分类器(binary classification)


一类分类任务,输出两个互斥(不相交)类别中的一个。例如,一个评估邮件信息并输出「垃圾邮件」或「非垃圾邮件」的机器学习模型就是一个二元分类器。


binning/bucketing


根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征,称为 buckets 或者 bins。例如,将温度表示为单一的浮点特征,可以将温度范围切割为几个离散的 bins。假如给定的温度的敏感度为十分之一度,那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中,15.1 度到 30.0 度放入第二个 bin,30.1 度到 45.0 度放入第三个 bin。


C


标定层(calibration layer)


一种调整后期预测的结构,通常用于解释预测偏差。调整后的预期和概率必须匹配一个观察标签集的分布。


候选采样(candidate sampling)


一种优化训练时间的,使用 Softmax 等算法计算所有正标签的概率,同时只计算一些随机取样的负标签的概率。例如,有一个样本标记为「小猎兔狗」和「狗」,候选取样将计算预测概率,和与「小猎兔狗」和「狗」类别输出(以及剩余的类别的随机子集,比如「猫」、「棒棒糖」、「栅栏」)相关的损失项。这个想法的思路是,负类别可以通过频率更低的负强化(negative reinforcement)进行学习,而正类别经常能得到适当的正强化,实际观察确实如此。候选取样的动力是计算有效性从所有负类别的非计算预测的得益。


检查点(checkpoint)


在特定的时刻标记模型的变量的状态的数据。检查点允许输出模型的权重,也允许通过多个阶段训练模型。检查点还允许跳过错误继续进行(例如,抢占作业)。注意其自身的图式并不包含于检查点内。


类别(class)


所有同类属性的目标值作为一个标签。例如,在一个检测垃圾邮件的二元分类模型中,这两个类别分别是垃圾邮件和非垃圾邮件。而一个多类别分类模型将区分狗的种类,其中的类别可以是贵宾狗、小猎兔狗、哈巴狗等等。


类别不平衡数据集(class-imbalanced data set)


这是一个二元分类问题,其中两个类别的标签的分布频率有很大的差异。比如,一个疾病数据集中若 0.01% 的样本有正标签,而 99.99% 的样本有负标签,那么这就是一个类别不平衡数据集。但对于一个足球比赛预测器数据集,若其中 51% 的样本标记一队胜利,而 49% 的样本标记其它队伍胜利,那么这就不是一个类别不平衡数据集。


分类模型(classification)


机器学习模型的一种,将数据分离为两个或多个离散类别。例如,一个自然语言处理分类模型可以将一句话归类为法语、西班牙语或意大利语。分类模型与回归模型(regression model)成对比。


分类阈值(classification threshold)


应用于模型的预测分数以分离正类别和负类别的一种标量值标准。当需要将 logistic 回归的结果映射到二元分类模型中时就需要使用分类阈值。例如,考虑一个确定给定邮件为垃圾邮件的概率的 logistic 回归模型,如果分类阈值是 0.9,那么 logistic 回归值在 0.9 以上的被归为垃圾邮件,而在 0.9 以下的被归为非垃圾邮件。


混淆矩阵(confusion matrix)


总结分类模型的预测结果的表现水平(即,标签和模型分类的匹配程度)的 NxN 表格。混淆矩阵的一个轴列出模型预测的标签,另一个轴列出实际的标签。N 表示类别的数量。在一个二元分类模型中,N=2。例如,以下为一个二元分类问题的简单的混淆矩阵:



上述混淆矩阵展示了在 19 个确实为肿瘤的样本中,有 18 个被模型正确的归类(18 个真正),有 1 个被错误的归类为非肿瘤(1 个假负类)。类似的,在 458 个确实为非肿瘤的样本中,有 452 个被模型正确的归类(452 个真负类),有 6 个被错误的归类(6 个假正类)。


多类别分类的混淆矩阵可以帮助发现错误出现的模式。例如,一个混淆矩阵揭示了一个识别手写数字体的模型倾向于将 4 识别为 9,或者将 7 识别为 1。混淆矩阵包含了足够多的信息可以计算很多的模型表现度量,比如精度(precision)和召回(recall)率。


连续特征(continuous feature)


拥有无限个取值点的浮点特征。和离散特征(discrete feature)相反。


收敛(convergence)


训练过程达到的某种状态,其中训练损失和验证损失在经过了确定的迭代次数后,在每一次迭代中,改变很小或完全不变。换句话说就是,当对当前数据继续训练而无法再提升模型的表现水平的时候,就称模型已经收敛。在深度学习中,损失值下降之前,有时候经过多次迭代仍保持常量或者接近常量,会造成模型已经收敛的错觉。


凸函数(concex function)


一种形状大致呈字母 U 形或碗形的函数。然而,在退化情形中,凸函数的形状就像一条线。例如,以下几个函数都是凸函数:


  • L2 损失函数

  • Log 损失函数

  • L1 正则化函数

  • L2 正则化函数


凸函数是很常用的损失函数。因为当一个函数有最小值的时候(通常就是这样),梯度下降的各种变化都能保证找到接近函数最小值的点。类似的,随机梯度下降的各种变化有很大的概率(虽然无法保证)找到接近函数最小值的点。


两个凸函数相加(比如,L2 损失函数+L1 正则化函数)后仍然是凸函数。


深度模型通常是非凸的。出乎意料的是,以凸优化的形式设计的算法通常都能在深度网络上工作的很好,虽然很少能找到最小值。


成本(cost)


loss 的同义词。


交叉熵(cross-entropy)


多类别分类问题中对 Log 损失函数的推广。交叉熵量化两个概率分布之间的区别。参见困惑度(perplexity)。


D


数据集(data set)


样本的集合。


决策边界(decision boundary)


在一个二元分类或多类别分类问题中模型学习的类别之间的分离器。例如,下图就展示了一个二元分类问题,决策边界即橙点类和蓝点类的边界。



深度模型(deep model)


一种包含多个隐藏层的神经网络。深度模型依赖于其可训练的非线性性质。和宽度模型对照(wide model)。


密集特征(dense feature)


大多数取值为非零的一种特征,通常用取浮点值的张量(tensor)表示。和稀疏特征(sparse feature)相反。


派生特征(derived feature)


合成特征(synthetic feature)的同义词。


离散特征(discrete feature)


只有有限个可能取值的一种特征。例如,一个取值只包括动物、蔬菜或矿物的特征就是离散(或类别)特征。和连续特征(continuous feature)对照。


dropout 正则化(dropout regularization)


训练神经网络时一种有用的正则化方法。dropout 正则化的过程是在单次梯度计算中删去一层网络中随机选取的固定数量的单元。删去的单元越多,正则化越强。


动态模型(dynamic model)


以连续更新的方式在线训练的模型。即数据连续不断的输入模型。


E


早期停止法(early stopping)


一种正则化方法,在训练损失完成下降之前停止模型训练过程。当验证数据集(validation data set)的损失开始上升的时候,即泛化表现变差的时候,就该使用早期停止法了。


嵌入(embeddings)


一类表示为连续值特征的明确的特征。嵌入通常指将高维向量转换到低维空间中。例如,将一个英语句子中的单词以以下任何一种方式表示:


  • 拥有百万数量级(高维)的元素的稀疏向量,其中所有的元素都是整数。向量的每一个单元表示一个单独的英语单词,单元中的数字表示该单词在一个句子中出现的次数。由于一个句子中的单词通常不会超过 50 个,向量中几乎所有的单元都是 0。少量的非零的单元将取一个小的整数值(通常为 1)表示句子中一个单词的出现次数。

  • 拥有数百个(低维)元素的密集向量,其中每一个元素取 0 到 1 之间的浮点数。


在 TensorFlow 中,嵌入是通过反向传播损失训练的,正如神经网络的其它参量一样。


经验风险最小化(empirical risk minimization,ERM)


选择能最小化训练数据的损失的模型函数的过程。和结构风险最小化(structual risk minimization)对照。


集成(ensemble)


多个模型预测的综合考虑。可以通过以下一种或几种方法创建一个集成方法:


  • 设置不同的初始化;

  • 设置不同的超参量;

  • 设置不同的总体结构。


深度和广度模型是一种集成。


评估器(Estimator)


 tf.Estimator 类的一个例子,封装 logic 以建立一个 TensorFlow 图并运行一个 TensorFlow session。你可以通过以下方式创建自己的评估器:https://www.tensorflow.org/extend/estimators


样本(example)


一个数据集的一行内容。一个样本包含了一个或多个特征,也可能是一个标签。参见标注样本(labeled example)和无标注样本(unlabeled example)。


F


假负类(false negative,FN)


被模型错误的预测为负类的样本。例如,模型推断一封邮件为非垃圾邮件(负类),但实际上这封邮件是垃圾邮件。


假正类(false positive,FP)


被模型错误的预测为正类的样本。例如,模型推断一封邮件为垃圾邮件(正类),但实际上这封邮件是非垃圾邮件。


假正类率(false positive rate,FP rate)


ROC 曲线(ROC curve)中的 x 轴。FP 率的定义是:假正率=假正类数/(假正类数+真负类数)


特征(feature)


输入变量,用于做出预测。


特征列(feature columns/FeatureColumn)


具有相关性的特征的集合,比如用户可能居住的所有可能的国家的集合。一个样本的一个特征列中可能会有一个或者多个特征。


TensorFlow 中的特征列还可以压缩元数据比如下列情况:


  • 特征的数据类型;

  • 一个特征是固定长度的或应该转换为嵌入。

  • 一个特征列可以仅包含一个特征。「特征列」是谷歌专用的术语。在 VW 系统(Yahoo/Microsoft)中特征列的意义是「命名空间」(namespace),或者场(field)。


特征交叉(feature cross)


将特征进行交叉(乘积或者笛卡尔乘积)运算后得到的合成特征。特征交叉有助于表示非线性关系。


特征工程(feature engineering)


在训练模型的时候,决定哪些特征是有用的,然后将记录文件和其它来源的原始数据转换成上述特征的过程。在 TensorFlow 中特征工程通常意味着将原始记录文件输入 tf.Example 协议缓存中。参见 tf.Transform。特征工程有时候也称为特征提取。


特征集(feature set)


机器学习模型训练的时候使用的特征群。比如,邮政编码,面积要求和物业状况可以组成一个简单的特征集,使模型能预测房价。


特征定义(feature spec)


描述所需的信息从 tf.Example 协议缓存中提取特征数据。因为 tf.Example 协议缓存只是数据的容器,必须明确以下信息:


  • 需要提取的数据(即特征的关键信息)

  • 数据类型(比如,浮点数还是整数)

  • 数据长度(固定的或者变化的)


Estimator API 提供了从一群特征列中生成一个特征定义的工具。


完全 softmax(full softmax)


参见 softmax。和候选采样对照。


G


泛化(generalization)


指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。


广义线性模型(generalized linear model)


最小二乘回归模型的推广/泛化,基于高斯噪声,相对于其它类型的模型(基于其它类型的噪声,比如泊松噪声,或类别噪声)。广义线性模型的例子包括:


  • logistic 回归

  • 多分类回归

  • 最小二乘回归


广义线性模型的参数可以通过凸优化得到,它具有以下性质:


  • 最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。

  • 最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。


广义线性模型的能力局限于其特征的性质。和深度模型不同,一个广义线性模型无法「学习新的特征」。


梯度(gradient)


所有变量的偏导数的向量。在机器学习中,梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。


梯度截断(gradient clipping)


在应用梯度之前先修饰数值,梯度截断有助于确保数值稳定性,防止梯度爆炸出现。


梯度下降(gradient descent)


通过计算模型的相关参量和损失函数的梯度最小化损失函数,值取决于训练数据。梯度下降迭代地调整参量,逐渐靠近权重和偏置的最佳组合,从而最小化损失函数。


图(graph)


在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的,表示传递一个操作(一个张量)的结果(作为一个操作数)给另一个操作。使用 TensorBoard 能可视化计算图。


H


启发式(heuristic)


一个问题的实际的和非最优的解,但能从学习经验中获得足够多的进步。


隐藏层(hidden layer)


神经网络中位于输入层(即特征)和输出层(即预测)之间的合成层。一个神经网络包含一个或多个隐藏层。


折页损失函数(Hinge loss)


损失函数的一个类型,用于分类模型以寻找距离每个样本的距离最大的决策边界,即最大化样本和边界之间的边缘。KSVMs 使用 hinge 损失函数(或相关的函数,比如平方 hinge 函数)。在二元分类中,hinge 损失函数按以下方式定义:


loss=max(0,1−(y′∗y))


其中 y'是分类器模型的列输出:


y′=b+w_1x_1+w_2x_2+…w_nx_n


y 是真实的标签,-1 或+1。


因此,hinge 损失将是下图所示的样子:

测试数据(holdout data)


有意不用于训练的样本。验证数据集(validation data set)和测试数据集(test data set)是测试数据(holdout data)的两个例子。测试数据帮助评估模型泛化到除了训练数据之外的数据的能力。测试集的损失比训练集的损失提供了对未知数据集的损失更好的估计。


超参数(hyperparameter)


连续训练模型的过程中可以拧动的「旋钮」。例如,相对于模型自动更新的参数,学习率(learning rate)是一个超参数。和参量对照。


I


独立同分布(independently and identically distributed,i.i.d)


从不会改变的分布中获取的数据,且获取的每个值不依赖于之前获取的值。i.i.d. 是机器学习的理想情况——一种有用但在现实世界中几乎找不到的数学构建。例如,网页访客的分布可能是短暂时间窗口上的 i.i.d;即分布不会在该时间窗口发生改变,每个人的访问都与其他人的访问独立。但是,如果你扩展了时间窗口,则会出现网页访客的季节性差异。


推断(inference)


在机器学习中,通常指将训练模型应用到无标注样本来进行预测的过程。在统计学中,推断指在观察到的数据的基础上拟合分布参数的过程。


输入层(input layer)


神经网络的第一层(接收输入数据)。


评分者间一致性(inter-rater agreement)


用来衡量一项任务中人类评分者意见一致的指标。如果意见不一致,则任务说明可能需要改进。有时也叫标注者间信度(inter-annotator agreement)或评分者间信度(inter-rater reliability)。


K


Kernel 支持向量机(Kernel Support Vector Machines/KSVM)


一种分类算法,旨在通过将输入数据向量映射到更高维度的空间使正类和负类之间的边际最大化。例如,考虑一个输入数据集包含一百个特征的分类问题。为了使正类和负类之间的间隔最大化,KSVM 从内部将特征映射到百万维度的空间。KSVM 使用的损失函数叫作 hinge 损失。


L


L1 损失函数(L1 loss)


损失函数基于模型对标签的预测值和真实值的差的绝对值而定义。L1 损失函数比起 L2 损失函数对异常值的敏感度更小。


L1 正则化(L1 regularization)


一种正则化,按照权重绝对值总和的比例进行惩罚。在依赖稀疏特征的模型中,L1 正则化帮助促使(几乎)不相关的特征的权重趋近于 0,从而从模型中移除这些特征。


L2 损失(L2 loss)


参见平方损失。


L2 正则化(L2 regularization)


一种正则化,按照权重平方的总和的比例进行惩罚。L2 正则化帮助促使异常值权重更接近 0 而不趋近于 0。(可与 L1 正则化对照阅读。)L2 正则化通常改善线性模型的泛化效果。


标签(label)


在监督式学习中,样本的「答案」或「结果」。标注数据集中的每个样本包含一或多个特征和一个标签。比如,在房屋数据集中,特征可能包括卧室数量、卫生间数量、房龄,而标签可能就是房子的价格。在垃圾邮件检测数据集中,特征可能包括主题、发出者何邮件本身,而标签可能是「垃圾邮件」或「非垃圾邮件」。


标注样本(labeled example)


包含特征和标签的样本。在监督式训练中,模型从标注样本中进行学习。


lambda


正则化率的同义词。(该术语有多种含义。这里,我们主要关注正则化中的定义。)


层(layer)


神经网络中的神经元序列,可以处理输入特征序列或神经元的输出。


它也是 TensorFlow 的一种抽象化概念。层是将张量和配置选项作为输入、输出其他张量的 Python 函数。一旦必要的张量出现,用户就可以通过模型函数将结果转换成估计器。


学习率(learning rate)


通过梯度下降训练模型时使用的一个标量。每次迭代中,梯度下降算法使学习率乘以梯度,乘积叫作 gradient step。


学习率是一个重要的超参数。


最小二乘回归(least squares regression)


通过 L2 损失最小化进行训练的线性回归模型。


线性回归(linear regression)


对输入特征的线性连接输出连续值的一种回归模型。


logistic 回归(logistic regression)


将 sigmoid 函数应用于线性预测,在分类问题中为每个可能的离散标签值生成概率的模型。尽管 logistic 回归常用于二元分类问题,但它也用于多类别分类问题(这种情况下,logistic 回归叫作「多类别 logistic 回归」或「多项式 回归」。


对数损失函数(Log Loss)


二元 logistic 回归模型中使用的损失函数。


损失


度量模型预测与标签距离的指标,它是度量一个模型有多糟糕的指标。为了确定损失值,模型必须定义损失函数。例如,线性回归模型通常使用均方差作为损失函数,而 logistic 回归模型使用对数损失函数。


M


机器学习(machine learning)


利用输入数据构建(训练)预测模型的项目或系统。该系统使用学习的模型对与训练数据相同分布的新数据进行有用的预测。机器学习还指与这些项目或系统相关的研究领域。


均方误差(Mean Squared Error/MSE)


每个样本的平均平方损失。MSE 可以通过平方损失除以样本数量来计算。TensorFlow Playground 展示「训练损失」和「测试损失」的值是 MSE。


小批量(mini-batch)


在训练或推断的一个迭代中运行的整批样本的一个小的随机选择的子集。小批量的大小通常在 10 到 1000 之间。在小批量数据上计算损失比在全部训练数据上计算损失要高效的多。


小批量随机梯度下降(mini-batch stochastic gradient descent)


使用小批量的梯度下降算法。也就是,小批量随机梯度下降基于训练数据的子集对 梯度进行评估。Vanilla SGD 使用 size 为 1 的小批量。


模型(model)


机器学习系统从训练数据中所学内容的表示。该术语有多个含义,包括以下两个相关含义:


  • TensorFlow 图,显示如何计算预测的结构。

  • TensorFlow 图的特定权重和偏差,由训练决定。


模型训练(model training)


确定最佳模型的过程。


动量(Momentum)


一种复杂的梯度下降算法,其中的学习步不只依赖于当前步的导数,还依赖于先于它的步。动量包括随着时间计算梯度的指数加权移动平均数,类似于物理学中的动量。动量有时可以阻止学习陷于局部最小值。


多类别(multi-class)


在多于两类的类别中进行分类的分类问题。例如,有约 128 种枫树,那么分类枫树品种的模型就是多类别的。反之,把电子邮件分成两个类别(垃圾邮件和非垃圾邮件)的模型是二元分类器模型。


N


NaN trap


训练过程中,如果模型中的一个数字变成了 NaN,则模型中的很多或所有其他数字最终都变成 NaN。NaN 是「Not a Number」的缩写。


负类(negative class)


在二元分类中,一个类别是正类,另外一个是负类。正类就是我们要找的目标,负类是另外一种可能性。例如,医疗测试中的负类可能是「非肿瘤」,电子邮件分类器中的负类可能是「非垃圾邮件」。


神经网络(neural network)


该模型从大脑中获取灵感,由多个层组成(其中至少有一个是隐藏层),每个层包含简单的连接单元或神经元,其后是非线性。


神经元(neuron)


神经网络中的节点,通常输入多个值,生成一个输出值。神经元通过将激活函数(非线性转换)应用到输入值的加权和来计算输出值。


归一化(normalization)


将值的实际区间转化为标准区间的过程,标准区间通常是-1 到+1 或 0 到 1。例如,假设某个特征的自然区间是 800 到 6000。通过减法和分割,你可以把那些值标准化到区间-1 到+1。参见缩放。


numpy


Python 中提供高效数组运算的开源数学库。pandas 基于 numpy 构建。


O


目标(objective)


算法尝试优化的目标函数。


离线推断(offline inference)


生成一组预测并存储,然后按需检索那些预测。可与在线推断对照阅读。


one-hot 编码(one-hot encoding)


一个稀疏向量,其中:


  • 一个元素设置为 1。

  • 所有其他的元素设置为 0。


独热编码常用于表示有有限可能值集合的字符串或标识符。例如,假设一个记录了 15000 个不同品种的植物数据集,每一个用独特的字符串标识符来表示。作为特征工程的一部分,你可能将那些字符串标识符进行独热编码,每个向量的大小为 15000。


一对多(one-vs.-all)


给出一个有 N 个可能解决方案的分类问题,一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。例如,一个模型将样本分为动物、蔬菜或矿物,则一对多的解决方案将提供以下三种独立的二元分类器:


  • 动物和非动物

  • 蔬菜和非蔬菜

  • 矿物和非矿物


在线推断(online inference)


按需生成预测。可与离线推断对照阅读。


运算(Operation/op)


TensorFlow 图中的一个节点。在 TensorFlow 中,任何创建、控制或损坏张量的步骤都是运算。例如,矩阵乘法是一个把两个张量作为输入、生成一个张量作为输出的运算。


优化器(optimizer)


梯度下降算法的特定实现。TensorFlow 的基类优化器是 tf.train.Optimizer。不同的优化器(tf.train.Optimizer 的子类)对应不同的概念,如:


  • 动量(Momentum)

  • 更新频率(AdaGrad = ADAptive GRADient descent;Adam = ADAptive with Momentum;RMSProp)

  • 稀疏性/正则化(Ftrl)

  • 更复杂的数学(Proximal 及其他)


你甚至可以想象 NN-driven optimizer。


异常值(outlier)


与大多数值差别很大的值。在机器学习中,下列都是异常值:


  • 高绝对值的权重。

  • 与实际值差距过大的预测值。

  • 比平均值多大约 3 个标准差的输入数据的值。


异常值往往使模型训练中出现问题。


输出层(output layer)


神经网络的「最后」一层。这一层包含整个·模型所寻求的答案。


过拟合(overfitting)


创建的模型与训练数据非常匹配,以至于模型无法对新数据进行正确的预测。


P


pandas


一种基于列的数据分析 API。很多机器学习框架,包括 TensorFlow,支持 pandas 数据结构作为输入。参见 pandas 文档。


参数(parameter)


机器学习系统自行训练的模型的变量。例如,权重是参数,它的值是机器学习系统通过连续的训练迭代逐渐学习到的。可与超参数对照阅读。


参数服务器(Parameter Server/PS)


用于在分布式设置中跟踪模型参数。


参数更新(parameter update)


在训练过程中调整模型参数的操作,通常在梯度下降的单个迭代中进行。


偏导数(partial derivative)


一个多变量函数的偏导数是它关于其中一个变量的导数,而保持其他变量恒定。例如,f(x, y) 对于 x 的偏导数就是 f(x) 的导数,y 保持恒定。x 的偏导数中只有 x 是变化的,公式中其他的变量都不用变化。


分区策略(partitioning strategy)


在多个参数服务器中分割变量的算法。


性能(performance)


具有多种含义:


  • 在软件工程中的传统含义:软件运行速度有多快/高效?

  • 在机器学习中的含义:模型的准确率如何?即,模型的预测结果有多好?


困惑度(perplexity)


对模型完成任务的程度的一种度量指标。例如,假设你的任务是阅读用户在智能手机上输入的单词的头几个字母,并提供可能的完整单词列表。该任务的困惑度(perplexity,P)是为了列出包含用户实际想输入单词的列表你需要进行的猜测数量。


困惑度和交叉熵的关系如下:


流程(pipeline)


机器学习算法的基础架构。管道包括收集数据、将数据放入训练数据文件中、训练一或多个模型,以及最终输出模型。


正类(positive class)


在二元分类中,有两种类别:正类和负类。正类是我们测试的目标。(不过必须承认,我们同时测试两种结果,但其中一种不是重点。)例如,医疗测试中正类可能是「肿瘤」,电子邮件分类器中的正类可能是「垃圾邮件」。可与负类对照阅读。


精度(precision)


分类模型的一种指标。准确率指模型预测正类时预测正确的频率。即:


预测(prediction)


模型在输入样本后的输出结果。


预测偏差(prediction bias)


揭示预测的平均值与数据集中标签的平均值的差距。


预制评估器(pre-made Estimator)


已经构建好的评估器。TensorFlow 提供多个预制评估器,包括 DNNClassifier、DNNRegressor 和 LinearClassifier。你可以根据指导(https://www.tensorflow.org/extend/estimators)构建自己的预制评估器。


预训练模型(pre-trained model)


已经训练好的模型或模型组件(如嵌入)。有时,你将预训练嵌入馈送至神经网络。其他时候,你的模型自行训练嵌入,而不是依赖于预训练嵌入。


先验信念(prior belief)


训练开始之前你对数据的信念。例如,L2 正则化依赖于权重值很小且正常分布在 0 周围的信念。


Q


队列(queue)


实现队列数据结构的 TensorFlow 操作。通常在输入/输出(I/O)中使用。


R


秩(rank)


机器学习领域中包含多种含义的术语:


  • 张量中的维度数量。比如,标量有 1 个秩,向量有 1 个秩,矩阵有 2 个秩。(注:在这个词汇表中,「秩」的概念和线性代数中「秩」的概念不一样,例如三阶可逆矩阵的秩为 3。)

  • 机器学习问题中类别的序数位置,按从高到低的顺序给类别分类。比如,行为排序系统可以把狗的奖励按从高(牛排)到低(甘蓝)排序。


评分者(rater)


为样本提供标签的人,有时也叫「标注者」。


召回率(recall)


分类模型的一个指标,可以回答这个问题:模型能够准确识别多少正标签?即:


修正线性单元(Rectified Linear Unit/ReLU)


一种具备以下规则的激活函数:


  • 如果输入为负或零,则输出为 0。

  • 如果输入为正,则输出与输入相同。


回归模型(regression model)


一种输出持续值(通常是浮点数)的模型。而分类模型输出的是离散值,如「day lily」或「tiger lily」。


正则化(regularization)


对模型复杂度的惩罚。正则化帮助防止过拟合。正则化包括不同种类:


  • L1 正则化

  • L2 正则化

  • dropout 正则化

  • early stopping(这不是正式的正则化方法,但可以高效限制过拟合)


正则化率(regularization rate)


一种标量级,用 lambda 来表示,指正则函数的相对重要性。从下面这个简化的损失公式可以看出正则化率的作用:


minimize(loss function + λ(regularization function))


提高正则化率能够降低过拟合,但可能会使模型准确率降低。


表征


将数据映射到有用特征的过程。


受试者工作特征曲线(receiver operating characteristic/ROC Curve)


反映在不同的分类阈值上,真正类率和假正类率的比值的曲线。参见 AUC。


根目录(root directory)


指定放置 TensorFlow 检查点文件子目录和多个模型的事件文件的目录。


均方根误差(Root Mean Squared Error/RMSE)


均方误差的平方根。


S


Saver


负责存储模型检查点文件的 TensorFlow 对象。


缩放(scaling)


特征工程中常用的操作,用于控制特征值区间,使之与数据集中其他特征的区间匹配。例如,假设你想使数据集中所有的浮点特征的区间为 0 到 1。给定一个特征区间是 0 到 500,那么你可以通过将每个值除以 500,缩放特征值区间。还可参见正则化。


scikit-learn


一种流行的开源机器学习平台。网址:www.scikit-learn.org


序列模型(sequence model)


输入具有序列依赖性的模型。例如,根据之前观看过的视频序列对下一个视频进行预测。


会话(session)


保持 TensorFlow 程序的状态(如变量)。


Sigmoid 函数(sigmoid function)


把 logistic 或多项式回归输出(对数几率)映射到概率的函数,返回的值在 0 到 1 之间。sigmoid 函数的公式如下:



其中σ在 logistic 回归问题中只是简单的:



在有些神经网络中,sigmoid 函数和激活函数一样。


softmax


为多类别分类模型中每个可能的类提供概率的函数。概率加起来的总和是 1.0。例如,softmax 可能检测到某个图像是一只狗的概率为 0.9,是一只猫的概率为 0.08,是一匹马的概率为 0.02。(也叫作 full softmax)。


稀疏特征(sparse feature)


值主要为 0 或空的特征向量。比如,一个向量的值有 1 个 1,、一百万个 0,则该向量为稀疏向量。再比如,搜索查询中的单词也是稀疏向量:在一种语言中有很多可以用的单词,但给定的查询中只用了其中的一些。

可与稠密特征对照阅读。


平方损失(squared loss)


线性回归中使用的损失函数(也叫作 L2 Loss)。该函数计算模型对标注样本的预测值和标签真正值之间差的平方。在平方之后,该损失函数扩大了不良预测的影响。即,平方损失比 L1 Loss 对异常值(outlier)的反应更加强烈。


静态模型(static model)


离线训练的模型。


稳态(stationarity)


数据集中的一种数据属性,数据分布在一或多个维度中保持不变。通常情况下,维度是时间,意味着具备平稳性的数据不会随着时间发生变化。比如,具备平稳性的数据从 9 月到 12 月不会改变。


步(step)


一个批量中的前向和后向评估。


步长(step size)


学习速率(learning rate)乘以偏导数的值,即梯度下降中的步长。


随机梯度下降(stochastic gradient descent/SGD)


批量大小为 1 的梯度下降算法。也就是说,SGD 依赖于从数据集中随机均匀选择出的一个样本,以评估每一步的梯度。


结构风险最小化(structural risk minimization/SRM)


这种算法平衡两个目标:


  • 构建预测性最强的模型(如最低损失)。

  • 使模型尽量保持简单(如强正则化)。


比如,在训练集上的损失最小化 + 正则化的模型函数就是结构风险最小化算法。更多信息,参见 http://www.svms.org/srm/。可与经验风险最小化对照阅读。


摘要(summary)


在 TensorFlow 中,特定步计算的值或值的集合,通常用于跟踪训练过程中的模型指标。


监督式机器学习(supervised machine learning)


利用输入数据及其对应标签来训练模型。监督式机器学习类似学生通过研究问题和对应答案进行学习。在掌握问题和答案之间的映射之后,学生就可以提供同样主题的新问题的答案了。可与非监督机器学习对照阅读。


合成特征(synthetic feature)


不在输入特征中,而是从一个或多个输入特征中派生出的特征。合成特征的类型包括:


  • 特征与自己或其他特征相乘(叫作特征交叉)。

  • 两个特征相除。

  • 将连续的特征放进 range bin 中。


由归一化或缩放单独创建的特征不是合成特征。


T


张量(tensor)


TensorFlow 项目的主要数据结构。张量是 N 维数据结构(N 的值很大),经常是标量、向量或矩阵。张量可以包括整数、浮点或字符串值。


张量处理单元(Tensor Processing Unit,TPU)


优化 TensorFlow 性能的 ASIC(application-specific integrated circuit,专用集成电路)。


张量形状(Tensor shape)


张量的元素数量包含在不同维度中。比如,[5, 10] 张量在一个维度中形状为 5,在另一个维度中形状为 10。


张量大小(Tensor size)


张量包含的标量总数。比如,[5, 10] 张量的大小就是 50。


TensorBoard


展示一个或多个 TensorFlow 项目运行过程中保存的摘要数据的控制面板。


TensorFlow


大型分布式机器学习平台。该术语还指 TensorFlow 堆栈中的基础 API 层,支持数据流图上的通用计算。


尽管 TensorFlow 主要用于机器学习,但是它也适用于要求使用数据流图进行数值运算的非机器学习任务。


TensorFlow Playground


一个可以看到不同超参数对模型(主要是神经网络)训练的影响的平台。前往 http://playground.tensorflow.org,使用 TensorFlow Playground。


TensorFlow Serving


帮助训练模型使之可部署到产品中的平台。


测试集(test set)


数据集的子集。模型经过验证集初步测试之后,使用测试集对模型进行测试。可与训练集和验证集对照阅读。


tf.Example


一种标准 protocol buffer,用于描述机器学习模型训练或推断的输入数据。


训练(training)


确定组成模型的完美参数的流程。


训练集(training set)


数据集子集,用于训练模型。可与验证集和测试集对照阅读。


真负类(true negative,TN)


被模型正确地预测为负类的样本。例如,模型推断某封电子邮件不是垃圾邮件,然后该电邮真的不是垃圾邮件。


真正类(true positive,TP)


被模型正确地预测为正类的样本。例如,模型推断某封电子邮件是垃圾邮件,结果该电邮真的是垃圾邮件。


真正类率(true positive rate,TP rate)


召回率(recall)的同义词。即:


TruePositiveRate=TruePositives/(TruePositives+FalseNegatives)


真正类率是 ROC 曲线的 y 轴。


U


无标签样本(unlabeled example)


包含特征但没有标签的样本。无标签样本是推断的输入。在半监督学习和无监督学习的训练过程中,通常使用无标签样本。


无监督机器学习(unsupervised machine learning)


训练一个模型寻找数据集(通常是无标签数据集)中的模式。


无监督机器学习最常用于将数据分成几组类似的样本。例如,无监督机器学习算法可以根据音乐的各种属性聚类数据。用这种方式收集的数据可以作为其他机器学习算法(如音乐推荐服务)的输入。聚类在难以获取真正标签的情景中非常有用。例如,在反欺诈和反滥用的情景中,聚类可以帮助人类更好地理解数据。


无监督机器学习的另一个例子是主成分分析(principal component analysis,PCA)。如,将 PCA 应用于包含数百万购物车内容的数据集中时,就有可能发现有柠檬的购物车往往也有解酸剂。可与监督式机器学习对照阅读。


V


验证集(validation set)


数据集的一个子集(与训练集不同),可用于调整超参数。可与训练集和测试集对照阅读。


W


权重(weight)


线性模型中的特征系数,或者深度网络中的边缘。线性模型的训练目标是为每个特征确定一个完美的权重。如果权重为 0,则对应的特征对模型而言是无用的。


宽模型(wide model)


线性模型通常具备很多稀疏输入特征。我们称之为「宽」模型,因其具有大量与输出节点直接连接的输入,是一种特殊类型的神经网络。宽模型通常比深度模型更容易调试(debug)和检查。尽管宽模型无法通过隐藏层表达非线性,但它们可以使用特征交叉和 bucketization 等转换用不同方式对非线性建模。可与深度模型对照阅读。


原文链接:https://developers.google.com/machine-learning/glossary



人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链






长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


点击“阅读原文”,访问AI-CPS OS官网




本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com






登录查看更多
4

相关内容

机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
人工智能学习笔记,247页pdf
专知会员服务
182+阅读 · 2019年12月14日
【UMD开放书】机器学习课程书册,19章227页pdf,带你学习ML
知识点 | 全面理解支持向量机
机器学习算法与Python学习
9+阅读 · 2019年1月2日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
人工智能 | 深度学习机装机流程与体验
沈浩老师
7+阅读 · 2018年1月7日
机器之心开放人工智能专业词汇集(附Github地址)
Neural Arithmetic Logic Units
Arxiv
5+阅读 · 2018年8月1日
Arxiv
6+阅读 · 2018年4月4日
VIP会员
相关VIP内容
相关资讯
知识点 | 全面理解支持向量机
机器学习算法与Python学习
9+阅读 · 2019年1月2日
关于机器学习你要了解的 5 件事
机器学习算法与Python学习
7+阅读 · 2018年9月7日
最适合机器学习新手的10种算法
论智
9+阅读 · 2018年1月23日
人工智能 | 深度学习机装机流程与体验
沈浩老师
7+阅读 · 2018年1月7日
机器之心开放人工智能专业词汇集(附Github地址)
Top
微信扫码咨询专知VIP会员