动态 | 谷歌发布TensorFlow Lattice：得益于先验知识，提升模型泛化能力

2017 年 10 月 12 日 AI科技评论 Non

AI科技评论消息：近日，谷歌科学家发布TensorFlow Lattice，这是一套预建的TensorFlow Estimators，易于使用，它相当于是TensorFlow运算符，用来构建点阵模型（lattice model）。点阵是多维插值查找表（look-up table），与几何教材背面近似于正弦函数的查找表类似。

AI科技评论编译整理如下：

我们利用查找表的结构（它可以通过多个输入进行键控），来估计比较随意及灵活的关系，并满足于指定的单调关系，以便更好地泛化。也就是说，训练查找表值使得训练样例的损失最小化。另外，查找表中的相邻值被约束为在输入空间的给定方向上增长，因此模型的输出值也是在这些方向上增长。重要的是，因为是在查找表值之间进行插入，所以点阵模型很平滑，预测也是有界的，这有助于避免测试阶段出现有较大偏差的杂散预测。

点阵模型的作用

设想一下，你正在设计一个向用户推荐附近咖啡店的系统，你需要让模型学习：“如果两家咖啡店是一样的，那就选择更近一点的。”

下图中我们展示了一个灵活的模型(粉色曲线)，它可以精确地与来自东京用户的训练数据（紫色圆点）相匹配，在用户附近有很多咖啡店。

由于训练样例比较嘈杂，可以看到粉色曲线模型产生了过拟合，并且模型还忽略了总的趋势——越近的咖啡店越好。如果用这条粉色曲线模型排列来自德克萨斯州(蓝色)的测试样本，在德克萨斯州咖啡店的分布更加分散，你会发现模型的表现变得很奇怪，有时甚至会认为更远的咖啡店更好！

对比起来，运用东京相同的样本训练的点阵模型能被约束为满足单调关系，最终得到一个灵活的单调函数（绿色曲线）。这个函数能与东京的训练样例精准匹配，但是也能泛化到德克萨斯州的样例上，不会出现更远的咖啡店更好的情况。

一般说来，输入会有每个咖啡店的咖啡质量、价格等等。灵活模型很难捕捉到这种形式的整体关系，特别是在一些特征空间中，训练数据非常稀疏和杂乱。“如果其他所有输入占的权重一样，那么更近就更好。”能捕捉到先验知识（例如输入是怎么对预测值产生影响的）的机器学习模型在实际中取得的效果更好，更易于调试并更具有解释性。

预建 Estimators

我们提供一系列点阵模型架构作为TensorFlow Estimators。我们提供的最简单的estimator是校准线性模型（calibrated linear model），它能利用1-d点阵，学习到每个特征的最佳1-d转化，然后线性地将所有校准特征结合起来。如果训练数据集很小或没有复杂的非线性输入交互，模型将非常有效。

另外一个estimator是校准点阵模型（calibrated lattice model），这个模型能利用两层单一点阵模型非线性地将校准特征结合起来，能在数据集中表示复杂的非线性交互。如果有2-10个特征，那么校准点阵模型会是很好的选择，但对于10个或10个以上的特征，我们认为利用一组校准点阵将会得到最佳结果，这时候你能利用预建的一组架构来进行训练。比起随机森林，单调点阵集合（Monotonic lattice ensembles）能增加0.3% -- 0.5%的准确度。另外，比起之前顶尖的单调性学习模型，这些新的TensorFlow点阵estimator 能增加0.1% -- 0.4%的准确度。

动手建立模型

你或许想要用更深的点阵网络进行实验，或者利用部分单调函数（作为深度神经网络或其他TensorFlow架构的一部分）来进行研究。我们提供构件：TensorFlow校准运算符、点阵插入和单调性投影（monotonicity projections）。下图是一个9层深度点阵网络：

在TensorFlow Lattice中，除了模型的灵活选择以及标准的L1、L2正则化，我们还提供新的正则化矩阵：

如上面描述的那样，在输入上进行单调性约束。
在点阵上进行拉普拉斯正则化，以便让学习到的函数更平滑。
对扭曲进行正则化（Torsion regularization），来抑止不必要的非线性特征交互。

大家可以在如下地址看到详细信息并开始进行实验：

GitHub地址：https://github.com/tensorflow/lattice

tutorials地址：https://github.com/tensorflow/lattice/blob/master/g3doc/tutorial/index.md

参考文献：

[1] Lattice Regression, Eric Garcia, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2009

[2] Optimized Regression for Efficient Function Evaluation, Eric Garcia, Raman Arora, Maya R. Gupta, IEEE Transactions on Image Processing, 2012

[3] Monotonic Calibrated Interpolated Look-Up Tables, Maya Gupta, Andrew Cotter, Jan Pfeifer, Konstantin Voevodski, Kevin Canini, Alexander Mangylov, Wojciech Moczydlowski, Alexander van Esbroeck, Journal of Machine Learning Research (JMLR), 2016

[4] Fast and Flexible Monotonic Functions with Ensembles of Lattices, Mahdi Milani Fard, Kevin Canini, Andrew Cotter, Jan Pfeifer, Maya Gupta, Advances in Neural Information Processing Systems (NIPS), 2016

[5] Deep Lattice Networks and Partial Monotonic Functions, Seungil You, David Ding, Kevin Canini, Jan Pfeifer, Maya R. Gupta, Advances in Neural Information Processing Systems (NIPS), 2017

via：Google Research Blog

————— AI 科技评论招人啦！ —————

我们诚招学术编辑 1 名（全职，坐标北京）

你即将从事的工作内容：

报道海内外人工智能相关学术会议，形成具有影响力的报道内容；
采访高校学术青年领袖，输出人工智能领域的深度观点；
跟进国内外学术热点，深入剖析学术动态；

我们希望你是这样的小伙伴：

英语好，有阅读英文科技网站的习惯；
兴趣广，对人工智能有关注及了解；
态度佳，有求知欲，善于学习；

欢迎发送简历到 guoyixin@leiphone.com

————— 给爱学习的你的福利 —————

3个月，从无人问津到年薪30万的秘密究竟是什么？答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升，让你的职业生涯更有竞争力！长按识别下方二维码（或阅读原文戳开链接）抵达课程详细介绍~

————————————————————

登录查看更多

相关内容

查找表

关注 0

在计算机科学中，查找表是一个用更简单的数组索引操作代替运行时计算的数组。在处理时间方面的节省是可观的，因为从存储器中检索值通常比进行“昂贵”的计算或输入/输出操作要快。这些表可以预先计算并存储在静态程序存储中，作为程序初始化阶段（内存化）的一部分进行计算（或“预取”），甚至可以存储在特定于应用程序平台中的硬件中。查找表还广泛用于通过与数组中的有效（或无效）项列表进行匹配来验证输入值，并且在某些编程语言中，查找表可能包含指针函数（或标签偏移量）以处理匹配的输入。 FPGA还广泛使用可重新配置的，硬件实现的查找表，以提供可编程的硬件功能。

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日