KDD 2019高维稀疏数据上的深度学习Workshop论文汇总

2019 年 8 月 30 日 AINLP


导读:本文是“深度推荐系统”专栏的第九篇文章,这个系列将介绍在深度学习的强力驱动下,给推荐系统工业界所带来的最前沿的变化。本文简要总结一下阿里妈妈在KDD 2019上组织的第一届面向高维稀疏数据的深度学习实践Workshop[1]收录的论文。 
欢迎转载,转载请注明出处以及链接,更多关于深度推荐系统优质内容请关注如下频道。
知乎专栏:深度推荐系统 
微博:深度传送门 
公众号:深度传送门

今年阿里妈妈在KDD 2019上组织了第一届面向高维稀疏数据的深度学习实践Workshop(官网:https://dlp-kdd.github.io),看这个名字就知道极具推荐、广告领域工业界的大规模深度学习色彩。虽然这次收录的论文主要是来自阿里巴巴和中国高校,但毕竟是基于工业界大规模实际场景需求出发组织的研讨会还是可以多多见识下大家讨论的一些topic和idea。也借此祝愿这样的研讨会举办得更多一些,越来越有含金量越来越有影响力。

User Behavior Understanding

1. (Best Paper Award) An End-to-End Neighborhood-based Interaction Model for Knowledge-enhanced Recommendation
作者:Yanru Qu, Ting Bai, Weinan Zhang, Jianyun Nie and Jian Tang;
论文:t.cn/AiQwCNck;代码:t.cn/AiQgYOrI

提出KNI模型引入KG以及GNN更好地学习用户-item之间复杂的结构交互模式,解决CTR预估中数据稀疏与冷启动问题,效果好于WDL和DKN等。并开源了代码。

2. Collaborative Filtering via Learning Characteristics of Neighborhood based on Convolutional Neural Networks
作者:Yugang Jia, Xin Wang, Jinting Zhang
论文:t.cn/Ai8PIxvF

借助CNN抽取临近item的特征,更好地学习用户-item之间的隐式关系来提升CF类算法的准确性。效果好于NCF等。

3. Attention-based Mixture Density Recurrent Networks for History-based Recommendation
作者:Tian Wang, Kyunghyun Cho and Musen Wen
论文:t.cn/Ai8hcGut

提出引入注意力机制的RNN网络来建模基于向量表示的用户历史,动态预测用户的点击、购买行为等。效果主要和经典的ICF、IMF等在两大公开数据集上进行了对比有明显提升。

4. Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
作者:Qiwei Chen, Huan Zhao, Wei Li, Pipei Huang and Wenwu Ou
论文:t.cn/Ai8hSGwk

将Transformer的自注意力结构引入推荐系统中典型的MLP+embedding网络结构中,在淘宝线上CTR预估任务中效果好于WDL和DIN等。

5. Click-Through Rate Prediction with the User Memory Network
作者:Wentao Ouyang, Xiuwu Zhang, Shukui Ren, Li Li, Zhaojie Liu and Yanlong Du
论文:t.cn/AiW9R5PL;代码:t.cn/AiW9R5Pq

提出MA-DNN(Memory Augmented DNN)综合考虑CTR预估工业界性能与效率的折中,既像DNN简单,又能像RNN针对用户复杂历史行为进行建模。主要是为每个用户新增了两个记忆向量来对用户喜欢和不喜欢的概率进行建模,效果好于WDL并开源了代码。

6. A unified Neural Network Approach to e-Commerce Relevance Learning
作者:Yunjiang Jiang, Yue Shang, Rui Li, Wen-Yun Yang, Guoyu Tang, Chaoyi Ma, Yun Xiao and Eric Zhao
论文:t.cn/Ai8hOzRe

来自京东的研究者们提出一种普适的前向网络框架预测query和item的相关性,同时引进了多项优化手段Siamese pairwise框架、随机负样本Batch训练以及pointwise调优等,效果好于DSSM和GBDT等。

Representation Learning for High-dimensional Sparse Data

7. Pairwise Multi-Layer Nets for Learning Distributed Representation of Multi-field Categorical Data
作者:Ying Wen, Tianyao Chen, Jun Wang and Weinan Zhang
论文:t.cn/Ai8htYEM;代码:t.cn/Ai8h3mWq

提出一种基于Pairwise多层网络来学习多值类别特征的表示方法。针对每一个类别特征的每一个离散field都学习一个低维向量,然后依靠网络门学习特征内和特征间的交互。在CTR预估任务中,效果好于FNN和PNN等。

8. Learning over Categorical Data using Counting Features
作者:Xuyang Wu, Xinyang Gao, Weinan Zhang, Rui Luo and Jun Wang
论文:t.cn/Ai8hkttg

针对目前多值类别特征的one-hot编码的诸多问题提出一种新颖的counting features方式,在CTR预估任务中具有更好的泛化能力。

9. Learning Job Representation Using Directed Graph Embedding
作者:Haiyan Luo, Yu Sun, Anand Joseph Bernard Selvaraj and Shichuan Ma
论文:t.cn/Ai8hFbGi

提出仿照经典的Graph Embedding方式从用户的job转换历史构图学习job的的Embedding表示,效果好于skip-gram等。

Embedding techniques

10. Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling
作者:Guorui Zhou, Kailun Wu, Weijie Bian, Xiaoqiang Zhu and Kun Gai
论文:t.cn/Ai87wZyp

针对CTR预估任务中经典的Embedding&MLP结构中Embedding表示学习泛化能力差的问题提出了一种叫做res-embedding的方式。由两部分构成:一部分是基于item的兴趣图学习的central embedding;另一部分是相对小维度的residual embedding。

11. SuperChat: Dialogue Generation by Transfer Learning from Vision to Language using Two-dimensional Word Embedding
作者:Baohua Sun, Lin Yang, Michael Lin, Charles Young, Jason Dong, Wenhan Zhang and Patrick Dong
论文:t.cn/Ai87UMHa

借助文本分类中Super Characters的两维embedding方式,应用在会话生成当中。

Auto feature selection

12. Automatic Feature Engineering From Very High Dimensional Event Logs Using Deep Neural Networks
作者:Kai Hu, Joey Wang, Yong Liu and Datong Chen
论文:t.cn/Ai87bepi

提出Midway NN网络针对高维事件日志进行自动特征工程。MNN将特定窗口的输入特征向量转换为稠密的中间特征表示并进行缓存,供增量学习和预测。实验证明可以减少人工参与,以及节省训练和预测的耗时。

Scalable, Distributed and Parallel Training System for Deep Learning

13. XDL: An Industrial Deep Learning Framework for High-dimensional Sparse Data
作者:Biye Jiang, Chao Deng, Huimin Yi, Zelin Hu, Guorui Zhou, Buting Ma, Yang Zheng, Sui Huang, Xinyang Guo, Dongyue Wang, Yue Song, Liqin Zhao, Zhi Wang, Peng Sun, Yu Zhang, Di Zhang, Jinhui Li, Jian Xu, Xiaoqiang Zhu and Kun Gai
论文:t.cn/Ai87tBXC

阿里妈妈自研的面向推荐、广告领域高维稀疏数据的深度学习框架XDL。

Anomaly detection

14. An Adaptive Approach for Anomaly Detector Selection and Fine-tuning in Time Series
作者:Hui Ye, Xiaopeng Ma, Qingfeng Pan, Huaqiang Fang, Hang Xiang and Tongzhen Shao
论文:t.cn/Ai87cpbF

15. AMAD: Adversarial Multiscale Anomaly Detection on High-Dimensional and Time-Evolving Categorical Data
作者:Zheng G, Zheng Gao, Lin Guo, Chi Ma, Xiao Ma, Kai Sun, Hang Xiang, Xiaoqiang Zhu, Hongsong Li and Xiaozhong Liu
论文:t.cn/Ai87c3SC

参考

  1. The 1st International Workshop on Deep Learning Practice for High-Dimensional Sparse Data with KDD 2019 (DLP-KDD 2019)


相关文章:

推荐召回算法之深度召回模型串讲

鸟枪换炮,如何在推荐中发挥AI Lab开源中文词向量的威力?

一文看懂AutoEncoder模型演进图谱

最新!五大顶会2019必读的深度推荐系统与CTR预估相关的论文

一文看懂GAN演进图谱

Youtube推荐已经上线RL了,强化学习在推荐广告工业界大规模应用还远吗?

深度推荐系统与CTR预估2019年上半年值得精读的论文

Google最新论文,首次引入自动网络设计高效解决大规模深度推荐模型的特征嵌入问题

登录查看更多
0

相关内容

在数据库中,稀疏数据是指在二维表中含有大量空值的数据;即稀疏数据是指,在数据集中绝大多数数值缺失或者为零的数据。稀疏数据绝对不是无用数据,只不过是信息不完全,通过适当的手段是可以挖掘出大量有用信息。
近期必读的五篇KDD 2020【图神经网络 (GNN) 】相关论文_Part2
专知会员服务
159+阅读 · 2020年6月30日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
CVPR 2018 论文解读(部分)
计算机视觉战队
5+阅读 · 2018年5月8日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
Arxiv
3+阅读 · 2018年12月21日
Arxiv
7+阅读 · 2018年1月10日
VIP会员
相关VIP内容
近期必读的五篇KDD 2020【图神经网络 (GNN) 】相关论文_Part2
专知会员服务
159+阅读 · 2020年6月30日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
近期必读的6篇顶会WWW2020【推荐系统】相关论文-Part3
专知会员服务
57+阅读 · 2020年4月14日
近期必读的5篇顶会WWW2020【推荐系统】相关论文-Part2
专知会员服务
69+阅读 · 2020年4月7日
近期必读的12篇KDD 2019【图神经网络(GNN)】相关论文
专知会员服务
62+阅读 · 2020年1月10日
六篇 CIKM 2019 必读的【图神经网络(GNN)】长文论文
专知会员服务
37+阅读 · 2019年11月3日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
87+阅读 · 2019年10月21日
相关资讯
干货 | 为你解读34篇ACL论文
数据派THU
8+阅读 · 2018年6月7日
CVPR 2018 论文解读(部分)
计算机视觉战队
5+阅读 · 2018年5月8日
干货 | 深度学习论文汇总
AI科技评论
4+阅读 · 2018年1月1日
Top
微信扫码咨询专知VIP会员