AAAI 20 | 微信提出个性和情绪集成的注意力音乐推荐模型PEIA

2020 年 10 月 29 日 AINLP


论文:PEIA: Personality and Emotion Integrated Attentive Model for Music Recommendation on Social Media Platforms

地址:https://hcsi.cs.tsinghua.edu.cn/Paper/Paper20/AAAI20-SHENTIANCHENG.pdf

来源:https://zhuanlan.zhihu.com/p/265168967

0.摘要:针对音乐推荐和社交媒体推荐设计的模型(PEIA),该模型利用用户长期行为(个性化)和短期行为(情绪)。它充分利用了面向个性的用户特征,面向情感的用户特征以及多面属性的音乐特征。提取用户表示时使用分层注意力机制。NDCG达到了0.5369。

1.问题:(1)由于社交媒体数据非常复杂,如何有效捕获有用信息以进行深入的用户建模?(2)由于问题涉及多方面的特征,如何对所有这些特征进行用户-音乐相关性建模,以及如何自适应地区分最重要的因素?

然后,作者深入研究了特征贡献,并探讨了用户特征与音乐偏好之间的相关性。进一步提出了一种人格和情感综合注意力模型(PEIA)来分别应对挑战。(1)除了简单的ID外,作者还通过提取个性化和情感化特征,涉及人口统计,文本和社会行为属性来全面分析每个用户。对于每个音乐曲目,还考虑其声学特征,元数据,歌词和情感。(2)我们采用深层次的框架来整合所有功能,并采用分层注意力来评估不同功能交互的重要性,以及用户长期口味(个性)和短期权重的权重偏好(情感)。

2.数据:

采集2017.10到2018.4的171,254个用户和35,993首歌曲,共18,508,966次交互。(1)用户同一天听同一首歌多次只算一次。(2)每个用户至少10次记录。(3)每首歌至少有10个用户听过。

针对这些用户,还收集了相应的46,575,922条推文,120,322,771个社交互动,96,451,009条文章阅读记录等,以进行深入的用户建模。关于隐私问题,腾讯对数据进行匿名化和匿名化处理,无法找到特定的用户。

2.1用户个性特征:

使用提取的指标来获得面向个性的多维特征,以进行深度模型学习。

2.1.1受众特征

提取每个用户的性别,年龄和地理位置。由于在微信中实名认证是强制性的,因此此类人口统计特征相对可靠。

2.1.2文本特征

微信用户经常在Moments中发布推文,他们在此直接用附带的文本表达自己。使用结巴中文文本分割处理文本内容,并作为长期表示,使用Gensim提取100维Doc2Vec特征。

2.1.3社会行为特征

社交互动是微信中的一个核心问题,其中支持各种社交行为。提取联系人数量,推文数量和社交互动(例如评论和喜欢)的频率,以评估用户的社交参与度。由于隐私问题,未收集详细的社交关系和互动内容。还对发布的时间分布进行了研究,以反映日程安排。

2.1.4文章阅读特征

文章阅读行为是用户个人兴趣的重要指标,我们定义了23个主题(例如体育,互联网,美容和时尚),使用FastText训练文本分类器以计算文章主题,计算每个用户在23个主题维度中的阅读频率。

2.2情感用户特征

为了平衡情绪的及时性和数据的充分性,时间窗口设置为24小时。

2.2.1时间特征

分别以(早上,下午,晚上和午夜)和一周(工作日和周末)来对用户与音乐的交互进行统计。

2.2.2情绪向量

使用DUTIR中文情绪识别工具,针对用户推文的文本提取2维,7维和21维的向量拼接到一起组成30维用户情感向量。(2,7,21为DUTIR给定的维度),如果在对应时间窗口内没有推文(占17.8%)则使用整体情绪向量平均来填充。


2.3音乐特征

虽然每个音乐有其独特的id,但是这样表示太过模糊,因此用过分析声学特征,元数据,歌词和情感等全面分析某个曲目。

2.3.1 Metadata

该特征十分重要,对于每个音乐曲目,都会考虑其作者,流派,语言和发行年份。仅出现在一个曲目中的作者被合并为“其他”作者,并且最终涉及3721个独特的作者。

2.3.2 声学特征

在这项工作中,使用openSMILE,这是一种开源多媒体特征提取器,用于提取“ emobase”的988维声学特征集。具体来说,提取低级描述符(LLD,例如强度,响度,MFCC,音高),计算增量系数并应用几个函数(例如范围,均值,偏度,峰度)。

2.3.3 歌词特征

通过分析歌词来研究音乐曲目的语义信息。使用百度翻译器将所有歌词翻译成中文,使用jieba进行文本分割,并使用Gensim提取100维Doc2Vec特征。

2.3.4 情绪特征

使用与用户情绪特征相同的做法获取30维向量,对于缺失值训练线性回归模型获取缺失值向量。

3.模型

3.1 分层注意力特征提取

特征组包括P.E.M三个领域(个性特征,情绪特征,音乐特征)。每个领域特征包括ID类和Dense类特征:

先将其映射到d-维。

每个组之间的特征交叉使用hadamard积:

其中第一行是长期偏好,第二行是短期偏好。

注意力机制进行加权求和:

举个例子:

Pi = [a,b,c] Mk = [x,y,z]

Lik = [ax,by,cz]

对于L,S这两个矩阵,算注意力机制做weight sum。获得到长短期Latt和Satt的向量表示。再对Latt和Satt算weight sum得到Zatt

3.2 高阶交叉(深度模型)

将p`,e`,m`,拼接入DNN:

最终结果加上了LR输入,Zatt和DNN输出:

损失函数:交叉熵加L2正则。对于每个正样本,随机选取用户没听过的音乐作为负样本,训练时每个epoch正样本对应的负样本都不同。

4.实验结果

4.1对比实验

4.2分析特征重要性与注意力机制

4.3从统计角度和个人角度探讨用户特征与音乐偏好之间的相关性。

可以得出结论,与年轻人相比,老年人更喜欢高音调和有节奏的音轨,这些音轨的F0值较高且交叉率为零。性别差异在其他声学特征中没有预期的那么重要。


由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

欢迎加入广告/推荐技术交流群
进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注推荐or广告技术

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏

登录查看更多
0

相关内容

【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
【CIKM2020】推荐系统的神经模板解释生成
专知会员服务
33+阅读 · 2020年9月9日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
IJCAI2020论文:上下文在神经机器翻译中的充分利用
深度学习自然语言处理
5+阅读 · 2020年7月21日
微信"看一看"个性化推荐:排序篇
DataFunTalk
4+阅读 · 2020年7月21日
论文浅尝 | 推荐系统的可解释性浅谈
开放知识图谱
15+阅读 · 2018年11月27日
推荐|网易云音乐分析之推荐算法
人人都是产品经理
10+阅读 · 2018年2月26日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
5+阅读 · 2019年10月11日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
6+阅读 · 2018年3月28日
VIP会员
相关VIP内容
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
应用知识图谱的推荐方法与系统
专知会员服务
115+阅读 · 2020年11月23日
【KDD2020】 解决基于图神经网络的会话推荐中的信息损失
专知会员服务
31+阅读 · 2020年10月29日
【CIKM2020】推荐系统的神经模板解释生成
专知会员服务
33+阅读 · 2020年9月9日
基于旅游知识图谱的可解释景点推荐
专知会员服务
90+阅读 · 2020年9月4日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
Top
微信扫码咨询专知VIP会员