十问机器学习

2017 年 10 月 12 日 美团技术团队

点击上方蓝字可以订阅哦

本文中的问题精选自上期【你问我答】——深度学习专题中读者的提问。【你问我答】是由美团点评技术团队推出的线上问答服务，你在工作学习中遇到的各种技术问题，都可以通过我们微信公众号发问，我们5000+工程师会义务为你解答，欢迎大家踊跃提问。高质量、定义清晰的问题会优先获得解答。

Q1：您好，有一个问题想请教一下。这里有一批用户的App行为数据，但是有些存在缺失，怎样从相对完整的用户行为数据中，推断出用户缺失的那部分行为数据？思路是怎样的？

A：如果缺失的用户行为数据是数值型，可以建立预测缺失数据的模型，用已有数据训练模型，然后预测结果填充；如果不是，比如埋点统计的用户操作行为之类的，可以通过统计已有数据的分布规律，用随机函数+规则去填充。

Q2：第一，想问下特征提取以及如何删除一些无用的特征。第二，美团点评都使用了哪些推荐系统算法？

A：1. 特征提取的关键在于理解业务数据和业务逻辑，这样才能分析出哪些因素与预测目标相关，另外某些场景还需要对原始特征进行特定的数学变换才能更好地应用。特征筛选可采用的策略比较多，比如树模型、L1正则化等等，主流工具是XGBoost。

2. 美团点评的推荐系统里，召回主要是融合协同过滤、位置、搜索查询、实时用户行为等算法。排序主要采用Learning to Rank技术。

Q3：机器学习的最优新手路程是什么，有没有一套标准的书的栏目？

A：建议看李航的《统计学习方法》打好基础，配合视频coursra《Machine Learning》。喜欢看视频的同学可以看下台大林轩田的两套视频。

之后，开始找一些简单的竞赛题目（基础的点击预估）练手，推荐工具：pandas，sklearn。

Q4：机器学习模型筛选特征一般怎么做？

A：我了解到的筛选特征有两大类，第一类是用固定的评价指标衡量特征对数据的描述能力，例如使用ID3决策树对数据进行分类，就能利用IC3内部的信息增益机制知道哪些特征能够很好的区分数据（信息增益最大），然后用筛选出的特征子集放到自己的模型里训练；第二类是利用模型的反馈来筛选特征，例如向初始为空的特征子集中不断添加能够最大提高模型预测能力的特征，直到添加的特征对模型的预测能力几乎没有提升为止。同样逐步删除特征是该类方法下另一种比较常见的选择特征方式。两大类方法的区别是第一类速度快，但是缺少反馈，第二类结果比较好，但是速度太慢。

Q5：L1正则可以获得稀疏解的数学原理是什么？