搜索和推荐中的精度和召回(recall)分别是什么意思?

2019 年 4 月 10 日 七月在线实验室


今日面试题分享

搜索和推荐中的精度和召回(recall)分别是什么意思?


解析:


精度/精确率,和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。


其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;

召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。


一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。


正确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先:


    1. 精确率 = 提取出的正确信息条数 /  提取出的信息条数     

    2. 召回率 = 提取出的正确信息条数 /  样本中的信息条数    


顺便说一句,如果两者取值在0和1之间,数值越接近1,查准率或查全率就越高。比如定义:F值  = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)




这就好比推荐系统根据你的喜好,推荐了10个商品,其中真正相关的是5个商品。在所有商品当中,相关的商品一共有20个,那么

k精度 = 5 / 10

k召回 = 5 / 20


咱们再看下先第二个例子。比如搜:北京大学,有三个网页被搜索到了:

a. 北京大学保安考上研究生

b. 北京互联网工作招聘

c. 大学生活是什么样的


其中只有a是被正确搜索到的,其他两个其实是和用户搜索词无关,而事实上数据库里还有这种网页:

d. 北大开学季

e. 未名湖的景色


这两个没被搜索到,但d、e和“北京大学”的相关度是超过b、c的,也就是应该被搜索(被召回)到的却没有显示在结果里,即:

精确率 =   (a)  /  (a + b + c)

召回率 =   (a)  /  (a + d + e)


不妨再看第三个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:


代表查准率的正确率 = 700 / (700 + 200 + 100) = 70%

代表查全率的召回率 = 700 / 1400 = 50%

F值 = 70% * 50% * 2 / (70% + 50%) = 58.3%


不妨看看如果把池子里的所有的鲤鱼、虾和鳖都一网打尽,这些指标又有何变化:


正确率 = 1400 / (1400 + 300 + 300) = 70%

召回率 = 1400 / 1400 = 100%

F值 = 70% * 100% * 2 / (70% + 100%) = 82.35%        


由此可见,正确率是评估捕获的成果中目标成果所占得比例;召回率,顾名思义,就是从关注领域中,召回目标类别的比例;而F值,则是综合这二者指标的评估指标,用于综合反映整体的指标。


当然希望检索结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。比如极端情况下,我们只搜索出了一个结果,且是准确的,那么Precision就是100%,但是Recall就很低;而如果我们把所有结果都返回,那么比如Recall是100%,但是Precision就会很低。因此在不同的场合中需要自己判断希望Precision比较高或是Recall比较高。如果是做实验研究,可以绘制Precision-Recall曲线来帮助分析。



题目来源:七月在线官网(www.julyedu.com)——面试题库——面试大题——推荐系统


END




今日学习推荐


推荐系统就业班 第二期


BAT大咖小班教学


定制学习路线


简历与项目定制   面试辅导与内推


保就业 保高薪 先就业 后付费 


咨询/报名/组团可添加微信客服

julyedukefu_02


扫描下方二维码

免费试听


长按识别二维码




金融风控面试十二问

一次面试让你知道数据结构与算法对前端的重要性

3句话告诉你薪资高到没朋友的数据科学职位到底是干啥的?

一文详解:什么是B树?

机器学习中的数学基础(微积分和概率统计)

34个最优秀好用的Python开源框架

【实战分享】电影推荐系统项目实战应用

Python打牢基础,从19个语法开始!


扫描下方二维码  关注:七月在线实验室 

后台回复:100   免费领取【机器学习面试100题】

后台回复:干货 免费领取全体系人工智能学习资料

后台回复: 领资料  免费领取全套【NLP工程师必备干货资料】

▼更多精彩推荐,请关注我们▼
把时间交给学习
“阅读原文”我们一起进步
在看点一下
登录查看更多
0

相关内容

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习
专知会员服务
83+阅读 · 2020年6月9日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
220+阅读 · 2020年6月5日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
35+阅读 · 2020年4月5日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
已删除
AI科技评论
4+阅读 · 2018年8月12日
1分钟了解相似性推荐
架构师之路
5+阅读 · 2018年3月20日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【推荐系统】详解基于内容的推荐算法
产业智能官
23+阅读 · 2018年1月11日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
基于机器学习方法的POI品类推荐算法
全球人工智能
3+阅读 · 2017年11月22日
干货 :详解个性化推荐五大最常用算法
数据分析
6+阅读 · 2017年7月19日
详解个性化推荐五大最常用算法
量子位
4+阅读 · 2017年7月8日
Arxiv
3+阅读 · 2019年3月1日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Arxiv
3+阅读 · 2018年10月18日
VIP会员
相关资讯
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
已删除
AI科技评论
4+阅读 · 2018年8月12日
1分钟了解相似性推荐
架构师之路
5+阅读 · 2018年3月20日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
【推荐系统】详解基于内容的推荐算法
产业智能官
23+阅读 · 2018年1月11日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
基于机器学习方法的POI品类推荐算法
全球人工智能
3+阅读 · 2017年11月22日
干货 :详解个性化推荐五大最常用算法
数据分析
6+阅读 · 2017年7月19日
详解个性化推荐五大最常用算法
量子位
4+阅读 · 2017年7月8日
Top
微信扫码咨询专知VIP会员