机器学习的5种距离度量方法

2018 年 5 月 18 日 七月在线实验室

在机器学习领域中有非常多的问题需要求距离,常见的是向量距离的计算。比如判断A、B、C三种商品之间的相似性,可以先按照商品特征构建A、B、C的各自的向量,然后求向量间的距离,距离近就表示彼此相似度高。今天讲下常见的几种距离计算方法。


A 欧式距离EuclideanDistance

欧式距离:两点之间的直线距离。

(1)二维平面上两点a(x1,y1),b(x2,y2)之间的欧式距离公式:

(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的欧式距离公式:


B  曼哈顿距离(ManhattanDistance)

曼哈顿距离也叫”曼哈顿街区距离”。想象你在曼哈顿街道上,从一个十字路口开车到另一个十字路口,驾驶距离就是这个“曼哈顿距离”。

(1)二维平面上两点a(x1,y1),b(x2,y2)之间的曼哈顿距离公式:


(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的曼哈顿距离公式:



C 夹角余弦

机器学习中可以把两点看成是空间中的两个向量,通过衡量两向量之间的相似性来衡量样本之间的相似性。

(1)二维平面上两向量a(x1,y1),b(x2,y2)之间的夹角余弦公式:




也可直接通过向量运算:




(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的夹角余弦公式:

D 切比雪夫距离(Chebyshevdistance)


切比雪夫距离:各对应坐标数值差的最大值。国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步?你会发现最少步数总是max( | x2-x1 | , | y2-y1 | )步。


(1)二维平面上两点a(x1,y1),b(x2,y2)之间的切比雪夫距离公式:


(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的切比雪夫距离公式:




E 汉明距离

两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。

1011101与 1001001 之间的汉明距离是2   

2143896与 2233796 之间的汉明距离是3   

irie与 rise之间的汉明距离是 3

《机器学习集训营 第四期》九城同步开营,周日第一节线下课,10个工业项目实战辅导 + 一对一面试求职辅导,剩余5个线下试听名额,有意者请速加微信客服:julyedukefu01

登录查看更多
9

相关内容

【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
可解释推荐:综述与新视角
专知会员服务
111+阅读 · 2019年10月13日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
万字长文 | 10种传统机器学习算法,阿里工程师总结 | 下
机器学习算法与Python学习
3+阅读 · 2019年1月14日
从信息瓶颈理论一瞥机器学习的“大一统理论”
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
机器学习(27)【降维】之主成分分析(PCA)详解
机器学习算法与Python学习
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
11+阅读 · 2018年7月8日
VIP会员
相关VIP内容
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
168+阅读 · 2020年5月27日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
机器学习速查手册,135页pdf
专知会员服务
338+阅读 · 2020年3月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
可解释推荐:综述与新视角
专知会员服务
111+阅读 · 2019年10月13日
相关资讯
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
万字长文 | 10种传统机器学习算法,阿里工程师总结 | 下
机器学习算法与Python学习
3+阅读 · 2019年1月14日
从信息瓶颈理论一瞥机器学习的“大一统理论”
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
机器学习(27)【降维】之主成分分析(PCA)详解
机器学习算法与Python学习
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员