累计修正2亿商品属性、1亿SKU商品数,机器学习在京东的应用实践!

2017 年 7 月 27 日 51CTO博客 郑志彤

2017 年 7 月 21 日-22 日,由 51CTO 主办的以人工智能为主题的 WOTI2017 全球创新技术峰会已经完美闭幕。峰会期间,30+AI 明星,数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。


会后,记者采访了京东商城基础平台部首席研究员郑志彤,他将为大家介绍机器学习在电商领域的场景化应用。

京东的数据问题

京东有很多商品数据,包括图像、文本、视频和语音,这些不仅是多模态的,而且是非结构化的。我们要做的就是利用机器学习把这些数据组织起来,建立知识图谱。


京东目前存在的不足:

  • 电商商品的数据质量参差不齐。电商商品的数据是多模态的,有很多噪音,商品的数据录入难以管理。

  • 很多数据类目本身就会有错误,有些商家为了提高商品搜索率,会用大量的词汇来描绘商品,很容易造成词语堆砌的现象。

  • 用户反馈数据没有得到有效利用。


我们的目标是:

  • 对于商家录入的商品数据进行清洗,提升数据准确率。

  • 对原先没有得到有效利用的数据,进行整合抽取。

  • 为商家生态提供算法支持,从源头把控商品数据的质量。


为了改变现状,我们从数据的信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多维度知识抽取五个方面来逐步优化并解决现阶段京东存在的问题。

机器学习在京东的应用实践

电商数据的信息合规

很多信息如果输入不正确,就会违反广告法或者价格法。上图中的“最高质量标准”是违反广告法的,下面的“第一步”没有违反,但“销量第一”的用词是违反的。


从这个案例中我们意识到,仅仅依靠关键词是不够的,还需要借助上下文的关系。于是,我们就做了上下文的文本分类,无效审核下降 3%,漏掉率为 7.2%。

价格合规方面,详情页里有很多价格信息,上图的 banner 中还有另外一个价格,两个价格如果不一致就属于不合规。为了提高审核的准确率,我们把详情页里的价格做了 OCR 识别

京东端到端的通用字符串识别系统


如图所示,通过 CNN model 获得图片的特征与基于大规模语料数据训练循环神经网络(LSTM)的通用语言模型相结合,再通过基于时序分类(CTC)输出。


端到端的文本检测与识别算法克服了传统 OCR 鲁棒性不足的问题,即使对于京东网站上各种压缩失真和版面复杂的图片,也能有很好的文字识别效果。


目前,每天可以自动发现数千个价格不一致的现象。同时,图片文字识别出的语句通过文本合规服务后,能自动发现包含违禁语义的图片。


商品基本属性优化

属性间的不一致对上层系统影响巨大,搜索、推荐调用错误数据,结果也会随之错误。


例如,一张图片中女 model 提着红色手包,穿着白色上衣,蓝色裤子,这种图片直接识别不能分别得到三个主体的颜色分类。

而我们则是选用了一些成熟的模型,得到一张图片的属性,例如颜色,再通过一个清晰规则,比如最优先的是图片属性,逐渐把整个商品的属性做正确。


们从图片上抽取商品属性的大概情况主要覆盖了四个一级品类,准确率能到 95% 左右,规模大概是累计了两亿条以上的商品属性和一亿多条的 SKU。

特征提取+ 主体颜色识别:Faster R-cnn


改进特征提取部分,加入 Reception 和 Resnet 结构以提高检测和分类准确率,实际过程中也提高了训练速度。


电商的短文本理解

京东商品的标题出现大量的堆砌现象,因此我们就必须要对商品的标题属性理解并重组。


具体的步骤如下:

  • 标题分词。人工会标志一些词汇,训练一个预测新词的模型。

  • 实体命名识别。

  • 短文本理解。

  • 用:标题重组。


商品类目的自动识别

目前京东存在的痛点:

  • 商品录入量大,难以管控:大型店铺 SKU 数量达到数十万条。

  • 商品类目数多,精准录入难:三级分类数近 4000 条。

  • 主观理解商品类目划分错误:部分商品类目有重叠,难界定。

我们主要采用了文本分类的解决方法。文本被分到一个树状的类别图里,分类准确率能到 99%。


早期我们尝试过基于字母级别的 DCN 分类,然后又试过 Word2vec、LTM,通过大量的对比方法,发现效果基本相当。最后我们选择对 Fasttext 进行一个深层次的改造。

利用机器学习来定义类目的合并与拆分


我们研发了一个 BTC 的文本分类,比其他的分类方法又快、效果又好。在新商品录入的时候,能够准确地预测类目,从源头上杜绝错误的信息。


一级类目 40 多个,二级类目 300 多个,三级类目 4000 多个,在树状类别分类上也做了一些细节的处理。


商品数据多维度的知识抽取

商品的详情页可以做 OCR 识别。我们在 OCR 里面做了很多探索,最初是用了 CER 的方法,最近可能要转到物体检测,结合 CTC。

有一些评论里有很多垃圾,要进行清洗。还有一些星级评论,有的评了一星,文本写的是五星;有的评了五星,但评论区写的却是一些负面的内容,所以星级评价是不靠谱的。


在这方面,我们主要用了两种解决方法,一种是有监督学习,还有一种是无监督学习。


通过图文属性的校验,电商短文本的识别,包括商品页的 OCR 识别、用户评论知识的抽取,最后上传新商品的时候做一个类目的引导,基本上就能够建立一个比较完善的京东知识图谱。

后记

郑志彤说,京东主要用的深度学习平台是 TensorFlow、MXNet、Torch、Caffe,也会跟踪一些业内的牛人,比如深度学习的三大牛人 Hinton、Ylekun、Beigo,然后把他们发布论文中的算法运用到项目当中。


在未来,他希望能在语音识别上有所突破,能够达到适用的水平;其次,图像方面希望利用深度学习可以做的更好。


作者:郑志彤

编辑:谢海平、陶家龙、孙淑娟


郑志彤

京东商城基础平台部首席研究员

主要负责机器学习研发与应用;在基础平台部,将深度学习应用到了京东商城一系列业务场景中,包括商品信息合规检测,知识抽取,语义理解与对话系统等。郑志彤先后毕业于中国人民大学和清华大学,拥有十余年机器学习算法研究经验。

精彩文章推荐:

登录查看更多
2

相关内容

中国最大的在线直营零售网站,2015年销售额约1813亿元人民币。 京东商城起家以3C产品(包括计算机、通讯和消费电子产品在内的三大电子种类的 简称)起家,现发展成为国内B2C电子商务市场中第一家营收突破百亿的多品类网络零售企业。
京东与其他B2C电子商务企业相比其中最显眼的在于其高效的自营加自建物流配送管理体系。
专知会员服务
140+阅读 · 2020年5月19日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
25+阅读 · 2020年4月20日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
领域知识图谱构建,115页2019著作带你学习KGC(附下载)
专知会员服务
83+阅读 · 2020年1月9日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
98+阅读 · 2019年12月14日
金融风控面试十二问
七月在线实验室
20+阅读 · 2019年4月9日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
盘它!40篇+阿里技术经典案例,看完必收藏
阿里技术
6+阅读 · 2019年2月18日
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
【知识图谱】CCKS-2017 行业知识图谱构建与应用-下篇
超级干货 :一文读懂特征工程
数据分析
9+阅读 · 2017年9月6日
Learning Discriminative Model Prediction for Tracking
Deep Learning for Energy Markets
Arxiv
10+阅读 · 2019年4月10日
Arxiv
9+阅读 · 2018年5月24日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
专知会员服务
140+阅读 · 2020年5月19日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
25+阅读 · 2020年4月20日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
领域知识图谱构建,115页2019著作带你学习KGC(附下载)
专知会员服务
83+阅读 · 2020年1月9日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
98+阅读 · 2019年12月14日
相关资讯
金融风控面试十二问
七月在线实验室
20+阅读 · 2019年4月9日
【干货】电商数据中台如何构建?
AliData
11+阅读 · 2019年4月4日
【智能金融】机器学习在反欺诈中应用
产业智能官
35+阅读 · 2019年3月15日
盘它!40篇+阿里技术经典案例,看完必收藏
阿里技术
6+阅读 · 2019年2月18日
2018年中国供应链金融行业研究报告
艾瑞咨询
7+阅读 · 2018年11月20日
【知识图谱】CCKS-2017 行业知识图谱构建与应用-下篇
超级干货 :一文读懂特征工程
数据分析
9+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员