【51CTO.com原创稿件】2017年7月21日-22日,由51CTO主办的以人工智能为主题的WOTI2017全球创新技术峰会在北京富力万丽酒店隆重举行。峰会期间,30+AI明星,数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。会后,记者采访了京东商城基础平台部首席研究员郑志彤,他将为大家介绍机器学习在电商领域的场景化应用。
京东的数据问题
京东有很多商品数据,包括图像、文本、视频和语音,这些不仅是多模态的,而且是非结构化的。我们要做的就是利用机器学习把这些数据组织起来,建立知识图谱。
目前,京东数据存在的不足:
1.商品的数据质量参差不齐。电商商品的数据是多模态的,有很多噪音,商品的数据录入难以管理;其次,很多数据类目本身就会有错误,有些商家为了提高商品搜索率,会用大量的词汇来描绘商品,很容易造成词语堆砌的现象。
2.用户反馈数据没有得到有效利用。
我们的目标是:
对于商家录入的商品数据进行清洗,提升数据准确率;
对原先没有得到有效利用的数据,进行整合抽取;
为商家生态提供算法支持,从源头把控商品数据的质量。
为了改变现状,我们从数据的信息合规、商品基本属性优化、电商短文本理解、商品类目的自动识别、多维度知识抽取五个方面来逐步优化并解决现阶段京东存在的问题。
机器学习在京东的应用
一、电商数据的信息合规
很多信息如果输入不正确,就会违反广告法或者价格法。上图中的“最高质量标准”是违反广告法的,下面的“第一步”没有违反,但”销量第一“的用词是违反的。从这个案例中我们意识到,仅仅依靠关键词是不够的,还需要借助上下文的关系。于是,我们就做了上下文的文本分类,无效审核下降73%,漏掉率为7.2%。
价格合规方面,详情页里有很多价格信息,上图的banner中还有另外一个价格,两个价格如果不一致就属于不合规。为了提高审核的效率,我们把详情页里的价格做了OCR识别。
京东端到端的通用字符串识别系统
如图所示,通过CNN model获得图片的特征与基于大规模语料数据训练循环神经网络(LSTM)的通用语言模型相结合,再通过基于时序分类(CTC)输出。端到端的文本检测与识别算法克服了传统OCR鲁棒性不足的问题,即使对于京东网站上各种压缩失真和版面复杂的图片,也能有很好的文字识别效果。
目前,每天可以自动发现数千个价格不一致的现象。同时,图片文字识别出的语句通过文本合规服务后,能自动发现包含违禁语义的图片。
第二、图文不一致体验
属性间的不一致对上层系统影响巨大,搜索、推荐调用错误数据,结果也会随之错误。例如,一张图片中女model提着红色手包,穿着白色上衣,蓝色裤子,这种图片直接识别不能分别得到三个主体的颜色分类。
而我们则是选用了一些成熟的模型,得到一张图片的属性,例如颜色,再通过一个清晰规则,比如最优先的是图片属性,逐渐把整个商品的属性做正确。我们从图片上抽取商品属性的大概情况主要覆盖了四个一级品类,准确率能到95%左右,规模大概是累计了两亿条以上的商品属性和一亿多条的SKU。
特征提取+ 主体颜色识别:Faster R-cnn
改进特征提取部分,加入Reception和Resnet结构以提高检测和分类准确率,实际过程中也提高了训练速度。
第三、电商的短文本理解
京东商品的标题出现大量的堆砌现象,因此我们就必须要对商品的标题属性理解并重组。具体的步骤如下:
第一步、标题分词。人工会标志一些词汇,训练一个预测新词的模型。
第二步、实体命名识别。
第三步、短文本理解。
第四步、标题重组。
第四、类目自动识别
目前京东存在的痛点:
商品录入量大,难以管控:大型店铺SKU数量达到数十万条;
商品类目数多,精准录入难:三级分类数近4000条;
主观理解商品类目划分错误:部分商品类目有重叠,难界定。
我们主要采用了文本分类的解决方法。文本被分到一个树状的类别图里,分类准确率能到99%。早期我们尝试过基于字母级别的DCNN分类,然后又试过Word2vec、LSTM,通过大量的对比实验,发现效果基本相当。最后我们自己编写了自己的最优文本分类算法(BTC),实现了快速很好分类的效果。
利用机器学习来定义类目的合并与拆分
我们研发了一个BTC的文本分类,比其他的分类方法又快、效果又好。在新商品录入的时候,能够准确地预测类目,从源头上杜绝错误的信息。一级类目40多个,二级类目300多个,三级类目4000多个,在树状类别分类上也做了一些细节的处理。
第五、商品数据多维度的数据抽取
商品的详情页可以做OCR识别。我们在OCR里面做了很多探索,最初是用了CER的方法,最近可能要转到使用物体检测算法,结合CTC来分割识别。
有一些评论里有很多垃圾,要进行清洗。还有一些星级评论,有的评了一星,文本写的是五星,有的写的五星,但评论区写的却是一些负面的东西,所以星级评价是不靠谱的。在这方面,我们主要用了两种解决方法,一种是有监督学习,还有一种是无监督学习。
通过图文属性的校验,电商短文本的识别,商品页的OCR识别、用户评论知识的抽取,最后上传新商品的时候做一个类目的引导,基本上就能够建立一个比较完善的京东知识图谱。
后记:
郑志彤说,京东主要用的深度学习平台是TensorFlow、MXNet、Torch、Caffe,跟踪一些业内的牛人,比如深度学习的三大牛人Hinton、Yann LeCun、Bengio,然后把他们发布论文中的算法运用到项目当中。
在未来,他希望能在图像方面希望利用深度学习可以做的更好,在NLP方面能做出能用的多轮次对话系统。
郑志彤,京东商城基础平台部首席研究员。主要负责机器学习研发与应用; 在基础平台部,将深度学习应用到了京东商城一系列业务场景中,包括商品信息合规检测,知识抽取,语义理解与对话系统等。郑志彤先后毕业于中国人民大学和清华大学,拥有十余年机器学习算法研究经验。
产业智能官
子曰:“君子和而不同,小人同而不和。” 《论语·子路》
云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。
在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。
云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
人工智能通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
新一代信息技术(云计算、大数据、物联网、区块链和人工智能)的商业化落地进度远不及技术其本身的革新来得迅猛,究其原因,技术供应商(乙方)不明确自己的技术可服务于谁,传统企业机构(甲方)不懂如何有效利用新一代信息技术创新商业模式和提升效率。
“产业智能官”,通过采编对甲、乙方参考价值巨大的云计算、大数据、物联网、区块链和人工智能的论文、研究报告和商业合作项目与案例,面向企业CEO、CDO、CTO和CIO,从而服务新一代信息技术输出者和新一代信息技术消费者。
助力新一代信息技术公司寻找最有价值的潜在传统客户与商业化落地路径,帮助传统企业选择与开发适合自己的新一代信息技术产品和技术方案,消除新一代信息技术公司与传统企业之间的信息不对称,推动云计算、大数据、物联网、区块链和人工智能的商业化浪潮。
给决策制定者和商业领袖的建议:
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临较高失业风险的人群;
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
开发人工智能型企业所需新能力:员工团队需要积极掌握判断、沟通及创造性思维等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
产业智能官 AI-CPS
用新一代技术操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在商业应用场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com