【智能商务】海量商品查找利器—苏宁搜索系统

2017 年 12 月 1 日 产业智能官 IT说

一:搜索系统概要

互联网崛起过程中,搜索起到了至关重要的作用,我们熟知的google、百度都是全网类的搜索引擎,他们在互联网发展过程中起到有力的推动作用。在电子商务的垂直领域里,搜索是一个无处不在的工具,更是每个电商平台的主要流量入口。它集成了海量数据处理与查询、机器学习、深度学习等各种技术。对时效性、并发性具有非常高的要求。苏宁易购搜索是一个集商品、推荐、金融、虚拟用品+功能的垂直类电商搜索引擎。

苏宁搜索系统主要经历以下三个阶段:一、2008年到2011年商业版的搜索引擎,二、2011年到2015年基于开源的打造的搜索引擎,2016年走向自主研发之路,打造符合苏宁业务模式的高性能搜索引擎。无论是基于开源,还是基于自主研发,搜索系统在历年大促中(如:苏宁818、苏宁11.11 O2O购物节),经历起千万级UV、亿级PV情况下,实现零问题零事故,有力保障大促完美达成。

二:搜索系统架构

搜索主要分为离线计算+线上实时计算两个部分,离线计算主要包括全量的数据加工、处理以及数据索引生成。线上实时计算主要包括流式计算,准实时增量索引、实时用户query分析、查询响应、排序等功能。整个架构如下:

该架构特点:

1:采用轻倒排机制,实现倒排索引准实时更新。

2:定期切换线上状态,同步周期内索引,降低SMART-SHARD倒排长度。

3:采用大量正排缓存,使得无需索引数据实现准实时更新,助推排序时效性。

4:增加cache机制,在引擎机器故障情况下,机房内缓冲作用。有效降低机房内事故率。

5:搜索支撑系统提供周边系统接口信息统一接入,降低过多请求数。

6:query分析针对用户query进行中心词识别、类目预测、成分识别、纠错、扩展、个性化标签等一系列query分析功能。个性化标签内容这里是单独放在个性化服务系统中进行处理的,需要query分析系统进行调用与包装。

基于以上特点,搜索采用短链+正排实现索引更新秒级更新,确保流入搜索的数据可以快速索引并及时对用户进行响应,今年11.11 苏宁O2O购物节当天,在无缓存亿级访问情况下,实现数亿价格变化的更新。在排序层面,目前易购底层排序主要基于规则、基于机器学习(LTR)排序。在上层由政策、营销策略、以及店铺、品牌、品类多样性的排序规则(当然,类似上层这样的排序会在单独的排序系统进行处理,在上层架构中没有体现出来)。其中机器学习训练的数据,采取的是半年内数据,这里数据是有区分的,不是笼统的半年数据,有些数据其实只有一个季度的数据,一些快消品、季节相关的商品,苏宁搜索在选取数据的时候进行比较精细的选取。如果采用太笼统数据,实验发现效果与采用人工拟合权重排序出来的效果差别不是特别大。下面着重介绍下搜索几个利器:

1:搜索利器-用户反馈系统

那么当用户访问搜索系统的时候,苏宁搜索系统需要知道用户的点击、访问、购买等情况,如果拿不到这些数据,搜索仅仅是一个静态的输出式引擎,这当然不是我们所追求的目标,我们期望的系统是一个可与与用户进行互动式的系统。通过用户过往的行为数据、以及当前的行为数据去调整搜索排序,确保给用户一个更合理的排序结果。该系统的整体架构如下:

系统特点:

1:实时采集用户行为(点击、翻页、收藏、购买….等行为)

2:数据流向,将实时的用户行为数据与历史数据结合产生报表供产品/运营使用

3:实时数据处理用于反馈影响线上排序

4:由于底层排序规则由不同模块组成,所以这里就需要有一个路由规则,通过该路由规则,将一定比例的用户分配到不同的排序规则上面。

2:搜索利器-用户意图识别系统

意图分析整体架构如下:

该系统结合用户行为采集、商品数据、人工序列标注(包括机器自动序列标注)、类别关系模型以及商品信息团。实现分类预测、品类扩展、成分识别等功能。核心算法采用CRF(条件随机场)实现中心词识别。经过多年语料积累与数据规整,线上识别率高达98%以上。当然,机器学习的结果过于依赖数据,也会导致学习出模型预测出的分类具有马太效应,在机器学习上层的人工规则,还是很有必要的。

整个处理流程如下:

3:搜索利器-反作弊系统

整体如下图:

商品曝光与排序,对商家来说是非常重要的,排序靠前,得到的流量就会很大,但排前面的商品确不一定是用户需要的商品,中间可能存在恶意点击、刷单等行为。反作弊系统就显得至关重要。怎么能准确识别哪些流量是有问题的?就成为该系统设计的关键点。

该系统识别可能比较通俗易懂,因为该系统就是一个二分类的问题,可以通过一个二分类的算法(LR OR NBM啊都可以实现),针对输入的数据进行分类。输出要么作弊,要么不作弊。该系统为了降低识错率。采用了黑白两类分类器。最大程度的降低识错率。

4:搜索利器-LTR

早期搜索的排序,那叫一个累,一个线性公式,一堆待排序因子,每个因子嘛,拍拍脑袋,权重就这么出来了,带来的结果就是,这个商家反馈,那个反馈。然后就是分析师不断的调整。累又不讨好。为了降低人为的调整因子权重,就需要结合用户行为,收集query-docList数据进行标注。基于海量数据,采用机器学习方法,拟合出每个因子的权重。如下:

目前这个处理还是离线拟合出来,每一天为周期进行更新。所以还是有弊端的,比如一天内热品如何快速体现出来,该模式还有很大提升空间。但是为了让热销品快速露出,目前还是需要经过运营反馈,通过规则模块实现快速调整。

三:搜索系统智能化应用

这里的智能化应用并不一定是我们理解苹果Siri,微软小冰。这里我们将简化用户操作,降低运维成本,从经验拍板到数据支撑这一个过程叫做搜索智能化应用。这里主要举两个例子:一是价格区间划分、二是默认选中。

1:搜索的价格区间划分:

该功能的价格区间制定经历了几个阶段,最初,采用暴力的5等分法,该方案满足价格区间划分的需求,但是如果价格区间跨度大,使得价格区间划分不合理问题明显;到中期对价格数据建立聚类(kmeans)模型,利用该模型进行价格区间段划分,同时对数据进行去噪处理,在一定程度上解决了初期的问题,但会造成某些数据的大部分可能集中在一个区间,致使有些区间没有数据,该模型还有一个弊端,完全是基于数据进行划分,忽略用户的行为,划分的区间也许在数字上面感觉比较客观,但并不一定是用户喜欢的区间段;为了改进这样弊端,搜索团队糅和用户行为,综合用户筛选便捷性、企业盈利与商户满意度三个角度为优化目标,提取相应的特征,建立策略优化模型P(价格区间|用户,企业,商户),制定量化指标,面向指标的提升,不断进行策略模型的迭代与更新,使得策略逐渐趋于成熟。主要的流程如下:

Ø 收集用户行为和商品的有关数据;

Ø 将数据进行融合并转化为特征

Ø Isolation Forest进行异常数据检测并进行剔除;

Ø 模型训练,包括训练-测试和模型选择环节;

Ø 将已训练模型部署到在线服务系统,并用于离线处理;

这个处理过程中,干扰最大的就是数据噪点,有些数据离散程度非常的高,如何选取数据,将会决定该功能好坏。如何处理掉这些噪点数据成为该功能成功的关键点。经过不断的采样,不断处理,最终在实验中发现,采样Isolation Forest进行异常数据的检测并剔除可以达到预期的效果。

如上图,左边图使用Isolation Forest进行异常数据识别,其实红色点是异常点,蓝色是正常点;右边图是剔除异常值后的数据。

2:默认过滤/选中功能

该功能底层都是采用用户行为数据、内网品牌、品类库,结合外网品牌、品类库。这个过程要解决的问题很多,比如关键字召回过多分类的时候,应该选择哪一个分类?搜索一个品牌名,但是该品牌在我们的意识中又是品类的时候,该如何处理?这其中都是要解决的难点,我们也踩过很多坑,比如以前搜索小米,按照内网用户行为与数据,那么小米手机这个品牌的用户行为甚至在某些周期内是压倒性的倾向。但是我们意识里面小米不一定就是手机,甚至是粮油,米之类的商品。这个时候,我们采取的方案有:采用商品数据、拉长用户周期、选中被叉掉后行为反馈加权、外网品牌品类库抓取与完善、品类品牌规则模板、人工辅助纠正等一系列手段。尽可能将默认选中状态更加合理准确。当然了,没有一成不变的数据,也没有以不变应万变的功能,跟数据做斗争类似那句谚语:道高一尺,魔高一丈。数据在变,方法在变,我们做不到以不变应万变,但我们可以不断为数据而改变。

四:场景搜索应用

1:图像搜索:

在有些场景下,用户无法表达自己的意图或者用户表达了自己的意图,但是用户的表达辞藻过于个性化,最终导致引擎没有输出、要么输出的结果太差强人意。再比如我们在大街上,看到别人穿着漂亮的衣服,上去询问又担心尴尬。那么在这个时候,如果你手握一部手机,通过简单的拍照,就可以检索到同款式商品。这样的功能是不是想想都很激动,这个技术就是图像识别技术,应用到搜索场景下,就是图像检索。通过图像检索,将相似度高的商品进行召回。下图是苏宁图像搜索效果展示:

当然了,图像识别的技术应用很广,比如现在的无人店、无人车、无人机与无人配送等各个领域。

2:(搜索+)服务:

搜索+ 服务,我们都知道搜索可以检索网页,检索商品,因为海量,所以搜索。互联网的爆发,导致用户可用功能、可用产品,也在爆发。搜索+的意义就是可以搜索商品,也可以搜索功能。让用户用最短的时间找到最好的商品,最常用的功能。如下图:

一:搜索+之精准商品查询

当一个用户,打开搜索,没有产生点击行为,直至快要翻页,是让用户继续翻页?还是在该场景下提示用户“有更精准化的召回功能,可以尝试使用该功能,里面有你想要的商品”,那么这个产品就要具备识别用户意图与用户自然语言表达的能力,同时采用商品多维度的标签去提醒用户,为什么召回这样的商品。因此让用户更自然的表达自己的想法,可以涵盖更多的信息量,会融入更多的情感因素在其中。让用户的需求表达更加清晰。同时采用多维化的用户分析与丰富的商品内容展示,给用户精准化的商品召回。下图就是搜索创新的精准化搜索:

该产品,目前已经对外使用与验证。 搜索+之功能检索,目前仍在验证中,敬请期待!



算法博士+人工智能+大数据=企业供应链智慧化决策?


在企业运营过程中,能够通过对过去传统ERP时代积累的大量数据的深度分析,结合其他大数据的变量因素,产生更加智慧化的企业供应链决策,是人工智能时代对企业重要的创新应用。

来源 |  亿欧

图片来自“123rf.com.cn”


如果说AlphaGo让2016年被称为“人工智能元年”,那么2017年一定是人工智能在各行业应用领域的大爆发。

伴随着巨大的市场机会和逐渐膨胀的AI泡沫,人工智能、大数据云计算、机器学习等技术性名词就逐渐渗透到了各个行业。在数据化、智能化的同时,对企业供应链管理的影响是显著的。在企业运营过程中,能够通过对过去传统ERP时代积累的大量数据的深度分析,结合其他大数据的变量因素,产生更加智慧化的企业供应链决策,是人工智能时代对企业重要的创新应用。

但技术创新的背后是否能够真正地为企业产生直接价值,是需要符合技术应用为前提的。从笔者过去对企业供应链管理的认识中来看,今天的技术的企业创新应用需要四大价值前提:企业应用场景、原始数据积累、技术分析能力、适用工作流。这四个价值前提是企业应用技术、企业落实技术应用以及企业将技术成功融入流程管理的重要因素。

目前大多数人工智能领域的创业公司都带着自身大量的技术沉淀,结合着目前人工智能的风口,形成了一波技术资本热潮。曾经研究机器学习、优化算法、运筹学、视觉识别等领域的专家博士,甚至在该领域进行科学研究多年的学者教授,都从未像今天一样被企业所认识和重视,也从未如此受到资本市场的追捧。

一家人工智能领域创业公司,或者是与之相关的科技公司如果没有一两个算法方面的“首席科学家”,都难以向市场及资本方验证自身产品的高度“专业”。

但在供应链智慧决策领域,仅仅带着“科学家”和人工智能的供应链管理公司,都无法有效的帮助企业打造真正人工智能时代需求驱动的供应链管理创新。而这样瓶颈的产生,其根源并不在于技术是否足够先进,算法是否足够领先,而是在于帮助企业进行科学决策优化时,是否足够理解你所认识的“企业”,足够理解企业所在的行业。

对于人工智能应用来说,互联网及高科技企业是结合程度最高,应用范围最广的。但除此以外大部分的传统行业,包括制造业、能源产业、鞋服及快消,即是系统化程度最层次不齐,也是痛点最痛的行业,却是新技术应用阻碍最大的行业。

首先是企业系统应用程度差距很大。以零售行业为例,同样是CRM、WMS和ERP系统所产生的数据,不同的企业在整个内部供应链的管理上应用差距很大。从采购、生产、物流运输到库存管理及门店管理,有以7-11代表的高度协同的需求链信息系统的应用,也有管理水平比较低的夫妻店的简单进销存的记录。这种跨度就注定了不同的企业形态需要供应链管理公司从不同的角度切入。

切入的选择就是在选择企业的应用场景,让技术的应用有所为,有所不为。并不是有一个“黑科技”就一定需要企业用得起来,而是在基于对它的理解上,选择最适合且最成熟的应用场景落地。对于已经有各种系统支持的企业而言,需要的系统间的协同和流程上的协同,这两块是缺一不可的。系统上的协同是为了更好的运用智能算法进行深度分析,从而避免企业内部的信息孤岛的产生。

以一家化妆品行业巨头企业为例,企业内部信息系统在有7-8个之多,在一个大框架下还有另开发其他的小功能。那么如果从这个角度应用AI数据分析,如何打通已存的系统间的数据,就是很大的挑战,另外需要在这个基础上,引入其他的数据源做高精度的分析,就成为了做技术应用的人需要深度理解其系统应用及流程应用的重点。

而针对商品管理的领域如选品、定价、促销、供应链、采购、物流等所构成的运营体系的技术应用,需要的是选择最适用于这类企业的模型算法,结合现有业务的数据建模,来满足不同业务场景下的不同商业目标,这才是一个好的人工智能的商业运用,相应地也能够形成一个完整的数据闭环。

因此,企业要建立以需求为导向的供应链智慧化决策体系,需要的是跨领域的专业融合。从笔者自身来讲,同样是多年算法、运筹及供应链管理的研究,但是经过企业实践应用及触及流程变革时产生的困难,会让我们意识到模型算法是我们手上的工具,是否能够对企业有用,需要的是归纳总结出适用于不同行业的业务规律,并能够对不同企业流程上的差异来进行数据模型的建立。

AI的技术十分重要,我们仍然相信,这已经是不可也无法逃避忽视的企业关键要素之一。对未来而言也会是企业产生最核心差异的竞争力之一。

但就目前而言,是要先针对不同业态的发展阶段,让人工智能落地,为不同的企业找到合适的应用场景,调用企业的历史数据进行深度数据分析,从工作流的角度分析应用的方式,最终为企业建立“获取数据—分析数据—建立模型—预测未来—支持决策—形成数据”的数据闭环。才将成为人工智能企业在技术门槛日益降低的发展过程中,铸就自身真正的商业模式壁垒的解决办法。


人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统(新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。





产业智能官  AI-CPS



用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链






长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”;新模式:“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”


点击“阅读原文”,访问AI-CPS OS官网




本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




登录查看更多
5

相关内容

【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
34+阅读 · 2020年4月26日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
96+阅读 · 2019年12月14日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
91+阅读 · 2019年12月13日
【LinkedIn报告】深度自然语言处理的搜索系统,211页pdf
专知会员服务
105+阅读 · 2019年6月21日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
自然语言处理技术(NLP)在推荐系统中的应用
CSDN大数据
3+阅读 · 2017年6月29日
Spark App自动化分析和故障诊断
CSDN大数据
7+阅读 · 2017年6月22日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
13+阅读 · 2018年4月18日
Arxiv
3+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2012年11月20日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员