谈到CTR,都多多少少有些了解,尤其在互联网广告这块,简而言之,就是给某个网络服务使用者推送一个广告,该广告被点击的概率。
这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样,也可以复杂到拿到各种诸如龟壳、铜钱等等家伙事。
在沐浴更衣、净手煴香后,最后一通预测,发现完全扯淡,被人暴打一顿,更有甚者,在以前关系国家危亡、异或争国本这种情况时,也通常会算上一卦,国家的兴衰。
其实CTR和这个一样,以前经常和小伙伴吐槽,其实做机器学习、无论是推荐还是计算广告,都和以前的算命先生没什么差别,做的好的官至国师,不好的吃不了饱饭也是有的。要想把你CTR模型做的好好的,必须要先了解那些前辈们都是怎么玩的。
一个典型的CTR流程如下图所示:
如上图,主要包括两大部分:离线部分、在线部分,其中离线部分目标主要是训练出可用模型,而在线部分则考虑模型上线后,性能可能随时间而出现下降,弱出现这种情况,可选择使用Online-Learning来在线更新模型:
离线部分:
数据收集:主要收集和业务相关的数据,通常会有专门的同事在app位置进行埋点,拿到业务数据;
预处理:对埋点拿到的业务数据进行去脏去重;
构造数据集:经过预处理的业务数据,构造数据集,在切分训练、测试、验证集时应该合理根据业务逻辑来进行切分;
特征工程:对原始数据进行基本的特征处理,包括去除相关性大的特征,离散变量one-hot,连续特征离散化等等;
模型选择:选择合理的机器学习模型来完成相应工作,原则是先从简入深,先找到baseline,然后逐步优化;
超参选择:利用gridsearch、randomsearch或者hyperopt来进行超参选择,选择在离线数据集中性能最好的超参组合;
在线A/B Test:选择优化过后的模型和原先模型(如baseline)进行A/B Test,若性能有提升则替换原先模型;
在线部分:
Cache & Logic:设定简单过滤规则,过滤异常数据;
模型更新:当Cache & Logic收集到合适大小数据时,对模型进行pretrain+finetuning,若在测试集上比原始模型性能高,则更新model server的模型参数;
Model Server:接受数据请求,返回预测结果;
最简单的模型也应该是工业界应用最广的方法,Logistic Regression算法简单易于调参,属于线性模型,原理如下图:
将CTR模型建模为一个分类问题,利用LR预测用户点击的概率; 通常我们只需要离线收集好数据样本构造数据集,选择好合适的特征空间,离线训练好模型,测试在离线数据集上的性能之后,即可上线。
也可以适应数据分布随时间突变严重的情况,采用online-learning的策略来对模型进行相对频繁的更新,模型的简单能够保证这部分的需求能够得到保障。
LR优点是简单高效,缺点也很明显,它太简单,视特征空间内特征之间彼此独立,没有任何交叉或者组合关系,这与实际不符合,比如在预测是否会点击某件t恤是否会点击,如果在夏天可能大部分地区的用户都会点击,但是综合季节比如在秋天,北方城市可能完全不需要,所以这是从数据特征维度不同特征之间才能体现出来的。
因此,必须复杂到能够建模非线性关系才能够比较准确地建模复杂的内在关系,而PLOY2就是通过特征的二项式组合来建模这类特征的复杂的内在关系,二项式部分如下图公式:
然而理想是美好的,现实却是残酷的,PLOY2有一个明显的问题,就是在实际场景中,大部分特征都是稀疏的,即大部分特征值为0,对这些稀疏的特征做二项式组合,会发现最后大部分特征值都是0,而在梯度更新时,当大部分feature为0时,其实梯度并不更新,所以PLOY2的方法在实际场景中并不能比较好地解决这类特征组合来建模更复杂线性关系的问题。
上面PLOY2虽然理论上能够建模二项式关系,但是在实际场景下稀疏数据时,无法使用,而FM就是为了解决这里PLOY2的短板的,FM的基本原理是将这些二项式矩阵做矩阵分解,将高维稀疏的特征向量映射到低维连续向量空间,然后根据内积表示二项式特征关系:
复杂度为$O(kn^2)$,作者提出了一种简化的算法:
将复杂度简化为$O(kn)$ 然后就是SGD来更新模型参数,使模型收敛(这里还有很多其他替代SGD的方法,在FFM中有提到):
训练时间复杂度也是$O(kn)$,也就是线性时间,FM通过对二项式稀疏进行低维连续空间的转换,能够有效地解决PLOY2中存在的二次项系数在大规模系数数据下不更新的问题,另外由于训练预测复杂度均为线性,PLOY2+SVM这样逻辑下由于要计算多项式核,复杂度是n^2。
由于FM的这几个特征,在实际场景中,FM也大规模的应用在CTR中,尤其是在数据极其系数的场景下,FM效果相对于其他算法有很明星的改善。
FMM全程是 Field-aware Factorization Machine,相对于FM增加了Field信息,每个特征属于一个field,举个例子:
而相对于FM,只有Feature_index相同个数的低维连续表示,而FFM则不同,每一个feature对不同的field有不同的表示,所以有#Field_index*#Feature_index个不同的表示:
通常由于每个低维隐变量表示只学习特定field的表示,所以FFM的隐变量长度相对于FM的隐变量维度要小的多。FFM的优化问题相对其比较简单,可以看看FFM这篇paper,里面比较详细地描述优化过程,还有相关的伪代码:
https://www.andrew.cmu.edu/user/yongzhua/conferences/ffm.pdf
从12年在ImageNet上深度学习超过经典模型之后,在计算机视觉、语音、NLP都有很多相关的工作,而在CTR上,深度学习的建模能力也有一些应用,FNN和SNN就是其中的一些尝试,来源于一篇名为《Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction》的论文,这里稍微描述下相关的做法:
网络底层由FM来进行参数初始化,W的元素由FM中的低维连续空间向量表示来做初始化:
而构成W的低维连续空间向量表示预先由FM在数据集 上生成,模型在训练过程中,会通过BP来更新FM层参数,其他步骤和常见的MLP没有什么区别,这里重点就是底层如何介入FM层参数的问题。
CCPM利用卷积网络来做点击率预测,看了文章,没有太明白其中的所以然,贴下网络结构的图吧:
有弄清楚这篇文章的小伙伴可以讨论下。
PNN主要是在深度学习网络中增加了一个inner/outer product layer,用来建模特征之前的关系,如下图,Product layer部分Z是weight*feature,P部分weight*I(feature_i,feature_j)用来建模二项式关系:
PNN按product层的功能分为inner product layer和outer product layer,区别如下:
和FM类似,构造好网络之后,对输入数据做embedding处理之后得到低维的连续向量表示,经过任意两个feature的进行inner product or outer product(1也为feature的一部分,所以可以建模线性关系)。
这里很容易发现,这部分特征大小会变大很多(二次项数量级),尤其是稀疏空间,和PLOY2遇到的问题类似,变得很难训练,受FM启发,可以把这个大矩阵转换矩阵分解为小矩阵和它的转置相乘,表征到低维度连续向量空间,来减少模型复杂度:
DeepFM更有意思的地方是WDL和FM结合了,其实就是把PNN和WDL结合了,PNN即将FM用神经网络的方式构造了一遍,作为wide的补充,原始的Wide and Deep,Wide的部分只是LR,构造线性关系,Deep部分建模更高阶的关系。
所以在Wide and Deep中还需要做一些特征的东西,如Cross Column的工作,而我们知道FM是可以建模二阶关系达到Cross column的效果,DeepFM就是把FM和NN结合,无需再对特征做诸如Cross Column的工作了,这个是我感觉最吸引人的地方。
其实FM的部分感觉就是PNN的一次描述,这里只描述下结构图,PNN的部分前面都描述, FM部分:
Deep部分:
DeepFM相对于FNN、PNN,能够利用其Deep部分建模更高阶信息(二阶以上),而相对于Wide and Deep能够减少特征工程的部分工作,wide部分类似FM建模一、二阶特征间关系, 算是NN和FM的一个更完美的结合方向。
另外不同的是如下图,DeepFM的wide和deep部分共享embedding向量空间,wide和deep均可以更新embedding部分,虽说wide部分纯是PNN的工作,但感觉还是蛮有意思的。
GBDT+LR:Facebook提出利用GBDT探索海量特征空间的特征组合,减少特征工程工作量,性能很好;
MLR:阿里妈妈前端时间提出的一种增强LR模型,将region的划分考虑进去来建模非线性关系,感觉类似于深度学习的Attention机制,据说在阿里妈妈相关业务提升很多;
前面讨论了一些CTR常见的方法,重点介绍了Factorization Machine及其变种Field-Aware Field-Aware Factorization Machine,还有和深度学习的结合,个人感觉PNN的逻辑比较有意思,完全使用神经网络的思维模型重塑了FM,为后面DeepFM扩展wide and deep的工作打下基础,减少了wide and deep中需要的一些基本的特征工程工作(wide部分二次项工作)。
上面只是涉及到模型的算法部分,在实际中可以去探讨,并不能说明一定性能就好,另外由于架构的限制,综合考虑其他方面的因素,如请求时间、模型复杂度,也是最终是否采用相关算法的考虑因素,各位对此有兴趣讨论的小伙伴,欢迎回复讨论。
本文原发表于知乎专栏:小石头的码疯窝
知乎专栏地址:https://zhuanlan.zhihu.com/burness-DL
延展阅读:智能营销,打开数字营销的围城
中国广告
“对于中小企业来说,数字营销的世界就像一座围城,如何走进去,又如何争逐”,在采访中,珍岛集团副总裁张蓬用《围城》里经典的一句话揭示了中小企业在数字营销领域面临的困境。正如他所说,99%的企业站在围城外面急切地想参与进来,却又不知如何参与进来。
这正是珍岛自成立以来一直在为中小企业解决的问题,发展十余年,为上万家企业提供平台支持,包括工具、资源以及服务,涵盖了企业智能营销需求的完整闭环。这些成功的经验和案例告诉我们,中小企业可以参与到数字营销里,而那些被中小企业忽略的数字营销方法,正在为他们带来巨大的收益。
珍岛集团运营总裁 张蓬
对快速发展的珍岛而言,业务的范畴不再仅仅是中小企业,在智能营销的闭环里,珍岛SaaS级智能营销云平台就像一个齿轮,能自动化地完成智能广告优化、跨平台跨媒体数据监测与回收等服务,缩小预算,增大收益。如今的珍岛集团,层层突围,已形成一个完整的生态链,从突破小围城到构建大格局,珍岛的每一步都走得踏实且有力。
帮助中小企业走出围城
早在几年前,珍岛率先提出“智能营销”的创新理念,同时推出了“珍岛SaaS级智能营销云平台(IMC)”,经过三年的用户体验和实践积累,IMC目前已成为拥有数万家企业用户的一站式数字营销智能服务平台。
智能营销,对很多人来说是一个模糊的概念。毫无疑问,未来一切终将智能化,对于智能化的解释,张蓬用简单的几个词给予了概述:“个性的理解”、“按需所取”、“服务自我优化升级”等,智能营销是数字生态下的营销革命,借助于云计算、大数据、人工智能等先进的理念,研发出大量具备智能化、自动化的数字营销工具及平台,为数字营销提供服务。智能匹配、智能标签化、智能获取、智能执行,真正的智能化是一个生态系统,能够使数字营销变得更便捷、更轻松。
对于中小企业最大的痛点,张蓬表示:“数字营销的流量成本和交易成本很高,对于中小企业来说,投入的预算很容易被浪费,他们想参与到数字营销里,但是很难完全参与其中。他们很难驾驭整个数字资源,对自身有用的数据不能精准利用。智能营销云能够完美地解决整个问题。比如,中小企业利用两万元的预算,就可以在IMC平台上享受数字世界和数字生态的资源,同时可根据自身的需求判断使用哪些媒体,如何进行投放,将会取得什么效果,获得实时报价和过程呈现。”
IMC基于云计算及大数据分析技术,是企业参与数字营销的智能决策入口,通过IMC SaaS化工作入口,企业营销人可以便捷地实现“数字资源的按需所取”以及“营销决策自助”的智能化场景实操,同时,在整个智能生态系统中,数字资源会被循环往复地进行“智能标签分配”,企业可从中获得低成本流量资源的最大优势。
三驾马车驱动,布局1+2+1的格局
珍岛集团的发展战略,张蓬这样描述:“珍岛的业务架构设计一定是以用户市场和客户需求为导向,在工具层面,珍岛T云(SaaS)是为国内中小企业提供的智能营销平台,很好的解决了中小企业全网数字资源(流量)分享的问题;在资源方面,珍岛大数据精准营销平台聚合了国际化全网精准流程,为行业用户的精准投放提供了深度支持;另外,在服务层面,对于品牌广告主,管家式数字营销全案服务则满足了企业个性化服务所需。所以,珍岛的核心竞争力即体现在如上的闭环服务的构建能力。”
珍岛T云提供从建站到推广的一站式服务供应,企业通过账号机制登录后台,激活智能营销诊断系统,根据自身的预算、投放周期、行业、产品品类、建站要求、推广目标等维度,轻松且快速布局互联网全网智能营销通道,可以说,T云大大降低了中小企业数字营销领域的门槛。
臻优DSP面向国内金融、游戏、电商、生活服务等行业KA客群,已完成与腾讯、优土、百度、阿里等国内主流媒体PC及MoB ADX资源集成,为近千家企业提供全媒体大数据精准营销服务,帮助企业在精准投放领域实现“低成本高质量交易”的诉求。除此之外,珍岛与主流媒介厂商建立了官方DSP的效果广告服务合作关系,服务质量已处于同类服务商中的领先地位。
在数字营销整案中,珍岛面向国内中高品牌广告主,提供从行业分析、策略制定,到创意策划、媒介采购、预算设计、广告投放、广告效果监测、舆情监测及优化等完整互联网广告营销供应链“全日制管家式服务”。
对于未来珍岛的格局,张蓬说:“未来将是1+2+1的格局,1核心还是以智能营销云平台为主,不仅仅服务于中小企业,会纵向延伸至复杂型的企业;2指的是大数据精准服务和全案营;第三层的1指的是珍岛将会在未来增加云计算的投入。”
人工智能在数字营销服务上将逐步深入
在数字营销领域,不断会有新技术和理念出现,对于2017年的营销关键词,张蓬表示,场景营销、智能营销、AR、VR是近两年比较火的词。
张蓬认为,“人工智能在数字营销服务领域的落地必定会逐步深入,这将是一个‘决策被模拟、服务软件化’的过程,IMC将会是这个过程中极其鲜明的数字营销AI时代的平台代表,借助IMC,企业不仅能进行全网跨平台一键式个性化模板快速建站,还能实现全网跨平台数字媒介资源一站式管理。
每一步的踏实积累为珍岛在人工智能上的发展都打下了坚实的基础。数字营销日新月异,不断会有新事物出现,但是未来的趋势掌握在我们手中。
回顾珍岛的发展历程,从PC官网时代到现今的多元跨屏时代,经历了互联网变革的搜索引擎、内容营销、精准营销时代,已跨入智能营销时代。不管是珍岛自建的SaaS级智能营销云平台,臻优DSP平台,我们都可以发现,珍岛走过的每一步都是踩着数字营销发展的节奏,致力为更多企业提供一个便利的、应用级的数字营销解决方案,也正在推进数字时代的进步。
新一代技术+商业操作系统:
AI-CPS OS
在新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。
AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。
领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:
重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?
重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?
重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?
AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:
精细:这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。
高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。
边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。
AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:
创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;
对现有劳动力和实物资产进行有利的补充和提升,提高资本效率;
人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间。
给决策制定者和商业领袖的建议:
超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;
迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新
评估未来的知识和技能类型;
制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开
发过程中确定更加明晰的标准和最佳实践;
重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临
较高失业风险的人群;
开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。
子曰:“君子和而不同,小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。
如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!
新一代技术+商业操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。
产业智能官 AI-CPS
用“新一代技术+商业操作系统”(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
长按上方二维码关注微信公众号: AI-CPS,更多信息回复:
新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能驾驶”、“智能金融”、“智能城市”、“智能零售”;新模式:“案例分析”、“研究报告”、“商业模式”、“供应链金融”、“财富空间”。
点击“阅读原文”,访问AI-CPS OS官网
本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!
版权声明:由产业智能官(公众号ID:AI-CPS)推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com