特稿 >

行业洞察 >

【Y视角】如何理解精准营销中的机器学习技术?

【Y视角】如何理解精准营销中的机器学习技术?

Xtecher原创 丨 行业洞察

26150
3768

2017-08-28

语忆科技

Xtecher特稿作者

关注

           

一个问题

你觉得厄瓜多尔产的苹果能吃吗?

也许你一看到这个问题的时候有点摸不着头脑,但倘若暂不去究根问底,而只是集中回答题干本身的话,相信很多人都会不假思索地反应出“能吃”这个答案。

好了,那我们的问题就是,你是如何判断出厄瓜多尔的苹果能吃的呢?在你短暂的思考过程中,你经过了怎样的逻辑推断呢?事实上,有这样两个思考过程是必经之路:

1、判断苹果一般都能吃;

2、确认厄瓜多尔的苹果也属于苹果的一种。

由于以上这两个条件的支撑,很多人都会产生“厄瓜多尔产的苹果能吃”这样的结论,这很正常。不仅如此,当我们的大脑在每一次做出判断或决策时,基本都会经历相似的两个过程。即便大多数情况下,这些所谓的思考原理或方法过于简单、直接以至于你无法意识得到,但不可否认,今天我们所依赖的逻辑判断能力、以及现代人工智能实现的理论基础都无不遵循着人类这两个最简单的思维方式:归纳和演绎。

……

所以由这样一个概念开始,今天的文章将会以我的视角向大家分享一下当今精准营销中所用到的技术原理,旨在向对精准营销及机器学习技术有兴趣,但无法作深入研究的同学们提供最“易懂”的介绍。


计算机如何做出判断?

试想,怎么让计算机和人一样,能判断出“厄瓜多尔的苹果能吃”呢?实际上,和人一样,让机器能能对这个命题进行自动归纳和演绎就行了。

先说“归纳”,请想象下,为什么你会得出“苹果一般都能吃”这个结论,是因为有一个专家对你们每个人说过这样一句话吗?显然不是,而且事实上的确有苹果是不能吃的,例如海苹果。

所谓的归纳即是从可获得的信息中尝试提炼出具有普适性的一般规律而已,也就是我们常说的“从特殊到一般”。当我们从小见过足够多不同种类的苹果并发现其中大都能食用之后,大脑很容易自动归纳出这样的结论:“所有苹果都能吃”。这就是“从特殊到一般”。但如果有一个小孩只见过两种苹果:红富士和海苹果,一个能吃一个不能吃。那请猜想一下,当你再问他“厄瓜多尔苹果能吃吗”这个问题时,听到是否一定会是正确答案呢?

故这里必须注意的是,我们最终归纳出的命题一定是正确的吗?显然不是,甚至即便你只少吃了这世界上的一种苹果,你都无法确保该命题的真伪。但有一点是肯定的,命题的准确率一定是随着数据集的扩大和丰富——你吃过的苹果变多、对苹果了解的深入——越来越准确的。例如海苹果其实是生长在水中的一种生物,而传统生长在树上的苹果一般都能食用。当你了解了这一点后,那你所归纳出的结论便会从“苹果一般都能吃”转变成“长在树上的苹果一般都能吃”,这就是通过数据的丰富使你能够进行自我学习、自我优化。如此一来,再判断某个新品种的苹果能否食用也就不太会再出问题了。

说到这里,要理解计算机怎么做到归纳也就不难了。其实和人类一样,只要不停地给它看一些已知是否能食用的苹果(训练集),并告诉它这些苹果生长环境是哪(特征),当然还有它能不能吃就可以了(标签)。计算机根据这些信息可以进行自我学习、优化与总结,并最终训练出可供使用的模型 —— 即归纳出结论“长在树上的苹果一般都能吃”。

有了这个模型,当我们再想判断新品种苹果能否食用时,只需将新苹果的特征“长在树上”输进系统(并不是所有特征或结论都很容易被表述及概念化,很多时候仍需要将新数据的特征再次输入模型系统以确定标签),模型会自动判断这类苹果是否能吃,这也就是从“一般到特殊”的过程,即演绎。

事实上,让计算机为解决某个问题进行归纳及演绎,这就是我们所说机器学习所要解决的问题。

严谨地解释机器学习,那便是指:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。这是一门学科,也是一个领域,是当今人工智能实现所基于的核心技术。很粗线条地说,现代的人工智能实际上就是机器学习的具体运用。

精准营销的本质

接下来让我们再谈谈精准营销的技术实现吧。

所谓精准营销(我个人更喜欢称为程序化购买,虽然含义不尽相同),就是通过互联网技术,在每一次广告投放前,判断用户的画像(性别、年龄、兴趣等标签)及其所处的环境属性(地理位置、当前浏览网站、环境等标签),并依此向ta投递区别于他人的最适合的广告。例如,给年轻女性推送化妆品广告,给男性球迷推送啤酒广告,给熬夜打游戏的你推送肯德基,给正好身处炎热户外的你推送防晒霜等……

基于这种产品逻辑,如今诞生了许多种不同的精准营销服务,从以前AdNetwork基于DMP作人群定向开始,RTB、PDB (Private Reserved)、Preferred Deal、Private Action 等等概念层出不穷,基本上都是围绕着业务流程和应用场景进行迭代,但究其本质技术依旧是机器学习,这点则始终没有变。

一个小插曲:也许你听到过很多DSP公司(程序化购买服务供应商)号称自己能拿到BAT、电信、甚至是银联的确切用户数据来进行用户定向。然而真正了解过其技术实现的人都明白,且不说能从以上集团拿到如此隐私数据的量级及维度都非常有限外,mapping技术的不完善也同样很难支撑起如此巨大的市场需求,最终导致这些概念也只能成为一种宣传手段,徒有其表。

时至今日,精准营销依旧是主要通过机器学习给互联网中代表网民的cookie或device ID打标签实现的。

对此其实并不难理解。根据从事市场营销专家们的经验,我们很容易地便能总结出如上文中所提到的那些、对营销有用的“标签”:性别、年龄、地域、收入等……这些标签其实对于计算机来说最终也会和“某种苹果能不能吃”一样没有区别,都只是些Yes or No的问题。不同的是,这次我们需要许许多多个判断结果。

再次,我们的训练集和特征又是什么,我们去哪找那么多“苹果”,并得知他们的“生长环境”呢?事实上,作为精准营销的训练集cookie和device ID并不难获取,抛开在合作应用/网站上埋监测代码不说,本身AdExchange(广告交易平台)就可以用来帮助获取海量的cookie,而我们所需要的便是从中挑选出一些已知用户画像的cookie作为训练集进行训练(方法很多,如对接第三方DMP)。同时,随着cookie本身携带而来的用户设备信息、网络信息、系统信息等就已经可以作为特征进行训练,而其累计而成的用户历史网站浏览轨迹,在处理后形成的有权重的访问记录更能成为每个cookie决定性的特征依据。

还是拿厄瓜多尔的苹果举例:

我们想知道“某个品种的苹果能不能吃”:某个Cookie是男是女、年纪多大、住在哪等;

我们已经有了许多已知是否能吃的“苹果”:已知人群标签的Cookie;

我们知晓了这些苹果的“生长环境”:网站访问记录、设备信息、网络信息、系统信息等;

剩下的便是让计算机对这些测试集进行训练,并最终发现诸如:“生长在树上的苹果都能吃”相似的结论。

机器学习的实现

到了这里便会衍生出来一个最终问题,并不是所以命题都像“生长在树上的苹果都能吃”一样简单、直白、可以查证。对于精准营销来说像:“过去一个周访问过5次时尚网站,同时访问过10次电商的人,同时……一定是女性”这样的结论实在很难去验证,即便你身边就有特例,那也无法就这样简单地证明这个模型是错的,事实上,对于消费者画像分析本身就很难达到100%精准。

那如何才能训练出来最好的模型,或严格来说是分类模型(最后得到的结果有已有明确的归类),并让计算机归纳出最准确的结论呢?这里就不得不了解一下机器学习在分类问题上究竟是如何进行“归纳”的。

我试了下用最傻瓜的方式来表述:找到一个数学函数,力求最准确地拟合具有不同“标签”训练数据点之间的“边界”图形。

如厄瓜多尔苹果一例:

首先我们假设将每一个训练数据点都放入对应维度的坐标系中(有几项特征就是几维坐标平面),坐标轴代表了其特征(值),则最终一定会形成如上图所示的点阵图。这里由于一维数据不具备太大的意义,故多加了另外一个维度:苹果的颜色。且同时大家应该都知道,数学函数最终都能在某个坐标系中用一个相应的图形表现出来。而我们所要做的便就是找到这样的一个函数,使它能尽量完美地将不同“标签”的数据点切割开来开。如此一来,一旦出现新的数据,便很容易通过数学函数去验证其到底会落在哪个区间,即找出其对应的标签是什么。

更多的例子:

然而以上几个例子全部是用二维平面向大家展示,力求表达简单、直接。若是有三项特征,则最终所求的是一个曲面函数,这个曲面会把一个三维空间中不同标签的样本尽量分明地切割开来。事实上,常用的机器学习数据集的维度都会非常高。以精准营销为例,对每一个网站的访问记录、系统信息、设备信息等都是备选特征之一,这就导致了最终所谓的函数图像是出现在一个无法可视化的高维空间中,只能通过数学公式去探究其特性。

其次,不同的算法会带来完全不同的模型训练效率及准确度。这里所说的“算法”,简单的理解就是指用哪一类函数去进行拟合。以厄瓜多尔的苹果为例,用ax+by=c进行模拟,并不断通过数据点到边界模型(即直线)的距离来优化参数a、b与c,就是我们在这里采用的一个简单算法。事实上,实际运用的算法会异常复杂,都是由好几代数学家、统计学家不断测试、迭代最后形成的智慧精华。例如精准营销最常用的便是逻辑回归算法,由于该问题过于学术,这里就不具体展开了,有兴趣的同学可以自行搜索一下相关内容。

最终,计算机将基于给到的测试集,不断地对模型(即函数)进行训练:判断模型到每一份测试数据的误差大小(以上例子中,“误差”就是数据点到直线的距离),一边试错,一边修改参数,进行自我迭代、优化,将误差缩减到最小,最终生成能够准确描述测试集“标签”与“特征”之间规律的函数。

写在最后

最后我们再来简地单聊一下精准营销,即程序化购买。对于从事营销、尤其是互动/数字营销的从业者来说,精准营销早已不是一个陌生的名词,早在13年开始,精准营销服务商便如泉涌般地出现在广告市场中。相对于传统数字广告,其更灵活的投放方式、更精准的目标人群定向技术以及更具性价比的预算要求都曾一度让广告主及代理商们趋之若鹜。

然而好景不长,整个精准营销行业在16-17年受到了重创,而归结根本原因,在其不透明性。大量的虚假流量、充满水分的KPI交付以及广告主、代理商们为追求宣传效果而产生的盲目信任都致使了这个新生代概念在短短的一两年间内就给行业造成了巨大的伤害……具体细节就不在这里一一复述了,有兴趣的同学可以搜索国内程序化购买的前沿开拓者——宋星的系列文章来了解具体情况。

然而,泡沫挤掉了,剩下的就都将成为精华。毋庸置疑,只有程序化购买才能为一次完美的广告投放——在合适的地点,合适的时间,合适情境下向合适的人投递合适的内容——提供技术支撑。这就决定了,程序化购买依旧会是日后广告投放技术发展的主流方向,只不过人们要做的,不再只是将广告投放技术开发得更成熟——事实上精准营销所用到的机器学习技术本并不具备很高的技术壁垒——而是更要专注于整个产业链的开放透明化、将上下游的利益在不侵害广告投放效果的前提下平衡化,并完善各个环节的监督及考核机制,以此来促进整个产业的良性发展。


P.S. 厄瓜多尔并不产苹果哦。

—— 专注于大数据与人工智能 yuyidata.com

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机