来源

《百面机器学习》第14章

计算广告

1. 最赚钱的部门
2. 计算广告学:信息科学、统计学、计算机科学、微观经济学等交叉融合,实现语境、广告和受众三者的最佳匹配
3. 主要产品:合约广告、竞价广告、程序化交易广告等类型
3.1 合约广告:客户多为品牌类广告主,结算方式多为CPM(cost per mille)千次曝光成本,每完成一千次曝光流量平台向广告主收取固定的成本。
3.2 竞价广告:最重要的形式是搜索广告。标的物是关键词。
3.3 程序化交易广告:让广告主更加灵活地选择自己的受众群体和曝光时机。 
在每一次展示机会到来之前,广告交易平台将流量的相关信息和竞价请求发送给 需求方平台DSP, DSP根据流量的实际情况代表广告主进行出价,价高者得到本次的曝光机会。 
DSP通常以CPA(cost per action)每次行动成本的方式进行结算,因此需要综合考虑广告预估的点击率、转化率等因素。
广告系统框架
系统由分布式计算平台、流式计算平台和广告投放机三部分组成。

分布式计算平台:负责根据海量的投放日志进行批处理计算,得到算法分析和建模的结果,例如用户画像、点击率/转化率建模等算法,并将得到的用户标签、模型特征和参数等数据更新至数据库中。

流式计算平台:负责收集和计算有实时需求的用户标签、特征、点击反馈等数据,并将它们实时地同步到数据库中去。

当一个请求到来时,广告投放机根据请求对应的用户、上下文等信息以及数据库当前的状态进行广告检索、排序和选择。

一次投放完成之后,相关的记录将被流式计算平台及时地获取并处理,同时它们也被收集到投放日志中,供分布式计算平台稍后使用。

Spark、HDFS、Kafka + ML + 广告的商业模型
用户画像

监督学习:性别预测问题,LR、SVM、决策树、随机森林、FN

比如:预测女性重要的特征:孩子、食物、家庭;预测男性:体育、车、因特网

非监督学习技术:CTR、广告排序与选择,K均值、高斯混合模型、主题模型

实际问题

1.点击率预估
1)可能是转化率,二次跳转率,加入购物车等行为建模
2)负样本远远大于正样本的二分类问题(PC端展示广告的点击率一般在0.1-1之间)
3)负样本的采样方法,采用本身有助于减少训练时间

2.特征抽取
1)特征的实际意义,可能表达了广告性质、可能表达了用户兴趣
2)梯度提升决策树和分解机

3.模型训练
1)线上预估时通常希望模型被全部加载到内存中,需要在模型的稀疏性和预测效果之间进行折中,更好的方案是采用L1正则。L2范式很难得到完全稀疏的效果。
2)深度NN,需要检验程序计算出的梯度是否正确,涉及梯度验证技术
3)深度NN的假设空间是非凸的,有时SGD会陷入局部最优解难以自拔,需要分析为何失效

4.模型评估
1)离线阶段的评估指标有Log Loss和AUC;Log Loss衡量预测点击率与实际点击率的吻合程度,AUC评价模型的排序能力。
2)如何设计一个合理的A/B测试方案

5.广告检索
1)解决模糊匹配问题的经典方法:查询扩展,为当前查询找到一组语义相关的查询,然后至少被其中一个查询检索到的广告都可以加入备选集合。
文本相似度:主题模型、word2vec等算法

6.广告排序/选择
1)对于合约广告,目标是满足规定的每日曝光数量,这个问题可以被建模成带约束的优化问题。广告的选择可以表达成一个二部图匹配问题,优化目标是使得总的投入收入最大化。
2)对于竞价广告,强化学习
3)对于程序化交易广告,DSP还需要对选定的广告进行出价,如何优化出家也是一个独立课题

游戏中的人工智能

AlphaGo完美继承了深度NN,有监督学习技术,强化学习和蒙特卡洛树搜索算法
...
Libratus德州扑克
反事实遗憾最小化算法,得到近似纳什均衡的解。
DeepMind
2013,用深度强化学习玩Atari
2015,Nature,DQN

OpenAI
研发和评比强化学习算法的工具包 Gym
评估和训练通用AI Universe

DeepMind:PySC2工具箱
Facebook:开源TorchCraft库

AI在自动驾驶中的应用

2005年DARPA挑战赛
安全、方便、高效共享、减少拥堵,节约每年5.3万亿美元

现有的商业部署:封闭的园区和有严格管控的固定线路。
关键传感器部件激光雷达的成本居高不下。

需要具备的技能:
CV:DL、道路标牌识别、车道线检测、车辆跟踪、物体分割、物体识别
传感控制:信号处理、Kalman滤波、自动定位、控制理论(PID控制)、路径规划
系统集成:机器人操作系统、嵌入式系统

机器翻译

一个经典的统计机器翻译模型:翻译模型、调序模型、语言模型三部分。
现在处在简单理解层面。

人机交互中的智能计算

智能算法可能会产生偏见。
比如学会说脏话或者带有种族歧视的聊天机器人,医生是男性,护士是女性,处女座更易有洁癖等。
智能设备如果具有过高的自主决策权,决策错误可能引发严重后果。
比如2018年3月Uber无人驾驶汽车在车道线错误和缺失的情况下撞向护栏,智能音箱Alexa会在半夜偶尔发出奇怪的笑声等。

智能交互最终一定会在黑盒化和透明化之间达成某种程度的妥协。

最喜欢的作者随笔

没有哪项科幻级黑科技比AI离我们更近。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐