gbdt 回归 特征重要性 排序_Airbnb搜索:深度学习排序算法如何进化?
导读本文将基于Airbnb KDD 2018年到2020年的论文,介绍深度学习在Airbnb搜索排序场景落地的宝贵经验,对工业界搜索、推荐、广告算法的改进,具有很好的指导意义。2018年,Airbnb提出基于 GBDT + embedding高级特征的排序模型,基于用户的点击、预定序列学习 item的embedding表示,并设计高级特征添加到GBDT排序模型中,线上订单量显著提升,作为...
1. Airbnb搜索系统
Airbnb(爱彼迎),是2008年成立于美国硅谷的在线度假租赁市场公司,提供住宿安排,主要是寄宿家庭或旅游体验,是估值百亿美元左右的独角兽公司(2020年)。在Airbnb的搜索排序问题中,用户的query包含的信息可能有地点、时间、入住人数等,排序系统需要返回最匹配用户需求的搜索结果供用户选择,优化目标主要是优化成交订单数。如下图所示,用户(user)在每次发出请求后,搜索结果是一个多个item构成的结果页列表(Airbnb中每一个item被称作一个listing, 即一个民宿),最终用户可能预订某个listing。
2. Airbnb搜索排序:基于 GBDT + embedding高级特征的模型
在Airbnb搜索:Embedding表示学习这篇文章里,我们介绍了KDD 2018 Real-time Personalization using Embeddings for Search Ranking at Airbnb这篇经典的Airbnb Embedding表示学习论文,作者首先基于用户在Airbnb的点击序列、购买序列,用改进的Skip-gram model学习得到每个listing的embedding,然后基于学习的embedding, 设计了个高级排序特征,应用到GBDT搜索排序模型中。
3. Airbnb搜索排序:基于GBDT+FM+DNN的排序模型
在KDD 19 Applying Deep Learning To Airbnb Search这篇论文中,作者详细介绍了Airbnb深度学习排序模型的演进过程。
3.1 2017/04,Airbnb首先尝试了Simple NN模型模型输入:使用和GBDT相同的特征。模型结构:包含一个隐藏层(32个单元,ReLU激活)的全连接网络损失函数:和GBDT相同,预测用户是否会预定listing,采用L2回归损失,正负样本的label分别是1和0。3.2 2017/06, Airbnb使用了Lambdarank NN利用Lambdarank的思想,直接优化NDCG:
-
采用pairwise的方式,以{booked listing, not-booked listing}作为训练 样本,计算正负样本的分数差,然后和都是1的向量计算cross entropy损失。
-
对pairwise loss加权:权重为交换pair中两个listing的位置,NDCG的差值。这样加权的好处是,将listing从位置2提升到1,比将位置从10提升到9,权重更大。在实际的搜索系统中,top-3的结果非常重要,所以这样做对提升线上效果很有意义。
-
NN中dense特征要做归一化:因为NN对数值特征很敏感,过大过小会严重影响学习。

-
特征分布要平滑:对于特殊的特征,例如地理位置经纬度等,做特殊处理,使其分布尽可能平滑。作者可视化分析了NN中,output、 hidden layer的分布,解释NN有效的原因是:神经网络的有效性,是因为有强大的组合能力,虽然特征组合空间非常大,但是每一层都服从一个平滑的分布后,NN就能很好地预测。
4. Airbnb搜索排序:Two Tower模型
在KDD 2020 Improving Deep Learning For Airbnb Search这篇论文中,作者详细介绍了Airbnb搜索排序的Two Tower模型,以及如何解决bias, cold-start问题。
而bias和listing无关,公式可简化为:
5. Airbnb搜索排序:基于RNN+Two Tower的重排序模型:
搜索系统中,排序(精排)模型对相似的item的打分通常相似。在实际的搜索中,直接用精排模型打分的结果来展示,会出现搜索结果相似度过高的问题,而用户通常有多样性的需求,即希望看到更多样丰富的搜索结果。例如用户在Airbnb闲逛或没有明确意图时,希望看到多种类型的民宿来做选择。在KDD 2020 Managing Diversity in Airbnb Search这篇论文中,作者介绍了基于RNN+Two Tower的重排序模型,优化搜索结果的多样性。
后记
GBDT作为搜索推荐最经典的模型之一,在Amazon搜索、Yahoo搜索 、Facebook广告 [5]、京东搜索推荐、搜狗搜索中,都曾在线上排序中发挥过关键的作用。在深度学习排序时代,将线上原有传统机器学习模型和深度学习模型更好的结合,具有重要的价值。更多关于基于传统机器学习模型(GBDT)和深度学习结合的论文,可参考CIKM 2020 DMT [6]。由于本人水平有限,难免有疏漏错误之处,文章中存在的问题,欢迎大家指正!参考论文:-
Real-time Personalization using Embeddings for Search Ranking at Airbnb,KDD 2018
-
Applying Deep Learning To Airbnb Search,KDD 19
-
Improving Deep Learning For Airbnb Search,KDD 20
-
Managing Diversity in Airbnb Search,KDD 20
-
Practical lessons from predicting clicks on ads at facebook. ADKDD 2017.
-
Deep Multifaceted Transformers for Multi-objective Ranking in Large-Scale E-commerce Recommender Systems, CIKM 2020.
关于深度学习排序艺术
深度学习排序艺术,聚焦人工智能、深度学习在互联网搜索、推荐、广告中的应用,这里有最前沿的学术论文、最新的互联网公司技术分享,欢迎对互联网、搜索、推荐、广告、排序算法、深度学习、AI感兴趣的朋友们,关注微信公众号/知乎专栏:深度学习排序艺术。微信公众号:
为您推荐Airbnb搜索:Embedding表示学习
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)