用BERT夺腾讯告白 算法年夜 赛50万元年夜 奖,这是冠军团队的解决计划

[复制链接]
查看1677 | 回复10 | 2020-10-27 16:52:42 | 显示全部楼层 |阅读模式
机器之心报道
编辑  :小舟、蛋酱
这三位法度模范   员,用 BERT 捧走了 50 万人民币的高额奖金。
8 月 3 日,一年一度的腾讯告白 算法年夜 赛在深圳腾讯滨海年夜 厦举办。
一直以来,腾讯告白 都在赓续 寻找更为优秀的数据挖掘和机器学习算法。这场备受瞩目的算法盛事,今年已经是第四届。每一年的竞赛 都邑 吸引上万人加入 ,还催生出一个小型算法社区。
最终,由三位年轻法度模范   员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额年夜 奖。从预赛 冠军、复赛冠军,再到最佳答辩,这三位法度模范   员究竟靠的是什么?
DYG 团队由来自武汉年夜 学计算机科学硕士、算法工程师王贺,中山年夜 学 - 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘竞赛  TOP 名次的梁少强组成。值得一提的是,前两位选手同时也是 2019 年腾讯告白 算法年夜 赛的冠军得主。



左起:腾讯告白 副总裁蒋杰,「DYG」战队王贺、郭达雅、梁少强。
竞赛 题目
今年腾讯告白 算法年夜 赛的题目是「告白 受众基础属性预估」,和以往竞赛 剖析 告白 转化率、预估曝光效率的传统思路不合  ,这次的赛题是一种逆向思考。
通常认为人们对于告白 的偏好会因年龄和性其余 不合  而有所区别,许多行业的实践者已经验证了这一假设。但年夜 多半 采取 的办法 是在已有这些属性之后进行区分推荐,随后比较 推荐效果。
而今年的赛题「告白 受众基础属性预估」测验考试 从相反偏向 验证这一假设。这既是行业中会面临的问题,也相符 目前 AI 算法落地加倍 注重用户隐私的趋势。
本次竞赛 的训练数据集为一组用户在长度为 91 天(3 个月)时间窗口内的告白 点击历史记录。每条记录中包含  了日期(从 1 到 91)、用户信息(年龄,性别),被点击的告白 的信息(素材 id、告白  id、产品   id、产品  类目 id、告白 主 id、告白 主行业 id 等),以及该用户当天点击该告白 的次数。
测试数据集则是另一组用户的告白 点击历史记录,提供给  参赛者的测试数据集中不会包含  这些用户的年龄和性别信息。测试数据集与训练数据集一起提供给  参赛者。
本赛题要求参赛者预测测试数据集中涌现 的用户的年龄和性别,并以约定的格局 提交预测结果。评价指标包含 参赛者提交的结果计算预测的准确率(accuracy),年龄预测和性别预测的准确率分别  评估,两者之和用于参赛者的打分。
测试数据集中涌现 的用户划分为两组,具体划分方法 对参赛者弗成 见。其中一组用户用于预赛 和复赛阶段除最后一天之外的排行榜打分计算,另一组则用于预赛 和复赛阶段最后一天的排行榜打分计算,以及最后的胜出部队 选择。
接下来我们就来看一下本次竞赛 的冠军 DYG 团队的解决计划 。
代码地址:https://github.com/guoday/Tencent2020_Rank1st
特征工程
统计特征
用户涌现 的总次数和天数
用户点击告白 的总次数
用户点击不合  告白 、产品  、类别、素材、告白 主的总数
用户每天每条告白 点击的平均次数,均值和方差
概率散布 特征



经过年夜 量特征工程的测验考试 ,DYG 团队最后选用五折交叉的 target encoding 获得 每个该告白 实体对应的性别年龄信息,按用户点击告白 实体进行聚合统计。
模型介绍
首先来看下模型的框架,主要分为三个部分  :BERT(Bidirectional Encoder Representation From Transformer)部分  、融合层和输出层。



BERT 部分  
DYG 团队假设每个告白 为一个单词,将用户点击序列看作一句话,这样就将问题转为了 NLP 的文天职 类问题。DYG 团队使用 bert 作为 encoder 进行编码,并使用了 12 层 transformer。每层 transoformer 将上一层的隐变量作为输入,经过 Multi-Head Self Attention 和 Layer Norm 等,最后输出交互更高的隐变量。



bert 在 NLP 能够取得巨年夜 胜利 的主要原因是预训练,所以在竞赛 初期 DYG 团队赓续 测验考试 将预训练运用到本赛题中。但与 NLP 不合  ,告白 具有稀疏性,使其词表达到  七八百万。这就会造成两个问题:第一个问题是这么年夜 的词表很难放入 GPU 中,第二个问题是即使放到 CPU,由于参数过年夜 ,也难于训练。针对这些问题,DYG 团队使用了两个阶段的预训练办法 对 BERT 进行训练。
预训练:Word2Vector
第一个阶段:使用 word2vec 去预训练告白 的 embedding,目标是将类似的告白 进行聚类。具体操作如下图所示,DYG 团队首先将用户点击告白 序列输入到 embedding 层,然后预测告白  id。



但这里会存在两个问题,首先是此处只使用了一个告白 去预测另一个告白 ,并没有使用更多的告白 进行预测,因此缺失了更多的上下文信息。
其次是没有利用告白 自己 的属性进行预测。比如  给定该告白 是游戏类型的告白 ,那么就更容易预测出当前告白 ,同时也勉励 模型结合最近点击的告白 和当前告白 的属性进行预测,从而对齐告白  id 及其属性的 embedding。
预训练:Masked Language Modeling (MLM)
DYG 团队对 Masked Language Modeling (MLM)进行了改进  ,原始的 MLM 直接 mask 失落 包含 属性在内的整个告白 ,而改进  之后的 MLM 只 mask 告白 的一部分  (告白  id 或属性)。改进  后的 MLM 随机 mask 失落  20% 的 token,mask 后的位置使用 0 向量来取代 ,或者采样一个属性 id 来替换。



使用改进  后的 MLM 预测告白 时,不仅可以使用最近点击的告白 ,也可以用其属性来预测,使得不合  属性的 embedding 能够在语义空间上对齐。
同时,DYG 团队针对词表过年夜 的问题采取 了一个很症结 的策略:把词表缩小到 10 万(提取 top10w,其余为 unk),在预训练阶段只预测这 10 万个单词,从而使 bert 能够跑起来。
融合层



DYG 团队计划 在融合层(Fusion Layer)中,把点击告白 的受众人群性别年龄散布 融入到网络之中,具体的做法是把人群分为五个部分  ,假设用户点击 n 个告白 并来自第一小我 群,那么可以把剩下的作为种子人群,计算出每个告白 的性别年龄概率散布 ,用四层的 transformer 进行融合。
输出层
最后来看下输出层:



以上就是本次竞赛  DYG 团队解决计划 的主要内容。凭借此计划 ,DYG 团队一路披荆斩棘,最终捧起第四届腾讯告白 算法年夜 赛冠军的奖杯。
赛后剖析
DYG 团队在赛后对此计划 做了剖析 总结,归纳出其立异 的亮点:
1. 改进   BERT 并运用到人口属性预测场景
分阶段预训练,缓解告白 稀疏性问题并加快预训练速度 (4*V100 预训练 12 个小时)
改进   MLM 预训练目标,并从多维度学习告白 及其属性的语义表示  
将 BERT 运用到人口属性预测的场景,从性能上验证了预训练在告白 领域的潜力
2. 提出融合后验概率散布 的办法 及模型
利用受众人群求出每个告白 的概率散布
利用多层 Transformer 融合概率散布 及 BERT 的语义表示  ,能有效提升性能
参考链接:https://mp.weixin.qq.com/s/-lizDyP2y357plcG1M64TA

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

7BDRI_Gom | 2020-10-27 16:53:31 | 显示全部楼层
DYG 团队假设每个告白 为一个单词,将用户点击序列看作一句话,这样就将问题转为了 NLP 的文天职 类问题。DYG 团队使用 bert 作为 encoder 进行编码,并使用了 12 层 transformer。每层 transoformer 将上一层的隐变量作为输入,经过 Multi-Head Self Attention 和 Layer Norm 等,最后输出交互更高的隐变量。
回复

使用道具 举报

工兵班长纬 | 2020-10-27 16:53:58 | 显示全部楼层
今后qq和微信都不克不及 用了,全是告白 了
回复

使用道具 举报

武汉嘉瑞 | 2020-10-27 16:54:41 | 显示全部楼层
转发了
回复

使用道具 举报

温室小书生室d | 2020-10-27 16:55:23 | 显示全部楼层
转发了
回复

使用道具 举报

CVESE_Gom | 2020-10-27 16:55:38 | 显示全部楼层
转发了
回复

使用道具 举报

kangaroo389757 | 2020-10-27 16:55:50 | 显示全部楼层
转发了
回复

使用道具 举报

成功源于创新蠢 | 2020-10-27 16:55:55 | 显示全部楼层
转发了
回复

使用道具 举报

李墨285 | 2020-10-27 16:56:04 | 显示全部楼层
转发了
回复

使用道具 举报

单丁鹤纷 | 2020-10-27 16:56:55 | 显示全部楼层
转发了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

12

主题

43

回帖

124

积分

注册会员

Rank: 2

积分
124