“爱体育APP” 短视频内容明白和推荐算法角逐大揭秘
点击量: 发布时间:2021-10-13
本文摘要:不知不觉,你是否发现身边的小同伴们都在疯狂的玩抖音,刷微博,你的购物APP也变得越来越智慧,很相识你想要的工具,就连点个外卖,美团和饿了么都知道你想要吃什么呢?

爱体育APP

不知不觉,你是否发现身边的小同伴们都在疯狂的玩抖音,刷微博,你的购物APP也变得越来越智慧,很相识你想要的工具,就连点个外卖,美团和饿了么都知道你想要吃什么呢?是什么黑科技让这些APP变得如此神通,能深深的吸引着你的眼光和味蕾呢?其实,之所以你以为它越来越智慧越来越懂你,固然少不了你跟它之间的亲密“相同”,看似不经意的一次点击,一次停留,它都默默的记了下来,等候你的再次临幸。这位神秘的幕后主使就是我们今天要讲的——个性化推荐算法。现在它已经深入到互联网的各种产物中,也履历了数次更新迭代,变得越来越贴心了。

接下来,我将通过一个近期我们到场角逐详细解说一些其中的算法原理。这次角逐是由今日头条主办的短视频内容明白与推荐竞赛,我们的结果在大规模亿级的赛道中拿了第四名,千万级数据规模的赛道中第五名。这也是我们极链AI实验室首次实验推荐算法。

首先,来讲讲什么是推荐算法。推荐算法大致可以分为三类:基于内容的推荐算法,协同过滤推荐算法和混淆推荐算法。基于内容的推荐算法,原理是将用户喜欢和自己关注过的Item在内容上类似的Item推荐给用户,好比你看了复仇者同盟1,基于内容的推荐算法发现复仇者同盟2、3、4,这些与你以前寓目的item在内容上有很大关联性。

协同过滤算法,包罗基于用户的协同过滤和基于item的协同过滤,其中基于用户的协同过滤是通过用户之间的相似性,挖掘与用户具有相似兴趣的用户喜欢过的item,好比你的朋侪喜欢复仇者同盟,那么就会推荐给你。基于item的协同过滤是找到跟用户喜好最相似的商品,然后推给他。混淆推荐算法,则会融合以上方法,以加权或者串联、并联等方式举行建模。

常用的包罗传统机械学习算法如因子剖析机(FM,FFM),LR,GBDT,RF和近几年盛行起来的DNN和FM联合的算法。这三种类型的推荐算法各有千秋,内容推荐算法的优点在于可以制止Item的冷启动问题(冷启动:如果一个Item从没有被关注过,其他推荐算规则很少会去推荐,可是基于内容的推荐算法可以分析Item之间的关系,实现推荐),但毛病在于推荐的Item可能会重复,典型的就是新闻推荐,如果你看了一则关于某某明星出轨的新闻,很可能推荐的新闻和你浏览过的,内容一致;协同过滤算法可以随着用户对商品的交互记载增加更准确的捕捉用户行为习惯,进而使得模型能够不花费分外的人工的方式来提高精度(但在初期碰面临冷启动问题的困扰)。无论哪种推荐算法,都离不开特征工程、模型学习这两个重要的步骤。接下来,通过角逐这个实例,来解说每个步骤详细是如何实现的。

这次角逐的任务是通过一个视频及用户交互行为数据集对用户兴趣举行建模,然后预测该用户在另一视频数据集上的点击行为。该任务属于机械学习中两个基本任务之一分类,而且是二分类即给给定的数据打标签(0,1),0代表unlike,unfinish,1代表like或者finish.一.特征工程众所周知,短视频App中的视频一般都有一个醒目的标题,有一段内容富厚的一连画面,和一段有趣的声音组成,通过nlp,cv,audio等深度学习模型提取这些信息特征就组成了视频item的特征;对于用户来说,用户的身份(年事,性别,地域)等组成用户特征,用户点击视频的历程,停留的时间,点赞等行为则组成了基本的交互信息。

角逐提供的交互信息字段,我们将它划分为三个部门包罗用户信息(user_id,user_city),视频信息(item_id,item_city,author, songs, duration time)和交互信息(did, channel)。除此之外,视频特征,音频特征,人脸特征等都属于视频信息。

接下来,信息有了,怎么去挖掘这些信息中隐藏的秘密呢?这就是特征工程的意义所在,尽可能多的挖掘用户和item之间的相关信息,然后将这些信息送入后面的模型举行学习。角逐初期,主办方提供了一个简朴的特征构建和模型训练的框架,上文提过的FM算法,公式如下:该算法使用交互信息,构建矩阵,通过因子剖析,来挖掘信息的交互特征。其中x代表特征属性,y是预测效果,n就是特征的交互阶数,阶数越高,求解越难。因为特征x分为category特征(离散)和numeric特征(浓密)两种,category特征需要举行one-hot编码,一旦举行交互,特征的维度将会很是高,使得盘算机的算力不够。

实际应用中,一般只取二阶特。那么,另有其他方法去挖掘更多更深的交互信息吗?别急,下面我会先容角逐中我们实验的重要的特征工程方法。推荐算法的数据记载的是用户的历史行为信息,而数据的先后顺序反映了时间信息,那么使用所有的历史数据去盘算未来的行为的特征生成我们暂时称之为全局特征,只使用一部门历史数据来盘算特征的生成方式我们称之为局部特征。

基于全局的特征基于全局的特征我们主要从svd剖析、统计特性、和时间相关特征,三个方面去思量举行特征提取。svd剖析特征,提到svd,想到最多的自然是特征降维,主身分分析,那么使用svd将高维的交互特征举行降维,就可以输入模型举行训练了,好比用户和item,结构一个user-item矩阵,矩阵的每个元素代表了该用户和该item间是否有交互,有的话就是1,没有的话就是0,这个矩阵是一个极其稀疏的高维矩阵(角逐中赛道二7w*400w),通过svd剖析,提取前n个主身分组成浓密特征,输入模型中训练,可以大大淘汰盘算量。对于角逐提供的特征,我们举行了user-item,user-author,user-title的s。


本文关键词:爱体育APP

本文来源:爱体育APP-www.zyxtel.com