rss
    0

    天池-新闻推荐之赛题理解+Baseline

    2024.02.13 | admin | 92次围观

      新闻推荐比赛链接

      赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

      :训练集用户点击日志

      :测试集用户点击日志

      :新闻文章信息数据表

      :新闻文章embedding向量表示

      :提交样例文件

      此次比赛是新闻推荐场景下的用户行为预测挑战赛,该赛题是以新闻APP中的新闻推荐为背景,目的是要求我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为, 即用户的最后一次点击的新闻文章。

      明确此次比赛的目标: 根据用户历史浏览点击新闻的数据信息预测用户最后一次点击的新闻文章。从这个目标上看,此次比赛和普通的结构化比赛不太一样, 主要有两点:

      首先是目标上,要预测最后一次点击的新闻文章,也就是我们给用户推荐的是新闻文章, 并不是像之前那种预测一个数或者预测数据哪一类那样的问题。

      数据上,通过给出的数据我们会发现,这种数据也不是特征+标签的数据,而是基于了真实的业务场景,拿到的用户的点击日志。

      所以思考方向就是结合目标,把该预测问题转成一个监督学习的问题(特征+标签),然后才能进行ML,DL等建模预测。转成一个什么样的监督学习问题呢? 由于我们是预测用户最后一次点击的新闻文章,从36万篇文章中预测某一篇的话,首先可能会想到这可能是一个多分类的问题(36万类里面选1), 但是如此庞大的分类问题做起来可能比较困难,那么能不能转化一下? 既然是要预测最后一次点击的文章, 那么如果能预测出某个用户最后一次对于某一篇文章会进行点击的概率, 是不是就间接性的解决了这个问题呢,概率最大的那篇文章不就是用户最后一次可能点击的新闻文章吗,这样就把原问题变成了一个点击率预测的问题(用户, 文章) --> 点击的概率(软分类)。

      (接下来的问题:哪些模型可以尝试呢?能利用的特征又有哪些呢? 面对36万篇文章,20多万用户的推荐,又有哪些策略来缩减问题的规模大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!?如何进行最后的预测?)

      最后提交的格式是针对每个用户给出五篇文章的推荐结果,按照点击概率从前往后排序。 而每个用户最后一次点击的文章只会有一篇的真实答案, 所以就看提交结果中推荐的这五篇里面是否有命中真实答案的。比如对于user1来说,提交格式为:

      user1, article1, article2, article3, article4, article5

      评价指标的公式如下:

      假如article1就是真实的用户点击文章,也就是article1命中, 则s(user1,1)=1, s(user1,2-4)都是0, 如果article2是用户点击的文章, 则s(user,2)=1/2,s(user,1,3,4,5)都是0。也就是score(user)=命中第几条的倒数。如果都没中, 则score(user1)=0。命中的结果越靠前分数越高大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。

      下面为在jupyter notebook上写的baseline代码。baseline采用基于Item的协同过滤的方法。 > 有关协同过滤在我的另一篇博客里有介绍大佬们都在玩{精选官网网址: www.vip333.Co }值得信任的品牌平台!。博客

      为了预测最后一次点击的文章,需要知道用户时间上先后点击文章的顺序

      推荐系统的推荐算法包含基于人口统计学的推荐、基于内容的推荐、基于协同过滤的推荐,其中基于协同过滤(Collaborative Filtering, CF)的推荐又包含基于用户(user)的协同过滤和基于物品(item)的协同过滤,此处为ItemCF。

      Caution:setdefault函数:如果键存在,返回值;如果键不存在,设置其(默认)值并返回。

      召回(match)是指从全量信息集合中得到用户可能感兴趣的一小部分候选集。召回后则是排序,排序是将召回阶段得到的候选集内容进行打分排序,选出得分高的几个结果(It depends.)推荐给用户。

      

    天池-新闻推荐之赛题理解+Baseline

    天池-新闻推荐之赛题理解+Baseline

    版权声明

    本文仅代表作者观点,不代表xx立场。
    本文系作者授权xxx发表,未经许可,不得转载。

    发表评论