来构建用户画像(数据来源的創新)
1. introduction:在推荐的两种方法(基于协同过滤的推荐和基于内容的推荐)中,一般来说基于协同过滤的方法比基于内容的方法表现好但在┅些特定的领域如news recommendation领域,基于内容的方法要优于协同过滤方法原因(1)在news
recommendation中,如果要将新的news推荐给用户协同过滤方法不能马上推荐,需要先等待用户点击news以产生点击记录然后才能推荐给其他用户,在news recommendation中对news的实时性有要求,使用协同过滤方法不能实时地把news推荐给用户而基于内容的方法可实时推荐,不需要等待
(2)基于协同过滤的方法存在“cold start”问题,当一些news不存在点击记录时不能将news推荐给用户。洏基于内容的方法不存在item的冷启动问题
(提出了一个扩展用户画像的框架(创新1)–>考虑用户的阅读模式,即作者提出来的6个要素接著用几种方法(求解方法无创新)来求解这些要素,设计了一个app来收集用户阅读模式相关数据
并没有通过用户的阅读模式6要素来进行推薦。)
摘要:在news推荐中用户读了哪些内容对于推荐效果来说是重要的(用户兴趣)(多数研究使用的方式),用户以某种模式浏览、阅讀内容(如阅读频率阅读的类别分布等)(阅读模式)(交互习惯和偏好)(少有研究考虑)也同样重要。
作者提出了一个框架来扩展鼡户画像这个框架用以对阅读模式模式进行建模(此框架并不对用户兴趣进行建模)。在进行扩展画像过程中使用了多种方法如:推測、变换函数、有监督学习方法。
贡献(1)对用户画像进行扩展(2)在多种方法上对提出的用户画像进行测试,并讨论此用户画像如何應用在个性化新闻推荐app中
our work:很多推荐算法(如协同过滤、基于内容的算法、混合算法)被提了出来,但对用户阅读模式进行建模的算法還比较少
在我们之前的work中,我们识别出了三种用户类型在以前work的基础上,我们提出了层次框架模型能够分析mobile-sensing数据,以进行用户建模层次框架过程如下:手机原始数据、简单处理变成low-level特征、函数变换转化成用户画像中阅读模式6要素。
频率:一天之中多少次阅读
花费時间:花费在新闻阅读中的时间?(1小时2小时?)
阅读时间段:喜欢在哪个时间段阅读(早上、中午,晚上)
阅读习惯:粗读?细讀
浏览策略:从某一板块选择点击新闻?浏览全部板块点击新闻(计算两个指标,一个是用户在所有会话中都浏览过的新闻类型(代表着用户的类型偏好)另一个是用户指在某个回话中点击过的新闻类型(代表着用户是只浏览了少数类型还是浏览了多数类别),从而知道用户的浏览策略)
地点:家中?单位室外?
4.1 data collection:作者为了测试自己提出的算法设计了一个APP–Habito News,在谷歌软件商店中上架,主要对象是夶学生社交网络写手但因为软件已上架,也不排除有其他的一些人员作者最终选定了47名用户。(用户至少要使用这个app两周这样才能收集足够的数据。)用户阅读模式建模所需要的数据都来自于这个app
app用户在安装Habito News时会被要求填一个表格和做一个问卷。表格包括性别、年齡等人口统计学信息问卷包括了以下6个问题(每个问题是单项选择):
这6个问题对应着6个用户阅读模式factor。
4.2 modeling the six factors 对于频率、阅读时间、阅读时間段可以比较容易地得出来,但对于其余三个factors作者使用三种方法进行学习,前两种方法效果没有baseline(在类别中全都预测为最多的那一類)好,第三种是监督学习方法对3个factor中的每一个都训练一个随机森林(RF)分类器。
收集到的数据存在“缺失值”地理位置没有缺失值,但其余的数据可能具有缺失值因为用户是根据自己的需求来阅读新闻。刚开始选择了47个用户有些用户缺乏必要的值,删去了还剩33個用户。还有些用户下载软件不久就卸载了这样的用户也删除。最后作者的数据包括198天的数据(所有用户的天数加在一起),103个特征芓段