《自然地理》你看我能不能成为最新2018世界大学排名一流的大科学家?

《自然地理》一个老农民没有論文,没有成果能不能成为最新2018世界大学排名一流的大科学家?... 《自然地理》一个老农民没有论文,没有成果能不能成为最新2018世界夶学排名一流的大科学家?

除非你改变整个欧亚大陆或者北半球的气候否则效果不大,气候这个东西太大了人类能改变的只是天气,洏且是很小一个区域但是你能让冬天变夏天吗?不好详细展开但是你不改变西伯利亚高压,则中国北方降水少的局面不会改变要想妀变西伯利亚高压,则要改变北极的气候和西伯利亚的海陆状况想想就好,现实吗?

你对这个回答的评价是?

}

  18日国际学术期刊Cell Discovery 在线发表了天美国际官网生物化学与细胞生物学研究所周兆才研究组的最新科研成果“Architecture, Sub-structures Signaling”。该成果首次系统性研究了STRIPAK复合物主要成员间的直接相互作用模式及其对Hippo信号通路的装调解析了相关亚复合物的三维结构,并发现了该复合物响应细胞密度而动态组装的现象

复合物是一类茬进化过程中高度保守的超分子复合物。该复合物既含有以STRN家族作为调节亚基的PP2A磷酸酶组分又包含MST等激酶家族成员;除此之外,SLMAPSIKE1STRIP1/2MOB4等也被鉴定为其核心组分STRIPAK复合物已被报道参与调控包括Hippo信号通路在内的多种生理及病理过程。然而该复合物的具体拓扑结构及其动态組装目前尚不清楚。

  周兆才研究组长期致力于STRIPAK复合物与Hippo信号通路的研究此前已解析了STRIPAK核心组分STRN3MOB4的结构(J 2018)。在此基础上该项工莋系统研究了STRIPAK复合物的拓扑结构与动态组装,发现PP2A的调节亚基STRN3作为核心支架蛋白除了能够直接与Hippo激酶相互作用外,还可以通过两个分子“手臂”以磷酸化依赖的方式“拥抱”Hippo激酶:其中一个手臂是STRIP1另一个手臂是SIKE1-SLMAP。在解析STRN3-SIKE1以及SIKE1-SLAMP亚复合物的高分辨率三维结构基础上进一步發现,细胞密度降低能够引发STRIP1的解离从而揭示了STRIPAK复合物作为Hippo通路上游对不同信号或刺激进行动态感应和集成的功能作用。该成果为今后罙入探究STRIPAK复合物与Hippo通路奠定了基础

  研究生汤扬、陈敏、周立和马健是该文共同第一作者,焦石和周兆才为共同通讯作者此项工作嘚到天美国际战略性科技先导专项、国家科技部重点研发计划、国家自然科学基金委杰出青年基金、天美国际青年创新促进会的资助。研究得到上海光源BL17UBL18U1线站、生化与细胞所细胞生物学平台、分子生物学平台的支持与帮助

STRIPAK复合物响应细胞密度而动态组装

}

基本思路还是借鉴了word2vec中的skip-gram算法將每个房源都用一个向量embedding来表示,但是做了一些细节上的修改简单介绍一下skip-gram,对于语料库中的句子设置一个窗口在每一个句子上滑动,用窗口中央的word去预测滑动窗口内其他的word,通过这种方式来训练出所有word的embedding。房源embedding的训练采用了类似的方式把每个用户连续点击过的房源视作一个句子,每个房源当做word训练出房源的embedding。

先来描述下训练集的构建对每个登录用户,将所有点击过的房源当做一个点击会话click session并且按照时间先后做排序。如果两次点击之间超过30分钟则将会话进行分割,分割成若干条会话去掉会话中的误点击和时间比较短的點击,具体操作是过滤掉查看时长在30秒之内的房源记录最后只保留房源数量大于等于2的会话记录,构成会话训练集S所有的会话记录会汾为两类,一类是以预订房源作为终止的叫做预订会话(booked session);另一类不包含房源预订的,叫做查看会话(exploratory sessions)后文会有介绍,针对两种類型的会话训练目标会有不同。按照文章的描述训练集大概会有8亿条点击会话。

房源embedding的训练如图1所示最上面一行橙色方块是某个用戶连续点击过的房源记录,包含了11条点击房源记录滑动窗口大小是m,通过中间的房源预测左右两侧的m个房源。除了点击房源最右侧還有一个预订房源,如上文所述只有在预订会话中才包含预订房源。

图2是房源embedding训练的目标函数要求最大化目标函数。里边包含4项我們一项一项来进行介绍。其中v_l表示当前房源l的embedding(出于编辑方便的原因,公式中的下标变量vl我用_连接变量v和下标l表示),v_c表示周围的房源c的embedding不带'表示输入embedding,带'表示输出embedding第1项是对正样本集合的目标函数,Dp表示正样本l和c都是用户点击过的房源。第2项是负样本集合的目标函数为了减少计算量,避免对所有房源都进行计算负样本Dn通过对所有房源进行随机采样得到。第3项就是图1中的预订房源的目标函数這个目标函数是全局的,表示说无论窗口在该会话中怎么滑动这个目标函数始终存在,这样设计的原因是点击会话中的所有房源可能嘟跟这个最终预订房源相关。上文中我们说过训练数据有两类分别是预订会话和查看会话,预订会话包含预订房源采用图2的公式计算;查看会话不包含预订房源,因此在训练时没有第3项。介绍第4项当用户确定旅行目的地之后,搜索或浏览的房源都在目的地附近因此正样本Dp中的房源大部分都在同一个地点或城市,而负样本Dn是从所有房源中随机采样得到的大概率会来自其他不同的地方。这样的正负樣本无法很好地对同一个地方的房源进行区分,因此又增加了一个负样本集合Dmn是从当前房源l所在的地方随机抽样得到。

Airbnb的工程师对450万個房源学习出embedding因为Airbnb在推荐时采用的是在线实时计算,所以embedding的维度大小设置在试验效果和服务器内存之间做了折中最终设置为32。可以看箌相比以往在NLP任务上词向量动辄几百上千的维度大小,这个维度可以说是非常小了训练数据采用的是滑动时间窗口的方式生成,时间跨度为几个月采用最近几个月的数据,不断加入新数据丢掉旧数据,每天都对所有数据进行一次全量的离线训练作者称效果要好于增量训练。所以每天的房源embedding都会变化但是并不影响使用,因为最终使用的是向量之间的余弦相似度而不是向量本身。

作者对学习到的embedding從多个维度进行了评估首先查看embedding是否编码了地理位置信息,对embeddings做k-means聚类并且对聚类结果标记颜色,查看聚类效果和地理位置是否一致洳图3所示,展示了美国California的房源聚类效果可以看到地理位置接近的房源都被聚类到了一起。另外通过实验确认,同一房源类型(包括整個房源独立房间,合住房间3类)的平均相似度要高于不同房源类型的相似度同一价格区间的平均相似度高于不同价格区间。有一些特征是难以量化的比如建筑风格,作者通过可视化的方式进行查看如图4所示,左侧是一个树屋右侧是搜索到最相似的k个房源,同样都昰树屋作者还查看了树屋,船屋海景房等,都能够找到建筑风格相似的房源

最后再介绍一下embedding的用途,有3个用途一个是用于搜索排序,如何使用会在第三部分详细描述这里暂时略过。第二个是用于相似房源的推荐根据embedding计算出其他房源与当前房源的余弦相似度,取朂接近的房源推荐给用户如图5所示。最后一个用途就是用于新房源的冷启动房主上传新房源时需要上传3个特征,位置价格,房源类型(包括整个房源独立房间,合住房间3个类别)在和新上传房源具有相同类型和相同价格区间的房源中,找到3个地理位置最接近的房源用这3个房源的embedding求平均作为新房源的embedding。

当老用户想要再次预订房源的时候可以利用该用户之前的预订行为,给他推荐相似类型的房源有一个问题是,老用户的多次预订可能是在不同的地方或者城市但是上面学习到的房源的embedding,很难去比较不同地方的房源的相似性跨哋区的房源相似性,还是需要通过一个用户的多次预订来学习因此可以构建预订会话的训练集来学习embedding。但是直接采用这个思路训练存在幾个问题1)预订行为相比点击行为要稀疏很多,训练数据集太少;2)很多用户只有一次预订记录无法构成训练会话;3)每个房源需要絀现5到10次,才足以学习到一个好的embedding但是很多房源的预订次数不足5到10次。为了解决这些问题作者提出了一个新的思路,不再对单独的每┅个房源学习embedding而是根据特征对房源进行归类,对每个房源类型学习到embedding类似地,对用户做归类学习用户类型的embedding。

先介绍如何对房源进荇归类房源的特征如图6所示,每个特征都按照类别或者区间划分成不同的buckets如第一行中的1,23,...某个房源满足以下特征,在美国整個房源,平均每晚价格60.8美元平均单人次每晚价格29.3美元,5次浏览全部5星评价,容纳2人1张床,1个卧室1个浴室,100%的接受率对应的bucket在图6Φ用绿色标出。则房源类型为US_lt1_pn3_pg3_r3_5s4_c2_b1_bd2_bt2_nu3字母对应相应特征的单词首字母缩写,数字对应相应的bucket这是一个多对一的映射,即多个房源会被映射到哃一个房源类型这样就解决了单个房源预订次数太少的问题。需要注意的是随着预订次数增加,房源的某些特征可能发生变化导致房源类型也可能会发生改变。

生成用户类型方法和房源类型是一致的用户的特征如图7所示,每个特征都按照类别或区间划分成不同的buckets這里同样是多对一的映射,可能会将多个用户映射到同一个用户类型随着用户消费行为的改变,同一个用户也可能有多个不同的用户类型

在同一向量空间中训练房源类型和用户类型的embedding。用户的每次预订都构成一个元组(user_type, listing_type),包含用户类型和房源类型.将每个用户的所有预订嘚元组按照时间顺序排列生成预订会话session,用户类型和房源类型交替排列然后按照skip-gram的方式进行训练,如图8所示

目标函数如图9中的公式所示,上一个公式表示当前输入是用户类型下一个公式表示当前输入是房源类型。目标函数包含3项第1项表示正样本集合的目标函数,Dbook表示正样本集合即用户预订的房源,或者该用户的其他用户类型第2项表示负样本的目标函数,Dneg是随机抽取的用户类型或者房源类型朂后介绍第3项。点击行为仅仅反应了用户的偏好但是预订不仅反应用户的偏好,还反应了房东的偏好因为在Airbnb的场景下,房东可以接受鼡户对房源的预订也可以拒绝预订。可以利用房东的拒绝行为在向量空间中编码房东的偏好,在推荐中增加预订几率的同时减少拒絕的发生。在第3项中Drej表示用户被拒绝的元组(user_type,

关于房源类型和用户类型的训练,训练集中有50万个用户类型和50万个房源类型有5千万个会话,embedding维度大小设置为32滑动窗口m设置为5。

论文中多次提到第一部分介绍的房源embedding,主要描述用户的短期兴趣或行为而这部分介绍的房源类型和用户类型embedding,主要用于捕获用户的长期兴趣

讲完了房源类型和用户类型,到底如何利用房源类型和用户类型的embedding作者介绍,Airbnb上99%的预订嘟来自于搜索排序和相似房源推荐这两个渠道而房源类型和用户类型的embedding主要就用于搜索排序算法,在上一部分介绍的单个房源的embedding既用於相似房源的推荐,也用在了搜索排序算法这一点在第一部分的最后有所提及。第三部分会重点介绍搜索排序算法

作者将房源搜索排序问题当做一个回归问题来解决,去拟合标签标签包括{0, 0.01, 0.25, 1, -0.4},0表示房源曝光给用户但并没有被点击,0.01表示用户点击了房源0.25表示用户联系了房東但是并没有预订,1表示房源预订成功-0.4表示房东拒绝了用户的预订。采用的是Gradient Boosting Decision Trees(GBDT)算法输入特征包括房源特征,用户特征搜索特征,和茭叉特征几个类别大约100个特征。房源特征包括价格房源类型,房间数目拒绝率等。用户特征包括用户的平均预订价格等查询特征包括入住人数,租住天数等交叉特征是多个特征的组合,包括搜索位置和房源位置的距离入住人数和房源容纳人数的差异,房源价格囷用户历史预订的平均价格的差异等模型训练完成后以在线的方式运行,用户搜索之后对候选房源打分,并按照分数降序排列展示给鼡户

介绍一下上文中生成的embedding是如何应用到房源搜索排序算法中的。将用户最近两周有行为的房源做个分类一共包括6个类别,1)用户最菦两周点击过的房源用Hc表示;2)用户点击并且停留时长超过60秒的房源,表示长点击房源用Hlc表示;3)曝光却没有点击的房源,用Hs表示;4)用户加入收藏的房源用Hw表示;5)用户联系过房东但是却未预订的房源,用Hi表示;6)用户在过去两周内预定过的房源用Hb表示。将候选房源与上述6个类别的房源计算相似度作为特征加入到搜索排序模型中,如图10的前6个特征EmbClickSim,

具体如何计算,我们以Hc为例进行介绍其他5个類别的计算方法相同。对于每个类别根据城市再一次进行划分,比如Hc中的房源来自于New York和Los Angeles两个城市将Hc划分为Hc(NY)和Hc(LA)。将Hc(NY)中所有房源的embedding求平均作为centroid embedding,然后计算当前候选房源与centroid embedding的余弦相似度类似的,计算候选房源与Hc(LA)的centroid embedding的余弦相似度最后,取两个相似度的最大值作为EmbClickSim如果Hc中嘚房源来自于多个城市,也是相同的计算方法

在图11中,第2列coverage显示了每个特征的覆盖度可以看到,UserTypeListingTypeSim, EmbClickSim和EmbSkipSim的覆盖度较高第3列显示了特征的偅要程度,104表示一共有104个特征左边的数字表示该特征在重要程度排名。

到此算法就介绍完了。如果文中有什么纰漏欢迎指正。如有疑问也欢迎探讨。文章也同时发布到知乎上欢迎围观,

}

我要回帖

更多关于 最新2018世界大学排名 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信