知洋娱乐:微博热门用户粉丝相似度如何计算?相信不少人是有疑问的,今天深圳市知洋文化传媒有限公司就跟大家解答一下!
标签传播微博算法实现起来比较简单,其缺点在于当所做的假设不符合事实时,比如为了社交上的礼貌,我们一般会把自己的亲友添加关注,这些人不一定和我们拥有同样的标签;该微博算法的结果就会变得很差。
解决的办法就是通过计算用户粉丝之间的相似度来衡量好友或粉丝的标签,以此对用户粉丝标签的贡献率,因而得到第二个假设:
与用户粉丝越相似的好友或粉丝,其标签越可能是用户粉丝的标签。那么微博热门用户粉丝相似度如何计算?接下来就跟着知洋娱乐小编一起来看下吧!
知洋娱乐:微博热门用户粉丝相似度如何计算如下:
这就需要考虑到用户粉丝发表的新浪微博信息了,包括转发的和原创的,这里是要考虑用户粉丝之间的相似度,而不是用户粉丝新浪微博之间的相似度,因而在实际计算时,将某个用户粉丝的所有新浪微博信息聚集到一起进行计算。
一个可选的方法是使用词袋法,将新浪微博信息表示成词语向量,然后直接使用余弦方法等计算其相似度,但这个方法太过简单,不容易达到好的结果,这里介绍一种基于LDA(隐含狄利克雷分布)的相似度计算方法。
LDA仍然使用词袋法表示文本,但是在中间添加了一个主题层,形成了“文档-主题-词语”三层概率模型,即每篇文档看成是主题的一种概率分布,主题又被看成是单词的概率分布,在LDA模型下,文档可以被看成按照如下方式生成:
1、对于每篇文档;
2、从主题分布中抽取一个主题;
3、从该主题的词语分布中抽取一个词语;
4、重复第2步和第3步,直到该文档的所有词语都生成。
LDA模型参数的估计微博算法不在本文的讨论范围之内,这里只需要知道,通过LDA可以得到每个用户粉丝的新浪微博信息的主题分布,然后使用余弦方法、KL距离等计算相似度的方法来得到用户粉丝间主题分布的相似度,以之作为用户粉丝之间的相似度,而后使用该相似度对标签传播进行加权。
以上就是深圳市知洋文化传媒有限公司小编给你们介绍的知洋娱乐:微博热门用户粉丝相似度如何计算,希望大家看后有所帮助!
特别声明
本文仅代表作者观点,不代表本站立场,本站仅提供信息存储服务。