中国技术商业论坛组委会主办、《IT经理世界》杂志社承办的“中国技术商业论坛”在京举行,豆瓣首席科学家王守崑与会进行了主题演讲。王守崑表示,个性化推荐会是整个互联网,包括移动互联网的下一件大事。能够成为大数据它的首要条件必须是增长非常快,就是必须得以线性增长,然后快,这是第一个。第二个它必须有复杂的内部结构。
腾讯科技对本次盛会进行了全方位专题报道。
以下是文字实录:
谢谢各位,感谢主办方和《IT经理世界》能给大家提供这样一个平台。今天我演讲的题目是“大数据时代社交图谱与兴趣图谱的融合”也是豆瓣在过去几年在数据和科技化方面的一个经验的积累。首先,我想问大家一个问题,这个词我们听了好长时间了,大数据,什么是大数据?这个词大概从去年,然后很多人就不停的听到,可能很多同学在跟硬件相关的厂商那边听到,所以有的同学说是不是硬件厂商把其他的东西重新包装一下,让我们都卖产品。
我们看这个例子,第一个如果我们把全球所有的移动电话和用户的通话记录放在一起,这个叫大数据吗?我听有同事说算大数据。第二个是所有的门户网站,我们说中文的门户网站,几个大的门户网站,每天产生的新闻,这个算大数据吗?有同学说算,有同学说不算。第三个这个东西可能用的不多,原来还有,就是特别厚的一本,上面各种机构或者有些时候还有个人的电话和他的地址,如果假设有这么一个东西,全世界的各个机构的电话跟他的地址综合在一起,可能也是非常大的数据量,几十亿,几百亿的数据量,这个算大数据吗?
下面,我用我自己的理解,这纯粹是我个人的一家之言,不代表任何人来看一看这几个东西到底算不算大数据?我觉得大数据的第一个条件就是所谓的超线性增长,你得增长特别快,超线性这个词有一个广义的理解,有一个狭义的,狭义的就是增长的斜率必须是固定的,必须大于1,必须得比线性斜率不能是恒定的。广义的理解,就是即便是线性的,只要你是大于1的,就叫超线性增长。我在这里使用的是广义的含义,就是你只要斜率大于1就算超线性。这个词在美国的一个研究所,有一位物理学家是研究所有城市和机构为什么能够长这么大,为什么我们这个世界上有超大型的城市,他在研究这个的时候提出的这样一个理论。我把这个东西借鉴到这个理论来,就是一个数据源产生数据,能够成为大数据它的首要条件必须是增长非常快,就是必须得以线性增长,然后快,这是第一个。第二个它必须有复杂的内部结构,为什么说要有复杂的内部结构呢?如果仅仅是简单的数据机构,没有办法分析出更深的结果,没有办法从里面得到更多的信息。有复杂的数据结构之后,再配合上超线性的增长,我们就可以从里面分析出很多有意思的结果,能够得到很深的一些洞察。
满足前面这两条的其实最最简单的例子大家每天接触的就是互联网,它为什么能满足前面两条呢?第一、首先它是网络,网络的本质就是互相有连接。我们这个屋子里大概有100多人,假设150人,这样一个状态,如果是线性增长,我们每个人产生的数据肯定是一定比例的线性增长,但是如果我们之间互相之间都认识,两两之间都认识,这就是一个平方量级,就是150×149,或者150平方的关系。在这个关系上产生的数据就叫做超线性增长的数据,具备这样条件的把它叫做大数据。
除此之外,当然还有第三点,不是硬性的一个规定,只是说为什么我们在现在这个条件下大家会更多的讨论什么是大数据?那就是我们现在能够以非常低的成本去接触大数据,从大数据中挖掘出有意思的信息。这张图是大概二三十年内存下降的趋势,纵轴是对数,这实际上是线性下降的。我自己的印象也非常深刻,大概在20多年前,我念大学的时候,我的第一台电脑,想把内存搞大一些,所以我花了差不多快2000块钱买了一个内存条,当时看来已经非常大了,16兆的一个内存条,当时2000块钱。我们现在2000块钱可以买好几十G的内存了,这个下降非常快。这个也就使得普通的公司,非常小的公司,甚至是个人都能够去从硬件的角度来看,都能够处理大数据,都能够从大数据中挖掘出对自己有用的,或者对用户有用的价值。所以,这个是我个人的一个看法,就是什么是大数据,哪些东西能够成为大数据?
回来看前面说的三个数据源,这是我个人的观点。第一、我觉得它是大数据?为什么?因为我们之间的通话,交往的过程,它是一个网络状的,是超线性增长的,并且我们的通话内容是非常复杂的,具有复杂的数据结构,包括我们的时间,包括方方面面的算法。第二个例子是这样,如果只是每天产生的新闻,它不算大数据,为什么?因为这个量是有限的,每天也就是大概几十万,上百万条,而且每天的增长也是有限的。但是,如果把用户的浏览记录,甚至把新闻的内容,比如说你对这个文本做分解,把这个文本之间产生互相的联系的话,这个就算大数据。因为这些新闻网站的用户量是非常庞大的,从浏览记录能够分析出用户的兴趣,这个超线性的增长,它的数据结构会是非常复杂的一个结构,所以这个算是大数据。第三个在我个人来看,它不算大数据,虽然它的量非常大,几十亿,上百亿的量,但是它的数据结构非常简单,并且它的增长不是超线性的增长,仅仅是线性的增长。这个纯粹是我个人的一个观点,跟大家分享一下。
我们豆瓣上线已经有八年多的时间了,我们专注于一个都市青年的文化圈和生活的这样一个线上服务。我们管我们自己叫做基于兴趣图谱的社会化网络服务。从上线开始,我们就做一件事情,就是个性化推荐,我们依据用户的历史的兴趣,或者他表现出来的偏好,给他推荐他可能感兴趣的,但是他还不知道的东西。这也是个性化推荐所能做到的最重要的一点,就是它能够帮你发现未知的,它跟搜索引擎不一样,你在搜索引擎做搜索的时候必须心里有一个想法,或者你要知道是什么东西,你搜现在最热的电影。但是,如果你不知道你想看什么电影的时候,这个时候推荐引擎就可以帮到你。
这是我个人的一个简单的分类,个性化推荐到现在大概有20多年的发展历史,最早在Web1.0的时代,那时候有非常多的垃圾邮件,当时用协同过滤的算法找到这些垃圾邮件的发送者。随着亚马逊把个性化推荐用到它的电子商务网站之后,其他很多网站都使用了这种个性化推荐的技术,豆瓣在05年一上线我们的创始人就使用了这个个性化推荐的技术为大家做推荐。
截止到目前来看,个性化推荐可以用在社交图谱里面,社交的社会网络里面,可以用在兴趣图谱里面,比如像豆瓣,还有像一些电子商务网站,用户依据兴趣挑选商品,或者挑选产品的这样两个大的纬度。纵向来看,我们可以把这个服务分成信息服务,是工具、体型的服务,以及交易类的服务,我用方块的大小表示个性化推荐技术在这些领域的使用。从目前来看,基于交易的兴趣图谱和基于信息的兴趣图谱上是使用的最多的。豆瓣对各种各样的产品都去做推荐,这是我们尝试后的一些结果,这里只是一个大概的数字,并不是实际的产品数据。从我们这边来看,比如说单曲的推荐,图书的推荐,小组的推荐,都会获得很好的效果。我们用几个纬度衡量个性化推荐的效果,一条目数和用户数,一个是时效性和多样性,比如时效性,这个产品出来多长时间之后,用户就对它没兴趣了。比如新闻,一般来说我们的经验是一天半以前的新闻用户就不会有兴趣了,但是比如书的话,时效性非常强,几百年前,几千年前写的东西,人们还在读。兴趣的不同,对个性化推荐的选择会有很大的影响。我们还尝试了很多我喜欢的这些东西,可能稍微偏技术性一点,就是用不同的算法,不同的模型看个性化推荐在不同纬度上的表现。我们的结论是说比较简单的算法,比如最简单的协同过滤算法,其实它在各个方面都有必须好的结果,也就是在数据量达到一定程度之后,其实算法和选择更多需要看你实际用户的需要,其实往往简单的算法会有好的一些结果。
个性化推荐技术可以给我们网站带来非常大的效果上的提升,这是一个大概的数据,它的最大的优势就在于新用户的转化率,尤其是新用户在头几个访问的时候,如果你能抓住他的兴趣,迅速给他推荐一些他感兴趣的产品,或者是感兴趣的信息,它的转化率会大大的提升。豆瓣上线没多长时间我们就发现在依据兴趣的这样一个社交会给用户的活跃度带来很大的提升,所以我们在产品中也加入一些社交的元素。当然,社交图谱方面我相信大家都非常了解了,在这里就不做介绍了。
我们做社交图谱的时候发现这个东西比兴趣图谱要复杂的多,它的复杂其实来源于一个是人与人关系的复杂性,人跟产品之间的关系相对比较简单,我喜欢这个产品,我不喜欢这个产品,这个描述大概能描述你80%的情况。但是,人跟人之间的关系就很复杂,没有一个简单的,或者说是清晰的模型去描述人与人之间关系的这个复杂性,或者人与人之间关系很难用单一纬度描述的,我们人与人之间的关系非常复杂。第二、人与人之间交互在网站上表现成文字了,现在互相的回帖,或者互相说个话等等,这个语义的复杂性也不是现在计算机技术能够完全掌握,或者完全攻克的一个难题,所以语义的复杂性也带来描述人和人之间关系的复杂性。
我们解决这个东西的一个办法,最后我们用了一个相对比较简单的办法,效果还不错的办法,其实就是我们用人来描述人,结合编辑的一些力量,结合算法的力量,用人描述一群人,给每一群人找到一些代表性的人物,然后用这些代表性的人物的特点表现他的兴趣描述整个一群人这样的特点。这一点在我们个性化推荐方面,就是我把人和人之间的社会关系用到个性化推荐方面也取得了不错的效果。
兴趣图谱跟社交图谱的一个重大区别,在这里做了一个简单的描述,在兴趣图谱中人群更多是一个生人的网络,大家来到兴趣图谱之前互相之间不太认识,依据兴趣来结合新的网络。但是,社交图谱更多是熟人的网络,尤其是强社交的关系,像大家现在用的微信,手机里的通讯录等等,这个是熟人的关系。不同的人群它表现出的特点其实也是不太一样的,比如说社交图谱在黏性上和频度上都很高,但是它在持久性上,有时候有的产品比较高,但是有的产品其实也没有那么高。兴趣图谱一般来说黏性和频度都没有那么高,但是它的持久性会比较好一些,因为兴趣一般都会是长期的兴趣。依据这样不同的特点,在我们做个性化推荐的时候可以有不同的一些考量。
我们把社交图谱融入兴趣图谱也有一个很大的提升,首先是推荐准确率提升了,纯粹用兴趣图谱做推荐的时候,新用户转化率比较好。把社交图谱融合进来最大的挑战其实就是数据层面的挑战,我们有上亿量级的用户,每个用户细分的兴趣大概有上千种,我们整个用户的兴趣。每个用户相对比较强的社交的关系大概有几百种的样子,或者上百类。那么,这个乘起来其实就会是一个非常大的数据量,也就是我们会用几十万的维的向量描述一个人,甚至摆成一千量级的数据描述一个人,我们还要找人跟人之间的关系,在数据上就会是非常大的一个挑战,也是我们每天的工作要做的事情。
对于我们来说,我们期待下一代推荐系统就是除了融合兴趣图谱和社交图谱之外,我们真正想做的事情其实是给用户的一个引导,能够帮助用户发现它真正有价值的东西。其实现在的个性化推荐往往很难解决一个惊喜的问题,现在的个性化推荐很多时候,你看过天龙八部,给你推荐笑傲江湖,这个没有什么兴趣,我们主要要解决的就是帮助你进一步探索你未知的,而且对你很有用,而且能给你带来惊喜的这样的推荐的领域。
从我个人来看,我也认为在现在的网络融合的时代,有云计算好的基础,有强大的社会网络和兴趣网络,然后随着移动互联网的发展,我们大家也更愿意去把自己的信息放在网络上,我们的手机是非常个人化的一个产品,从我个人来看,我也认为个性化推荐会是整个互联网,包括移动互联网的下一件大事。谢谢各位!