百度推荐系统登上国际最高技术讲台
信息爆炸曾给如饥似渴的网民带来甘露,但海量信息泛滥也让网民焦头烂额。如今,多家互联网公司开始尝试通过编辑精选、智能推荐等手段为网民呈现真正“对胃口”的信息。正如《长尾理论》的作者克里斯·安德森所说,We are leaving the age of information and entering the age of recommendation.(我们正在远离信息,而进入推荐时代。)
9月中旬,被誉为推荐系统领域的顶级国际会议——ACM RecSys 2012在爱尔兰都柏林举行,在此之前,RecSys大会已在明尼阿波利斯、洛桑、纽约、巴塞罗那、芝加哥先后成功举办五届。
RecSys 2012吸引到了来自世界高校的顶级学者以及互联网领域的知名公司研发人员的参与,比如LinkedIn,Yahoo!,Microsoft,Facebook等,议题涵盖推荐算法、社会化推荐、用户建模、机器学习和人机交互等前沿领域。在这样的顶级国际会议上,也出现了中国互联网公司的身影,来自中国内地的百度是唯一参加这个会议的国内公司,也是第一家以论文作者的身份参加会议的国内公司。
在会议上,百度发布了论文:Enlister:Baidu's Recommender System For The Biggest Chinese Q&A Website(中国最大问答平台上的百度推荐系统服务)。这份论文受到了国外同行的一致认可,并最终被大会录用。据悉,RecSys 2012此次共接收长论文24篇,录取率20.2%;接收短论文21篇,录取率31.8%。
百度这一课题实际上是百度产品研发的一个附带成果,全部由百度一线工程师完成,主要来自推荐与个性化部和百度知道产品研发部门。论文的主要成果基于百度知道问题推荐系统,现在它每天都在为百度知道的两亿用户提供问题推荐服务。同时,这些技术后续还将作为通用基础技术,应用到推荐与个性化部门其它产品中,比如百度新首页导航、百度贴吧个性化帖子、百度视频个性化视频等产品。
在研发过程中,面对世界性推荐技术难题,两部门人员在研发开始时即达成共识,准备使用一系列创新的策略来解决问题。首先,他们将用户的使用行为,经过隐私处理后,进行了多个层次的兴趣、状态和行为分析,为每一个用户建立用户模型,从而给出属于个人的推荐结果,达到“一人一世界”的用户体验,以此完善用户模型。
其次,他们创新地将推荐中的排序的任务转化为点击率预估的问题,使用机器学习框架来解决这个业界公认的难题,以此构建机器学习排序模型。
此外,他们还使用了流式计算框架,将一个问题从提出到准确推荐给对这个问题有兴趣的用户的时间缩短为10分钟,保证合适的问题能够快速的展现给合适的用户来快速解决。
事实证明,他们采用的通用用户模型、机器学习排序和流式计算在项目中取得了非常好的效果。项目上线后,百度知道回答量从8.4万提升到10.2万,提升了21.4%;转化率从0.148%提升到0.179%,提升21.0%。
他们的这一成果一是证明了机器学习策略应用在推荐排序中的重要性,后续会持续优化并推广到更多产品中;二是流式计算架构能给用户带来的良好体验,使得它会作为后续推荐产品中的核心架构并推广;三是证明百度推荐技术的研发处在推荐业界的领先水平,对百度后续的发展规划具有一定的指导意义。
研发并非一帆风顺。据百度工程师介绍,研发过程中,他们在机器学习排序问题的样本和特征选择上就曾遇到困难。
“按照比较流行的搜索广告点击率预估的思路,负样本会选择用户没有点击过的内容。这种做法对样本量和特征量要求极高,业界通常的广告点击率预估系统通常有十亿或者百亿级别的样本,亿级别的特征,通常需要成百上千台机器来做模型训练的工作,这样的机器预算对产品线来说是没法承受的”。
据一位参与研发的百度工程师介绍,这一问题困扰了他们一段时间。后来在自然语言处理部机器学习组以及百度知道的共同讨论和调研中,他们逐渐摸索出一套小型的样本选择和特征抽取方法。他们提取了百万级的样本和百级别的特征,这样就能够在不大幅减少模型精度的情况下,用几台机器就能完成模型训练的工作,“得益于机器学习组同事丰富的机器学习经验和产品线同事对产品的深刻见解,最终大家一起漂亮的解决了这个难题”。
近年来,随着以 Facebook、Twitter为代表的社会化网络异军突起,用户贡献内容,社会化途径传播,让信息量几何倍数爆炸,以用户为核心的信息“推荐”时代已经来临,无论互联网格局是否会发生巨变,那些具有技术实力、富有前瞻性的互联网公司必将引领下一个互联网浪潮。
文章版权归西部工控xbgk所有,未经许可不得转载。