电子商务推荐系统主要推荐技术

摘 要:推荐系统作为解决信息超载问题的有效工具,受到国内外研究者的广泛关注.本文简要描述了推荐系统的定义以及作用,重点介绍了基于规则的推荐、基于内容的推荐和协同过滤推荐这三种算法,分析了每种算法的优缺点,并描述了混合推荐技术的基本思路.文中列出了几种评价推荐系统性能的重要指标.


关 键 词:电子商务;推荐算法;评价指标

中图分类号:TP311

目前网络交易已逐渐得到人们的认可,成为人们日常生活中的重要部分.众多企业开始创建电子商务网站,希望通过网络交易的低廉成本获得更大的商业利润.目前,电子商务网站数量不断增多,网站的用户对其提供的服务质量要求也越来越高.因此更好地了解用户的需求,提供更优质、个性化的服务成为各大电子商务网站竞争的有利条件.推荐系统就是在这样的环境中产生的.

1电子商务推荐系统的作用

著名的电子商务网站亚马逊积极地应用和推广了个性化推荐系统,至于推荐系统究竟给亚马逊带来了多少经济利润,目前亚马逊还没有明确公开过,但亚马逊的前科学家GergLinden在他博客里曾说过,在他离开亚马逊的时候,亚马逊至少有20%(之后的一篇博文则变更为35%)的销售额来自推荐算法.研究表明,电子商务的销售行业,尤其在书籍、电影或者日用百货等商品相对较低而且种类繁多的行业,推荐系统能有效提高企业的销售额.推荐系统之所以能给商家带来巨大的经济效益,其优势在于它能分析用户的行为数据,概括出用户的爱好特征,从而可以根据用户自身的需求提供推荐列表项目.如果网站中的商品或者用户兴趣倾向发生改变,推荐系统也可以进行实时更新,自动改变推荐列表.

推荐系统的作用主要有几下几点[1]:

(1)挖掘潜在用户.用户购买意向不强时可能只是随意地浏览商品,如果此时推荐系统的推荐结果能够引起用户的兴趣,浏览者就很有可能变成购买者.

(2)提高网站连锁销售的几率.用户在网购过程中,如果推荐系统能向用户提供一些他极有可能会购买的商品,这样就能够促进商品的连锁销售.比如那些用户需要但一时还没想起购买的商品.

(3)增加忠实用户的数量.如果推荐系统能够为用户提供优质的服务,就会增加用户对网站的访问次数,最终发展成为忠实顾客.

2主要的推荐算法

2.1基于规则的推荐

基于规则的推荐就是通过挖掘关联规则寻找可以用于推荐的项目.所谓关联规则挖掘是一种在大规模交易中识别类似规则关系模式的通用技术.这种技术的典型应用就是从超市里经常购买的商品中发掘成对或成组的商品.假如用集合表示所有商品,集合T表示已经购买的商品,其中,集合T是集合P的子集.关联规则经常写成X等于>Y的形式,X和Y都是P的子集,并且X和Y交集为空.关联规则X等于>Y表示只要交易T中包含X集合中的元素,那么Y集合中的元素就非常有可能也在相同的交易T中.关联规则的衡量标准是支持度和可信度.关联规则X等于>Y的支持度是X和Y同时出现在一次交易中的概率,可信度是对应给定条件X时Y的条件概率.用公式可表示为:

.

简单的关联规则推荐算法过程如下:

(1)使用关联规则发现算法,确定与目标用户相关的关联规则X等于>Y的集合,即目标用户买过或者喜欢的集合X中的所有元素;

(2)计算出这些规则的Y集合中用户没有购买过的商品集S;

(3)按照规则的可信度从高到低的顺序对集合S中的商品进行排序.如果多条规则都推荐一个商品,则选取可信度最高的那条规则;

(4)输出排序列表中最前面的N个元素作为推荐结果.

2.2基于内容的推荐算法

基于内容的推荐:根据用户历史行为信息(如评价、分享、过的文档)构造该用户的爱好倾向模型,计算其他推荐项目与爱好倾向模型中文档的相似度,将比较相似的几个项目推荐给用户.基于内容的推荐系统的典型应用就是文档推荐,通过比较待选文章的主要关 键 词和用户过去高度评价过的其他文章中出现的关 键 词来推荐新文章.这些关 键 词能够明确表现出文档的特征.

基于内容的推荐算法依赖项目和用户兴趣偏好的额外信息,但是该算法不需要大量的用户评分记录,即使只有一个用户也可以产生推荐列表,因此不会受到稀疏性问题的影响.另外该推荐算法根据的是项目或用户偏好的描述信息,因此推荐结果能够解释为什么系统会选择这些项目推荐给用户,让用户能更直观的感受推荐系统带来的便利.但是基于内容的推荐算法仍然具有一定的局限性:

(1)对内容分析的不够深入.在推荐网页时,仅仅看文本内容可能无法确定网页的质量和偏好,比如美观、可用性、时效性或者超链接的正确性都能够决定网页的质量.另外目前的超文本文档中越来越多地包含多媒体元素的信息,比如图片、音频和视频序列,纯粹的基于内容的推荐算法却无法收集这些类型(图形、图像、音频、视频)的内容信息.

(2)推荐结果缺乏新颖性.基于内容的推荐系统是给用户推荐那些与他评价较高的项目相似的项目,因此推荐结果往往与用户熟知的项目太相似,缺乏新颖性.

(3)获取评分存在一定的困难.尽管基于内容推荐技术不需要大量的用户雀替,但至少需要来自用户的初始评分集合,一般来说是显式的“喜欢”和“不喜欢”标注集合.在所有的过滤技术中,推荐精确度会随着评分数量增加而提高,但在很多领域,用户可能不愿意在使用系统之前就给过多的项目评分.

2.3协同过滤推荐算法

协同过滤以其特有的优势成为众多专家和学者关注的焦点,目前在各大电子商务网站得到广泛应用.该算法的思想是:根据已有的评分记录计算用户或者项目的相似度;根据相似性结果找出当前用户(或项目)的最近邻;根据最近邻中用户(或项目)的评分预测当前用户评分情况,最终根据评分值大小确定是否将该项目推荐给用户.协同过滤推荐算法可以分基于用户的协同过滤(UCF)与基于项目的协同过滤(ICF)两种.这两个算法的共同点在于二者都基于用户-项目评分矩阵来建立推荐系统模型,进而为用户提供推荐服务的.区别在于UCF是根据用户之间的相似性找到目标用户的最近邻集,也就是在评分矩阵的行之间进行计算的,然后根据该集合中用户的评分情况确定将哪些项目推荐给用户.而ICF则是通过分析项目之间的相似性,也就是在评分矩阵的列与列之间进行计算,最终确定将哪些项目推荐给用户.

和基于内容的过滤方法相比,协同过滤方法具有如下优点:

(1)对信息内容没有特殊要求.协同过滤不考虑的具体内容类型,因此可以很好地分析图形、图像、视频、音乐等类型的信息.

(2)推荐结果具有一定的新颖性.协同过滤不考虑内容属性的差异,因此推荐结果可能是用户事先预料不到的.

目前,协同过滤技术已经得到了广泛应用.但是网站商 品信息量和用户人数在不断攀升,网站的结构也越来越复杂,因此基于协同过滤的推荐系统面临着一系列问题,其中比较受关注的有稀疏性、冷启动和可扩展性3个问题[2].

(1)数据稀疏性问题.在一些大型网站如亚马逊,用户评价过的项目质量相对网站中总项目数量可谓是冰山一角,这就导致了用户-项目评分矩阵中数据的极度稀疏,当数据量较少时计算用户间的相似度,其结果准确度不高,得到的最近邻集合不可靠.

(2)冷启动.冷启动包括系统冷启动、用户冷启动和项目冷启动.系统冷启动问题主要解决如何在一个新开发的网站上设计个性化推荐系统,从而在网站刚发布的时候就能让用户体验到个性化推荐服务.用户冷启动主要解决的是在没有新用户的行为数据时如果为其提供个性化推荐服务.项目冷启动主要解决将新上架的项目推荐给可能对它感兴趣的用户.

(3)扩展性问题.电子商务网站、商品、用户的数量都在不断增加,推荐系统将面临严重的可扩展性问题.

2.4混合推荐技术

上述的三种推荐算法各有优缺点,为了更好地提高推荐质量,可以将几种推荐技术组合在一起,尽管在理论上有多种结合方式,但在实际应用中并不是每一种结合方式都有效,因此要根据实际情况选择适当结合方式.

在结合方式上,Robin提出了七种思路[3]:

(1)加权.为多种推荐技术产生的结果设置合理的权重,将各项累加计算出最终结果.

(2)变换.每次推荐要根据实际情况选取一种最优的推荐策略.

(3)混合.将采用每种推荐技术产生的结果都提供给用户,用户可以从中选择自己最满意的项目.

(4)特征组合.组合来自不同推荐数据源的特征,将其应用到一种推荐算法中.

(5)层叠.将采用一种推荐技术得到的结果作为使用第二种推荐技术的基础.

(6)特征扩充.将利用一种技术产生附加的特征信息作为另一种推荐技术的特征输入数据.

(7)元级别.用一种推荐方法产生的模型作为另一种推荐方法的输入.

3推荐系统的评价指标

评估推荐系统性能的指标有很多,这些指标包括用户满意度、预测精确度、覆盖率、多样性、新颖性、实时性和健壮性等.用户满意度无法离线计算,只能通过用户调查或者是在线实验获得.多样性能够满足用户的广泛兴趣需求,是衡量推荐系统性能的重要指标.新颖的推荐是指给用户推荐那些他们以前没有听说过的项目.很多网站中的内容比如新闻、微博等具有很强的实时性,所以需要在项目还具有时效性时就将它们推荐给用户.推荐系统的实时性包括两个方面,一个方面是推荐系统需要实时地更新推荐列表来满足用户新的行为变化;另一方面是推荐系统需要能够将新加入系统的项目推荐给用户.健壮性指标是用来衡量推荐系统抗击的能力.下面重点讲述覆盖率和预测精确度这两个指标.

覆盖率可以表示推荐项目所覆盖的领域范围.覆盖率最简单的定义是推荐系统推荐的项目占总项目集合的比例,但是该种定义过于粗略,在信息论和经济学中有两个著名的指标可以用来定义覆盖率.

推荐结果的准确率定义为第一个是信息熵:

其中,p(i)是项目的流行度除以所有项目流行度之和.第二个指标是基尼系数:

其中,ij是按照项目流行度p()从小到大排序的项目列表中第j个物品.

预测精确度可以表示一个推荐系统或者推荐算法预测用户行为的能力.很多提供推荐服务的网站都有一个让用户给项目评分的功能,推荐系统可以利用这些评分记录推测出用户的兴趣模型,为用户提供推荐项目.预测用户对项目的评分行为称为评分预测.评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算.对于测试集T中的一个用户U和项目i,令rui表示用户U对项目i的实际评分值,是推荐算法计算出的预测评分,那么RMSE的定义为:

MAE采用绝对值计算预测误差,它的定义为:

网站在提供推荐服务时,一般是给用户一个个性化的推荐列表,这种推荐成为TOPN推荐.TOPN推荐的预测准确率一般通过准确率(Precision)/召回率(Recall)度量.根据用户在训练集上的行为给用户作出的推荐列表用R(u)表示,用户在测试集上的行为列表用T(u)表示.那么推荐结果的召回率定义为:

推荐结果的准确率定义为:

4结束语

电子商务推荐系统已经取得了很好的研究成果,在亚马逊、淘宝、当当等大型网站都得到了广泛应用,但是电子商务推荐系统仍然存在一些问题,现有的推荐算法仍需要改进和完善.

类似论文

电子商务推荐系统的应用

[摘 要]本文简要的介绍了电子商务推荐系统的概念及其作用,详细地论述电子商务推荐系统所采用的推。
更新日期:2024-12-27 浏览量:156230 点赞量:33207

电子商务中的主要安全技术

摘 要:信息安全的保障是电子商务进行的前提条件,唯有保障了各方的安全与财产,电子商务才能扩大发展。
更新日期:2024-11-13 浏览量:142471 点赞量:30491

电子商务推荐系统综述

[摘 要]本文简要的介绍了电子商务推荐系统的概念、作用和构成,详细的论述了电子商务推荐系统所采用的推。
更新日期:2024-10-28 浏览量:131329 点赞量:28021

电子商务推荐系统

[摘 要]随着互联网的普及和电子商务的发展,商品推荐系统逐渐成为电子商务IT技术的一。
更新日期:2024-4-18 浏览量:55428 点赞量:12338

基于数据挖掘技术的电子商务推荐系统的

【摘 要】本文首先对数据挖掘技术进行了分析,重点对数据挖掘技术中的协同过滤技术在电子商务推荐系统中的应用与实现进行了介。
更新日期:2024-8-4 浏览量:18080 点赞量:5856

电子商务推荐系统中推荐技术

[摘 要]随着电子商务的不断深入发展,电子商务推荐系统的应用更加广泛 文章主要介绍了目前应用较广的几种电子商。
更新日期:2024-12-24 浏览量:156433 点赞量:33422