您现在的位置是:首页经济科学论文

农业经济论文农资产品个性化推荐的研究

发布时间:2014-04-21 09:47:23更新时间:2014-04-21 09:47:46 1

  现如今在茫茫如海的网络信息中去寻找对自己有用的信息已经越来越难,为此个性化推荐技术应运而生,它能够针对每一位用户提供专属于他自己的推荐信息,尤其是在商业上应用广泛,时至今日几乎所有大型的电子商务网站,如亚马逊、京东商城和当当网等,都推出了个性化推荐服务[1],他们往往通过用户的注册信息、浏览记录和消费记录对每位用户进行个性化推荐[2,3]。

  【摘要】文章首先介绍了农资产品个性化推荐的背景和意义,然后介绍关于农资产品进行个性化推荐的技术,如粗糙集技术和ROCK聚类算法等,再然后对农资产品个性化推荐系统进行详细的描述,最后对不足进行了总结。

  【关键词】个性化推荐,商品关键属性,ROCK聚类算法,粗糙集

  1.背景

  针对农村市场的电子商务网站现在还不多,对农村用户的个性化推荐更是寥寥无几,中国到目前为止还是一个农业大国,农村市场有着无限的潜力可以挖掘,纵然消费能力弱和物流条件差等可能是阻碍这一进程的原因,但是随着国家对乡镇农业的持续大力支持,农业信息化的前景将更加广阔,而针对农村市场建立相应的电子商务网站并对农村用户进行个性化推荐势必也将提上日程。农资信息网通过传播农业技术知识、宣传农业政策法规和提供农资产品的电子商务平台等服务将成为服务农民、开拓农村市场的先行者[4]。在网站建设中如果将针对农村群体的个性化推荐技术加入其中,那么网站将会为那些知识较缺乏、信息较闭塞的广大农村用户提供更贴切、更周到的服务,将更符合用户需求的信息和产品推荐给他们。

  农村市场的农资用户与普通的电子商务网站用户在推荐模式上有着很大的区别。首先,普通的电子商务网站用户是依照自己的兴趣爱好、生活习惯和需求去浏览网页并进行购物,所以针对他们的个性化推荐往往以兴趣爱好作为首要因素;然而,对于农资用户而言,兴趣爱好并不是左右他们购买商品的原因,能否满足他们的需求,也就是说东西好不好、实不实用才是影响其个性化推荐的主因,因此销售后的回访、评价往往对日后的推荐影响重大,然而由于农资产品的特色性质,它的验证期往往很长,少则三个月多则一年,因此针对农资用户建立推荐模型则需要时以年计的数据库为依托,不可能迅速投入商业应用,所以应该利用线下销售中得到的大量不完备信息进行整理,找到影响推荐的关键信息,才能使网站推荐系统投入商用[5]。第二,商品对用户的吸引力往往不在于其本身所有的属性,而在于该商品包含了某种或多种关键属性,是这些关键属性让用户了那些商品,所有我们将运用粗糙集技术去处理那些大量的不完备信息并简约出商品的关键属性。第三,由农民朋友日常的消费习惯得知,他们购买的农资产品时往往会借鉴周围朋友的购买经验,也就是说相同人群的人购买的商品也大致相同,所以ROCK聚类算法在这方面能够提供很好的帮助,因为ROCK算法提出了邻居概念,即:如果两个消费者不仅它们本身相似,而且它们的邻居也相似,则这两个消费者很可能属于同一个簇。

  本文针对农资产品个性化推荐的特殊性建立了个性化推荐系统模型。

  2.ROCK算法

  ROCK(RobustClusteringUsingLinks)算法是一种凝聚的层次聚类算法,是由Guha等人在1999年提出的,适用于类别属性[6]。

  对于具有分类属性的数据,传统的聚类算法一般采用距离函数来度量数据对象间的相异度。然而,实验表明这种距离度量方法对具有分类属性的数据不能得到好的聚类结果。而且绝大多数聚类算法只考虑点与点之间的相似性,因此在聚类的每一步,具有最大相似度的点被合并到同一个簇中这样很容易导致错误的合并。例如,有几个点来自两个显著不同的簇,而这几个点非常接近,那么根据上述的点与点之间的相似度,这两个显著不同的簇将被错误地合并在一起。为了避免这种情况,ROCK采取了更加周全的方法,也即引入了邻居的概念。如果两个点不仅它们本身相似,而且它们的邻居也相似,则这两个点可能属于同一个簇,因此被合并。

  【定义1】邻居:两个点Pi,Pj,如果满足sim(Pi,Pj)≥A,则称Pi,Pj为邻居。其中,sim是一个相似性度量函数,A是由用户给定的阈值。sim可以是一个距离度量或者甚至是由领域专家提供的非形式化的度量,只要它能够标准化为0和1之间的值,而且这种值越大,相应的两点间的相似度越高。

  【定义2】连接:link(Pi,Pj)为二数据点Pi,Pj的相同邻居数,值愈大表Pi,Pj同一簇的几率愈大。

  【定义3】标准函数:

  在聚类过程中,我们需要最大化簇内link(pq,pr)数量的同时最小化簇间link(pq,pr)的数量。此式子能够帮助我们找到簇内最多链接的同时尽量减少簇间链接数。其中:

  ni为簇Ci中数据点的总数;

  为Ci中预期的邻居总数;

  为Ci中预期链接总数。

  是根据数据集设定的一个函数

  【定义4】优化函数:

  此优化函数用于合并相似簇,而且能够有效避免出现离群数据点时将所有簇都合并为一个簇。

  其中为二簇中预期交叉链接個数。

  ROCK算法流程如下:

  1)输入参数:包含n個数据点的集合S,及预期簇数k;

  2)最初阶段,每一数据点为一簇;

  3)计算各点的链接数;

  4)为每一个簇i,建立一个区域堆q[i],包含每一个与簇i的链接数不为零的簇j;

  5)q[i]中的各簇j依g(i,j)值由大至小排序;

  6)建立一全局堆(globalheap)Q,包含每一q[i]的优化函数最大值的簇j;

  7)每一回合,合并Q中最佳簇j与q[j]中的最佳簇;

  8)合并的同时重新运算各区域堆及全域堆,包括新形成的簇;9)当簇数不小于k时,持续合并,此外当所有q[i]=0时停止合并。

  3.粗糙集

  粗糙集理论是一种不精确、不确定性知识的数学工具,由波兰科学家Z.Pawlak提出,一经提出便引起了广泛的讨论[7]。粗糙集的知识形成思想可以概括为:一种类别对应于一个概念(类别一般表示为外延即集合,而概念常以如规则描述这样的内涵形式表示),知识由概念组成;如果某知识中含有不精确概念,则该知识不精确。粗糙集对不精确概念的描述方法是通过下近似(LowerApproximation)和上近似(UpperApproximation)概念来表示。一个概念的下近似概念中的元素肯定属于改概念,而一个概念的上近似概念只可能属于该概念。

  粗糙集把客观世界抽象为一个信息系统。一个信息系统S是一个四元组,S=:

  U是对象的有限集合,记为U={X1,X2,….Xn};A是属性的有限集合,记为A={A1,A2,…An};V是属性的值域集合,记为V={V1,V2…Vn};其中Vi是属性Ai的值域;F是信息函数,即,f:U*A->,f(Xi,Aj)属于Vj;属性集A由集合C和集合D组成,其中C为条件属性集合,D为决策属性集合,两者无交集。对于属性集A中任意一个属性a,通过f(Xi,a)函数时,如果某两条记录对于属性a取值相同,我们则称此两个记录基于属性集等价,所有基于某个属性集等价的记录被定义为等价类。

  粗糙集的近似空间(ApproximationSpa-ce)。近似空间有一个二元组,其中U为对象的有限集合,B为A的一个子集,R(B)={(x1,x2)|f(x1,b)=f(x2,b)}。则对于任意一个概念O。

  设属性集B1是B2的真子集,如果R(B1)=R(B2),则称B2可归约于B1,如果B1不可进一步归约,则称B1为U的一个归约子。

  设属性集P和Q,则P对Q的属性依赖度为:

  表示集合X在属性集上的下近似。

  设属性集BC,C是条件属性集,D是决策属性集,则属性重要度(Attributessi-gnificance)定义为:

  4.属性简约和聚类

  4.1当前农资电子商务网站的推荐模式

  当前中国国内关于农产品的电子商务网站还不是太多,专门针对农资产品的电子商务网站更是凤毛麟角,这些已有的农资电子商务网站中应用的产品推荐系统还不是太成熟,其主要的推荐方式如下:

  1)最新产品推荐及热销产品推荐

  这种方式多应用于小型电子商务网站或网站的运营初期,某些网站也会在节假日促销时使用这种推荐方式;这是一种形式简单但是效果尚佳的推荐方式,满足了用户求优、求新和求性价比的心理诉求,其缺点是不能对客户进行深度挖掘,没有针对性,容易掩盖具有高价值量的客户需求。

  2)评价式推荐

  通过对产品的售后评价,对同类产品进行好评排序,将好评度最高的商品推荐给用户。这种推荐方式也较多用于小型电子商务网站或B-C商家的网店中,能较好的为那些对某一种或某几种商品有需求的用户提供帮助,服务范围较窄而推荐作用强大。这两种推荐方式还停留在全体推荐的层次上,没有针对个人的推荐。

  4.2关于农资产品的个性化推荐模型

  本推荐模型针对现有农资推荐系统的问题,运用粗糙集技术遴选出商品的关键属性,并通过ROCK聚类算法对用户进行聚类,从而针对每个用户个人进行推荐,更有针对性且效果更好。

  该推荐系统的流程如下:

  1)将搜集好的线下农资产品销售记录进行简单简约(由于是线下交易数据大多数为不完备数据),然后遴选出关键属性;

  2)对线下销售记录中包含任一关键属性的用户提取出来,运用ROCK聚类算法找到对不同属性感兴趣的不同用户簇;

  3)当出现新用户时,判定新用户的属于哪一个用户簇,将该用户簇内用户感兴趣的商品推荐给新用户。

  4.2.1基于粗糙集的商品属性简约

  表1是与线下交易信息匹配的决策信息表,其中有些信息是不完备的,而不完备的信息中也可能包含关键属性,所以我们通过粗糙集技术对其进行简约,从而找到影响用户购买的关键属性[8、9]。我们将商品类别作为决策属性,将价格和商家品牌等属性作为条件属性,如表1所示。

  仅以上图属性已知部分为数据库,建立实例如下:

  U={1,2,3,4,5,6,7};

  A={Cotton,Corn,Wheat};

  V={High,Medium,Low,Yes,No};

  f(1,category)=wheat;f(1,price)=medium;…。

  按条件属性进行分类,如E1={1,6};按决策属性进行分类,如Y1={1,6}。

  则在R中的两个划分为E和Y,E作为分类条件,Y作为分类决策,据此可进行规则描述,如规则R(1,1)可表示为:Des(E1)—>Des(Y1)。其置信度为cf=1.则说明当price=medium,brand=no为购买wheat产品的置信度为1,即price=medium,brand=no为wheat产品的关键属性。实例演示完毕。

  由以上实例得知,在通过粗糙集进行属性简约的过程中,需要提前确定置信度阈值,由于数据量的问题,本文没有涉及属性之间相关度的研究。

  通过粗糙集技术进行简约,得到不同用户所对应的关键属性类型如下:

  (用户1:商品类别,厂家),(用户2:商品类别,无),(用户3:商品类别,价格,…)等等。

  4.2.2运用ROCK算法进行聚类

  聚类流程如下:1)根据上文得到的用户数据集,将每个用户都作为一个独立的数据点;

  2)利用相似度计算公式,计算任意两个数据点之间的相似度,从而确定任意一个点的邻居个数;

  3)利用定义2确定任意两个数据点之间的相同邻居数,即链接数;

  4)为每一个簇建立一个区域堆q[i](初期时,一个数据点记为一个簇),将与该数据点有相同邻居的数据点按个数的多少加入该堆中,利用标准函数对堆内的簇进行归并,从而形成大小不同的若干个区域堆[10];

  5)建立一个全局堆Q,按区域堆q[i]的大小排序加入到全局堆中,运用优化函数合并堆内的相似簇;

  6)判断全局堆Q中个数a,如果a5.结论

  由于该项目处于建站初期,在数据的采集和整理等方面的条件还不是很完善,尤其在许多专家知识的获取上还不能很好地用计算机知识去表达,致使实例的验证不是太完美,作者将会在日后逐步去改善。

  参考文献

  [1]余力,刘鲁.电子商务个性化推荐研究[J].计算机集成制造系统,2004,10:1306-1313.

  [2]雷琨.电子商务个性化推荐系统研究[D].电子科技大学,2012.

  [3]郭韦昱.基于用户行为分析的个性化推荐系统设计与实现[D].南京大学,2012.

  [4]王炬.农业信息化进程中的问题及对策研究[D].西南农业大学,2003.


转载请注明来自:http://www.yueqikan.com/jingjikexuelw/36094.html