联系Q:501160657,www.dianputuiguang.com

2016-08-22 专题阅读：

【百度权重提升_联系Q:501160657,www.dianputuiguang.com】

百度权重提升_联系Q:501160657,www.dianputuiguang.com(一)
基于Matlab实现以图识图的研究

【百度权重提升_联系Q:501160657,www.dianputuiguang.com】　　【摘要】以前我们想根据一张图片搜索更多类似图片时，往往是输入图片的文件名、索引或关键词来搜索，其结果往往不尽人意。本文作者拟研究运用图像识别技术来实现以图识图。图像识别是基于图片内容，应用计算机视觉技术，让计算机根据“看到”的有关图片而进行比对、匹配，搜索结果的相似度将有所提高。以图识图的实现方法有很多，本文的研究方法是基于Matlab平台，通过对目标图片和图库图片进行颜色、纹理等特征分析，通过指定算法得到特征矩阵，从而匹配相似度较高的图片。从研究结果看，本文所设计的研究步骤和算法，能较好地实现以图识图的功能。

　　【关键词】Matlab；以图识图；颜色特征；纹理特征；颜色直方图；特征矩阵
　　1 研究的背景和目的
　　随着互联网的发展，人们之间的交流已不再局限于文字，图片也成为了信息传递的一种重要媒介。然而，虽然图片比文字更为生动、直观，容易理解，但面对一幅陌生的图片，想通过搜索而进一步了解它却远没有文字搜索容易。在这种情况下，能帮助用户找到近似的图片的以图识图技术，便尤为重要。美国的谷歌识图、中国的百度识图等应用相继推出，让这方面的研究吸引了越来越多的关注。
　　以前的搜索引擎一般是根据图片的文件名、索引、关键词等来进行匹配，但是结果往往会不尽人意。以图识图是应用了计算机视觉（computer vision）技术，让计算机“看到”有关图片而进行自动比对、匹配，搜索结果的相似度将有所提高。
　　本文拟通过Matlab平台，研究以图识图的实现方法。
　　2 研究的实施方法
　　2.1 研究平台的介绍
　　MATLAB是指矩阵实验室（MatrixLaboratory）.是一个高级的矩阵/阵列语言，同时也是个是一个包含大量计算算法的集合。Matlab拥有600多个工程中要用到的数学运算函数，可以方便的实现用户所需的各种计算功能。它还提供了专业水平的符号计算、文字处理、可视化建模仿真和实时控制等功能.由于Matlab是为矩阵计算而研发的，内含多种矩阵运算方法，而每张图片又可以看作多个像素点组合而成的矩阵，因此它在图片的特征提取和计算方面显得尤为方便，适合以图识图软件的编写。
　　2.2 以图识图的原理
　　以图识图简单来讲就是根据客户的目标图片在图片库里搜寻相似图片。基本的原理就是指根据图像内容特征以及特征组合，给每张图片分配一个像指纹一样的矩阵，矩阵越接近，图片就越相似。
　　本文是通过提取图像的内容特征，如颜色、纹理、形状等来研究，没有包括更深一层的语义。提取图像的内容特征就是对图片特征矩阵（颜色矩阵、纹理矩阵等）的提取，将人类所能观察到的图片数据化。数据化后，将图片库中原有的特征矩阵相比对，通常是求两矩阵之差。因此，数据化后得出的检索结果，就是图片库中，与目标图片的某几种特征差别最小的，比如说颜色最相近，纹理最近似的。
　　1）颜色特征
　　图像其实是由许许多多被称为像素点的小点构成的，每个像素点有不同的值，这是组成图像的基本单元要素。
　　颜色特征就是根据不同像素点的不同值的特征而提取的一种全局特征。一个像素点代表一种颜色，将所有像素点进行提取、统计，就可以得到各种颜色在图像中像素点总个数，然通过颜色直方图表达出来。
　　2）纹理特征
　　“纹理是由一个具有一定的不变性的视觉基元，在给定区域内的不同位置上，以不同的形变和不同的方向重复出现的一种图纹”，它也是图像的重要“身份”特征之一。使用纹理特征可以较好地区分出相似颜色区域，对于物体和背景不易分割的图像比较适用。
　　能表达各种颜色的在图像中的分布情况，导致搜索准确率大大降低。
　　3）颜色直方图
　　颜色直方图是颜色在图像中的空间分布情况，它是基于不同的颜色空间和坐标系。常用的颜色空间有RGB、HSV、Luv和Lab空间，其中HSV是最常用的，对应人眼视觉特性，从色彩（Hue）、饱和度（Saturation）和值（Value）三个方面来表达图像的特征。
　　2.3 研究实施步骤
　　基于图像内容实现检索的基本思路是：
　　1）分析目标图片的基本内容，通过自动或半自动的方法提取目标图像的特征，包括颜色、纹理、形状以及空间关系等特征。
　　2）将得到的图像特征作为其“指纹身份”，根据指定的算法计算和评价目标图像和图库图像各种特征之间的相似程度。
　　3）根据比对结果，将最相似的一组图片反馈给使用者。
　　（1）图像解码
　　通过扫描、采样和量化，提取图片的颜色空间。在Matlab中可以直接用一个子程序A=imread（‘图片路径/图片名.图片格式‘）实现。
　　（2）图像预处理
　　对图像进行缩放、灰度、反转、直方图等格式转换，以供程序提取特征使用。
　　（3）图片特征提取
　　通过程序提取图像颜色、纹理和HSV颜色空间等描述全局特征，使用fast、Harris描述图像的局部特征。
　　（4）得出特征矩阵
　　通过Matlab得到MAT格式的矩阵集合，每个矩阵代表一个图片。
　　（5）特征相似度匹配及索引
　　用“距离”的概念来度量图片的相似度。有闵式、余弦和海明距离来规定这些图片的相似程度，计算两张图片的“距离”的最简单的算法就是：距离=sqrt（sum（（X-Y）^2））， X与Y代表两个矩阵中相对应的元素。再按照一定的检索算法，和图片库的特征进行比对，得到匹配程度的排序。
　　2.4 具体算法
　　1）比较两张图片imgn1和imgn2的纹理特征：
　　imgn1=zeros（m1，n1）；
　　for i=2：m1-1 　　for j=2：n1-2
　　pow1=0；
　　for q =j-1：j+1
　　for p=i-1：i+1
　　if img1（p，q） > img1（i，j）
　　if p～=i || q～=j
　　imgn1（i，j）=imgn1（i，j）+2^pow1；
　　pow1=pow1+1；
　　end
　　end
　　end
　　end
　　end
　　end
　　x1=imgn1（：）；
　　X=1.0.*hist（x1，256）/（m1*n1）；
　　img2=imread（'D：＼f.jpg'）；
　　img2=rgb2gray（img2）；
　　[m2 n2]=size（img2）；
　　imgn2=zeros（m2，n2）；
　　for a=2：m2-1
　　for b=2：n2-1
　　pow2=0；
　　for t =b-1：b+1
　　for s=a-1：a+1
　　if img2（s，t） > img2（a，b）
　　if s～=a || t～=b
　　imgn2（a，b）=imgn2（a，b）+2^pow2；
　　pow2=pow2+1；
　　end
　　end
　　end
　　end
　　end
　　end
　　x2=imgn2（：）；
　　Y=1.0.*hist（x2，256）/（m2*n2）；
　　dist=sqrt（sum（（X-Y）.*（X-Y）））；
　　dist=dist/3
　　2）比较两张图片I1和I2的HSV颜色特征：
　　I1=imread（'D：＼b.jpg'）；
　　I2=imread（'D：＼e.jpg'）；
　　[m1，n1，c1]=size（I1）；
　　[m2，n2，c2]=size（I2）；
　　I1=rgb2hsv（I1）；
　　I2=rgb2hsv（I2）；
　　H1=I1（：，：，1）；
　　S1=I1（：，：，2）；
　　V1=I1（：，：，3）；
　　H2=I2（：，：，1）；
　　S2=I2（：，：，2）；
　　V2=I2（：，：，3）；
　　XH=1.0.*imhist（H1）/（m1*n1）；
　　YH=1.0.*imhist（H2）/（m2*n2）；
　　distH =sum（（XH-YH）.*（XH-YH））；
　　SUMH=sum（distH（：））；
　　SUMH=SUMH/3；
　　XS=1.0.*imhist（S1）/（m1*n1）；
　　YS=1.0.*imhist（S2）/（m2*n2）；
　　distS=sum（（XS-YS）.*（XS-YS））；
　　SUMS=sum（distS（：））；
　　SUMS=SUMS/3；
　　XV=1.0.*imhist（V1）/（m1*n1）；
　　YV=1.0.*imhist（V2）/（m2*n2）；
　　distV=sum（（XV-YV）.*（XV-YV））；
　　SUMV=sum（distV（：））；
　　SUMV=SUMV/3；
　　sqrt（SUMH+SUMS+SUMV）
　　3）局部特征fast角点：
　　角点就是在图片中灰度急剧变化的点。Fast算法规定，如果点A的周围（在半径为3个像素点的圆周内），有足够多的点（12个点），与点A的灰度之差大于设定的一个阈值，那么程序就判定点A为角点。在以图识图中，角点可作为局部特征来进行检索。但一张图片中有无数像素点，如果将每个点进行计算，工作量将会巨大。因此通过算法筛选出可能是角点的像素点是一种有效的方法。以下是简易判断fast角点的代码：
　　第一层：
　　I=imread（'D：＼Day-2＼Flower2.jpg'）；
　　im2uint8（rgb2gray（I））；
　　h=fspecial（'gaussian'，5）；
　　I=imfilter（I，h）；
　　[m，n]=size（I）；
　　t=20；
　　Corners=zeros（m，n）；
　　for i=4：m-20
　　for j=20：n-20
　　Surpass=0；
　　if abs（I（i，j）-I（i-3，j））>t
　　Surpass=Surpass+1；
　　end
　　if abs（I（i，j）-I（i，j-3））>t
　　Surpass=Surpass+1；
　　end
　　if abs（I（i，j）-I（i+3，j））>t
　　Surpass=Surpass+1；
　　end
　　if abs（I（i，j）-I（i，j+3））>t
　　Surpass=Surpass+1；
　　end
　　if Surpass>=3
　　Corners（i，j）=1；　　end；
　　end；
　　end；
　　第二层：
　　count=0；
　　for i=4：m-3
　　for j=4：n-3
　　if Corners（i，j）==1
　　for k=-3：3
　　for h=-3：3
　　if abs（I（i，j）-I（i+k，j+h））>t
　　count=count+1；
　　end
　　if count<12
　　Corners（i，j）=0；
　　end
　　end
　　end
　　end
　　end
　　end
　　进行完以上步骤后，等于1的点就是角点。
　　2.5 检索结果
　　3 研究结论
　　从搜索结果看，在Mathlab平台上通过提取图像特征矩阵，比如颜色特征、纹理特征、角点检测，实现以图识图是可行可靠的。随着算法和技术的不断提高，以图识图必将更加紧密地和我们的生活联系起来，网上购物、地图搜索等将会越来越方便，人脸识别、无人驾驶等也将越来越准确。
　　这次研究还有一些改进的地方：
　　1）这个程序没能用上哈希索引的方法。因为图片库仅有1000张图片，让计算机进行在短时间内进行线性搜索并不是很困难。但是在现实中，互联网上的图片的数量要远远大于1000张，在这个程序中所用到的线性搜索所需要的时间会非常长，所以，加上哈希索引方法，能降低匹配所需时间，是这个程序能真正在互联网上被运用的前提条件。
　　2）在我们的程序中，颜色特征和纹理特征所占的比重是一样大的。然而，为了达到更加精确的结果，我们要对各种特征所占的比重进行更深入的研究，了解对图片识别来说，哪种特征最能帮助找到近似的结果。甚至，对于不同的图片，不同特征所占的比重也可能不同，因此添加权重是非常重要的，应根据图片的性质、搜索的用途等多方面进行权重分配。
　　【参考文献】
　　[1]王德才，郭建萍.经济应用数学[M].苏州大学出版社，2009.
　　[2]杨高波，杜青松.Matlab图像/视频处理应用及实例[M].电子工业出版社，2010.
　　[3]高新波，蔡洁，田春娜.现代图像分析[M].西安电子科技大学出版社，2011.
　　[4]胡晓军，徐飞.Matlab应用图像处理[M].西安电子科技大学出版社，2011.
　　[5]章毓晋.计算机视觉教程[M].人民邮电出版社，2011.
　　[责任编辑：汤静]

百度权重提升_联系Q:501160657,www.dianputuiguang.com(二)
基于日志和知网的查询推荐研究

　　〔摘要〕考虑到传统的基于日志的查询推荐算法受到数据稀疏问题的影响，本文在分析查询日志的基础上，构建查询词与点击URL之间的双向图，计算查询词与候选词之间的相似度。然后基于知网计算查询词与候选词之间的相似度，考虑词性和同义词因素对相似度的影响。最后将两个相似度分别赋予权重计算查询词与推荐词的相关度。实验结果表明，该方法不易受数据稀疏问题的影响，稳定性较好。

　　〔关键词〕查询日志；查询推荐；双向图
　　DOI：10.3969/j.issn.1008-0821.2013.10.015
　　〔中图分类号〕TP391.1〔文献标识码〕A〔文章编号〕1008-0821（2013）10-0065-05
　　随着互联网和基础设施的快速发展，搜索引擎已成为人们获取信息的重要来源。根据中国互联网络信息中心2012年7月19日发布的《第30次中国互联网络发展状况统计报告》中显示[1]，截至2012年6月底，中国网民数量达到5.38亿，搜索引擎的使用率为79.7%。有学者研究表明，用户输入的查询通常只有两三个词[2]，并且对所要检索的内容知之甚少，所以用户很难明确的表达自己的查询意图。查询推荐技术是向用户推荐若干个与用户输入相关的查询，能帮助用户生成更加符合其搜索意图的查询推荐词，引导用户的搜索行为，优化搜索结果。
　　本文在已有的查询推荐研究基础上，从两个方面对查询词和候选词进行相似度计算。文章的结构如下：第一节介绍查询推荐相关研究现状；第二节分别基于双向图和知网计算查询词和候选词的相似度；第三节介绍整个查询推荐算法的流程；第四节进行实验验证和评价；第五节做总结分析。
　　1相关研究
　　早在上世纪90年代，信息检索研究者就开展了一些查询推荐相关研究[3]，查询推荐技术在检索和浏览过程中的确能提高检索的质量和效率。根据所依赖的数据源大致可以分为两大类：一是基于文档的推荐方法；二是基于用户查询日志的推荐方法[4]。
　　基于文档的推荐方法主要通过处理包含查询词的文档来分析查询，从查询相关文档或人工编辑语料中找出与查询词相关的词或短语，然后利用这些相关词或短语构建推荐查询。有学者利用查询相关文档扩充查询以解决查询短的问题[5]，也有学者利用伪相关文档检索查询相关词[6]。
　　基于日志的方法依靠分析搜索引擎查询日志来寻找出现过的相似查询，并根据一定算法排序后择优推荐给用户。查询日志中记录了用户完整的搜索点击行为，基于查询日志的推荐方法逐渐成为近年来常用的方法。有学者认为在同一session内出现的查询有可能语义相近，利用相关的相似度算法来度量查询间的相关性[7]。有学者提出一种基于查询共有相同点击URL数的查询推荐方法[8]，在此基础上，有学者基于查询点击双向图提出了改进的SimRank相似度算法度量查询相关性[9-10]。有学者基于一个大规模商业搜索引擎查询日志，利用查询数据内在的全局流行度来获得查询之间的相关性，并提出了一种基于流行度排序的查询推荐方法[11]。也有学者研究查询日志中用户ID与点击URL之间的联系，提出基于主题与用户偏好分析的查询推荐方法[12]。
　　基于日志的方法根据搜索历史推荐查询词，相对于基于文档的方法更符合用户查询特点。但是查询词在日志中的出现频率呈指数分布，大多数查询词在日志中出现次数不多，这使得基于日志的方法面临严重的数据稀疏问题。
　　考虑到日志中数据稀疏问题，本文将从两个方面对查询词和候选词进行相似度计算。首先基于构建的双向图计算查询词与候选词之间的相似度，然后利用中科院的分词系统对查询词进行分词处理，基于知网计算查询词与候选词的相似度，最终得到查询词与候选词的相关度，相关度满足条件的候选词即为推荐词。
　　2基于日志和知网的查询推荐算法
　　2.1基于双向图的相似度计算
　　查询日志的丰富与否直接影响候选查询集合的质量，因此要获得较好推荐的效果必须有丰富的查询日志。这里我们采用搜狗搜索引擎公开的查询日志库。日志的基本格式如表1：表1查询日志基本格式
　　如表1所示，每一条检索记录由访问时间（t），用户ID（u），查询词（q），用户点击的URL（l），该URL在返回结果中的排名（r）和该URL点击的顺序组成（o）。因此，一条检索记录可由〈t，u，q，l，r，o〉表示。在这里我们只考虑查询词和用户点击的URL两个因素，利用〈q，l〉构造查询词和点击URL的双向图。其中，查询词集合Q={q1，q2…qn}表示日志中出现过的查询词的集合，URL集合L={l1，l2…ln}表示日志中用户点击过的URL的集合。查询词结点qi到URL结点urlj的边eij由某一查询词节点出发到某一URL节点结束，表示用户输入该查询进行检索并在返回的结果中点击了相应的URL。边的权重wij是查询日志中eij出现的次数，一定程度反映了节点对之间的关联程度。边的集合E={eijqi∈Q，urlj∈L}表示了日志中所有的点击行为集合。
　　查询词与点击URL双向图如图1所示：
　　1图1查询词与点击URL双向图1
　　在对双向图的观察中发现，有些边的权重值偏小。考虑到用户使用搜索引擎的一些无意识的随机点击行为会增加一些噪音数据。我们设定阈值m=4对边噪音数据进行过滤，删除权重小于m的边，再删除双向图中孤立的查询词节点和URL节点，减小双向图的复杂度。
　　在查询词推荐的研究中发现，查询日志中两个查询词有相近的语义关系，将有较多的点击URL共现。基于此假设本文使用双向图的URL结点集合来定义查询词，对于查询词节点集合Q与URL节点集合L，第i个查询词节点（qi）的特征向量为i：
　　i[j]=wij1∑θijw2ij1eij存在
　　01eij不存在（1）
　　其中wij表示第i个查询词到第j个URL的边的权重。　　那么，对于查询词queryi和候选词queryj的相似度可以采用余弦距离计算：
　　Simquery（queryi，queryj）=i×j1i×j（2）
　　2.2基于知网的相似度计算
　　《知网》是我国著名机器翻译专家董振东先生创建的一个知识系统。在《知网》的结构中，词是用概念来描述的，一个词可以表达为几个概念，而概念则用义原来描述，义原是用于描述一个概念的最小意义单位。
　　2.2.1词性因素
　　我们认为在推荐的候选词中，含有越多原查询中权重值大的词语，其与查询词的相似度就越高。例如查询词“华山风景”，华山作为惟一的专有名词，出现的频率较低，应具有更高的权重。在推荐的候选词中，“华山简介”就应该比“泰山风景”相似度更高。
　　首先利用中科院的分词系统对查询词进行分词处理，对于查询词query，经过分词处理，得到关键词集合query={t1，t2…tn}（n为查询词q中含有的关键词个数）。根据关键词被标注的词性，赋予关键词不同的权重。
　　weight（t）=1.0t为专有名词
　　0.8t为普通名词
　　0.6t为动词
　　0.4t为形容词
　　0.2其它（3）
　　关键词词性对候选词的相似度的影响计算如下：
　　Simetymology（queryi，queryj）=∑n1i=1weight（ti）ifti∈queryj（4）
　　其中，queryj为推荐候选词，ti为查询词queryi所含的关键词，n为关键词个数。weight（ti）是查询词中第i个关键词的权重。
　　2.2.2同义词因素
　　我们认为同义词因素对查询推荐效果也存在同样的影响。如查询词“华山图片”就应该和“华山照片”、“华山风景”等在语义上有较大的相似度。在这里我们利用知网来计算查询词与候选词之间的相似度[13]。
　　假设词语K1有n个概念S1i，S12…S1n，K2有m个概念S21，S22…S2m，本文中定义词语K1和K2的相似度是其所有概念之间相似度的最大值：
　　Sim（K1，K2）=Max（Sim（S1i，S2j））（5）
　　其中，0　　用于描述概念的义原分为基本义原、关系义原和关系符号义原。概念间的相似度计算表示为：
　　Sim（S1，S2）=∑31i=1βi∏i1j=1Simj（P1，P2）（6）
　　其中，Simj（P1，P2）分别表示3种描述义原的相似度，βi是可调节的参数，且有β1+β2+β3=1，β1≥β2≥β3，1≤i，j≤3。
　　义原之间的相似度一般依据义原的层次结构来计算，本文基于两个节点之间的路径长度来计算：
　　Sim（P1，P2）=α1α+distance（P1，P2）（7）
　　其中，P1和P2表示两个义原，distance（P1，P2）是P1和P2在义原层次体系中的最短路径，α是一个可调节的参数。
　　同义词对候选词的相似度的影响计算如下：
　　Simtongyici（queryi，queryj）=∑n1i=1∑m1j=1weight（ti）Sim（ti，kj）（8）
　　其中，m，n分别为候选词和查询词中关键词的个数。Sim（ti，kj）为查询词中第i个关键词与候选词中第j个关键词的相似度。
　　2.3查询词与候选词的相关度计算
　　我们先利用双向图计算了查询词与候选词的相似度，然后在分词的基础上，基于知网计算了查询词与候选词之间的相似度。我们可以得到候选词与查询词的相关度计算方法：
　　Relation（queryi，queryj）=γ1Simquery（queryi，queryj）+γ2Simtongyici（queryi，queryj）+γ3Simetymology（queryi，queryj）（9）
　　其中，γi是可调节参数，且有γ1+γ2+γ3=1。
　　3查询推荐算法流程
　　由于搜索引擎的广泛使用，查询日志每个月新增约2 000万条点击记录。随着日志的不断增长，算法需要动态支持添加新的查询词与点击日志。算法步骤如下：
　　步骤1：遍历双向图中查询词集合的节点query∈Q，获取与query相连的所有点击URL节点集合Lq。
　　步骤2：遍历query的点击URL节点集合Lq，获取Lq相连的查询词节点集合q∈Q′。
　　步骤3：遍历与query可能相近的查询词集合Q′，计算query与q的相关度，并根据相关度大小降序排序，选取前k个词做为与query相近的查询词，本文取k=10。
　　算法流程如图2所示：
　　1图2查询推荐算法流程1
　　如图2所示该算法只需扫描一遍查询词集合，便可以挖掘出每个查询词的语义相近查询词。并且，对于新加点击行为，只需修改新加边的权重，针对该查询词重新执行算法步骤2与步骤3，获取到该词的候选词序列便可，不影响其他查询词的计算结果。
　　4实验结果与评价
　　4.1实验数据
　　本文采用搜狗查询日志作为数据集，该数据集记录了搜狗搜索引擎在2006年8月的所有用户查询记录，其中包含了19 562 507条点击行为，2 898 971条查询词，8 018 410条点击URL。根据实验中的多次尝试，我们将几个参数值设置如下：α=1.5，β1=0.5，β2=0.3，β3=0.2，γ1=0.5，γ2=0.3，γ3=0.2。
　　4.2实验环境
　　实验用的系统是Windows XP，开发环境是Visual Studio.NET，开发语言是C++，数据库环境是SQL Server 2000。　　4.3实验结果
　　由于查询短语的相关性带有极高的主观性，不同的人由于背景或兴趣的不同，同一组推荐结果也会有不同的评价结果。目前这方面的研究还没有一个标准的评价标准，通常都采取随机选取查询并进行评分。我们从查询日志中随机抽取10个查询词，得到与每个查询词相关度最高的10个候选词，同时也从百度搜索引擎中获取10个候选词。
　　例如随机抽取的查询词为“华山照片”，按照我们的方法和百度得到的推荐词如下表所示：表2我们的方法得到的推荐词
　　华山的照片1华山图片1华山的图片1华山风景1华山风景照片华山天气1华山旅游1华山门票1华山攻略1华山住宿
　　表3百度搜索引擎得到的推荐词
　　华山的照片1华山医院1上海华山医院1华山一日游1华山门票华山住宿1翠华山1西安华山
　　山顶住宿1华山天气1华山论剑
　　我们请50个同学对推荐结果进行评价。根据结果的相关性从0～5分进行评分，最高分为5分，表示该推荐词与查询词十分相关，最低分为0分，表示推荐词与查询词毫不相关。当分值小于或等于1时，该推荐词与查询词不相关。评价结果图3所示：1图3查询评价效果图1
　　从图3中可以看出，百度的平均值为3.85，但不同的查询词得到的相关度评价波动幅度较大，说明结果受到数据稀疏的影响较大。用我们的方法得到的相关度评价的平均值为3.77，略低于3.85，但每个查询词的评价结果都在很小范围内浮动，说明我们的方法不易受数据稀疏的影响，稳定性较好，具有一定的实际价值。
　　我们定义集合A为推荐系统返回的10个推荐词，集合R为所有相关的推荐词，即评分大于1的推荐词。推荐词的精确度定义为：
　　Pre（query）=R1A
　　根据以上方法，如图4所示，我们得到推荐词的精确度。从图中可以看到我们的方法得到平均精确度为7.04，与百度的方法非常接近。即平均每10个推荐词中，大约有7个与查询词相关。
　　1图4查询精确度
　　5总结
　　本文基于搜狗查询日志，通过构建查询词与点击URL双向图和分词处理，分别基于双向图和知网计算查询词与候选词之间的相似度。实验表明，该方法不易受数据稀疏的影响，稳定性较好。在今后的工作中，将进一步简化双向图的复杂度，减少系统的时间消耗，进一步挖掘查询日志中的相关信息，实现基于用户和主题的个性化推荐，提高检索服务的效率和质量。
　　参考文献
　　[1]第30次中国互联网络发展状况统计报告[EB].http：∥www.cnnic.cn.
　　[2]马少平，刘奕群，刘健，等.中文搜索引擎用户行为的演化分析[J].中文信息学报，2011，25（6）：90-97.
　　[3]E.Eftheimiadis.Query expansion[J].Annual Review of Information Science Technology，1996，31：121-187.
　　[4]李亚楠，王斌，李锦涛.搜索引擎查询推荐技术综述[J].中文信息学报，2010，24（6）：75-84.
　　[5]M.Sahami，T.D.Heilman.A web-based kernel function for measuring the similarity of short text snippets[C]∥Proceedings of the 15th international conference on World Wide Web.New York：ACM，2006：377-386.
　　[6]R.W.White，G.Marchionini.Examing the effectiveness of real-time query expansion[J].Inf Process Manage，2007，43（3）：685-704.
　　[7]Eric C Jensen，Steven M Beitzel，Abdur Chowdhury.Query Phrase Suggestion from Topically Tagged Session Logs[C]∥Proceedings of the 7th International Conference on Flexible Query Answering Systems，Milan，Italy.June 2006：185-196.
　　[8]王继民，彭波.搜索引擎用户点击行为分析[J].情报学报，2006，25（2）：154-162.
　　[9]马云龙，林原，林鸿飞.基于权重标准化SimRank方法的查询扩展技术研究[J].中文信息学报，2011，25（1）：28-34.
　　[10]李亚楠，许晟，王斌.基于加权SimRank的中文查询推荐研究[J].中文信息学报，2010，24（3）：4-10.
　　[11]朱小飞，郭嘉丰，程学旗，等.基于流形排序的查询推荐方法[J].中文信息学报，2011，25（2）：38-43.
　　[12]陆伟，张晓娟，基于主题与用户偏好分析的查询推荐研究[J].情报学报，2012，31（12）：1252-1258.
　　[13]江敏，肖诗斌，王弘蔚.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报，2008，22（5）：84-89.
　　（本文责任编辑：孙国雷）

联系Q:501160657,www.dianputuiguang.com

http://m.zhuodaoren.com/shenghuo347174/

推荐访问:

联系Q:501160657,www.dianputuiguang.com

百度权重提升_联系Q:501160657,www.dianputuiguang.com(一)
基于Matlab实现以图识图的研究

百度权重提升_联系Q:501160657,www.dianputuiguang.com(二)
基于日志和知网的查询推荐研究

专题推荐文章

推荐内容

联系Q:501160657,www.dianputuiguang.com

百度权重提升_联系Q:501160657,www.dianputuiguang.com(一)基于Matlab实现以图识图的研究

百度权重提升_联系Q:501160657,www.dianputuiguang.com(二)基于日志和知网的查询推荐研究

专题推荐文章

推荐内容

百度权重提升_联系Q:501160657,www.dianputuiguang.com(一)
基于Matlab实现以图识图的研究

百度权重提升_联系Q:501160657,www.dianputuiguang.com(二)
基于日志和知网的查询推荐研究