现在的位置: 首页 > 搜索引擎优化 > 正文

搜索引擎网页分析系统浅解【系列②】

2013年12月16日 搜索引擎优化 ⁄ 共 4298字 暂无评论 ⁄ 阅读 2,308 次
文章目录

搜索引擎在抓取到网页之后,需要对网页内容数据进行一定分析处理,以便于建立索引(即收录)、响应用户检索及排序等。

简单来讲,搜索引擎分析系统主要确定两项内容:网页主题及网页重要性。

搜索引擎网页分析系统

一、网页主题

确定网页主题通俗来讲就是要确定网页主要内容,即“文档在讲什么”。

要知道文档在讲什么,我们要知道哪些内容是跟文档主题相关的,内容由哪些词组成,文档是否已分析过,哪些内容是文档里重要的,文档内容属于什么类别(如计算机、商业、政治等)等等。

要知道这些我们需要经过消噪、去重、中文分词等处理,下面将一一解读。

1、消噪

消噪主要包含两部分:

⑴清除页面中噪音内容(即与页面主题无关的内容,如导航、版权、广告等);

⑵识别页面主题内容及与主题相关的内容;

页面噪音内容不仅会影响到对主题内容的分析,造成内容分析时偏离原主题,同时也会给相关链接分析带来困难。对于SEO而言,了解消噪原理及算法有助于我们对网页内容进行规划,纠正主题、降低主题去重风险等。

消噪的算法很多,如:

①对批量内容进行分析,找出其大量集中重复出现的内容作为噪音内容进行去除,通常导航、广告、版权信息等与主题无关的内容都可以被辨别出来。

②通过文本长度、文本块位置等多纬度对文本进行打分,选出得分高的一部分做为主题内容,得分低的部分作为噪音清除。如:文本块长度小于10个字则得分为0,介于10~50个字得分为5,介于50~250个字得分为8,超过250个字得分为10;文本位置位于右侧得分为0,位于顶部得分为3,位于左侧得分为5,位于中间得分为10等,通过视角化的多维度对文本块进行综合打分。

③由于网页中主题部分文本内容比附加内容文本含有更少的HTML标签密度,故可以基于此识别页面的主要内容块,如下图曲线:

搜索引擎网页分析系统

页面主题识别包括对标题(title)、正文(content)、锚文本(anchor)、关键词(keywords)、摘要(description)、正向链接(link)、H标签、加粗、斜体、着色、评论、其他非重要区域等要素的识别标记,还会对网页进行划分归类等。如:网页可划分为主题网页(topic)、Hub网页(hub)、图片网页(pic)三类,其中Topic网页有一主题,Hub网页聚集大量超链提供网页导向,Pic网页内容多为图片;归类可归为计算机类、政治类、商业类等,归类方法如,通过TF*IDF计算全文高权重的a个关键词,或特征权值大于b的关键词,或先通过计算每段的特征关键词再进行组合等。

2、去重

重复内容会消耗搜索引擎的分析时间、带宽资源、硬件资源、存储资源等,同时若用户搜索结果中重复内容过多有损用户体验。需要删除的重复内容主要包括三类:镜像网页(网页、模板完全相同)、内容完全相同模板不同、部分重点内容相同。

对于SEO而言,了解去重算法有助于我们了解网站内网页重复率以规避风险、通过增加网页附加内容避免网页被错误去重(在高相似内容网站尤为重要)等。通常认为Jaccard相似度是最常用的文本相似性计算方法,Jaccard相似性计算公式为:

搜索引擎网页分析系统

公式解释:假设A、B两文档中均有10个元素,其中,相同元素为5个,则Jaccard系数为5/(10+10-5)=0.33。我们可以定义一个值a,当Jaccard系数大于a时则可判断为重复。

在SEO中,我们可以简化使用Jaccard相似性对站内网页进行去重,如根据列表页中内页的ID值作为元素计算列表页间相似度。

常见去重算法,如:

Shingling算法

Shingling算法由两步组成,先从文档中抽取特征,再对特征集的重叠程序进行判断是否重复。它以连续的a个单词序列作为一个整体,后移一个字再生成另一个单词序列,依次将文档转为多个由单词序列组成的特征,再对这些单词片段进行哈希计算生成数值,这些哈希值称为Shingle,这样文档的特征集就变成了由多个Shingle组成的集合。最后,利用Jaccard相似性来计算考察文档的重叠程度。

②I-Match算法

I-Match算法认为一篇文档中高频和低频词汇不能反映文档的本质,而中频词较适合做为特征。在应用中,对文档中出现的所有单词,按照单词的IDF值由高到低进行排序,去除高低频单词,之后利用哈希函数对文档中所有特征词进行计算得到唯一数值,以此哈希值作为网页的信息指纹。I-Match算法效率高,但很容易误判。

SimHash算法

SimHash很擅长处理海量网页相似性计算,它将文档处理成一个数值,文档内容越相似,其对应的值也越接近。算法分为两步:计算文档指纹和相似文档查找。简单来讲,计算文档指纹需从文档中抽取一部分特征(即能代表文档主题的词)及特征的权重(如特征出现的次数、位置等),然后通过哈希函数将每个特征转换为固定长度的二进制向量,再将权重融入形成一个实数向量,最后进行向量比较。文档越相似,则该值越相似。

SpotSig算法

SpotSig算法很有意思,它抽取文本中的一些片段作为特征,如,采用停用词做为特征、采用标点符号作为特征等,通过特征及特征权重(如次数)来计算文档相似性。

在消噪后去重中,无可避免的会出现错误去重。在SEO中我们主要关注其中一类,即,不同的内容,放在相同或不同的模板中消噪后被去重算法消除。在行业门户类网站这个很常见,我们应当尽量从更多维度去挖掘内容,以避免这种情况的发生。

3、中文分词

中文分词不只包含切词分词,还包含同义词转换、同义词替换、词性词类标注等。如在搜索“XX租房”时我们会发现,SERP中“XX、租房、房屋租赁、房屋出租”等词均会被飘红展示,下文将简单介绍切词分词相关知识点。

分词首先会依据标点等将文本分割成一系列句子,然后对每个句子中每个单独字进行组合切分。分词方法基本可以归为两类:基于字符串匹配分词和基于文本统计分词,前者主要依赖于一个足够大的词典中的词条进行匹配,后者主要依赖于统计学进行分词。

基于字符串匹配根据策略不同又可分为不同方法,如按组合方向可分为正向匹配和逆向匹配(中文词中心语靠后),按组合长度可分为最长匹配和最短匹配,按是否与词性标结合可分为纯分词和分词标相结合一体化等。字典通常为使用频率高、意义明确的词,采用前缀树或后缀树的形式存储。前缀树为从一个字为顶点开始,下跟所有可匹配的字,若为三字词则第二个字后可再跟一系列可匹配的字,依次类推;后缀树反之,以一个字为顶点开始,下跟所有以该字为结尾的倒数第二个字,若为三字词则第二字后跟倒数第三字,依此类推。常用的分词方法有:最大正向匹配、最大逆向匹配和最少切分法。最大正向匹配即从正向开始一个字一个字扫描,按扫描到最长的词为一个词组合切分而后继续扫描,最大逆向反之,最少切分即使句子中切分出的词数最小。

基于文本统计分词的原理为:在大样本文本中,相邻字组合同时出现频率高的组合是词的可能性较大。共同出现的频率体现了字之间的紧密程度,当该紧密程度高于某个阀值时,我们可以认定该字组可能构成了一个词。然而,有些共现频率高的字组并非词,如“之一”、“有的”等,故在实际运用中还需要词典的配合。

二、网页重要性

确定网页重要性通俗来讲就是要评判“文档讲的怎么样”,日常生活中,我们在评判某些话好不好时主要有两个标准:这是谁说的、别人认为怎么样。在网页分析阶段的网页重要性主要是后者,即别人认为怎么样,体现在网页间即链接关系。

链接可以对浏览网页的用户起到导航作用,同时也有助于搜索引擎理解网页间关系,搜索引擎可以依此对相关主题网页进行排序。链接分析算法较多,但总结起来可以分为两类:基于随机游走模型和基于子集传播模型。随机游走模型单单基于链接关系,如数量、质量等;子集传播模型按某种规则将网页分为多个子集合,子集合具有特殊性质,算法从这些子集合出发,给予集合内网页初始权重,而后按某种规则向外部其他网页传递权重。下面,我们简单看几种基础链接算法:

1、PageRank算法

PageRank算法基于随机游走模型,它有两个假设:某网页收到其他网页入链数量越多则该网页越重要;所有网页有权重高低之分,高权重网页指向网页A则认为网页A也重要。简单来讲,针对某网页A:

网页A有一系列网页指向,则其PR值为网页B的PR值除以该网页内出链总数b加C的PR值除以该网页内出链总数c,依次类推。

PR计算经典公式为:

λ为阻尼系数表示网页并非将本身全部权重完全传递,m为该网页的全部入链数,为网页在上一次迭代时的PR值,为网页的出链数。一般来讲,网页的PR值越高,在与该网页相关的某个检索词结果排序中越可能获得靠前的排名。

2、HITS算法

HITS算法英文全称为Hyperlink-Induced Topic Search,Hub页面(中枢页)和Authority页面(权威页)是该算法的两个基本定义。Hub页面指包含很多高质量Authority页面的网页,如导航站(hao123、360导航等);Authority页面指与某个领域或某个话题相关的高质量网页。高质量Authority页面会被很多好的Hub页面指向,好的Hub页面会指向很多好的Authority页面。

HITS算法在用户提交查询后进行网页权重迭代计算,而PR算法则与用户查询无关。该算法在用户查询后计算,可以单独作为相似性计算标准,然而,在面对大规模数据计算时效率较低且容易被操控作弊。

3、主题敏感PR算法

主题敏感PR算法认为链接相关的网页在主题上具有相似性,PR算法是全局算法,针对某个网页单纯计算一个PR值,而主题敏感PR算法引入16种主题类型,针对某个网页有16个对应各主题的相关PR值。在接收到用户查询后,先对查询词进行分类隶属度进行计算,而后在相应分类网页集中计算寻找结果。

其他如SALSA算法、Hilltop算法、PHITS算法、BFS算法等均是在以上算法的基础上进行相应优化的算法,对SEO而言,我们只需要了解基础算法的思想即可。

综合以上算法,从SEO角度,某网页要获取高PR值可以从三方面入手:增加入链数(不管内链还是外链)、提高入链质量(链接本身权重及该链接页内链接数量)、减少页面出链数。从经验来讲,应合理分配站内链接,不要过多在页面内部做内链,让链接具有一定可控性,尽量减少无检索意义页面(如关于我们、注册页等)链接数量,对于重要列表页制造专题页取代列表页(经验之谈,Topic页面往往比Hub页面更容易获得好的排名)。


  1. 参考:
  2. 1.      《搜索引擎原理、技术与系统》
  3. 2.      《这就是搜索引擎》
  4. 3.      《走进搜索引擎》
  5. 4.      《搜索引擎信息检索实践》
  6. 5.      百度站长平台等网络资源
» 声明:本站文章源于个人经验总结或书籍、互联网转载,内容仅用于个人学习,请勿转载,否则后果自负!

给我留言

留言无头像?