整理硬盘,翻出某次seo培训文档,share 出来!
主题网页的信息提取算法>提取DocView模型要素的方法
有主题网页的信息提取算法
该算法是一组启发式规则为指导,首先提取出网页的正文信息,然后以正文信息为基础,提取DocView模型中其他的要素。
正文:一篇有主题网页中的正文通常是用成段的文字来描述,中间通常不会加入大量的链接,而非正文信息通常是伴随着链接出现的。由此形成的规则称之为正文选取规则(正文规则)。
正文规则:有主题网页中,如果一个内容块是topic类型的,则该内容块中的内容为正文的一部分。依据正文规则,深度优先遍历标签树并以此记录topic类型的内容块,就看得到该网页的正文,也就是该网页的主题内容。
关键词:关键词选取的依据是特征项的权值,因而特征项权值的合理计算是正确提取关键词的保证。
以标签树为基础,结合HTML网页的特点以及提出的量化方法,可以直接按照下述过程得到网页的主题内容的特征向量。
1:for标签树中的每个正文块CBi do 2:if 该块中存在重要标签信息 then 3: 检查重要信息标签中的内容是否在噪声词集合中出现 4: if 不在噪声词集合 then //为真实重要信息 5: 将重要信息标签的影响因子累加到该内容块的影响因子上 6: end if 7: if 该内容块的影响因子大于 1 then 8: 提出的权值传递策略在标签树中传递权值 9: end if 10:end if 11:end for 12:计算各个特征项的权值
依据上面算法可以得到特征向量,可以用2种策略决定选取关键词的数量。
绝对数量策略:定义好DocView 模型中关键词的个数α,严格选取权值最大的α个特征项作为该网页的关键词。
相对数量策略:定义个一个阈值β,而后计算所有特征项权值的算术平均值avg,选取特征项中权值大于avg*β的作为该网页的关键词。该策略中不需要规定要选取的关键词的个数,直接依据特征项权值的绝对大小判断该网页的关键词。虽然会导致各个网页中被选取关键词的数量不均,但可以更准确地提取关键词。
内容类别:通过正文分类得到。网页的量化表示是网页分类过程中必不可少的阶段,而在关键词提取过程中已经得到了正文的特征向量,那么直接使用正文向量进行分类(节省网页量化过程的时间成本),这正是将共性需求一次提取的优势之一。仅对网页的正文分类有效的排除了噪声内容的干扰,从而提高了分类的准确性。
标题:HTML网页中,网页的标题由<title>标签标识。小部分网页是没有标题的,那么针对没有标题或者使用无描述能力(标题为类似”Untitled Document、Newpage、welcome、欢迎访问等的以网页制作工具新建网页的初始title作为title的网页或者没有title标签的网页”)的网页,从关键词集合中选取权值最高的作为网页的新标题。
摘要:摘要的提取给予这样的事实:文章都是按内容分段组织的;阅读者通常是根据一段文章中某几个子句来得到该段文章的大意,而这几个子句的选择通常是通过扫描某些关键词来定位的。因此,如果可以自动识别文章中不同的段落,那么给予上述得到的关键词,就可以得到能够模拟读者浏览文章的过程的摘要提取算法。
识别文章段落:HTML网页中的结构信息是对网页版面的描述,这使得自动识别文章的不同段落成为可能,在正文提取部分已经得到了网页的正文,在网页的标签设计中,所有的正文模块也构成了一个树状结构,称之为正文树。在正文树中,首先找到所有的叶子节点的最近共同祖先节点作为正文根结点。正文根结点的哥哥子节点对应的正文块就是正文的不同段落。段落识别的过程如下所示。
基于段落的语句提取:以正文的段落为单位,在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值;最后在每个段落中限量选取权值大的语句,就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系,但能做到简短的摘要能覆盖整个文章的内容。
相关超链(相关链接):在超链接选取的过程中,我们基于这样一个假设:网页中的超链在网页排版时通常按照主题聚集(相同主题的超链在网页中的位置是相近的),通常放在一起最里层的内容块(该内容块中不再包含其他内容块)中或者并列的几个最里层内容块中。这就意味着我们可以以内容块单位对超链接进行取舍。对于超链接的选取,有以下2种策略。
A、基于anchor text 的超链接选取策略
anchor text 是对超链接所指向网页简短、概要的说明,在一定程度上体现了被指向网页的内容。基于anchor text 的超链接选取方法是通过比较每个Hub类型内容块中anchor text 集合与正文的相似度来决定该块中链接的取舍。
1: 计算网页正文对应的特征向量φ 2: for网页中的每个叶子内容块CBi do 3: if CBi 是 hub 块 then 4: 计算 CBi 对应的特征向量φi 5: 计算 φ 与 φi 的相似度 similarity; 6: if similarityi > β then // β 为相似度阀值 7: 保留 CBi 中的URL 8: else 不保留 CBi 中的URL 9: end if 10: end if 11: end for
通过这一方法,可以计算对Hub类型内容块中的超链进行取舍,而其他类型内容块中的超链通常是对正文中某些信息的详细说明,因而其他类型的内容块中的超链通常是内容相关的。
B、基于分类的超链接选取策略
基于分类的超链接选取方法是通过判断一个Hub类型内容块中某个超链(通常是第一个)指向的网页与本网页正文的类别是否相同来决定该块中所有超链接的内容相关性。该方法可以有效的解决上述方法中anchor text信息过少的不足,而且实验结果证明,该方法确实比基于anchor text的方法准确,但需要动态的从Web上抓取并分类,因而时间成本比较大。
网页类型的判断方法>提取DocView模型要素的方法>网页净化与消重>搜索引擎
web上的网页,可以根据其网页类型可以分为三类:主题网页、Hub网页、图片网页。三类网页的信息提取算法各不相同,因此在对网页进行深入分析之前首先要判断网页的类型。
网页类型判断方法
视觉上,大多数网页是很容易区分类型的,因为三种类型的网页有着较为明显的视觉特征。
主题网页:通过成段的文字描述一件或者多件事物,虽然也会有图片和链接,但这些图片和链接并不
是网页的主题;
图片网页:通过图片体现网页内容,文字仅仅是对图片的一个说明,所以文字不多;
Hub网页:通常不会描述一件事物,而是提供指向相关网页的链接,所以Hub网页中链接密集。
视觉上判断网页类型的方法是非常容易的,但是计算机进行视觉分析,却非常困难。量化方法则可以在大多数情况下准确识别网页的类型。网站通常都是通过一定布局来表现内容的。网页设计师通常都是将重要内容布局在网页中间区域,比如上中下结构,头部(header)、内容区(content)、页脚(footer),头部一般为导航,页脚标注一些网页相关信息,内容区域才是重点。因此依据网页中间区域的内容判断网页类型是相对合理的,而网页内容的位置是标签树中等的内容块的属性记录下来。
在构造标签树时,依据内容块中词项数、图片数的比值以及内容块中词项数与anchor text中词项数的比值将网页中的内容块分为topic、hub和pic三个类型,基于内容块的类型,可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值判断网页是否为hub类型,同理,使用网页中间区域pic内容块包含的词项数与网页中间区域词项数的比值判断网页是否为pic类型。
抽象表示>网页表示>网页净化与消重>《搜索引擎》
网页表示
网页的表示是网页内容分析的基础,在网页内容分析过程中通常需要两个层级的表示,抽象表示和量化表示。
抽象表示是以网页制作规范(HTML规范)为依据和出发点,构造出能体现网页内容结构和内容重要性等信息的表示模型,其目的是充分利用网页制作规范,挖掘网页中隐含的信息,为后续量化表示提供更多可利用信息。
量化表示是指从计算机处理的角度出发,利用信息检索领域的技术和从网页中挖掘隐含信息,生成计算机可以直接用于计算的表示模型(如向量空间模型等)。
对于HTML网页,最常用的方法是构造网页的标签树。
抽象表示
HTML通过定义一套标签来刻画网页显示时的页面。
依据标签的作用可以将HTML的标签分为三类:
1、规划网页布局的标签:在视觉上,网页是由若干提供内容信息的区域(内容块)组成的,而内容块是由特定的标签规划出的(容器标签),而且容器标签是允许嵌套的。常用的容器标签有
1 | <div>、<p>、<td>、<tr>、<table></table></tr></td></p></div> |
等。因此依据容器标签可以把网页表示成树状结构,虽然树状结构描述的是网页内容的布局结构,但布局信息中隐含着网页内部各个部门内容的相关性信息。
2、描述显示特点的标签:在HTML标准钟定义了一套标签来规范其包含的内容的显示方式(文字大小、粗体、斜体),称之为重要信息标签。常用的重要信息标签有
1 | <b>、<i>、<strong>、<h1>、<h2></h2></h1></strong></i></b> |
等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。
3、超链接相关的标签:超链接是HTML网页区别于传统文本的最明显的特点之一,表示着网页间的关系,因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。
W3C HTML lexical analyzer(W3C 1997)与HTML Tidy(HTMLTdy 2004)
他们各有特点,W3C HTML lexical analyzer 有很强的通用性,适合各种标识语言;HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。
由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性,因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念,倾向于以内容块为单位的内容组织方式。
内容分析过程中通常关注这些信息:标签数的规模(结点个数)、每个内容快包含的类型信息(文本、超链或者图片)及其数量等。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tags Model</title>
</head>
<body>
<div id="model 1">
<ul>
<li><a href="1"></a></li>
<li><a href="2"></a></li>
... ...
</ul>
</div>
<div id="model 2">
<p><b>paragraph 1</b></p>
<p>paragraph 2</p>
<p>paragraph 3</p>
<div>
<ul>
<li><a href="3"></a></li>
<li><a href="4"></a></li>
<li><a href="5"></a></li>
</ul>
</div>
</div>
</body>
</html> |
网页净化与元数据提取>网页净化与消重>《搜索引擎》
网页净化与元数据提取
网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。
在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。
在web信息检索领域,检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪声内容不仅使索引结构的规模变大,而且还会导致了检索系统准确性的下降。针对这个问题(Lin et al. 2002)中提出了一个去除网页中噪声内容的方法,该方法首先依据<table>标签构造网页的标签树,从而依据<table>标签将网页规划为相互嵌套的内容块;然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容,作为沉余内容,而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的,但该方法必须局限于同一个模版的网页集,而web上的网页模版不计其数,该方法显然不够通用。
在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果。(Yang 1995,Li et al. 2002)中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。
在网页信息提取领域,自动识别漠视的方法必须要从整个网页中提取模式,而不是只针对主题内容提取。因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰,提高信息提取的准确性,而且可以使得网页中的结构简单化,提高信息提取的效率。
噪声内容对基于网页的研究工作室普遍而严重的,虽然各个领域采用的方法各不相同,但处理的目的都是为了去除网页的噪声内容,得到真正的主题内容。
随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用。在web检索领域,单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用,不仅使用户可以从不同的角度进行查询,而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此,准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。
在元数据和主题内容的提取方法上,可以从信息提取领域的研究成果(特别是从HTML网页中提取语义信息)中得到很多启发。针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式。然后,信息提取系统根据该模式从属于该类的网页中提取相应的内容(Hammer et al. 1997,Ashish et al. 1997)。对元数据和主题内容的提取可以采用同样的办法,但这些方法有一个共同的局限性,那就是需要人工提取内容组织模式,这对于内容组织繁多的web来说显然是不适用的。因此,在(Wemble et al. 1999)中提出了5条启发式的规则,综合利用这5条规则系统可以自动地发现网页中各个主题信息块(chunk)的边界。(Yang et al. 2001)提出了一种基于视觉相似性来自动分析网页语义结构的方法,该方法首先比较HTML网页内容的视觉相似性,然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式,最后按照该模式将内容重新组合。
HTML_DocView模型:
包括:网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据,而其他6项则属于网页的元数据。
网页类型:根据网页内容的表现形式进行划分,一般划分为三类,既 主题网页(topic)、Hub网页(hub)、图片网页(pic)。
内容类别:是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段。
标题、关键词、摘要:是概括描述web文档内容的重要元数据。
正文:是原始网页中真正概括描述主题的部分。
相关链接:是指在本网页中指向与正文内容相关的网页的链接。



