抽象表示>网页表示>网页净化与消重>《搜索引擎》

By Nigel on 11月 27th, 2009

网页表示

网页的表示是网页内容分析的基础,在网页内容分析过程中通常需要两个层级的表示,抽象表示和量化表示。
抽象表示是以网页制作规范(HTML规范)为依据和出发点,构造出能体现网页内容结构和内容重要性等信息的表示模型,其目的是充分利用网页制作规范,挖掘网页中隐含的信息,为后续量化表示提供更多可利用信息。
量化表示是指从计算机处理的角度出发,利用信息检索领域的技术和从网页中挖掘隐含信息,生成计算机可以直接用于计算的表示模型(如向量空间模型等)。
对于HTML网页,最常用的方法是构造网页的标签树。

抽象表示
HTML通过定义一套标签来刻画网页显示时的页面。
依据标签的作用可以将HTML的标签分为三类:
1、规划网页布局的标签:在视觉上,网页是由若干提供内容信息的区域(内容块)组成的,而内容块是由特定的标签规划出的(容器标签),而且容器标签是允许嵌套的。常用的容器标签有

1
<div>、<p>、<td>、<tr>、<table></table></tr></td></p></div>

等。因此依据容器标签可以把网页表示成树状结构,虽然树状结构描述的是网页内容的布局结构,但布局信息中隐含着网页内部各个部门内容的相关性信息。
2、描述显示特点的标签:在HTML标准钟定义了一套标签来规范其包含的内容的显示方式(文字大小、粗体、斜体),称之为重要信息标签。常用的重要信息标签有

1
<b>、<i>、<strong>、<h1>、<h2></h2></h1></strong></i></b>

等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。
3、超链接相关的标签:超链接是HTML网页区别于传统文本的最明显的特点之一,表示着网页间的关系,因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。

W3C HTML lexical analyzer(W3C 1997)与HTML Tidy(HTMLTdy 2004)
他们各有特点,W3C HTML lexical analyzer 有很强的通用性,适合各种标识语言;HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。
由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性,因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念,倾向于以内容块为单位的内容组织方式。
内容分析过程中通常关注这些信息:标签数的规模(结点个数)、每个内容快包含的类型信息(文本、超链或者图片)及其数量等。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
    < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tags Model</title>
</head>
<body>
<div id="model 1">
  <ul>
    <li><a href="1"></a></li>
    <li><a href="2"></a></li>
    ... ...
  </ul>
</div>
<div id="model 2">
  <p><b>paragraph 1</b></p>
  <p>paragraph 2</p>
  <p>paragraph 3</p>
  <div>
    <ul>
      <li><a href="3"></a></li>
      <li><a href="4"></a></li>
      <li><a href="5"></a></li>
    </ul>
  </div>
</div>
</body>
</html>

2009-11-27 14-44-17

网页净化与元数据提取>网页净化与消重>《搜索引擎》

By Nigel on 11月 11th, 2009

网页净化与元数据提取

网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。

在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。

在web信息检索领域,检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪声内容不仅使索引结构的规模变大,而且还会导致了检索系统准确性的下降。针对这个问题(Lin et al. 2002)中提出了一个去除网页中噪声内容的方法,该方法首先依据<table>标签构造网页的标签树,从而依据<table>标签将网页规划为相互嵌套的内容块;然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容,作为沉余内容,而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的,但该方法必须局限于同一个模版的网页集,而web上的网页模版不计其数,该方法显然不够通用。

在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果。(Yang 1995,Li et al. 2002)中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。

在网页信息提取领域,自动识别漠视的方法必须要从整个网页中提取模式,而不是只针对主题内容提取。因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰提高信息提取的准确性,而且可以使得网页中的结构简单化提高信息提取的效率

噪声内容对基于网页的研究工作室普遍而严重的,虽然各个领域采用的方法各不相同,但处理的目的都是为了去除网页的噪声内容,得到真正的主题内容

随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用。在web检索领域,单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用,不仅使用户可以从不同的角度进行查询,而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此,准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。

在元数据和主题内容的提取方法上,可以从信息提取领域的研究成果(特别是HTML网页中提取语义信息)中得到很多启发。针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式。然后,信息提取系统根据该模式从属于该类的网页中提取相应的内容(Hammer et al. 1997,Ashish et al. 1997)。对元数据和主题内容的提取可以采用同样的办法,但这些方法有一个共同的局限性,那就是需要人工提取内容组织模式,这对于内容组织繁多的web来说显然是不适用的。因此,在(Wemble et al. 1999)中提出了5条启发式的规则,综合利用这5条规则系统可以自动地发现网页中各个主题信息块(chunk)的边界。(Yang et al. 2001)提出了一种基于视觉相似性来自动分析网页语义结构的方法,该方法首先比较HTML网页内容的视觉相似性,然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式,最后按照该模式将内容重新组合。

HTML_DocView模型
包括:网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据,而其他6项则属于网页的元数据。

网页类型:根据网页内容的表现形式进行划分,一般划分为三类,既 主题网页(topic)Hub网页(hub)图片网页(pic)

内容类别:是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段。

标题、关键词、摘要:是概括描述web文档内容的重要元数据

正文:是原始网页中真正概括描述主题的部分

相关链接:是指在本网页中指向与正文内容相关的网页的链接