网页表示
网页的表示是网页内容分析的基础,在网页内容分析过程中通常需要两个层级的表示,抽象表示和量化表示。
抽象表示是以网页制作规范(HTML规范)为依据和出发点,构造出能体现网页内容结构和内容重要性等信息的表示模型,其目的是充分利用网页制作规范,挖掘网页中隐含的信息,为后续量化表示提供更多可利用信息。
量化表示是指从计算机处理的角度出发,利用信息检索领域的技术和从网页中挖掘隐含信息,生成计算机可以直接用于计算的表示模型(如向量空间模型等)。
对于HTML网页,最常用的方法是构造网页的标签树。
抽象表示
HTML通过定义一套标签来刻画网页显示时的页面。
依据标签的作用可以将HTML的标签分为三类:
1、规划网页布局的标签:在视觉上,网页是由若干提供内容信息的区域(内容块)组成的,而内容块是由特定的标签规划出的(容器标签),而且容器标签是允许嵌套的。常用的容器标签有
1 | <div>、<p>、<td>、<tr>、<table></table></tr></td></p></div> |
等。因此依据容器标签可以把网页表示成树状结构,虽然树状结构描述的是网页内容的布局结构,但布局信息中隐含着网页内部各个部门内容的相关性信息。
2、描述显示特点的标签:在HTML标准钟定义了一套标签来规范其包含的内容的显示方式(文字大小、粗体、斜体),称之为重要信息标签。常用的重要信息标签有
1 | <b>、<i>、<strong>、<h1>、<h2></h2></h1></strong></i></b> |
等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。
3、超链接相关的标签:超链接是HTML网页区别于传统文本的最明显的特点之一,表示着网页间的关系,因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。
W3C HTML lexical analyzer(W3C 1997)与HTML Tidy(HTMLTdy 2004)
他们各有特点,W3C HTML lexical analyzer 有很强的通用性,适合各种标识语言;HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。
由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性,因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念,倾向于以内容块为单位的内容组织方式。
内容分析过程中通常关注这些信息:标签数的规模(结点个数)、每个内容快包含的类型信息(文本、超链或者图片)及其数量等。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tags Model</title>
</head>
<body>
<div id="model 1">
<ul>
<li><a href="1"></a></li>
<li><a href="2"></a></li>
... ...
</ul>
</div>
<div id="model 2">
<p><b>paragraph 1</b></p>
<p>paragraph 2</p>
<p>paragraph 3</p>
<div>
<ul>
<li><a href="3"></a></li>
<li><a href="4"></a></li>
<li><a href="5"></a></li>
</ul>
</div>
</div>
</body>
</html> |
