主题网页的信息提取算法>提取DocView模型要素的方法

有主题网页的信息提取算法

该算法是一组启发式规则为指导,首先提取出网页的正文信息,然后以正文信息为基础,提取DocView模型中其他的要素。

主题网页DocView模型生成过程

正文:一篇有主题网页中的正文通常是用成段的文字来描述,中间通常不会加入大量的链接,而非正文信息通常是伴随着链接出现的。由此形成的规则称之为正文选取规则(正文规则)。

正文规则:有主题网页中,如果一个内容块是topic类型的,则该内容块中的内容为正文的一部分。依据正文规则,深度优先遍历标签树并以此记录topic类型的内容块,就看得到该网页的正文,也就是该网页的主题内容。

关键词:关键词选取的依据是特征项的权值,因而特征项权值的合理计算是正确提取关键词的保证。

以标签树为基础,结合HTML网页的特点以及提出的量化方法,可以直接按照下述过程得到网页的主题内容的特征向量。

   1:for标签树中的每个正文块CBi do
   2:if 该块中存在重要标签信息 then
   3:  检查重要信息标签中的内容是否在噪声词集合中出现
   4:  if 不在噪声词集合 then      //为真实重要信息
   5:    将重要信息标签的影响因子累加到该内容块的影响因子上
   6:  end if
   7:  if 该内容块的影响因子大于 1 then
   8:    提出的权值传递策略在标签树中传递权值
   9:  end if
  10:end if
  11:end for
  12:计算各个特征项的权值

依据上面算法可以得到特征向量,可以用2种策略决定选取关键词的数量。

绝对数量策略:定义好DocView 模型中关键词的个数α,严格选取权值最大的α个特征项作为该网页的关键词。

相对数量策略:定义个一个阈值β,而后计算所有特征项权值的算术平均值avg,选取特征项中权值大于avg*β的作为该网页的关键词。该策略中不需要规定要选取的关键词的个数,直接依据特征项权值的绝对大小判断该网页的关键词。虽然会导致各个网页中被选取关键词的数量不均,但可以更准确地提取关键词。

内容类别:通过正文分类得到。网页的量化表示是网页分类过程中必不可少的阶段,而在关键词提取过程中已经得到了正文的特征向量,那么直接使用正文向量进行分类(节省网页量化过程的时间成本),这正是将共性需求一次提取的优势之一。仅对网页的正文分类有效的排除了噪声内容的干扰,从而提高了分类的准确性。

标题:HTML网页中,网页的标题由<title>标签标识。小部分网页是没有标题的,那么针对没有标题或者使用无描述能力(标题为类似”Untitled Document、Newpage、welcome、欢迎访问等的以网页制作工具新建网页的初始title作为title的网页或者没有title标签的网页”)的网页,从关键词集合中选取权值最高的作为网页的新标题。

摘要:摘要的提取给予这样的事实:文章都是按内容分段组织的;阅读者通常是根据一段文章中某几个子句来得到该段文章的大意,而这几个子句的选择通常是通过扫描某些关键词来定位的。因此,如果可以自动识别文章中不同的段落,那么给予上述得到的关键词,就可以得到能够模拟读者浏览文章的过程的摘要提取算法。

识别文章段落:HTML网页中的结构信息是对网页版面的描述,这使得自动识别文章的不同段落成为可能,在正文提取部分已经得到了网页的正文,在网页的标签设计中,所有的正文模块也构成了一个树状结构,称之为正文树。在正文树中,首先找到所有的叶子节点的最近共同祖先节点作为正文根结点。正文根结点的哥哥子节点对应的正文块就是正文的不同段落。段落识别的过程如下所示。

2010-6-11 9-20-47

基于段落的语句提取:以正文的段落为单位,在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值;最后在每个段落中限量选取权值大的语句,就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系,但能做到简短的摘要能覆盖整个文章的内容。

相关超链(相关链接)在超链接选取的过程中,我们基于这样一个假设:网页中的超链在网页排版时通常按照主题聚集(相同主题的超链在网页中的位置是相近的),通常放在一起最里层的内容块(该内容块中不再包含其他内容块)中或者并列的几个最里层内容块中。这就意味着我们可以以内容块单位对超链接进行取舍。对于超链接的选取,有以下2种策略。

A、基于anchor text 的超链接选取策略

anchor text 是对超链接所指向网页简短、概要的说明,在一定程度上体现了被指向网页的内容。基于anchor text 的超链接选取方法是通过比较每个Hub类型内容块中anchor text 集合与正文的相似度来决定该块中链接的取舍。

1: 计算网页正文对应的特征向量φ
2: for网页中的每个叶子内容块CBi do
3:    if CBi 是 hub 块 then
4:       计算 CBi 对应的特征向量φi
5:       计算 φ 与 φi 的相似度 similarity;
6:       if similarityi &gt; β then     // β 为相似度阀值
7:           保留 CBi 中的URL
8:       else 不保留 CBi 中的URL
9:       end if
10:   end if
11: end for

通过这一方法,可以计算对Hub类型内容块中的超链进行取舍,而其他类型内容块中的超链通常是对正文中某些信息的详细说明,因而其他类型的内容块中的超链通常是内容相关的。

B、基于分类的超链接选取策略

基于分类的超链接选取方法是通过判断一个Hub类型内容块中某个超链(通常是第一个)指向的网页与本网页正文的类别是否相同来决定该块中所有超链接的内容相关性。该方法可以有效的解决上述方法中anchor text信息过少的不足,而且实验结果证明,该方法确实比基于anchor text的方法准确,但需要动态的从Web上抓取并分类,因而时间成本比较大。

Share and Enjoy:
  • Print
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • Blogplay
  • 豆瓣
  • 豆瓣九点
  • Haohao
  • Twitter
  • Yahoo! Bookmarks
  • Yigg

Tags: ,

Comments are closed.