网页类型的判断方法>提取DocView模型要素的方法>网页净化与消重>搜索引擎

By Nigel on 12月 11th, 2009

web上的网页,可以根据其网页类型可以分为三类:主题网页、Hub网页、图片网页。三类网页的信息提取算法各不相同,因此在对网页进行深入分析之前首先要判断网页的类型。

网页类型判断方法

视觉上,大多数网页是很容易区分类型的,因为三种类型的网页有着较为明显的视觉特征。
主题网页:通过成段的文字描述一件或者多件事物,虽然也会有图片和链接,但这些图片和链接并不

是网页的主题;
图片网页:通过图片体现网页内容,文字仅仅是对图片的一个说明,所以文字不多;
Hub网页:通常不会描述一件事物,而是提供指向相关网页的链接,所以Hub网页中链接密集。

视觉上判断网页类型的方法是非常容易的,但是计算机进行视觉分析,却非常困难。量化方法则可以在大多数情况下准确识别网页的类型。网站通常都是通过一定布局来表现内容的。网页设计师通常都是将重要内容布局在网页中间区域,比如上中下结构,头部(header)、内容区(content)、页脚(footer),头部一般为导航,页脚标注一些网页相关信息,内容区域才是重点。因此依据网页中间区域的内容判断网页类型是相对合理的,而网页内容的位置是标签树中等的内容块的属性记录下来。

在构造标签树时,依据内容块中词项数、图片数的比值以及内容块中词项数与anchor text中词项数的比值将网页中的内容块分为topic、hub和pic三个类型,基于内容块的类型,可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值判断网页是否为hub类型,同理,使用网页中间区域pic内容块包含的词项数与网页中间区域词项数的比值判断网页是否为pic类型。