整理硬盘,翻出某次seo培训文档,share 出来!
抽象表示>网页表示>网页净化与消重>《搜索引擎》
网页表示
网页的表示是网页内容分析的基础,在网页内容分析过程中通常需要两个层级的表示,抽象表示和量化表示。
抽象表示是以网页制作规范(HTML规范)为依据和出发点,构造出能体现网页内容结构和内容重要性等信息的表示模型,其目的是充分利用网页制作规范,挖掘网页中隐含的信息,为后续量化表示提供更多可利用信息。
量化表示是指从计算机处理的角度出发,利用信息检索领域的技术和从网页中挖掘隐含信息,生成计算机可以直接用于计算的表示模型(如向量空间模型等)。
对于HTML网页,最常用的方法是构造网页的标签树。
抽象表示
HTML通过定义一套标签来刻画网页显示时的页面。
依据标签的作用可以将HTML的标签分为三类:
1、规划网页布局的标签:在视觉上,网页是由若干提供内容信息的区域(内容块)组成的,而内容块是由特定的标签规划出的(容器标签),而且容器标签是允许嵌套的。常用的容器标签有
1 | <div>、<p>、<td>、<tr>、<table></table></tr></td></p></div> |
等。因此依据容器标签可以把网页表示成树状结构,虽然树状结构描述的是网页内容的布局结构,但布局信息中隐含着网页内部各个部门内容的相关性信息。
2、描述显示特点的标签:在HTML标准钟定义了一套标签来规范其包含的内容的显示方式(文字大小、粗体、斜体),称之为重要信息标签。常用的重要信息标签有
1 | <b>、<i>、<strong>、<h1>、<h2></h2></h1></strong></i></b> |
等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。
3、超链接相关的标签:超链接是HTML网页区别于传统文本的最明显的特点之一,表示着网页间的关系,因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。
W3C HTML lexical analyzer(W3C 1997)与HTML Tidy(HTMLTdy 2004)
他们各有特点,W3C HTML lexical analyzer 有很强的通用性,适合各种标识语言;HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。
由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性,因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念,倾向于以内容块为单位的内容组织方式。
内容分析过程中通常关注这些信息:标签数的规模(结点个数)、每个内容快包含的类型信息(文本、超链或者图片)及其数量等。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 | < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tags Model</title>
</head>
<body>
<div id="model 1">
<ul>
<li><a href="1"></a></li>
<li><a href="2"></a></li>
... ...
</ul>
</div>
<div id="model 2">
<p><b>paragraph 1</b></p>
<p>paragraph 2</p>
<p>paragraph 3</p>
<div>
<ul>
<li><a href="3"></a></li>
<li><a href="4"></a></li>
<li><a href="5"></a></li>
</ul>
</div>
</div>
</body>
</html> |
网页净化与元数据提取>网页净化与消重>《搜索引擎》
网页净化与元数据提取
网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。
在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。
在web信息检索领域,检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪声内容不仅使索引结构的规模变大,而且还会导致了检索系统准确性的下降。针对这个问题(Lin et al. 2002)中提出了一个去除网页中噪声内容的方法,该方法首先依据<table>标签构造网页的标签树,从而依据<table>标签将网页规划为相互嵌套的内容块;然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容,作为沉余内容,而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的,但该方法必须局限于同一个模版的网页集,而web上的网页模版不计其数,该方法显然不够通用。
在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果。(Yang 1995,Li et al. 2002)中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。
在网页信息提取领域,自动识别漠视的方法必须要从整个网页中提取模式,而不是只针对主题内容提取。因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰,提高信息提取的准确性,而且可以使得网页中的结构简单化,提高信息提取的效率。
噪声内容对基于网页的研究工作室普遍而严重的,虽然各个领域采用的方法各不相同,但处理的目的都是为了去除网页的噪声内容,得到真正的主题内容。
随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用。在web检索领域,单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用,不仅使用户可以从不同的角度进行查询,而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此,准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。
在元数据和主题内容的提取方法上,可以从信息提取领域的研究成果(特别是从HTML网页中提取语义信息)中得到很多启发。针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式。然后,信息提取系统根据该模式从属于该类的网页中提取相应的内容(Hammer et al. 1997,Ashish et al. 1997)。对元数据和主题内容的提取可以采用同样的办法,但这些方法有一个共同的局限性,那就是需要人工提取内容组织模式,这对于内容组织繁多的web来说显然是不适用的。因此,在(Wemble et al. 1999)中提出了5条启发式的规则,综合利用这5条规则系统可以自动地发现网页中各个主题信息块(chunk)的边界。(Yang et al. 2001)提出了一种基于视觉相似性来自动分析网页语义结构的方法,该方法首先比较HTML网页内容的视觉相似性,然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式,最后按照该模式将内容重新组合。
HTML_DocView模型:
包括:网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据,而其他6项则属于网页的元数据。
网页类型:根据网页内容的表现形式进行划分,一般划分为三类,既 主题网页(topic)、Hub网页(hub)、图片网页(pic)。
内容类别:是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段。
标题、关键词、摘要:是概括描述web文档内容的重要元数据。
正文:是原始网页中真正概括描述主题的部分。
相关链接:是指在本网页中指向与正文内容相关的网页的链接。
【转】语义化的HTML结构到底有什么好处?
本文来自:愚人码头
相信大家都知道html和css,知道html结构和css表现分离,知道html语义化,这些都是这几年的热门关键字。语义化的html在国内也是一两年前才开始被追捧的,看看现在群里谈论的html结构,关于html结构的面试题,语义化的html占据了很大一部分。那么为什么要使用语义化的HTML?语义化的HTML到底有什么好处呢?
HTML是提供网页文档内容的上下文结构和含义;html本身是没有表现的,我们看到例如<h1>是粗体,字体大小2em,加粗;<strong>是加粗的,不要认为这是html的表现,这些其实html默认的css样式在起作用,所以首先我们要知道html和页面的表现是没有关系的,这些是css的事情。HTML在页面中的作用就是结构和含义,通俗点说就是划分内容,这里放什么,我们放的是什么。
语义化的HTML结构首先要强调HTML结构
HTML结构是页面的骨架,一个页面就好像一幢房子,HTML结构就是钢精钢筋混泥土的墙,一幢房子如果没有钢精钢筋混泥土的墙那就是一堆费砖头,不能住人,不能办公。css是装饰材料,是原木地板,是大理石,是油漆,是用来装饰房子的,CSS的强大就不用多说了,css如果没有html结构那就是一堆木板,一同油漆,没有了实际使用价值。CSS完全依靠引用它的(X)HTML文档。如果你想使CSS的能力充分发挥到极致,提供一个用既干净又有结构的内容的html是非常必要的,“HTML是在互联网上发布超文本的通用语……HTML使用标签来对文本结构化”(http://www.w3.org/MarkUp/)。
语义化的HTML结构怎么写?
HTML是一种对文本内容进行结构和意义(或者说“语义”)进行补充的方法。它会告诉我们说:“这行是一个标题,这几行组成了一个段落。这些文字是项目列表,这些文字是链接到互联网上另一个文件的超链接。”值得注意的是,不应该让HTML来告诉我们:“这些文字是蓝色的,这些文字又是红色的。这部分内容是最最靠右的一栏,这行内容是斜体字。”这些和表现相关的信息是CSS的工作。在做前端开发的时候要记住:HTML告诉我们一块内容是什么(或其意义),而不是它长的什么样子。当我们提到“语义标记”的时候,我们所说的HTML应该是完全脱离表现信息的,其中的标签应该都是语义化地定义了文档的结构。
写语义化的HTML结构其实很简单,首先掌握html中各个标签的语义,<div>是一个容器;<strong>是表示强调;<ul><li>是一个无序列表等等…在看到内容的时候想想用什么标签能更好的描述它,是什么就用什么标签。
语义化的HTML结构到底有什么好处?
我们知道HTML5新增的标签,比如<header>和<footer>,html正在朝着更加健壮的语义化的HTML结构发展,xhtml2在这点上没html5先进,这也是xhtml2死亡的一个原因,这一点也说明了语义化的HTML结构是html的发展趋势。
1.去掉或样式丢失的时候能让页面呈现清晰的结构:
html本身是没有表现的,我们看到例如<h1>是粗体,字体大小2em,加粗;<strong>是加粗的,不要认为这是html的表现,这些其实html默认的css样式在起作用,所以去掉或样式丢失的时候能让页面呈现清晰的结构不是语义化的HTML结构的优点,但是浏览器都有有默认样式,默认样式的目的也是为了更好的表达html的语义,可以说浏览器的默认样式和语义化的HTML结构是不可分割的。
2.屏幕阅读器(如果访客有视障)会完全根据你的标记来“读”你的网页.
例如,如果你使用的含语义的标记,屏幕阅读器就会“逐个拼出”你的单词,而不是试着去对它完整发音.
3.PDA、手机等设备可能无法像普通电脑的浏览器一样来渲染网页(通常是因为这些设备对CSS的支持较弱).
使用语义标记可以确保这些设备以一种有意义的方式来渲染网页.理想情况下,观看设备的任务是符合设备本身的条件来渲染网页.
语义标记为设备提供了所需的相关信息,就省去了你自己去考虑所有可能的显示情况(包括现有的或者将来新的设备).例如,一部手机可以选择使一段标记了标题的文字以粗体显示.而掌上电脑可能会以比较大的字体来显示.无论哪种方式一旦你对文本标记为标题,您就可以确信读取设备将根据其自身的条件来合适地显示页面.
4.搜索引擎的爬虫也依赖于标记来确定上下文和各个关键字的权重.
过去你可能还没有考虑搜索引擎的爬虫也是网站的“访客”,但现在它们他们实际上是极其宝贵的用户.没有他们的话,搜索引擎将无法索引你的网站,然后一般用户将很难过来访问.
5.你的页面是否对爬虫容易理解非常重要,因为爬虫很大程度上会忽略用于表现的标记,而只注重语义标记.
因此,如果页面文件的标题被标记,而不是,那么这个页面在搜索结果的位置可能会比较靠后.除了提升易用性外,语义标记有利于正确使用CSS和JavaScript,因为其本身提供了许多“钩钩”来应用页面的样式与行为.
SEO主要还是靠你网站的内容和外部链接的。
6.便于团队开发和维护
W3C给我们定了一个很好的标准,在团队中大家都遵循这个标准,可以减少很多差异化的东西,方便开发和维护,提高开发效率,甚至实现模块化开发。
B2B网站中后期SEO工作部署的思考
最近一直在和很多HR聊!自己也在寻找合适的平台;昨天例行公事!
某行业门户HR leader小聊半小时,最后一个面试问题就是,对于B2B网站中后期的SEO工作部署问题。
B2B在国内目前的现状是信息流!也就是。平台的作用仅仅只是信息的发布与订阅。能够完成交易过程的目前还不成熟!这也是中小企业对于EC的认识问题!
生产制造业中一般的产品都是生命周期长,发展进程较慢。一个产品的生命周期可能是1-5年甚至更长!那么对于这些垂直门户的信息处理可能会遇到如下问题:
1、无限制发布
2、信息重复
3、信息时效性
1和3是PM在做产品的时候应该考虑到的,所以只考虑信息重复!
举个例子:工业设备行业中的 等离子清洗机
看看阿里
list_page基本都是同样的信息标题,而不同的就是公司和代理名称以及发布时间! 设想针对制造业B2B类,SE未来会不会在判定SERP的元素上加一条time!(很不现实)
product_show 产品的详细说明页
图一中取三条信息源码的head部分看看
问题:大量重复title;head部分区别仅仅为description和keywords个别字
产品描述部分:
这个位置的重复问题还不是很严重!不排除企业相互抄袭现象!
内页的html布局自然都是同一的!
待续… …




