<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Nigel  -</title>
	<atom:link href="http://xiaoniao.org/?feed=rss2" rel="self" type="application/rss+xml" />
	<link>http://xiaoniao.org</link>
	<description>搜索引擎, SEO, 前端 , 产品设计</description>
	<lastBuildDate>Mon, 28 Jun 2010 02:13:03 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>手机搜索娱乐先行，用户搜索行为来源呈现多样性</title>
		<link>http://xiaoniao.org/?p=238</link>
		<comments>http://xiaoniao.org/?p=238#comments</comments>
		<pubDate>Mon, 28 Jun 2010 02:01:49 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[手机搜索]]></category>
		<category><![CDATA[数据]]></category>
		<category><![CDATA[用户]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=238</guid>
		<description><![CDATA[来源：艾瑞咨询 根据艾瑞咨询即将推出的《2010年中国手机搜索用户行为研究报告》的数据显示，2010年，手机搜索用户搜索内容偏重娱乐，对主题、铃声和WAP等与手机终端特性结合紧密的内容搜索需求较多， 相比PC端用户搜索行为来源较为集中的现象，用户手机搜索行为来源呈现多样性特点。 手机端搜索偏重娱乐，搜索内容与手机终端特征结合较为紧密 艾瑞将手机端和PC端搜索用户搜索内容Top10进行对比发现，手机端搜索用户搜索内容Top10中有5项为娱乐相关内容，分别为MP3、小说、主题、游戏和铃声；此外，手机端Top10搜索内容中有5项与PC端重合，分别是MP3、软件、图片、游戏和地图，而其他5项中则有3项与手机端特征结合较为紧密，分别为WAP网站、搜主题和搜铃声。 艾瑞咨询分析认为，现阶段手机搜索用户主要以资讯类、实用类和娱乐类搜索需求为主，其中Top10中有5项是娱乐类内容，相比PC搜索，用户在手机端的搜索更偏重娱乐需求。MP3、软件、图片、游戏和地图等搜索需求同时出现在手机端与PC端Top10中，说明此5项应用为用户关注热点，手机搜索服务提供商应重点关注这些应用服务，增加用户使用便捷性、提升搜索准确度以增加用户黏性。此外针对手机终端的特征，用户对WAP、主题和铃声等与手机终端结合紧密的内容搜索需求较多，艾瑞建议手机搜索服务提供商关注手机端独特应用，针对终端特征挖掘用户搜索需求，并同时注重服务的人性化。 手机端搜索行为来源呈现多样性特点，尚未形成明显差异化 根据艾瑞调研数据显示，手动收藏网站地址，通过书签或收藏夹进入和手动下载并安装客户端软件，通过客户端软件进入等直接进入搜索网站页面的方式是用户登录手机搜索引擎的首选方式。艾瑞分析PC端搜索用户使用搜索行为来源数据发现，PC端搜索用户同样首选直接进入搜索网站页面使用搜索服务。 艾瑞咨询分析认为，相比用户在PC端搜索行为来源差异较大的现象（位于第一选择项的比例比第二高出33个百分点），用户在手机端获取搜索服务的方式较为多样，且各种选择之间差距不大，尚未形成明显的差异性。艾瑞建议手机搜索服务提供商从用户角度出发，充分考虑手机操作的特性，加强与手机浏览器企业合作，为用户提供便捷的快速访问服务以吸引用户并增加用户黏性。]]></description>
			<content:encoded><![CDATA[<p>来源：<a href="http://news.iresearch.cn/viewpoints/117745.shtml" target="_blank">艾瑞咨询</a></p>
<p>根据艾瑞咨询即将推出的《2010年中国手机搜索用户行为研究报告》的<a href="http://xiaoniao.org/?tag=%E6%95%B0%E6%8D%AE">数据</a>显示，2010年，手机搜索<a href="http://xiaoniao.org/?tag=%E7%94%A8%E6%88%B7">用户</a>搜索内容偏重娱乐，对主题、铃声和WAP等与手机终端特性结合紧密的内容搜索需求较多， 相比PC端用户搜索行为来源较为集中的现象，用户手机搜索行为来源呈现多样性特点。</p>
<p><strong> 手机端搜索偏重娱乐，搜索内容与手机终端特征结合较为紧密</strong></p>
<p>艾瑞将手机端和PC端搜索用户搜索内容Top10进行对比发现，手机端搜索用户搜索内容Top10中有5项为娱乐相关内容，分别为MP3、小说、主题、游戏和铃声；此外，手机端Top10搜索内容中有5项与PC端重合，分别是MP3、软件、图片、游戏和地图，而其他5项中则有3项与手机端特征结合较为紧密，分别为WAP网站、搜主题和搜铃声。</p>
<p>艾瑞咨询分析认为，现阶段手机搜索用户主要以资讯类、实用类和娱乐类搜索需求为主，其中Top10中有5项是娱乐类内容，相比PC搜索，用户在手机端的搜索更偏重娱乐需求。MP3、软件、图片、游戏和地图等搜索需求同时出现在手机端与PC端Top10中，说明此5项应用为用户关注热点，<a href="http://xiaoniao.org/?cat=37">手机搜索</a>服务提供商应重点关注这些应用服务，增加用户使用便捷性、提升搜索准确度以增加用户黏性。此外针对手机终端的特征，用户对WAP、主题和铃声等与手机终端结合紧密的内容搜索需求较多，艾瑞建议手机搜索服务提供商关注手机端独特应用，针对终端特征挖掘用户搜索需求，并同时注重服务的人性化。</p>
<p><img src="http://pic.iresearch.cn/viewpoints/0415/20100624/0066@26913.gif" alt="" /></p>
<p><strong> 手机端搜索行为来源呈现多样性特点，尚未形成明显差异化</strong></p>
<p>根据艾瑞调研数据显示，手动收藏网站地址，通过书签或收藏夹进入和手动下载并安装客户端软件，通过客户端软件进入等直接进入搜索网站页面的方式是用户登录手机搜索引擎的首选方式。艾瑞分析PC端搜索用户使用搜索行为来源数据发现，PC端搜索用户同样首选直接进入搜索网站页面使用搜索服务。</p>
<p>艾瑞咨询分析认为，相比用户在PC端搜索行为来源差异较大的现象（位于第一选择项的比例比第二高出33个百分点），用户在手机端获取搜索服务的方式较为多样，且各种选择之间差距不大，尚未形成明显的差异性。艾瑞建议手机搜索服务提供商从用户角度出发，充分考虑手机操作的特性，加强与手机浏览器企业合作，为用户提供便捷的快速访问服务以吸引用户并增加用户黏性。</p>
<p><img src="http://pic.iresearch.cn/viewpoints/0415/20100624/0066@26914.gif" alt="" /></p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=238</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>招人：某医疗行业门户网站急招seo</title>
		<link>http://xiaoniao.org/?p=222</link>
		<comments>http://xiaoniao.org/?p=222#comments</comments>
		<pubDate>Fri, 30 Apr 2010 02:41:06 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[HR]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=222</guid>
		<description><![CDATA[职位描述： 1、从事搜索引擎优化为主的研究、分析； 2、负责网站的搜索引擎友好规范的制定与实施； 3、参与网站相关产品设计的前期需求分析； 4、培训网站其他部门遵循统一的搜索引擎友好规范。 5、撰写项目文档、分析需求。 职位要求： 1、两年以上相关工作经验。 2、熟悉HTML、Javascript、CSS等页面语言，精通HTML者为佳； 3、精通各大搜索引擎的搜索排名技术，有成功优化大型网站经验优先； 4、对自身技术提升有强烈的学习欲望，能持续关注搜索引擎的发展，了解其最新动向； 5、团队合作意识强，擅长沟通； 6、熟悉医疗行业（注意：可无视） 有意者可以发邮件：git@9.cn]]></description>
			<content:encoded><![CDATA[<p>职位描述：</p>
<p>1、从事搜索引擎优化为主的研究、分析；<br />
2、负责网站的搜索引擎友好规范的制定与实施；<br />
3、参与网站相关产品设计的前期需求分析；<br />
4、培训网站其他部门遵循统一的搜索引擎友好规范。<br />
5、撰写项目文档、分析需求。</p>
<p>职位要求：</p>
<p>1、两年以上相关工作经验。<br />
2、熟悉HTML、Javascript、CSS等页面语言，精通HTML者为佳；<br />
3、精通各大搜索引擎的搜索排名技术，有成功优化大型网站经验优先；<br />
4、对自身技术提升有强烈的学习欲望，能持续关注搜索引擎的发展，了解其最新动向；<br />
5、团队合作意识强，擅长沟通；<br />
6、熟悉医疗行业（注意：可无视）</p>
<p>有意者可以发邮件：git@9.cn</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=222</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>整理硬盘，翻出某次seo培训文档，share 出来！</title>
		<link>http://xiaoniao.org/?p=203</link>
		<comments>http://xiaoniao.org/?p=203#comments</comments>
		<pubDate>Tue, 16 Mar 2010 08:54:04 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[html]]></category>
		<category><![CDATA[关键词]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=203</guid>
		<description><![CDATA[某次编辑组 seo 培训 @nigel 整理硬盘，翻出某次seo培训文档，share 出来！]]></description>
			<content:encoded><![CDATA[<div id="__ss_3443651" style="width: 425px;"><strong>某次编辑组 <a href="http://xiaoniao.org/?cat=1">seo</a> 培训 @nigel </strong><object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="425" height="355" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=2009-9-17nigelseo-100316035104-phpapp01&amp;rel=0&amp;stripped_title=2009-917nigel-seo" /><param name="allowfullscreen" value="true" /><embed type="application/x-shockwave-flash" width="425" height="355" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=2009-9-17nigelseo-100316035104-phpapp01&amp;rel=0&amp;stripped_title=2009-917nigel-seo" allowscriptaccess="always" allowfullscreen="true"></embed></object></div>
<p>整理硬盘，翻出某次<a href="http://xiaoniao.org/?cat=1">seo</a>培训文档，share 出来！</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=203</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>主题网页的信息提取算法&gt;提取DocView模型要素的方法</title>
		<link>http://xiaoniao.org/?p=197</link>
		<comments>http://xiaoniao.org/?p=197#comments</comments>
		<pubDate>Wed, 20 Jan 2010 01:43:02 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[数据]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=197</guid>
		<description><![CDATA[有主题网页的信息提取算法 该算法是一组启发式规则为指导，首先提取出网页的正文信息，然后以正文信息为基础，提取DocView模型中其他的要素。 正文：一篇有主题网页中的正文通常是用成段的文字来描述，中间通常不会加入大量的链接，而非正文信息通常是伴随着链接出现的。由此形成的规则称之为正文选取规则(正文规则)。 正文规则：有主题网页中，如果一个内容块是topic类型的，则该内容块中的内容为正文的一部分。依据正文规则，深度优先遍历标签树并以此记录topic类型的内容块，就看得到该网页的正文，也就是该网页的主题内容。 关键词：关键词选取的依据是特征项的权值，因而特征项权值的合理计算是正确提取关键词的保证。 以标签树为基础，结合HTML网页的特点以及提出的量化方法，可以直接按照下述过程得到网页的主题内容的特征向量。 1：for标签树中的每个正文块CBi do 2：if 该块中存在重要标签信息 then 3： 检查重要信息标签中的内容是否在噪声词集合中出现 4： if 不在噪声词集合 then //为真实重要信息 5： 将重要信息标签的影响因子累加到该内容块的影响因子上 6： end if 7： if 该内容块的影响因子大于 1 then 8： 提出的权值传递策略在标签树中传递权值 9： end if 10：end if 11：end for 12：计算各个特征项的权值 依据上面算法可以得到特征向量，可以用2种策略决定选取关键词的数量。 绝对数量策略：定义好DocView 模型中关键词的个数α，严格选取权值最大的α个特征项作为该网页的关键词。 相对数量策略：定义个一个阈值β，而后计算所有特征项权值的算术平均值avg，选取特征项中权值大于avg*β的作为该网页的关键词。该策略中不需要规定要选取的关键词的个数，直接依据特征项权值的绝对大小判断该网页的关键词。虽然会导致各个网页中被选取关键词的数量不均，但可以更准确地提取关键词。 内容类别：通过正文分类得到。网页的量化表示是网页分类过程中必不可少的阶段，而在关键词提取过程中已经得到了正文的特征向量，那么直接使用正文向量进行分类(节省网页量化过程的时间成本)，这正是将共性需求一次提取的优势之一。仅对网页的正文分类有效的排除了噪声内容的干扰，从而提高了分类的准确性。 标题：HTML网页中，网页的标题由&#60;title&#62;标签标识。小部分网页是没有标题的，那么针对没有标题或者使用无描述能力(标题为类似&#8221;Untitled Document、Newpage、welcome、欢迎访问等的以网页制作工具新建网页的初始title作为title的网页或者没有title标签的网页&#8221;)的网页，从关键词集合中选取权值最高的作为网页的新标题。 摘要：摘要的提取给予这样的事实：文章都是按内容分段组织的；阅读者通常是根据一段文章中某几个子句来得到该段文章的大意，而这几个子句的选择通常是通过扫描某些关键词来定位的。因此，如果可以自动识别文章中不同的段落，那么给予上述得到的关键词，就可以得到能够模拟读者浏览文章的过程的摘要提取算法。 识别文章段落：HTML网页中的结构信息是对网页版面的描述，这使得自动识别文章的不同段落成为可能，在正文提取部分已经得到了网页的正文，在网页的标签设计中，所有的正文模块也构成了一个树状结构，称之为正文树。在正文树中，首先找到所有的叶子节点的最近共同祖先节点作为正文根结点。正文根结点的哥哥子节点对应的正文块就是正文的不同段落。段落识别的过程如下所示。 基于段落的语句提取：以正文的段落为单位，在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值；最后在每个段落中限量选取权值大的语句，就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系，但能做到简短的摘要能覆盖整个文章的内容。 相关超链（相关链接）：在超链接选取的过程中，我们基于这样一个假设：网页中的超链在网页排版时通常按照主题聚集（相同主题的超链在网页中的位置是相近的），通常放在一起最里层的内容块（该内容块中不再包含其他内容块）中或者并列的几个最里层内容块中。这就意味着我们可以以内容块单位对超链接进行取舍。对于超链接的选取，有以下2种策略。 A、基于anchor text 的超链接选取策略 anchor text 是对超链接所指向网页简短、概要的说明，在一定程度上体现了被指向网页的内容。基于anchor [...]]]></description>
			<content:encoded><![CDATA[<p>有主题网页的信息提取算法</p>
<p>该算法是一组启发式规则为指导，首先提取出网页的正文信息，然后以正文信息为基础，提取DocView模型中其他的要素。</p>
<p><a href="http://xiaoniao.org/wp-content/uploads/2009/12/2009-12-11-10-37-27.png" rel="lightbox[197]"><img class="alignnone size-full wp-image-190" title="主题网页DocView模型生成过程" src="http://xiaoniao.org/wp-content/uploads/2009/12/2009-12-11-10-37-27.png" alt="主题网页DocView模型生成过程" width="500" height="181" /></a></p>
<p><strong>正文</strong>：一篇有主题网页中的正文通常是用成段的文字来描述，中间通常不会加入大量的链接，而非正文信息通常是伴随着链接出现的。由此形成的规则称之为正文选取规则(正文规则)。</p>
<p><strong>正文规则</strong>：有主题网页中，如果一个内容块是topic类型的，则该内容块中的内容为正文的一部分。依据正文规则，深度优先遍历标签树并以此记录topic类型的内容块，就看得到该网页的正文，也就是该网页的主题内容。</p>
<p><strong>关键词</strong>：关键词选取的依据是特征项的权值，因而特征项权值的合理计算是正确提取关键词的保证。</p>
<p>以标签树为基础，结合HTML网页的特点以及提出的量化方法，可以直接按照下述过程得到网页的主题内容的特征向量。</p>

<div class="wp_syntax"><div class="code"><pre class="html" style="font-family:monospace;">   1：for标签树中的每个正文块CBi do
   2：if 该块中存在重要标签信息 then
   3：  检查重要信息标签中的内容是否在噪声词集合中出现
   4：  if 不在噪声词集合 then      //为真实重要信息
   5：    将重要信息标签的影响因子累加到该内容块的影响因子上
   6：  end if
   7：  if 该内容块的影响因子大于 1 then
   8：    提出的权值传递策略在标签树中传递权值
   9：  end if
  10：end if
  11：end for
  12：计算各个特征项的权值</pre></div></div>

<p>依据上面算法可以得到特征向量，可以用2种策略决定选取关键词的数量。</p>
<p><strong>绝对数量策略</strong>：定义好DocView 模型中关键词的个数α，严格选取权值最大的α个特征项作为该网页的关键词。</p>
<p><strong>相对数量策略</strong>：定义个一个阈值β，而后计算所有特征项权值的算术平均值avg，选取特征项中权值大于avg*β的作为该网页的关键词。该策略中不需要规定要选取的关键词的个数，直接依据特征项权值的绝对大小判断该网页的关键词。虽然会导致各个网页中被选取关键词的数量不均，但可以更准确地提取关键词。</p>
<p><strong>内容类别</strong>：通过正文分类得到。网页的量化表示是网页分类过程中必不可少的阶段，而在关键词提取过程中已经得到了正文的特征向量，那么直接使用正文向量进行分类(节省网页量化过程的时间成本)，这正是将共性需求一次提取的优势之一。仅对网页的正文分类有效的排除了噪声内容的干扰，从而提高了分类的准确性。</p>
<p><strong>标题</strong>：HTML网页中，网页的标题由&lt;title&gt;标签标识。小部分网页是没有标题的，那么针对没有标题或者使用无描述能力(标题为类似&#8221;Untitled Document、Newpage、welcome、欢迎访问等的以网页制作工具新建网页的初始title作为title的网页或者没有title标签的网页&#8221;)的网页，从关键词集合中选取权值最高的作为网页的新标题。</p>
<p><strong>摘要：</strong>摘要的提取给予这样的事实：文章都是按内容分段组织的；阅读者通常是根据一段文章中某几个子句来得到该段文章的大意，而这几个子句的选择通常是通过扫描某些关键词来定位的。因此，如果可以自动识别文章中不同的段落，那么给予上述得到的关键词，就可以得到能够模拟读者浏览文章的过程的摘要提取算法。</p>
<p><strong>识别文章段落：</strong>HTML网页中的结构信息是对网页版面的描述，这使得自动识别文章的不同段落成为可能，在正文提取部分已经得到了网页的正文，在网页的标签设计中，所有的正文模块也构成了一个树状结构，称之为<strong>正文树</strong>。在正文树中，首先找到所有的叶子节点的最近共同祖先节点作为正文根结点。正文根结点的哥哥子节点对应的正文块就是正文的不同段落。段落识别的过程如下所示。</p>
<p><a href="http://xiaoniao.org/wp-content/uploads/2010/01/2010-6-11-9-20-47.png" rel="lightbox[197]"><img class="alignnone size-full wp-image-225" title="2010-6-11 9-20-47" src="http://xiaoniao.org/wp-content/uploads/2010/01/2010-6-11-9-20-47.png" alt="2010-6-11 9-20-47" width="570" height="257" /></a></p>
<p><strong>基于段落的语句提取：</strong>以正文的段落为单位，在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值；最后在每个段落中限量选取权值大的语句，就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系，但能做到简短的摘要能覆盖整个文章的内容。</p>
<p><strong>相关超链</strong>（相关链接）<strong>：</strong>在超链接选取的过程中，我们基于这样一个假设：网页中的超链在网页排版时通常按照主题聚集（相同主题的超链在网页中的位置是相近的），通常放在一起最里层的内容块（该内容块中不再包含其他内容块）中或者并列的几个最里层内容块中。这就意味着我们可以以内容块单位对超链接进行取舍。对于超链接的选取，有以下2种策略。</p>
<p><strong>A、基于anchor text 的超链接选取策略</strong></p>
<p>anchor text 是对超链接所指向网页简短、概要的说明，在一定程度上体现了被指向网页的内容。基于anchor text 的超链接选取方法是通过比较每个Hub类型内容块中anchor text 集合与正文的相似度来决定该块中链接的取舍。</p>

<div class="wp_syntax"><div class="code"><pre class="html" style="font-family:monospace;">1： 计算网页正文对应的特征向量φ
2： for网页中的每个叶子内容块CBi do
3：    if CBi 是 hub 块 then
4：       计算 CBi 对应的特征向量φi
5：       计算 φ 与 φi 的相似度 similarity;
6：       if similarityi &amp;gt; β then     // β 为相似度阀值
7：           保留 CBi 中的URL
8：       else 不保留 CBi 中的URL
9：       end if
10：   end if
11： end for</pre></div></div>

<p>通过这一方法，可以计算对Hub类型内容块中的超链进行取舍，而其<strong>他类型内容块中的超链通常是对正文中某些信息的详细说明</strong>，因而其他类型的内容块中的超链通常是内容相关的。</p>
<p><strong>B、基于分类的超链接选取策略</strong></p>
<p>基于分类的超链接选取方法是通过判断一个Hub类型内容块中某个超链(通常是第一个)指向的网页与本网页正文的<strong>类别是否相同来决定</strong>该块中所有超链接的<strong>内容相关性</strong>。该方法可以有效的解决上述方法中anchor text信息过少的不足，而且实验结果证明，该方法确实比基于anchor text的方法准确，但需要动态的从Web上抓取并分类，因而时间成本比较大。</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=197</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页类型的判断方法&gt;提取DocView模型要素的方法&gt;网页净化与消重&gt;搜索引擎</title>
		<link>http://xiaoniao.org/?p=186</link>
		<comments>http://xiaoniao.org/?p=186#comments</comments>
		<pubDate>Fri, 11 Dec 2009 03:22:12 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[关键词]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=186</guid>
		<description><![CDATA[web上的网页，可以根据其网页类型可以分为三类：主题网页、Hub网页、图片网页。三类网页的信息提取算法各不相同，因此在对网页进行深入分析之前首先要判断网页的类型。 网页类型判断方法 视觉上，大多数网页是很容易区分类型的，因为三种类型的网页有着较为明显的视觉特征。 主题网页：通过成段的文字描述一件或者多件事物，虽然也会有图片和链接，但这些图片和链接并不 是网页的主题； 图片网页：通过图片体现网页内容，文字仅仅是对图片的一个说明，所以文字不多； Hub网页：通常不会描述一件事物，而是提供指向相关网页的链接，所以Hub网页中链接密集。 视觉上判断网页类型的方法是非常容易的，但是计算机进行视觉分析，却非常困难。量化方法则可以在大多数情况下准确识别网页的类型。网站通常都是通过一定布局来表现内容的。网页设计师通常都是将重要内容布局在网页中间区域,比如上中下结构，头部(header)、内容区(content)、页脚(footer),头部一般为导航，页脚标注一些网页相关信息，内容区域才是重点。因此依据网页中间区域的内容判断网页类型是相对合理的，而网页内容的位置是标签树中等的内容块的属性记录下来。 在构造标签树时，依据内容块中词项数、图片数的比值以及内容块中词项数与anchor text中词项数的比值将网页中的内容块分为topic、hub和pic三个类型，基于内容块的类型，可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值判断网页是否为hub类型，同理，使用网页中间区域pic内容块包含的词项数与网页中间区域词项数的比值判断网页是否为pic类型。]]></description>
			<content:encoded><![CDATA[<p>web上的网页，可以根据其网页类型可以分为三类：主题网页、Hub网页、图片网页。三类网页的信息提取算法各不相同，因此在对网页进行深入分析之前首先要判断网页的类型。</p>
<p>网页类型判断方法</p>
<p>视觉上，大多数网页是很容易区分类型的，因为三种类型的网页有着较为明显的视觉特征。<br />
主题网页：通过成段的文字描述一件或者多件事物，虽然也会有图片和链接，但这些图片和链接并不</p>
<p>是网页的主题；<br />
图片网页：通过图片体现网页内容，文字仅仅是对图片的一个说明，所以文字不多；<br />
Hub网页：通常不会描述一件事物，而是提供指向相关网页的链接，所以Hub网页中链接密集。</p>
<p>视觉上判断网页类型的方法是非常容易的，但是计算机进行视觉分析，却非常困难。量化方法则可以在大多数情况下准确识别网页的类型。网站通常都是通过一定布局来表现内容的。网页设计师通常都是将重要内容布局在网页中间区域,比如上中下结构，头部(header)、内容区(content)、页脚(footer),头部一般为导航，页脚标注一些网页相关信息，内容区域才是重点。因此依据网页中间区域的内容判断网页类型是相对合理的，而网页内容的位置是标签树中等的内容块的属性记录下来。</p>
<p>在构造标签树时，依据内容块中词项数、图片数的比值以及内容块中词项数与anchor text中词项数的比值将网页中的内容块分为topic、hub和pic三个类型，基于内容块的类型，可以使用网页中间区域hub内容块包含的词项数与网页中间区域词项数的比值判断网页是否为hub类型，同理，使用网页中间区域pic内容块包含的词项数与网页中间区域词项数的比值判断网页是否为pic类型。</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=186</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>抽象表示&gt;网页表示&gt;网页净化与消重&gt;《搜索引擎》</title>
		<link>http://xiaoniao.org/?p=166</link>
		<comments>http://xiaoniao.org/?p=166#comments</comments>
		<pubDate>Fri, 27 Nov 2009 07:50:27 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[html]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[数据]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=166</guid>
		<description><![CDATA[网页表示 网页的表示是网页内容分析的基础，在网页内容分析过程中通常需要两个层级的表示，抽象表示和量化表示。 抽象表示是以网页制作规范（HTML规范）为依据和出发点，构造出能体现网页内容结构和内容重要性等信息的表示模型，其目的是充分利用网页制作规范，挖掘网页中隐含的信息，为后续量化表示提供更多可利用信息。 量化表示是指从计算机处理的角度出发，利用信息检索领域的技术和从网页中挖掘隐含信息，生成计算机可以直接用于计算的表示模型（如向量空间模型等）。 对于HTML网页，最常用的方法是构造网页的标签树。 抽象表示 HTML通过定义一套标签来刻画网页显示时的页面。 依据标签的作用可以将HTML的标签分为三类： 1、规划网页布局的标签：在视觉上，网页是由若干提供内容信息的区域（内容块）组成的，而内容块是由特定的标签规划出的（容器标签），而且容器标签是允许嵌套的。常用的容器标签有 1 &#60;div&#62;、&#60;p&#62;、&#60;td&#62;、&#60;tr&#62;、&#60;table&#62;&#60;/table&#62;&#60;/tr&#62;&#60;/td&#62;&#60;/p&#62;&#60;/div&#62; 等。因此依据容器标签可以把网页表示成树状结构，虽然树状结构描述的是网页内容的布局结构，但布局信息中隐含着网页内部各个部门内容的相关性信息。 2、描述显示特点的标签：在HTML标准钟定义了一套标签来规范其包含的内容的显示方式（文字大小、粗体、斜体），称之为重要信息标签。常用的重要信息标签有 1 &#60;b&#62;、&#60;i&#62;、&#60;strong&#62;、&#60;h1&#62;、&#60;h2&#62;&#60;/h2&#62;&#60;/h1&#62;&#60;/strong&#62;&#60;/i&#62;&#60;/b&#62; 等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。 3、超链接相关的标签：超链接是HTML网页区别于传统文本的最明显的特点之一，表示着网页间的关系，因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。 W3C HTML lexical analyzer（W3C 1997）与HTML Tidy（HTMLTdy 2004） 他们各有特点，W3C HTML lexical analyzer 有很强的通用性，适合各种标识语言；HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。 由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性，因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念，倾向于以内容块为单位的内容组织方式。 内容分析过程中通常关注这些信息：标签数的规模（结点个数）、每个内容快包含的类型信息（文本、超链或者图片）及其数量等。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 [...]]]></description>
			<content:encoded><![CDATA[<p><strong>网页表示</strong></p>
<p>    网页的表示是网页内容分析的基础，在网页内容分析过程中通常需要两个层级的表示，抽象表示和量化表示。<br />
    抽象表示是以网页制作规范（HTML规范）为依据和出发点，构造出能体现网页内容结构和内容重要性等信息的表示模型，其目的是充分利用网页制作规范，挖掘网页中隐含的信息，为后续量化表示提供更多可利用信息。<br />
    量化表示是指从计算机处理的角度出发，利用信息检索领域的技术和从网页中挖掘隐含信息，生成计算机可以直接用于计算的表示模型（如向量空间模型等）。<br />
    对于HTML网页，最常用的方法是构造网页的标签树。</p>
<p>    抽象表示<br />
    HTML通过定义一套标签来刻画网页显示时的页面。<br />
    依据标签的作用可以将HTML的标签分为三类：<br />
    1、<strong>规划网页布局的标签</strong>：在视觉上，网页是由若干提供内容信息的区域（内容块）组成的，而内容块是由特定的标签规划出的（容器标签），而且<strong>容器标签是允许嵌套</strong>的。常用的容器标签有</p>

<div class="wp_syntax"><table><tr><td class="line_numbers"><pre>1
</pre></td><td class="code"><pre class="html" style="font-family:monospace;">&lt;div&gt;、&lt;p&gt;、&lt;td&gt;、&lt;tr&gt;、&lt;table&gt;&lt;/table&gt;&lt;/tr&gt;&lt;/td&gt;&lt;/p&gt;&lt;/div&gt;</pre></td></tr></table></div>

<p>等。因此依据容器标签可以把网页表示成<strong>树状结构</strong>，虽然树状结构描述的是<strong>网页内容的布局结构</strong>，但布局信息中隐含着网页内部各个部门内容的相关性信息。<br />
    2、<strong>描述显示特点的标签</strong>：在HTML标准钟定义了一套标签来规范其包含的内容的显示方式（文字大小、粗体、斜体），称之为重要信息标签。常用的重要信息标签有</p>

<div class="wp_syntax"><table><tr><td class="line_numbers"><pre>1
</pre></td><td class="code"><pre class="html" style="font-family:monospace;">&lt;b&gt;、&lt;i&gt;、&lt;strong&gt;、&lt;h1&gt;、&lt;h2&gt;&lt;/h2&gt;&lt;/h1&gt;&lt;/strong&gt;&lt;/i&gt;&lt;/b&gt;</pre></td></tr></table></div>

<p>等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。<br />
    3、<strong>超链接相关的标签</strong>：超链接是HTML网页区别于传统文本的最明显的特点之一，表示着网页间的关系，因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容<strong>相关性</strong>信息。</p>
<p>    W3C HTML lexical analyzer（W3C 1997）与HTML Tidy（HTMLTdy 2004）<br />
    他们各有特点，W3C HTML lexical analyzer 有很强的通用性，适合各种标识语言；HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。<br />
    由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性，因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念，倾向于以内容块为单位的内容组织方式。<br />
    内容分析过程中通常关注这些信息：标签数的规模（结点个数）、每个内容快包含的类型信息（文本、超链或者图片）及其数量等。</p>

<div class="wp_syntax"><table><tr><td class="line_numbers"><pre>1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
</pre></td><td class="code"><pre class="html" style="font-family:monospace;">    &lt; !DOCTYPE html PUBLIC &quot;-//W3C//DTD XHTML 1.0 Transitional//EN&quot; 
&quot;http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd&quot;&gt;
&lt;html xmlns=&quot;http://www.w3.org/1999/xhtml&quot;&gt;
&lt;head&gt;
&lt;meta http-equiv=&quot;Content-Type&quot; content=&quot;text/html; charset=utf-8&quot; /&gt;
&lt;title&gt;Tags Model&lt;/title&gt;
&lt;/head&gt;
&lt;body&gt;
&lt;div id=&quot;model 1&quot;&gt;
  &lt;ul&gt;
    &lt;li&gt;&lt;a href=&quot;1&quot;&gt;&lt;/a&gt;&lt;/li&gt;
    &lt;li&gt;&lt;a href=&quot;2&quot;&gt;&lt;/a&gt;&lt;/li&gt;
    ... ...
  &lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&quot;model 2&quot;&gt;
  &lt;p&gt;&lt;b&gt;paragraph 1&lt;/b&gt;&lt;/p&gt;
  &lt;p&gt;paragraph 2&lt;/p&gt;
  &lt;p&gt;paragraph 3&lt;/p&gt;
  &lt;div&gt;
    &lt;ul&gt;
      &lt;li&gt;&lt;a href=&quot;3&quot;&gt;&lt;/a&gt;&lt;/li&gt;
      &lt;li&gt;&lt;a href=&quot;4&quot;&gt;&lt;/a&gt;&lt;/li&gt;
      &lt;li&gt;&lt;a href=&quot;5&quot;&gt;&lt;/a&gt;&lt;/li&gt;
    &lt;/ul&gt;
  &lt;/div&gt;
&lt;/div&gt;
&lt;/body&gt;
&lt;/html&gt;</pre></td></tr></table></div>

<p><a href="http://xiaoniao.org/wp-content/uploads/2009/11/2009-11-27-14-44-17.png" rel="lightbox[166]"><img src="http://xiaoniao.org/wp-content/uploads/2009/11/2009-11-27-14-44-17.png" alt="2009-11-27 14-44-17" title="2009-11-27 14-44-17" width="477" height="431" class="alignnone size-full wp-image-178" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=166</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>网页净化与元数据提取&gt;网页净化与消重&gt;《搜索引擎》</title>
		<link>http://xiaoniao.org/?p=161</link>
		<comments>http://xiaoniao.org/?p=161#comments</comments>
		<pubDate>Wed, 11 Nov 2009 03:00:14 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[SEO]]></category>
		<category><![CDATA[html]]></category>
		<category><![CDATA[关键词]]></category>
		<category><![CDATA[数据]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=161</guid>
		<description><![CDATA[网页净化与元数据提取 网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。 网页净化（noise reduction）：识别和清除网页内的噪声内容（如广告、版权信息等），并提取网页 主题以及与主题相关的内容。 网页消重 （replicas or near—replicas detection）：去除所搜集网页集合中主题内容重复的网页。 在主题搜索领域，大量的广告、导航条等噪声内容会导致主题漂移（topicdrift）。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确，必须深入到网页内部将处理单元的粒度缩小，才能提高内容分析的准确性。在（Chakrabarti et al. 2001）中提出了一套解决方法，首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树，然后对这些子树做特别的处理，从而提高主题的提炼的效果。 在web信息检索领域，检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容，检索系统必然对噪声内容也建立索引，从而导致仅仅因为查询词在某张网页的噪声内容中出现，而把该网页作为结果返回，而网页的主题内容可能和这个查询词完全无关。可以看出，噪声内容不仅使索引结构的规模变大，而且还会导致了检索系统准确性的下降。针对这个问题（Lin et al. 2002）中提出了一个去除网页中噪声内容的方法，该方法首先依据&#60;table&#62;标签构造网页的标签树，从而依据&#60;table&#62;标签将网页规划为相互嵌套的内容块；然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容，作为沉余内容，而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的，但该方法必须局限于同一个模版的网页集，而web上的网页模版不计其数，该方法显然不够通用。 在网页分类领域，由于噪声内容与主题无关，训练集中的噪声内容会导致各个类别的特征不够明显，而待分类网页中的噪声内容则会导致改网页类别不明显，因而影响了网页自动分类的效果。（Yang 1995，Li et al. 2002）中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。 在网页信息提取领域，自动识别漠视的方法必须要从整个网页中提取模式，而不是只针对主题内容提取。因此，在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰，提高信息提取的准确性，而且可以使得网页中的结构简单化，提高信息提取的效率。 噪声内容对基于网页的研究工作室普遍而严重的，虽然各个领域采用的方法各不相同，但处理的目的都是为了去除网页的噪声内容，得到真正的主题内容。 随着web上的研究与应用的发展，单纯的网页内容已经不能满足需求，网页元数据得到越来越多的广泛使用。在web检索领域，单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用，不仅使用户可以从不同的角度进行查询，而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此，准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。 在元数据和主题内容的提取方法上，可以从信息提取领域的研究成果（特别是从HTML网页中提取语义信息）中得到很多启发。针对从HTML网页中提取语义信息，早期的方法是：针对某一类具体网页，人工提取该类的网页中的内容组织模式。然后，信息提取系统根据该模式从属于该类的网页中提取相应的内容（Hammer et al. 1997，Ashish et al. 1997）。对元数据和主题内容的提取可以采用同样的办法，但这些方法有一个共同的局限性，那就是需要人工提取内容组织模式，这对于内容组织繁多的web来说显然是不适用的。因此，在（Wemble et al. 1999）中提出了5条启发式的规则，综合利用这5条规则系统可以自动地发现网页中各个主题信息块（chunk）的边界。（Yang et al. 2001）提出了一种基于视觉相似性来自动分析网页语义结构的方法，该方法首先比较HTML网页内容的视觉相似性，然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式，最后按照该模式将内容重新组合。 HTML_DocView模型： 包括：网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据，而其他6项则属于网页的元数据。 网页类型：根据网页内容的表现形式进行划分，一般划分为三类，既 主题网页（topic）、Hub网页（hub）、图片网页（pic）。 内容类别：是从语义上对网页的内容进行分类，它是计算机获取网页语义信息的一个直接手段。 标题、关键词、摘要：是概括描述web文档内容的重要元数据。 正文：是原始网页中真正概括描述主题的部分。 相关链接：是指在本网页中指向与正文内容相关的网页的链接。]]></description>
			<content:encoded><![CDATA[<p><strong>网页净化与元数据提取</strong></p>
<p>网页净化与消重是大规模搜索引擎系统<strong>预处理</strong>环节的重要组成部分。<br />
网页净化（noise reduction）：识别和清除网页内的噪声内容（如广告、版权信息等），并提取网页 主题以及与主题相关的内容。<br />
网页消重 （replicas or near—replicas detection）：去除所搜集网页集合中主题内容重复的网页。</p>
<p>在主题搜索领域，<strong>大量的广告、导航条等噪声内容会导致主题漂移（topicdrift）</strong>。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确，必须深入到网页内部将处理单元的粒度缩小，才能提高内容分析的准确性。在（Chakrabarti et al. 2001）中提出了一套解决方法，首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树，然后对这些子树做特别的处理，从而提高主题的提炼的效果。</p>
<p>在web信息检索领域，检索<strong>结果的相关性和检索的速度</strong>是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容，检索系统必然对噪声内容也建立索引，从而导致仅仅因为查询词在某张网页的噪声内容中出现，而把该网页作为结果返回，而网页的主题内容可能和这个查询词完全无关。可以看出，噪声内容不仅使索引结构的规模变大，而且还会导致了检索系统准确性的下降。针对这个问题（Lin et al. 2002）中提出了一个去除网页中噪声内容的方法，该方法首先依据&lt;table&gt;标签构造网页的标签树，从而依据&lt;table&gt;标签将网页规划为相互嵌套的内容块；然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容，作为沉余内容，而在该网页集中出现次数较少的内容快就是<strong>有效信息块</strong>。实验证明该方法是有效的，但该方法必须局限于同一个模版的网页集，而web上的网页模版不计其数，该方法显然不够通用。</p>
<p>在网页分类领域，由于噪声内容与主题无关，训练集中的噪声内容会导致各个类别的特征不够明显，而待分类网页中的噪声内容则会导致改网页类别不明显，因而影响了网页自动分类的效果。（Yang 1995，Li et al. 2002）中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。</p>
<p>在网页信息提取领域，自动识别漠视的方法必须要从整个网页中提取模式，而不是只针对主题内容提取。因此，在净化后的网页上作信息提取不仅可以<strong>排除噪声信息对信息提取的干扰</strong>，<strong>提高信息提取的准确性</strong>，而且可以使得<strong>网页中的结构简单化</strong>，<strong>提高信息提取的效率</strong>。</p>
<p>噪声内容对基于网页的研究工作室普遍而严重的，虽然各个领域采用的方法各不相同，但处理的<strong>目的都是为了去除网页的噪声内容，得到真正的主题内容</strong>。</p>
<p>随着web上的研究与应用的发展，单纯的网页内容已经不能满足需求，网页元数据得到越来越多的广泛使用。在web检索领域，单纯依赖<strong>关键词匹配</strong>的检索手段过于单一。内容类别、摘要等<strong>元数据信息的合理使用</strong>，不仅使用户可以从不同的角度进行查询，而且也使得查询的准确性得到提高。而<strong>主题搜索</strong>、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此，<strong>准确且高效的提取</strong>必要的元数据是web上各个研究领域面临的重要问题。</p>
<p>在元数据和主题内容的提取方法上，可以从信息提取领域的研究成果（特别是<strong>从</strong><strong>HTML网页中提取语义信息</strong>）中得到很多启发。针对从HTML网页中提取语义信息，早期的方法是：针对某一类具体网页，人工提取该类的网页中的内容组织模式。然后，信息提取系统根据该模式从属于该类的网页中提取相应的内容（Hammer et al. 1997，Ashish et al. 1997）。对元数据和主题内容的提取可以采用同样的办法，但这些方法有一个共同的局限性，那就是需要人工提取内容组织模式，这对于内容组织繁多的web来说显然是不适用的。因此，在（Wemble et al. 1999）中提出了5条启发式的规则，综合利用这5条规则系统可以自动地发现网页中各个主题信息块（chunk）的边界。（Yang et al. 2001）提出了一种基于视觉相似性来自动分析<strong>网页语义结构</strong>的方法，该方法首先比较HTML网页内容的视觉相似性，然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式，最后按照该模式将内容重新组合。</p>
<p><strong>HTML_DocView模型</strong>：<br />
包括：网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据，而其他6项则属于网页的元数据。</p>
<p>网页类型：<strong>根据网页内容的表现形式进行划分</strong>，一般划分为三类，既 <strong>主题网页（topic）</strong>、<strong>Hub网页（hub）</strong>、<strong>图片网页（pic）</strong>。</p>
<p>内容类别：是<strong>从语义上对网页的内容进行分类</strong>，它是计算机获取网页语义信息的一个直接手段。</p>
<p>标题、关键词、摘要：是<strong>概括描述web文档内容的重要元数据</strong>。</p>
<p>正文：是<strong>原始网页中真正概括描述主题的部分</strong>。</p>
<p>相关链接：是<strong>指在本网页中指向与正文内容相关的网页的链接</strong>。</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=161</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>2009.09.19 UPA专家论坛（深圳站）：打造更有价值的用户体验团队</title>
		<link>http://xiaoniao.org/?p=153</link>
		<comments>http://xiaoniao.org/?p=153#comments</comments>
		<pubDate>Wed, 09 Sep 2009 07:35:54 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[HR]]></category>
		<category><![CDATA[UED]]></category>
		<category><![CDATA[产品]]></category>
		<category><![CDATA[用户]]></category>
		<category><![CDATA[网站]]></category>
		<category><![CDATA[设计]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=153</guid>
		<description><![CDATA[近几年来国内企业对用户体验越来越重视，一些先行企业在已经有的比较完善、相对成熟的用户体验团队，而也有些企业刚建立用户体验团队不久或者是刚刚打算设立某个用户体验相关工作岗位。有些用户体验团队栖身于开发或市场部门，有的用户体验团队自立门户成为与市场、开发等并列的部门。有些企业对用户体验工作进行统筹管理由统一、集中的用户体验团队负责，而有些企业把用户体验团队分散在各产品线进行具体负责。不同形态的用户体验团队正以不同方式为公司运营和产品竞争优势上的发挥着作用，处于不同发展阶段的用户体验团队也在面临各不同的机遇与挑战。 本次专家论坛将邀请业内用户体验团队建设经验比较丰富部门管理人员与大家分享他们这方面的经验和教训，并与与会者就如何根据公司文化、行业特性以及用户体验行业特点等因素推进所在用户体验团队的建立、发展与壮大，帮助与会者所在用户体验团队了解如何制定切实可行的发展路线，如何获得更多来自公司上层的青睐与其他部门的支持，如何平衡团队自身专业提升与达成企业经营目标等用户体验团队建设中必须面对的挑战。 举办时间： 2009年9月19日下午14：00~18：00 举办地点： 腾讯科技(深圳)有限公司培训室 深圳市南山区高新科技区中西区科技中一路华强发展大楼4楼 分享嘉宾（暂定）： 腾讯用户研究与体验设计中心负责人 华为UCD管理部负责人 中兴通讯用户体验中心负责人 雅虎香港用户体验及设计部负责人 专家论坛日程: 13：30-14：00 签到 14：00-14：30 来宾介绍 14：30-15：30 如何建立用户体验团队 15：30-16：30 如何度过用户体验团队初期的半年 16：30-16：45 茶歇 中间休息 16：45-17：45 如何发展出具有核心竞争力的用户体验团队 17：45-18：00 总结 费用： 100元/人；9月13日前报名9折；UPA会员5折；学生5折 具体活动信息及报名网址：http://www.upachina.org/newevents/Cn/20090822/.aspx?event=15 UPAChina联系方式： 秘书处办公电话：86-21-61526484 活动邮箱：events@upachina.org 活动联系人：朱丹：13916152495]]></description>
			<content:encoded><![CDATA[<p>近几年来国内企业对用户体验越来越重视，一些先行企业在已经有的比较完善、相对成熟的用户体验团队，而也有些企业刚建立用户体验团队不久或者是刚刚打算设立某个用户体验相关工作岗位。有些用户体验团队栖身于开发或市场部门，有的用户体验团队自立门户成为与市场、开发等并列的部门。有些企业对用户体验工作进行统筹管理由统一、集中的用户体验团队负责，而有些企业把用户体验团队分散在各产品线进行具体负责。不同形态的用户体验团队正以不同方式为公司运营和产品竞争优势上的发挥着作用，处于不同发展阶段的用户体验团队也在面临各不同的机遇与挑战。</p>
<p>本次专家论坛将邀请业内用户体验团队建设经验比较丰富部门管理人员与大家分享他们这方面的经验和教训，并与与会者就如何根据公司文化、行业特性以及用户体验行业特点等因素推进所在用户体验团队的建立、发展与壮大，帮助与会者所在用户体验团队了解如何制定切实可行的发展路线，如何获得更多来自公司上层的青睐与其他部门的支持，如何平衡团队自身专业提升与达成企业经营目标等用户体验团队建设中必须面对的挑战。</p>
<p>举办时间：<br />
2009年9月19日下午14：00~18：00</p>
<p>举办地点：<br />
腾讯科技(深圳)有限公司培训室<br />
深圳市南山区高新科技区中西区科技中一路华强发展大楼4楼</p>
<p>分享嘉宾（暂定）：<br />
腾讯用户研究与体验设计中心负责人<br />
华为UCD管理部负责人<br />
中兴通讯用户体验中心负责人<br />
雅虎香港用户体验及设计部负责人</p>
<p>专家论坛日程:<br />
13：30-14：00 签到<br />
14：00-14：30 来宾介绍<br />
14：30-15：30 如何建立用户体验团队<br />
15：30-16：30 如何度过用户体验团队初期的半年<br />
16：30-16：45 茶歇 中间休息<br />
16：45-17：45 如何发展出具有核心竞争力的用户体验团队<br />
17：45-18：00 总结</p>
<p>费用：<br />
100元/人；9月13日前报名9折；UPA会员5折；学生5折</p>
<p>具体活动信息及报名网址：http://www.upachina.org/newevents/Cn/20090822/.aspx?event=15</p>
<p>UPAChina联系方式：<br />
秘书处办公电话：86-21-61526484<br />
活动邮箱：events@upachina.org<br />
活动联系人：朱丹：13916152495</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=153</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>流量是网站经营的结果和对象</title>
		<link>http://xiaoniao.org/?p=119</link>
		<comments>http://xiaoniao.org/?p=119#comments</comments>
		<pubDate>Thu, 30 Jul 2009 08:08:47 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[产品设计]]></category>
		<category><![CDATA[流量]]></category>
		<category><![CDATA[经营]]></category>
		<category><![CDATA[网站]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=119</guid>
		<description><![CDATA[流量既是网站经营的结果，也是网站经营的对象。 流量的获得、派生、过滤、保有、转化，是网站经营的关键，每个环节的生产率都需要监控，根据每个环节的目的反复进行针对性的优化。 一．流量的获得——原生流量和派生流量 网站经营者既要按自己的资源和欲望规划好基础的原生流量，又要事先规划好派生流量产生的条件和路径。如果没有事先规划原生流量和派生流量的来龙去脉，计划可以认为是不够充分的。 三．流量过滤——自觉与不自觉，无所不在的过滤 1．流量过滤的意义 网站的流量来源、界面组织、信息结构、服务深度等，无处不在自觉或不自觉地过滤访客，动态地形成访客结构。访客结构对网站发展的影响不言而喻。 访客过滤不仅仅影响访客结构，还影响网站的服务资源。如果进入网站的流量属于符合商业目标的较高价值流量，网站就可以更针对性地以更高代价提供更好的服务和营销，而不会把资源浪费在低价值的访客身上。 网站一方面要清楚了解和反复检讨自己在哪些角度自觉或不自觉地进行了访客过滤，长远影响如何，另一方面要根据自己的商业目标来主动调节访客过滤。 2．从源头进行过滤 从搜索引擎竞价广告或SEO来的访客，通过关键词产生了过滤作用。尤其值得注意的是相关关键词或短句的长尾效应，当网站具有大量高相关内容时，可能会无心插柳地获得分散的相关关键词或短句检索流量，不但价值可能比内涵宽泛的热门关键词高，而且合计量不小。因此主题相关内容的积累和更新是一个很重要的工作。 软文能带来高质量的访客，而且由于转载，可以实现良好的品牌效果和流量效果。笔者认为软文是最好的流量来源之一，用一笔钱做广告，不如用同样的钱找人写软文，将文章发得昏天黑地。 插件广告很流氓，但技术上可以实现很好的过滤性，可以根据访客打开的目标网站或者是检索的关键词而针对性弹出。如果要做付费广告，这是一个很好的选择。 派生流量，也就是访客通过口碑方式带来的流量，是高价值的流量。创造派生流量的模式和技巧，是一个过去缺乏精细研究的领域，很值得深入探讨。有兴趣一起探讨的请联系笔者。 包月广告、联盟广告、友情链接、邮件传播等，靠文字表达进行流量过滤。如果广告内容做得过于宽泛或偏颇，将带来大量无价值流量，要通过测试不断调整。 3．通过界面气氛过滤 界面形式，就象酒店和大排档的环境一样，通过访客认知“这是合适我的地方”，而对访客进行着过滤。美观或粗陋、简洁或花哨、易用或复杂、热闹还是平和，并非只有一个追求方向，而是视乎目标客户的层次、心理而定。猜测客户怎么需要不一定是对的，将之交给美工、策划的个人审美更是冒险，比较理想的做法还是测试，例如将多组界面，虚拟多个网站进行测试。 界面气氛的规划，有两个方面特别重要。第一个方面是人气体验，即感觉到与其匹配的人群富集及活跃于此站，这对于新站而言尤其有价值。就象超市故意把商品弄乱，饭店安排客人先坐外面一样，由于新访客接触到的信息是有限的，人气体验的创造颇有空间。第二个方面是行为暗示，暗示本站的服务适合何种人群、需要访客进行何种行为。例如中国交友中心无处不在暗示这是一个付费交友站，付费的效果很好，很多人付费，从而过滤了愿意付费的人群，并促进其付费行为。 4．信息呈现的过滤 这一点，我体会不是很清，只隐约感觉到在网站设计之初，就应从访客利益角度考虑信息呈现方式会对其带来的影响。要有这样的洞见并不容易，需要积累或对比。希望以后有机会通过一些具体的案例来深入。 5．服务的过滤 服务的设计并非一切以访客之利益、体验为目标，也可能要考虑如何过滤访客的因素，不在目标之内的访客，应让他不自在，尽快离开。 例如在注册环节，某些严肃交友站就通过繁复的注册和验证将严肃交友意向不是很强的访客过滤掉，留下的是容易收钱的一批，可以为他们提供更高品质的服务。 通常我们作为增加网站粘度的工具——积分，也具有过滤访客的能力。管理学上说“想要什么就奖励什么”，什么行为是你认为高价值访客应该拥有的，你就为该行为奖励积分，而不要雨露均沾，给低质量访客任何粘性。 四．流量保有——习惯的创造 高价值流量的获得和过滤，成本很高，让你的网站成为这个流量钟爱或信任的品牌，甚至成为他/她习惯的去处，比获得流量更为重要。如果你做不到，那么就象用漏水的桶打水，时间越长，漏的越多，白浪费。我经常奉劝想大规模做推广的朋友，先测试了你的回头率和口碑派生率再说，数字不满意之前，别做推广，先整好产品和服务。 是不是有了好的产品和服务，访客就会一来再来使用呢？未必！访客太忙，太多事儿，虽然感觉不错，未必想到再来一趟，更别论形成习惯。就象我们小时候一样，习惯的形成，是要人督促的。还可以举另一个例子，日久生情，你得经常在他/她面前出现、互动。如何不令人反感地引导访客一来再来，最终形成行为习惯或品牌依赖，是网站运营中的一个关键环节，值得下大力气去做。 以前听过一个说法，一件事情连续做21天就会形成习惯，不知道真假，但起码可见习惯的形成不是一次两次就可以的。有些网站过段时间就提醒你一下，你有好些时间没来了，有些网站过段时间给你提供一些与你有关的资讯，但这样够吗？从推动习惯的角度，我们不只是要提醒，更是要促使其行为的重复发生，因此接触的角度应该是发生式的，而且频度应该先紧后松，而不是松松垮垮。我想到销售人员常用的一个技巧，就是一次不把资料或信息给足，为下次联络创造机会。在网站的服务设计上，也可以使用类似的技巧。 五．流量转化——推动行为的发生 曾谈到：在传统商业中，故意削减客户体验的例子到处都是，访客体验优化的中心是：围绕经营目标，推动发生变化。强调的不是“体验”，而是“发生”。 怎么推动发生？ 没有经验的销售人员跟客户可以谈得情投意合，就是无法推动销售的发生，也不知道客户是否打算现在交易；有经验的销售人员很容易创造一个“咱们来交易吧”的情境，与客户一起自然地走入交易，或者快速识别暂时不会发生交易的客户。 网站设计也是如此。有经验的和没有经验的组织，在推动访客行为发生方面有着巨大的差异。笔者以为，销售技巧中的很多内容，可以搬到网站流量转化中。如果策划人员和设计人员进行一下销售技巧方面的进修，可能会有很大的好处。 六．总结 对流量的经营，核心是对客户利益、心理和行为的分析，必须对该领域的行业和客户有深入的理解。在任何一个服务方向，这都是一个需要长期积累才能做好的工作。对于一个网站来说，这样的人才是至为宝贵的，挖来一个，少走N年弯路，节约无数投资。换一个角度，如果你对某个领域感兴趣或有积累，最好就一直积累下去，直到成精，不要轻易切换。对客户的理解是所有能力中最值钱的能力。 流量经营是需要数字监控的。如果是我的网站，我会在流量的获得、派生、过滤、保有、转化各个环节放置监测代码，检测各环节的生产率和损失率，并长期做纵向对比；并且，在资源许可下，在关键环节多做不同角度的优化模拟测试。 在这样的优化及监测基础上，就可以做比较准确的规划，按目前能力可以实现怎样的目标，如果要提高目标，需要在哪些环节做怎样的投入。许多网站的经营如同黑箱，只能看到总投入和总产出，分解不出每个环节对结果的影响，有点靠天吃饭的味道。笔者认为，这是作坊式的，不适合规模生产。 来自：CHINA UED]]></description>
			<content:encoded><![CDATA[<p><a href="http://xiaoniao.org/wp-content/uploads/2009/07/mainBanner_anys.jpg" rel="lightbox[119]"><img class="alignnone size-full wp-image-121" title="mainBanner_anys" src="http://xiaoniao.org/wp-content/uploads/2009/07/mainBanner_anys.jpg" alt="mainBanner_anys" width="477" height="135" /></a></p>
<p><strong>流量既是网站经营的结果，也是网站经营的对象。</strong></p>
<p>流量的获得、派生、过滤、保有、转化，是网站经营的关键，每个环节的生产率都需要监控，根据每个环节的目的反复进行针对性的优化。</p>
<p><strong>一．流量的获得——原生流量和派生流量</strong></p>
<p>网站经营者既要按自己的资源和欲望规划好基础的原生流量，又要事先规划好派生流量产生的条件和路径。如果没有事先规划原生流量和派生流量的来龙去脉，计划可以认为是不够充分的。</p>
<p><strong>三．流量过滤——自觉与不自觉，无所不在的过滤</strong></p>
<p><strong>1．流量过滤的意义</strong></p>
<p>网站的流量来源、界面组织、信息结构、服务深度等，无处不在自觉或不自觉地过滤访客，动态地形成访客结构。访客结构对网站发展的影响不言而喻。</p>
<p>访客过滤不仅仅影响访客结构，还影响网站的服务资源。如果进入网站的流量属于符合商业目标的较高价值流量，网站就可以更针对性地以更高代价提供更好的服务和营销，而不会把资源浪费在低价值的访客身上。</p>
<p>网站一方面要清楚了解和反复检讨自己在哪些角度自觉或不自觉地进行了访客过滤，长远影响如何，另一方面要根据自己的商业目标来主动调节访客过滤。</p>
<p><strong>2．从源头进行过滤</strong></p>
<p>从搜索引擎竞价广告或SEO来的访客，通过关键词产生了过滤作用。尤其值得注意的是相关关键词或短句的长尾效应，当网站具有大量高相关内容时，可能会无心插柳地获得分散的相关关键词或短句检索流量，不但价值可能比内涵宽泛的热门关键词高，而且合计量不小。因此主题相关内容的积累和更新是一个很重要的工作。</p>
<p>软文能带来高质量的访客，而且由于转载，可以实现良好的品牌效果和流量效果。笔者认为软文是最好的流量来源之一，用一笔钱做广告，不如用同样的钱找人写软文，将文章发得昏天黑地。</p>
<p>插件广告很流氓，但技术上可以实现很好的过滤性，可以根据访客打开的目标网站或者是检索的关键词而针对性弹出。如果要做付费广告，这是一个很好的选择。</p>
<p>派生流量，也就是访客通过口碑方式带来的流量，是高价值的流量。创造派生流量的模式和技巧，是一个过去缺乏精细研究的领域，很值得深入探讨。有兴趣一起探讨的请联系笔者。</p>
<p>包月广告、联盟广告、友情链接、邮件传播等，靠文字表达进行流量过滤。如果广告内容做得过于宽泛或偏颇，将带来大量无价值流量，要通过测试不断调整。</p>
<p><strong>3．通过界面气氛过滤</strong></p>
<p>界面形式，就象酒店和大排档的环境一样，通过访客认知“这是合适我的地方”，而对访客进行着过滤。美观或粗陋、简洁或花哨、易用或复杂、热闹还是平和，并非只有一个追求方向，而是视乎目标客户的层次、心理而定。猜测客户怎么需要不一定是对的，将之交给美工、策划的个人审美更是冒险，比较理想的做法还是测试，例如将多组界面，虚拟多个网站进行测试。</p>
<p>界面气氛的规划，有两个方面特别重要。第一个方面是人气体验，即感觉到与其匹配的人群富集及活跃于此站，这对于新站而言尤其有价值。就象超市故意把商品弄乱，饭店安排客人先坐外面一样，由于新访客接触到的信息是有限的，人气体验的创造颇有空间。第二个方面是行为暗示，暗示本站的服务适合何种人群、需要访客进行何种行为。例如中国交友中心无处不在暗示这是一个付费交友站，付费的效果很好，很多人付费，从而过滤了愿意付费的人群，并促进其付费行为。</p>
<p><strong>4．信息呈现的过滤</strong></p>
<p>这一点，我体会不是很清，只隐约感觉到在网站设计之初，就应从访客利益角度考虑信息呈现方式会对其带来的影响。要有这样的洞见并不容易，需要积累或对比。希望以后有机会通过一些具体的案例来深入。</p>
<p><strong>5．服务的过滤</strong></p>
<p>服务的设计并非一切以访客之利益、体验为目标，也可能要考虑如何过滤访客的因素，不在目标之内的访客，应让他不自在，尽快离开。</p>
<p>例如在注册环节，某些严肃交友站就通过繁复的注册和验证将严肃交友意向不是很强的访客过滤掉，留下的是容易收钱的一批，可以为他们提供更高品质的服务。</p>
<p>通常我们作为增加网站粘度的工具——积分，也具有过滤访客的能力。管理学上说“想要什么就奖励什么”，什么行为是你认为高价值访客应该拥有的，你就为该行为奖励积分，而不要雨露均沾，给低质量访客任何粘性。</p>
<p><strong>四．流量保有——习惯的创造</strong></p>
<p>高价值流量的获得和过滤，成本很高，让你的网站成为这个流量钟爱或信任的品牌，甚至成为他/她习惯的去处，比获得流量更为重要。如果你做不到，那么就象用漏水的桶打水，时间越长，漏的越多，白浪费。我经常奉劝想大规模做推广的朋友，先测试了你的回头率和口碑派生率再说，数字不满意之前，别做推广，先整好产品和服务。</p>
<p>是不是有了好的产品和服务，访客就会一来再来使用呢？未必！访客太忙，太多事儿，虽然感觉不错，未必想到再来一趟，更别论形成习惯。就象我们小时候一样，习惯的形成，是要人督促的。还可以举另一个例子，日久生情，你得经常在他/她面前出现、互动。如何不令人反感地引导访客一来再来，最终形成行为习惯或品牌依赖，是网站运营中的一个关键环节，值得下大力气去做。</p>
<p>以前听过一个说法，一件事情连续做21天就会形成习惯，不知道真假，但起码可见习惯的形成不是一次两次就可以的。有些网站过段时间就提醒你一下，你有好些时间没来了，有些网站过段时间给你提供一些与你有关的资讯，但这样够吗？从推动习惯的角度，我们不只是要提醒，更是要促使其行为的重复发生，因此接触的角度应该是发生式的，而且频度应该先紧后松，而不是松松垮垮。我想到销售人员常用的一个技巧，就是一次不把资料或信息给足，为下次联络创造机会。在网站的服务设计上，也可以使用类似的技巧。</p>
<p><strong>五．流量转化——推动行为的发生</strong></p>
<p>曾谈到：在传统商业中，故意削减客户体验的例子到处都是，访客体验优化的中心是：围绕经营目标，推动发生变化。强调的不是“体验”，而是“发生”。</p>
<p><strong>怎么推动发生？</strong></p>
<p>没有经验的销售人员跟客户可以谈得情投意合，就是无法推动销售的发生，也不知道客户是否打算现在交易；有经验的销售人员很容易创造一个“咱们来交易吧”的情境，与客户一起自然地走入交易，或者快速识别暂时不会发生交易的客户。</p>
<p>网站设计也是如此。有经验的和没有经验的组织，在推动访客行为发生方面有着巨大的差异。笔者以为，销售技巧中的很多内容，可以搬到网站流量转化中。如果策划人员和设计人员进行一下销售技巧方面的进修，可能会有很大的好处。</p>
<p><strong>六．总结</strong></p>
<p>对流量的经营，核心是对客户利益、心理和行为的分析，必须对该领域的行业和客户有深入的理解。在任何一个服务方向，这都是一个需要长期积累才能做好的工作。对于一个网站来说，这样的人才是至为宝贵的，挖来一个，少走N年弯路，节约无数投资。换一个角度，如果你对某个领域感兴趣或有积累，最好就一直积累下去，直到成精，不要轻易切换。对客户的理解是所有能力中最值钱的能力。</p>
<p>流量经营是需要数字监控的。如果是我的网站，我会在流量的获得、派生、过滤、保有、转化各个环节放置监测代码，检测各环节的生产率和损失率，并长期做纵向对比；并且，在资源许可下，在关键环节多做不同角度的优化模拟测试。</p>
<p>在这样的优化及监测基础上，就可以做比较准确的规划，按目前能力可以实现怎样的目标，如果要提高目标，需要在哪些环节做怎样的投入。许多网站的经营如同黑箱，只能看到总投入和总产出，分解不出每个环节对结果的影响，有点靠天吃饭的味道。笔者认为，这是作坊式的，不适合规模生产。<br />
来自：<a href="http://blog.sina.com.cn/chinaued">CHINA UED</a></p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=119</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>【转】语义化的HTML结构到底有什么好处？</title>
		<link>http://xiaoniao.org/?p=116</link>
		<comments>http://xiaoniao.org/?p=116#comments</comments>
		<pubDate>Mon, 27 Jul 2009 05:43:29 +0000</pubDate>
		<dc:creator>Nigel</dc:creator>
				<category><![CDATA[产品设计]]></category>
		<category><![CDATA[css]]></category>
		<category><![CDATA[html]]></category>

		<guid isPermaLink="false">http://xiaoniao.org/?p=116</guid>
		<description><![CDATA[本文来自：愚人码头         相信大家都知道html和css，知道html结构和css表现分离，知道html语义化，这些都是这几年的热门关键字。语义化的html在国内也是一两年前才开始被追捧的，看看现在群里谈论的html结构，关于html结构的面试题，语义化的html占据了很大一部分。那么为什么要使用语义化的HTML？语义化的HTML到底有什么好处呢？ HTML是提供网页文档内容的上下文结构和含义；html本身是没有表现的，我们看到例如&#60;h1&#62;是粗体，字体大小2em，加粗；&#60;strong&#62;是加粗的，不要认为这是html的表现，这些其实html默认的css样式在起作用，所以首先我们要知道html和页面的表现是没有关系的，这些是css的事情。HTML在页面中的作用就是结构和含义，通俗点说就是划分内容，这里放什么，我们放的是什么。 语义化的HTML结构首先要强调HTML结构 HTML结构是页面的骨架，一个页面就好像一幢房子，HTML结构就是钢精钢筋混泥土的墙，一幢房子如果没有钢精钢筋混泥土的墙那就是一堆费砖头，不能住人，不能办公。css是装饰材料，是原木地板，是大理石，是油漆，是用来装饰房子的，CSS的强大就不用多说了，css如果没有html结构那就是一堆木板，一同油漆，没有了实际使用价值。CSS完全依靠引用它的(X)HTML文档。如果你想使CSS的能力充分发挥到极致，提供一个用既干净又有结构的内容的html是非常必要的，“HTML是在互联网上发布超文本的通用语……HTML使用标签来对文本结构化”（http://www.w3.org/MarkUp/）。 语义化的HTML结构怎么写？ HTML是一种对文本内容进行结构和意义（或者说“语义”）进行补充的方法。它会告诉我们说：“这行是一个标题，这几行组成了一个段落。这些文字是项目列表，这些文字是链接到互联网上另一个文件的超链接。”值得注意的是，不应该让HTML来告诉我们：“这些文字是蓝色的，这些文字又是红色的。这部分内容是最最靠右的一栏，这行内容是斜体字。”这些和表现相关的信息是CSS的工作。在做前端开发的时候要记住：HTML告诉我们一块内容是什么（或其意义），而不是它长的什么样子。当我们提到“语义标记”的时候，我们所说的HTML应该是完全脱离表现信息的，其中的标签应该都是语义化地定义了文档的结构。 写语义化的HTML结构其实很简单，首先掌握html中各个标签的语义，&#60;div&#62;是一个容器；&#60;strong&#62;是表示强调；&#60;ul&#62;&#60;li&#62;是一个无序列表等等…在看到内容的时候想想用什么标签能更好的描述它，是什么就用什么标签。   语义化的HTML结构到底有什么好处？ 我们知道HTML5新增的标签，比如&#60;header&#62;和&#60;footer&#62;，html正在朝着更加健壮的语义化的HTML结构发展，xhtml2在这点上没html5先进，这也是xhtml2死亡的一个原因，这一点也说明了语义化的HTML结构是html的发展趋势。 1.去掉或样式丢失的时候能让页面呈现清晰的结构： html本身是没有表现的，我们看到例如&#60;h1&#62;是粗体，字体大小2em，加粗；&#60;strong&#62;是加粗的，不要认为这是html的表现，这些其实html默认的css样式在起作用，所以去掉或样式丢失的时候能让页面呈现清晰的结构不是语义化的HTML结构的优点，但是浏览器都有有默认样式，默认样式的目的也是为了更好的表达html的语义，可以说浏览器的默认样式和语义化的HTML结构是不可分割的。 2.屏幕阅读器（如果访客有视障）会完全根据你的标记来“读”你的网页. 例如,如果你使用的含语义的标记,屏幕阅读器就会“逐个拼出”你的单词,而不是试着去对它完整发音. 3.PDA、手机等设备可能无法像普通电脑的浏览器一样来渲染网页（通常是因为这些设备对CSS的支持较弱）. 使用语义标记可以确保这些设备以一种有意义的方式来渲染网页.理想情况下,观看设备的任务是符合设备本身的条件来渲染网页. 语义标记为设备提供了所需的相关信息,就省去了你自己去考虑所有可能的显示情况（包括现有的或者将来新的设备）.例如,一部手机可以选择使一段标记了标题的文字以粗体显示.而掌上电脑可能会以比较大的字体来显示.无论哪种方式一旦你对文本标记为标题,您就可以确信读取设备将根据其自身的条件来合适地显示页面. 4.搜索引擎的爬虫也依赖于标记来确定上下文和各个关键字的权重. 过去你可能还没有考虑搜索引擎的爬虫也是网站的“访客”,但现在它们他们实际上是极其宝贵的用户.没有他们的话,搜索引擎将无法索引你的网站,然后一般用户将很难过来访问. 5.你的页面是否对爬虫容易理解非常重要,因为爬虫很大程度上会忽略用于表现的标记,而只注重语义标记. 因此,如果页面文件的标题被标记,而不是,那么这个页面在搜索结果的位置可能会比较靠后.除了提升易用性外,语义标记有利于正确使用CSS和JavaScript,因为其本身提供了许多“钩钩”来应用页面的样式与行为. SEO主要还是靠你网站的内容和外部链接的。 6.便于团队开发和维护 W3C给我们定了一个很好的标准，在团队中大家都遵循这个标准，可以减少很多差异化的东西，方便开发和维护，提高开发效率，甚至实现模块化开发。]]></description>
			<content:encoded><![CDATA[<p>本文来自：<span style="color: #ff0000;"><a href="http://www.css88.com/archives/1668" target="_blank">愚人码头<br />
</a></span>        相信大家都知道html和css，知道html结构和css表现分离，知道html语义化，这些都是这几年的热门关键字。语义化的html在国内也是一两年前才开始被追捧的，看看现在群里谈论的html结构，关于html结构的面试题，语义化的html占据了很大一部分。那么为什么要使用语义化的HTML？语义化的HTML到底有什么好处呢？</p>
<p>HTML是提供网页文档内容的上下文结构和含义；html本身是没有表现的，我们看到例如&lt;h1&gt;是粗体，字体大小2em，加粗；&lt;strong&gt;是加粗的，不要认为这是html的表现，这些其实html默认的css样式在起作用，所以首先我们要知道html和页面的表现是没有关系的，这些是css的事情。HTML在页面中的作用就是结构和含义，通俗点说就是划分内容，这里放什么，我们放的是什么。</p>
<p><strong>语义化的HTML结构首先要强调HTML结构</strong></p>
<p>HTML结构是页面的骨架，一个页面就好像一幢房子，HTML结构就是钢精钢筋混泥土的墙，一幢房子如果没有钢精钢筋混泥土的墙那就是一堆费砖头，不能住人，不能办公。css是装饰材料，是原木地板，是大理石，是油漆，是用来装饰房子的，CSS的强大就不用多说了，css如果没有html结构那就是一堆木板，一同油漆，没有了实际使用价值。CSS完全依靠引用它的(X)HTML文档。如果你想使CSS的能力充分发挥到极致，提供一个用既干净又有结构的内容的html是非常必要的，“HTML是在互联网上发布超文本的通用语……HTML使用标签来对文本结构化”（<a href="http://www.w3.org/MarkUp/">http://www.w3.org/MarkUp/</a>）。</p>
<p><strong>语义化的HTML结构怎么写？</strong><br />
HTML是一种对文本内容进行结构和意义（或者说“语义”）进行补充的方法。它会告诉我们说：“这行是一个标题，这几行组成了一个段落。这些文字是项目列表，这些文字是链接到互联网上另一个文件的超链接。”值得注意的是，不应该让HTML来告诉我们：“这些文字是蓝色的，这些文字又是红色的。这部分内容是最最靠右的一栏，这行内容是斜体字。”这些和表现相关的信息是CSS的工作。在做前端开发的时候要记住：HTML告诉我们一块内容是什么（或其意义），而不是它长的什么样子。当我们提到“语义标记”的时候，我们所说的HTML应该是完全脱离表现信息的，其中的标签应该都是语义化地定义了文档的结构。</p>
<p>写语义化的HTML结构其实很简单，首先掌握html中各个标签的语义，&lt;div&gt;是一个容器；&lt;strong&gt;是表示强调；&lt;ul&gt;&lt;li&gt;是一个无序列表等等…在看到内容的时候想想用什么标签能更好的描述它，是什么就用什么标签。</p>
<p><span id="more-1668"> </span></p>
<p><strong>语义化的HTML结构到底有什么好处？</strong><br />
我们知道HTML5新增的标签，比如&lt;header&gt;和&lt;footer&gt;，html正在朝着更加健壮的语义化的HTML结构发展，xhtml2在这点上没html5先进，这也是xhtml2死亡的一个原因，这一点也说明了语义化的HTML结构是html的发展趋势。<br />
<strong>1.去掉或样式丢失的时候能让页面呈现清晰的结构：<br />
</strong>html本身是没有表现的，我们看到例如&lt;h1&gt;是粗体，字体大小2em，加粗；&lt;strong&gt;是加粗的，不要认为这是html的表现，这些其实html默认的css样式在起作用，所以去掉或样式丢失的时候能让页面呈现清晰的结构不是语义化的HTML结构的优点，但是浏览器都有有默认样式，默认样式的目的也是为了更好的表达html的语义，可以说浏览器的默认样式和语义化的HTML结构是不可分割的。</p>
<p><strong>2.屏幕阅读器（如果访客有视障）会完全根据你的标记来“读”你的网页</strong>.</p>
<p>例如,如果你使用的含语义的标记,屏幕阅读器就会“逐个拼出”你的单词,而不是试着去对它完整发音.</p>
<p><strong>3.PDA、手机等设备可能无法像普通电脑的浏览器一样来渲染网页（通常是因为这些设备对CSS的支持较弱）.</strong><br />
使用语义标记可以确保这些设备以一种有意义的方式来渲染网页.理想情况下,观看设备的任务是符合设备本身的条件来渲染网页.</p>
<p>语义标记为设备提供了所需的相关信息,就省去了你自己去考虑所有可能的显示情况（包括现有的或者将来新的设备）.例如,一部手机可以选择使一段标记了标题的文字以粗体显示.而掌上电脑可能会以比较大的字体来显示.无论哪种方式一旦你对文本标记为标题,您就可以确信读取设备将根据其自身的条件来合适地显示页面.</p>
<p><strong>4.搜索引擎的爬虫也依赖于标记来确定上下文和各个关键字的权重.</strong></p>
<p>过去你可能还没有考虑搜索引擎的爬虫也是网站的“访客”,但现在它们他们实际上是极其宝贵的用户.没有他们的话,搜索引擎将无法索引你的网站,然后一般用户将很难过来访问.</p>
<p><strong>5.你的页面是否对爬虫容易理解非常重要,因为爬虫很大程度上会忽略用于表现的标记,而只注重语义标记.</strong><br />
因此,如果页面文件的标题被标记,而不是,那么这个页面在搜索结果的位置可能会比较靠后.除了提升易用性外,语义标记有利于正确使用CSS和JavaScript,因为其本身提供了许多“钩钩”来应用页面的样式与行为.<br />
SEO主要还是靠你网站的内容和外部链接的。</p>
<p><strong>6.便于团队开发和维护</strong></p>
<p>W3C给我们定了一个很好的标准，在团队中大家都遵循这个标准，可以减少很多差异化的东西，方便开发和维护，提高开发效率，甚至<a href="http://www.cssforest.org/blog/index.php?id=134" target="_self">实现模块化开发</a>。</p>
]]></content:encoded>
			<wfw:commentRss>http://xiaoniao.org/?feed=rss2&amp;p=116</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
