手机搜索娱乐先行,用户搜索行为来源呈现多样性

By Nigel on 06月 28th, 2010

来源:艾瑞咨询

根据艾瑞咨询即将推出的《2010年中国手机搜索用户行为研究报告》的数据显示,2010年,手机搜索用户搜索内容偏重娱乐,对主题、铃声和WAP等与手机终端特性结合紧密的内容搜索需求较多, 相比PC端用户搜索行为来源较为集中的现象,用户手机搜索行为来源呈现多样性特点。

手机端搜索偏重娱乐,搜索内容与手机终端特征结合较为紧密

艾瑞将手机端和PC端搜索用户搜索内容Top10进行对比发现,手机端搜索用户搜索内容Top10中有5项为娱乐相关内容,分别为MP3、小说、主题、游戏和铃声;此外,手机端Top10搜索内容中有5项与PC端重合,分别是MP3、软件、图片、游戏和地图,而其他5项中则有3项与手机端特征结合较为紧密,分别为WAP网站、搜主题和搜铃声。

艾瑞咨询分析认为,现阶段手机搜索用户主要以资讯类、实用类和娱乐类搜索需求为主,其中Top10中有5项是娱乐类内容,相比PC搜索,用户在手机端的搜索更偏重娱乐需求。MP3、软件、图片、游戏和地图等搜索需求同时出现在手机端与PC端Top10中,说明此5项应用为用户关注热点,手机搜索服务提供商应重点关注这些应用服务,增加用户使用便捷性、提升搜索准确度以增加用户黏性。此外针对手机终端的特征,用户对WAP、主题和铃声等与手机终端结合紧密的内容搜索需求较多,艾瑞建议手机搜索服务提供商关注手机端独特应用,针对终端特征挖掘用户搜索需求,并同时注重服务的人性化。

手机端搜索行为来源呈现多样性特点,尚未形成明显差异化

根据艾瑞调研数据显示,手动收藏网站地址,通过书签或收藏夹进入和手动下载并安装客户端软件,通过客户端软件进入等直接进入搜索网站页面的方式是用户登录手机搜索引擎的首选方式。艾瑞分析PC端搜索用户使用搜索行为来源数据发现,PC端搜索用户同样首选直接进入搜索网站页面使用搜索服务。

艾瑞咨询分析认为,相比用户在PC端搜索行为来源差异较大的现象(位于第一选择项的比例比第二高出33个百分点),用户在手机端获取搜索服务的方式较为多样,且各种选择之间差距不大,尚未形成明显的差异性。艾瑞建议手机搜索服务提供商从用户角度出发,充分考虑手机操作的特性,加强与手机浏览器企业合作,为用户提供便捷的快速访问服务以吸引用户并增加用户黏性。

主题网页的信息提取算法>提取DocView模型要素的方法

By Nigel on 01月 20th, 2010

有主题网页的信息提取算法

该算法是一组启发式规则为指导,首先提取出网页的正文信息,然后以正文信息为基础,提取DocView模型中其他的要素。

主题网页DocView模型生成过程

正文:一篇有主题网页中的正文通常是用成段的文字来描述,中间通常不会加入大量的链接,而非正文信息通常是伴随着链接出现的。由此形成的规则称之为正文选取规则(正文规则)。

正文规则:有主题网页中,如果一个内容块是topic类型的,则该内容块中的内容为正文的一部分。依据正文规则,深度优先遍历标签树并以此记录topic类型的内容块,就看得到该网页的正文,也就是该网页的主题内容。

关键词:关键词选取的依据是特征项的权值,因而特征项权值的合理计算是正确提取关键词的保证。

以标签树为基础,结合HTML网页的特点以及提出的量化方法,可以直接按照下述过程得到网页的主题内容的特征向量。

   1:for标签树中的每个正文块CBi do
   2:if 该块中存在重要标签信息 then
   3:  检查重要信息标签中的内容是否在噪声词集合中出现
   4:  if 不在噪声词集合 then      //为真实重要信息
   5:    将重要信息标签的影响因子累加到该内容块的影响因子上
   6:  end if
   7:  if 该内容块的影响因子大于 1 then
   8:    提出的权值传递策略在标签树中传递权值
   9:  end if
  10:end if
  11:end for
  12:计算各个特征项的权值

依据上面算法可以得到特征向量,可以用2种策略决定选取关键词的数量。

绝对数量策略:定义好DocView 模型中关键词的个数α,严格选取权值最大的α个特征项作为该网页的关键词。

相对数量策略:定义个一个阈值β,而后计算所有特征项权值的算术平均值avg,选取特征项中权值大于avg*β的作为该网页的关键词。该策略中不需要规定要选取的关键词的个数,直接依据特征项权值的绝对大小判断该网页的关键词。虽然会导致各个网页中被选取关键词的数量不均,但可以更准确地提取关键词。

内容类别:通过正文分类得到。网页的量化表示是网页分类过程中必不可少的阶段,而在关键词提取过程中已经得到了正文的特征向量,那么直接使用正文向量进行分类(节省网页量化过程的时间成本),这正是将共性需求一次提取的优势之一。仅对网页的正文分类有效的排除了噪声内容的干扰,从而提高了分类的准确性。

标题:HTML网页中,网页的标题由<title>标签标识。小部分网页是没有标题的,那么针对没有标题或者使用无描述能力(标题为类似”Untitled Document、Newpage、welcome、欢迎访问等的以网页制作工具新建网页的初始title作为title的网页或者没有title标签的网页”)的网页,从关键词集合中选取权值最高的作为网页的新标题。

摘要:摘要的提取给予这样的事实:文章都是按内容分段组织的;阅读者通常是根据一段文章中某几个子句来得到该段文章的大意,而这几个子句的选择通常是通过扫描某些关键词来定位的。因此,如果可以自动识别文章中不同的段落,那么给予上述得到的关键词,就可以得到能够模拟读者浏览文章的过程的摘要提取算法。

识别文章段落:HTML网页中的结构信息是对网页版面的描述,这使得自动识别文章的不同段落成为可能,在正文提取部分已经得到了网页的正文,在网页的标签设计中,所有的正文模块也构成了一个树状结构,称之为正文树。在正文树中,首先找到所有的叶子节点的最近共同祖先节点作为正文根结点。正文根结点的哥哥子节点对应的正文块就是正文的不同段落。段落识别的过程如下所示。

2010-6-11 9-20-47

基于段落的语句提取:以正文的段落为单位,在各个段落中定位网页的关键词并累加关键词的权值作为关键词所在语句的权值;最后在每个段落中限量选取权值大的语句,就组成了网页的摘要。该方法得到的摘要不能保证摘要中的语句之间有上下文关系,但能做到简短的摘要能覆盖整个文章的内容。

相关超链(相关链接)在超链接选取的过程中,我们基于这样一个假设:网页中的超链在网页排版时通常按照主题聚集(相同主题的超链在网页中的位置是相近的),通常放在一起最里层的内容块(该内容块中不再包含其他内容块)中或者并列的几个最里层内容块中。这就意味着我们可以以内容块单位对超链接进行取舍。对于超链接的选取,有以下2种策略。

A、基于anchor text 的超链接选取策略

anchor text 是对超链接所指向网页简短、概要的说明,在一定程度上体现了被指向网页的内容。基于anchor text 的超链接选取方法是通过比较每个Hub类型内容块中anchor text 集合与正文的相似度来决定该块中链接的取舍。

1: 计算网页正文对应的特征向量φ
2: for网页中的每个叶子内容块CBi do
3:    if CBi 是 hub 块 then
4:       计算 CBi 对应的特征向量φi
5:       计算 φ 与 φi 的相似度 similarity;
6:       if similarityi &gt; β then     // β 为相似度阀值
7:           保留 CBi 中的URL
8:       else 不保留 CBi 中的URL
9:       end if
10:   end if
11: end for

通过这一方法,可以计算对Hub类型内容块中的超链进行取舍,而其他类型内容块中的超链通常是对正文中某些信息的详细说明,因而其他类型的内容块中的超链通常是内容相关的。

B、基于分类的超链接选取策略

基于分类的超链接选取方法是通过判断一个Hub类型内容块中某个超链(通常是第一个)指向的网页与本网页正文的类别是否相同来决定该块中所有超链接的内容相关性。该方法可以有效的解决上述方法中anchor text信息过少的不足,而且实验结果证明,该方法确实比基于anchor text的方法准确,但需要动态的从Web上抓取并分类,因而时间成本比较大。

抽象表示>网页表示>网页净化与消重>《搜索引擎》

By Nigel on 11月 27th, 2009

网页表示

网页的表示是网页内容分析的基础,在网页内容分析过程中通常需要两个层级的表示,抽象表示和量化表示。
抽象表示是以网页制作规范(HTML规范)为依据和出发点,构造出能体现网页内容结构和内容重要性等信息的表示模型,其目的是充分利用网页制作规范,挖掘网页中隐含的信息,为后续量化表示提供更多可利用信息。
量化表示是指从计算机处理的角度出发,利用信息检索领域的技术和从网页中挖掘隐含信息,生成计算机可以直接用于计算的表示模型(如向量空间模型等)。
对于HTML网页,最常用的方法是构造网页的标签树。

抽象表示
HTML通过定义一套标签来刻画网页显示时的页面。
依据标签的作用可以将HTML的标签分为三类:
1、规划网页布局的标签:在视觉上,网页是由若干提供内容信息的区域(内容块)组成的,而内容块是由特定的标签规划出的(容器标签),而且容器标签是允许嵌套的。常用的容器标签有

1
<div>、<p>、<td>、<tr>、<table></table></tr></td></p></div>

等。因此依据容器标签可以把网页表示成树状结构,虽然树状结构描述的是网页内容的布局结构,但布局信息中隐含着网页内部各个部门内容的相关性信息。
2、描述显示特点的标签:在HTML标准钟定义了一套标签来规范其包含的内容的显示方式(文字大小、粗体、斜体),称之为重要信息标签。常用的重要信息标签有

1
<b>、<i>、<strong>、<h1>、<h2></h2></h1></strong></i></b>

等。这类标签中的内容通常是网页作者希望引起用户注意的。因此隐含着一定的内容重要性信息。
3、超链接相关的标签:超链接是HTML网页区别于传统文本的最明显的特点之一,表示着网页间的关系,因此整理出超链接标签并作合理的分析可以挖掘出网页间的内容相关性信息。

W3C HTML lexical analyzer(W3C 1997)与HTML Tidy(HTMLTdy 2004)
他们各有特点,W3C HTML lexical analyzer 有很强的通用性,适合各种标识语言;HTML Tidy则能够自动发现并修正标签的错误。二个都是构造标签树的工具。
由于内容分析需要在网页内部计算各个部分之间的相关性以及确定各个部分内容的重要性,因此用传统的顺序整理各种标签的方法构造出的标签树在用于内容分析时并不方便。适合内容分析的标签树强调内容块的概念,倾向于以内容块为单位的内容组织方式。
内容分析过程中通常关注这些信息:标签数的规模(结点个数)、每个内容快包含的类型信息(文本、超链或者图片)及其数量等。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
    < !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>Tags Model</title>
</head>
<body>
<div id="model 1">
  <ul>
    <li><a href="1"></a></li>
    <li><a href="2"></a></li>
    ... ...
  </ul>
</div>
<div id="model 2">
  <p><b>paragraph 1</b></p>
  <p>paragraph 2</p>
  <p>paragraph 3</p>
  <div>
    <ul>
      <li><a href="3"></a></li>
      <li><a href="4"></a></li>
      <li><a href="5"></a></li>
    </ul>
  </div>
</div>
</body>
</html>

2009-11-27 14-44-17

网页净化与元数据提取>网页净化与消重>《搜索引擎》

By Nigel on 11月 11th, 2009

网页净化与元数据提取

网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。
网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。
网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。

在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。

在web信息检索领域,检索结果的相关性和检索的速度是评价一个web检索系统的两个指标。如果不去除原始网页中的噪声内容,检索系统必然对噪声内容也建立索引,从而导致仅仅因为查询词在某张网页的噪声内容中出现,而把该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出,噪声内容不仅使索引结构的规模变大,而且还会导致了检索系统准确性的下降。针对这个问题(Lin et al. 2002)中提出了一个去除网页中噪声内容的方法,该方法首先依据<table>标签构造网页的标签树,从而依据<table>标签将网页规划为相互嵌套的内容块;然后对于使用同一个模块做出的网页集。找出在该网页中多次出现的内容,作为沉余内容,而在该网页集中出现次数较少的内容快就是有效信息块。实验证明该方法是有效的,但该方法必须局限于同一个模版的网页集,而web上的网页模版不计其数,该方法显然不够通用。

在网页分类领域,由于噪声内容与主题无关,训练集中的噪声内容会导致各个类别的特征不够明显,而待分类网页中的噪声内容则会导致改网页类别不明显,因而影响了网页自动分类的效果。(Yang 1995,Li et al. 2002)中提出了通过去掉网页中的噪声内容来提高网页分类质量的方法。

在网页信息提取领域,自动识别漠视的方法必须要从整个网页中提取模式,而不是只针对主题内容提取。因此,在净化后的网页上作信息提取不仅可以排除噪声信息对信息提取的干扰提高信息提取的准确性,而且可以使得网页中的结构简单化提高信息提取的效率

噪声内容对基于网页的研究工作室普遍而严重的,虽然各个领域采用的方法各不相同,但处理的目的都是为了去除网页的噪声内容,得到真正的主题内容

随着web上的研究与应用的发展,单纯的网页内容已经不能满足需求,网页元数据得到越来越多的广泛使用。在web检索领域,单纯依赖关键词匹配的检索手段过于单一。内容类别、摘要等元数据信息的合理使用,不仅使用户可以从不同的角度进行查询,而且也使得查询的准确性得到提高。而主题搜索、个性化信息服务以及数字图书馆也都强烈的依赖资源的元数据信息。因此,准确且高效的提取必要的元数据是web上各个研究领域面临的重要问题。

在元数据和主题内容的提取方法上,可以从信息提取领域的研究成果(特别是HTML网页中提取语义信息)中得到很多启发。针对从HTML网页中提取语义信息,早期的方法是:针对某一类具体网页,人工提取该类的网页中的内容组织模式。然后,信息提取系统根据该模式从属于该类的网页中提取相应的内容(Hammer et al. 1997,Ashish et al. 1997)。对元数据和主题内容的提取可以采用同样的办法,但这些方法有一个共同的局限性,那就是需要人工提取内容组织模式,这对于内容组织繁多的web来说显然是不适用的。因此,在(Wemble et al. 1999)中提出了5条启发式的规则,综合利用这5条规则系统可以自动地发现网页中各个主题信息块(chunk)的边界。(Yang et al. 2001)提出了一种基于视觉相似性来自动分析网页语义结构的方法,该方法首先比较HTML网页内容的视觉相似性,然后使用一个模式发现算法来确定这些视觉相似性的内容最有可能的组织模式,最后按照该模式将内容重新组合。

HTML_DocView模型
包括:网页识别、网页类型、内容类别、标题、关键词、摘要、正文、相关链接等要素。其中正文和相关链接属于网页的内容数据,而其他6项则属于网页的元数据。

网页类型:根据网页内容的表现形式进行划分,一般划分为三类,既 主题网页(topic)Hub网页(hub)图片网页(pic)

内容类别:是从语义上对网页的内容进行分类,它是计算机获取网页语义信息的一个直接手段。

标题、关键词、摘要:是概括描述web文档内容的重要元数据

正文:是原始网页中真正概括描述主题的部分

相关链接:是指在本网页中指向与正文内容相关的网页的链接

UED团队建设-以数据为基础,以产品为设计为中心!

By Nigel on 07月 16th, 2009

20080508072312582
以数据为基础

数据,是每个公司都会关心的东西,至少到某一个阶段来说,数据有时候会被“神化”,比如伟大的Google公司,就是一个很典型的数据为一切的公司。

用数据来给我们作为设计导向也是一种很普遍的现象。很多时候设计师对数据便显得无可奈何,因为很多时候数据会成为创新设计师的绊脚石。看看前Google首席视觉设计师Doug Bowman的离职文章,就能看出来鲍曼对于Google用数据作为设计基础产生的愤慨。

数据就像一把双刃剑,有时候我们能用测试结果的数据来说服运营部门利用我们的设计方案,但也有时候运营部门会拿着数据来告诉我们他们的所需。其实作为一名产品设计师来说,对于数据的把握会成为自己对于产品设计的一种经验,就想铸剑师把握火候一样。

一、把握数据的轻重

其实作为数据它只能代表着过去的用户行为,它不能对以后产生影响或有前瞻指导。在进行一些新产品项目设计时,作为产品设计师从运营或者用研拿到一些数据时,要对数据进行自己的判断,这时的数据只能属参考作用,而不起任何引导性或决定性的作用。所以设计师不能被数据牵着鼻子走,要判断数据在这个项目中的轻重权衡。

二、挖掘数据的隐形需求

可用性工程师或用研的同学们会将标本分析整理成数据报告。很多产品设计师会忽略这些报告,认为这些报告对于自己的设计没有太大的帮助,只有拿着自己DEMO去做可用性得出的结果才会改正。而我觉得作为产品设计师,应该更早的参与到用研的过程中。把用户行为习惯,喜好等也作为标本的经历背景来考虑到产品设计当中。比如,iPod的设计时,发现很多用户听歌曲时,不愿意去选择歌手或专辑,他只想随便听听打发时间而已。所以,shuffle的功能就应运而生了。所以不要忽略数据报告后面这些用户行为习惯。

三、先减后加的数据

“少即多”的交互设计原则我想很多设计师都了解。所以对于数据,我们也可以用这样的原则,一个数据代表产品一个属性,那么我们需要抓住产品核心需求,用数据的权重进行排列,之后和核心需求的属性进行对比,从而抓住产品的重点。而不是一股脑啥时髦的功能都放上去,而不考虑数据和需求。

还有很多公司,只在乎某个项目产品开发时的数据调研,当产品上线后就会将这些数据扔到一边。我们应该保留产品开发整个过程中的数据,且某些属性的数据可以归档整理成为一个纵向的整理属性。比如Personas就是数据积累所形成的一种UCD设计方法。

来自:   麦兜的设计   点击查看原文

08063022381172
以产品设计为中心

UED团队包括:交互设计师、视觉设计师、用户体验设计师、可用性工程师、产品设计师和前段开发工程师等等。

UED团队主要的目的是为了将公司的产品变得更加好卖,那么团队不仅仅考虑的产品的可用性或易用性,也需要具备卖产品的能力和对潜在用户的判断, 因此感觉UED应该是具有一定的综合能力的团队。

从“以产品设计为中心”这点上来看看UED团队该是扮演什么样的角色。
不过之前先给“产品”做个定义。
个人感觉现在大部分公司的产品可以分成两种属性,
一类是新市场开发型的产品,一类是现有产品优化型的产品。
前一类型的产品更适合市场产品经理去做,而UED团队主要负责后一类型的产品设计。
一、产品的话语权

在公司里,每个部门都觉得自己是很重要的,因此在产品设计的各个环节,这些部门都会参与讨论,那么各个部门和角色在讨论中的话语权在其专业角度上,都是比较具有权重的。因此,如果该产品是以UED为主的产品的话,当然,决定权在UED手中,但要权衡其他部门的意见,特别是产品经理和市场部门的。

二、部门协调能力

很多时候,产品会像在生产线上的一样,被一个部门丢到下一个部门去。这样的方式适合在具有一定标准和规则的情况下,包括我之前常常说到的创新设计也是可以进行工业化模式生产的。但我不建议这样的去做,特别是在还没有UED团队的公司来说。对于UED团队的每个角色来说,都需要具备这样的部门之前的协调工作的能力。日常的需求处理按照生产线流程走,而项目产品的设计开发,建议可以适用项目组开发形式来作为尝试。当然不仅仅是把各个角色位置都搬到一起坐而已,最重要的是解决协作的能力。

三、以产品设计为中心

这里的设计当然不仅仅只是视觉设计咯。因为很多人理解来说,产品进入到UED环节,就是给制定颜色,设计一些交互方式而已,这样只能算是以产品为中心的美化而已。我觉得首先是老板们需要将一些优化类的产品放手给团队去做,其次也需要团队自己具有主人翁的意思,从以往的美工或交互设计的圈圈中调出来。因为每个人都会对产品有自己的认识,那么通过一些方法把认识形成大体上的统一。而这期间,不要忘记团队的力量,团队中每个角色都会有自己的思考。这时产品设计师需要收集这样的思考,然后做出一个团队统一决定的目标。

来自:未开窍的石头 点击查看原文

如何了解用户和需求

By Nigel on 06月 30th, 2009

用户是所有体验的基础,如果用户的要求没被满足,良好的体验自然也无从说起。那么,我们怎样才能了解用户需求呢?
user~need
     大家都知道可用性测试、调查问卷之类与用户进行沟通的途径,这些方法各有各的利弊,如果逐一分析的话,恐怕至少要分成三本书来写。现在我们先把它们放在一边,从另一个角度来看看这个问题:用户的需求会通过什么途径来表达呢?

     举个小小的例子,某位小朋友饿了,他可能会说“我要吃点东西”,然后你就知道应该给他找点吃的;如果他什么都不说,抓起某样食物就狂吃,这很明显——他饿了;要是他说“我想吃火锅”,而你没有火锅只有馒头呢?我们稍后再说明这个问题。

     不过你至少可以看出,用户的需求通过这样三种形式来传达——目标、行为、说法。

     在这个例子中,用户最根本的需求是饥饿(我们通常不需要了解用户最根本的需求),目标是找东西吃下去,行为显示了这个目标,他自己认为火锅能解决这个问题。我们要做的,就是根据这些资料提供给他适合的食物。这里我们提供的是馒头,小朋友看到馒头的时候,有两种可能,一种是什么也不说,抓过来就狂啃;另一种是一边狂啃一边生气。第一种情况说明,你提供给他的选择比他想象的更实用。同时说明:用户所说的其实不一定就是他们真正的需求,行为才是最真实的。第二种情况说明,你对用户的需求了解得不够,需要再收集更多的数据,比如他爱吃米饭还是面食,喜欢甜还是辣等。

     当然大多数研究比这个例子要复杂得多,但总的说来,我们除了要知道用户有什么行为,还必须知道为什么会出现这样的行为。所以必须要将各种方法综合起来使用,然后描述出一个完整的用户形象。

     用户需求的组成就如下面这个图形所示。为什么“行为”占了一半的比重呢?我个人认为,受中国文化的含蓄和中庸哲学影响,国内用户恐怕很少能真诚、准确地说出自己的想法,所以应该在行为研究上有所偏重。

     我们先不考虑如何分析数据,现在只需要想:有哪些方法可以收集到这些数据呢? 

     正如你看到的,网站流量和日志文件,以及被大家交口称赞的眼动实验用于了解用户做了什么(行为),而用户访谈和调查问卷用于了解用户为什么这么做(目标和说法),情景调查、可用性测试和CRM统计则介于目标和行为之间。

user_need

     首先说一下用户访谈和调查问卷。

     这两者看起来很相似,都是提出一堆问题让用户来回答。但它们之间有个关键的差异:数量。用户访谈是抽样调查,数量少(每种类型的用户不超过10个),而调查问卷则是一种大范围内的普查。数量的不同决定了两种方法的性质,一种是定性的研究方式,另一种则是定量的研究方式。不过它们用于发现用户的观点是非常有用的,你往往会在用户的答复中,发现你之前根本就没考虑过的新想法,这也许就会改变你的产品的思路。

     两者在运作的形式上也有所差异。用户访谈的形式是一种更加随意的谈话方式,而且要注意尽量不要提“是非题”(即“是”或“否”的问题),让用户自由表达。你可以事先有一个大纲,但一定不要照本宣科。在时间上也要保持一定的弹性,一般你会告诉用户需要1个小时,不过要是遇上一个善谈的用户,滔滔不绝讲1个半小时也是有可能的,你要做的,就是尽量别让他跑得太远:)。调查问卷则更严谨一点,不管是在网上还是线下进行的调查,大部分都应该是量级选择题,我们通常看到的“你是否同意这个说法,5分非常同意,0分完全不同意”,就属于这种问题,用户可以通过点击和画勾来回答。调查问卷同样也要避免“是非题”,同时为了保证用户不会因为耗时太长而放弃,最好自己测试一下答题时间,一般不能超过15分钟(我回答过超过20分钟的问题,不过那是几个心理测试)。

     这里我只想强调一点,不管哪种方法,提问的技巧和问题的顺序相当的重要。如果你在一开始就告诉用户,你们准备开发几个新功能,后面又问到用户对现有产品的想法,这就是一种典型自我否定,势必会影响到用户对后一个问题的看法。我想这就是需要心理专家发挥作用的环节。挖掘人类心底的想法,从来都是一件斗智斗勇的事。在某种程度上这种沟通过程更像是你和你身边那个女孩相处的情形。你一直想弄明白她为什么不高兴,但是又不能直接问,因为你知道,她永远不会直接回答。你唯一能做的就是长叹一声“我要如何了解她?!”。可能她只是因为你没有穿她送的那件衬衣而生气,但她只会说:“你今天打扮得真没品味。”表现出来的行为就是不跟你去任何公众场合,目标就是********你自己分析吧。

     网站流量统计、日志文件用于了解用户做了什么,但通常不能解释他们为什么这么做,与之相似的还有CRM数据。所以这三者最好是能和调查问卷结合起来使用。把某个用户的点击流(clickstream)与他完成的调查问卷放到一起分析,你就能了解这个行为背后的原因。当然,前提是您可以捕获某个特定用户的日志记录,并在调查问卷中找到同一个人的回复。大部分的网页里都埋有统计程序的种子,作用和我们今天的主题一样,只管尽可能多地收集数据。而在统计背后的数据挖掘,更是一场艰苦而长期的工作。

     可用性测试和眼动实验本质上相同的,它们的局限很明显,只能用于发现已有产品的缺陷和障碍,而这同样可以用其它途径得到。所以在国内炒得沸沸扬扬的可用性测试,我个人认为对互联网产品似乎并不能产生太大的影响。这一节就跳过。

     情景调查很有意思,组合了用户访谈和可用性测试两者的方式。简单说就是你跑到用户那儿去,看看他们在熟悉的环境下如何进行操作的,这样你得到的数据就比在实验室要真实得多,对于某些和环境有关的产品而言,进行实地考察是非常重要的。进行情景调查你可以突然袭击(偷窥)或者提前和用户说好。不过一般来讲,在用户不知情的情况下你能看到更多的东西,虽然听起来似乎有点不够君子。调查一开始,你一边观察用户的行为,一边记下有疑问的地方,这算是改良版的可用性测试。等用户完成他的日常工作,你就可以现身出来,邀请用户进行一次简短的访问,把你刚才的疑问一一提出,这又是一次简化版的用户访谈。这个方法的风险就是用户可能不愿意,或者没有时间接受你的采访。
来自:CHINA UED