何时应当启用“标签”及其使用注意点

来源：艾瑞网 2010-09-28 01:06

越来越多的网站在管理内容时开始使用“标签”（Tag），尤其标榜自己为Web2.0时代的网站，似乎网页上没有一个标签云图（Tag Cloud）就不符合自己的2.0身份。标签毫无疑问在被滥用，最近的一些网络用户调查表明，大多数用户根本不使用“标签”，当然除了那些图片网站所使用的“美女”，“性感”，“走光”等等。

　　什么是“标签”？

　　标签可以是一种信息分类方式；

　　标签是关键词；

　　标签是有意义的词语；

　　标签不可以重复；

　　有人认为标签是替代分类（Categorization）的，我不这么看。其实标签对于信息组织的能力要比分类法弱得多，如果有人试图把图书分类法用标签来替代，那么首先每个图书馆都可能要付出巨大的人力来重新进行标引，而且为每本书籍所赋予的标签将是几十个甚至几百个。更重要的是，负责分类图书的人是不可能阅读整本书来进行分类的，所以最后形成的标签也无非是图书分类法的重复。实践上，图书出版时就已经按照国家的图书分类法进行了编号，馆藏人员只是按照编号体系编排书架号，为读者取书提供依据。在设施先进的图书馆，这个书目系统附加了书名和书号搜索等辅助工具，甚至最后的取书过程也是依靠传送带来完成的，这是不是很象搜索引擎啊？这个例子说明标签和分类完全不同，他们可以共存，而且分类在信息组织的过程中起到主导作用。

　　同样延续图书的例子，分类往往形成了从上至下的树状结构，例如文学作品分类下有小说和诗歌，小说下面还可以分外国小说，古代小说等。而标签都是平行结构的，如果一定要为图书设置标签，“圣经文学“可以算一个，但是完全另一领域的”Photoshop”也可以是一个标签，他们之间的关系是平行的。当然如果你同时搜索”圣经文学“和”Photoshop”，我估计是没有这样一本书的。

　　图书信息中并没有“标签”，这的确困扰了很多读者。中国图书分类法公布于1988年，按照其十进制的分类编码规则最多只能支持数万个分类。近20年的社会发展创造了很多新的图书种类，例如很多读者希望查询所有的网络文学图书，而中图法中并没有这个分类，所以标签在很大程度上是分类的一个延展，能够弥补信息分类的深度不足问题。

　　何时应当启用“标签”

　　1）   网站将包含众多来自用户创造的内容。

　　这是网站使用“标签”的一个重要理由，也是为什么大多数Web2.0网站同时具备这两个特点的原因。由于大量内容将来自用户，其外延范围很难预知，事先确定完整的内容分类系统十分困难，所以网站允许用户在提交内容时提供自己的内容标签，如果用户提交的是新标签，则网站可以决定是否加入或者修改。也有网站将标签权完全开放给用户，允许用户提交任何形式合法的自由标签。例如Flickr就允许用户完全自定义标签，哪怕用的是提交者自己的名字。

　　对于很多分类目录的运营者来说，完全开放标签并不是最好的选择，这容易导致雷同标签的出现，例如一个游戏社区网站，如果A用户提交了“RPG”作为一个标签，B用户又提交了“角色扮演”标签，C用户甚至用“角色扮演游戏”作为标签，而这三个标签指向的是同样的意义，如果网站没有进行标签审核，则最终会导致信息结构性变弱。所以如果运营者希望保持一个严谨的内容结构性，那么对标签进行唯一性审核还是必要的。至于Flickr选择自由标签策略，是因为没有人会在乎通过一个特定标签搜索照片的绝对完整性。

　　2）   分类具有主观因素

　　选择是否引入标签体系的标准之一是看某种信息的分类过程是否包含主观因素，如果一切都有客观标准的支持，甚至是官方标准的约束，那么标签的意义就不是很大，完全可以用固定的分类系统来服务。就像全世界200多个国家和地区的所属大洲，是没有争议的绝对标准，完全没有必要为各个国家赋予洲别的标签。相反，如果我们要区分国家和民族的性格，我们完全可以给“中国”赋以“隐忍”、“勤劳”等标签，毫无疑问，这是主观的。



　　3）   信息缺乏全文检索能力

　　对于多媒体类信息，例如图片，视频和音乐，内容本身不含有可搜索的文字，对内容进行额外的标引就特别重要，这也是为什么大多数视频分享类网站都使用标签的原因。还有一种情况是运营者没有能力或者不愿意提供全文检索服务给用户，即便所有的内容都是文本，这个时候标签工作也是有价值的，例如一些不开放全文的资料库，或者存储文件格式多样化的文档等。

　　4）   内容不断增长的数据记录

　　我们可以把所有的信息都理解成数据库，有些数据库是静态的，在电子化的过程后就不再有新增记录了，这时候标签方法完全不如分类，或者说其本质是一样的。只有在信息量不断增加的数据库中，标签新的行记录才有意义，否则我们就可以像切PIZZA一样，把静态的信息归入不同的分类。至于同样的记录归入到多个分类中，那只是分类数据表的存储结构问题，和标签本身无关。

　　5）   信息是单语种的

　　前面的例子提到“RPG”和“角色扮演”的同义问题。在单语种信息中，这样的跨语种标签雷同现象比较容易控制，单如果信息本身就是跨语种的，标签工作将附带大量的翻译任务，其质量和效果都会大打折扣。所以即使是需要标签多语种信息，也只能使用一个语种的标签体系。在这个问题上，Flickr再次变成一个特例，全世界的用户都可以使用自己的语言来标签照片，但是中国人标签的“九寨沟”，老外就很难搜索到，而中国人也不会用Jiuzhaigou Valley来找九寨沟的照片。



　　6）   内容常常跨分类，或存在多个交错的分类体系

　　能够被精确地分到独立类目的信息并不少见，例如各式商品被分类到独立的产品类目，企业被分类到各个行业，员工被分类到各个部门，这些结构严谨的信息一般都不会也不允许跨类目分类。而更多的信息在分类时情况要复杂得多，例如：新闻可以按照地区分类，也可以按照性质分类，兼备两种性质的新闻也比比皆是，例如美国扩大军售范围既是国际新闻，又是军事新闻，跳水冠军和娱乐明星的绯闻既是体育新闻又是娱乐新闻。在这种情况下，使用特定的标签来标识新闻往往能够起到不错的挖掘作用。

　　标签的使用并不影响分类的存在，正如上面所说，标签的根本作用还是在辅助分类，最终实现信息被准确和全面挖掘的目标。

　　使用“标签”的注意点

　　1）   区分标签和内容属性

　　作为一种结构性较弱的信息标引模式，标签并不能替代数据的标准属性（Attribute），换句话说，如果某种信息含有绝对标准的属性（字段），我们并不需要为此建立标签，例如Flickr要求用户使用标签来说明照片的内容，而绝不会需要用户用“JPG”来标签文件格式。区分属性和标签的重要方法之一是看某个信息是否能够用唯一的属性值来描述，如果可以则完全可以不用标签，而如果能够用整形数，浮点数，逻辑值和枚举值等来标识的信息则更加和标签没有关系。标签往往是用来替代和加强那些只能用字符型字段来描述的属性。

　　2）   标签的数据结构

　　如果网站选择引入内容标签体系，那么必须配套相应的数据存储结构。简单的信息标签方法可以直接使用文本字段写入行记录，这种方法适用于行记录少，标签内容也简单的数据库。对于规模更大的数据库，必须使用关系数据库来进行数据关联。常见的关联方法是分别建立“标签”和“标签关系“表，将需要标引的行记录，通过”标签关系“数据表和”标签“表的不重复记录关联起来，这样通过标签记录的整形数ID就能够实现效率更高的标签查询，维护记录的标签也更加方便，各种视图都可以使用简单的语句来创建。

　3）   标签的扩展应用

　　大多数设计了标签体系的网站并没有很好地利用它。很多用户提交的标签完全没有能够被公共利用，标签云图上所引导显示的大多数是热门标签，其导航作用甚至不如更为层次化的分类目录。如果要充分利用标签所带来的信息结构性，则应该系统分析标签的实际分布情况，通过组合标签的方法为用户构筑有意义的筛选视图。在网站架构上，也可以充分利用标签来进行搜索引擎优化，例如Flickr所支持的标签URL对于推广网站起到了非常重要的作用。

网站建设

网站建设

热点文章

您现在所在的位置：

何时应当启用“标签”及其使用注意点

相关文章