2008年9月3日星期三

涌现语义 emergent semantics

需要补充一下,这里讲的是指semantic web中的emergent semantics,而不是语言学中的,感谢刘贤俊博士给出的语言学方面的介绍。

首先我觉得涌现语义是大众草根现象的又一产物。

什么是涌现语义?

涌现语义和预先定义的本体(ontology)体系的关系可以粗略地类比为大众标签(folksonomy)和精心构造的人工分类之间的关系。传统 的语义互联网(Semantic Web,注意这里是SW大写,小写的话则有时暗指emergent semantics)思路可能是要建立一个统一完备的语义结构,可以标注一切联系一切,这项工作其实是非常困难的,大家愿意不愿意标注且放在其次,对语义 本身的一致认识就成问题。语义和上下文有关系,建立一个在不同的上下文中都适用的语义体系有时是很难的。涌现语义把思路变了一下,就像tagging一 样,“我不管你用什么,觉得好用就行”,这样放在语义标注者身上的枷锁和沉重思想负担就没有了,具体情况具体分析,爱怎么标就怎么标。

涌现语义的三原则

光放开手脚随便标是不行的,不同的体系之间还要交流,就像同一件事情有人叫disambiguity有人叫entity resolution,这在互相交流的时候一定要有一个统一认识,这就是涌现语义的第一个原则:协议(agreements)。不同的语义体系是靠协议来 链接起来的。由于涌现语义缺乏中央集中的调控(这也是优势之一),协议的达成就需要不同体系之间平等地商量一下怎么办,或是先参考一下有没有之前已经达成 的协议可以重新利用,这是涌现语系的第二个原则:协商(negotiation),即体系之间的交流协议来自互相的协商和承认。看到这里不禁要说,那我所 有体系都互相协商成一个大的完备的体系不更好?这是不可能做到的,协商的交流工作量很大,以至于无法达成这个目标,于是本着节约实用的原则,都是和谁打交 道就和谁协商,哪份协商的协议更实用大家就追捧哪份协议。这就是涌现语义的第三个也是关键原则:协商来自局部的交互。再解释一下就是没事不能总开全国代表 大会,开不起。

现实中的涌现语义

涌现语义我觉得基本上是一种社会现象,网络社会现象,而不是一个设计好的要大家参与的活动。一个例子是微格式(microformat),什么是微 格式?比如大家都喜欢把自己的日程安排放在网上,可是格式各异,有的是叙事语言,有的是时间在前描述在后的表格,等等。时间长了大家发现这样很不好,不能 用统一的工具来获得和融合大家的日程,于是有人提出,我们把格式统一一下,用“年月日时分秒 事件时间长度 事件描述”的形式来写日程(具体形式在这个例子中不重要),这样各种软件就可以放心方便地分析不同地方来的日程了。于是在日程规划这个小的局部,就形成了 一种小的语义标注方法体系(局部性)。如果这些人要和飞机订票的人合作,而订票软件有另外一种表示时间的格式,那总会有人出面写一些转换工具来互相转换 (协商和协议)。这些格式也不是一成不变的,比如某天有人提出咱们在每条的最后再加上一个“事件类别”吧,这样方便些等等(持续变化)。这就是涌现语义出 现的一个小例子。

参考文献

[1] Eric Meyer, Emegent Semantics, slideshows presented at SXSWi05, 2005

[2] Aberer, K. and Cudre-Mauroux, P. and Ouksel, A.M. and Catarci, T. and Hacid, M.S. and Illarramendi, A. and Kashyap, V. and Mecella, M. and Mena, E. and Neuhold, E.J. and others, Emergent semantics principles and issues, Proceedings of the 9th International Conference on Database Systems for Advanced Applications (DASFAA 2004)

3 条评论:

Sames 说...

沙发!

theneo 说...

哈哈鸭鸭~

匿名 说...

好专业…………………………
=_=!