
mm最近的口头禅是:拿屎缸酱上!例如“再反抗就拿屎缸把你酱上!”,“拿屎缸把他酱上算了”,“把你剁了搁屎缸里酱上!” ......
附图为一缸,最好不要仔细地形象地想这一幕,听听算了 -_-
电脑、自行车旅行、生活感悟
需要补充一下,这里讲的是指semantic web中的emergent semantics,而不是语言学中的,感谢刘贤俊博士给出的语言学方面的介绍。
首先我觉得涌现语义是大众草根现象的又一产物。
什么是涌现语义?
涌现语义和预先定义的本体(ontology)体系的关系可以粗略地类比为大众标签(folksonomy)和精心构造的人工分类之间的关系。传统 的语义互联网(Semantic Web,注意这里是SW大写,小写的话则有时暗指emergent semantics)思路可能是要建立一个统一完备的语义结构,可以标注一切联系一切,这项工作其实是非常困难的,大家愿意不愿意标注且放在其次,对语义 本身的一致认识就成问题。语义和上下文有关系,建立一个在不同的上下文中都适用的语义体系有时是很难的。涌现语义把思路变了一下,就像tagging一 样,“我不管你用什么,觉得好用就行”,这样放在语义标注者身上的枷锁和沉重思想负担就没有了,具体情况具体分析,爱怎么标就怎么标。
涌现语义的三原则
光放开手脚随便标是不行的,不同的体系之间还要交流,就像同一件事情有人叫disambiguity有人叫entity resolution,这在互相交流的时候一定要有一个统一认识,这就是涌现语义的第一个原则:协议(agreements)。不同的语义体系是靠协议来 链接起来的。由于涌现语义缺乏中央集中的调控(这也是优势之一),协议的达成就需要不同体系之间平等地商量一下怎么办,或是先参考一下有没有之前已经达成 的协议可以重新利用,这是涌现语系的第二个原则:协商(negotiation),即体系之间的交流协议来自互相的协商和承认。看到这里不禁要说,那我所 有体系都互相协商成一个大的完备的体系不更好?这是不可能做到的,协商的交流工作量很大,以至于无法达成这个目标,于是本着节约实用的原则,都是和谁打交 道就和谁协商,哪份协商的协议更实用大家就追捧哪份协议。这就是涌现语义的第三个也是关键原则:协商来自局部的交互。再解释一下就是没事不能总开全国代表 大会,开不起。
现实中的涌现语义
涌现语义我觉得基本上是一种社会现象,网络社会现象,而不是一个设计好的要大家参与的活动。一个例子是微格式(microformat),什么是微 格式?比如大家都喜欢把自己的日程安排放在网上,可是格式各异,有的是叙事语言,有的是时间在前描述在后的表格,等等。时间长了大家发现这样很不好,不能 用统一的工具来获得和融合大家的日程,于是有人提出,我们把格式统一一下,用“年月日时分秒 事件时间长度 事件描述”的形式来写日程(具体形式在这个例子中不重要),这样各种软件就可以放心方便地分析不同地方来的日程了。于是在日程规划这个小的局部,就形成了 一种小的语义标注方法体系(局部性)。如果这些人要和飞机订票的人合作,而订票软件有另外一种表示时间的格式,那总会有人出面写一些转换工具来互相转换 (协商和协议)。这些格式也不是一成不变的,比如某天有人提出咱们在每条的最后再加上一个“事件类别”吧,这样方便些等等(持续变化)。这就是涌现语义出 现的一个小例子。
参考文献
[1] Eric Meyer, Emegent Semantics, slideshows presented at SXSWi05, 2005
[2] Aberer, K. and Cudre-Mauroux, P. and Ouksel, A.M. and Catarci, T. and Hacid, M.S. and Illarramendi, A. and Kashyap, V. and Mecella, M. and Mena, E. and Neuhold, E.J. and others, Emergent semantics principles and issues, Proceedings of the 9th International Conference on Database Systems for Advanced Applications (DASFAA 2004)
最近看相关文章的一个小总结
网络动态性研究,是观察网络的各种特征在不同时间上的变化情况,或是利用来自不同时间的数据来获得在单一时间内难以得到的信息。这里“网络”和“图 ”指的是同一个东西,即由节点和连接节点的边组成的结构。这些研究主要来自于物理学和社会学两个研究方向,物理学关注的是抽象网络的各种性质,而社会学更 关注社区发现和演化等与社交网络有关的内容。一些工作是实证性质的,即对来自某个具体网络的数据进行详细的统计和分析;另外一些是建模和算法性质的,提出 一些模型或是方法来解释或解决问题,并且在真实或是模拟的数据上进行检验。
在2005年之前,被关注的特征主要是网络的一些全局统计量,例如平均出入度和平均最短路径。通过考察这些统计量随时间变化的情况,研究者得到了一 些有意义的结论。例如真实世界的网络比较稳定,这得益于其层次性的结构,即大的网络是由很多小的趋于稳定的网络按照层次组织起来的[1]。另外一个和直观 相悖的结论是随着图节点数的增加:1)平均的度在增加而不是常数,2)节点之间的平均距离在减小,而不是缓慢增加[2],这是不是类似于六度空间现象?
2005年之后,一些研究者开始关注网络的结构随时间变化的情况,而不只是看全局的统计量,其中关注最多的是社区的动态性质。一般的思路是先把数据 按照滑动时间窗口组织成时间上连续的多个图,然后用比较成熟的社区发现方法,例如基于edge betweenness的方法,来发现每个图中的社区,最后利用社区之间的相似性度量和时间连续性假设(即社区变化还是需要时间的,不会突然消失掉)来分 析社区的出现、增长、合并、分裂、缩小和消失等现象。其中社区发现、子图相似性的度量等等可能使用各种不同的方法,但是总体上是差不多的。这些分析得到了 比全局统计量更有趣的结论,例如有分析指出大的社区如果组成的单位经常变化,则社区的活力会长一些;小社区则恰恰相反,组成单位的变化会加速其消亡 [3]。做个直观的解释:大社区如解放军,“铁打的营盘流水的兵”,大家不是靠个人关系聚集的,而是靠严格的纪律和共同的目标,这样的社区要比靠脸熟形成 的社区,如梁山泊一百单八将,要稳定的多;小社区如宿舍好友打牌四人组,任何人员上的变动都会让这个组织迅速的消失,因为脸熟是维系这个小社区的关键力 量。另外有人提出来研究的单位可以比单独的节点或是边来得更大,先找到不同时间点上的所有子图,再根据时间上的连续性把不同时间上的相似子图(往往就是相 同的,例如01年的中国足球队和02年的中国足球队,例子是我举的)串起来形成元子图(meta group),转而研究元子图之间的关系[4]。
社区发现,或叫做层次分割,或叫做层次聚类,是探索大规模网络内部结构的必由之路。另外一些研究就关注于如何利用动态性也就是时间信息来辅助社区发 现,或是让社区发现的算法能更好地应对高度动态的数据。来自物理学的研究者善于用物理现象来类比解决社区发现的问题。一个方法是把网络中的每个节点都想像 成相振荡器(phase oscillator,例如单摆就是一个简单的振荡器),把节点之间的边想像为连接振荡器的物体,那么根据我们高中学过的多个不同频率的单摆在连接在一起 的时候会发生同步这一物理规律,我们可以想像网络中相近的节点震荡频率会趋于一致,而没什么关系的节点之间震荡频率会有区别,通过考察稳定后节点震荡频率 的不同,就能把网络划分成不同的社区[5]。这个方法可以看作是用一个动态的模拟来发现网络的结构。另外一个类似思路的方法是把每个节点想像成一个小球, 把节点之间的边想像成弹簧,那么这一团由弹簧连接的小球在稳定不动后就会自然地形成不同社区在一起的结构[6]。之前在用cytoscape这个网络数据 查看软件的时候,就有Spring Layout这种观看模式,和这个思路应该是一样的。这种弹簧模型还有一个好处,就是如果有一个新的节点或是边到来,不用重新计算所有的数据,只要让加入 了新节点的一团弹簧再动动,稳定之后就是新的结果。也就是说这种方法能够应对动态变化的数据,而传统的基于edge betweeness的方法则需要每次都重新计算所有数据,不能适应动态数据分析的要求。
对于在网络上的意见传播,还有一类以Opinion Changing Rate(OCR)模型为代表的模型[7],来模拟在每个节点接受新事物能力有不同的情况下,一个意见能不能在整个网络上达成一致和这个过程需要多长的时间,这很偏向于社会学的研究。
值得一提的是数学家在很早之前就对时间相关的随机现象有了很多的研究,一般被称作时间序列分析,在这个领域内时间序列数据被看作是随机过程的一个实 现,大量随机过程的工具被用于这方面的研究。时间序列分析最初可能主要是由经济学研究驱动的,这方面了解不深。从实际的论文和方法来看,把相关数学工具用 于网络动态性研究的非常少,可能也与对数学知识要求过高有关。
话题转回语言分析,看看网络动态性研究能为语言分析提供怎样的帮助。首先语言中网络无处不在,从字、词的搭配网络,到词语之间的相关性网络,不一而 足。语言的变化虽然不及人际关系的变化快(世态炎凉人心难测),但也是在积极地演进着。例如对从小学到高三的语文课本内容的词搭配进行分析,也许可以看到 不同教育时期语文重点的变化,进而考察出这些重点和这种变化是不是清晰正确地反应了教学的需求。再例如对有准确时间标签的新闻或博客文章中的用词搭配进行 分析,也许能发现不同时期不同事件在话题上影响的变迁,或是新词汇的产生,或是旧词新意的分离或消亡(例如“小姐[年轻女性或妓女]”和“分配[分发或是 安排工作]”)。又例如对不同时代古诗中字的关系进行分析,是不是能看到诗词用语的演化规律?
[1] EA Variano, JH McCoy, H Lipson, networks dynamics and modularity, Physical Review Letters, 2004
[2] J. Leskovec, J. Kleinberg and C. Faloutsos, Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations, In Proc. of KDD’05, 2005
[3] G Palla, AL Barabasi, T Vicsek, Quantifying social group evolution, Nature 446, 664 - 667 (05 Apr 2007) Letter
[4] TY Berger-Wolf, J Saia, a framework for analysis of dynamic social networks, in Proceedings of the 12th ACM SIGKDD international conference, 2006
[5] Boccaletti, S. and Ivanchenko, M. and Latora, V. and Pluchino, A. and Rapisarda, A., Detecting complex network modularity by dynamical clustering, PHYSICAL REVIEW E, vol 75, 2007
[6] Yang, B. and Liu, D.Y., Incremental Algorithm for Detecting Community Structure in Dynamic Networks, Proceedings of 2005 International Conference on Machine Learning and Cybernetics, volume 4, 2005
[7] Pluchino, A. and Boccaletti, S. and Latora, V. and Rapisarda, A., Opinion dynamics and synchronization in a network of scientific collaborations, Physica A: Statistical Mechanics and its Applications, volume 372, number 2, pp 316–325, 2006
今天听了热能系主任姚强教授的报告《从学位论文的评审说起:谈如何撰写博士学位论文》,感觉还是有些收获。这个报告是即将毕业正在写论文的博士生必 须参加的活动,我实际是去蹭听的。他讲的很多重点内容孙老师已经反复和我们说过了,例如选题、实验、写作中的问题和学术道德的内容,所以我记得也不全,把 自己的笔记和体会整理一下,供大家参考吧
评审人的角度一般是:选题意义,创造性,专业基础知识,写作与总结。这里一个引起我思考的重要观点是博士论文不仅仅是一篇好论文,也要能够反映出 作者在这个领域的广泛了解和扎实的基础知识。如果论文创新点很好,工作很有意义,但是不能反映出作者的专业基础知识情况,可能也是会受到质疑的。其中有一 句话说的不错,自己应该是论文所涉及的这个领域的专家,甚至要比导师和所有评审人对这个具体领域的了解和见解都深才行。
另外一个不好的现象是做的工作都想放在博士论文里面,觉得不放”亏了”。如果把关系不大的工作堆砌在里面的话,反而降低博士论文的质量,或是在答辩的时候受到质疑。
中间插个题外话,姚老师提到研究小组的seminar是个很重要的交流机会,有时候到了工作岗位,可能研究的主要内容都用不到,但是seminar上从其他同学那里得来的知识却经常能派上用场。所以认真参加seminar吧!
思考你的论文:学术价值
先考虑的应该是学术价值。一个有趣的现象是最初选题和最后写论文时相比,有至少一半的人都发现自己的目标和观点有变化,很少有完全一致的(完全一致 说明这很可能是低水平的研究)。博士论文的创新性最重要,如果这个不行,就直接被击毙没有翻身的希望了。两个不好的例子,一是”用了一个创新的方法,但是 性能并不比旧方法好”,二是”写了很多很好,但是和申请的学位学科关系不大”,都很容易被击毙,他还举了真实的例子。
文献综述
文献综述篇幅很大,要注意的是综述要和研究有关,”不必事事从开天辟地说起”,主要目的是引导读者意识到你工作的重要性,要带着改进和批判的态度 写,不能一味说别人方法怎么怎么好,最后又说自己方法怎么怎么好,完全没有关系。不能做的事情包括在介绍引文工作的时候回避冲突,或是蓄意选择性地引述。 不必读所有文献,多读外文期刊,现在论文垃圾很多,要学会判断垃圾。引文的时候要注意引用原创工作,而不是后人的转述或是补充。姚老师给了一个文献综述写 作的方法与步骤:概括,摘要,批判,建议。
另外提到了一下关于研究步骤的两个争论派别。一派认为应该先不看任何文献,自己尽量独立思考,这样有助于摆脱现有研究带来的惯性思维,等思路明确了 再全面地读文章;另外一派认为应该先通读前人工作,才能开始研究。好像这两派争论很多的样子。不过我觉得一个可以借鉴的思路是不必强求”读全”,有想法的 时候立刻开始思考,如果实验简单易行就立刻开始实验,当有进一步思考的时候再仔细地进行文献综述,反思自己思路和前人有什么异同。
方法、实验与模型
主要是讲描述方法的时候要注意科学研究最重要的两点:独立验证和可重复性。可以利用的方法包括显著检验,双盲测试之类。方法描述要有特异性,可操作 性,不能含糊和说一些无信息量的”套话”。姚老师感慨说模型和假设很容易是错的,如果粗心的话很容易落到错误结果中还浑然不知,一定需要严谨的验证,例如 benchmark。
这个我们应该有体会,例如我和yaya重复redgreen的实验,非常容易出错,如果没有大百科数据集合和一个F值作为benchmark来不断 检验,很可能就会做出一个错误的版本却完全不知情。这种有benchmark的还好,如果是创新的没有成熟的检验方法的,那风险就更高了。
结果的表示与分析
不能堆砌实验表格和数据而没有分析,也不能在文中提到任何没有数据支撑的”想当然”结论。
发表论文
Ph.D != paper maker。他提到国内有些论文浮躁的气氛,尽量都想多发,但这样实际是不好的,降低了文章的质量和深度。
最后还有一句话我觉得挺好的:一流大学不是满足社会需求,而是引领社会需求。
就这些了,还有记得的一些参考书,好像都挺不错的,很多观点和句子都引自这几本:
[1] 朱青生,《十九札》
[2] 毕恒达《教授为什么没告诉我——论文写作枕边书》
[3] on being a scientist,这是一篇杂志文章
同组的同学买了一只iphone,可以好好把玩一下了。原来我很想要一个iphone,觉得从反应速度到界面都很赞。不过这次仔细用了一下后,发现 iphone并不像想像中那样吸引人,虽然功能跟赞,但是想代替掌上电脑的话,还是有点距离。掌上设备可以干什么?对我来说,主要是如下几条
我的palmtx,图中左边这只,屏幕分辨率和iphone一样,这些功能完成的很出色(除了pdf文件显示每页的时候有点慢)。iphone主要 是中文输入和信息管理功能上比较弱,如做笔记和看电子书这两大重要功能,palmtx可以直接编辑SD卡上的txt文件,所以和电脑交互很方 便,iphone不知道,据我多年用苹果机的经验,应该是不那么容易,得通过itunes之类。
其实主要问题还是iphone的开发不公开。如果允许任何人方便地开发iphone软件并且发布,那么这些功能都是小意思,现在苹果对iphone 软件开发的限制实在是给iphone套上了枷锁。别和我提iphone SDK,用这个写完了是不能直接放iphone上的,得花钱从苹果拿到一个许可才行。
说说开发难度,我觉得palm是谁都可以开发,也不要序号之类,但是开发难度非常大,真的很大,想像一下内存还有分页限制……iphone和 android和windows mobile之类后起的系统开发难度都小很多,不过iphone要钱,winmo慢(真的慢),android还不见实机,现阶段不到两千块的 palmtx还真是一个不错的随身伴侣,哈哈。(附图是palmtx/iphone排排坐)
美丽与美妙,你们是伙伴
——张昕姐姐致两位孩子的一封信
美丽、美妙:
辛苦了!
最近发生的一系列事情让你们受委屈了。
当 还沉浸在那历史性的一夜带给我的骄傲与震撼时,听到这个消息,姐姐很震惊、很紧张也很害怕。至今姐姐仍然不相信它是真实的。但不论事件真实与否,不论这是 不是那位陈叔叔的一句梦呓,网络社会也已把你们卷入了这场被哄嚷得满球风雨的事件。你们被无辜的伤害。有些喜爱你们的人也因错误的爱,伤害了你们。你们的 爸爸妈妈、和你们一样正在单纯的成长的孩子、以及我们的国人都一起被伤害了,这中间也包括我。
你们没有错,你们尽自己最大的努力完美的完成了自己的任务,你们的同胞们因你们而感到振奋。你们要记住你们是一对伙伴,你们手牵手代表了祖国的未来。
美丽,你知道吗?在那一刻,你的小小的美丽的身影、甜美的笑容,让所有看到的人都感到有一阵电流从眼里激荡到心里,你的同胞们因你的身影、你的笑容而感到穿越了五千年的长河后扬眉吐气了、感到生活开始朝气蓬勃了。美丽,姐姐和你的同胞都为你骄傲,都因你而为祖国骄傲。
美 妙,你知道吗?在那一刻,美妙的歌声让我们感到传在耳里记在心间,那来自纯真心灵的歌声净化了聆听者的灵魂。无论此事是真是假,无论那声音是否来自于你, 姐姐要告诉你,你的歌声就是如此的撼人心脾,你的歌声会让聆听者感觉置身红尘之外,感觉仿佛看到了一轮新生的太阳。美妙,姐姐和你的同胞们都为你自豪,都 因你而为祖国自豪。
在 人生的路上,你们刚刚迈出第一步,在这个时候发生这件事,看起来对你们确实太不公平了,但是你的同胞、伙伴和亲人会一直支持你们、保护你们,让你们和小朋 友们一样健康的成长。这场风波也是你们人生第一笔宝贵的财富,虽然残酷,但你们从中会收获什么是爱、什么是宽容、什么是真诚。
美丽、美妙,现在的你们一定学会了感动,那掌声与欢呼、那一双双充满希望的眼睛是对你们的认可与喜爱;现在的你们一定学会了宽容,原谅那些无意于伤害你们的叔叔阿姨,重压之下他们也想做到最好;现在的你们一定学会了真诚,懂得了只有真诚才能带来真正的完美。
这场风波也是我们所有国人的一笔宝贵财富,让我们这些成年人思考为什么会有这件事,我们该怎样去化解这些质疑——世界质疑中国的诚信、质疑这无法超越的历史时刻是用虚假完成的完美、质疑举国之力支付不起说明情况的字幕,我们成年人要思考的是怎样让这样的伤害不再发生。
有 些成年人是这样想的,姐姐不妨告诉你们:那夜,美丽站在舞台上全力表演的时候,在按捺着自己的声音,想“难道我的声音真的就不美妙,也许叔叔说的对”,带 给同胞们惊喜的一刻,她的心灵里带着泪水;那夜,美妙的声音响彻中华大地的时候,看到美丽站在舞台上,想“难道我的面庞真的就不美丽,也许叔叔说的对”, 带给同胞们振奋的一刻,她的心灵里带着嘶哑。
但是,你们更要知道,美丽与美妙,你们手牵着手是那么的璀璨,你们表现的那么阳光、那么坚强,完全不像大家的想象。你们是,也应该是,一对最真挚的伙伴,你们共同用心灵的阳光告诉我们什么才是生活的精彩。
美丽、美妙,谢谢你们!
此致,
祝你们健康成长!
张昕姐姐
2008年8月15日