2008年9月21日星期日

mm语出惊人


mm最近的口头禅是:拿屎缸酱上!例如“再反抗就拿屎缸把你酱上!”,“拿屎缸把他酱上算了”,“把你剁了搁屎缸里酱上!” ......

附图为一缸,最好不要仔细地形象地想这一幕,听听算了 -_-

一个不错的API参考页面

slashdot上看到的,http://www.gotapi.com 看起来还真是方便,查了一些常用api感觉也不错。支持html, javascript, php, mysql, c/c++/stl, java等等一大脱拉库。

2008年9月15日星期一

梦幻的北京南站,梦幻的北京交通

这是前几周的事情了。某个周末,我和mm受到媒体对京津高铁铺天盖地的宣传,想搭此牛车到天津去看看朋友,吃吃海鲜,梦幻的交通故事就从那个周末的早晨开始。

早晨九点,我们开始向天津出发,先是乘13号线到西直门,再乘环线到前门,除去西直门站如超级玛丽第二关一样的换乘外,其他还算顺利。出了前门地铁站打算找之前网上查好的公交,结果发现方圆一平方公里内散落着无数的“前门”站,想找到某路车的“前门”站是需要相当的运气的。可惜那天运气不佳,我们到底没找到事先找好的车,倒是看到另外一路到“北京南站”,大善,上车走人。此车到了“北京南站”,我们下车一看,大马路边上一个公交站牌孤零零地写着“北京南站”,周围没有任何火车站的迹象... 找到一个大妈问了问路,大妈很热情,说:“南站,啊,过前面的铁桥,到路对面向回走半公里,然后坐xx路公交再坐4站地就到了!” 我X,整个被公交晃点了,走那么远不现实,只好打车到南站。

北京南站像是外星建筑,壮观宏伟那是没得说,进入站内更是机场一般,气派非凡。想这咱就上车走人吧?别介,还得买票呢 :) 到售票处一看,傻眼了,长队和非快线火车站有过之而无不及...

不过新闻和网上时刻表都说了,京津高铁30分钟一班,排队买票就是了。刚排上的时候听到广播里面叽叽咕咕地说了一堆通知,如大妈报站,也听不太清楚。等快排到一半,才听出门道,原来是高铁车票下午三点半之前的已经统统没有,各位去天津的请另谋出路...我再X,被铁路部门晃点了...

这没办法,只好放弃了去天津的想法。这时已近中午,看到边上有一个麦当劳,吃点东西填填肚子吧。走近一看,此麦当劳乃空壳一个,还未装修,又被晃点...

三十六计走为上,我们只好出门准备打车走,结果被保安告知门口不能打车,必须下到地下二层打车专用通道,我又X... 到了地下二层,看到了壮观的排队景象:
排队过程中聊天,好几个人都是没坐上车要走的。我们被北京交通雷到了,打了辆车飞也似的逃回了老窝,白白浪费了半天多的时间。

不知道京津x分钟经济圈的圈民都是怎么搞定的,难不成都有专车接送上级送票?

2008年9月11日星期四

迷信还是科学?

小时候,老师告诉我们,迷信是不好的,科学是好的。

大了一点,发现迷信确实是不好的,看有的人把本来毫无关系的事情用牵强或是巧合的原因联系起来,并深信不疑,觉得完全不可理喻。尤其是那句“宁可信其有,不可信其无”,更觉得是屁话。

不过最近有人指出(链接网页是英文),迷信从某种程度上说是帮助人类生存的。道理也很简单,用他的例子,假设狮子来了会造成草丛刷刷响,而某个原始人错误但固执地认为刷刷响的草会带来厄运(因为草响后同伴不见了...),从此只要草响就躲起来,哪怕是风吹的,这样虽然看起来可笑,但是他可能会因此逃过一些连他也没意识到的灾难,比如被狮子吃了。

引起我最大感慨的是德国进化生物学家Wolfgang Forstmeier对此的评论:“原因和结果之间的联系往往是错误的---科学不过是专制的迷信”,这个说的真是太精彩了。科学家也是迷信者,只不过他们比较谨慎,更确切的说,是在自己所熟悉的狭小领域里面非常谨慎,离开自己的领域,再自称客观科学的人,也会陷入迷信的圈子,甚至由于他们太过自信而迷信的更执着更愚蠢

再扯一个例子,忘了在哪里看到的了。故事说的是一个女化学家去超市买东西,在买厨房清洗剂的时候,她对于那些花哨的名牌清洗剂视而不见,直接拿了最便宜最大桶的,因为她心里比谁都清楚其中起作用的不过是表面活性剂而已,所有的品牌没什么区别。当她买完清洗剂去挑猫粮的时候,却在货架中转了几圈后,还是买了一个名牌的较贵的,因为她这时只能靠价格来保持自己的信心了。

2008年9月10日星期三

分布式LDA, Latent Dirichlet Allocation for Hadoop

这几天偷闲,写了一个基于hadoop分布式计算环境和MapReduce的LDA训练程序,测试基本通过,不过有些地方效率还不好,得仔细调调。

不写不知道,自己写一下,对LDA的体会就多了一些。比如说Dirichlet先验这个事情,反映到训练过程上,就是给隐含主题和词的同现计数加上一个简单的Laplacian平滑(Laplacian平滑就是把所有值都加上一个比较小的数字然后再重新归一化)。而Gibbs Sampling有一个问题,就是每次采样都需要更新全局信息,基本没有机会做真正意义上的并行化,只能做一个Gibbs Sampling的近似。

利用MapReduce进行并行化也有一点问题,MapReduce本身的开销比较大,如果数据量不大到一定的程度,利用MapReduce是不是真得能提高速度还是个未知数。我想再写一个非MapReduce但是支持超过内存大小的Documents的版本,没准在多数情况下都比MapReduce的快。

必须声明的是,思考这个事情的过程中得到了LDA并行化大牛益哥的指导,我只是大实验一般实践一下。非MapReduce版本的LDA如果好用,可能会开源一下,等出来再说吧,哈哈。

我真是一个囧

昨天晚上请红绿总吃饭,大家聊的很开心,吃到最后结账,才发现五道口香猪坊竟然不能刷卡,我囧... 手里现金不足,最后还和红绿借了点钱,请客请到这个份上,也算是极品了吧。

ps: 试着点文章里面的链接了么?红绿的blog竟然是spaces friends only的,真是太棒了。

update: 钱已经还了,哈哈

2008年9月6日星期六

400图强帖:一个东北人镜头下真实的山东半岛

去年在威海的自行车游记竟然被人转帖到论坛上,起了个名字叫“400图强帖:一个东北人镜头下真实的山东半岛” [原地址],我汗。这位转帖的也太猛了,每个图发一个新帖,真是有专业精神,比我当时写的都累。

还是我来加个到“官方”游记的链接吧,放到右侧的连连看里面。

法律体系与机器学习

这是和mm闲扯的时候扯出来的。法律体系大概分为两种,一种叫大陆法系,另外一种叫英美法系。大陆法系重在立规矩,有一个复杂的法典试图覆盖所有情况。如果有人犯事了,就查查法典,看犯了哪一条,依照规定处理。如果找不到一条法律管这个事情,例如安乐死,就下次开会时候补一条。一般欧洲大陆都是这样,例如德国。

英美法系思路相反,不是依照规则而是依照事例。有人犯事了,先找找之前有没有类似的案子,原来怎么判现在就怎么判。如果没有呢?就按照陪审团商量的结果办,办完了以后以此为准。顾名思义,英国和美国及其殖民地一般都用这个。

这和机器学习真是有点像,基于规则的和基于样本的,基于模型的和基于统计的,生成式的和判别式的,哈哈。看来这点思路早就应用到社会中了。

昨天晚上竟然遇到了狗蛋

本来是和mm去某新落成的商场兼饭场吃饭,结果在一个饭店门口看到一有为青年,酷似狗蛋,但是联想到狗蛋还在香港读书,又不敢确认,直到狗蛋本人说xxx你都不认识我了吧才确认无疑。

这小子现在不念了闪回来参加gun和bad的创业公司,真是非常有前途。

2008年9月5日星期五

Firefox小技巧,快速进入常用网站




正在浏览网页,需要看看Gmail,怎么办?按Ctrl+T 输入m回车,完成!如果想在当前页中打开blogger,就Ctrl+L 输入b回车,完成!双手不用离开键盘去摸鼠标,几个字母进入对应网站,这是怎么做到的呢?

秘密在firefox的书签里。以Gmail为例,我先打开书签管理器添加一个书签,然后在关键词(Keywords)一栏里面输入一个m,保存走人。当在地址栏里面输入一串字母的话,它首先看看是不是和某个书签的关键词匹配,如果匹配就直接打开那个书签。当然不一定是一个字母,bib阿dict阿之类的都行。如果你是重度网络应用使用者,这是一个很爽的小技巧,不需要任何插件哦~

2008年9月4日星期四

笔记本触摸板 Touch Pad.



用了一段时间的罗技轨迹球,发现如果能两手操作鼠标,一手负责移动一手负责点击,效率会高很多。笔记本的触摸板也是,原来我都是单手用触摸板,食指移动拇指点击,感觉和鼠标的效率没法比。现在用右手食指负责移动,左手专门负责点击,效率大为提升,基本上超过了鼠标。这样用触摸板还避免了鼠标移动距离过长要拿起来的缺点。

不过话说回来,可能大家都是这么用的,就我独自土鳖了很久,惭愧.... 你是怎么用的?不如留言交流一下?

注:图片是网上搜的,不是我

2008年9月3日星期三

Google Chrome浏览器,新一代操作系统?




Google发布了Chrome浏览器 (http://www.google.com/chrome),在自己的业务链上又补上了一环。Chrome的特色主要是简洁设计、进程隔离和支持 JIT的javascript引擎V8。界面是软件给用户留下最深刻印象的地方,在最终用户面前谈内部机制都有点白扯,简洁的设计是google的特色 了,我一直最喜欢这个,让用户能够忘掉工具,关注要解决的问题本身。不过后面两条就有点意思了,进程隔离啊,JIT引擎啊,再加上Web渲染、Gears 本地数据库,进程、编译、GUI、存储、为应用优化的流程、统一的API.... 大家想起来点啥没有?这活脱脱就是一个操作系统啊,上面运行的就是可以通过网络远程分发的应用程序,我觉得Google不应该叫它Google Chrome浏览器,应该叫Google Web OS,以后大家不用再学什么.net、visual studio、GTK、QT、cocoa啥的了,直接写一个ajax应用(Google Web Toolkit啥的已经铺好路了),就可以到各个平台部署,连自动检查升级之类的全免了,世界多美好~

后面紧跟着的还有什么Canvas 3D之类,准备把硬件加速的三维图形都搞到浏览器中来,配合JIT编译的javascript,无敌了,直接部署三维网游都可以。

这里面谁不爽?微软不爽,Google如果布局推广得当,等大家享用着免费快速的Chrome,在不同的电脑上用着方便的统一帐户和Google Docs, GMail, Gtalk,玩着基于浏览器的3D网游,还有什么力量能把他们牢牢绑在windows系统上呢?

话说微软也不是低幼,下一代操作系统就已经明示是基于singularity的web os,这就看谁手快谁东西好了,哈哈。

涌现语义 emergent semantics

需要补充一下,这里讲的是指semantic web中的emergent semantics,而不是语言学中的,感谢刘贤俊博士给出的语言学方面的介绍。

首先我觉得涌现语义是大众草根现象的又一产物。

什么是涌现语义?

涌现语义和预先定义的本体(ontology)体系的关系可以粗略地类比为大众标签(folksonomy)和精心构造的人工分类之间的关系。传统 的语义互联网(Semantic Web,注意这里是SW大写,小写的话则有时暗指emergent semantics)思路可能是要建立一个统一完备的语义结构,可以标注一切联系一切,这项工作其实是非常困难的,大家愿意不愿意标注且放在其次,对语义 本身的一致认识就成问题。语义和上下文有关系,建立一个在不同的上下文中都适用的语义体系有时是很难的。涌现语义把思路变了一下,就像tagging一 样,“我不管你用什么,觉得好用就行”,这样放在语义标注者身上的枷锁和沉重思想负担就没有了,具体情况具体分析,爱怎么标就怎么标。

涌现语义的三原则

光放开手脚随便标是不行的,不同的体系之间还要交流,就像同一件事情有人叫disambiguity有人叫entity resolution,这在互相交流的时候一定要有一个统一认识,这就是涌现语义的第一个原则:协议(agreements)。不同的语义体系是靠协议来 链接起来的。由于涌现语义缺乏中央集中的调控(这也是优势之一),协议的达成就需要不同体系之间平等地商量一下怎么办,或是先参考一下有没有之前已经达成 的协议可以重新利用,这是涌现语系的第二个原则:协商(negotiation),即体系之间的交流协议来自互相的协商和承认。看到这里不禁要说,那我所 有体系都互相协商成一个大的完备的体系不更好?这是不可能做到的,协商的交流工作量很大,以至于无法达成这个目标,于是本着节约实用的原则,都是和谁打交 道就和谁协商,哪份协商的协议更实用大家就追捧哪份协议。这就是涌现语义的第三个也是关键原则:协商来自局部的交互。再解释一下就是没事不能总开全国代表 大会,开不起。

现实中的涌现语义

涌现语义我觉得基本上是一种社会现象,网络社会现象,而不是一个设计好的要大家参与的活动。一个例子是微格式(microformat),什么是微 格式?比如大家都喜欢把自己的日程安排放在网上,可是格式各异,有的是叙事语言,有的是时间在前描述在后的表格,等等。时间长了大家发现这样很不好,不能 用统一的工具来获得和融合大家的日程,于是有人提出,我们把格式统一一下,用“年月日时分秒 事件时间长度 事件描述”的形式来写日程(具体形式在这个例子中不重要),这样各种软件就可以放心方便地分析不同地方来的日程了。于是在日程规划这个小的局部,就形成了 一种小的语义标注方法体系(局部性)。如果这些人要和飞机订票的人合作,而订票软件有另外一种表示时间的格式,那总会有人出面写一些转换工具来互相转换 (协商和协议)。这些格式也不是一成不变的,比如某天有人提出咱们在每条的最后再加上一个“事件类别”吧,这样方便些等等(持续变化)。这就是涌现语义出 现的一个小例子。

参考文献

[1] Eric Meyer, Emegent Semantics, slideshows presented at SXSWi05, 2005

[2] Aberer, K. and Cudre-Mauroux, P. and Ouksel, A.M. and Catarci, T. and Hacid, M.S. and Illarramendi, A. and Kashyap, V. and Mecella, M. and Mena, E. and Neuhold, E.J. and others, Emergent semantics principles and issues, Proceedings of the 9th International Conference on Database Systems for Advanced Applications (DASFAA 2004)

网络动态性(Network Dynamics)

最近看相关文章的一个小总结

网络动态性研究,是观察网络的各种特征在不同时间上的变化情况,或是利用来自不同时间的数据来获得在单一时间内难以得到的信息。这里“网络”和“图 ”指的是同一个东西,即由节点和连接节点的边组成的结构。这些研究主要来自于物理学和社会学两个研究方向,物理学关注的是抽象网络的各种性质,而社会学更 关注社区发现和演化等与社交网络有关的内容。一些工作是实证性质的,即对来自某个具体网络的数据进行详细的统计和分析;另外一些是建模和算法性质的,提出 一些模型或是方法来解释或解决问题,并且在真实或是模拟的数据上进行检验。

在2005年之前,被关注的特征主要是网络的一些全局统计量,例如平均出入度和平均最短路径。通过考察这些统计量随时间变化的情况,研究者得到了一 些有意义的结论。例如真实世界的网络比较稳定,这得益于其层次性的结构,即大的网络是由很多小的趋于稳定的网络按照层次组织起来的[1]。另外一个和直观 相悖的结论是随着图节点数的增加:1)平均的度在增加而不是常数,2)节点之间的平均距离在减小,而不是缓慢增加[2],这是不是类似于六度空间现象?

2005年之后,一些研究者开始关注网络的结构随时间变化的情况,而不只是看全局的统计量,其中关注最多的是社区的动态性质。一般的思路是先把数据 按照滑动时间窗口组织成时间上连续的多个图,然后用比较成熟的社区发现方法,例如基于edge betweenness的方法,来发现每个图中的社区,最后利用社区之间的相似性度量和时间连续性假设(即社区变化还是需要时间的,不会突然消失掉)来分 析社区的出现、增长、合并、分裂、缩小和消失等现象。其中社区发现、子图相似性的度量等等可能使用各种不同的方法,但是总体上是差不多的。这些分析得到了 比全局统计量更有趣的结论,例如有分析指出大的社区如果组成的单位经常变化,则社区的活力会长一些;小社区则恰恰相反,组成单位的变化会加速其消亡 [3]。做个直观的解释:大社区如解放军,“铁打的营盘流水的兵”,大家不是靠个人关系聚集的,而是靠严格的纪律和共同的目标,这样的社区要比靠脸熟形成 的社区,如梁山泊一百单八将,要稳定的多;小社区如宿舍好友打牌四人组,任何人员上的变动都会让这个组织迅速的消失,因为脸熟是维系这个小社区的关键力 量。另外有人提出来研究的单位可以比单独的节点或是边来得更大,先找到不同时间点上的所有子图,再根据时间上的连续性把不同时间上的相似子图(往往就是相 同的,例如01年的中国足球队和02年的中国足球队,例子是我举的)串起来形成元子图(meta group),转而研究元子图之间的关系[4]。

社区发现,或叫做层次分割,或叫做层次聚类,是探索大规模网络内部结构的必由之路。另外一些研究就关注于如何利用动态性也就是时间信息来辅助社区发 现,或是让社区发现的算法能更好地应对高度动态的数据。来自物理学的研究者善于用物理现象来类比解决社区发现的问题。一个方法是把网络中的每个节点都想像 成相振荡器(phase oscillator,例如单摆就是一个简单的振荡器),把节点之间的边想像为连接振荡器的物体,那么根据我们高中学过的多个不同频率的单摆在连接在一起 的时候会发生同步这一物理规律,我们可以想像网络中相近的节点震荡频率会趋于一致,而没什么关系的节点之间震荡频率会有区别,通过考察稳定后节点震荡频率 的不同,就能把网络划分成不同的社区[5]。这个方法可以看作是用一个动态的模拟来发现网络的结构。另外一个类似思路的方法是把每个节点想像成一个小球, 把节点之间的边想像成弹簧,那么这一团由弹簧连接的小球在稳定不动后就会自然地形成不同社区在一起的结构[6]。之前在用cytoscape这个网络数据 查看软件的时候,就有Spring Layout这种观看模式,和这个思路应该是一样的。这种弹簧模型还有一个好处,就是如果有一个新的节点或是边到来,不用重新计算所有的数据,只要让加入 了新节点的一团弹簧再动动,稳定之后就是新的结果。也就是说这种方法能够应对动态变化的数据,而传统的基于edge betweeness的方法则需要每次都重新计算所有数据,不能适应动态数据分析的要求。

对于在网络上的意见传播,还有一类以Opinion Changing Rate(OCR)模型为代表的模型[7],来模拟在每个节点接受新事物能力有不同的情况下,一个意见能不能在整个网络上达成一致和这个过程需要多长的时间,这很偏向于社会学的研究。

值得一提的是数学家在很早之前就对时间相关的随机现象有了很多的研究,一般被称作时间序列分析,在这个领域内时间序列数据被看作是随机过程的一个实 现,大量随机过程的工具被用于这方面的研究。时间序列分析最初可能主要是由经济学研究驱动的,这方面了解不深。从实际的论文和方法来看,把相关数学工具用 于网络动态性研究的非常少,可能也与对数学知识要求过高有关。

话题转回语言分析,看看网络动态性研究能为语言分析提供怎样的帮助。首先语言中网络无处不在,从字、词的搭配网络,到词语之间的相关性网络,不一而 足。语言的变化虽然不及人际关系的变化快(世态炎凉人心难测),但也是在积极地演进着。例如对从小学到高三的语文课本内容的词搭配进行分析,也许可以看到 不同教育时期语文重点的变化,进而考察出这些重点和这种变化是不是清晰正确地反应了教学的需求。再例如对有准确时间标签的新闻或博客文章中的用词搭配进行 分析,也许能发现不同时期不同事件在话题上影响的变迁,或是新词汇的产生,或是旧词新意的分离或消亡(例如“小姐[年轻女性或妓女]”和“分配[分发或是 安排工作]”)。又例如对不同时代古诗中字的关系进行分析,是不是能看到诗词用语的演化规律?

[1] EA Variano, JH McCoy, H Lipson, networks dynamics and modularity, Physical Review Letters, 2004
[2] J. Leskovec, J. Kleinberg and C. Faloutsos, Graphs over Time: Densification Laws, Shrinking Diameters and Possible Explanations, In Proc. of KDD’05, 2005
[3] G Palla, AL Barabasi, T Vicsek, Quantifying social group evolution, Nature 446, 664 - 667 (05 Apr 2007) Letter
[4] TY Berger-Wolf, J Saia, a framework for analysis of dynamic social networks, in Proceedings of the 12th ACM SIGKDD international conference, 2006
[5] Boccaletti, S. and Ivanchenko, M. and Latora, V. and Pluchino, A. and Rapisarda, A., Detecting complex network modularity by dynamical clustering, PHYSICAL REVIEW E, vol 75, 2007
[6] Yang, B. and Liu, D.Y., Incremental Algorithm for Detecting Community Structure in Dynamic Networks, Proceedings of 2005 International Conference on Machine Learning and Cybernetics, volume 4, 2005
[7] Pluchino, A. and Boccaletti, S. and Latora, V. and Rapisarda, A., Opinion dynamics and synchronization in a network of scientific collaborations, Physica A: Statistical Mechanics and its Applications, volume 372, number 2, pp 316–325, 2006

听报告的体会,如何写博士论文

今天听了热能系主任姚强教授的报告《从学位论文的评审说起:谈如何撰写博士学位论文》,感觉还是有些收获。这个报告是即将毕业正在写论文的博士生必 须参加的活动,我实际是去蹭听的。他讲的很多重点内容孙老师已经反复和我们说过了,例如选题、实验、写作中的问题和学术道德的内容,所以我记得也不全,把 自己的笔记和体会整理一下,供大家参考吧

评审和导师先说的是评审和导师。在写论 文的时候不能把评审者当成是专家,应当首先把他们看作是普通的读者。专家也不是所有领域的专家,尤其是在评审强调创新性的学术论文时,他们是不可能对论文 的所有内容都非常了解的,要是这样论文就没意义了。姚老师描述了很多评审人的行为特点,我用一系列词总结一下:普通读者、大忙人、总是持批判的眼光。评审 人一篇博士论文一般读三十分钟,看的顺序一般是:作者和导师的学术地位、摘要、参考文献的质量、目录的结构、最熟悉的一部分内容、小结和总结、实验的设置 和图表的质量。一个tip是做综述的时候不能只看国外的文章,也要引用国内同行的相应工作,原因很简单:这个同行很可能就是评审你论文的人….

评审人的角度一般是:选题意义,创造性,专业基础知识,写作与总结。这里一个引起我思考的重要观点是博士论文不仅仅是一篇好论文,也要能够反映出 作者在这个领域的广泛了解和扎实的基础知识。如果论文创新点很好,工作很有意义,但是不能反映出作者的专业基础知识情况,可能也是会受到质疑的。其中有一 句话说的不错,自己应该是论文所涉及的这个领域的专家,甚至要比导师和所有评审人对这个具体领域的了解和见解都深才行。

另外一个不好的现象是做的工作都想放在博士论文里面,觉得不放”亏了”。如果把关系不大的工作堆砌在里面的话,反而降低博士论文的质量,或是在答辩的时候受到质疑。

中间插个题外话,姚老师提到研究小组的seminar是个很重要的交流机会,有时候到了工作岗位,可能研究的主要内容都用不到,但是seminar上从其他同学那里得来的知识却经常能派上用场。所以认真参加seminar吧!

思考你的论文:学术价值

先考虑的应该是学术价值。一个有趣的现象是最初选题和最后写论文时相比,有至少一半的人都发现自己的目标和观点有变化,很少有完全一致的(完全一致 说明这很可能是低水平的研究)。博士论文的创新性最重要,如果这个不行,就直接被击毙没有翻身的希望了。两个不好的例子,一是”用了一个创新的方法,但是 性能并不比旧方法好”,二是”写了很多很好,但是和申请的学位学科关系不大”,都很容易被击毙,他还举了真实的例子。

文献综述

文献综述篇幅很大,要注意的是综述要和研究有关,”不必事事从开天辟地说起”,主要目的是引导读者意识到你工作的重要性,要带着改进和批判的态度 写,不能一味说别人方法怎么怎么好,最后又说自己方法怎么怎么好,完全没有关系。不能做的事情包括在介绍引文工作的时候回避冲突,或是蓄意选择性地引述。 不必读所有文献,多读外文期刊,现在论文垃圾很多,要学会判断垃圾。引文的时候要注意引用原创工作,而不是后人的转述或是补充。姚老师给了一个文献综述写 作的方法与步骤:概括,摘要,批判,建议。

另外提到了一下关于研究步骤的两个争论派别。一派认为应该先不看任何文献,自己尽量独立思考,这样有助于摆脱现有研究带来的惯性思维,等思路明确了 再全面地读文章;另外一派认为应该先通读前人工作,才能开始研究。好像这两派争论很多的样子。不过我觉得一个可以借鉴的思路是不必强求”读全”,有想法的 时候立刻开始思考,如果实验简单易行就立刻开始实验,当有进一步思考的时候再仔细地进行文献综述,反思自己思路和前人有什么异同。

方法、实验与模型

主要是讲描述方法的时候要注意科学研究最重要的两点:独立验证和可重复性。可以利用的方法包括显著检验,双盲测试之类。方法描述要有特异性,可操作 性,不能含糊和说一些无信息量的”套话”。姚老师感慨说模型和假设很容易是错的,如果粗心的话很容易落到错误结果中还浑然不知,一定需要严谨的验证,例如 benchmark。

这个我们应该有体会,例如我和yaya重复redgreen的实验,非常容易出错,如果没有大百科数据集合和一个F值作为benchmark来不断 检验,很可能就会做出一个错误的版本却完全不知情。这种有benchmark的还好,如果是创新的没有成熟的检验方法的,那风险就更高了。

结果的表示与分析

不能堆砌实验表格和数据而没有分析,也不能在文中提到任何没有数据支撑的”想当然”结论。

发表论文

Ph.D != paper maker。他提到国内有些论文浮躁的气氛,尽量都想多发,但这样实际是不好的,降低了文章的质量和深度。

最后还有一句话我觉得挺好的:一流大学不是满足社会需求,而是引领社会需求。
就这些了,还有记得的一些参考书,好像都挺不错的,很多观点和句子都引自这几本:
[1] 朱青生,《十九札》
[2] 毕恒达《教授为什么没告诉我——论文写作枕边书》
[3] on being a scientist,这是一篇杂志文章

palmtx和iphone



同组的同学买了一只iphone,可以好好把玩一下了。原来我很想要一个iphone,觉得从反应速度到界面都很赞。不过这次仔细用了一下后,发现 iphone并不像想像中那样吸引人,虽然功能跟赞,但是想代替掌上电脑的话,还是有点距离。掌上设备可以干什么?对我来说,主要是如下几条

  1. 做任务列表和日历,管理工作和行程
  2. 记笔记
  3. 看电子书
  4. 上网收信看新闻
  5. 看pdf论文
  6. 其他词典啊计算器啊看照片啊看电影啊之类的小功能

我的palmtx,图中左边这只,屏幕分辨率和iphone一样,这些功能完成的很出色(除了pdf文件显示每页的时候有点慢)。iphone主要 是中文输入和信息管理功能上比较弱,如做笔记和看电子书这两大重要功能,palmtx可以直接编辑SD卡上的txt文件,所以和电脑交互很方 便,iphone不知道,据我多年用苹果机的经验,应该是不那么容易,得通过itunes之类。

其实主要问题还是iphone的开发不公开。如果允许任何人方便地开发iphone软件并且发布,那么这些功能都是小意思,现在苹果对iphone 软件开发的限制实在是给iphone套上了枷锁。别和我提iphone SDK,用这个写完了是不能直接放iphone上的,得花钱从苹果拿到一个许可才行。

说说开发难度,我觉得palm是谁都可以开发,也不要序号之类,但是开发难度非常大,真的很大,想像一下内存还有分页限制……iphone和 android和windows mobile之类后起的系统开发难度都小很多,不过iphone要钱,winmo慢(真的慢),android还不见实机,现阶段不到两千块的 palmtx还真是一个不错的随身伴侣,哈哈。(附图是palmtx/iphone排排坐)

《美丽与美妙,你们是伙伴》 mm原创的一篇文章,看了很感动

美丽与美妙,你们是伙伴

——张昕姐姐致两位孩子的一封信

美丽、美妙:

辛苦了!

最近发生的一系列事情让你们受委屈了。

当 还沉浸在那历史性的一夜带给我的骄傲与震撼时,听到这个消息,姐姐很震惊、很紧张也很害怕。至今姐姐仍然不相信它是真实的。但不论事件真实与否,不论这是 不是那位陈叔叔的一句梦呓,网络社会也已把你们卷入了这场被哄嚷得满球风雨的事件。你们被无辜的伤害。有些喜爱你们的人也因错误的爱,伤害了你们。你们的 爸爸妈妈、和你们一样正在单纯的成长的孩子、以及我们的国人都一起被伤害了,这中间也包括我。

你们没有错,你们尽自己最大的努力完美的完成了自己的任务,你们的同胞们因你们而感到振奋。你们要记住你们是一对伙伴,你们手牵手代表了祖国的未来。

美丽,你知道吗?在那一刻,你的小小的美丽的身影、甜美的笑容,让所有看到的人都感到有一阵电流从眼里激荡到心里,你的同胞们因你的身影、你的笑容而感到穿越了五千年的长河后扬眉吐气了、感到生活开始朝气蓬勃了。美丽,姐姐和你的同胞都为你骄傲,都因你而为祖国骄傲。

美 妙,你知道吗?在那一刻,美妙的歌声让我们感到传在耳里记在心间,那来自纯真心灵的歌声净化了聆听者的灵魂。无论此事是真是假,无论那声音是否来自于你, 姐姐要告诉你,你的歌声就是如此的撼人心脾,你的歌声会让聆听者感觉置身红尘之外,感觉仿佛看到了一轮新生的太阳。美妙,姐姐和你的同胞们都为你自豪,都 因你而为祖国自豪。

在 人生的路上,你们刚刚迈出第一步,在这个时候发生这件事,看起来对你们确实太不公平了,但是你的同胞、伙伴和亲人会一直支持你们、保护你们,让你们和小朋 友们一样健康的成长。这场风波也是你们人生第一笔宝贵的财富,虽然残酷,但你们从中会收获什么是爱、什么是宽容、什么是真诚。

美丽、美妙,现在的你们一定学会了感动,那掌声与欢呼、那一双双充满希望的眼睛是对你们的认可与喜爱;现在的你们一定学会了宽容,原谅那些无意于伤害你们的叔叔阿姨,重压之下他们也想做到最好;现在的你们一定学会了真诚,懂得了只有真诚才能带来真正的完美。

这场风波也是我们所有国人的一笔宝贵财富,让我们这些成年人思考为什么会有这件事,我们该怎样去化解这些质疑——世界质疑中国的诚信、质疑这无法超越的历史时刻是用虚假完成的完美、质疑举国之力支付不起说明情况的字幕,我们成年人要思考的是怎样让这样的伤害不再发生。

有 些成年人是这样想的,姐姐不妨告诉你们:那夜,美丽站在舞台上全力表演的时候,在按捺着自己的声音,想“难道我的声音真的就不美妙,也许叔叔说的对”,带 给同胞们惊喜的一刻,她的心灵里带着泪水;那夜,美妙的声音响彻中华大地的时候,看到美丽站在舞台上,想“难道我的面庞真的就不美丽,也许叔叔说的对”, 带给同胞们振奋的一刻,她的心灵里带着嘶哑。

但是,你们更要知道,美丽与美妙,你们手牵着手是那么的璀璨,你们表现的那么阳光、那么坚强,完全不像大家的想象。你们是,也应该是,一对最真挚的伙伴,你们共同用心灵的阳光告诉我们什么才是生活的精彩。

美丽、美妙,谢谢你们!

此致,

祝你们健康成长!

张昕姐姐

2008815

神奇的罗技轨迹球 Marble Mouse




前几天在办公室搞来一个轨迹球,话说我还是在小时候听过这东西,从来没用过实物。这个罗技的Marble Mouse像个独眼的外星大蜻蜓头... 用起来手感还不错,用手指摸摸那个红色眼珠就是鼠标了。

不过用了一段时间,感觉最不爽的有两点,一是没有滚轮,极其不便,二是拇指单击的时候手会抖动,影响点击精度。滚轮的事情可能是设计这个轨迹球的时候滚轮 还没推广,罗技号称有一个web surf软件,装上了就能部分达到滚轮效果,但是我机器是linux,没戏了。点击的事情比较要命,我觉得最好的方法应该是左手负责鼠标键,右手完全用于 滚动定位。插了第二只鼠标实践了一下双手操作,确实比单手好很多,定位超准,可惜第二只鼠标本身会移动,点起来还不能不管不顾。

总结,这玩意很好玩,如果有滚轮和外置鼠标键,就无敌了。