第154章 步步紧逼的追赶者(上)
这种坏坏的想法就不足为外人道了。 有如此相像的姐妹。 确实有点出乎林灰的意料。 伊芙·卡莉笑着对林灰介绍道:“你是不是把我们搞混了? 这位是我的双胞胎妹妹——米娜·卡莉,你可以叫她米娜。” 之后伊芙·卡莉又向米娜·卡莉介绍到:“这位就是LINHUI先生,先前我给你提到过。” 言毕,伊芙·卡莉从包里取出了一副眼镜戴上,似乎是为了方便林灰区分。 其实没啥必要,除了刚刚见到这对姐妹那会林灰有点懵逼之外。 此时林灰已然能够分得清谁是谁了。 即便是长相再相似,不同的成长环境培养出来的气质完全是两回事。 这种气质上的区别足够林灰将二人区分开了。 除了气质之外,其实两姐妹还是有点小区别的。 比如说两个人身上的香水味不一样; 再比如说……2 说起来这点可能是人跟计算机很大的不同了。 长相如此接近的一对双胞胎让计算机或者说机器区分的话,其实是很难的。 纵然是号称绝无差错的步态分析,其实也会有出错的时候。 相比于机器学习各种程序算法。 人脑的识别看似不成章法,但偏偏就效率奇高。 这背后的一切着实让机器学习方面的研究人员好奇…… …… 在伊芙·卡莉的引见之后。 林灰再次和米娜·卡莉打了招呼: “你好,我就是林灰,刚才真的很不好意思,不小心把你和你的姐姐搞混了。” 米娜·卡莉道:“没事的,我和我的姐姐在成年以前几乎都在一起生活,很多人都会把我们搞混。” 米娜·卡莉说得不是英语,而是字正腔圆的普通话。 这让林灰很意外,林灰道:“你会讲中文啊?厉害了。” 米娜·卡莉不以为然,反问道:“你不也会讲英语吗?” 林灰:“不一样哦,对于非母语者来说,中文可是要比英语难学很多。” 对于这点米娜·卡莉表示了认同:“汉语确实要比英语难学很多。 不过你应该也知道一句话,兴趣是最好的老师。 华國是一个古老但又日久弥新的国度,这样的国度自然很让人着迷。 我第一次接触就爱上了这个国家的文化…… 当时我特别痴迷于唐诗。 在兴趣的驱使下我开始了对中文的自学。” 这份痴迷林灰并不意外。 一时之间林灰又想到了因为RR这款游戏而努力学中文的大卫·杨。 林灰:“你是自学的啊? 只听你说话的口音,我还以为你在华國呆了很多年了呢。” 米娜·卡莉:“多谢夸奖,也不完全是自学。 我是在哈佛大学的时候,研究方向是东/亚语言。 最近在中國水木大学做访问学者……”2 访问学者? 林灰印象中访问学者好像都是博士级别的? 诚然如此的话,那么这对姐妹还真是。 都是学霸基因啊。 一个语言学方面的博士,一个是计算机方面的博士。 强,无敌。 说到米娜,林灰虽然是第一次跟她打交道。 但总的来说相处还算不错。 米娜让人觉得没距离感那种。 林灰记得从哪本杂志上看到过一篇分析双胞胎性格的报道说双胞胎姐妹性格往往迥异: 一般来说,姐姐性格性格更活泼,而妹妹性格更内向。 这种情况显然不太适合伊芙·卡莉和米娜·卡莉两姐妹。 米娜·卡莉虽然是妹妹,但性格明显要比伊芙·卡莉外向得多。 林灰才跟米娜·卡莉寒暄没几句,米娜·卡莉就打开了话匣子。 林灰乐得如此,要是伊芙·卡莉上来就跟林灰探讨各种专业话题。 林灰还真不知道从何说起。 三个人一边说话一边朝着机场外走去。 一路上不时引得行人注目。 也可以理解,帅哥和美女的组合本就很吸睛。 从小帅到大的林灰对这些已然见怪不怪了。 通过交谈林灰知道麻省理工的学术访问团已经到达水木大学了。 事实上麻省理工的这个学术访问团。 此次造访华国为的就是林灰。 但是出于一些表面上的礼仪。 此时麻省理工的代表团仍然要在水木参加学术会议。 伊芙·卡莉是因为内心之中强烈的好奇才暂时脱离了队伍。 先行一步赶到了北域市。 而米娜·卡莉之所以和伊芙·卡莉同行是为了充当临时翻译。 麻省理工此次对水木学术访问是有随行翻译的。 不过翻译目前还要跟随麻省理工学院的访问队伍参加各种学术会议。 林灰虽然会英语,但这仅仅限于正常的交流用。 涉及到学术上的交流,林灰现在的英语水平确实不够看。 光顾着期待和伊芙·卡莉的见面却没考虑到和伊芙·卡莉会面时的交流问题。 这的确是林灰的疏忽。 不过伊芙·卡莉的做法,林灰同样不觉得怎么靠谱。 找个米娜·卡莉这样全然没有相应学术背景的人来充当翻译? 林灰很怀疑米娜·卡莉能否胜任翻译工作。 倒不是林灰蔑视人。 但毕竟隔行如隔山。 举个例子,比如说“感受野” 土生土长的本国人。 不是专业相关的第一次看到这样的词汇十有八九也是一脸懵逼两脸茫然。 更何况是歪果仁了。 林灰很怀疑米娜·卡莉这样的翻译是否可靠。 不过林灰也不好在翻译还没正式开始之前就质疑米娜·卡莉的专业性。 恰在此时,伊芙·卡莉向林灰建议要林灰再找一个翻译,这样就可以直接同声传译了。 所谓的同声传译,是指翻译人员在不打断交流者谈话的时候进行翻译同传工作,这样能使交流的效率大大提高。 不得不说,这样的建议确实不错。 不然的话即便米娜·卡莉能够胜任翻译工作。 林灰和伊芙间隔交流的话沟通效率也不会很高。 不过林灰该去哪找个翻译呢? 而且是需要既有计算机背景又能胜任翻译工作的人。 林灰一下子就想到了黄静。 林灰记得黄静可是南加大的硕士。 这样的学位充当一下计算机方面的翻译似乎问题不大。 林灰通过电话试探地询问了黄静的意见。 黄静等待林灰的召唤似乎等了很久了。 根本没等林灰细说。 几乎不假思索就答应了林灰的请求。 …… 伊芙·卡莉和米娜·卡莉在酒店安顿下来之后。 大概23号下午三点左右。 四人展开了学术上的讨论。 当然主要是林灰和伊芙·卡莉进行讨论。 这次的讨论的性质有点类似于一个小型的座谈会或者说一次头脑风暴。wap. 这次见面的地点并不是在公开场合,而是在状元学府1号楼的601。 这个地方是前不久林灰在表彰大会上获奖的那套商品房。 在表彰大会上获得的150万现金。 林灰没有留着,直接给父母了。 林灰不想父母那么辛苦。 而且林灰父母做的生意还是很需要现金的。 这套房子林灰原本也打算让给父母的,不过林父林母拒绝了。 林灰家里也不算缺房子住。 林灰也没坚持,这套房子索性他自己就留着了。 说起来林灰还是第一次来这个地方。 一百三十多平的带装房。 这年头房子基本都差不多,布局什么的照往后几年的还差点。 当然了,林灰是作为奖品获得的这套房子。 他似乎还没有挑挑拣拣的余地。 状元学府这边地方还不错。 在北域城西这边的老城,虽然离三小和九中都不远。 但此处闹中取静,别有一番风味。 距离此处不远是一个新落成的人工湖。 风景还算不错。 环境相对来说也比较安静。 正是因为这些原因,林灰才将这个地方选择作为洽谈地点。 环境安静的话比较有利于深度思考。 谈论开始了,伊芙·卡莉先是跟林灰介绍了她在研究中遇到的诸多难处。 事实上这些东西林灰记得伊芙·卡莉在先前发来的邮件中就已经阐述过了。 只不过现在阐述地更加详细了。 林灰耐心地听着。 林先前担心地似乎有点多余。 米娜·卡莉虽然不是从事过相关专业的。 但到底是姐妹情深,伊芙·卡莉在表述的时候都是用尽可能通俗易懂的语言。 尽量照顾着米娜的感受。 甚至有些时候林灰都能直接听懂伊芙·卡莉所表达的内容。 尽管如此,林灰依然没丢掉翻译(黄静)跟伊芙·卡莉沟通。 有些大牛明明自己会英文。 为什么涉及到一些重要场合仍然要带翻译呢? 翻译不完全是为了翻译本身。 更多是为了一定的容错性。 虽然涉及到文本摘要这种东西林灰都是相当熟悉不过的,很少出现错误。 但毕竟两个时空是有些区别的。 林灰不小心表暴露了什么岂不尴尬。 在常人面前如果林灰不小心暴露了什么专业上的马脚可能很难被发现。 如果是直接同伊芙·卡莉交流的话。 面对着一个同行直接交谈的话,林灰并不能保证不会露出马脚。 有翻译在的话,多多少少多了一层缓冲。 尽管如此,林灰说话依旧要慎之又慎。 伊芙·卡莉向林灰着重介绍了这个时空里人们是如何评估文本相似度的。 按照伊芙卡莉的表述,林灰才知道。 原来此时这个时空的人们主要是利用基于知识库的方法来计算语义文本相似度的。 不过这个时空人们主要是利用基于网络知识的方法来计算的。 林灰知道这种方法的。 这类方法是基于知识库计算相似度的一种。 这种方法主要利用网络大型知识库资源,如Wiki百科和摆渡百科等。 通过网页内容和网页间的超链接进行相似度计算。 随着互联网的快速发展,网络知识愈加丰富。 能够充分利用网络中的资源进行语义文本相似度计算自然是一个不错的思路。 不过基于知识库的方法来计算语义文本相似度可不只是这一种方法。 据林灰所知基于知识库的语义文本相似度计算方法根据知识库的类型其实是可以分为两大类。 除了基于网络知识方法的话。 还有一类是基于本体的方法。 这类方法运用结构化语义词典进行计算。 其基本思想就是运用这些语义词典中包含的概念信息和概念间的层次关系进行语义文本相似度计算。 按理说既然想到了基于知识库的语义文本相似度计算方法的话应该首先想到基于本体的相似度计算方法才对才对啊。 为什么没先想到基于本体的方法? 反而先想到了基于网络知识的方法? 回想起伊芙先前的自我介绍,林灰恍然大悟。 伊芙的团队没想到这种方法也可以理解。 毕竟伊芙他们的团队原本是和谷/歌方面深度合作的。 基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。 但谷/歌的老本行PageRank算法引入到NLP领域后实现的功能本就跟这个差不多。 这样看来,和谷/歌方面的团队有过深度合作关系的伊芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。 说起来基于网络知识方法计算相似度实现起来并不容易。 毕竟网页中知识颗粒度较粗。 说白了就是网页中有用的东西少。 加之部分网页的知识结构化程度较低。 如果直接对所有的网页链接进行分析,会导致知识含量稀疏、计算困难等问题。 因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。 什么样的网页具有这一特征呢? Wiki百科和摆渡百科。 只有这两个对应的网页同时具备网页结构程度化高以及网页中有用的东西多这两点。 也正因为如此,林灰记得前世搞/基于网络知识的文本相似度识别的主要就是谷/歌和摆渡两家。 说起来某度能长期居于B/AT之首还是有些实力的。 至少不像外人以为的那般花架子。 伊芙·卡莉之后又详细地介绍了一些基于网页知识文本识别度的内容。 之所以详细介绍这方面的东西。 林灰知道的,伊芙·卡莉其实还是好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的? 林灰没有直接回答。 而是反问道:“关于使用向量介入进行语义文本相似度计算你怎么看?”猪熊的穿越:2014