第155章步步紧逼的追赶者(中)

    米娜·卡莉对中國还算熟悉。

    但伊芙·卡莉还是第一次来到这个古老的东方国度。

    这一路上的经历对她来说就是一次新奇的探险。

    尽管妹妹就在帝都，但她几乎从未设想过要来中國。

    此次之所以成行造访中國还是因为埃瓦尔德·切瑞的建议。

    当然，这只是一方面原因。

    另一方面是因为林灰在北域，这才是她来到中國最重要的原因。

    她迫不及待地想和这位构建出生成式摘要算法的超级天才见面。

    飞抵帝都国际机场之后，经过了一系列必不可少的入境流程之后。

    伊芙·卡莉几乎片刻也没在帝都逗留，跟米娜·卡莉会合之后二人就乘机直抵北域。

    而按照水木和麻省理工方面先前协商安排好的流程。

    在23号到25号这三天，六场学术座谈会原本是有三场学术座谈会都是需要伊芙·卡莉列席参加的。

    但伊芙·卡莉满脑子都是林灰，浑然没什么参加学术会议的兴致。

    因此这些学术会议全都被伊芙·卡莉以生病作为借口而推脱了。

    林灰，这么一个远在万里之外的陌生人值得让伊芙·卡莉这么激动么？

    当然值得，不是相关领域的研究人员很难领略到林灰先前提出的生成式摘要算法意味着什么。

    正如埃瓦尔德·切瑞先前说的那样：

    “LINHUI的出现就像是幽暗而又夐远的莽原上突然出现的一束耀眼的光。

    在自然语言处理文本摘要这个细分领域，无论怎样褒扬他都不算过分。”

    这种说法毫不夸张。

    作为文本摘要领域顶尖研究小组的负责人。

    伊芙·卡莉很清楚之所以她们没能先LINHUI一步搞出生成式摘要算法。

    不是因为他们不努力。

    而是因为现有的自然语言处理涉及到文本摘要这方面的研究很大程度是走到了死胡同。

    在这种情况下，别的算法团队如果是按照他们的研究思路。

    即便是将他们超越也不可能将他们超越太多。

    而林灰提出的生成式文本摘要算法却轻而易举的碾压他们先前的研究成果。

    这意味着什么不言而喻。

    对于自然语言处理这方面的研究人员来说林灰提出生成式摘要算法最大的意义不在于这个算法本身的价值如何如何。

    而在于林灰大概率是在自然语言处理这方面新打开了一扇门。

    正因为如此，林灰在生成式文本摘要算法上的研究成果才会受到麻省理工学院的高度重视。

    同样是因为如此，先前她发给林灰请求见上一面的邮件得到林灰的同意之后她才会那么开心。

    她似乎听到林灰在向她发出呼唤：“通往全新世界的大门就在那里，你渴望推开那扇门么？”

    虽然这种感觉是伊芙·卡莉的脑补，但即便有一丝一毫这种可能，伊芙·卡莉也不会放弃。

    科学领域上能够推开一扇新的门，这意味着什么呢？

    意味着这是一件极有可能载入科学发展史册的事情！

    像伊芙·卡莉这种层次的科研人员对金钱这样的“利”感觉可能一般般。

    但对于能够载入科学发展史册的“名”却不是所有人能都够坦然自若的说“不”。

    反正伊芙·卡莉感觉她面对这样的机会是丝毫不能抗拒。

    虽然心中充满了美好的愿景。

    但在和林灰会面之前伊芙·卡莉心情也不完全是激动。

    伊芙·卡莉还隐隐约约有一丝担心。

    她很担心她跟林灰的见面并不像想象中的那么顺利。

    因为没见到林灰的时候。

    伊芙·卡莉已然知道了林灰是个年仅十八岁的天才。

    少年成名的天才固然很让人仰望。

    但并不是所有人都希望身边有一个这样的天才。

    伊芙·卡莉以前没少见过年少成名的天才。

    毕竟计算机以及计算机衍生领域最不缺的就是天才。

    因为经常邂逅天才。

    伊芙·卡莉的脑海中对这种年少成名的天才多多少少都有点刻板印象。

    基于这些刻板的印象。

    伊芙·卡莉虽然对林灰有过很多种种设想。

    但这些设想基本离不开年轻、聪明、狂傲、偏激、自大、出言无状、轻慢之类的标签。

    不过纵然料想林灰可能会有很多缺点。

    伊芙·卡莉的内心深处已然做好了容忍林灰狂傲、偏激、自大等缺点的准备。

    毕竟她是怀着学习的心态才来到这个东方国度的。

    在跟林灰见面之前，伊芙·卡莉对跟林灰将要发生的交流唯一的期盼就是：

    ——除却收获到无理的冒犯之外，多多少少能获得一些学术方面有价值的信息。

    等真的见到林灰之后，她才发现她先前的想法多多少少有点跑偏。

    林灰确实很年轻很聪明。

    但全然没有她先前她设想的那般狂傲、偏激、自大。

    非但没有她先前设想的那般狂傲偏激自大。

    林灰人很帅，性格很好，谦虚儒雅，言谈举止间还很照顾别人的感受，给人很舒服的感觉。

    除了性格和煦之外，林灰在待人接物方面还很周到。

    此次进行交流的公寓楼，虽然不甚华丽，但胜在环境优美。

    最妙的是距离此处不远还有一个人工湖，这和伊芙·卡莉以前工作的地方多多少少有些相似。

    而且这次学术交流的形式和伊芙·卡莉以前团队交流的方式很相似。

    几个志趣爱好相同的人聚在一起，以闲谈的形式展开。

    这一切让伊芙·卡莉在异国他乡收获到了一份难得的亲切感。

    这些周到的安排让伊芙·卡莉受宠若惊。

    除却这些，伊芙·卡莉最在乎的还是林灰在学术上的态度。

    而最让伊芙·卡莉意外的也是林灰在学术上的态度。

    虽然林灰在研究成果上领先别人一大截，但林灰在学术上全然没有学阀的架子。

    林灰很擅长倾听。

    这是一件极其难得的事情。

    在自然语言处理专家学者里面找一位擅于倾听的专家似乎比在地球上找一只大熊猫还要难。

    很多自然语言处理的专家学者都是计算机从业人员出身。

    在伊芙·卡莉印象中，这类人员向来都是自顾自的表达，最不擅长的就是倾听。

    或许并非不擅长倾听，只是单纯的不喜欢倾听。

    似乎倾听别人的思维路线和研究现状很容易让他们想起早年debug时的痛苦经历一般。

    但在林灰这里情况却很不一样，林灰很善于倾听。

    在座谈会刚一开始的时候，原本伊芙·卡莉是打算让林灰先发表意见。

    结果却被林灰示意让她先说，这让伊芙·卡莉很不适应。

    一时半会她竟不知道该说什么好，只能将前不久她发给林灰的邮件再次详细地加以阐述。

    伊芙·卡莉之所以介绍这方面，除了想不到合适的话题切入点这个原因之外。

    还有另一重原因，那就是伊芙·卡莉很好奇林灰在LH文本摘要模型的构建时究竟是如何评估文本相似度的。

    但这个问题伊芙·卡莉也不好意思直接问，只好旁敲侧击。

    刚开始表述的时候伊芙·卡莉还有点紧张，很怕赘述邮件上重复的内容引起林灰的不满。

    但林灰似乎毫不介意，就那样认真地听她陈述。

    林灰这种态度让伊芙·卡莉没那么紧张了。

    在陈述的时候，伊芙·卡莉注意到一个小细节：

    在机场往回来的路上，当她向林灰建议找个翻译进行同传的时候林灰几乎不假思索就同意了。

    但在实际沟通的时候，伊芙·卡莉从林灰的一些反应判断出林灰其实是能直接听懂她所表达的内容的。

    既然如此，林灰当初为什么还答应她的请求？

    而不是直接丢掉翻译跟她沟通呢？

    或许这一切都是为了给予对等的尊重吧！

    这份对等的尊重不光是给予伊芙·卡莉的，主要是给予米娜·卡莉的。

    试想一下，如果林灰压根不需要翻译就能和伊芙·卡莉交谈。

    似乎最尴尬要数跟伊芙·卡莉一块同行的米娜·卡莉了。

    一个男人能够做到这份细心确实不容易。

    伊芙·卡莉对林灰的好感增添了零点几个百分点。

    妹妹似乎也注意到林灰在同传方面这个善解人意的做法了。

    伊芙·卡莉注意到米娜·卡莉有意无意地不知道撩动过几回头发了。

    当然米娜的示好也可能仅仅是因为林灰的颜值。

    按理说东方男性的外貌在西方人眼里是很难区分的。

    但人帅到一定程度是超越地域局限的。1

    林灰似乎就是这种情况，哪怕以最苛刻的审美体系来评判，林灰的颜值也能打99分，满分10分。

    第一眼看到林灰时，如果不是林灰主动表露身份，伊芙·卡莉甚至觉得林灰的身份会是一个模特。

    当然这些都是题外话了。

    注意到林灰在细节方面有意无意释放的善意之后。

    伊芙·卡莉在进行陈述的时候彻底放松了下来。

    在向林灰着重介绍了这个时空里人们是如何评估文本相似度的。

    伊芙·卡莉注意到林灰听说她的团队先前是利用基于网络知识的方法来评估文本相似度时眉毛蹙了一下。

    莫非是林灰并不认同基于网络知识评估文本相似度的方法？

    还是说林灰觉得有什么方法比这种方法更好呢？

    伊芙·卡莉默默将这件事记在心里。

    在伊芙·卡莉陈述完成后。

    林灰领略到了她的意思。

    不过却并没有正面回答伊芙·卡莉的问题。

    而是反问伊芙·卡莉：“关于使用向量介入进行语义文本相似度计算你怎么看？”

    虽然这是林灰在这次交流中提出的第一个问题。

    但这个问题让伊芙·卡莉多少有点措手不及。

    伊芙·卡莉不太清楚林灰为什么提出这个问题。

    莫非可以不依靠向量来进行语义文本相似度计算吗？

    可这怎么能做到呢？

    机器识别文本时为了要机器识别自然语言，往往将自然语言数值化。

    而将这些数值进行属性区分则必须进行向量化。

    这种方法已经有很长时间历史了，伊芙·卡莉记得在1977年（这个时空）就有研究人员首次提出向量空间模型VSM了。

    一经提出这种研究方法就比较受欢迎。

    虽然很快这种方法就被发现了有不小的漏洞。

    利用VSM方法的话，当文本量很大时，生成的文本向量是非常稀疏的，这就导致了空间和计算资源的浪费;

    另外VSM为达到简化模型的效果忽略了词语间的关系，而在很多情况下词语之间是存在联系的，因此简单地认为词语间相互独立是不合理的。

    尽管有着明显的漏洞，但在之后近四十年的历史中，人们仍然要引入向量进行语义文本相似度分析。请下载小说app阅读最新内容

    以伊芙·卡莉先前的团队，虽然他们在先前用的是基于网络知识计算文本相似度的方法。

    但本质上也只是将Wiki百科中的网页内容映射为高维向量，

    再通过基于向量空间的方法进行语义文本相似度计算。

    可以说依旧没能离开向量空间的壳子。

    虽然四十年后，当年遇到的所谓的“空间和计算资源浪费”某种程度上可以通过硬堆计算力可以暴力解决。

    但这仅仅是能解决当年遇到的难题而已。

    现在文本处理时面对的信息量复杂程度和当年完全不可同日而语。

    此时的向量化面对着全新的困难——维度爆炸！

    维度灾难（又名维度的诅咒）是一个最早由理查德·贝尔曼在考虑优化问题时首次提出来的术语，用来描述当数学空间维度增加时，分析和组织高维空间（通常有成百上千维），因体积指数增加而遇到各种问题场景。

    当在数学空间上额外增加一个维度时，其体积会呈指数级的增长。

    这样的难题在低维空间中不会遇到。

    比如物理空间很少会遇到这样的问题，毕竟物理上通常只用三维来建模。

    说起来很神奇，尽管物理上很难遇到维度爆炸问题。

    但在自然语言处理、机器学习方面维度爆炸是常有的事情。

    在这一领域随便一点信息量都会轻而易举地突破三维。

    其实在很多领域中，如采样、组合数学、机器学习和数据挖掘都有提及到维度爆炸的现象。

    这些问题的共同特色是当维数提高时，空间的体积提高太快，因而可用数据变得很稀疏。

    在高维空间中，当所有的数据都变得很稀疏，从很多角度看都不相似，因而平常使用的数据组织策略变得极其低效。

    事实上伊芙·卡莉她们先前团队所应用的基于网路知识进行文本相似度衡量时。

    如果直接对所有网页进行分析，往往会导致知识含量稀疏计算困难。

    事实上，这种情况就是因为维度爆炸所导致的。

    伊芙·卡莉很清楚现在这种利用向量引入到语义文本相似度的方法会带来维度爆炸。

    林灰为什么突然询问她如何看到将向量引入到计算语义文本相似度呢？

    莫非林灰真的有什么办法能够妥善处理维度爆炸这一问题吗？

    可是在机器学习、自然语言处理方向的维度爆炸并不是那么容易解决的。

    还是说林灰打算干脆绕过向量去衡量语义文本相似度吗？猪熊的穿越：2014

第155章 步步紧逼的追赶者(中)

第155章步步紧逼的追赶者(中)