第156章 步步紧逼的追赶者(下)
伊芙·卡莉虽然不知道林灰为什么突然这么问。 但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。 伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。 而后伊芙·卡莉才正式开始回答林灰先前问她的问题: “引入向量后才能使得机器更方便的处理语义文本的信息。 如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。 而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点LOW。 比如说,基于字符串的方法,这种方法都是对原始文本进行比较。 主要包括编辑距离、最长公共子序列、N-Gram相似度等来进行衡量。 就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。 这种算法界定的编辑操作包括增加、删除、替换三种。 最长公共子系列是根据…… 这套衡量标准甚至有点像MicrosoftWord格式来衡量一般。 基于字符串的方法虽然原理简单、实现方便。 但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。 涉及到同义词、多义词等问题都无法处理。 目前很少单独使用基于字符串的方法计算文本相似度。 而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。 除了这种方法之外,还有……” 林灰对于这些也是了解一些的。 他只是想通过伊芙·卡莉之口判定一下这个时空的研究到底是什么进展的。 基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。 但低端不等于没用,不能因此就说这种算法没价值。 设想一下,如果文本识别领域取得突破的话。 把界定文本相似度的判断方法和文本识别算法结合在一起的话。 反而是基于字符串判定文本相似度这种方法最为贴切。 毕竟这种基于字符串的判别方法和计算机视觉的直观逻辑形式最为接近的一种。 事实上文本识别算法在后世同样是很寻常的技术。 甚至于随便一个聊天软件的截图工具都能很好的胜任文本识别的任务。 而现在这个时空哪怕一些专门打出文本识别为噱头的软件。 实际上进行的工作只是扫描文稿转成PDF而已。 涉及到实际的文本识别效率低的一批。 林灰感觉似乎又无意间发现了一个商机。 虽然是发现了一个商机,也不适合现在去做。 毕竟涉及到文本识别这方面还是跟计算机视觉这个领域有关系的。 所谓的计算机视觉说白了就是让机器看东西。 这个算是人工智能的一个领域。 这个领域的研究是为了让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息。 根据这些信息机器采取行动或提供建议。 如果说人工智能赋予计算机思考的能力。 那么计算机视觉就是赋予发现、观察和理解的能力。 计算机视觉虽然不能说多么复杂吧。 但起码门槛比自然语言处理要高得多。 显然不适合林灰现在掺和。 不过林灰有耐心,林灰默默地将这件事放在了心里。 林灰觉得不能目光太短浅。 有些东西虽然现在看起来很鸡肋。 未必就代表长远角度没有用途。 心念及此,林灰突然觉得很庆幸。 重生之后,前世的经验让其游刃有余。 另一方面,重生带给他让他受益的就是思维上的改变。 涉及到很多事物林灰都会下意识地考虑到长线价值。 甚至不经意间会考虑到十年二十年之后的事情。 有这种长线思维方式。 林灰觉得假以时日他一定能走到一个鲜有人企及的高度。 但这些想法就不足为外人道也。 虽然就基于字符串评价文本相似度的方法和伊芙·卡莉有些分歧。 但林灰并没有表露出来,学术上的交流很多时候也只是求同存异而已。 伊芙·卡莉还在继续陈述着她的看法: “……我觉得将向量引入到语义文本相似度的衡量确实是一个不错的主意。 不过在介入向量之后,就像打开了潘多拉的魔盒一样。 向量在处理一些语义复杂的文本信息时。 极其容易形成一些高维空间,造成维度爆炸。 出现这种情况后,应用场景经常会变得极其糟糕。 经常出现维度爆炸的问题。 事实上,现在维度爆炸问题已经很制约我们的研究了。 Dear林,不知道您关于这个问题有什么看法呢?” 林灰道:“维度爆炸主要是高维难处理的问题。 既然如此,为什么不考虑将高维进行降维呢?” 林灰的语气是那样的风轻云淡。 彷佛在叙述一件自然而然的事情一般。 降维?将高维的什么进行降维?? 听了翻译同传过来的信息。 伊芙·卡莉有种要吐血的感觉。 她有点想学中文了。 她不知道林灰表达的原意就是将高维转化为低维。 还是说林灰在表述的时候说的是将高维的某物转化的低维但翻译在转达的时候却省略了什么东西。 如果是省略了一些重要的名词那实在是太糟糕了。 到底林灰想表达是将高维数据转化为低维数据? 还是说将高维模型转化为低维模型? 抑或是什么其他含义? 伊芙·卡莉很想询问一下。 不过考虑到林灰先前为了米娜·卡莉做出的贴心之举。 伊芙·卡莉并不好就这种事情让林灰带来的翻译陷入到不安之中。 仔细思索林灰话里的含意。 首先伊芙·卡莉觉得林灰想说的应该不是将高维数据降低成低维数据。 在进行自然语言处理时如果出现了高维数据的话。 在分析高维数据时,确实是可以进行降维的。 也必须要进行降维! 高维数据模型虽然收集到的数据点很多。 但是所收集到的数据通常会散布在一个极其分散广袤的高维空间中。 这种情况下很多统计方法都难以应用到高维数据上。 这也是“维度灾难”存在的原因之一。 遇到这种维度灾难,不降维的话高维数据是很难进行处理的。 (ps:……数学天赋点满的人高维也能硬上) 作为数据去噪简化的一种方法,降维处理对处理大多数现代机器学习数据很有帮助。 通过降低数据的维度,理论上讲可以把这个复杂棘手的问题变得简单轻松。 机器学习领域中所谓的降维就是指采用某种映射方法。 将原高维空间中的数据点映射到低维度的空间中。 这么做是为了除去噪音同时保存所关注信息的低维度数据。 这样对研究人员理解原本的高维数据所隐含的结构和模式很有帮助。 原始的高维度数据通常包含了许多无关或冗余变量的观测值。 降维可以被看作是一种潜在特征提取的方法。 降维这种方法经常用于数据压缩、数据探索以及数据可视化。 话虽如此,但降维并不是像科幻书里描述的那般扔一个二向箔就完事了。 涉及到降维是一件极其麻烦的事情! 在选择降维方法的时候,人们不得不考虑很多因素。 首先要考虑输入数据的性质。 比如说,对于连续数据、分类数据、计数数据、距离数据,它们会需要用到不同的降维方法。 对数据的性质和分辨率的考虑是十分重要的。 如果不考虑输入数据的性质贸然进行降维的话虽然能够使得这些这些高维模型低维化。 极有可能使得原本离散的数据直接“糊”在一起。 这种情况比高维离散还要糟糕。 在应用正式的降维技术之前。 还要对高维数据进行适当的预处理。 毕竟不是所有的数据都是样本数据。 而有的时候进行预处理时。 最佳的预处理方式又是引入降维。1 这就会陷入一个疯狂套娃的循环之中。 总而言之,对高维数据进行降维是一件超级麻烦的事情。 在实际进行处理时一般自然语言处理方向的研究人员一般都竭力避免出现高维爆炸的情况。 而不是等出现高维数据之后再进行低维处理。 高维数据的低维处理某种程度更像是一种迫不得已的异常麻烦的补救措施。 很多东西因为麻烦就足以让人说再见了。 繁复的过程意味着容易出错。 而美好的事物所呈现的形式应该是简洁的。 就像欧拉公式一般。 正因为如此,伊芙·卡莉觉得林灰这种天才想表达的意思绝对不是将高维数据降维成低维数据。 如果林灰想表达的意思不是对高维数据做手脚。 而是说对传统的向量空间模型做文章? 将高维向量空间模型转化为维度较低的空间向量模型? 这种思路倒是不错。 但这种尝试先前并不是没人做过。 很早之前就有人进行了尝试。 早在上世纪末期就有人提出了潜在语义分析模型。 潜在语义分析模型是基于空间向量模型(VSM)而提出的。 潜在语义分析模型其基本思想是在得到文本的空间向量表示后。 通过奇异值分解,将高维且稀疏的空间向量映射到低维的潜在语义空间当中。 在得到低维的文本向量和单词向量之后。 再用余弦相似度等度量方式来计算文本间的语义相似度。 潜在语义分析的本质思想就是通过降维来去除原始矩阵中的噪音,从而提高计算准确度。 虽然这种思路不错,但这种方法并没有普适性。 这是因为潜在语义分析模型在架构模型的过程中采用的奇异值分解。 这种做法使得计算复杂度增高,并且可移植性较差。 在这种方法提出来之后。 并不是没人尝试对这种方法进行过改进。 同样是上世纪末。 有研究人员提出了概率潜在语义分析模型。 这种模型是基于概率,而不是基于奇异值分解。 这种模型相比于潜在语义分析模型的主要差异是增加一个主题层。 而后使用期望最大化算法训练主题,并找到一个概率性的潜在主题模型。 以此用来预测文本空间向量中的观察数据。 在这种概率潜在语义分析模型中,多义词被归入不同的主题下,而同义词被归入同一主题下。 这样可以避免同义词和多义词对文本相似度计算的影响。 然而,概率潜在语义分析模型的参数随着文档数量的增加而线性增长。 很容易出现过拟合和泛化不良。 这种情况很大程度又是因为维度爆炸。 因为过拟合只在高维空间中预测相对少的参数和低维空间中预测多参数这两种情况下发生。 一个为了避免维度爆炸而提出的模型却出现了维度爆炸。 多少有点悲剧。 事实上,并不是只有上述两个模型提出来。 这之后还有很多研究团队都在从模型层面的做了不同程度的尝试。 但这些模型要么是南辕北辙,不利于降维。 要么是在降维的同时又带来了新的问题。 总之,这些模型都有各种行不通的地方。 尽管伊芙·卡莉相信林灰是个天才。 但伊芙·卡莉觉得林灰也很难在前人无数次尝试的情况下找到一种全新的能够规避维度爆炸的低维模型。 伊芙·卡莉考虑了很久也没想通林灰究竟表达的是什么意思。 伊芙·卡莉把她刚才她的思考过程对林灰进行了阐述。 林灰听得很认真。 听完之后,林灰笑道:“你都想到了这么多种高维向低维转化的情形。 而且先前你也提到了机器识别文本时为了要机器识别自然语言往往将自然语言数值化。 而后为了将这些数值进行属性区分进一步进行了向量化。 既然你能明白这些,那你就应该知道涉及到自然语言处理方向的问题之所以很容易出现维度爆炸很大程度是因为原始数据就维度极高。 这种情况下我们为什么不直接从源头上解决问题对原始数据做些文章呢?” 听到林灰这话,伊芙·卡莉似乎灵魂深处被触动了一般, 触电般的感觉袭来,伊芙·卡莉突然激动了起来。 伊芙·卡莉颤声道:“你的意思是说,直接对原始的高维数据进行低维化处理? 处理得到低维化数据之后,在架构模型进行语义文本相似度分析?” 和聪明人说话就是比较省时省力。 林灰想要表达的差不多就是这个意思。 现在这个时空常用的编码手段常用的还是1hot编码来说吧。 这种编码虽然再相当长的历史时期内发挥了积极作用。 但这种编码也经常带来很多麻烦事情。 前世往后几年的话,词向量按照基本都是通过分布式向量进行编码。 分布式编码相当于将原始数据投射到了一个较低维度的空间。 如此一来将原始数据从稀疏的高维空间压缩嵌入到较低维度的向量空间中。 这对于后续的处理无疑是很有帮助的。 当然了投射不是说投射就投射。 还得经过神经网路学习的训练。 至于怎么训练? 这就是纯粹技术上的事情了。 前世,词向量的分布式表示还有一个专有名词叫做词嵌入。 虽然林灰现在跟伊芙·卡莉所说的内容已然涉及到分布式词向量的部分原理。 但林灰倒也不怕伊芙·卡莉剽窃想法。 毕竟他说的只是一部分原理。 选择性的真相有时候比谎言更具误导性。 至于伊芙·卡莉能从林灰这获得多少信息,主要取决于两人的磨合程度。 其实林灰挺希望有朝一日能全部告诉伊芙·卡莉的。 因为伊芙·卡莉能够获悉全部信息的话只有一种情况。 那就是她甘愿充当林灰的工具人。 对自己的工具人自然没必要隐瞒什么。 林灰也急切需要一个纯粹的学术方面的工具人。 毕竟科研什么的能指点下方向收获论文才是最理想的。 过于深入其中的话,未必会变强,但一定会变秃。 眼前的伊芙·卡莉聪明一点就透领悟性强。 伊芙·卡莉年轻有激情,这可优秀准科研人最应该具有的素质。 最关键的是伊芙·卡莉似乎很单纯,很好骗。 这么好骗的姐姐。 不把她忽悠来肝论文似乎是不应该啊…… 似乎是不用那么麻烦。 事情比林灰想象的顺利。 跟伊芙·卡莉深入聊了一会。 (ps:……省略好多字,以后有时间慢慢补充吧,补充的不算计费字数) 伊芙·卡莉似乎是下定决心一般。 鼓起勇气对林灰说道:“如果,我是说如果可以的话,我能做你的助手么?” 听了她这话,林灰似乎很犹疑的样子。 伊芙·卡莉也知道她这个请求有点冒犯。 尽管伊芙·卡莉动起这个念头有点仓促。 但伊芙·卡莉相信她内心做出的选择。 和林灰的谈话渐渐深入,伊芙·卡莉一时间似乎接触到了一个崭新的世界。 来的路上,伊芙·卡莉就感觉到林灰对他无言的呼唤:“你渴望推开那扇门么?” 此次和林灰交流,听到了林灰刚才的话语,伊芙·卡莉似乎亲眼目睹了林灰推开那扇门一般。 能同林灰一起推开那扇门的机会伊芙·卡莉自然不会放过。 看见林灰似乎很迟疑,伊芙·卡莉忙道:“我愿意签订协议,我会对你的研究成果严格保密的……” 伊芙·卡莉接着道:“我也不需要科研经费……” 一个远涉重洋万里之外赶来的学者态度恭谨到如此这般。 林灰如果不答应的话似乎显得很不尽人情。 林灰果断答应了伊芙·卡莉的请求。 协议肯定是要签的,林灰不想成果被窃取。 但科研经费以及相应报酬还是要照发的。 员工可以有用爱发电的念头。 但boss却不能真的让员工用爱发电。 那样很容易原地暴毙的。猪熊的穿越:2014