编辑:[db:作者] 时间:2024-08-25 01:49:18
核心问题:与我们大多数人相称熟习和干系。
给定一大组文档D,我们讯问一个查询 q,并希望返回与D 最干系的子集。查询q是(短)自然措辞句子。文档是部分构造化的,更像是一个低深度的JSON字典 - 包含几个字段F,每个字段都包含文本。例如,如果D包含网页,则字段F包括页面标题(T),主体(B),URL(U)等。如果D对应于电子商务目录,则产品项目包含字段:标题(T),解释(D),种别C等。
例如:查询“丈夫的蓝色衬衫”(blue - shirt)是为了匹配男士休闲/正式衬衫,个中颜色区域是蓝色(实际上,存在两个变异形的天空蓝和深蓝色)。现在,想想如何手动办理这个匹配问题
这是一个相称繁芜的问题 - 在大多数情形下,q中的单词和d(丈夫 vs 男性)的文本字段之间可能没有完备匹配,因此我们必须理解q和d中单词的语义含义。 我们一定要避免与查询中常见的笔墨无关(女式衬衫|蓝色牛仔裤)。末了,我们希望在几百毫秒内从数百万种产品中检索干系文档。
办理句子相似性问题经典的办理方案TF-IDF是基于将q(或f)转换成一个大的词集上的one-hot-like的向量,每个元素都是q(或f)中的每个单词的频率分数,并将非常频繁的单词的计数降落。然后匹配= q和f的两个向量的相似度。TF-IDF是一个非常大略和强大的技能,但是(由于它的单一性)没有考虑到较小的句法变革—— man vs men’s, active vs actively, t-shirt vs shirt, blue moon vs bluemoon。为理解决这个问题,我们已经有了一套标记化,词干化和词形化技能,这些技能揭示了核心/词根可能带来的信息丢失。
不幸的是,这还不足。在真实的环境中,我们也希望“电脑”与“条记本”、“椅子”匹配,与“座椅”和“冰箱”匹配,与“三星”匹配。没有一种纯粹的语法方法可以检测这些匹配(添加高下文干系的同义词是相称困难的)。在某种程度上,我们须要matcher来理解这些单词。
幸运的是,我们现在有了另一个密集的词库,我们可以利用它们——这些都是压缩的单词编码,它们的各个维度都被理解为捕获语义、类比和子字模式。例如,“打算机”和“膝上型”的单词向量比“打算机”和“冰箱”要相似得多。现在,我们可以把q(类似f)的每个单词转换成向量,把它们组合成句子向量,或者在上面写出更繁芜的匹配规则。但是,我们可以做得更好——用一个深度神经网络来办理我们的匹配任务。
近年来,由于各种各样的公共任务和竞争,SemEval、SNLI、Buffer-Y-环绕各种语义剖析问题,包括文本相似性和问答问题,在语义学习的句子相似性问题上取得了长足的进步。
上图显示了一种盛行的组合相似技能。该方法学习将句子q和d独立编码为单片矢量(常日利用Bi-LSTM),然落后修利用几个全连接(FC)层来匹配这些矢量。将Bi-LSTM想象成一个包含两个for循环的盒子,一个从左到右扫描,另一个从右到左,在他们扫描时积累语句的含义。
理解双向RNN
表示编码打算的网络可以得到更高等的短语和句子的意义。其余,由于我们分别编码q和d(比如,e_q和e_d),我们可以重用编码,例如,利用e_q来匹配q和另一个文档d '。然而,构建一个整体的语义编码导致了一个早期的总结问题:在这个句子中关于单个单词(和短语)的信息在编码中丢失了。现在,如果查询和文档具有任何常用词语,则很难推断出与折叠句编码器的句法相似性。
举例:假设我们想利用折叠语句来回答这些问题
问:哪个国家的名字意思是“赤道”?
预期的答案:厄瓜多尔
下面的句子都是作为答案的候选者,由于两者在语义上都很靠近。
最靠近赤道的国家是秘鲁。
赤道横越厄瓜多尔都城基多北部,这个国家得名于这个半球的十字路口。
然而,第一个是不匹配的由于它忽略了一个事实,这个国家的名字对付匹配来说很主要。
把稳,我们从TF-IDF移开是由于它具有很强的句法性子,并且无法捕获语义相似。虽然我们现在可以有效地捉住单词向量和基于LSTM的编码的语义,但是我们已经失落去了对句法构造的掌握。犹如tf - idf在句法频谱的一端,我们现在很遗憾地处于语义频谱的另一端。一个好的matcher须要利用关于句子构造和整体语义的信息。
组合构造与语义在过去的几年里,我们已经开始看到神经架构将低(词)级的信息和构造结合在一起,并具有更高层次的语义意义。事实上,已经提出了几十种架构,并带有细微的变革,这使得实践者们不得不对其进行提炼、区分并使之适应新的任务。让我们从理解大多数这些架构背后的共同范式开始。
Split-Compare-and-Aggregate模式总的来说,这些匹配的方法可以学习和聚合
首先对q和d进行分割表示,例如,一个单词嵌入的列表。
比较所有对元素(q_i, d_j)。学习相似度得分。
聚合相似度得分。再次,学习聚合。
在第一次碰着时,SCA模式看起来非常大略,但是它非常强大,并且有多种多样乃至令人惊异的方法来实例化这个模式。
Compare (G) and Aggregate (H)
上面的图显示了如何利用NNs实例化检讨句子的模式:
从单个单词向量中,学习一个由网络G参数化的相似矩阵(蓝色),
然落后修聚合相似度分数,由网络H参数化,产生终极的得分(y)。
已经提出了一些基本SCA范式的变体,针对字符串相似性、阅读理解和问题回答任务。不幸的是,性能最好的神经架构常常表现出较低的阐明性。因此,在深入研究它们之前,让我们考虑一个更可阐明的SCA模式实例,即Word Mover Distance。
Word Mover Distance假设,doc d =“President greets the press in Chicago”并讯问q =“Obama speaks in Illinois”,我们估量q和d会有很高的相似度。就WMD而言,我们希望WMD(q,d)的间隔非常低。这是可能的,如果我们可以找到q和d的单词之间的良好排序。
首先,我们为q和d中的每个单词指定信息权重。例如 President, greets, press and Chicago各有0.25单位,并忽略(in)。相似性授予奥巴马权重,Illinois (每个0.33单位)。现在,我们如何排序 q和d中的词:考试测验重新分配从q到d的权重,以便传入和传出的流匹配。请把稳上面的图表 - 我们将权重从奥巴马(0.33)分配给总统(0.25)。我们左边0.33-0.25 = 0.08,我们接下来greets。重复其他词。将成对流量存储在矩阵T [i,j]中,即T [Obama,President] = 0.25。很显然,有几种方法可以进行这种转移,大概有一种最佳的办法 = q,d之间最少的WMD。
为了找到最佳的转移办法,我们首先打算成对词的不相似度dist(q [i],d [j])。现在,将WMD(q,d)定义为权重为流量T [i,j]的成对间隔的加权和:
WMD defined as weighted sum
Also inflow = outflow for each word
现在,为了找到使总体WMD(q,d)最小化的流量(T),我们利用线性优化来办理上述的T问题。请把稳,方程组是如何神奇地事情的——如果我们把一个高流量(T [I,J])分配到非常相似的词(比如,总统和奥巴马:DIST [I,J]〜0),它对全体WMD的贡献很小,因此保持了低水平。但是,如果您找不到类似的一对,那么您就不得不将流分配给更多类似的一对,从而提高了总体的WMD。
把稳WMD如何实例化SCA模式:我们pair-wise word (dis)-similarity,然后通过优化找出流程T来learn to aggregate。
缺陷:众所周知,WMD技能可以很好地匹配简短的句子,但是随着句子长度的增大或太大的不同,它会被分解。在不同的组合等分配权重可能导致繁芜的或不可阐明的流。大概,我们该当只关注类似的组件,并汇总它们的分数?其余,如何初始化权重分配——始终删除停滞字?另一个问题是:我们没有得到关于句子的编码,我们只学习与它们匹配。
Soft-TF-IDF:也是一个SCA实例,越来越受欢迎。我们用一个任意间隔度量(单词向量余弦相似度,Jaro相似度,..)来比较q和d的单词,然后通过用TF-IDF的分数来衡量它们的相似度。本文展示了软TF-IDF如何在不同的实体之间找到匹配。这里的问题是,您必须手动选择阈值以进行相似性。
还有其他一些SCA实例,试图办理如何比较和如何聚合问题的方法——BiDAF、MPM、DrQA、AoA、QANet(当前的小组领导)。不幸的是,它们变得越来越繁芜,因此很难阐明温柔应。我们将在往后的文章中阐明它们。同时,这里有一篇关于BiDAF文件的很好的博文。由于这些架构针对的是QA,而不是查询文档匹配,以是我们须要使它们适应匹配的问题,并进行一些奥妙的修正。
结论构建实用搜索引擎时存在大量其他问题 - 词汇表中的单词,拼写缺点,缩写,缩写词。其余,我们在这次谈论中忽略了非常主要的规模问题。假设您已经从目录中嵌入了一百万个产品的标题。如何有效地将查询嵌入与百万个产品项目向量进行匹配,以每秒数百个查询为条件。目前现成的根本举动步伐(Solr,ElasticSearch)依赖经由反复测试的索引来快速搜索。人们不能真正希望繁芜匹配的神经架构能够直接扩展。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/68756.html
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com