当前位置:首页 > 家装 > 装修设计 > 文章正文

若何运用神经收集来查找相关产品/谜底?

编辑:[db:作者] 时间:2024-08-25 01:49:18

核心问题:与我们大多数人相称熟习和干系。

若何运用神经收集来查找相关产品/谜底?

给定一大组文档D,我们讯问一个查询 q,并希望返回与D 最干系的子集。
查询q是(短)自然措辞句子。
文档是部分构造化的,更像是一个低深度的JSON字典 - 包含几个字段F,每个字段都包含文本。

例如,如果D包含网页,则字段F包括页面标题(T),主体(B),URL(U)等。
如果D对应于电子商务目录,则产品项目包含字段:标题(T),解释(D),种别C等。

例如:查询“丈夫的蓝色衬衫”(blue - shirt)是为了匹配男士休闲/正式衬衫,个中颜色区域是蓝色(实际上,存在两个变异形的天空蓝和深蓝色)。
现在,想想如何手动办理这个匹配问题

这是一个相称繁芜的问题 - 在大多数情形下,q中的单词和d(丈夫 vs 男性)的文本字段之间可能没有完备匹配,因此我们必须理解q和d中单词的语义含义。
我们一定要避免与查询中常见的笔墨无关(女式衬衫|蓝色牛仔裤)。
末了,我们希望在几百毫秒内从数百万种产品中检索干系文档。

办理句子相似性问题

经典的办理方案TF-IDF是基于将q(或f)转换成一个大的词集上的one-hot-like的向量,每个元素都是q(或f)中的每个单词的频率分数,并将非常频繁的单词的计数降落。
然后匹配= q和f的两个向量的相似度。
TF-IDF是一个非常大略和强大的技能,但是(由于它的单一性)没有考虑到较小的句法变革—— man vs men’s, active vs actively, t-shirt vs shirt, blue moon vs bluemoon。
为理解决这个问题,我们已经有了一套标记化,词干化和词形化技能,这些技能揭示了核心/词根可能带来的信息丢失。

不幸的是,这还不足。
在真实的环境中,我们也希望“电脑”与“条记本”、“椅子”匹配,与“座椅”和“冰箱”匹配,与“三星”匹配。
没有一种纯粹的语法方法可以检测这些匹配(添加高下文干系的同义词是相称困难的)。
在某种程度上,我们须要matcher来理解这些单词。

幸运的是,我们现在有了另一个密集的词库,我们可以利用它们——这些都是压缩的单词编码,它们的各个维度都被理解为捕获语义、类比和子字模式。
例如,“打算机”和“膝上型”的单词向量比“打算机”和“冰箱”要相似得多。
现在,我们可以把q(类似f)的每个单词转换成向量,把它们组合成句子向量,或者在上面写出更繁芜的匹配规则。
但是,我们可以做得更好——用一个深度神经网络来办理我们的匹配任务。

近年来,由于各种各样的公共任务和竞争,SemEval、SNLI、Buffer-Y-环绕各种语义剖析问题,包括文本相似性和问答问题,在语义学习的句子相似性问题上取得了长足的进步。

上图显示了一种盛行的组合相似技能。
该方法学习将句子q和d独立编码为单片矢量(常日利用Bi-LSTM),然落后修利用几个全连接(FC)层来匹配这些矢量。
将Bi-LSTM想象成一个包含两个for循环的盒子,一个从左到右扫描,另一个从右到左,在他们扫描时积累语句的含义。

理解双向RNN

表示编码打算的网络可以得到更高等的短语和句子的意义。
其余,由于我们分别编码q和d(比如,e_q和e_d),我们可以重用编码,例如,利用e_q来匹配q和另一个文档d '。
然而,构建一个整体的语义编码导致了一个早期的总结问题:在这个句子中关于单个单词(和短语)的信息在编码中丢失了。
现在,如果查询和文档具有任何常用词语,则很难推断出与折叠句编码器的句法相似性。

举例:假设我们想利用折叠语句来回答这些问题

问:哪个国家的名字意思是“赤道”?

预期的答案:厄瓜多尔

下面的句子都是作为答案的候选者,由于两者在语义上都很靠近。

最靠近赤道的国家是秘鲁。

赤道横越厄瓜多尔都城基多北部,这个国家得名于这个半球的十字路口。

然而,第一个是不匹配的由于它忽略了一个事实,这个国家的名字对付匹配来说很主要。

把稳,我们从TF-IDF移开是由于它具有很强的句法性子,并且无法捕获语义相似。
虽然我们现在可以有效地捉住单词向量和基于LSTM的编码的语义,但是我们已经失落去了对句法构造的掌握。
犹如tf - idf在句法频谱的一端,我们现在很遗憾地处于语义频谱的另一端。
一个好的matcher须要利用关于句子构造和整体语义的信息。

组合构造与语义

在过去的几年里,我们已经开始看到神经架构将低(词)级的信息和构造结合在一起,并具有更高层次的语义意义。
事实上,已经提出了几十种架构,并带有细微的变革,这使得实践者们不得不对其进行提炼、区分并使之适应新的任务。
让我们从理解大多数这些架构背后的共同范式开始。

Split-Compare-and-Aggregate模式

总的来说,这些匹配的方法可以学习和聚合

首先对q和d进行分割表示,例如,一个单词嵌入的列表。

比较所有对元素(q_i, d_j)。
学习相似度得分。

聚合相似度得分。
再次,学习聚合。

在第一次碰着时,SCA模式看起来非常大略,但是它非常强大,并且有多种多样乃至令人惊异的方法来实例化这个模式。

Compare (G) and Aggregate (H)

上面的图显示了如何利用NNs实例化检讨句子的模式:

从单个单词向量中,学习一个由网络G参数化的相似矩阵(蓝色),

然落后修聚合相似度分数,由网络H参数化,产生终极的得分(y)。

已经提出了一些基本SCA范式的变体,针对字符串相似性、阅读理解和问题回答任务。
不幸的是,性能最好的神经架构常常表现出较低的阐明性。
因此,在深入研究它们之前,让我们考虑一个更可阐明的SCA模式实例,即Word Mover Distance。

Word Mover Distance

假设,doc d =“President greets the press in Chicago”并讯问q =“Obama speaks in Illinois”,我们估量q和d会有很高的相似度。
就WMD而言,我们希望WMD(q,d)的间隔非常低。
这是可能的,如果我们可以找到q和d的单词之间的良好排序。

首先,我们为q和d中的每个单词指定信息权重。
例如 President, greets, press and Chicago各有0.25单位,并忽略(in)。
相似性授予奥巴马权重,Illinois (每个0.33单位)。
现在,我们如何排序 q和d中的词:考试测验重新分配从q到d的权重,以便传入和传出的流匹配。
请把稳上面的图表 - 我们将权重从奥巴马(0.33)分配给总统(0.25)。
我们左边0.33-0.25 = 0.08,我们接下来greets。
重复其他词。
将成对流量存储在矩阵T [i,j]中,即T [Obama,President] = 0.25。
很显然,有几种方法可以进行这种转移,大概有一种最佳的办法 = q,d之间最少的WMD。

为了找到最佳的转移办法,我们首先打算成对词的不相似度dist(q [i],d [j])。
现在,将WMD(q,d)定义为权重为流量T [i,j]的成对间隔的加权和:

WMD defined as weighted sum

Also inflow = outflow for each word

现在,为了找到使总体WMD(q,d)最小化的流量(T),我们利用线性优化来办理上述的T问题。
请把稳,方程组是如何神奇地事情的——如果我们把一个高流量(T [I,J])分配到非常相似的词(比如,总统和奥巴马:DIST [I,J]〜0),它对全体WMD的贡献很小,因此保持了低水平。
但是,如果您找不到类似的一对,那么您就不得不将流分配给更多类似的一对,从而提高了总体的WMD。

把稳WMD如何实例化SCA模式:我们pair-wise word (dis)-similarity,然后通过优化找出流程T来learn to aggregate。

缺陷:众所周知,WMD技能可以很好地匹配简短的句子,但是随着句子长度的增大或太大的不同,它会被分解。
在不同的组合等分配权重可能导致繁芜的或不可阐明的流。
大概,我们该当只关注类似的组件,并汇总它们的分数?其余,如何初始化权重分配——始终删除停滞字?另一个问题是:我们没有得到关于句子的编码,我们只学习与它们匹配。

Soft-TF-IDF:也是一个SCA实例,越来越受欢迎。
我们用一个任意间隔度量(单词向量余弦相似度,Jaro相似度,..)来比较q和d的单词,然后通过用TF-IDF的分数来衡量它们的相似度。
本文展示了软TF-IDF如何在不同的实体之间找到匹配。
这里的问题是,您必须手动选择阈值以进行相似性。

还有其他一些SCA实例,试图办理如何比较和如何聚合问题的方法——BiDAF、MPM、DrQA、AoA、QANet(当前的小组领导)。
不幸的是,它们变得越来越繁芜,因此很难阐明温柔应。
我们将在往后的文章中阐明它们。
同时,这里有一篇关于BiDAF文件的很好的博文。
由于这些架构针对的是QA,而不是查询文档匹配,以是我们须要使它们适应匹配的问题,并进行一些奥妙的修正。

结论

构建实用搜索引擎时存在大量其他问题 - 词汇表中的单词,拼写缺点,缩写,缩写词。
其余,我们在这次谈论中忽略了非常主要的规模问题。
假设您已经从目录中嵌入了一百万个产品的标题。
如何有效地将查询嵌入与百万个产品项目向量进行匹配,以每秒数百个查询为条件。
目前现成的根本举动步伐(Solr,ElasticSearch)依赖经由反复测试的索引来快速搜索。
人们不能真正希望繁芜匹配的神经架构能够直接扩展。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/lz/zxsj/68756.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com