编辑:[db:作者] 时间:2024-08-25 01:20:47
失落败案例2
这是在某图站搜索“蝙蝠”的返回结果,可以看到在返回结果中夹杂这几个根本不干系的表示“棒球”的图片,缘故原由是把本来代表“棒球”的英文“bat”翻译成了\公众蝙蝠\"大众。
失落败案例3
下图是在某图站搜索“牙龈”的返回结果,里面却夹杂着“口喷鼻香糖”的图片,缘故原由是将表示“口喷鼻香糖”的英文“gum”翻译成了“牙龈”。
可以看到,英文标签翻译失落败的例子是很常见的,也是随意马虎犯的缺点,而翻译失落败的影响也是很大的,不仅降落用户体验,也降落了用户给该产品的技能打分。
问题思路和解决方案问题思路一个英文每每会对应于好几个中文,大略从单词层面来讲,将英文单词翻译成个中的任何一个中文单词都是没有问题的、都是标准答案,这是措辞的不同的点造成的。问题在于,在某个分外的场景下,比如可以是在一个句子里面,或者一篇文章里面,某个英文只能代表个中一个中文的含义。比如:在上诉的失落败案例中,这里的场景便是一张图片,一张图片可以涵盖很多东西,乃至可以通过一篇文章来描述它,以是它本身便是一个语境,在这个语境里面每个英文单词就具有了分外的含义,以是在这里是不能随便把一个英文单词翻译成它的中文候选词个中一个的。我们要去理解某个英文详细的利用场景,找出在这个场景下该英文所代表的详细含义,要从它的环境出发,从它的附近出发,详细是从该英文单词周围的单词出发,一个单词周围的单词“影响或者决定”它的位置和含义,以是周围的单词一起来决定这个单词详细该翻译成中文候选词中的哪一个(一个胖子的朋友里面胖子比较多 -> 谁的朋友圈胖子比较多,谁是胖子的概率就比较大 <:)。
方案1:大略的语义场景理解
在方案 1 中,英文翻译时须要事先整理一份中英文翻译规则表单,个中包含的属性列有:待翻译英文单词,语义场景关联单词,中文候选词,举例如下:
方案履行步骤:在翻译单词wave时,如果它的其他关键词里面,含有场景关联单词,便把单词翻译成和场景关联单词对应的中文。比如:在图片的关键词中涌现了wave,同时它还有其他关键词比如:沙滩或者大海或者拍浮,有情由把wave翻译成海浪而不是挥手。
优点:
设计方案事理大略、易于理解。
方案利用随意马虎,只要准备好规则表单,在翻译时大略查询一下即可。
缺陷:
准备事情工程浩大,整理好一个涵盖常见中英文的规则表单须要耗费很大的人力。
准确度不高,待翻译英文的场景关联单词数量是巨大的,从中筛选知足翻译需求的单词并不大略,比如,关联单词太少导致图片的标签里面都没有涌现,太多导致关联单词同时涌现。
方案2:Word2Vec
方案 2 ,事理和方案 1 类似,是在方案 1 的根本上,进一步的扩展和量化,还是利用图片的其他的所有关键词来建立一个语义场景,决定英文单词的翻译方向, 不过这里我们把每个单词所处的语义场景转化成浮点数向量来表示,使得该方案更随意马虎履行,也具有更高的准确度。这里的单词语义场景向浮点数向量的转换,采取开源的机器学习模型:Word2Vec,Word2Vec 是用于处理文本的双层神经网络,它的输入是文本语料,比如:公民日报所有文章、头条上的搜索媒体文章,输出则是一组向量,这些语料代表一个弘大的语义环境,而在这个语义环境里面,每个单词都有一个属于自己的空间位置,而这个位置便用一组向量来标示。个中动物和猴子的向量的相似度,是要比动物和桌子的相识度要高的。
下面展示了用头条的文章语料演习出来的,单词“偏爱”和“卓越”的浮点数向量,该向量便分别代表了它们在该语料环境下所处的位置。
打算两个单词在这个语境下的间隔,这里采取的相似度度量为余弦相似度(Cosine Similarity)含义如下:
下面打算余弦相似度的python代码实现,可以用原始的math库实现,或者numpy库实现:
下面是方案 2 的利用样例,展示了两个不同场景下,wave的候选词列表所打算出来的相似度的值:
可以看出,在不同的语义环境下,wave的候选列表单词和场景关联单词的相似度是不一样的,而相似度最高的候选单词便是“较为”准确的翻译结果。
方案2详细履行流程:
遍历图片资源库,依次获取每张图片的属性信息,特殊是,英文描述性标签。
调用云有道API接口,将每个英文标签转换成中文候选词列表。
针对每个英文标签和对应的候选词列表,打算每个候选词和其他所有候选词列表的余弦相似度并求和,取相似度最大的候选词,作为翻译目标,别的候选词丢弃。
依次打算每个英文标签,直到所有英文标签翻译完毕。
完全的打算代码如下:
结果展示:
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/ktwx/60082.html
下一篇:返回列表
Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码
声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com