当前位置:首页 > 壁挂炉 > 文章正文

科普|文本分析浅析文档分类

编辑:[db:作者] 时间:2024-08-25 01:39:00

作者| AyLien

科普|文本分析浅析文档分类

翻译| 康欣 校正| 刘熹娜 编辑| Ivy

媒介

自动文档分类是一个很好的例子,解释如何善用机器学习和自然措辞处理,让机器更好地处理人类措辞。
自动分类目的,是给一个文档或一段笔墨指派一个或多个种别,以方便对文档进行归类和管理。
特殊是对付出版社、新闻网站、博客或其他须要处理大量笔墨内容的人和机构来说,人工对文档,并进行分组和分类是极其耗费人力和韶光的事情。

大体上讲,有两类机器学习办法:监督学习和非监督学习。
监督学习方法是在“以往的不雅观察”之上建立模型,这种“以往的不雅观察”被称为演习集。
在做文档分类时,预先定义好文档种别,再人工为演习数据集中每个文档打上种别标记。
建立了演习数据集之后,接着是用这个人工标记的数据集演习一个分类器。
其思想是:在演习完成后,这个分类器将能够预测任何一个给定文档的种别。

非监督机器学习办法有所不同,它们不须要演习数据集。
以文档分类来说,种别是事先未知的。
非监督学习办法(如聚合和话题建模),可以在一批文档中自动创造相似文档并进行分组。
本文将聚焦监督分类办法的机器学习。

1什么是分类器?

分类器的事情是天生“预测”。
简明地说,当分类器对一个新文档进行分类时,它预先剖断这个文档属于某个特定种别;并且,分类器常日为这个文档指定一个种别“标签”。
分类器或许还会根据利用的分类算法或策略给出一个可信度,表明分类标签精确性有多高。
用一个大略例子就可以很好地阐明分类器是如何事情的。

2分类器如何事情?

如前所述,分类器用于预测,以预测足球比赛是否会正常进行作为一个大略的例子,就能解释分类器如何事情。
首先,我们要建立一个数据集。
为此,我们须要记录室外温度并统计过去一年中给定比赛夜是否降雨,用这些记录建立一个景象情形数据集。
然后,我们会根据比赛是否正常进行来“标记”这个数据集,并创建一个演习数据集用于此后的预测。

在这种情形下,我们有温度和降雨两个“特色”来帮助我们预测比赛是否会举行。
如下表所示,任何比赛夜,我们可以参考表格数据来预测比赛是否会准期进行。
在这个大略的例子中,如果温度低于零度且正不才雨,那么比赛很有可能会取消。

在上表中,每一列称为一个“特色”,“比赛”那一列被称为“种别”或“标签”,其下面的行都被被称为“实例”。
这些实例可被理解为数据点,而数据点可视为一个向量,形如<特色1,特色2,…,特色N>。

3文档分类大略单纯例证

以此类推,将这种预测方法运用于文档的分类,个中的单词将被视为“特色”来预测该文档的种别。
还是利用一个大略例子来解释。
假设,我们的演习集中有如下三个非常简短的文档:

首先,我们要抽取演习集三个文档中的所有单词,并且据此建立一个表格(或向量):

种别:<some,tigers,live,in,the,zoo,green,is,a,color,go,to,new,york,city>

然后,我们会对每一个演习文档建立一个向量,如果这个单词存在于该演习文档,则取值为1,若不存在则取值为0,并给该文档一个适当的标记,如下所示。

当对未标记过的新文档“Orange is a color”进行分类时,我们会根据已有的种别向量对新文本的单词做标记,并为该文档天生一个单词向量:

如果,接下来将未分类文档中的向量之前三个文档种别中的向量作比较,我们会看到未知文档与种别2中文档的相似度最高。

未知种别文档种别与种别1的比较(6个匹配项)

< 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0 >种别1

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

未知种别文档种别与种别2的比较(14个匹配项,最相似!

< 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0>种别2

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

未知种别文档种别与种别3的比较(7个匹配项)

< 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1 >种别3

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

因此,机器很有可能将新文档标记为种别2并配以高可信度。
在统计自然措辞处理的方法中。
这是一个非常大略常见的例子。

4细看现实天下的文本分类

现实中的分类器由三个部分组成,接下来我们会逐一进行先容,并对分类器的事情事理稍作阐明。

1. 数据集

如前所示,统计分类方法须要人工先对一批文档标记上恰当的种别。
在很大程度上,数据集的质量是一个统计自然措辞处理分类器最主要的部分。

数据集须要足够大,能够为每一种别供应数量充足的文档。
举例来说,你希望在文档的归类过程中有500种可能涉及到的种别,假设每个种别有100个文档,那么统共则至少须要5万个文档。

文档自动分类对数据集的质量也有很高的哀求,高质量的数据集才能明显区分出不同种别文档的相互差异,清晰的划分出不同种别。

2. 预处理

在之前大略的例子中,当创建文档向量时,我们授予每一个词同等的主要性。
我们可以做某种预处理,并根据单词对付待分类分档的主要性,来授予它们不同的权重。
个中一种常用的方法是TF-IDF(term frequency-inverse document frequency, 词频-逆向文档频率)。
某一个单词的TF-IDF权重,会随着这个词在一篇文档中涌现的次数而增加,也会根据它在全体文档凑集中涌现的频率而降落。
对付常常涌如今全体文档凑集中的词(如“a”,“it”等)来说,这样做会有效降落这类单词的综合权重。
[译者注:如果某个词在一篇文章中涌现的频率(TF)高,但在其它文章中的TF低,则该词就具有很好的种别区分能力,适宜用来分类。

3.分类算法及策略

在上面的例子中,我们用来分类分档的算法非常大略:通过比较文档向量中匹配项的数量,来看它与哪一个种别最为相似,并以此对文档进行分类。
现实情形中,我们或许会把文档分在两个乃至两个以上的种别中,并且会在给定的种别中为一篇文档授予多个标签。
我们的分类系统还可能是多层次的构造,并因此分类器也须要在分类过程中考虑到多层次构造的成分。

举例来说,利用IPTC(International Press and Telecommunications Council,国际新闻电讯评议会)的国际主题新闻编码来设定标签,我们会给一个文档同时贴两个标签,如“体育事宜-天下杯”或“体育-足球”。
个中,“体育”和“体育事宜”是根种别,而“足球”和“天下杯”是子种别。

有大量的用于分类的算法,如支持向量机、朴素贝叶斯、决策树等,它们的所能达到的细节早已超出了本文的范围。

结论

希望你现在对文本分类的基本事理及其事情流程,有更透彻的理解。
作为总结,在监督学习中,模型的建立是基于一个演习集。
此后,分类器在这个手工标记过的演习数据集上进行演习,并希望可以预测任何给定文档的种别。
影响预测质量最大的成分便是演习数据集的质量。

原文链接:

http://blog.aylien.com/post/104768074963/text-analysis-101-a-basic-understanding-for

大数据文摘编译者简介

刘熹娜非范例北京姑娘,射手座,本科北二外翻译学院,研究生谢菲尔德大学国际新闻,现从事于媒体的大数据干系行业。
爱统统未知事物,好奇心过剩说的便是我,希望可以和大家一起做出更好的文章。
康小欣博士,多年从事图像及数据处理和剖析、打算机视觉、模式识别、机器学习、增强现实等领域的技能研究和创新运用,现为西门子中国研究院高等研究员。
希望借此平台,与大数据剖析爱好者以及专家学者互换、互助。

大数据文摘精彩文章:

回答【金融】 看【金融与商业】专栏历史期刊文章

回答【可视化】感想熏染技能与艺术的完美结合

回答【安全】 关于泄密、黑客、攻防的新鲜案例

回答【算法】 既涨知识又有趣的人和事

回答【谷歌】 看其在大数据领域的举措

回答【院士】 看浩瀚院士如何讲大数据

回答【隐私】 看看在大数据时期还有多少隐私

回答【医疗】 查看医疗领域文章6篇

回答【征信】 大数据征信专题四篇

回答【大国】 “大数据国家档案”之美国等12国

回答【体育】 大数据在网球、NBA等运用案例

回答【安然】 中国安然干系大数据案例、新闻

回答【志愿者】 理解大数据文摘及如何加入

长按指纹,即可关注“大数据文摘”

专注大数据,逐日有分享

覆盖千万读者的WeMedia同盟成员之一

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/bgl/65483.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com