当前位置：首页 > 壁挂炉 > 文章正文

科普｜文本分析浅析文档分类

编辑：[db:作者] 时间：2024-08-25 01:39:00

作者| AyLien

科普｜文本分析浅析文档分类

翻译| 康欣校正| 刘熹娜编辑| Ivy

媒介

自动文档分类是一个很好的例子，解释如何善用机器学习和自然措辞处理，让机器更好地处理人类措辞。
自动分类目的，是给一个文档或一段笔墨指派一个或多个种别，以方便对文档进行归类和管理。
特殊是对付出版社、新闻网站、博客或其他须要处理大量笔墨内容的人和机构来说，人工对文档，并进行分组和分类是极其耗费人力和韶光的事情。

大体上讲，有两类机器学习办法：监督学习和非监督学习。
监督学习方法是在“以往的不雅观察”之上建立模型，这种“以往的不雅观察”被称为演习集。
在做文档分类时，预先定义好文档种别，再人工为演习数据集中每个文档打上种别标记。
建立了演习数据集之后，接着是用这个人工标记的数据集演习一个分类器。
其思想是：在演习完成后，这个分类器将能够预测任何一个给定文档的种别。

非监督机器学习办法有所不同，它们不须要演习数据集。
以文档分类来说，种别是事先未知的。
非监督学习办法（如聚合和话题建模），可以在一批文档中自动创造相似文档并进行分组。
本文将聚焦监督分类办法的机器学习。

1什么是分类器？

分类器的事情是天生“预测”。
简明地说，当分类器对一个新文档进行分类时，它预先剖断这个文档属于某个特定种别；并且，分类器常日为这个文档指定一个种别“标签”。
分类器或许还会根据利用的分类算法或策略给出一个可信度，表明分类标签精确性有多高。
用一个大略例子就可以很好地阐明分类器是如何事情的。

2分类器如何事情？

如前所述，分类器用于预测，以预测足球比赛是否会正常进行作为一个大略的例子，就能解释分类器如何事情。
首先，我们要建立一个数据集。
为此，我们须要记录室外温度并统计过去一年中给定比赛夜是否降雨，用这些记录建立一个景象情形数据集。
然后，我们会根据比赛是否正常进行来“标记”这个数据集，并创建一个演习数据集用于此后的预测。

在这种情形下，我们有温度和降雨两个“特色”来帮助我们预测比赛是否会举行。
如下表所示，任何比赛夜，我们可以参考表格数据来预测比赛是否会准期进行。
在这个大略的例子中，如果温度低于零度且正不才雨，那么比赛很有可能会取消。

在上表中，每一列称为一个“特色”，“比赛”那一列被称为“种别”或“标签”，其下面的行都被被称为“实例”。
这些实例可被理解为数据点，而数据点可视为一个向量，形如<特色1，特色2，…，特色N>。

3文档分类大略单纯例证

以此类推，将这种预测方法运用于文档的分类，个中的单词将被视为“特色”来预测该文档的种别。
还是利用一个大略例子来解释。
假设，我们的演习集中有如下三个非常简短的文档：

首先，我们要抽取演习集三个文档中的所有单词，并且据此建立一个表格（或向量）：

种别：<some,tigers,live,in,the,zoo,green,is,a,color,go,to,new,york,city>

然后，我们会对每一个演习文档建立一个向量，如果这个单词存在于该演习文档，则取值为1，若不存在则取值为0，并给该文档一个适当的标记，如下所示。

当对未标记过的新文档“Orange is a color”进行分类时，我们会根据已有的种别向量对新文本的单词做标记，并为该文档天生一个单词向量：

如果，接下来将未分类文档中的向量之前三个文档种别中的向量作比较，我们会看到未知文档与种别2中文档的相似度最高。

未知种别文档种别与种别1的比较（6个匹配项）

< 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0 >种别1

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

未知种别文档种别与种别2的比较（14个匹配项，最相似！
！
）

< 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0>种别2

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

未知种别文档种别与种别3的比较（7个匹配项）

< 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1 >种别3

< 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0>未知种别

因此，机器很有可能将新文档标记为种别2并配以高可信度。
在统计自然措辞处理的方法中。
这是一个非常大略常见的例子。

4细看现实天下的文本分类

现实中的分类器由三个部分组成，接下来我们会逐一进行先容，并对分类器的事情事理稍作阐明。

1. 数据集

如前所示，统计分类方法须要人工先对一批文档标记上恰当的种别。
在很大程度上，数据集的质量是一个统计自然措辞处理分类器最主要的部分。

数据集须要足够大，能够为每一种别供应数量充足的文档。
举例来说，你希望在文档的归类过程中有500种可能涉及到的种别，假设每个种别有100个文档，那么统共则至少须要5万个文档。

文档自动分类对数据集的质量也有很高的哀求，高质量的数据集才能明显区分出不同种别文档的相互差异，清晰的划分出不同种别。

2. 预处理

在之前大略的例子中，当创建文档向量时，我们授予每一个词同等的主要性。
我们可以做某种预处理，并根据单词对付待分类分档的主要性，来授予它们不同的权重。
个中一种常用的方法是TF-IDF（term frequency-inverse document frequency, 词频-逆向文档频率）。
某一个单词的TF-IDF权重，会随着这个词在一篇文档中涌现的次数而增加，也会根据它在全体文档凑集中涌现的频率而降落。
对付常常涌如今全体文档凑集中的词（如“a”，“it”等）来说，这样做会有效降落这类单词的综合权重。
［译者注：如果某个词在一篇文章中涌现的频率（TF）高，但在其它文章中的TF低，则该词就具有很好的种别区分能力，适宜用来分类。
］

3.分类算法及策略

在上面的例子中，我们用来分类分档的算法非常大略：通过比较文档向量中匹配项的数量，来看它与哪一个种别最为相似，并以此对文档进行分类。
现实情形中，我们或许会把文档分在两个乃至两个以上的种别中，并且会在给定的种别中为一篇文档授予多个标签。
我们的分类系统还可能是多层次的构造，并因此分类器也须要在分类过程中考虑到多层次构造的成分。

举例来说，利用IPTC（International Press and Telecommunications Council，国际新闻电讯评议会）的国际主题新闻编码来设定标签，我们会给一个文档同时贴两个标签，如“体育事宜－天下杯”或“体育－足球”。
个中，“体育”和“体育事宜”是根种别，而“足球”和“天下杯”是子种别。

有大量的用于分类的算法，如支持向量机、朴素贝叶斯、决策树等，它们的所能达到的细节早已超出了本文的范围。

结论

希望你现在对文本分类的基本事理及其事情流程，有更透彻的理解。
作为总结，在监督学习中，模型的建立是基于一个演习集。
此后，分类器在这个手工标记过的演习数据集上进行演习，并希望可以预测任何给定文档的种别。
影响预测质量最大的成分便是演习数据集的质量。

原文链接：

http://blog.aylien.com/post/104768074963/text-analysis-101-a-basic-understanding-for

大数据文摘编译者简介

刘熹娜非范例北京姑娘，射手座，本科北二外翻译学院，研究生谢菲尔德大学国际新闻，现从事于媒体的大数据干系行业。
爱统统未知事物，好奇心过剩说的便是我，希望可以和大家一起做出更好的文章。
康小欣博士，多年从事图像及数据处理和剖析、打算机视觉、模式识别、机器学习、增强现实等领域的技能研究和创新运用，现为西门子中国研究院高等研究员。
希望借此平台，与大数据剖析爱好者以及专家学者互换、互助。

大数据文摘精彩文章：

回答【金融】看【金融与商业】专栏历史期刊文章

回答【可视化】感想熏染技能与艺术的完美结合

回答【安全】关于泄密、黑客、攻防的新鲜案例

回答【算法】既涨知识又有趣的人和事

回答【谷歌】看其在大数据领域的举措

回答【院士】看浩瀚院士如何讲大数据

回答【隐私】看看在大数据时期还有多少隐私

回答【医疗】查看医疗领域文章6篇

回答【征信】大数据征信专题四篇

回答【大国】 “大数据国家档案”之美国等12国

回答【体育】大数据在网球、NBA等运用案例

回答【安然】中国安然干系大数据案例、新闻

回答【志愿者】理解大数据文摘及如何加入

长按指纹，即可关注“大数据文摘”

专注大数据，逐日有分享

覆盖千万读者的WeMedia同盟成员之一

本站所发布的文字与图片素材为非商业目的改编或整理，版权归原作者所有，如侵权或涉及违法，请联系我们删除，如需转载请保留原文地址：http://www.baanla.com/bgl/65483.html

上一篇：「RELX悦刻」发力线下新零售率先落地电子烟品牌旗舰店

下一篇：返回列表

科普｜文本分析浅析文档分类

相关文章

推荐标签

壁挂炉推荐

壁挂炉热门