当前位置:首页 > 燃气灶 > 文章正文

「生活概率论-7」假若有人问你熵是什么请让Ta看这篇

编辑:[db:作者] 时间:2024-08-25 02:12:47

在 [生活概率论-5] 中曾提到了 熵 。

「生活概率论-7」假若有人问你熵是什么请让Ta看这篇

这个神秘的字在物理和数学中很常见,网上干系的提问和解释甚多,足见其主要且不易理解:

宏不雅观热力学属性:反响自发过程不可逆性的一个物态参量

微不雅观热力学属性:系统微不雅观状态数的对数

信息论:信息量的大小

信息论:描述清楚一个事物的难易程度

物理学:描述系统的无序/随机的程度

概率论:意外程度的期望值

...

这次我考试测验从不同角度,只管即便自然的引出熵的定义,同时让读者看到个中的关联,对熵有一个直不雅观的理解。

考虑一个封闭的房间,里面只有空气。
在宏不雅观上,可以用体积、压强和温度这三个物理量描述这个房间的热力学属性。
在微不雅观上,空气是由许多气体分子组成的,每个分子都由一组微不雅观状态描述,比如质量、位置和速率。
由于分子个数实在太多,以是须要大量参数,打算难度太高。
能不能用一个物理量来概括呢?这正是奥地利最伟大的理论物理学家之一——玻尔兹曼所考虑的问题。

直接用微不雅观状态数来概括,可以吗?假设房间里的空气有 N 种微不雅观状态,那两个房间的空气就有 NN 种状态。
就好比扔一个骰子有 6 种可能的结果,扔两个骰子有36种可能的结果。
你看,是不是还得动动脑筋?以是直接用微不雅观状态数不足好。
能不能有更符合直觉的物理量呢?就像质量那样,两个房间的空气,便是大略相加的关系。
答案是能!
玻尔兹曼大约在1872到1875年间找到了一个公式: S = k ln(N),个中 S 就叫做玻尔兹曼熵(Entropy),N 是微不雅观状态总数,k 是玻尔兹曼常数(推导过程放在附录了)。
于是乎,如果一屋空气的熵是 S,则两屋是 2S。
这个公式实在太简洁了,而且引入了用统计方法来研究物理学的新思路,影响极其深远。

玻尔兹曼的墓碑上刻着熵的公式

再看看信息熵。
这个观点是在1948年喷鼻香农提出的。
当时他正在收听电报,有人问里面有多少信息?之后,信息论就出身了。

考虑一个0-9的旋转密码锁(旧款ofo单车那种锁)。
如果是 2 位的,有 10^2 = 100 种组合;如果是 4 位的,就有 10^4 = 10000 种组合。
把稳到,只管后者所能表达的密码组合是前者的 100 倍,但利用的位数仅是前者的2倍。
以是喷鼻香农意识到,信息量是组合数量的对数。
在信息论中,习气上利用 底数为 2 的Log函数,信息熵表示信息须要多少bit才能描述,跟打算机中的bit对应。
以是信息熵 H = Log2(N),N 是所有组合的个数。
信息熵表达了信息量的大小。
感想熏染一下:

2位密码锁,H = Log2(100) = 6.64 bits

3位密码锁,H = Log2(1000) = 9.97 bits

4位密码锁,H = Log2(10000) = 13.29 bits

10 bits 能表示1024种组合

另一种等价描述是:信息熵表示均匀情形下至少须要问多少个yes/no的问题,才能确定目标的状态。
每比特的值 0 或 1,便是这些问题的答案。
比如玩猜字母游戏,如果逐个问:这个字母是A吗?这个字母是B吗?...均匀来说须要 13.46 次提问(请自行验证)才能猜对。
但利用二分查找显然是更好的提问办法,问这个字母是在A到M之间吗?如果是,再问这个字母是在A到G之间吗?...这种问法,均匀只须要 Log2(26)=4.70 次提问即可猜对。
以是每个字母须要用 4.7 bits 才能描述。

附录中推导玻尔兹曼熵时,假设了每种微不雅观状态是等概率的。
但在信息论中,每种状态的概率可以不同。
比如字母 j、x、q、z 在英语利用的频率就远低于其他字母,以是每个英笔墨母的信息量大约在 Log2(22) = 4.46 bits 附近,肯定低于 4.70。

英笔墨母在文章中的相对涌现频率

更精确的说,每个英笔墨母的信息熵为:

个中 Pi 是每个字母涌现的概率。
当涌现概率都相等时,上述求和退化为:

看似奇怪,但信息熵的这种定义是很合理的。
如果我们只利用一个字母来发送信息,实在什么信息都没传达,H = 1 log(1) + 0 log(0) + ... + 0 log (0) = 0 (规定0 log(0) = 0)。
由于不用想,也知道下一个字母是什么,以是信息量为 0 。
如果每种字母都以同等概率涌现,预测下一个字母是什么的难度会达到最高,每个字母所包含的信息量达到最大。
这便是为什么压缩文件的内容看起来很随机。
由于如果不随机,你能找到规律,就表示可以通过这个规律进一步压缩。
比如ABABABABAB,完备可以写成 5AB 来节省空间。

汇总一下,在各状态等概率涌现的情形下,玻尔兹曼熵和信息熵只差一个常数:

如果各状态涌现概率不等,玻尔兹曼熵就变为了Gibbs熵,也与信息熵只差一个常数:

可以看出,信息熵是更实质的,玻尔兹曼熵和Gibbs熵都是只限定于物理系统的状态,强调宏不雅观和微不雅观天下的联系。
实在所有物理状态都可以看作是信息,而宇宙便是一台巨型仿照器,实在质是对信息的打算,程序便是物理规律。

从均匀最少提问次数的角度看,把熵阐明为“描述清楚一件事的难易程度”就很自然了。
比如一部全新的iPhone X,熵很低,可以简短的用“iPhone X”来描述;后来屏幕摔裂了,可以用“屏幕有缝隙的iPhone X”来描述;再后来又涌现各种故障,就得用“时时时会去世机、摄像头坏了、屏幕还有缝隙的iPhone X”来描述。
随着韶光推移,这部手机的熵逐渐增加,就须要越来越长的语句才能精确描述。
直到末了成为一堆“废铁”。
此处只用俩字,不是由于熵变低了;正好相反,此时熵已经非常高,险些不可能描述清楚了——毕竟我们还有许多比“数原子”更故意义的事情去做。
-_-!!

考虑到 Pi 如果越小,其倒数就越大,则可以的选择 Log2(1/Pi) 来表示事宜的意外程度。
在这种意义下,信息熵便是意外程度的期望值了:

来一个关于熵的有趣运用吧。
比如本文,熵肯定是很低的,由于我不是随便码字,而是写出让人能理解的语句。
同时,每个字后面紧跟的字也是很有规律的。
比如“概”字后面有很大可能涌现“率”字。
这种关联性表示在条件熵(Conditional Entropy)中,跟条件概率很像,表示已知一个信息的条件下,另一个信息的代价(信息量)。
考虑两种极度情形:

每个字后面都跟随确定的字

每个字都是独立选择的,与前面的字无关

对付第一种情形,显然条件熵是很低(为 0),由于不看也知道后面会涌现什么(查规则表即可)。
对付第二种情形,没法预测下一个字是什么,条件熵跟单个字的熵一样大。
真正的措辞肯定是介于二者之间的。
于是乎,我们可以通过统计书本中附近涌现的汉字、英语单词等来打算不同措辞的条件熵,创造他们都非常靠近。
好,有了这把尺子,就可以去统计一下印度河笔墨(Indus Script)这种至今还未破译的古字符(公元前26世纪-20世纪),会创造其条件熵跟已知的措辞很靠近,而阔别那两种极度情形。
这个结果表示,只管目前人们还无法理解印度河笔墨所记载的内容,但它有很大可能是一种措辞,而不是规律性的花纹或随机的符号序列。

本文从不同角度阐明了熵的含义,限于篇幅,只能只管即便把观点描述清楚。
后面会通过一系列文章,展开跟熵有关的各种运用,比如最大熵事理,为何熵无法自发的降落,最小二乘法,决策树等等,敬请期待。

【附录】玻尔兹曼公式推导

一个受限定的系统(比如一定体积内或固定总能量)不断的在N种微不雅观状态中迁移(分子不断碰撞),只管状态数很大,但有限。
系统处于每种状态的概率为Pi,在任何指定时刻,有

当系统达到平衡态时,虽然单个原子的状态依旧不断改变,但处于每种状态的概率不再随韶光变革,此时 Pi 描述了平衡态的分布。
现在要探求一个物理量 S,起名为熵。
它是 Pi 的某个函数 f 的期望值,且知足两个很好的性子。

性子一,对系统 A、B 以及由二者组合成的系统 C,熵具有可加性:

性子二,熵随着系统随机性/混乱程度的增加而增加;当所有微不雅观状态的可能性相等时,熵达到最大。

那就试着凑一凑。
假设系统 A 有 n 种微不雅观状态,系统 B 有 m 种微不雅观状态,则系统 A、B、C 的熵为:

个中 Pij 是系统 A 处于微不雅观状态 i 且系统 B 处于微不雅观状态 j 的概率。
假设 Pi, Pj 独立(当作两个骰子),Pij = Pi Pj,并运用性子一,

待定函数 f 必须让等式对任意Pi, Pj的取值都成立。
为了能让乘法变加法,就想到对数函数log,整上去试试。

太棒了,刚好得当。
Reynolds和Perkins创造,实在最通用的形式是 f = C log(Pi),个中 C 是任意常数。
由于 Pi 都是小于 1 的,为了让熵为非负的,可以将熵定义成:

再来看看性子二。
要在知足 Pi 求和即是 1 的约束条件下,让 S 得到极值。
用直觉或拉格朗日乘子法就可以得到此时各个 Pi 都相等,也便是每种状态都是等概率的。
N = 1 / Pi,N 是状态总数。
把 C 换成玻尔兹曼常数 k,k=1.380 x 10^-23 J/K,就得到了玻尔兹曼熵:

k 是连接微不雅观物理和宏不雅观物理的桥梁。
从其数量级可以猜到跟阿伏伽德罗常数(Avogadro constant)有关。
k = R / Na,个中 R 是空想气体常数 8.3143 J/(mol K),Na 是阿伏伽德罗常数,6.02 x 10^23。
以是有时 k 也被称作每个分子的气体常数。
这个详细的 k,使得从微不雅观统计定义的熵数值上即是了宏不雅观热力学定义的熵,dS=dQ/T。

【引文】

http://www.askamathematician.com/2010/01/q-whats-the-relationship-between-entropy-in-the-information-theory-sense-and-the-thermodynamics-sense/

https://en.wikipedia.org/wiki/Entropy_in_thermodynamics_and_information_theory

https://www.zhihu.com/question/24053383

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除,如需转载请保留原文地址:http://www.baanla.com/rqz/76083.html

XML地图 | 自定链接

Copyright 2005-20203 www.baidu.com 版权所有 | 琼ICP备2023011765号-4 | 统计代码

声明:本站所有内容均只可用于学习参考,信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将在三个工作日内处理,联系邮箱:123456789@qq.com