所有文章 > 正文

智库 | 走进信息论创始人——Claude Elwood Shannon

作者: 学术小白

时间: 2019-06-25 18:14

“在我看来,两三百年之后,当人们回过头来看我们的时候,他们可能不会记得谁曾是美国的总统。他们也不会记得谁曾是影星或摇滚歌星。但是仍然会知晓香农的名字。学校里仍然会教授信息论。” ——Dr. Richard Blahut, Oct. 6, 2000, Gaylord,Michigan

欢迎访问全球华人专家库http://gct.aminer.cn,了解更多学者信息。

全球华人专家库收录Claude Elwood Shannon博士信息,本文对Claude Elwood Shannon博士的最新研究进行探讨。

克劳德·艾尔伍德·香农(Claude Elwood Shannon),美国数学家、电子工程师和密码学家,被誉为信息论的创始人。不仅如此,香农还被认为是数字计算机理论和数字电路设计理论的创始人,也为军事领域的密码分析,包括密码破译和保密通信,做出了很大贡献。

学生时代

1936年Shannon在密西根大学获得数学与电气工程学士学位,然后进入麻省理工学院(MIT)念研究生。

1938年Shannon在MIT获得电气工程硕士学位,硕士论文题目是《A Symbolic Analysis of Relay and Switching Circuits》(继电器与开关电路的符号分析)。当时他已经注意到电话交换电路与布尔代数之间的类似性,即把布尔代数的“真”与“假”和电路系统的“开”与“关”对应起来,并用1和0表示。于是他用布尔代数分析并优化开关电路,这就奠定了数字电路的理论基础。哈佛大学的Howard Gardner教授说,“这可能是本世纪最重要、最著名的一篇硕士论文。”

他的数学分析为数字电路打下了理论基础,把计算机科学引上了数字化的道路,为今天形形色色的数字技术铺垫了牢固的基石。

1940年香农在MIT获得数学博士学位,而他的博士论文却是关于人类遗传学的,题目是《An Algebra for Theoretical Genetics》(理论遗传学的代数学)。

在科学史上被公认为有奠基性成果的博士论文并不多见,广为人知的当然有爱因斯坦、居里夫人、德布罗意、费曼,数学方面还包括黎曼和纳什,而香农的博士论文被认为是二十世纪最优秀的一篇。

在读学位的同时,他还用部分时间跟温尼法·布什(Vannevar Bush)教授进行微分分析器的研究。这种分析器是早期的机械模拟计算机,用于获得常微分方程的数值解。1941年香农发表了《Mathematical theory of the differential analyzer》(微分分析器的数学理论),他写道:“大多数结果通过证明的定理形式给出。最重要的是处理了一些条件,有些条件可以生成一个或多个变量的函数,有些条件可使常微分方程得到解。还给出了一些注意事项,给出求函数的近似值(不能产生精确值)、求调整率的近似值以及自动控制速率的方法。”

研究员工作

1941年Shannon以数学研究员的身份进入新泽西州的AT&T贝尔电话公司,并在贝尔实验室工作到1972年,从24岁到55岁,整整31年。1956年他当了MIT的访问教授,1958年成为正式教授,1978年退休。

人们描述Shannon的生活,白天他总是关起门来工作,晚上则骑着他的独轮车来到贝尔实验室。他的同事D. Slepian写到:“我们大家都带着午饭来上班,饭后在黑板上玩玩数学游戏,但克劳德很少过来。他总是关起门来工作。但是,如果你要找他,他会非常耐心地帮助你。他能立刻抓住问题的本质。他真是一位天才,在我认识的人中,我只对他一人使用这个词。”

Shannon与John Riordan一起工作,1942年发表了一篇关于串并联网络的双终端数的论文。这篇论文扩展了麦克马洪(Percy A. MacMahon,1854-1929)1892年在Electrician上发表的论文理论。

在二次世界大战时,Shannon也是一位著名的密码破译者(这使人联想到比他大4岁的图灵博士)。他在Bell Lab的破译团队主要是追踪德国飞机和火箭,尤其是在德国火箭对英国进行闪电战时起了很大作用。1949年,他公开发表的《保密系统的通信理论》一文,开辟了用信息论来研究密码学的新思路,使他成为近代密码理论的奠基者和先驱。这篇文章基于的理论是香农在1945年为贝尔实验室所完成的一篇报告《A Mathematical Theory of Cryptography》。

这一发现再次震惊了学术界,波士顿环球报称“这一发现将密码从艺术变成为科学”。这篇论文发表后,香农被美国政府聘为政府密码事务顾问。纵观最近几十年来密码领域的几个重大进展,会发现它们都与Shannon这篇文章中所提出的思想有着密切关系,可以说《保密系统的通信理论》奠定了现代密码理论的基础。

1948年Shannon发表了《A Mathematical Theory of Communication 》。论文由香农和威沃共同署名。前辈威沃(Warren Weaver,1894-1978)当时是洛克菲勒基金会自然科学部的主任,他为文章写了序言。

“A Mathematical Theory of Communication” 问世

Shannon最伟大的论文《通信的数学理论》

这是Shannon最著名,也是影响力最大的论文,在这部著作中,他提出了比特数据,证明了信息是可以被量化的,并阐述了如何在保证准确率的前提下用数字编码对信息进行压缩和传输。该著作被誉为“信息时代的大宪章”( the Magna Carta of the information age)。

Shannon在这篇论文中还精确地定义了信源编码和信道编码等概念,提出了如下经典的通信系统数学模型,并得出了信源编码定理和信道编码定理等重要结果。

然而就是这篇具有跨时代意义的恢弘巨作,当年也逃不掉被拒稿的命运:

审稿人认为这篇文章动机不足,过于抽象,在审稿意见里,审稿人毫不留情地嘲讽道:

"IBM has decided to stay out of the electronic computing business,and this journal should probably do the same!"(IBM已经决定退出电子计算业务,本杂志可能也应该这么做!)

我想Shannon当时看到这种胡言乱语的审稿意见时,心态一定是崩溃的。(审稿意见全文详见链接:https://link.zhihu.com/?target=http%3A//www.fang.ece.ufl.edu/reject.html

不过是金子总会发光,这篇论文后来于1948年发表在Bell System Technical Journal(贝尔系统技术杂志)上,发表后在科学界和工程界引起极大反响。时至今日,这篇文章的引用已经超过9万次。

1949年,他又在该杂志上发表了“噪声下的通信”一文,其中建立了著名的香农采样定理(Shannon sampling theorem)。

他后来回忆道:“我的第一个想法,就是如何在噪声信道中最好地改善信息传输”。Shannon在文章中定义了信息的基本单位,采取了贝尔实验室同事John Tukey的建议,定为“比特”。

Shannon最初并没有借用“熵”这个词汇来表达他关于信息传输中的“不确定性”的度量化。他甚至都不太知晓他所考虑的量与古典热力学熵之间的类似性。他想把它称为“information(信息)”,但又认为这个名词太过大众化,已被普通老百姓的日常话语用滥了。他又考虑过就用单词“uncertainty(不确定性)”,但它却更像抽象名词,缺乏量化的余地,确实难于定夺。终于有一天,他遇见了天才的数学家冯 • 诺依曼(John von Neumann, 1903-1957)。真是找对了人!冯·诺依曼马上告诉他:

就叫它熵吧,这有两个好理由。一是你的不确定性函数已在统计物理中用到过,在那里它就叫熵。第二个理由更重要:没人真正理解熵为何物,这就让你在任何时候都可能进能退,立于不败之地。

到底什么是信息熵?

Shannon的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说,如果天气预报说“今天中午下雨的可能性是百分之九十”,我们就会不约而同想到出门带伞;如果预报说“有百分之五十的可能性下雨”,我们就会犹豫是否带伞,因为雨伞无用时确是累赘之物。显然,第一则天气预报中,下雨这件事的不确定性程度较小,而第二则关于下雨的不确定度就大多了。

对于一般的不确定事件,我们怎样数学地刻画它的不确定程度呢?设想有n个“基本事件”,各自出现的概率分别为p1, p2, …, pn,则它们构成一个样本空间,可以简记为所谓的“概率数组” (p1, p2, …, pn)。样本空间最简单的例子是我们上面提到的抛硬币游戏,它只有两个基本事件:抛硬币结果是“正面朝上”或“反面朝上”,其中每个事件的概率均为 1/2,其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称,使得抛硬币时正面朝上的概率增加到7/10,而反面朝上的概率减少到3/10,则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度,用数 H(7/10, 3/10) 代表第二个样本空间的不确定度,那么直觉马上告诉我们:数 H(1/2, 1/2) 大于数 H(7/10, 3/10),也就是前者比后者更加不确定。

更一般地,若用 H(p1, p2, …, pn) 记样本空间 (p1, p2, …, pn) 所对应的不确定度,运用同样的直觉分析,我们相信当所有的基本事件机会均等,即都有同样的概率1/n时,其不确定度最大。因而,不确定度函数H应该满足如下的基本不等式:对所有的加起来等于1的非负“概率数” p1, p2, …, pn,

(1) H(p1, p2, …, pn) ≤ H(1/n, 1/n, …, 1/n)。

如果我们不抛硬币,而像澳门赌场的常客那样掷骰子,每掷一次,小立方骰子的每一个面朝上的概率均为1/6。想一想就知道,某个指定面朝上的不确定度应大于玩硬币时正面或反面朝上的不确定度。将这个直观发现一般化,我们就有不确定度函数H 应该满足的单调性要求:

(2) H(1/n, 1/n, …, 1/n) 是自然数 n 的严格递增函数。

假设物理系赵教授、数学系钱教授和孙教授竞争理学院的一笔科研基金,他们每人申请成功的概率分别为1/2、1/3、1/6。院长为求公平,让每个系得此奖励的机会均等。若物理系拿到资助,就到了赵教授的名下。如数学系得到了它,钱教授有2/3的概率拿到,孙教授则有1/3的机会到手。通过分析“条件概率”,我们能得出不确定度 H(1/2, 1/3, 1/6) 的数值:这三个教授获得基金的不确定度,等于物理系或数学系拿到这笔基金的不确定度,加上数学系赢得该基金的概率与在数学系拿到基金的条件之下,钱教授或孙教授得到它的不确定度之乘积。换言之,H(1/2, 1/3, 1/6) = H(1/2, 1/2) + ½ H(2/3, 1/3)。推而广之,可以得出不确定度与条件概率有关的“加权和”性质:

(3) 如果一个不确定事件分解成几个持续事件,则原先事件的不确定度等于持续事件不确定度的加权和。

既然我们想用一个漂亮的数学公式来表达不确定度这一样本空间概率值函数,我们自然希望这个函数表达式和几乎所有的物理公式一样连续依赖于公式中的所有变元。这样,第四个条件就自然而然地加在了不确定度函数的头上:

(4) 对固定的自然数n,不确定度函数 H 是 (p1, p2, …, pn) 的一个连续函数。

Shannon无需什么高深的数学,甚至连微积分都可不要,就证明了:任何在所有样本空间上都有定义的函数H,只要它满足以上的“三项基本原则 (2)(3)(4)”,就非如下的表达式莫属:

H(p1, p2, …, pn)

= -C(p1 ln p1 + p2 ln p2 + … + pn ln pn),

其中符号 ln 代表以 e 为底的自然对数函数,C 可以是任意一个常数。并可证明,条件(1)自动满足(有兴趣的读者可用初等微积分证之)。当然,熵公式的证明需要的是一种创造的头脑思维、一手精湛的代数技巧、一个巧妙的极限思想。如果C取成玻尔兹曼常数,它就能和当年吉布斯在统计热力学中得到的“吉布斯熵”一模一样。香农取 C = 1,如此得到了非负函数:

H(p1, p2, …, pn)

= -(p1 ln p1 + p2 ln p2 + … + pn ln pn), (H)

按照冯 • 诺依曼的建议,该函数被定义为样本空间 (p1, p2, …, pn) 所对应的信息熵。现在,这个数被广称为“香农熵”,以纪念它的创造者、信息论之父——香农。

香农虽已于2001年辞世,但正如信息论学科的著名学者,Richard Blahut教授在香农的儿童时代的老家,密歇根州的Gaylord镇举行香农塑像的落成典礼上所说的,香农所留给人类的思想会永远留在人们的脑海中,激励我们的子孙们。

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多