由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
sysop版 - 投诉史海钩沉版版三TheMatrix乱发帖子刷钱 (转载)
相关主题
投诉史海钩沉版版三TheMatrix挑动版友互相攻击 (转载)再次报告 https 链接的 bug
8 区说明博客中国技术负责人关于本站Alexa排名疑问的一封回信
现在8区哪些板块是对国内用户开放的??俱乐部发文为什么不能挣伪币阿?
提议就这一条, 民间发起的弹劾基本没戏
能不能帮忙把Playingcard设成俱乐部EducationK12的版副。TheMatrix 违反军版版规, 呼吁封禁7天 (转载)
我能看到中文, 但输入中文怎么是乱码呢?请管理员注意,id TheMatrix,长期用长图片刷屏
25个字符又是什么?HiYou大量垃圾贴洗版
这25个字符的限制真是傻逼啊[功能新增] 聊天室支持使用彩色文字
相关话题的讨论汇总
话题: 字符话题: 信息熵话题: log话题: 常用话题: 压缩
1 (共1页)
d*******y
发帖数: 2710
1
【 以下文字转载自 Complain 讨论区 】
发信人: dragonfly (小蜻蜓), 信区: Complain
标 题: 投诉史海钩沉版版三TheMatrix乱发帖子刷钱
发信站: BBS 未名空间站 (Tue Aug 15 22:15:35 2017, 美东)
证据如下
1-发信人: (TheMatrix), 信区: History
标 题: 我对神的认识
发信站: BBS 未名空间站 (Tue Aug 15 17:48:56 2017, 美东)
下面这段是我在另一个主题的回文。但是我对自己的思想很激动,所以把它单独提出一
贴:
首先我并没有收回这句话:”科学前进一步,神就退后一步“。因为我认为神就是未知
的总和。而科学就是就是向未知进发:科学进一步,未知就退一步。所以科学进一步,
神就退一步。当然,永远有未知,也就永远有神。科学是已知,是有限,神是未知,是
无限。所以科学和神的关系是已知和未知的关系,是有限和无限的关系。所以我说我们
说的是一个意思。
以上是客观的关系。下面有人了:人不能把握无限,所以人努力要把无限装入有限。第
一步就是提出一个 the totality of unknown的概念,也就是未知的总和,一下子就把
无限全概括了。数学上有一个无穷远点,可以把所有的未知收为一个点,叫无穷远点,
这叫 the one point compactification of unknown。这样有限加无限的整体,就变成
了有限再加上一个点--无穷远点。这个整体本身变成了有限,可以装进人类的认识当中。
这个点取之不尽用之不竭,因为它是无穷远点。人类向它索取知识--也就是科学向它进
发,可以想象成攻城略地,但它丝毫不减。因为它本是无穷。
这个点,这个概念,可以赋予它人格,也就是神格,也就是神。
这就是我对神的看法。
2-发信人: TheMatrix (TheMatrix), 信区: History
标 题: 中国崛起的另一种解释 (转载)
发信站: BBS 未名空间站 (Tue Aug 8 09:40:22 2017, 美东)
发信人: zmimy (咪咪), 信区: Military
标 题: 中国崛起的另一种解释
发信站: BBS 未名空间站 (Tue Aug 8 09:32:49 2017, 美东)
网上有很多观点,但是并没有真正有说服力的解释。
我个人不完整的看法是,中国就好像一个高产田。高产田的特性是,如果碰到好年成,
在极短的时间内,就可以达到极高的产出,看起来无比兴旺。因为作物整齐划一,生长
快,产量大。
但是如果有某种病虫害,或者气候改变,那么高产田可能一瞬间颗粒无收。这就是我们
在历史上经常看到的惨状。
而欧美社会则更像森林。产出不高,但是植物品种丰富。产出不算多,但是也很难发生
颗粒无收的情况。
所以这个所谓的崛起还有待观察。是不是仅仅是另外一个好年成?
3-发信人: TheMatrix (TheMatrix), 信区: History
标 题: 何为信息熵
发信站: BBS 未名空间站 (Sat Aug 5 13:53:21 2017, 美东)
信息熵是一个比较高大上的概念。其定义和理解需要一点数理基础。但是说穿了也没什
么神秘的,实际上都是我们知道的事情。最近王五抡起这个概念专门攻击中文,而且似
是而非不懂装懂,很有些国内小编的意思。有必要澄清。
先说结论:简单说信息熵就是一种语言常用字的数量,也是一种语言字符复杂度的度量
:一种语言的常用字越多,该语言文字的信息熵就越高。一种语言的字符复杂度越高,
该语言文字的信息熵也就越高。
信息熵的定义公式是:-Σp*log(p)。解释一下这个公式的意义:假设一种语言有
26个字符,假设对这种语言所写成的文章全面采样,得到一篇有10000个字符组成的文
章。p代表一个字符在该语言中出现的频率或者概率。log是以2为底的。Sum是对26个字
符进行求和。假设我们定义一个量A=-log(p),那么信息熵公式就变成Σp*A,它的含义
就是这个量A对26个字符的加权平均。
那么这个量A=-log(p)是什么含义呢?首先p是一个概率,永远小于1,所以log(p)是一
个负数,所以A=-log(p)是一个正数。那么这个数是什么意思呢?想象一下数据压缩的
目标,原理和过程:假设前面那个全面采样得到的10000个文字的文章要进行无损压缩
,用二进制01存储。目标是压缩到越小越好,但是信息要无损。假设最后压缩成为3000
个字节,也就是3000*8个01bit。那么这篇10000个字符的文章的实际信息含量就是3000
*8bit,它的信息量不可能再高了,因为这是无损压缩。
压缩的过程应该怎么设计呢?就是编码:显然应该把常用字符编成短码,而把不常用字
编成长码。比如e字符经常出现,那么就用01两位bit代表,x字符不常出现,可以用
010011六位bit代表。这样得到的压缩效率最高。常用不常用由概率p代表。A=-log(p)
,也就是-A=log(p),也就是2^(-A)=p,也就是1/2^A=p,也就是2^A=1/p。那么A是什么
意义呢?A就是在最佳压缩下一个字符的编码bit数。
而信息熵就是一个字符的平均编码bit数。
现在假设这个信息熵是2.4,也就是一个字符平均要用2.4个bit来编码,那么10000个字
符的文章要用24000个bit,也就是3000个字节来编码,这就是这篇文章的压缩后的长度
,也是这篇文章所包含的信息量。
所以信息熵也是一个字符所能包含的信息量的平均值。
中文字符的信息熵高,英文字符的信息熵低,这是说一个中文字符包含的信息量高于一
个英文字符。这是符合常识的。
也可以说,中文文字的抽象度高。何为抽象?抽象就是给概念命名,给结构命名。命名
以符号。中文字符多,所以有更多的命名。
如果假定常用字符的词频大致相同,并近似忽略不常用字符,那么信息熵也等于log (n
),n为常用字符的数量。
常用字符的数量显然跟字符的书写复杂度有关,书写简单的文字写不出太多种字符,而
书写复杂的文字它的字符数量可以很多。所以说信息熵也反映了符号的复杂程度。
TheMatrix这些发帖完全与版面无关,还自己mark,刷钱明显违反站方规定。
恳请处理!
d*******y
发帖数: 2710
2
这样的板三难道不该撤吗?
1 (共1页)
相关主题
[功能新增] 聊天室支持使用彩色文字能不能帮忙把Playingcard设成俱乐部EducationK12的版副。
WWW bug!我能看到中文, 但输入中文怎么是乱码呢?
bug25个字符又是什么?
每个帖子最多能容纳多少字符啊?这25个字符的限制真是傻逼啊
投诉史海钩沉版版三TheMatrix挑动版友互相攻击 (转载)再次报告 https 链接的 bug
8 区说明博客中国技术负责人关于本站Alexa排名疑问的一封回信
现在8区哪些板块是对国内用户开放的??俱乐部发文为什么不能挣伪币阿?
提议就这一条, 民间发起的弹劾基本没戏
相关话题的讨论汇总
话题: 字符话题: 信息熵话题: log话题: 常用话题: 压缩