d*******y 发帖数: 2710 | 1 【 以下文字转载自 Complain 讨论区 】
发信人: dragonfly (小蜻蜓), 信区: Complain
标 题: 投诉史海钩沉版版三TheMatrix乱发帖子刷钱
发信站: BBS 未名空间站 (Tue Aug 15 22:15:35 2017, 美东)
证据如下
1-发信人: (TheMatrix), 信区: History
标 题: 我对神的认识
发信站: BBS 未名空间站 (Tue Aug 15 17:48:56 2017, 美东)
下面这段是我在另一个主题的回文。但是我对自己的思想很激动,所以把它单独提出一
贴:
首先我并没有收回这句话:”科学前进一步,神就退后一步“。因为我认为神就是未知
的总和。而科学就是就是向未知进发:科学进一步,未知就退一步。所以科学进一步,
神就退一步。当然,永远有未知,也就永远有神。科学是已知,是有限,神是未知,是
无限。所以科学和神的关系是已知和未知的关系,是有限和无限的关系。所以我说我们
说的是一个意思。
以上是客观的关系。下面有人了:人不能把握无限,所以人努力要把无限装入有限。第
一步就是提出一个 the totality of unknown的概念,也就是未知的总和,一下子就把
无限全概括了。数学上有一个无穷远点,可以把所有的未知收为一个点,叫无穷远点,
这叫 the one point compactification of unknown。这样有限加无限的整体,就变成
了有限再加上一个点--无穷远点。这个整体本身变成了有限,可以装进人类的认识当中。
这个点取之不尽用之不竭,因为它是无穷远点。人类向它索取知识--也就是科学向它进
发,可以想象成攻城略地,但它丝毫不减。因为它本是无穷。
这个点,这个概念,可以赋予它人格,也就是神格,也就是神。
这就是我对神的看法。
2-发信人: TheMatrix (TheMatrix), 信区: History
标 题: 中国崛起的另一种解释 (转载)
发信站: BBS 未名空间站 (Tue Aug 8 09:40:22 2017, 美东)
发信人: zmimy (咪咪), 信区: Military
标 题: 中国崛起的另一种解释
发信站: BBS 未名空间站 (Tue Aug 8 09:32:49 2017, 美东)
网上有很多观点,但是并没有真正有说服力的解释。
我个人不完整的看法是,中国就好像一个高产田。高产田的特性是,如果碰到好年成,
在极短的时间内,就可以达到极高的产出,看起来无比兴旺。因为作物整齐划一,生长
快,产量大。
但是如果有某种病虫害,或者气候改变,那么高产田可能一瞬间颗粒无收。这就是我们
在历史上经常看到的惨状。
而欧美社会则更像森林。产出不高,但是植物品种丰富。产出不算多,但是也很难发生
颗粒无收的情况。
所以这个所谓的崛起还有待观察。是不是仅仅是另外一个好年成?
3-发信人: TheMatrix (TheMatrix), 信区: History
标 题: 何为信息熵
发信站: BBS 未名空间站 (Sat Aug 5 13:53:21 2017, 美东)
信息熵是一个比较高大上的概念。其定义和理解需要一点数理基础。但是说穿了也没什
么神秘的,实际上都是我们知道的事情。最近王五抡起这个概念专门攻击中文,而且似
是而非不懂装懂,很有些国内小编的意思。有必要澄清。
先说结论:简单说信息熵就是一种语言常用字的数量,也是一种语言字符复杂度的度量
:一种语言的常用字越多,该语言文字的信息熵就越高。一种语言的字符复杂度越高,
该语言文字的信息熵也就越高。
信息熵的定义公式是:-Σp*log(p)。解释一下这个公式的意义:假设一种语言有
26个字符,假设对这种语言所写成的文章全面采样,得到一篇有10000个字符组成的文
章。p代表一个字符在该语言中出现的频率或者概率。log是以2为底的。Sum是对26个字
符进行求和。假设我们定义一个量A=-log(p),那么信息熵公式就变成Σp*A,它的含义
就是这个量A对26个字符的加权平均。
那么这个量A=-log(p)是什么含义呢?首先p是一个概率,永远小于1,所以log(p)是一
个负数,所以A=-log(p)是一个正数。那么这个数是什么意思呢?想象一下数据压缩的
目标,原理和过程:假设前面那个全面采样得到的10000个文字的文章要进行无损压缩
,用二进制01存储。目标是压缩到越小越好,但是信息要无损。假设最后压缩成为3000
个字节,也就是3000*8个01bit。那么这篇10000个字符的文章的实际信息含量就是3000
*8bit,它的信息量不可能再高了,因为这是无损压缩。
压缩的过程应该怎么设计呢?就是编码:显然应该把常用字符编成短码,而把不常用字
编成长码。比如e字符经常出现,那么就用01两位bit代表,x字符不常出现,可以用
010011六位bit代表。这样得到的压缩效率最高。常用不常用由概率p代表。A=-log(p)
,也就是-A=log(p),也就是2^(-A)=p,也就是1/2^A=p,也就是2^A=1/p。那么A是什么
意义呢?A就是在最佳压缩下一个字符的编码bit数。
而信息熵就是一个字符的平均编码bit数。
现在假设这个信息熵是2.4,也就是一个字符平均要用2.4个bit来编码,那么10000个字
符的文章要用24000个bit,也就是3000个字节来编码,这就是这篇文章的压缩后的长度
,也是这篇文章所包含的信息量。
所以信息熵也是一个字符所能包含的信息量的平均值。
中文字符的信息熵高,英文字符的信息熵低,这是说一个中文字符包含的信息量高于一
个英文字符。这是符合常识的。
也可以说,中文文字的抽象度高。何为抽象?抽象就是给概念命名,给结构命名。命名
以符号。中文字符多,所以有更多的命名。
如果假定常用字符的词频大致相同,并近似忽略不常用字符,那么信息熵也等于log (n
),n为常用字符的数量。
常用字符的数量显然跟字符的书写复杂度有关,书写简单的文字写不出太多种字符,而
书写复杂的文字它的字符数量可以很多。所以说信息熵也反映了符号的复杂程度。
TheMatrix这些发帖完全与版面无关,还自己mark,刷钱明显违反站方规定。
恳请处理! | d*******y 发帖数: 2710 | |
|