由买买提看人间百态

topics

全部话题 - 话题: 汉字编码
1 2 3 下页 末页 (共3页)
h****n
发帖数: 198
1
【 以下文字转载自 Linux 讨论区 】
【 原文由 hotgun 所发表 】
偶的OS是solaris, 登陆前可选语言环境,偶以前都是选GB2312简体中文,
在这个BBS上看一些文章都是乱码(比如SARS版phlin的文章), 偶今天试
着选了GBK简体中文,这些乱码就没有了. 偶感觉GBK是包含GB2312的,但
其它的几种汉字编码是什么关系呢?哪种编码是最新的最通用的?
偶的机器上就有下列几种locale:
zh.GBK
zh_CN.EUC
zh_CN.GBK
zh.UTF-8
zh_CN.UTF-8
zh_TW
zh_TW.EUC
zh_TW.BIG5
zh_TW.UTF-8
Google了一下还是不清楚,哪位大侠给讲讲?
S***a
发帖数: 3956
2
来自主题: Military版 - 汉字未来的出路在哪里
汉字编码系统的信息压缩率远高于英文。不信你可以去把中文跟英文版的联合国宪章分
别保存到txt文件里面然后比比它们的大小。汉字录入的速度也显著高于英文。
汉字的编码系统比英文复杂,但现在计算机的计算解码能力已经远远过剩了,而存储传
输录入这种东西是永远不会过剩的。所以现在汉字其实是远比英文更适合计算机的语言
系统。
S***a
发帖数: 3956
3
来自主题: Military版 - 汉字未来的出路在哪里
当然可以直接类比。同样的内容,同样的信息量,用汉字编码就是要比英文编码节省一
半的存储空间,网上传输要少占一半的带宽。汉字是高压缩度的语言系统。英文是低压
缩。就像C++对比汇编语言一样。
d**y
发帖数: 18174
4
来自主题: Military版 - 汉字未来的出路在哪里
对汉字编码之后存txt和英文直接存txt不能直接类比
n********s
发帖数: 144
5

提取两标点符号之间的两个汉语词,如“你 好”,或者如。有 什么,

结果老错,应该是汉字正则表达式有问题,麻烦帮忙看一下:


%{
#include
#include
#include
#include
#include
%}

%%
[\u3001-\u303F]+[\u3000]*[\u2E80-\u2EFF\u2F00-\u2FDF\u31C0-\u31EF\u3200-\
u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30
-\uFE4F\uFF00-\uFFEF]+[\u3000]+[\u2E80-\u2EFF\u2F00-\u2FDF\u31C0-\u31EF\
u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\
uFAFF\uFE30-\uFE4F\uFF00-\u... 阅读全帖
F******k
发帖数: 197
6
Don't deal with 汉字 in lex before and don't know the exact error you got,
compiling or runtime? But here are some thoughts you may take:
1) Does your lex return wide char string? I mean yytext from from lex.
2) You need printf(L"%s") or printf("ls") to print out wide char string
3) Could be some typo here [[\u3000]* (duplicated [[, you don't want strings like [[[ or [[\u3000\u3000[[[[, but I may be wrong here)
y**********7
发帖数: 769
7
来自主题: ChineseMed版 - [合集] 人体里有个自愈医院(zt)
非常认同,相当受益. 看来,'礼失而求诸野'不虚. 民间真有良医.
潘德孚,男,1935年生。1961年自学中医。后师事温州市老中医方鼎如、胡天游、谷振
声,专习临床治疗。1981年发表《腹诊浅探》,2003年连续发表《阿是治疗和阿是效应
、《阿是联想——内病外治》、《潘德孚医案疑难病例选编》等。最近,写成多篇抨击
医医疗腐败的文章。作者运用中医系统理论,从事汉字编码及语言文字的研究,已出版
专著《汉字要走出编码时代——汉字输入一日通》、《汉字编码设计学》,并发表许多
涉及汉语汉字基本原理和基本常识的文章,如《汉语汉字的起源》、《汉字发展的时空
规律和汉字变革的基本特性》、《汉字拆分的系统性》等,并即将出版《语文学林改错
》。该书的几篇主要文章,构成了一个新汉字学的框架。
T*******x
发帖数: 8565
8
来自主题: History版 - 讨论一下汉语和汉语改革
以下转贴:
论汉语无同音字拼音化的必要性以及具体方案
当年鲁迅先生等学者对汉语同音字问题没有提出较好的解决方案,所以拼音化不了了之
,因为当时还没有汉字编码的概念。但现在是信息时代,汉字编码有好几套如:五笔,
仓颉,郑码,四角码等等。当然这些编码是不能当语言来使用的! 但为什么不能有一种
一字一音无同音的读音码?当这种读音码只要做到高频字读音易读易分辨,绝对是一种
相当优异的汉语拼音化方案。更绝的是她可以与汉字兼容,因为与汉字相互对应,所以
可以互相切换自如。从而完美继承汉语的优点,且又不会造成文化割裂。下面先对汉语
与西方语言作以对比:
汉语拥有最洗练的字单位语素分配与极端强大的构词能力与造句能力从而不需要复杂语
法来使句子简洁易懂;词汇量庞大且天天冒新词但是词的表意性极强基本上是一看就懂
,且非常易记。
西方语言的糟糕的以词为单位的语素分配的后果就是:须要用复杂的语法来使句子简洁
易懂,越是读写一致,单词就越长,语法就越复杂。如德语读写高度一致,其语法就要
比英语要复杂许多。词汇量庞大且天天冒新词但是词的表意性极差除了少数词用到词根
有一定的表意性外,其他的全无表意性,只有靠死记硬... 阅读全帖
c******d
发帖数: 949
9
来自主题: _StoneStory版 - 如何显示输入七万多汉字?zz
原帖在:http://www.zdic.net/appendix/f18.htm
如何显示和输入七万多汉字?
由于汉字总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来
精确的数字。据估计,汉字数量达到11万左右。
这里所说的七万多汉字,是指UNICODE超大字集全部七万多中日韩汉字。(注:Uni
code 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯
一的二进制编码。)
那一般计算机能够显示多少个汉字呢?以简体Windows系统为例,XP默认可显示汉字
字数为GBK,Vista默认可显示汉字字数为GB18030,GBK字符集,GB2312-80,GB 2312-80
的扩展、延伸,“ K”代表扩展 Kuozhan,收入21003个汉字,882个符号,共计21885个
字符。GB18030字符集GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共
计27533个汉字。
要显示75000个汉字,可安装海峰五笔的配套超大字集支持包。
c********i
发帖数: 638
10
从文学城上复制来的,最初来源:中国青年报。
我上去翻了翻,马上喜欢上了!对小孩子学中文的兴趣提高应该是非法有用!
网站:网站 (chineseetymology.org)
最让我感动是他也6,7十岁了,每天晚上都要用QQ跟美国96岁的妈妈聊天。
*******************************************************88
美国“汉字叔叔”自费创建汉字网 为此穷困潦倒(图)
文章来源: 中国青年报 于 2015-04-14 21:19:11
30多年前,美国人Richard Sears因对汉字感兴趣,去了台湾学习汉语,并取中文名斯
睿德。
20多年前,他自费创建汉字字源网,数字化《说文解字》,为此穷困潦倒。
3年多以前,沉寂近20年的他被中国网友发现,被称作“汉字叔叔”.随后,他来到北京
师范大学任教,在中国过得“可敬又可怜”。
3个月后,“汉字叔叔”的3年聘期将结束,他得赶紧找到新工作。
“汗!没想到自己经常检索的汉字网,竟然是一个美国人创建的。”有大学生在网上留
言。
“以前,要找一个字形,得翻很多书。像‘汉’字,我把各种字形、各个部件全找齐喽
... 阅读全帖
O*******d
发帖数: 20343
11
来自主题: _XiZang版 - 谁制定的藏文电脑编码?
汉字简体的电脑编码是大陆制定的,所谓的国标码。 汉字繁体的电脑编码是台湾制定
的,所谓的大五码big 5. 这个藏语的电脑编码是谁制定的?
n*n
发帖数: 157
12
来自主题: JobHunting版 - 请教一道老题目
是不就是当年 UC-DOS 这类系统实现汉字编码的原理嘛。
标准 ascii 码定义了127个符号。编号为1-127,转换为二进制就是 0000 0001 - 0111
1111 这个段。编号128-255的字符是扩展字符,在不同的语言中代表不同的符号。
但是汉字的数量远大于128,一个字节的编码是不够的,于是就需要两个字节来代表一
个汉字。在解码的是时候需要判断第一个字节的最高位是否为0,如果为0,那这个字节
代表一个ascii字符,如果是1,那么这个字节和下一个字节组成一个双字节的汉字字符
o***s
发帖数: 42149
13
《中日韩共同常用八百汉字表》
近日,首份《中日韩共同常用八百汉字表》编辑完成。该课题组人员称,只要熟记808个汉字,即使不会汉语、日语和韩语,在中日韩这三个国家也可以进行简单的语言文字交流。
三国汉字表求同存异
在2010年第五届东北亚名人会上,时任中国人民大学校长的纪宝成教授提出编制一份《中日韩共用常见汉字表》的建议,得到日韩代表的一致赞同。在今年7月8日召开的第八届东北亚名人会上,中方课题组提交的《中日韩共用常见八百汉字表草案》获得会议原则通过。
在选择标准上,课题组对中国1988年3500字的《现代汉语常用字表》、日本2010年2136字的《常用汉字表》和韩国2000年1800字的《教育用基础汉字》进行了比较分析,在今年10月召开的中日韩三国专家会议上,最终确定了808个汉字,并按照繁体汉字统一码编码排序。其中,属于中国《现代汉语常用字表》中常用字的801个,属于次常用字的7个;属于日本“教育汉字”的710字,其余98字均见于日本《常用汉字表》;属于韩国初中汉字的801字,属于高中汉字的7字,符合“共同常用”的标准。字表分为总表和对照表,总表以繁体汉字形式列出,对照表按中日韩三国... 阅读全帖
J*******3
发帖数: 1651
14
斯坦福之清华MM破解中国北斗编码会造成何种后果?
http://www.stanford.edu/~gracegao/
今年3~4月份的美国《Inside GNSS》杂志,披露了美国斯坦福大学研究人员成功破解
我国“北斗”导航卫星信号编码程序的情况。因其中一研究人员为中国留学生,这一消
息传回国内后,一度在网上传得沸沸扬扬。人们还发现,同样是这个研究团队,曾在
2006年成功破解了欧洲“伽利略”导航卫星的信号编码。有读者致信本报,希望了解卫
星的信号编码如被破解,会造成何种后果。本报现试作解读,仅供参考。
“北斗”系统功能丰富
媒体称美若破解北斗系统可掌握解放军部署
卫星导航定位技术是指利用一组导航卫星,对地面、海洋和空间用户进行精确定位。它
具有全时空、全天候、高精度、连续实时地提供导航、定位和授时的特点,已成为应用
广泛的导航定位技术。为了不受制于人,从2000年10月到2003年5月,我国先后发射了3
颗同类卫星,建成“北斗一号”双星导航(另一颗为备用星)定位系统,成为世界上第3
个拥有自主卫星导航系统的国家。
“北斗”卫星定位系统的主要任务,是在我国及周边部分地区,为中低动态及... 阅读全帖
b****s
发帖数: 872
15
2. 其实也简单,是人脑编码灵活性的体现。
人脑编码很灵活,比计算机编码灵活多了。年在日期前还是在日期后,民族有不同习惯
,照样可以工作很好
不过有个特点,必须顺序检索,不能倒着来。所以倒着读书,没几个人做得到。
l******n
发帖数: 75
16
来自主题: Reunion版 - 4月12日北京一签通过,付签经
父母进入大厅后,工作人员说156表汉字编码没有填写,才现改正156表
爸爸的一个名字编码表上没有,跟说北京话的,穿美国制服得工作人员反映,
傻逼狗腿子不管,说谁让你们没有添好(他妈的,什么狗屁工作人员)。妈妈
赶紧去找递交材料的人,那个人还算比较Nice,说编码少一个没有关系。
后来爸爸发现他们得照片脑袋占得比例不够大,不够大头照,不过后来也没有关系了。
一刻钟一波。7:15, 7:30, 7:45。如果不耽误,早就面试了。
弄完了汉字编码结果人很多了。按手印很慢,排队了大概半个小时。
然后得颜色牌子。父母得到得是紫色拍子,11号窗口。大概8:30左右
11号瘦瘦得美国男人,很不错,30左右。有点小胡子。
10号窗口40以上男人,胖些,人们说他拒签率高。
9号黑人小姐,态度和蔼
8号不清除
不到9点,叫到父母
V: 早上好
父母:早上好
V:去看谁呀:
V:你们退休了么?
父母:是呀
V:你们看起来很年轻呀
V:你们是第二次去探亲么?
爸妈:03年去了一次
V:你们延期了么?
妈妈:延期了,(赶紧递交我们得照片)
V:有证明材料么?
妈妈:有,当时因为SARS才延期的
(妈妈想递交延期
m***n
发帖数: 12188
17
来自主题: History版 - 鲁迅和刘晓波都骂了汉字
同音“字”并不一定是问题。因为字是编码体系的一部分。不是最终的产品。
其实汉语同音字未必比英语多。不好比较。
很多人用字来比较,比如“马”,玛,之类。同音。
这是有问题的。
因为对应的英语语音编码是“ice"之类基本结构,比如nice, fice, rice之类,是n+
ice, f+ice, r+ice
ice各个单词里面等于是汉字的同音字。还有别的也发一样的音。
汉字会和别的字组合为词汇,等于n+ice组合为nice
C********g
发帖数: 9656
18
http://my.cnd.org/modules/wfsection/article.php?articleid=29885
人类在发展,社会在前进,不变是相对的,变是绝对的,当然要看时间和条件。
按(http://zhidao.baidu.com/question/49354820),中国的文字从殷商的甲骨文到西周的大篆,又简化到秦朝的小篆和汉代的隶书,又发展到唐朝的楷(真)书。到了宋朝,随着印刷技术的革新,又出了宋体。从宋到民国,文字的演变已不显著,大概是汉字的推演渐趋成熟,它同悠闲自在的生活方式以及规模有限的生产力没有多大的冲突。
50年代,由于汉字笔画繁多,不易学,致使中国文盲较多,在毛泽东的认同下,采取了
汉字简化的方案。应当说,继54运动提倡白话文后,这又是一个进步。对于文字的普及
以及书写速度的加快无疑都起了推动作用。今天看来,这种简化不够彻底,也比较草率
。上世纪末,80286微处理机的普及和微软事业的兴起,带来了自欧洲文艺复兴后的又
一次跃进,人类进入了一个崭新的数字化的、信息化的新时代。这无疑对我们老祖宗留
下的文字是一种挑战。如何应对这种挑战对中华民族的强盛与进... 阅读全帖
z******5
发帖数: 1110
19
看大家伙讨论完法律,又讨论语言,看得我是非常非常地,以及非常地郁闷。
本人才虽不疏,但仍有限。
所以仅以我所知道的和大家讲。
语言和文字,先有语言后有文字,老祖宗最牛的地方,也是中华文化最值得骄傲的地方
就在于我们的文字。我们的文字是真正意义的文字,和拉文字母构成的文字最根本的区
别在于,拉丁字母构成的文字属于“语、文不分”,“文”不过是“语”的拼音。最典
型的德语,只要你知道最基本的发音规则,即使这个词你不懂,你照样可以准确念出来
。大部分西方语言皆是如此,唯英文有些独特,但并不难理解,各种奇怪的发音规则是
因为借用了大量外来词。
从编码的角度讲,我们的文字是二维,那么一个字符变化可以有多少种,按照10×10的
正方形算,这个概率怎么算,来个学数学好的算算?而西文一个字符不过26种(俄文,
德文之类的稍多一些),所以我们的文字信息储存量大,消耗空间少。西方文字语、文
一体,语言说的通就基本不用特别学习文字,这是西文的一个优势,但汉字系统更加便
于背记、识别、理解。再就是我们的词汇,以双汉字词为主,一个双汉字词能表达的意
思比一串西文字母排列组合所表达的意思要多不少,同时由于每个汉字都... 阅读全帖
r**********e
发帖数: 133
20
来自主题: Zhejiang版 - (ZT) 也谈生僻字的信息处理
http://info.motherol.com/Info/job/lunwen/it/2006052795652_2.shtml
汉字的信息处理经过多年的摸索,冲破了以前汉字不能进入计算机的迷信,取得了
可喜的成绩,但离能完全满足实际使用的需要还有很长一段距离。
我们先回顾一下计算机中的字库,然后讨论生僻字的信息处理方法。
一、汉字库发展简介
汉字库通俗地说就是计算机软件系统中的汉字仓库,依据不同的标准,字库中汉字
的数量是不同的,以前的主要标准有:
1、GB 2312 汉字编码字符集
从1975年开始,我国为了研究汉字的使用频度,进行了大规模的字频统计工作,内
容包括工业、农业、军事、科技、政治、经济、文学、艺术、教育、体育、医药卫生、
天文地理、自然、化学、文字改革、考古等多方面的出版物,在数以亿计的浩瀚文献资
料中,统计出实际使用的不同的汉字数为6335个,而其中有 3000多个汉字的累计使用
频度达到了99.9%,而另外的3000多个累计频度不到0.1%,说明了常用汉字与次常用汉
字的数量不足7000个,这就为国家制定汉字库标准提供了依据。1980年颁布了《信息交
换用汉字编
d*****u
发帖数: 17243
21
来自主题: History版 - 废除简体字就是废除汉字
汉字简化方案主要是为了书写方便,其效果当然也是不能否认的。目前争议比较大的就
是得失的问题。我现在抛开这个,从其他方面来谈谈,也等于回答您的问题。
我们知道语素(或者扩大到词)是音、意结合体,理想的文字当然是两个都表,这样识
别起来最准确最高效。但是困难在于这样需要的编码太多。所以大部分文字都放弃了表
意--如果同音词不多,也不是大问题。也有的文字采取了折衷方案。比如英语,flower
和flour是两个同音语素,在英语的文字方案里也有不同写法,实际有表意作用。汉字
的发展过程基本上是越来越倾向一个语素对应一个汉字,同时也增加表音(形声字)。
但是由于历史上汉字没有不断修订方案,所以随着语音的演变表音作用逐渐失去了。
如果要改革汉字,我个人认为从以下几点入手:
(1)强化表意属性,意义差别较大的语素必须分写(罕用的例外)。
像“发(财)”“(头)发”,“干(净)”“干(活)”。。。
现在的简化字方案不但没有朝这个方向努力,反而有背道而驰的意思。
不要以为我只是想恢复繁体,其实要是把“髮”简化成“髟”之类的原则上我没意见。
而且,我还建议增加一些新的汉字。比如前面说过的,区分“花(钱)”
H******7
发帖数: 1728
22
解压缩汉字的文件 总出现 编码不对,乱码的情况..大家怎么解决的?
比如下载的中文音乐专辑打包的文件.在WINDOWS里解压缩没有任何问题, MAC里用
BETTERZIP 或者 StufIt expander,或
者Archive Utility 都是有问题..歌名都是乱码..歌曲信息(歌手 专辑)什么的也都是
乱码. 一首一首的改很苦恼.也不切实际.
这个是一直比较郁闷的.
想问问大家的方法,彻底解决一下.
t******g
发帖数: 10390
23
来自主题: BuildingWeb版 - 关于汉字乱码的问题。
我用http://www.scriptarchive.com/的wwwboard做的论坛。
可总是有汉字乱码的问题。
主要是HZ乱码比较讨厌。
经常打乱版面。
请问有没有办法在cgi里控制好不让HZ编码通过,或者把HZ编码改成GB?
多谢了先。
S***a
发帖数: 3956
24
来自主题: Military版 - 汉字未来的出路在哪里
我这个类比非常对。
英语=简单编码,低信息压缩
汉语=复杂编码,高信息压缩
汇编=简单编码,低信息压缩
C++=复杂编码,高信息压缩
e****e
发帖数: 1885
25
这个犭回多形象啊,可惜打不出来。这个字应该也就是100多年前的事情,应该算是近
代汉字。可以看出,限制中文发展的不是中文本身,而是中文输入法和汉字编码格式。
什么时候,人们能够根据像手写一样,按照需要自行构造汉字,汉字的数字化时代才不
会变的死板一块,缺少演变和发展。
a*****g
发帖数: 19398
26
显示 Branch Tip的时候,如果能够用汉字数字“一二三”就好了。
Default设置Tip第一个是字母A,后续是 B C D……
虽然可以设成汉字数字“一”,但是后续第二个不是数字“二”,
而是(按照某个汉字编码的)“一”下面那个汉字
这个需求来源,
主要是在教美国小朋友围棋的时候,希望他们能够学到中文,并且提问时学生能答中文。
对普及中华文化有好处。
a****n
发帖数: 10
27
来自主题: Software版 - 帮助显示正确中文的软件有吗?
哈哈,汉字编码涉及email编码,字体编码,很牛的技术。
建议你先google乱码大全之类的补补基础知识,软件推荐becky.
d*****u
发帖数: 17243
28
来自主题: Programming版 - perl的hash怎么用汉字做key啊
我对perl不熟
用了汉字作key,比如 好人=>1
总是不能读
换成haoren=>1就可以
是编码问题,还是perl不允许汉字作key?
thanks
d*****l
发帖数: 8441
29
来自主题: Military版 - 常用汉字三千八
大码本,千年进化出来的组词(编码)方式,必然带来极高的编码效率。
d****o
发帖数: 32610
30
来自主题: Military版 - 这个很重要吧?
dna就是个编码系统,蛋白质才管功能实现
就算弄个汉字编码的dna也没什么不一样
f*******z
发帖数: 32
31
用一个叫The Unarchiver的解压可以选不同文件名编码的。
p*********e
发帖数: 32207
32
来自主题: Apple版 - 开个帖子专门说说字体吧.
门这个恐怕是你mac设置的问题
需要注意的是,macos如果语言设置为英文环境
那么对非unicode解码的默认顺序是先日文后中文
除非你专门设置把中文优先级提高
你所说的中间一竖是日文下"门"的显示,不是中文的
为了落实这个,我刚在iphone上设定语言环境为日文然后刷新页面
出来的门字就是你说的那样
而再换回中文语言环境再换回英文环境
门字的渲染又回到正常的情况
ios设备上没有对上述顺序的设定
所以如果没设为中文界面的话默认的英文环境下对汉字编码渲染就会有这种问题
解决方法就是设成中文环境再设回来
包括所谓大小粗细不一也是日文汉字解码的典型症状
fyi
m***n
发帖数: 12188
33
来自主题: History版 - 鲁迅和刘晓波都骂了汉字
同样,今天的中国小学生一般也接触过世界、圆寂之类词。
这些都是基本词了。逻辑之类也是。山沟里的老太婆可能不懂。不过老太婆知道一些野
菜的名字,你可能不知道。
骆驼,骕骦,大约是同时进入汉语的外来语,但是前者是今天的基本词汇,后者不是。
关键是中文的构造能力确实是强,也就是信息编码能力更强,信息编得更密集。你学会
了3000以后能理解的更多,比你学会了英语的3000后能理解的要多很多。 这一点没什
么可说的。
dys是一个常用前缀。
好比 a-也是常用前缀。
但是懂得asocial的,不见得懂得aphoria。
其实多数普通美国人连 asocial都不太明白意义。anti-social更普及好懂一些。

詞都
m***n
发帖数: 12188
34
来自主题: History版 - 你们鼓吹汉字的统一一下
遗憾,楼主没看懂我的论点。
简单总结一下:
1)中文的文字独一无二,其编码设计比较特别。有特别的好处。
2)现代汉语普通话的发音(古代汉语不算),非常简洁实用(相对于许多其它语言)
。这里面当然有一代代阿尔泰前仆后继的功劳。第一是音节语言,所有音节以元音或者
n鼻音结尾,发音清楚响亮,容错性强,受环境噪音之类影响较小(和辅音结尾和带有
大量擦音的语言相比较)。第二,音调经过阿尔泰的淘汰选择,只剩下四个,而且是不
容易混淆的四个。音调等于是扩展了人类可能发音的数量,四个音调是扩大了四倍,容
易混淆的音调被淘汰了。等于是优化了音调系统。缺点或许也有,比如没有颤舌音(这
个有疑问)。
d*****l
发帖数: 8441
35
来自主题: Military版 - 常用汉字三千八
汉语正是高效压缩过的,千年进化。
当然有效率的区别啊。你以为世界上所有的编码方法都是一样的吗?
y****g
发帖数: 36950
36
大家大脑里都有个解码的库文件,这个库越丰富,平时读的句子就可以压缩的越简单。
每种语言都是这样,但是汉字的压缩率尤其高,解码还原时也比较准确,哈哈
S***a
发帖数: 3956
37
来自主题: Military版 - 汉字还是很经济的
相当于编程里面高级语言跟汇编语言的区别。
中文的信息编码率比拼音语言高,不过对编译器(人)的要求也更高,所以也难学。
S***a
发帖数: 3956
38
来自主题: Military版 - 汉字还是很经济的
即使是通俗小说,英文翻中文也可以把篇幅缩小近一半。如果是再翻成古汉语的话还可
以再缩小一半。不过古汉语是要花大量时间才能熟练掌握的,那个东西的编码率太高了。
L*********s
发帖数: 3063
39
工业标准都是人家制定的,
TCP/IP HTLM JPEG MP3 MPG PDF SQL XML CSS ...
要想在基础领域领先必须在制定工业标准上领先,国内团队英语是个瓶颈,所以只能制
定汉字编码方面的工业标准
r********n
发帖数: 7441
40
来自主题: Military版 - 激光陀螺的秘密程序编码泄露了
绘图仪用c比较好控制,想当年刚进实验室那会,进口绘图仪还没有中文字库,都得自
己设计点阵字库来输出,后来发现可以直接调用金山汉字的字库,尼玛,现在的小孩写
个javascript就牛的不行,懒得说了
c****3
发帖数: 10787
41
所以我说现在的人工智能方向,都在搞计算机自己想象的,你去问学生物的,他们肯定
不同意这个方向。
神经网络是不错,但是具体到神经脉冲的编码,这个最基本的,都没有人知道。具体到
神经网络里面,每个模块,是预先设计好基本功能,同时又具备适应性。还是都是随机
产生的,区别大了。
c****3
发帖数: 10787
42
其实就知道很少一点。知道神经元,知道视觉识别的cortex是分层的,知道点外围神经
元功能。连最基本的神经脉冲,是怎么编码的,都不知道,更不要说神经网络内部是如
何协调工作的。
所以人工智能,还是要分清仿人脑原理,还是自创发明智能,比较好。
否则到最后,自说自话,连人家生物神经学都不知道如果工作的,搞计算机的,到信誓
旦旦,说人脑是按照统计学工作的。
s***c
发帖数: 1926
43
西文,日文,汉字编码又没啥区别
y**********r
发帖数: 2004
g****7
发帖数: 13
45
我写的是中文。。。
p******i
发帖数: 1092
46
各个领馆要求不一样
请看你的领馆的网站:中英文都要看
c****d
发帖数: 3097
47
来自主题: LosAngeles版 - 为什么满版都是和减肥有关的帖子
因为汉字编码不同,需要内码转换
R****7
发帖数: 617
48
是不是编码问题,可能是gb码,mango可能只支持unicode
1 2 3 下页 末页 (共3页)