c***l 发帖数: 2490 | 1 真当国家的规范化汉字是狗屁啊?
GB18030 比 big5差哪里了? |
|
c******d 发帖数: 949 | 2 原帖在:http://www.zdic.net/appendix/f18.htm
如何显示和输入七万多汉字?
由于汉字总数非常庞大。汉字总共有多少字?到目前为止,恐怕没人能够答得上来
精确的数字。据估计,汉字数量达到11万左右。
这里所说的七万多汉字,是指UNICODE超大字集全部七万多中日韩汉字。(注:Uni
code 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯
一的二进制编码。)
那一般计算机能够显示多少个汉字呢?以简体Windows系统为例,XP默认可显示汉字
字数为GBK,Vista默认可显示汉字字数为GB18030,GBK字符集,GB2312-80,GB 2312-80
的扩展、延伸,“ K”代表扩展 Kuozhan,收入21003个汉字,882个符号,共计21885个
字符。GB18030字符集GB18030字符集,包含GBK字符集、CJK Ext-A 全部6582个汉字,共
计27533个汉字。
要显示75000个汉字,可安装海峰五笔的配套超大字集支持包。 |
|
s**e 发帖数: 2543 | 3 何伯的回答:
发信人: ylsdd (河伯), 信区: sysop
标 题: Re: 3K,小微请考虑支持藏文输入
发信站: BBS 未名空间站 (Thu Mar 22 15:45:05 2007), 转信
这个技术上很难的,因为有文字编码的障碍。telnet 终端通常支持 gb2312/gbk 编码
,但不支持 utf-8/gb18030 编码。所以 bbs 内部都是用 gb2312/gbk 编码保存资料的
。然而 gb2312/gbk 编码并不包含藏文。如果改用 gb18030 保存资料,telnet 下大体
兼容原来的格式,程序大概不用多改,但是现在很多浏览器并不支持 gb18030,特别是
美国的读者。如果改用 utf-8,www 比较方便,然而 telnet 下需要进行复杂的换码,
动态转换为 gbk,程序改动太大,而且最后负载也会很高。所以两种方法都难以行得通
。第三种方法是指望用户都采用支持 utf-8 的终端,但显然用户没有这个动力。 |
|
a******g 发帖数: 72 | 4 四大GB18030字库:宋体、黑体、楷体、仿宋体
(国标GB18030是比GBK更全的标准,基本上包括两岸三地的所有中文汉字。)
Fonts_GB18030.zip (32.65 MB)
http://www.multiupload.com/UP8FH3QNL1
解压后直接 copy到 [SYS Disk]:\Windows\Fonts
Word和Windows是共享字库的。 |
|
a***h 发帖数: 283 | 5 mac新手,希望高人赐教!
1) TXT文档(windows下建立)的乱码
刚重装了mac系统,偶按照网上建议的把preference中的open/save plain txt 改为
Chinese GB18030。然后打开txt文档,可以看到中文,无乱码。
但没几天发现这些txt打不开了,显示:...cannot be open. Text encoding Chinese
(GB18030) isn't applicable.
无论怎么调都不行了。不知道是不是我又装了些其他软件(VMfusion w/ win7,
acrobat professional,...) 还是动了哪里?
现在用一种笨办法,拷回windows中的word,save,再粘回mac中的txt,中文ok。
另一法拖到safari可以看中文,但我需要编辑。
2) word文档下的奇怪字体和乱码
从web上拷中文过去,总默认为像是日文的字体,深深浅浅,有时还会有框框,问号。
只能手动先改为宋体,再粘才能正常。
装mac系统之前很正常,可以粘过去直接就是宋体,中文深浅都没问题。
试过改二者的preferences(也许 |
|
a*******e 发帖数: 3021 | 6 什么最好?zh_CN.gbk, or zh_CN.gb18030, or zh_CN.gb2312?
我怀疑有没有gb2312.
最近我用gb18030, 其他一切都好,比如
yum install rdate
设置安装进程
分析安装参数的语法
解决依赖相关 |
|
a*******e 发帖数: 3021 | 7 fedora9, xfce4
系统locale=zh_CN.gb18030 (LANG)
使用thunar文件管理器,发现如下问题:
在thunar里面右键创建的中文文件名/目录名,在terminal里面看是乱码。
但是在terminal里面创建的中文文件名/目录明,thunar能正确显示出来。很怪阿。
咋回事?
echo $LANG
zh_CN.gb18030 |
|
m**********g 发帖数: 434 | 8 我找了一圈,这个问题还存在,现在发现:
如果我在Language Support里把语言设置为中文再重启之后,那个文件“/etc/default
/locale”里的两行就从原先的:
“
LANG="en_US.UTF-8"
LANGUAGE="en_US:en"
”
变成
“
LANG="zh_CN.UTF-8"
LANGUAGE="zh_CN:zh:en_US:en"
”
然后,我再安装WINE(装了两次,分别是1.01和1.1.21两个版本的WINE),之后再在
WINE上安装运行简体中文软件,这次只有一半显示乱码了,还有一半中文显示正常。
我现在猜测:是不是UTF-8的语言格式对简体中文支持还不够完全,还得再加上点GBK,
GB2312, or GB18030等语言包呢?
现在问题是:如何找到并安装这些GBK, GB2312, or GB18030的语言包,在ubuntu 9.
04下,或WINE中(seems mission impossible now)?
如果用Ubuntu 9.04里默认的那个Language Support添加新的语言包,中文的只有个UTF
-8.
a |
|
I*a 发帖数: 297 | 9 生成cn环境。
sudo gedit /var/lib/locales/supported.d/zh
加入如下内容
zh_SG.UTF-8 UTF-8
zh_HK.UTF-8 UTF-8
zh_TW.UTF-8 UTF-8
zh_CN.UTF-8 UTF-8
zh_CN.GB2312 GB2312
zh_CN.GBK GBK
zh_CN.GB18030 GB18030
zh_HK.Big5 Big5
zh_TW.Big5 Big5
然后
sudo locale-gen |
|
xt 发帖数: 17532 | 10 GB18030还是挺牛逼的,这个网页目测像是GB2312 |
|
l****h 发帖数: 272 | 11 Linux:
for x in `find . -name '*.cue'` ; do cue2tracks -c flac -o "%P-%A-%t" -R -f
gb18030 $x; done |
|
d*b 发帖数: 21830 | 12 the answer is NO, chinese, japanese and English has different kernel.
However, you can add local language package on ultimate-- which means, you
will have Chinese unicode support, but still, not natively supports GB18030.
Some Chinese software still have trouble. |
|
p****t 发帖数: 347 | 13 装上MUI就可以界面中文了吧
GB18030. |
|
d*b 发帖数: 21830 | 14 as I said, it is Unicode Chinese, Not GB18030 Chinese, some software, like
QQ will have some problem. |
|
d*b 发帖数: 21830 | 15 早说了,国内很多软件的中文界面不是unicode的,是GB18030的。如果你不明白为什么
不用unicode,自己看信息产业部的公文吧。同样道理,为什么中文版的windows是GB码
而不是unicode. 英文版的windows不native支持中文GB码,为什么总有那么多自做聪明
的人jjww这jjww那呢? |
|
d*b 发帖数: 21830 | 16 这帮人总是喜欢凭空想象,随便举个例子:紫光拼音就是GB18030的界面,在unicode下
根本就是乱码----unicode的中文定义才3000多字,都没有大字集,怎么正确显示中文? |
|
S**l 发帖数: 67 | 17 早就不是了。。
从vista开始,windows就是 language neutral opereting system。只不过非
ultimate和enterprise的版本只允许装一个 language pack而已。
vista和 7的 中文版就是一个 neutral kernel + chinese。 支不支持gb 编码在 non-
unicode里面设置就行了。有的程序还显示乱码只不过是因为你locale没有设置为中国
而已。
GB18030. |
|
y*******r 发帖数: 55 | 18 粵語字打法
前言
近段時間普遍發現網上使用粵語「交流」的人常使用諧音字,究其原因主要有兩種:一.不懂正字如何打。二.雖懂,但不知道打法。
爲了保持粵語字的規範,現列出正字及其打法(拼音,五筆),對於知道但懶打的人希望他們應本着愛護粵語之心,保持其規範,使粵語及其
文化能持續健康發展。
(推薦使用 1024×768 像素觀看此文件)(以粵語發音音標排列) 製作人:Anl / Highyun / Logic_GZ
紫光拼音輸入法以3.0版爲準;智能陳橋五筆以5.4版爲準。本網頁部分字體需安裝GB18030或香港參考宋體(華康標準宋體)才能顯示。 |
|
y***1 发帖数: 17 | 19 以前是加-Dfile.encoding=GB18030 -Duser.language=zh_CN
可见Java这种东西完全是垃圾,普通用户看个棋谱还得绞尽脑汁去改什么参数,简直是
杯具。。。 |
|
y***q 发帖数: 100 | 20 no luck.
tried both UTF-8 and GB18030... |
|
B********4 发帖数: 7156 | 21 在Visual Studio中的Debug模式下,如果声明一个变量,但是没有初始化,微软会给未
初始化的内存复制为0xCC。给为初始化的内存赋0xCC是有原因的,0xCC其实是INT3中断
指令,所以如果在Debug模式下试图去执行这块未初始化的内存的话就会中断程序。但
VS中调试器默认的字符集是MBCS,而在MBCS中0xCCCC正好就是中文中“烫”,所以显示
出来就都是烫……
锟斤拷则涉及unicode的字符集转换问题,Unicode和老编码体系的转化过程中,肯定有
一些字,用Unicode是没法表示的,Unicode官方用了一个占位符来表示这些文字,这就
是:U+FFFD REPLACEMENT CHARACTER。U+FFFD的UTF-8编码是0xEFBFBD,如果重复多次
形成:EFBFBDEFBFBDEFBFBD 这样在GBK/CP936/GB2312/GB18030的环境(都是中国标准
惹的祸)中显示的话,一个汉字2个字节,最终的结果就是:锟斤拷——锟(0xEFBF),
斤(0xBDEF),拷(0xBFBD)…… |
|
M*P 发帖数: 6456 | 22 Unicode和老编码体系的转化过程中,肯定有一些字,用Unicode是没法表示的,
Unicode官方用了一个占位符来表示这些文字,这就是:U+FFFD REPLACEMENT
CHARACTER。
那么U+FFFD的UTF-8编码出来,恰好是 'xefxbfxbd'。如果这个'xefxbfxbd',重复多次
,例如 'xefxbfxbdxefxbfxbd',然后放到GBK/CP936/GB2312/GB18030的环境中显示的
话,一个汉字2个字节,最终的结果就是:锟斤拷——锟(0xEFBF),斤(0xBDEF),拷
(0xBFBD)
【 以下文字转载自 TVGame 讨论区 】 |
|
r****y 发帖数: 26819 | 23 就把if files encoding cant be guessed,use:
设成GB18030
default设成unicode
不过我还没找到bbedit怎么做source formatting
觉得还没有eclipse好使
eclipse除了word wrap比较麻烦,其余都不错。。。 |
|
a******f 发帖数: 184 | 24 在terminal里面,terminal->Set Character encoding->GB18030
然后
ssh u******[email protected] |
|
a******f 发帖数: 184 | 25 在terminal里面,terminal->Set Character encoding->GB18030
然后
ssh u******[email protected] |
|
a***y 发帖数: 19743 | 26 系统改成中文
iTunes可以识别中文tag信息。
encoding选GB18030
如果不行,说明你这个文件编码太诡异。 |
|
a***y 发帖数: 19743 | 27 确实一个一个禁止掉比如Arial Unicode MS
GB18030 bitmap
Opera用来显示UTF-8中文的字体一直在变。
一个软件都不能正确选择默认字体,寒。 |
|
c********0 发帖数: 262 | 28 iconv -f gb18030 -t utf-8 your.txt > new.txt |
|
e****r 发帖数: 581 | 29 You can use mutagen http://code.google.com/p/mutagen/ to convert the encodings of ID3 tags
make sure they are in unicode
typically id3 tags of downloaded mps from baidu are in gbk, gb18030 or
gb2312
iTunes uses unicode |
|
N****w 发帖数: 21578 | 30 terminal 的 encoding 设成 gb18030 了吗? |
|
a*******e 发帖数: 3021 | 31 i am old-fashioned so i stick to gbk or gb18030 since i am using both
windows and linux.
another issue is most bt downloads are encoded on windows by gb2312, so if u
use utf on linux, u need to convmv... troublesome... |
|
k****f 发帖数: 3794 | 32 呵呵,搞定了,原来要用gb18030编码
gb2312在碰到繁体的时候,总是乱码 |
|
m**********g 发帖数: 434 | 33 i see...集合范围上来说,gb18030>gb2312 |
|
m**********g 发帖数: 434 | 34 问题1:浏览器里的字体显示是在服务器端生成,还是在客户端本地生成?比如说:
HTML网页上第一个字设置字体font1,第二个字设置字体font2。
如果是服务器端生成,如果服务器上没有安装font1,那么第一个字是不是就不能显示
为font1的样式了?
如果是客户端本地生成,如果本地没有安装font1,但是安装了font2,那么第一个字是
不是就不能显示为font1的样式了?那第一个字应该显示什么字体样式,如果HTML代码
中没有制定默认字体?再问:如果在HTML中给第一个字追加设置font-family为:font1,
font2(两个字体,中间逗号隔开)。请问在这样的顺序下font1和font2谁更起作用?
如果在font1不能起作用的情况,是不是就font2该起作用?再折腾一下:如果本地自己
安装了一个font3,但是把名字改为font1(就是说字体样式是font3的,但是字体名字
假借font1),那么,是不是第一个字就应该显示为font3的样式了?
问题2:这个字符集(UTF-8,GBK,GB2312, GB18030等)和font-family(Arial,微软雅
黑,宋体 |
|
a*******e 发帖数: 3021 | 35 都一样,再说2312是gbk的子集是gb18030的子集好像 |
|
o**n 发帖数: 1249 | 36 这个fbreader看中文为什么是乱码,我试了encoding GB2312, GBK, GB18030都不行。
ps 看得是txt,用gedit选GBK就没问题,openoffice也没问题。 |
|
a*******e 发帖数: 3021 | 37 use gb2312 or gb18030 as locale, not utf-8 since most rar from windows is
using gb2312 for chinese name
or if somebody could write a script to automatically determine encoding on
filename then convmv to correct encoding |
|
|
T*******x 发帖数: 8565 | 39 Chrome的字体和encoding设置我一直没搞懂:
应该是中文网页设置为中文字体,英文网页设置为英文字体。
而中文网页或英文网页应该由encoding来区别。
encoding由网页自己给出,或者根据内容自动决定。
所以字体设置应该有两种:
比如western encoding就设为sans-serif,也就是英文字体。
而GB18030 encoding就设为宋体。
这是我理解的字体设置和encoding的关系,不知道对不对。
但是这个chrome的字体设置和encoding设置很奇怪:
就一套,不分情况的:
比如encoding,你只能选一个:utf-8, iso, windows, gb, ...
然后字体分为:standard font, serif font, sans-serif font, ...
每种只能选一个字体。
这跟我对字体和encoding的理解都对不上。不知道怎么选择。
比如我想要中文用宋体,英文用sans-serif字体。怎么选? |
|
z*******h 发帖数: 346 | 40 import os
import sys
import urllib2
import cookielib
import codecs
url= 'http://www.mitbbs.com/bbsdoc/Programming.html'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# add a fake UA
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0;
Windows NT 6.1; Trident/5.0)')]
urllib2.install_opener(opener)
request = urllib2.Request(url)
response = opener.open(request).read()
print unicode(response, encoding = 'gb18030')
works on iTerm on Mac... 阅读全帖 |
|
t*u 发帖数: 186 | 41 touch ~/.i18n
put the following 2 lines into ~/.i18n
LANGUAGE=en_US.UTF-8
LC_CTYPE=zh_CN.GB18030
reboot your linux box.
your system should have an english environment, and ctrl+space should invoke
chinput. with terminal emulation windows or gaim windows, rightclick and
choose "X Input Method" first. |
|
B**h 发帖数: 103 | 42 【 以下文字转载自 Linux 讨论区 】
【 原文由 Bach 所发表 】
Hi, folks,
How can I specify the charset every time when composing?
Have been trying to see if I can change the header option
but even use rich header or enable-full-header-cmd
still does not show the option
Basically I would like to have an option between iso and gb18030
when composing mails.
So anybody got some idea?
Thanks in advance. |
|
k****e 发帖数: 126 | 43 hosted环境和freestanding环境区别还是蛮大的,lz这种因该没那么容易,尤其是没源
代码的情况。
多大的字符集,CJK还是GB18030?什么字体?点阵还是要TrueType(系统支持TrueType
不),要不要支持anti-aliasing?都关系到要花多少钱买,免费汉化一些桌面软件小
打小闹可以,做产品当心人家和你打官司哈。
不给源代码的情况下,俺觉得比较可行的办法是加一套单独的显示系统上去,转换原来
系统里的显示信息,在对应的去渲染每个汉字或者整个string到显示屏上。如果想在原
系统上只加入字库信息进行汉化,不给源代码恐怕很难实现啊。 |
|
y***q 发帖数: 100 | 44 no luck.
tried both UTF-8 and GB18030... |
|