关于gb18030的讨论汇总 - 话题女王

全部话题 - 话题: gb18030

c***l
发帖数: 2490

来自主题: Military版 - 天天反对简化字的是不是只知道GB2132, 不知道GBK和GB18030？

真当国家的规范化汉字是狗屁啊？
GB18030 比 big5差哪里了？

c******d
发帖数: 949

原帖在：http://www.zdic.net/appendix/f18.htm
如何显示和输入七万多汉字？
由于汉字总数非常庞大。汉字总共有多少字？到目前为止，恐怕没人能够答得上来
精确的数字。据估计，汉字数量达到11万左右。
这里所说的七万多汉字，是指UNICODE超大字集全部七万多中日韩汉字。（注：Uni
code 是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯
一的二进制编码。）
那一般计算机能够显示多少个汉字呢？以简体Windows系统为例，XP默认可显示汉字
字数为GBK，Vista默认可显示汉字字数为GB18030，GBK字符集，GB2312-80,GB 2312-80
的扩展、延伸,“ K”代表扩展 Kuozhan,收入21003个汉字，882个符号，共计21885个
字符。GB18030字符集GB18030字符集，包含GBK字符集、CJK Ext-A 全部6582个汉字，共
计27533个汉字。
要显示75000个汉字，可安装海峰五笔的配套超大字集支持包。

s**e
发帖数: 2543

来自主题: _XiZang版 - 小v,关于藏文输入的问题

何伯的回答：
发信人: ylsdd (河伯), 信区: sysop
标题: Re: 3K，小微请考虑支持藏文输入
发信站: BBS 未名空间站 (Thu Mar 22 15:45:05 2007), 转信
这个技术上很难的，因为有文字编码的障碍。telnet 终端通常支持 gb2312/gbk 编码
，但不支持 utf-8/gb18030 编码。所以 bbs 内部都是用 gb2312/gbk 编码保存资料的
。然而 gb2312/gbk 编码并不包含藏文。如果改用 gb18030 保存资料，telnet 下大体
兼容原来的格式，程序大概不用多改，但是现在很多浏览器并不支持 gb18030，特别是
美国的读者。如果改用 utf-8，www 比较方便，然而 telnet 下需要进行复杂的换码，
动态转换为 gbk，程序改动太大，而且最后负载也会很高。所以两种方法都难以行得通
。第三种方法是指望用户都采用支持 utf-8 的终端，但显然用户没有这个动力。

a******g
发帖数: 72

来自主题: shopping版 - 请问怎么在英文的WORD里面装中文字库？

四大GB18030字库：宋体、黑体、楷体、仿宋体
(国标GB18030是比GBK更全的标准，基本上包括两岸三地的所有中文汉字。)
Fonts_GB18030.zip (32.65 MB)
http://www.multiupload.com/UP8FH3QNL1
解压后直接 copy到 [SYS Disk]:\Windows\Fonts
Word和Windows是共享字库的。

a***h
发帖数: 283

来自主题: Apple版 - Mac 在txt，word 中文字体乱码问题请教

mac新手，希望高人赐教！
1） TXT文档（windows下建立）的乱码
刚重装了mac系统，偶按照网上建议的把preference中的open/save plain txt 改为
Chinese GB18030。然后打开txt文档，可以看到中文，无乱码。
但没几天发现这些txt打不开了，显示：...cannot be open. Text encoding Chinese
(GB18030) isn't applicable.
无论怎么调都不行了。不知道是不是我又装了些其他软件（VMfusion w/ win7，
acrobat professional,...) 还是动了哪里？
现在用一种笨办法，拷回windows中的word，save，再粘回mac中的txt，中文ok。
另一法拖到safari可以看中文，但我需要编辑。
2） word文档下的奇怪字体和乱码
从web上拷中文过去，总默认为像是日文的字体，深深浅浅，有时还会有框框，问号。
只能手动先改为宋体，再粘才能正常。
装mac系统之前很正常，可以粘过去直接就是宋体，中文深浅都没问题。
试过改二者的preferences（也许

a*******e
发帖数: 3021

来自主题: Linux版 - 有人用fedora9的中文locale吗？

什么最好？zh_CN.gbk, or zh_CN.gb18030, or zh_CN.gb2312?
我怀疑有没有gb2312.
最近我用gb18030, 其他一切都好，比如
yum install rdate
设置安装进程
分析安装参数的语法
解决依赖相关

a*******e
发帖数: 3021

来自主题: Linux版 - thunar的中文问题

fedora9, xfce4
系统locale=zh_CN.gb18030 (LANG)
使用thunar文件管理器，发现如下问题：
在thunar里面右键创建的中文文件名／目录名，在terminal里面看是乱码。
但是在terminal里面创建的中文文件名／目录明，thunar能正确显示出来。很怪阿。
咋回事？
echo $LANG
zh_CN.gb18030

m**********g
发帖数: 434

来自主题: Linux版 - ubuntu9.04如何解决在wine里面安装简体中文软件的乱码的问题？

我找了一圈，这个问题还存在，现在发现：
如果我在Language Support里把语言设置为中文再重启之后，那个文件“/etc/default
/locale”里的两行就从原先的：
“
LANG="en_US.UTF-8"
LANGUAGE="en_US:en"
”
变成
“
LANG="zh_CN.UTF-8"
LANGUAGE="zh_CN:zh:en_US:en"
”
然后，我再安装WINE（装了两次，分别是1.01和1.1.21两个版本的WINE）,之后再在
WINE上安装运行简体中文软件，这次只有一半显示乱码了，还有一半中文显示正常。
我现在猜测：是不是UTF-8的语言格式对简体中文支持还不够完全，还得再加上点GBK,
GB2312, or GB18030等语言包呢？
现在问题是：如何找到并安装这些GBK, GB2312, or GB18030的语言包,在ubuntu 9.
04下，或WINE中(seems mission impossible now)？
如果用Ubuntu 9.04里默认的那个Language Support添加新的语言包，中文的只有个UTF
-8.
a

I*a
发帖数: 297

来自主题: Linux版 - 如何在fcitx下输入中文

生成cn环境。
sudo gedit /var/lib/locales/supported.d/zh
加入如下内容
zh_SG.UTF-8 UTF-8
zh_HK.UTF-8 UTF-8
zh_TW.UTF-8 UTF-8
zh_CN.UTF-8 UTF-8
zh_CN.GB2312 GB2312
zh_CN.GBK GBK
zh_CN.GB18030 GB18030
zh_HK.Big5 Big5
zh_TW.Big5 Big5
然后
sudo locale-gen

xt
发帖数: 17532

来自主题: Military版 - 哪个猪头还用GB码写网页？

GB18030还是挺牛逼的，这个网页目测像是GB2312

l****h
发帖数: 272

来自主题: HiFi版 - batch ape->flac convertor 有什么推荐？

Linux:
for x in `find . -name '*.cue'` ; do cue2tracks -c flac -o "%P-%A-%t" -R -f
gb18030 $x; done

d*b
发帖数: 21830

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

the answer is NO, chinese, japanese and English has different kernel.
However, you can add local language package on ultimate-- which means, you
will have Chinese unicode support, but still, not natively supports GB18030.
Some Chinese software still have trouble.

p****t
发帖数: 347

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

装上MUI就可以界面中文了吧

GB18030.

d*b
发帖数: 21830

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

as I said, it is Unicode Chinese, Not GB18030 Chinese, some software, like
QQ will have some problem.

d*b
发帖数: 21830

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

早说了，国内很多软件的中文界面不是unicode的，是GB18030的。如果你不明白为什么
不用unicode,自己看信息产业部的公文吧。同样道理，为什么中文版的windows是GB码
而不是unicode. 英文版的windows不native支持中文GB码，为什么总有那么多自做聪明
的人jjww这jjww那呢？

d*b
发帖数: 21830

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

这帮人总是喜欢凭空想象，随便举个例子：紫光拼音就是GB18030的界面，在unicode下
根本就是乱码----unicode的中文定义才3000多字，都没有大字集，怎么正确显示中文？

S**l
发帖数: 67

来自主题: shopping版 - windows 7 ultimate版是不是可以直接选择中文系统？

早就不是了。。
从vista开始，windows就是 language neutral opereting system。只不过非
ultimate和enterprise的版本只允许装一个 language pack而已。
vista和 7的中文版就是一个 neutral kernel + chinese。支不支持gb 编码在 non-
unicode里面设置就行了。有的程序还显示乱码只不过是因为你locale没有设置为中国
而已。

GB18030.

y*******r
发帖数: 55

来自主题: Canada版 - 学识广东话，走遍大加拿zz

粵語字打法
前言
近段時間普遍發現網上使用粵語「交流」的人常使用諧音字，究其原因主要有兩種：一.不懂正字如何打。二.雖懂，但不知道打法。
爲了保持粵語字的規範，現列出正字及其打法(拼音，五筆)，對於知道但懶打的人希望他們應本着愛護粵語之心，保持其規範，使粵語及其
文化能持續健康發展。
(推薦使用 1024×768 像素觀看此文件)(以粵語發音音標排列) 製作人：Anl / Highyun / Logic_GZ
紫光拼音輸入法以3.0版爲準；智能陳橋五筆以5.4版爲準。本網頁部分字體需安裝GB18030或香港參考宋體(華康標準宋體)才能顯示。

y***1
发帖数: 17

来自主题: Go版 - 后知后觉一下

以前是加-Dfile.encoding=GB18030 -Duser.language=zh_CN
可见Java这种东西完全是垃圾，普通用户看个棋谱还得绞尽脑汁去改什么参数，简直是
杯具。。。

y***q
发帖数: 100

来自主题: AudioBook版 - 请问chengyaojin

no luck.
tried both UTF-8 and GB18030...

B********4
发帖数: 7156

来自主题: Joke版 - 一个测试工程师走进一家酒吧

在Visual Studio中的Debug模式下，如果声明一个变量，但是没有初始化，微软会给未
初始化的内存复制为0xCC。给为初始化的内存赋0xCC是有原因的，0xCC其实是INT3中断
指令，所以如果在Debug模式下试图去执行这块未初始化的内存的话就会中断程序。但
VS中调试器默认的字符集是MBCS，而在MBCS中0xCCCC正好就是中文中“烫”，所以显示
出来就都是烫……
锟斤拷则涉及unicode的字符集转换问题，Unicode和老编码体系的转化过程中，肯定有
一些字，用Unicode是没法表示的，Unicode官方用了一个占位符来表示这些文字，这就
是：U+FFFD REPLACEMENT CHARACTER。U+FFFD的UTF-8编码是0xEFBFBD，如果重复多次
形成：EFBFBDEFBFBDEFBFBD 这样在GBK/CP936/GB2312/GB18030的环境（都是中国标准
惹的祸）中显示的话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，
斤（0xBDEF），拷（0xBFBD）……

M*P
发帖数: 6456

来自主题: Joke版 - Re: 280 锟斤拷锟斤拷锟斤拷锟剿凤拷锟斤拷 (转锟斤拷) (转载)

Unicode和老编码体系的转化过程中，肯定有一些字，用Unicode是没法表示的，
Unicode官方用了一个占位符来表示这些文字，这就是：U+FFFD REPLACEMENT
CHARACTER。
那么U+FFFD的UTF-8编码出来，恰好是 'xefxbfxbd'。如果这个'xefxbfxbd'，重复多次
，例如 'xefxbfxbdxefxbfxbd'，然后放到GBK/CP936/GB2312/GB18030的环境中显示的
话，一个汉字2个字节，最终的结果就是：锟斤拷——锟(0xEFBF)，斤（0xBDEF），拷
（0xBFBD）

【以下文字转载自 TVGame 讨论区】

r****y
发帖数: 26819

来自主题: Thoughts版 - 罗德泥

就把if files encoding cant be guessed，use：
设成GB18030
default设成unicode
不过我还没找到bbedit怎么做source formatting
觉得还没有eclipse好使
eclipse除了word wrap比较麻烦，其余都不错。。。

a******f
发帖数: 184

来自主题: PKU版 - 怎么上北大BBS啊

在terminal里面，terminal->Set Character encoding->GB18030
然后
ssh u******[email protected]

a******f
发帖数: 184

来自主题: PKU版 - 怎么上北大BBS啊

在terminal里面，terminal->Set Character encoding->GB18030
然后
ssh u******[email protected]

a***y
发帖数: 19743

来自主题: Apple版 - iTune的中文问题还是蛮烦的

系统改成中文
iTunes可以识别中文tag信息。
encoding选GB18030
如果不行，说明你这个文件编码太诡异。

a***y
发帖数: 19743

来自主题: Apple版 - Opera browser, a joke?

确实一个一个禁止掉比如Arial Unicode MS
GB18030 bitmap
Opera用来显示UTF-8中文的字体一直在变。
一个软件都不能正确选择默认字体，寒。

c********0
发帖数: 262

来自主题: Apple版 - 有的网上下载的TXT中文文档用MAC打开是乱码.一般大家怎么转换.

iconv -f gb18030 -t utf-8 your.txt > new.txt

e****r
发帖数: 581

来自主题: Apple版 - 同志们你们怎么让itune显示中文歌名的啊？

You can use mutagen http://code.google.com/p/mutagen/ to convert the encodings of ID3 tags
make sure they are in unicode
typically id3 tags of downloaded mps from baidu are in gbk, gb18030 or
gb2312
iTunes uses unicode

N****w
发帖数: 21578

来自主题: Linux版 - thunar的中文问题

terminal 的 encoding 设成 gb18030 了吗?

a*******e
发帖数: 3021

来自主题: Linux版 - 纠结死了, 到底是用 GB2312 还是 UTF8 存中文文件名呢

i am old-fashioned so i stick to gbk or gb18030 since i am using both
windows and linux.
another issue is most bt downloads are encoded on windows by gb2312, so if u
use utf on linux, u need to convmv... troublesome...

k****f
发帖数: 3794

来自主题: Linux版 - ubuntu terminal上bbs，大部分都正常的，就说有些帖子是乱码

呵呵，搞定了，原来要用gb18030编码
gb2312在碰到繁体的时候，总是乱码

m**********g
发帖数: 434

来自主题: Linux版 - ubuntu terminal上bbs，大部分都正常的，就说有些帖子是乱码

i see...集合范围上来说，gb18030>gb2312

m**********g
发帖数: 434

来自主题: Linux版 - 我也来问下字体问题:

问题1：浏览器里的字体显示是在服务器端生成，还是在客户端本地生成？比如说：
HTML网页上第一个字设置字体font1，第二个字设置字体font2。
如果是服务器端生成，如果服务器上没有安装font1，那么第一个字是不是就不能显示
为font1的样式了？
如果是客户端本地生成，如果本地没有安装font1，但是安装了font2，那么第一个字是
不是就不能显示为font1的样式了？那第一个字应该显示什么字体样式，如果HTML代码
中没有制定默认字体？再问：如果在HTML中给第一个字追加设置font-family为:font1,
font2(两个字体，中间逗号隔开）。请问在这样的顺序下font1和font2谁更起作用？
如果在font1不能起作用的情况，是不是就font2该起作用？再折腾一下：如果本地自己
安装了一个font3，但是把名字改为font1（就是说字体样式是font3的，但是字体名字
假借font1）,那么，是不是第一个字就应该显示为font3的样式了？
问题2：这个字符集（UTF-8，GBK,GB2312, GB18030等）和font-family(Arial，微软雅
黑，宋体

a*******e
发帖数: 3021

来自主题: Linux版 - 还有什么号的上bbs的term？

都一样，再说2312是gbk的子集是gb18030的子集好像

o**n
发帖数: 1249

来自主题: Linux版 - linux下有没有什么好用的文本阅读器

这个fbreader看中文为什么是乱码，我试了encoding GB2312, GBK, GB18030都不行。
ps 看得是txt，用gedit选GBK就没问题，openoffice也没问题。

a*******e
发帖数: 3021

来自主题: Linux版 - Ubuntu 解压软件的中文乱码问题求教

use gb2312 or gb18030 as locale, not utf-8 since most rar from windows is
using gb2312 for chinese name
or if somebody could write a script to automatically determine encoding on
filename then convmv to correct encoding

o**n
发帖数: 1249

来自主题: Linux版 - 转换encoding问题

try gb18030

T*******x
发帖数: 8565

来自主题: Linux版 - kubuntu 12.04的中文字体还是发虚

Chrome的字体和encoding设置我一直没搞懂：
应该是中文网页设置为中文字体，英文网页设置为英文字体。
而中文网页或英文网页应该由encoding来区别。
encoding由网页自己给出，或者根据内容自动决定。
所以字体设置应该有两种：
比如western encoding就设为sans-serif，也就是英文字体。
而GB18030 encoding就设为宋体。
这是我理解的字体设置和encoding的关系，不知道对不对。
但是这个chrome的字体设置和encoding设置很奇怪：
就一套，不分情况的：
比如encoding，你只能选一个：utf-8, iso, windows, gb, ...
然后字体分为：standard font, serif font, sans-serif font, ...
每种只能选一个字体。
这跟我对字体和encoding的理解都对不上。不知道怎么选择。
比如我想要中文用宋体，英文用sans-serif字体。怎么选？

z*******h
发帖数: 346

来自主题: Programming版 - python处理gb2312的问题

import os
import sys
import urllib2
import cookielib
import codecs
url= 'http://www.mitbbs.com/bbsdoc/Programming.html'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# add a fake UA
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (compatible; MSIE 9.0;
Windows NT 6.1; Trident/5.0)')]
urllib2.install_opener(opener)
request = urllib2.Request(url)
response = opener.open(request).read()
print unicode(response, encoding = 'gb18030')
works on iTerm on Mac... 阅读全帖

t*u
发帖数: 186

来自主题: Unix版 - [转载] How to turn on Chinese Language in Redhat 7.2?

touch ~/.i18n
put the following 2 lines into ~/.i18n
LANGUAGE=en_US.UTF-8
LC_CTYPE=zh_CN.GB18030
reboot your linux box.
your system should have an english environment, and ctrl+space should invoke
chinput. with terminal emulation windows or gaim windows, rightclick and
choose "X Input Method" first.

B**h
发帖数: 103

来自主题: Unix版 - [转载] Pine charset Question

【以下文字转载自 Linux 讨论区】
【原文由 Bach 所发表】
Hi, folks,
How can I specify the charset every time when composing?
Have been trying to see if I can change the header option
but even use rich header or enable-full-header-cmd
still does not show the option
Basically I would like to have an option between iso and gb18030
when composing mails.
So anybody got some idea?
Thanks in advance.

k****e
发帖数: 126

来自主题: EE版 - 嵌入式系统的汉化

hosted环境和freestanding环境区别还是蛮大的，lz这种因该没那么容易，尤其是没源
代码的情况。
多大的字符集，CJK还是GB18030？什么字体？点阵还是要TrueType（系统支持TrueType
不），要不要支持anti-aliasing？都关系到要花多少钱买，免费汉化一些桌面软件小
打小闹可以，做产品当心人家和你打官司哈。
不给源代码的情况下，俺觉得比较可行的办法是加一套单独的显示系统上去，转换原来
系统里的显示信息，在对应的去渲染每个汉字或者整个string到显示屏上。如果想在原
系统上只加入字库信息进行汉化，不给源代码恐怕很难实现啊。

y***q
发帖数: 100

来自主题: _AudioBook版 - 请问chengyaojin

no luck.
tried both UTF-8 and GB18030...

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天