Big5

曖昧さ回避 この項目では、中国語の文字コードについて説明しています。その他の用法については「ビッグ5」をご覧ください。

Big5(ビッグファイブ、中国語名:大五碼あるいは五大碼)は、繁体字中国語文字コード文字集合)で、台湾香港マカオといった繁体字圏で最も一般的に使われている。

特徴

1984年5月1日に台湾の資訊工業策進会(Institute for Information Industry)が制定したもので、「電腦用中文字型與字碼對照表」として発行したものである。5大パソコンメーカーであったエイサー(宏碁)、マイタック(神通)、佳佳、ゼロワン(零壱)、FIC(大衆)が共同で策定したことによりこの名がある。このオリジナルのBig5の文字セットは、後の拡張と対比してBig5-1984と呼ばれることがある。

ローマ字アラビア数字蘇州号碼記号類、注音符号のほか、漢字1万3062字を収録するが、そのうち2字は重複しているため、実際の漢字の文字集合は1万3060字である[1]台湾香港マカオなどの繁体字地域で普及しているが、MS-DOS時代の「中国語システム(中文系統)」、WindowsMac OSといったオペレーティングシステムで採用されたことにより定着したデファクトスタンダードである。2003年にCNS 11643の附属書で追認され公的規格となった。

2バイトで約1万3000字を収容し、第一バイトは0xA1〜0xC6および0xC9〜0xF9、第二バイトは0x40〜0x7Eおよび0xA1〜0xFEの範囲をとる。大きく分けて、非漢字、常用漢字、次常用漢字の3つのブロックで構成され、漢字は総画数順、次いで部首順に配列されている。これはJIS X 0208GB 2312の第2水準の「部首・画数順」とは逆になる。なお一部、重複している漢字や、配列の誤りがある。

符号空間がシフトJISと似ており、第二バイトに0x5Cが含まれるため、シフトJISの抱える円記号問題と同様の問題をも抱えている。ただし、シフトJISはJIS X 0208文字集合の符号化方式の一つであるのに対して、Big5は文字集合と符号化方式が一体化しており、通常これ以外の符号化方式で利用されない点が大きく異なる。

拡張

Big5に対しては、これまでさまざまな拡張が行われている。代表的なものについて以下に挙げる。

民間の独自拡張

民間の独自拡張としては、Windows 95以前に最も普及していた中国語システムである倚天中文系統のものが古くから知られている。「碁銹恒裏墻粧嫺」の7字(倚天拡張字)のほか、罫線素片キリル文字丸数字などが採用されている。また倚天の拡張には仮名が含まれ、Big5ベースのシステムで日本語を表現する方法として盛んに用いられた。この拡張は、時に「Big5-Eten」とも呼ばれ、独自拡張としては最も重要なものの一つといえる。

Microsoft Windowsで使われている繁体字文字集合である「コードページ950」は、オリジナルのBig5に、倚天拡張字7字と罫線素片を取り入れたものである。Windows MEからは、「ユーロ記号)」が追加された。

台湾の公的拡張

Big5+
中文數位化技術推廣基金會(Chinese Foundation For Digitization Technology, CMEX, 中推会)が「BIG-5碼字集擴編計畫」により1997年7月に策定したもので、ISO/IEC 10646:1993 (Unicode 1.1) の漢字をすべて取り入れたもの。追加部分は、一般の文書で常用される「標準字集」の4670字と、「推薦字集」の3250字からなる。この文字コードセットは、従来のBig5のコードの範囲を超えていることから、Windowsなどのパーソナルコンピュータ・オペレーティングシステムで使用することができず、ほとんど普及しなかった。Unicodeの漢字をすべて取り込んだことと、文字符号化の手法の2点において中国GBKによく似ている。
Big-5E
「BIG-5碼補充字集 (BIG-5 Extension Character Set)」の略称。Big5の外字エリアに収まるようにBig5+の「標準字集」から政府機関で常用される3954字を選び出したもの。
Big5-2003
中華民国国家標準を所管する経済部標準検験局の委託を受けた中推会は、国内の業者・専門家を招集して Big5の対照表を作成し、CNS 11643に附属書として盛り込んだ。これにより Big5は正式に公的規格の一部分となった。
Big5-2003には、Big5-1984の全ての文字のほか、マイクロソフト・コードページ950のユーロ記号、倚天拡張の0xA3C0-0xA3E0、0xC6A1-0xC7F2、0xF9D6-0xF9FE の範囲の文字が追加された。Big5-2003には、CNS 11643にないという理由で、「行列輸入法」の特殊符号や0xC7F3-0xC875のキリル文字は収録されなかった。それ以外の倚天拡張の文字は全て取り込まれた。

香港の公的拡張

香港増補字符集 HKSCS
香港政府によって当初Big5の拡張文字セット(外字)として制定された文字集合。Big5に収録されなかった広東語方言字、固有名詞や科学技術に用いる漢字、仮名、漢字の部品などを補充したもの。

  1. ^ 漢字領域以外に度量衡記号の領域0xA259-0xA261に「兙兛兞兝兡兣嗧瓩糎」の9文字がある。重複字は「兀」(0xC94A)と「」(0xDDFC)。

参考資料

  • Lunde, Ken 著、小松章、逆井克己 訳『CJKV : 日中韓越情報処理』オライリージャパン、2002年。ISBN 4-87311-108-0。 
  • CMEX財團中文數位化技術推廣基金會(繁体字中国語)

関連項目

日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
  • ISO 5426
  • ISO 5426-2
  • ISO 5427
  • ISO 5428
  • ISO 6438
  • ISO 6861
  • ISO 6862
  • ISO 9036
  • ISO 10585
  • ISO 10586
  • ISO 10754
  • ISO 11822
  • ANSEL
  • MARC-8
国家標準
EUC
ISO/IEC 2022
  • ISO/IEC 2022 CN
  • ISO/IEC 2022 KR
  • CCCII
MacOS
コードページ
  • Macintosh Standard Roman Character Set
  • アラビア語
  • CentralEurRoman
  • EUC-CN
  • Big5
  • クロアチア語
  • キリル
  • デーヴァナーガリー
  • Dingbats
  • ペルシャ語
  • ギリシア語
  • グジャラート語
  • グルムキー
  • ヘブライ語
  • アイスランド語
  • EUC-KR
  • ルーマニア語
  • MacSymbol
  • TIS-620
  • トルコ語
  • ウクライナ語
DOS
コードページ
  • 437
  • 720
  • 737
  • 775
  • 850
  • 852
  • 855
  • 857
  • 858
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 869
  • KOI8
  • Kamenicky
  • Mazovia
  • MIK
  • Iran System
Windows
コードページ
EBCDIC
コードページ
  • 37
  • 293(英語版)
  • 300(英語版)
  • 310(英語版)
  • 351(英語版)
  • 353(英語版)
  • 355(英語版)
  • 357(英語版)
  • 358(英語版)
  • 359(英語版)
  • 360(英語版)
  • 819
  • 930(英語版)
  • 933(英語版)
  • 939(英語版)
  • 1364(英語版)
  • 1390(英語版)
  • 1399(英語版)
  • 8859(英語版)
その他標準
記号用
プラットフォーム
固有
  • ATASCII
  • CDC display code
  • DEC Radix-50
  • Fieldata
  • GSM 03.38
  • HP roman8
  • PETSCII
  • TI calculator character sets
  • ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック
カテゴリ カテゴリ
  • 表示
  • 編集
スタブアイコン

この項目は、文字文字学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(P:文字)。

  • 表示
  • 編集