にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2019/04/11. 13:39:12.

新元号「令和」の合字がU+32FFに割り当てられたけど、そこは丸囲みの「ン」でなくて良いの?(^_^;)

明治以降の元号には1文字で表せる合字「㍾・㍽・㍼・㍻」がある

本来なら漢字2文字で表現される「明治」以降の元号には、それぞれの元号を1文字だけで表せる合字(合成文字)が定義されています。元々JISコードに存在した合字ですが、その後に定義されたUnicodeにも存在していて、それぞれ下記のコードが割り当てられています。

  • 明治の合字「㍾」のコードは、U+337E(UTF-8だとE3 8D BE/シフトJISだと878D)
  • 大正の合字「㍽」のコードは、U+337D(UTF-8だとE3 8D BD/シフトJISだと878E)
  • 昭和の合字「㍼」のコードは、U+337C(UTF-8だとE3 8D BC/シフトJISだと878F)
  • 平成の合字「㍻」のコードは、U+337B(UTF-8だとE3 8D BB/シフトJISだと877E)

合字なので、漢字を半角で表現したような感じになっています。
UTF-8コードの場合は1文字3バイトで表現されますから、データ量としては半分ではなく4分の3ですが。(^_^;)

なぜか「平成」のコードが一番若くて、平成→昭和→大正→明治の順番で定義されているんですよね。^^;
どうしてそうなったのかはよく分かりませんが。

135

で、どうやら、2019年4月1日に発表された新元号「令和」の合字もUnicodeに加えられるようです。(JISコードにも加えるんだろうか?)
とはいえ、もはや平成~明治の合字が定義されている番号に隣接する区画には空きがありません。
そこで、ちょっと離れた位置にあるU+32FF(UTF-8コードの場合は、E3 8B BF)に加えようということになっていたようです。

以下は、本当にそこでいいのか!? という話。(^_^;)

丸囲みのカタカナが順に定義されている領域で、丸囲みの「ン」だけが存在せず、未定義領域が1つだけある

Unicodeには世界中の文字や記号や絵文字が定義されているわけですが、表現のバリエーションによっては同じ文字が複数個定義されています。
カタカナもそうで、「サクラ」みたいな普通のカタカタのほかに、「㋚㋗㋶」みたいな丸囲みのカタカタも定義されています。(でも、丸囲みのひらがなは存在しないっぽいですが。なんで?)

しかし、すべてのカタカナに丸囲みバージョンがあるのかというとそうでもなく、例えば「ン」は存在しないようです。下図参照。

丸囲みのカタカナが定義されているUnicodeの領域付近

Unicodeの番地32D0~32FEに丸囲みのカタカナが定義されていることが分かります。
最後の「㋾」がU+32FEで、その次のU+32FFは未定義になっています。

この順序でいけば、32FF番地には丸囲みの「ン」が来そうじゃないですか?(^_^;;;

しかーし!

なんと、この32FF番地に新元号「令和」の合字(合成文字)が割り当てられます。
良いのかそれで……?(^_^;)
既にAdobeは合字のフォントも作ったようですね。^^;

日本の新しい元号がインターネットをほんの少し混乱させた理由(@TechCrunch)
Adobe、新元号“令和”の合字を追加した「源ノ角ゴシック」v2.001をリリース(@窓の杜)

平成~明治の合字が定義されているU+337B~U+337Eに近い未定義区画ではあるけども

下図は、Unicodeのもっと広い範囲を見たところです。
丸囲みのカタカナの後には、カタカナで表記された各種単位の合字(合成文字)が続き、さらに点数の合字(使っている人は居るのか?^^;)が続き、hPaとかの科学単位の合字の後に、平成から明治までの合字があります。(青枠+緑色矢印の部分)

Unicodeで元号の合字が定義されている区画と、令和が定義されようとしている区画

確かに、U+32FF(赤丸+黄色矢印部分)は既存の元号の合字が定義されている近くに存在する未定義領域ではありますよね。
図では見えていませんが、これ以降の領域には単位の合字が少し続いた後に隙間なく「CJK統合漢字拡張A」領域が続くので、「令和」の合字を加える余地は(しばらくは)なさそうです。

というわけで、「令和」の合字がU+32FFに割り当てられたという話なんですが。
……いや、それで良いのか!?(^_^;)
この定義の流れから行けば、U+32FFには「ン」の丸囲みを入れないといけないんじゃあ……?(^_^;;;

(まあ、既に決まっていることなので、今更ですけども。)

▼いろは歌の47音だけということ?

丸囲みの「ン」は絶対に定義しないという何らかの理由でもあったんでしょうかね?
定義されているカタカナは47個で、「ン」の他に濁音や半濁音もありません。代わりに「㋼」や「㋽」はあります。

とするとこれは、いろは歌の47音だけを丸囲みにした、という解釈なんでしょうかね?
そうだとすると、㋐㋑㋒……の順ではなく、㋑㋺㋩……の順で定義されていたら(定義の意味は)分かりやすかったんですけども。(^_^;)

そもそも、丸囲みの用途が「順序付きの箇条書きの先頭記号」みたいな感じですもんね。
①②③……とか、ⓐⓑⓒ……とかも、想定されている意図はそんなのでしょうし。

※ただ、丸囲みの文字には他に「㊤㊥㊦」とかもありますが。^^; たぶん、他の国の言語でも何かあるんじゃないかと思います。(調べていませんが。)

▼令和の次の元号はどうする?^^;

あと、こんな1個しか開いていない空間に「令和」を定義してしまったら、令和の次の元号の定義場所にまた困りそうな気が……。(^_^;;;
とはいえ、おそらく元号は今後も増えるでしょうから、無限の領域を確保しておくことはできませんから、飛び飛びになることは仕方がない、とするほかないんですけども。^^;

▼そもそも合字は使われるのか?^^;

そもそも、ここに「令和」の合字を定義したとして、果たして利用する人々は居るんでしょうか。^^;
いや、まあ、居るには居るんでしょうけども。本当に合字でないといけない必要性があるのかな、とか。

今のワープロソフトなら、漢字2文字の横幅を狭めて1文字分の空間に押し込むことも簡単ですし、もはや合字の必要性ってなくなっているんじゃないかなとも思うんですけども。

……もしかしたら「平成」の合字を使って1文字分の領域しか確保されていないような記録空間に、新たに元号「令和」を書きたい場合には、合字を使うのかな……。
でも、合字を使うことを前提にしているような古いシステムが、文字コードにUnicodeを利用しているのかどうか疑問ですけども。(^_^;)
Unicodeだけじゃなくて、JISコードでもどこかに追加されるんだろうか?

謎は尽きません。

Unicodeには山ほど合字が定義されている

既にUnicodeには多数の合字が定義されているわけですが、これは従来の文字コードからの互換性を維持するために仕方なく定義した、というわけではなく、Unicodeになってからも積極的に追加定義していく方針なんですかね?(^_^;;;
キリがないので増やすのは止めた方が良いんじゃないかとも思うんですけども。今更この流れは止められない、ということなのかな。

そもそも合字ってJISコードと互換性を維持するための日本語向けのがほとんどというわけじゃないんですかね?
「㋋」とか「㏾」とか「㍰」のような、月・日・点などは中国語圏でも通用するでしょうから、必ずしも日本語環境だけでしか役に立たないわけではないでしょうけども。(^_^;)
(もちろん、平方キロメートル「㎢」とか、デシベル「㏈」みたいな単位記号のように、世界で通用する合字も多数あるんですが。)

まあそんなわけで、新元号「令和」の合字はU+32FFに割り当てられているという話でした。^^;
もし今お使いの環境でU+32FFに割り当てられた「令和」の合字が表示可能なら、ここ→「㋿」に見えるでしょう。^^;

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi にしし/西村文宏 on Google+ フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

関連する記事など

※下記には、本サイト内外の関連記事などが8本くらい自動で表示されています。

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---