にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2022/03/25. 10:41:17.

文字コードの変換いろいろ

今、製作中のとあるプログラムは、いろんなテキストファイルを読んだり書いたりします。んで、それらのファイルには、いろんな文字コードが使われている可能性があります。また、プログラム自身も、いろんな文字コード(少なくとも、SHIFT-JISの他にUTF-8)でファイルを出力する必要があります。

Windows上でのみ動作するプログラムなので、まあ、最低限SHIFT-JISとUnicode(UTF-8)をサポートできてればいいとも言えなくはないのだけど。やはり、内容的に、JISやEUCもサポートしておいた方がいいと思います。

というわけで、いろんな文字コードを扱えるようにプログラムを書かないといけないわけなんですが。
SHIFT-JISとEUCの判別って結構微妙ですね…。C Magazineの記事に寄れば、「SHIFT-JISであると解釈して読んでいった場合のエラー数」と、「EUCであると解釈して読んでいった場合のエラー数」とを比較して、エラー数の少ない方の文字コードで書かれていると解釈するのが定石なのだとか。

しかし、SHIFT-JISで、半角カタカナ文字を許容すると、SHIFT-JIS・EUCの誤認が多くなる可能性があるのですよね。まあ、Windows上で生成されたファイルを読む可能性が高いことを考えれば、「あやしいものは全部SHIFT-JIS」という解釈でも良さそうな気もしますが。

今月のC Magazineに文字コードに関する処理の記事があって、ちょっと参考に読んでました。あと、1999年にも文字コードの特集があって、それも引っ張り出して読んでます。^^;;;

で、プログラム側が出力する文字コードとしては、たぶん、UTF-8が最も多くなるんじゃないかと思います。というわけで、UTF-8で出力しないといけないのですが。
C++ Builderには、UTF8Encode関数とUTF8Decode関数が用意されているので、これを使えば簡単に、UTF-8とSHIFT-JISの相互変換ができる…はずなのですが(^^;)、どうも、SHIFT-JISからUTF-8への変換がうまくいきません。

試しにUTF-8に変換させたものをファイルに出力して、Unicode対応のテキストエディタで読ますと、一部の日本語が破壊されているのですよね…。
ううーん。なんでだろ。

Windowsは、Win32 APIで、UTF-8に変換するMultiByteToWideChar関数を用意しているので、これを使ってみようかな…。
Windows APIは、MSDNライブラリで調べるとヘルプがずらずらっと出てくるんだけど、英語ドキュメントが多いんですよね…。日本語で語ってくれよ…。^^;;; 英語でもパラメータの意味とかは分かるけど、細かな使い方の説明を読まないとわからない場合に、ちょっと困るです…。orz

あ、ところで、C++BuilderのRichEditコンポーネント(確か、Windowsのワードパッドでも使われてるRiched32.dllを使ってるんだったと思うけど)では、何にもしなくても、UTF-8で書かれたファイルを普通に読み込んでくれるんだけど。
これは、内部で自動的にSHIFT-JISに変換してくれてるということなのかな…。

どうせなら、UTF-8での出力メソッドとかもデフォルトで用意してくれてたら良かったのに。(^^;;;

やっぱり、コンポーネントに頼らずに、1バイトずつ自前で処理するコードを書かねばならんのかな…。つーか、そっちの方が結果的には早いのかな?(^^;;;

日本語環境では、日本語処理って頻繁に行われる作業だと思うんだけど、なんで標準で文字コード変換系の便利な仕組みが用意されてないんだろうか。
…用意されてんのかな?(^^;)

この際、今後のために、自力でSHIFT-JIS・JIS・EUC・UTF-8の相互変換ライブラリでも作るか!?(^^;;;

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---