2005年10月 8日(土) 19時35分00秒 [ソフト開発]
SHIFT-JISとUTF-8の判別
日本語で使われる文字コード
・JIS
・SHIFT-JIS
・EUC
・UTF-8
これらの判別って、かなり難しいのねえ…。^^;;;
JISコードには独特のエスケープ文字があるので判別はほぼ確実に可能でしょう。SHIFT-JISかEUCかというのも、SHIFT-JISであると解釈した場合とEUCであると解釈した場合とでエラー数を比較すれば、わりと確実にできます。
問題は、SHIFT-JISかUTF-8か、という判別。
これ、使ってるコードがかぶってるし、機械的にどっちか判別するのってかなり難しそうなんだけど。
一般のエディタとかブラウザとかは、どうやって判別してんだ?
UTF-8に、Unicodeの頭3バイトにあるBOM(Byte Order Mark)がありゃいいだろうけど、BOMは付けなくてもいいから、必ずしもあるとは限らないしなあ。
今、大学院棟の自席です。
今から帰宅します。^^;
この日記へのコメントはお気軽に! コメント数:0 トラックバック数:0
| « NRI発表 オタク市場規模 4110億円! |
前後のエントリ < 旧 / 新 > | JR宝塚線 時刻表冊子 » |
このエントリーへのトラックバックURLを表示するにはここをクリック
※スパム防止のため、トラックバックURLは別ウインドウで表示します。(JavaScriptが有効でないと表示されません。)
コメント数: 0件