にしし ふぁくとりー(西村文宏 個人サイト)

Presented by Nishishi via Movable Type. Last Updated: 2017/05/11. 12:21:29.

SHIFT-JISとUTF-8の判別

日本語で使われる文字コード
 ・JIS
 ・SHIFT-JIS
 ・EUC
 ・UTF-8
これらの判別って、かなり難しいのねえ…。^^;;;

JISコードには独特のエスケープ文字があるので判別はほぼ確実に可能でしょう。SHIFT-JISかEUCかというのも、SHIFT-JISであると解釈した場合とEUCであると解釈した場合とでエラー数を比較すれば、わりと確実にできます。
問題は、SHIFT-JISかUTF-8か、という判別。
これ、使ってるコードがかぶってるし、機械的にどっちか判別するのってかなり難しそうなんだけど。

一般のエディタとかブラウザとかは、どうやって判別してんだ?

UTF-8に、Unicodeの頭3バイトにあるBOM(Byte Order Mark)がありゃいいだろうけど、BOMは付けなくてもいいから、必ずしもあるとは限らないしなあ。

今、大学院棟の自席です。
今から帰宅します。^^;

コメント

コメント数: 0件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。






※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、実際にページ上に掲載される前に、管理者によって確認される設定にしている場合があります。その場合は、投稿後にその旨が表示されます。たいてい1~2日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi にしし/西村文宏 on Google+ フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

関連する記事など

※下記には、本サイト内外の関連記事などが8本くらい自動で表示されています。

このブログ内限定での主要なカテゴリ

track word

--- 当サイト内を検索 ---