文字コードの判別って難しいねえ…

2005年11月 5日(土) 17時03分00秒 [ソフト開発]

文字コードの判別って難しいねえ…

文字コードの判定について。
判定したい対象のテキストファイルを読み込んで、

BE ＝ EUCコードには絶対出現しないコードが出現した数
BS ＝ SHIFT-JISコードには絶対出現しないコードが出現した数
ML ＝判定に使用する長さ（Max Length）

を、まず出す。MLは、とりあえず2048固定。（＝2KB）
んで、エラー（その文字コードで絶対出現しないはずのコードが出現した数）の判定基準を次の通りとする。

エラー多すぎ：＞ML×25％＋10　（エラーが25％(+10)以上の場合）
エラーなし　：＜ML×0.1％+1　（エラーが0.1％(+1)以下の場合）

+10とか+1というのは、判定に使用する長さが非常に短いテキストが対象になった場合の対策。10とか1とかの値に根拠はないんだけど。

で、上記の数値を使って、文字コードを判別するための条件を以下のようにしました。

◆BEのエラー多すぎ and BSのエラー多すぎ　→ バイナリ
◆BEのエラー数＞ BSのエラー数　→　SHIFT-JIS
◆BEのエラー数＜ BSのエラー数　→　EUC
◆BEのエラーなし and BSのエラーなし → ASCII
◆BEのエラー数＝ BSのエラー数　→　Unknown (or JIS)

判別したいコードが SHIFT-JIS と EUC だけの場合、これで充分なんですが、ここで、UTF-8 が出てくると難しくなります。
んで、以下の条件を加えます。

◆（BEのエラー数が全体の3％を超えている） and （BSのエラー数が全体の1.5％を超えている） and （BEのエラー数＞ BSのエラー数） → UTF-8

私の実験環境で用意した150個のファイルでは、この条件でうまく判別できたんですが…。

果たしてこの条件でどんなファイルでも正しく判別できるのかどうか…。(^^;;;
むむう。
文字コードの判別って難しいねえ…。

UTF-8ファイルの先頭に、必ずBOM（Byte Order Mark）が付加されてれば、間違いなく判別できるんだけどなあ。

なんかもっといい判別方法ないでしょうか。^^;

ツイート facebookシェア LINEで送るはてなブックマーク Pocket URLとタイトルをコピー ☕ コーヒーをおごる

この日記へのコメントはお気軽に！コメント数:0件

著者紹介

にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊＋小説1冊)。著書や記事は「西村文宏(にしむらふみひろ)」名義。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

にしし(西村文宏)連絡先

☕ コーヒーをおごる

製作ツール

以下のようなツールを作って配布しています。

CGIてがろぐお手軽マイクロブログ的フリーCGI

➡ 備忘録・メモ帳・日記・チャットツールなどとしてのほか、「自分専用Twitter」などとしても活用可能な、お手軽メモ掲示板フリーCGIです。
CGIさんごよみスキン式のカレンダー表示フリーCGI

➡ カレンダー形式でスケジュールを表示できる予定表掲示板フリーCGIです。日本の祝日規則や移動祝日にも対応するほか、独自記念日の登録や、RSS配信も可能。