にしし ふぁくとりー:西村文宏 個人サイト

Presented by Nishishi via Movable Type. Last Updated: 2022/03/25. 10:40:14.

文字コード「windows-1252」って

私がメンテナンスしているとある外国サイトのHTMLは、元々FrontPage(Microsoft製のウェブ作成ソフト)で作成されたらしいんですけど、meta要素で文字コードが「windows-1252」と書かれてるんですよね。

文字コード「windows-1252」って何だ?
…と思って調べてみたところ、どうやら、欧文(西欧)文字コードの標準である「ISO-8859-1」(Latin-1)の未定義部分に、いくつかの拡張文字を加えた文字コードらしいです。

例えば、ユーロ記号「€」は、ISO-8859-1では定義されてないのですけど、windows-1252にはあります。
なるほど、ユーロは新しい記号なので、ISO-8859とかで定義されてないんですね………と思ったら、ユーロ記号は、ISO-8859-15(Latin-9)では定義されているらしい…。

で、しかも、windows-1252でのユーロ記号のコードは「80」であるのに対して、ISO-8859-15でのユーロ記号のコードは「A4」。(^^;;;

配置的には、(ISO-8859-1では)「A2」がセント(¢)、「A3」がポンド(£)、「A5」が円(¥)になってるので、「A4」にユーロを入れる方が分かりやすい気はしますが。(ただそうすると、「A4」に元々定義されてる「¤」(通貨という意味らしい)を使いたいときに困りますが。つーか、こんな記号、誰か使うのか?^^;)

「windows-1252」という文字コードは、名前からしてWindows用フォントでないと正しく見えなさそうな気もしないでもないんですが。どうなんですかね?
まあ、「ISO-8859-1」で定義されてる文字はそのまんまのコードで存在しているので、「windows-1252」で増やされた文字を使わないなら、全く問題はないわけですが。

で、ですね。メンテナンスする上で、この文字コードはこのままでいいのかな…?と思ったりするわけです。
元々FrontPageで生成されたHTMLなので、文法的にも思想的にも(^^;)問題のある書き方になってるので、ずいぶん修正したんですが。文字コードはどうするかなと。

英語圏向けのページなので、まあ、ベースは「ISO-8859-1」でいいと思います。で、特にユーロ記号とか使ってるわけでもないので、別に「windows-1252」のまま放置しても問題はないのですけど。^^;

まあ、文字コードをUnicodeUTF-8)とかにしておけば、何にも問題はないわけですが。^^;

1から作り直す訳じゃないので、修正しなくていい箇所は修正しない方がいいかなとも思ったりして。Unicodeを読めないような古いブラウザ(Netscape3とか)を考えたとしても、英語の場合、最初の7ビット分(128文字)だけを使ってるなら、UTF-8でもISO-8859-1でも一緒なわけで、別に問題はないのですよね。日本語と違って。
まあ、私がメンテナンスしてるサイトは、8ビット目を使った位置にある文字も使っているので、そういうわけにもいきませんけど。

# いやでもまあ、Unicodeが読めないブラウザは、もう今では気にしなくていいと思いますけどね。^^;

ちなみに、このブログの文字コードは、UTF-8です。Netscape3では読めません。

ちなみ2、セント(¢)とかポンド(£)とかユーロ(€)は、文字実体参照を使って、「¢」とか「£」とか「€」とか書けば表現できます。

# IEで見るとユーロ記号「€」がすんごく小さいような…。FirefoxやOperaだと他と同じ大きさなんだけど。(@Windows)

ちなみ3、「windows-1252」みたいなコードとして、ギリシャ語系の「windows-1253」とか、アラビア語系の「windows-1256」とか、何かいろいろあるようです。^^;;;

コメント

「Windows-1252」を使ったアダルト・スパムを受信。「Windows-1252」という文字コードを知らなかったので、検索エンジンで調べて、こちらを拝見。大変勉強になりました。以下、そのメールのヘッダの一部です。
-----
Received: from unknown (HELO gmail-smtp-in.l.google.com) (64.233.185.27)
by FAMILIA
with SMTP;
Thu, 12 Aug 2004 22:59:07 +0300
From: "Karina Ellis"
Subject: Karina and her friends nude
Date: Thu, 12 Aug 2004 22:59:07 +0300
X-Mailer: Microsoft Office Outlook, Build 11.0.5510
Content-Type: text/plain; charset="Windows-1252"
Content-Transfer-Encoding: 7bit
-----
「Outlook Express」だと、エンコード一覧に「中央ヨーロッパ言語(Windows)」と表示されていますが、それが「Windows-1252」なんですね。

投稿者 鈴夢 : 2006年05月17日 11:44

鈴夢さん、こんにちは。
OEだと「中央ヨーロッパ言語」ですか。Windows-1252みたいな表記を直接見かけることが(ほとんど)ないので、最初は何のことだかさっぱり分かりませんよね。^^;

投稿者 にしし : 2006年05月18日 01:12

コメント数: 2件

コメント投稿欄 この日記に対するコメント投稿を歓迎します。



※本文中にURLは書けません。(書くと投稿が拒否されますのでご注意下さい。)

※ご投稿頂いた内容は、掲載前に管理者が確認する設定にしている場合があります。たいていは数日以内には表示されるはずですので、気長にお待ち願います。m(_ _)m

著者紹介


にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊+小説1冊)。著書や記事は「西村文宏」名義。記事は主にAll Aboutで連載。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

Twitter:にしし/西村文宏
にしし/西村文宏 on facebook にしし/西村文宏 on mixi フォローはお気軽に!

にしし(西村文宏)連絡先
☕ コーヒーをおごる

著書一覧と詳細

にししふぁくとりー Sakura scope内限定での主要なカテゴリ

--- 当サイト内を検索 ---