正規表現での句読点と英字A・Bの関係

2006年12月18日(月) 23時54分47秒 [Perl/CGI]

正規表現での句読点と英字A・Bの関係

以前、スパム投稿（コメントスパム）対策として、正規表現で句読点の有無をチェックすれば良いという提案をしたことがありました。以下のよーな正規表現を書く方法です。（Perl）

if ( $comment !~ m/[、。]/ ) { エラー処理 }

これを使えば、英文だけの投稿をブロックできるだろう…ということなんですけど、穴があることに気づきました。^^;;;

SHIFT-JISコードでは、読点「、」のコードは「81,41」、句点「。」のコードは「81,42」なんですよね。ASCIIコードでは、大文字のAが「41」、Bが「42」です。
なので、上記の正規表現で（2バイト文字を1バイトずつ分解して解釈しちゃう場合は）、アルファベットの大文字「A」と「B」もマッチしちゃうのですねー。(^_^;)
ううーん。

EUCコードの場合は、読点「A1,A2」・句点「A1,A3」になりますし、UTF-8コードの場合は、読点「E3,80,81」・句点「E3,80,82」になるので、アルファベットとはマッチしないのですが。

ソースがSHIFT-JISの場合は、「A」と「B」だけ容認しちゃうことになる（可能性がある）ので注意が必要ですね。まあ、スパム投稿の英文に大文字の「A」や「B」が含まれる可能性は、そんなに高くない気がするので、あんまり問題にはならないかも知れませんが。^^;

--- (追記) ---
前言撤回。(^_^;) スパム投稿を調べると、「All」とか「But」で始まる英文も結構あるようでした。
ぐぬぅ。

ツイート facebookシェア LINEで送るはてなブックマーク Pocket URLとタイトルをコピー ☕ コーヒーをおごる

この日記へのコメントはお気軽に！コメント数:0件

著者紹介

にしし(西村文宏)

にししでございます。本書いたり記事書いたりしてます。あと萌えたり。著書5冊発売中です(Web製作系4冊＋小説1冊)。著書や記事は「西村文宏(にしむらふみひろ)」名義。本の最新刊は2011年3月に発売されたライトノベルでございますよ。

にしし(西村文宏)連絡先

☕ コーヒーをおごる

製作ツール

以下のようなツールを作って配布しています。

CGIてがろぐお手軽マイクロブログ的フリーCGI

➡ 備忘録・メモ帳・日記・チャットツールなどとしてのほか、「自分専用Twitter」などとしても活用可能な、お手軽メモ掲示板フリーCGIです。
CGIさんごよみスキン式のカレンダー表示フリーCGI

➡ カレンダー形式でスケジュールを表示できる予定表掲示板フリーCGIです。日本の祝日規則や移動祝日にも対応するほか、独自記念日の登録や、RSS配信も可能。