2006年12月18日(月) 23時54分47秒 [Perl/CGI]
正規表現での句読点と英字A・Bの関係
以前、スパム投稿(コメントスパム)対策として、正規表現で句読点の有無をチェックすれば良いという提案をしたことがありました。以下のよーな正規表現を書く方法です。(Perl)
これを使えば、英文だけの投稿をブロックできるだろう…ということなんですけど、穴があることに気づきました。^^;;;
SHIFT-JISコードでは、読点「、」のコードは「81,41」、句点「。」のコードは「81,42」なんですよね。ASCIIコードでは、大文字のAが「41」、Bが「42」です。
なので、上記の正規表現で(2バイト文字を1バイトずつ分解して解釈しちゃう場合は)、アルファベットの大文字「A」と「B」もマッチしちゃうのですねー。(^_^;)
ううーん。
EUCコードの場合は、読点「A1,A2」・句点「A1,A3」になりますし、UTF-8コードの場合は、読点「E3,80,81」・句点「E3,80,82」になるので、アルファベットとはマッチしないのですが。
ソースがSHIFT-JISの場合は、「A」と「B」だけ容認しちゃうことになる(可能性がある)ので注意が必要ですね。まあ、スパム投稿の英文に大文字の「A」や「B」が含まれる可能性は、そんなに高くない気がするので、あんまり問題にはならないかも知れませんが。^^;
--- (追記) ---
前言撤回。(^_^;) スパム投稿を調べると、「All」とか「But」で始まる英文も結構あるようでした。
ぐぬぅ。
この日記へのコメントはお気軽に! コメント数:0 トラックバック数:0
| « クビキリサイクルとアリバイ |
前後のエントリ < 旧 / 新 > | クビキリサイクルの読了とか積ん読とか » |
このエントリーへのトラックバックURLを表示するにはここをクリック
※スパム防止のため、トラックバックURLは別ウインドウで表示します。(JavaScriptが有効でないと表示されません。)
コメント数: 0件