Twitter上での日本語ハッシュタグフィルタリング その2

前回、いろいろ追加してそれなりにフィルタリング出来るようになったと思っていたんですが、残念ながら取りこぼしがみょろーんと出てたのでまた拡張していこうと思います

まず敗因は元サイトのはてブコメントのこれ

quaoarquaoarTween(が使っている.NETの正規表現ライブラリ)では、文字クラスの範囲指定はJIS漢字順ではなくUnicode順([亜-黑] は “一” にマッチしない)だと思うんだけど…2011/10/09

まじか・・・知らなかったわー
で試してみたら「#一」がフィルタリングされない始末だったので、調べて拡張していきましょう

(#|#)[¥w]*[a-zA-Z0-9ぁ-ヶ亜-黑]

前回までがこれ。¥は半角で。これはJIS順な正規表現ライブラリでは問題ないんですが、TweenみたいなUnicode順な正規表現ライブラリだとアウアウ
悲しいのでこれにUnicode順でみて漢字範囲を割り当てていきます。めんどくさいんで一気に行くとこうなりました

(#|#)[¥w]*[a-zA-Z0-9ぁ-ヾ一-龥豈-鶴]

例の如く¥は半角で。きっとこれで良いはず・・・!きっと・・・!

Comments (0)

› No comments yet.

コメントを残す

Allowed Tags - You may use these HTML tags and attributes in your comment.

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">