shinh チェッカーの内容

コードはこのへん。

http://shinh.skr.jp/ncheck/nchecker.rb

んーとなんだっけ。 bsfiter のコード入ってるし GPL です。キモはデータの作りかたくらいですか。単に MeCab で分解してもらっておいて、単語の出現頻度表を作ってあるデータが shinh モノと非 shinh モノで作ってあるだけ。 shinh の方のデータははてなの記述を全部喰わせて 600KB くらい。非 shinh は適当に Web精米 の aa から ZZ あたりまでで見つかったサイトを喰わせて 1MB くらい。

実は、なんか 50% 付近のつまらん数値が多かったので適当に 2 倍したというひどい処置がなされてます。さらに言うならゲーム化した方のパーセンテージ変動は 2万倍とかされてます。実のところ一つの単語落としても一番影響のある単語を落として 1% くらいだったり。「目に見える shinh 嫌疑」と称して削除してある上位 5 つは勘定に入れてない。入れるとほとんどその数値が変動に決定的になるから。

とりあえず出てくる数値がイチイチ無茶苦茶なのはそう設定されてるから、と。あとランダムな文書データが欲しければ Web 精米だの TinyURL だのはいいかもね…と。

なにかあれば下記メールアドレスへ。
shinichiro.hamaji _at_ gmail.com
shinichiro.h