Diary Blog of Dary

temtanが書いた文章

はてな村民今すぐ無料!便利な 8 つの「村はてブ」について大切な 64 人の id:temtan が凄く解説する 1024 つの簡単な上達方法のオススメまとめ 65536 選ワロタwww

タイトルはそれ系のタイトルを参考に色々合成して捏造してみました。これてホットエントリにかつる!!!111

さて、皆さんは最近はてブのトップページの人気エントリが自分とあわないなあと思ったりしてませんか。思ってない?じゃ、てめーはけーれ!けーれ!おし、脳みそパーな奴がいなくなったところで本題じゃ。はてブのトップページに代わる可能性が無いと言い切れないのを作ってみたんでそれ解説するっす。

URL は以下でやんす。

http://childs.squares.net/murahatebu/

名前は「村はてブ」。名前の由来は「はてな村」「村八分」「はてブ」とか色々考えてたら良い感じの名前が出来たわぁ。

はてブとは何か

ということで去年の 10 月あたりから試験運用をしてまいりました「村はてブ」ですがこのたび version 1.0.0 になって正式運用するつもりですのでそこんとこよろしく。
ゆーすけべー日記を参考にして説明すると、「For the はてな村民の為のはてな村民のムーヴメントのインフォメーションがトゥギャザーしてはてな村アセンションするサービス『村はてブ』」。
判りづらい。もうちょっとぶっちゃけるか。
はてなブックマークのトップページ(ホットエントリ)はノーモラルな糞アフィ 2ch まとめスパムで汚染されてたり、ブクマだけで達成した気分になってる愚鈍ども多数がブクマしまくってる糞ライフファック記事とか、怪しいソースで金をグレーに稼ぐぜ(二度と見ないという意味で)NEVER まとめ、とかばかりでうんざりしてる人のために、『情弱愚民どもが糞みたいなサイトを見ている間に、情強賢者モードである俺さまは、厳選されたこの珠玉のエントリを読み、より上位のステージで知的活動をして時間を有意義に使いこなすのだ』とドヤ顔できるサービス『村はてブ』」。
俺はこの一文を書くために 1 時間消費したのは立派な愚民だと思った。
えーと、村民リストにある人のはてなブックマークを集計してエントリを抽出する web アプリになります。村民リストに挙げているのは、はてな村的な人を中心に被 fav がそれなりある人、情報リテラシーが高い人、良いコメントをする人、等を私 id:temtan が独断と偏見で選んだ人になります。リストに anigoka さんが要注意となっているのは名前が間違え易い(実例1実例2実例3(誤))というのが建前です(本音は彼 or 彼女のブックマークページの背景画像に対してが要注意という意味です*1*2。まあ、まあこういうのって流行りのキュレーションサービスって言うんですか、数年後に懐かしいと言われる言葉になるんでしょうかねぺぺんぺん。
以後このエントリではは「村民リストに入っている人」を村民と呼びますが、リストに無いからって村民じゃないって訳じゃないので安心してくだしあ。

もうちょい具体的に説明

はてブは以下の 4 つの機能があると言われています。

はてな村民のはてブ集計機能

はてな村民がブックマークしたデータを収集して集計した結果をまとめてあります。

新着 その日一定以上ブクマされた記事を時系列で表示。前日にブクマされているとポイントがマイナスされるようになってる。大体120件位になるように調整しています。*3
人気 ブクマランキングを人気順で表示。過去数日でのブクマを修正。前にブクマされたのはポイントが低い。上位100件を表示しています。*4
選りすぐり 新着と人気の折衷案的なの。当日話題になったエントリを人気順で。あとブラックリストにあるのは問答無用で除外。自分がよく見る為に作ったw。ログは全部で 2 日分しか残らず毎日上書きされる。大体20件前後になるように調整しています。*5
途中経過 「今日」の分の選りすぐりの途中経過。基本的に村はてブは「昨日」までのブクマデータの集計だけど、それだと自分が一番ネットを見る時間帯(夜0時前)が手薄になるので作った。自分がネットを見ることがあるタイミングの直前あたりの 1 日 4 回クロールするようにしてありまする。ポイント集計式は選りすぐりと同じ。

細かい部分

  • ブラックリストにあがってるサイトの記事はポイントが低くなるようになっています。
  • 虚構新聞や糞ファルみたいなタイトルにサイト名を入れてない糞ババうんこなうんこは俺様が手間暇かけて先頭にタイトル入れてやってるから感謝しろ
  • 更新時間は、日付を越えてから最初のアクセスがあった時にクロールが開始されます。それから 10 分ぐらいで集計が終わると思う。
  • RSS は自分が使わないのに作ってやった(エッヘン)。使い勝手とか判らないので、これこれこうなら良いとかもっとこうしろとかは積極的に言わないと、30 歳過ぎの保守的な察する事ができないおっさんには伝わらないぞ。
記事のコメントの一覧表示機能

正式に説明すると、コメント一覧を表示するサイト にリストアップされているサイトの記事それぞれについて、村民のコメントを一覧で表示する機能です。…ですが、これだと良くわからないし、ぶっちゃけはてブのエントリーページの事じゃね?って思うのだろうけど、ぶっちゃけて言うと、アゴラとかノビーのブログとかベーコンがはてブのコメント一覧を非表示にしててウゼーって思ってたんで、村人のブクマデータはあるからそっから抽出して表示するんだぽ!ってこと。
定常的にはてブのコメント一覧を非表示にしてるサイトがあったら教えてくれればこのリストに入れるつもりなんでよろしく。

はてな村民の調査機能

そのまんま。村民のブクマデータはキャッシュして取ってあるのでこのデータ使ってなんか出来ないかな?と考えて思いついたのが 2ch まとめばっかりブクマしてる輩を晒しあげて磔にして俺の手を汚さずに他の村民に石をなげさせよう!そして村民をソーシャルハックして脅しのネタを手に入れて村を牛耳れば「ねんがんの ふろうしょとく をてにいれたぞ!」→「殺してでも うばいとる」→「な なにをする きさまらー!』…アレ俺死んでね?
まあ、村民の傾向を調べて自分の欲しい方向性とは違う人は村民リストから外して追放して村はてブを「このむらはてぶはすべてがうつくしいでしょう?このよにみにくいぶっくまーかーなどひつようありませんからね」といった感じに「うつくしいむらはてぶ」を作ろうと作ったのが最初なんですよね。つまり「なんということを!!むらはてぶをはかいするとはわたしにたいするうらぎりです!ゆるせません!!」「そこまでだ!temtanさんよ、やりすぎだぜ」「おまえたちまでわたしにさからうのか!」「いまのあんたがいちばんみにくいぜ! 」…アレやっぱり俺死んでね?
あとは目的は無いけどプログラミングで可能だから傾向を調べておこうかなとか特に目的はなしな感じ。やってみたら「この人 togetter 好きだな〜」「ニコ厨すぎだろw」「メタブ多すぎw。」「スパムやってる糞ライフファックサイトブクマ多くてこいつは除外」とか結構面白かったわぁ。
あと隠し機能があるのだけど特には説明しないでおこうかね。村民個別ページのコメントを見れば判るかも〜*6

はてな村民候補者検出機能

現在は村民じゃないけども、村民っぽいブクマする人をリストアップする機能です。具体的には、人気エントリをブックマークしている人全員(村民以外も含め)を集計して多くブクマしている人をリストアップって感じでございます。けど、それだとただ単に人気記事をブクマしまくってるアホユーザさまがいらっしゃるのでそういう非村民と認められた人は村八分リストに入れてリストアップしないようにしてるぽんぽん。けど、これって話題が先鋭化はするけど、色々な話題をまんべんなく取り入れるって方向にはちとムツカシイのでそのまま村人認定しても自分の目的の方向にならないのよね〜。

はてブを作った動機

最初はゲーセンで出会った少女が手作業で集計していたのですが、作業をしているうちにはてな村民の毒気とトルコキキョウの花粉にやられ、入院(精神科)してしまい彼女の代わりに自動で出来るソフトを三日三晩三食キッチリ食事をして作りあげ、急いで病室に駆け込んだのだけど…時既に遅く彼女はメタブで皮肉コメントで嘲笑をする立派な村民になっていた…というのが事の顛末です(実話)
第一級取り扱い注意輸出禁止危険兵器である例え話で説明すると、はてなブックマークのトップページの人気エントリ、新着エントリが大衆化による自分の嗜好とのミスマッチ、新着のスパムの蔓延をどーにかしようとして、 まずはブラックリスト形式で特定のサイトのエントリを除外するBL Hatena Bookmarkを作ったのだけど、かなりイマイチだったので、今度はホワイトリスト形式ならいけるんじゃね?と思い作ったのが動機です。(フィクション*7

運用してみた感想などいろいろ

BL Hatena Bookmark は正直に言って目的は達成できず失敗気味だったのだけど*8、村はてブでは想像以上に抽出されるエントリの純度が高い(要するにノイズが少ない)のだったので、もうワテクシ村はてブが無いと生きていけないかも。けど、思うにこれらの機能って「ソーシャルブックマーク」であるはてなブックマークが用意する機能なんじゃねーの?と。今のはてブってさ、naoyaさんがこの記事で言ってるような「ソーシャル」な部分が凄く弱「過ぎる」のよね。2010年を超えたってのに未だにオススメユーザで出てくるユーザが被 fav 数だけしか見てなくて、既に年間数件しかブクマしないユーザも出してくるのとかどうかと思うの*9。新着のスパムの放置具合とか他いろいろを見ていると、本当に本当にはてなはヤバいんじゃないかって思ってて、リアルな未来予想だとライブドアあたりに身売りしてはてなブランドはまあ継続されなんとかサービスは生き残るとかありえそうだなーって思ってますが。そんな未来は怖いのではてなポイント買いましたが。

あー、あとソースも公開してます。ライセンスは知らん(詳しくないし小さいプログラムだしね)。常識の範疇でてきとーに使っておけです。村民リストをポイント計算とか閾値とか調整すれば自分なりのが作れると思うので興味があればどぞぞ。しかし、2012 年だというのに使ってる Web っぽい技術は SSI のみ(CGIすらも使っておりませぬ)ってのも自分らしいですねー。javascript も他のツールチップのやつのソース見ながら自分なりに適当に組んだのだし、Ruby 内でも標準ライブラリの HTTP 使ってるだけだし。あとは大体テキスト処理ばかりだわよよ。

*1:真実はこう書いておくと面白い反応がありそうだから書いてただけ

*2:あと最初のリストは大物カテゴリとかおっさんカテゴリとか中堅(自称含む)ブックマーカーカテゴリとかあったけど色々波及しそうだったので削除したぽん

*3:現在のポイント集計式は 当日×2 - 前日

*4:現在のポイント集計式は 当日×3 + 前日×2 + 前々日

*5:ポイント集計式は 当日×3 - 前日 - 前々日

*6:自分の場合 Sleipnir つかっててコメントを表示機能を使うと機能するようにしてあるの〜

*7:ほら、フィクションとわざわざ言ってしまうとつまらないでしょう?(笑)

*8:けどブラックリストの作成という点で必要だったので無意味ではなかった

*9:この辺の話は今に始まったことじゃないけど

わーい、temtan_bot が出来たよー\(^o^)/

http://twitter.com/temtan_bot

ツイートする内容はこのブログの文章から自動生成した文章でやんす。だいたい 4 〜 5 時間に 1 回ツイートすると思いますが、実際にどうなるかは気まぐれです。最低 4 時間は間隔は開くようにはしています。

この bot 作成に関しては実は一度 2 年半ぐらい前に作ろうとして twitter への投稿はTwitterのbotをOAuthに対応させる - しばそんノート を参考に、自動文章作成は以前読んだ プログラミング作法 で読んでいたので適当に作っていて、後は元になる形態素解析済みの文章データがあればよかったので、自分のブログの文章を「手動」でいちいちやっていたのですが、超めんどくせーってなっていたので放置していたんですね。
そしたら、最近になって Rubyによる形態素解析エンジンokura 0.0.1をリリースしました - <s>gnarl,</s>技術メモ”’<marquee><textarea>¥ を見つけて形態素解析が簡単にできそうだったのでちょいちょいとやってみたら凄く簡単にできたので以前作ったパーツをまとめあげて無事 bot を作る事ができたのでした。めでたしめでたし。

参考リンク

物語の発信者にとって実話と銘打つかどうかは超重要ッスね!

ただし美談系に限るかな?

※ここで「銘打つ」ってのは表現している程度の意味ね。書き終わってから辞書しらべたら「特別に名目を掲げること」ってあってちょっと違うと思っちゃったんで。ごめんね。

以下が証拠ね。

2012-01-22

この「ゲーセンで出会った不思議な子の話」も、自分にとっても大事な場所だったゲーセンで、こんな「物語」があったらいいなあ、と、ちょっとうらやましく思いながら読みました。

「実話だったらいいなあ」と、「事実」かどうかで「いいなあ」と思うかどうかが左右されてますね。*1

僕たちは「感動的な話」「いい話」だと思えば思うほど、それが「事実」であることを望みがちですし、ネット上では、その傾向は顕著のようです。

単純に実話であることを望みがちだといってますね。

電車男を「支援」するために、パソコンの前からさまざまなアドバイスを贈り、励まし続けた、善意の「名無しさん」の存在に、僕は心を打たれたのです。

インターネットの向こうには、まだまだこんなに「行き場のない、何の見返りも求めない善意」が存在していたのか……
電車男エルメス』が想像上の人物であったとしても、ネット上の善意の「名無しさん」は、たしかに存在していたのです。

今回の「ゲーセンで出会った不思議な子の話」も、「この物語に感動して、自分も誰かをこんなふうに大事にしたいと思った人」が、ディスプレイのあちら側に、たくさんいたのです。

この 2 つも、電車男の話やゲーセン女の話が事実かどうか気にしていないようですが、善意を持った名無しさんや感動した人が「たしかに存在していた」などとそれが事実=実話であることが強調されていて、実話であったことが感動を生んだ大きな要因になっているようですね。

いやしかし、「これウソですからね、フィクションですからね!」ってキッチリ前置きされたら、どんなフィクションでもつまんなくなると思うんですよね。

そして、逆にフィクション=創作であると前置きされると「つまらなくなる」とハッキリ言ってますね。

これらを総合すると「物語を発表するなら実話と銘打って、読者に実話だと思わせた方が断然にお得である」だって言えますね!だって、「実話なら(そう思わせたら)評価が高くなる」の上に「創作だと(前置きしたら)評価が低くなる」ってこの人が証明してるんだもん。

その上に、本当は創作だけど実話と銘打ってからそれを見破られたとしても、

大事なのは、「それが事実かどうか」よりも、「その話から、何を感じ、何を生かしていくか」なのです。

でもさ、この話って、「事実かどうか」が、そんなに大事なの?

そこに書いてある話が面白かったり、感動できるかどうかだけが「判断基準」で良いのではないでしょうか。

って「創作だけど実話と銘打って発表した物語」が「それが実話かどうか」なんてぜんぜん大事じゃないよね!って反論したりこういう人がこんな感じで擁護してくれるんですからね!

物語を発表するならそれが創作か実話かどうか関係なしに、実話と銘打った方が読者は面白がって評価高くしてくれるからwin-winの関係だし、バレても「そんなの重要じゃない」と反論したり擁護してくれたりするんだからドンドンそうしていった方が良いよね。馬鹿正直に「創作を創作と銘打つ」なんて、馬鹿らしくてやってらんないよね。

まあ、皮肉はこの辺にしておいて、このように実話であるかどうか(実話であると読者が感じるかどうか)って読者の評価を大きく左右する要因になってるわけですよ。「創作を実話と銘打つ」した物語は同じ物語でも「創作を創作と銘打つ」するよりも注目を集めたり高い評価を受けやすい。ということは、馬鹿正直に「創作を創作と銘打つ」をする人は損をする構造になっているわけです。んで、俺は馬鹿正直な人が損をするのが非常にキライなのですよ。

ていうかね、この人の「事実かどうか」って「読み手が読み終えた物語」が「実話(と感じる)かどうか」に限定されてるのよね。そりゃそうだ、実話だと思って実話だから感動した物語が本当は創作だったなんて知ったら気分を害するだけのただ損で、できればだまされたままでいたいもんねえ。「読み手が読み終えた物語」ではない物語、つまりまだ読む前の物語に関しては思いっきり

いやしかし、「これウソですからね、フィクションですからね!」ってキッチリ前置きされたら、どんなフィクションでもつまんなくなると思うんですよね。

って「つまんなくなる」って言ってますからね。それも「フィクションだと前置き」限定で(実話と前置きされた時の話は無し)。本当に「事実かどうか」が大事じゃないなら、フィクションと前置きしても面白いまたはつまらないかの評価は左右されないと思うし、「フィクションまたは実話だと前置きされるとつまらなくなる」でもないのだからやっぱり「事実かどうか」ってのは読者の評価を大きく左右する要因だわよね。
まだ読む前の物語が 2 つ、「実話と銘打っている物語」と「創作と銘打っている物語」があったら(他に特に判断材料がなければ)、人は「実話と銘打っている物語」を見ちゃうんだよね。だって「フィクションと前置きされたらその物語がつまらなくなる」と思うんですもんねえ!
とまあ、文章の端端から「実話かどうか」がその物語への評価を左右しているというのに、「「事実かどうか」が、そんなに大事なの?」とか「そこに書いてある話が面白かったり、感動できるかどうかだけが「判断基準」で良いのではないでしょうか。」って言ってて、この人はなんて自分の言ってる事の支離滅裂さに自覚できない可哀想な人なんだと思っちゃったりしたのでした(実話)。

*1:「「物語」があったらいいなあ」で「物語が」だから事実かどうかは関係ないってのは駄目ね。それを肯定するなら、もうその物語は提示されており、「「物語」はあったんだなあ」になるから

はてブの API の日付指定によるフィード取得で全てを取得できるようにして欲しい

まずはFTTHさんの記事を見習って ID コール。

id:hatenabookmark

id:hatenatech


はてなアイデアにも投稿済み。

はてなアイデア

本題。

はてなブックマークフィード仕様 - クエリパラメータによるフィードの絞り込み機能

上記の仕様によると、特定ユーザのブックマーク情報の Atom フィードをクエリパラメータによって絞り込んで取得ができるようになっていますが、該当するブクマが 20 件以上ある場合でも 20 件までしか取得できないです。
絞り込まないのならページング機能を使って取得できるのですが、絞り込んだ結果にはページング機能がないので絞り込んだら 20 件しか取得できないということになっています。
なので、絞り込んだ結果を 20 件以上取得できるようにして欲しい。もっと言うと、絞り込んだ結果にページング機能を付けって感じなのをあればそれでいいんじゃないのかなとかそんな感じ。ぶっちゃけ、タグとか日付で絞り込んでも 20 件しか取得できないんじゃ「何に使うの?」って感じです。
やろうと思えば普通の最新のから取得するやつのページング機能を使って目的の日付のエントリ全部取得はできるのだけど、それだと無駄にはてブにアクセスして無駄な負荷がかかっちゃってよくないと思うのですよね。

以下、このような機能を希望する動機について。

まずは、はてブの人気エントリ・新着エントリの変化が発端。人気エントリはユーザが増えたことによる大衆化で自分とは合わなくなってきたこと。あと、新着エントリはスパムの温床になっていること(特におもしろカテゴリの2chまとめ系が酷い)。スパムに関しては、最初の数ブクマのユーザを調べると総ブクマ数が 100 にも満たないユーザである事が非常に多い。それも数日おきにブクマして目立たないようにしている場合も多い。同時にそういうエントリはプライベートブクマがついている場合が非常に多い。多いパターンはプライベートブクマが 1 〜 2 ブクマで総ブクマ数が 100 にも満たないユーザが 1 〜 2 ブクマしている場合多い。そんで、その記事の最初の数ユーザを超えた後にブクマしているユーザを調べると、そういうユーザがまるで居ないって状況。こんなん明らかにスパムでしょ。ほかのサイトで例えば新聞社とかのブクマ傾向とかと見比べても明らかにおかしい訳なのよね。まあ、これをスパムって断定するのは難しいと思うのだけど、そんな重要性が塵にも満たないユーザを参照した新着エントリとか役に立たない訳で。

そんで、はてなブックマークでは API が公開されてるからそれを利用して自分なりに村はてブとかBL Hatena Bookmarkとかいろいろやってるのだけど、その API に不備があると困るって訳なんです。

Donca というユーザのブックマークについての調査

Donca というユーザのブックマークについて調べました。動機は「このbotうぜえ。どうにかして規約違反の証拠ねえかな」です。

調査対象のブックマークは 2011 年 1 月 1 日〜 9 月 27 日の270日間のブックマークである。

投稿間隔。

ブクマしてから次のブクマまでの時間

投稿間隔範囲 割合
0 分 〜 5 分 35430 70.9%
5 分 〜 30 分 10863 21.7%
30 分 〜 1 時間 2981 6.0%
1 時間 〜 3 時間 629 1.3%
3 時間 〜 6 時間 66 0.1%
6 時間 〜 12 時間 6 0.0%
12 時間 〜 24 時間 0 0.0%

見ての通り、7 割が 5 分以内に投稿、9 割以上が 30 分以内でのブクマ。また、6 時間以上間隔が開くことはまれで、12 時間以上間隔が開くことは無かった。これにより bot で投稿しているのは確実であると言える。

月間ブクマ数
1 月 2853
2 月 3510
3 月 3705
4 月 5718
5 月 6952
6 月 7375
7 月 6684
8 月 7161
9 月 6018

見ての通り 4 月から急増している。ここには省略するが週間ブクマ数を調べてみたら 4 月中旬に急増している。

曜日別ブクマ数
曜日 日数 合計 平均 簡易グラフ
39 4189 107.4 ★★★★★★★★★★★
39 6816 174.8 ★★★★★★★★★★★★★★★★★
39 8522 218.5 ★★★★★★★★★★★★★★★★★★★★★★
38 8901 234.2 ★★★★★★★★★★★★★★★★★★★★★★★
38 8409 221.3 ★★★★★★★★★★★★★★★★★★★★★★
38 8057 212.0 ★★★★★★★★★★★★★★★★★★★★★
39 5082 130.3 ★★★★★★★★★★★★★

平日は日曜日の倍近くのブクマをしている。平日更新するサイトをブクマしている結果だと予想される。

サイト別ブクマ数、月毎のブクマ数

サイトは 1 日1ブクマ以上、つまり 270 件以上のサイトをここに出します。

サイト 全件数 1月 2月 3月 4月 5月 6月 7月 8月 9月
www.applelinkage.com 4090 104 178 188 423 441 697 673 691 695
gs.inside-games.jp 2741 69 106 95 309 408 506 428 487 333
www.lifehacker.jp 2211 99 91 152 232 266 365 337 380 289
taisyo.seesaa.net 2166 60 156 137 247 300 362 310 304 290
jp.techcrunch.com 1608 77 65 112 191 253 250 236 241 183
instagr.am 1518 62 33 131 171 354 272 260 194 41
vocaloid.blog120.fc2.com 1513 83 90 99 162 188 214 204 235 238
blog.livedoor.jp/amd646464 1353 53 66 47 148 226 180 213 242 178
www.socialnetworking.jp 1262 51 63 51 155 169 237 155 212 169
www.i-mezzo.net 1250 27 65 60 145 185 190 175 190 213
サイト 全件数 1月 2月 3月 4月 5月 6月 7月 8月 9月
japanese.engadget.com 1124 70 67 55 137 182 164 130 170 149
www.nationalgeographic.co.jp 950 23 41 43 117 152 165 123 157 129
foursquare.com 818 67 71 55 121 68 59 89 179 109
ipodtouchlab.com 699 31 25 19 89 115 105 104 105 106
blog.livedoor.jp/applebrothers 671 27 39 40 129 154 119 101 21 41
northwood.blog60.fc2.com 566 14 32 23 72 102 76 77 81 89
www.gizmodo.jp 524 105 139 260 20 0 0 0 0 0
blog.livedoor.jp/manamerit 524 42 27 30 61 73 79 75 70 67
kuracyan.net 451 23 30 31 70 75 65 62 50 45
www.appbank.net 429 165 137 127 0 0 0 0 0 0
サイト 全件数 1月 2月 3月 4月 5月 6月 7月 8月 9月
digimaga.net 425 22 16 27 117 60 27 78 49 29
so-mo.net 389 8 13 11 23 30 72 76 98 58
www.jp.sonystyle.com 383 20 34 16 0 54 61 65 79 54
slodive.com 382 3 6 12 32 81 58 67 65 58
www1.jp.sonystyle.com 382 30 65 13 0 14 54 48 74 84
kjx130.blog19.fc2.com 370 9 18 21 44 62 56 59 56 45
gigazine.net 369 86 123 150 10 0 0 0 0 0
techwave.jp 366 10 25 13 47 62 64 47 51 47
ma2mars.org 339 13 24 11 18 30 56 78 59 50
shimajiro.sakura.ne.jp 335 31 21 21 58 75 66 56 7 0
サイト 全件数 1月 2月 3月 4月 5月 6月 7月 8月 9月
wiredvision.jp 334 24 30 28 82 136 34 0 0 0
rdp.blog52.fc2.com 330 22 27 28 31 31 43 47 44 57
juggly.cn 309 88 114 91 16 0 0 0 0 0
slashdot.jp 292 91 72 129 0 0 0 0 0 0
veadardiary.blog29.fc2.com 283 12 8 13 34 30 40 50 55 41
newsroom.intel.com 282 31 20 21 40 35 35 28 28 44
japan.digitaldj-network.com 270 21 33 11 28 49 36 12 52 28


全体的に 4 月からブクマ数が大幅に増えていることから、4 月からブクマ数が急増したのは bot の性能を変えたからだと思われる。この変更後の件数から、各サイトのほぼ全てのエントリをブクマしていると考えられる。
また、ここに載っているサイトだけでなく 3 月末〜4月頭あたりでブクマしなくなったサイトがいくつか見られ、bot が巡回するサイトもちょくちょくと変更している模様。

件数の一番多い www.applelinkage.com のブクマに関して考察

一番多くブクマしている www.applelinkage.com について、APPLE LINKAGE | ARCHIVESにある 2011 年 8 月の記事件数は 438 件であった。それに対し8月のブクマ数は 691 件であった。ブックマークエントリ内容について調べたところ、どうもトップページの記事と ACHIVES の記事の両方にブクマをしており、いくつかの漏れがあることから記事 438 件に対し約 1.5 倍のブクマになっている。
また、ここのトップページの各記事は新着何件かを表示するようになっているので、トップページの各記事へブックマークをしても 数時間〜2日程度で無意味なものになってしまう。これにより、「とりあえずブクマしておいて後で何かする」という目的には利用するのが非常に難しいというか実質できないであろう。

まとめ
  • bot による自動投稿を行っているのは確実
  • 対象サイトのエントリのほぼ全て*1をブクマしている
    • つまり、エントリの内容を見ないでブクマしていると言える*2
  • 少なくとも www.applelinkage.com の記事に対しては「ブクマしておいて後で何かする」という目的には使ってない
    • ほかのサイトに対しては同様だと予想される*3
結論

Donca というユーザは bot による自動投稿で特定サイトの記事を事前に見ることなく、また後で見る目的でもなくブックマークしていると考えられる。この件がはてな利用規約 - はてなの第 6 条の6-3の「広告、宣伝および検索サイト最適化を目的としてブックマークに登録する行為」に該当するかどうかはよくわかんなーい。

*1:もしかしたら簡単なフィルタリングはしてるかも

*2:あるサイトについて20件程度調べたところ、記事が投稿されてからほぼ全てが 15分以内にブクマされていたことからもそうだといえる

*3:後で使う目的の場合、一番ブクマ数の多い www.applelinkage.com の記事がノイズになるし、後で使う発想があるなら無意味なブクマはそもそもしないと考えられるため

「きれいなはてブ」こと BL Hatena Bookmark(ブラックリスト除外機能付きはてブ新着・人気)を改良した。

「きれいなはてブ」の元ネタはこちら → Twitter. It's what's happening.

BL Hatena Bookmark はこちら → http://childs.squares.net/blhatebu/

バージョンを上げて 1.0.3 → 1.1.0 になりました。

更新内容

ブラックリスト2chまとめブログ系、エロ系、スパム疑惑系、糞ネットメディア系に分離しました。さらにユーザが設定でそれぞれを選択できるようにしました。やろうと思えばブラックリスト無しも可能です。ブラックリストのジャンル追加等は要望があったらまあ良さそうなのが有ればやりたいっすね。
あと、ゆくゆくは(例えばブラックリストの URL を指定するとかで)ユーザ個別のブラックリストを指定したいなあとか思ってます。

  • ブラックリスト適合したものを削除ではなく取消線で表示できるようにした。

見た目のインパクト狙い*1で、ブラックリストに適合したのを削除しないで取消線で表示できるようにしました。設定から選んで下さい。どの程度削除されているのか一目瞭然だと思います。とくにおもしろカテゴリの2chまとめブログ系の占有具合は凄いですね。

  • エントリが被ってしまう事があった不具合を修正

前のバージョンでは RSS から取得したエントリを保存する処理が結構適当にやってまして、その辺を一から作り直したのでましたので、まあ今回にのはそういった変な動きは無くなったと思います。

  • 他色々(一から作り直した感じなので)

技術的な話も含めて。前のを部分的にコピーしたものの、基本的にはクラス設計から一から作り直した感じになってます。一番違う点は、以前は RSS から取得した時にブラックリスト適合処理をして削除した結果をキャッシュしていたのを、RSS から取得したのは全部キャッシュしていて、表示するときにブラックリスト適合処理をするようにした。ブラックリストがどんなのなのかはアクセスする時にしか判らないので、そうなってしまうのは必然。
あと、これは前からだけど、アクセスがあったときに前回アクセスから(新着なら)10分後以降なら RSS を読みに行く作りになっているんですが、前回アクセスから時間が空いてしまうと、その間の新着が取れないので、連続性が失われてしまう問題がありまして、これは定期的なアクセスが有ればいい訳で*2、これを広めて皆がアクセスするようにして欲しいのでこれを広めて欲しいっちゃ欲しいのですてそのへんよろしく尾根ギアしたい。まあ軽く対策はしていますが。

  • 細かいの
    • HTML コメントで各ジャンルの RSSアクセス時間のログがあります
    • 削除したエントリはコメントアウトにしてあります
    • キャッシュの件数は 128 件に設定してあります。(各カテゴリ毎)
    • 「おもしろ」カテゴリのキャッシュだけは他カテゴリの 8 倍にしてあります(2ch まとめブログ系が占有しすぎている為)
  • 内部的な話(今後の拡張性を考えて作ってある)
    • 内部的には各カテゴリごとに適合するブラックリストを指定できるが、外部機能としては指定できない
    • 内部的には全カテゴリジャンルではなく個別カテゴリ(単数でも複数でも)表示できるようにしているが、外部機能としては指定できない
    • というか内部的に各カテゴリ毎に色々(表示件数とかキャッシュする件数とか時間とか)設定できるのだけど、インターフェイス用意するのめんどいからやってない

参考

はてブ新着・人気エントリからブラックリストに載ってるのを除外して表示するのを作った - Diary of Dary

*1:実用性は低いと思うけどね。だって前のエントリで結構自信あったのにぜんぜんブクマつかないんだもん…

*2:まあデーモンとかで定期的にアクセスすればいいのだけど、鯖的にデーモン設置できないのよね

はてブ新着・人気エントリからブラックリストに載ってるのを除外して表示するのを作った

名前は BL Hatena Bookmark

http://childs.squares.net/blhatebu/

  • なにこれ?

端的に言うと 簡易はてブ + ブラックリスト除外機能 + α

  • なんで作ったの?

最近はてブ新着・人気エントリが 2ch まとめとかライフハック系が(スパム行為やってるっぽいし)ウザかったから。簡易はてブjavascript を使ったボタンになって自分的には嫌だったし自分で作るかなと。

ページからリンク貼ってるのでそれを見て見て。ベースとして、はてなブックマークの現状 - Life like a clownにあった 2ch まとめブログ、エロブログ、それ以外で自分で追加した 2ch まとめブログ。それにスパム(らしき)行為が確認(独断)されたサイト。今後も2ch まとめブログ・エロブログは無条件で、ライフハック系ブログに多いスパム臭いのはあからさまなのは入れるし、怪しいのも適当に入れるかも。

ブラックリスト更新直後は残ってしまうの。改善予定っちゃ改善予定。

  • あのサイトが載ってない

2ch まとめブログなら漏れてるので教えてくれたら入れる。スパム行為やってるのは証拠がいくつかあれば。

  • あのサイトはスパムやってないのに載ってる

俺がそう思うんならそうなんだよ、俺ん中ではな(訳:俺が怪しいと思ってるし、特に良い記事でも書くわけでもないから除外してるわ)

  • + αって?

増田のエントリは(だいたいタイトルとふいんき(何故か変換できない)で判るのだけど)、タイトルに増田と追加するようにした。

  • 他には?

こと、虚構新聞社様におかれましてはその素晴らしい発想力・取材力・編集力により、無知蒙昧なる愚衆の皆様への情報の伝達・啓蒙をなされており誠に有意義であると感じておりながら、その見出し文章に虚構新聞社様の名前を入れておらず、これにより愚鈍な有象無象どもはその素晴らしき記事を認識することができず、これは日本全体の多大なる損失ととらえ、この問題を解決する一助として見出しにその虚構新聞社様の御名前を入れる機能を取り入れております。*1

  • RSS 出力しないの?

要望があるならするかもしれない。

ユーザごとのブラックリストは今後の機能追加で入れたい機能ではあるが、元々プログラマとしてネット系ではない*2のでその辺の技術力が(あとモチベーションも)低く、またセキュリティの知識も乏しい。マンパワーも無いし、サーバーも適当に選んだレンタルサーバなのでサーバパワーも微妙。という状況で実現する良い方法が思いついていないので、もし良い実装方法があるなら教えて欲しい。

  • デザインが駄目

CSS も外部で指定できるようにするのはできるが、セキュリティがよくわからん。

  • 他不満が

なら自分で作れ。ほれ作れ。

  • ソースが欲しい

まだまだ発展途上すぎるので公開はしないが、気が向いたらするかも。しないかも。ほしければ俺になんかすればー。

  • まとめ

とりあえず作ってみて思ったのは 2ch まとめブログの浸食具合はかなり来ている。とくにおもしろカテゴリは実質的に 2ch まとめカテゴリでしょ。はてな的にはこれで良いんでしょうかね?この辺はどうにかしないと客は離れるかも。まあ他の多くの客をとりこめるのかもしれないのではてな的にはOKなのかも。けどやっぱりうざい。これのお陰で今後は積極的に見たい時以外は見ずに済みそう。
あとスパム行為の多さ。もうね、ライフハック系とスマホ系のブログは超あからさまなのから、微妙なのとか、マジでマジで多すぎ。2ch まとめブログと同等にこれらも問題。正直これをつくらなかったらはてブ新着・人気は自分にとってほぼ無価値になってしまってたかもしれんよ。

  • 技術的な話

今は RSS で取得したのをブラックリスト適応したのをキャッシュしているのだけど、ゆくゆくは RSS で取得したのをそのままキャッシュしておきたい。しかしこれだと、表示する度ブラックリストの適応をするので今の 1 行ごとに正規表現オブジェクトを作って全部チェックしてるのはキャッシュが多くなればなるほど遅くなるのでその改善は必要。ユーザ個別ブラックリストを追加するならまずはそこからだなと。あとはマジでどうやってユーザ個別にブラックリストを指定するかなんだけど、マジで良いアイデアが無いのがなあ。少人数なら自分が手作業でやるんだけど。

*1:訳:虚構新聞の釣りタイトルマジでうぜえからタイトルに虚構新聞って入れるわ

*2:元々は OS を叩くミドルウェア