2005年08月19日

blogWatcher(ブログウオッチャー):ブログ検索エンジン

blogWatcher(ブログウオッチャー):ブログ検索エンジン

■blogWatcher(ブログウオッチャー):ブログ検索エンジンの特徴
・ブログ検索
・バースト検索
・評判情報検索
・ニュース検索
・グラフ表示
・メタブログ
・なんでもRSS
・blogWatcher for mobile
などの検索が可能。

・blogの収集、更新の監視を行い、検索が可能
RSSなどの情報を利用せず、htmlを直接解析することで、日付と文章の組(entry)を収集することが可能
blogWatcherでは、他のblog収集サービスと異なり、RSSのようなメタデータを必要としません。そのため、blogツールと呼ばれるもので書かれたblogだけではなく、数年前に書かれたようなページでも収集することが可能となり、膨大な量のblogを検索対象とすることができます。
クローリングを行い、blogを選択的に収集
どのようなwebページであっても、そのページが日記であるかどうかを判断することが出来るため、システムはweb上のクロールを行うことによってblogを探し出すことが出来ます。

・blogと判断したページは定期的に監視
システムが発見したblogは、その更新のされ方に応じて定期的に更新をチェックします。そのため、システムは常に最新の情報を得ることが可能となります。

・任意の日付範囲やキーワードを用いて検索が可能
blogには書かれた日付の情報があります。そのため通常の検索エンジンと同様の「キーワード検索」だけではなく「日付指定検索」を行うことが可能です。また今回のバージョンでは、検索システムにはLucene(http://lucene.apache.org/)を利用しているため、かねてより要望の多かったフレーズ検索等の複雑な条件による検索が可能になります。 また、これまで週に一回程度であったインデックスの更新も、一日数回の更新が可能となります。

・話題(キーワード)の注目度を自動的に分析
blogの各entryが持つ日付の情報を利用して、任意の話題(キーワード)に関する注目度(burst度)を分析、グラフ表示することが出来ます。この注目度は、Web上でその話題が「いつ」「どのくらい」注目されたかを示す値になっています。

・評判情報を抜き出して表示
製品名などを入力することで、その製品についてblog中ではどのように言及されているかを自動的に解析、製品の評価に関する部分のみを抜き出すことが可能です。この機能を利用すると、購入を考えている製品についての評判を探したり、自社製品の評判を調べることが可能となります。
より多くの評価表現が、より正確に判別できるように!
機械学習を用いた評価表現分類手法により、大規模な辞書を自動構築しました。参考文献[pdf] また、分類の際にこの機械学習による分類手法も用いています。
より多くの件数がヒットするように!i
テーマになっている単語は、初めに一度書かれるだけで、それ以降は省略されることが多いため、どの対象についての評価なのかがわかりにくく、省略を補う必要があります。 そこで、「センタリング理論」に基づいた手法を用いることにより、評価表現の対象語が文書で省略されていても、以前に出現した単語から高精度で補うことが可能になりました。

・WEB上で注目されている話題を表示
blogWatcherが収集したページの中で最近話題になっている出来事を自動的に発見し、blogとしてまとめているメタブログのentryを「スポーツ」「政治」などのカテゴリに自動的に分類して表示するように変更します。 これによって、自分の興味のある分野の出来事だけを読むことができるようになります。
blogエントリ中で参照されているニュース記事を自動検出、記事へ対応づけ
blogエントリと、関連するニュース記事との自動対応づけが可能になります。これによって、blogで書かれている事件についての詳細が知りたい、と言うような場合に、元記事へのリンクがなくても、関連するニュース記事を簡単に参照することが可能となります。逆に、あるニュースについて書かれたblogを簡単に探すことができるようになります。



■blogWatcher(ブログウオッチャー):ブログ検索サービス以外のサービス
▼何でもRSS
blogWatcherで使用しているblog判定プログラムと同じように、Webページ中に含まれる日付表現とタイトル表現を検出し、HTML文書を構造解析することで、時系列情報を記述するWebページ(日記、BBS、ニュースサイト、イベント告知ページなど)からRSS Feedを自動生成します。 RSS Feedを配信していないサイトでも、簡単にRSS Feedを配信することが出来ますし、これまでRSSリーダーで読めなかったWebページもRSSリーダーで読めるようになります。


■blogWatcher(ブログウオッチャー):ブログ検索エンジン
http://blogwatcher.pi.titech.ac.jp/

SEO対策
posted by ブログ検索エンジン職人 at 19:51 | TrackBack(0) | blogWatcher(ブログウオッチャー):ブログ検索エンジン | このブログの読者になる | 更新情報をチェックする
【スポンサードリンク】

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。