第24回 コンテンツビジネス研究会
「web上の情報に基づくコンテンツ」
- ご講演者
- ニフティ株式会社 ニフティ研究所
シニアリサーチャー
高橋哲朗氏 - 日時
- 2010年2月22日(月曜日) 19:00〜21:00
- 場所
- 東京大学工学部 新2号館10F電気系会議室5(101B)
web上に蓄積されている情報は膨大であり,さらに日々増加し続けている.
そしてこれらの情報はそのまま情報として利用できるだけではなく,新たなコンテンツを再編することにも利用可能である.
たとえば,ブログに書かれた芸能人の評判を集計することにより芸能人の人気ランキングを作成するといった利用がその一例である.
本講演では,web上の情報がコンテンツとしてどのように利用できるのか,またそのためにはどのような手法や技術が必要となるのかについて議論する.
- ご略歴
- 2005年3月 奈良先端科学技術大学院大学 情報科学研究科 自然言語処理学講座 博士後期課程 修了
2005年4月〜2008年3月 株式会社富士通研究所 ナレッジ研究センター 研究員
2008年4月〜 ニフティ株式会社 ニフティ研究所 シニアリサーチャー
- ポータルにおけるコンテンツ
-
- ニフティは1986年に設立。ニフティサーブと言われてきたパソコン通信からサービスを提供している。現在、90%は接続サービス。webサービスが10%。ポータルサイトを運営している。コンテンツについては、独自コンテンツと仕入れコンテンツがある。仕入コンテンツは、例えば天気情報(ウェザーニュース)や占い。仕入れて付加価値をつけて売る。独自コンテンツでは、例えばスイーツ部、バイクライフ、デイリーポータルZなど。もうひとつ、編集コンテンツと言えるものがあり、買ってきたもの、作ったものを編集することによるコンテンツを提供している。
- 課題としては、コンテンツのコモディティ化により差別化が困難という点がある。多くのサービスは仕入れているもの。他と同じ情報になる。また、広告のビジネスモデルでは、コンテンツの仕入れ・作成のコストに見合わない。これは、Yahoo以外のポータルサイトはみんな持っている課題であるといえる。ポータルに閉じた世界での「コンテンツを出す場所」という概念を変える必要がある。こうした背景から、コンテンツの相互連携が見られるようになっている。2010/2/3には、BIGLOBEと連携、2010/2/9にはライブドアと提携している。
- コンテンツとしてのCGM
-
- これまで(正確に言うと4年ほど前まで)、コンテンツは、サービスプロバイダが作成し、提供するものであった。しかし、CGM(Consumer Generated Media)によって、一企業が作るよりはるかに大きな量の情報が作成されている。ブログ(日本語)は100万記事/日、Twitter(世界)は90万/日の投稿がある。ただし、ブログ・Twitterは、そのままではコンテンツとしての利用は難しい。CGMは、情報をたくさんもっているが、より価値を高めるためには、その情報を再編集する必要がある。
- 再編集は、2つの方法があり、一つは人手であるが、もう一つは機械的な編集である。ニフティでは次のような事例がある。
- CGMの機械的編集1 @nifty厳選レストラン:フードアナリストなど、食に詳しい人が書いたブログを機械的に編集し、キーワードタグを自動作成する。
- CGMの機械的編集2 @nifty温泉:掲示板をつくり、そこにクチコミを集める。それを機械的に分析して評価を自動的に判定する。→クチコミを再編集
- Buzz Marketing Solution:ブログの情報からマーケティングに用いる情報を企業に提供しており、自社・自社ブランドがどう言われているのか知ることができる。
- CGMの要素技術
-
- CGMの要素技術は、文書集合の中から「重要」な事象を発見するテキストマイニング、文書集合を入力とし、任意の数の集合に振り分けるクラスタリング(Clustering) 、予め決められた分類項目に文書を振り分ける文書分類(Classification)に分けることができる。
- ココログの記事70万件を分類したブログ記事の解析では、クラスタリングによって16くらいの項目に分類を行っている(例:グルメ、時事・経済・社会、観光・行楽、・・・)。また、月ごとの記事数をみると、五輪によってスポーツは8〜9月に盛り上がり、リーマンショックの頃から、投資・金融の記事の割合が増えていることがわかった。その他、3〜4月は観光・行楽の記事が増えていること、金融の話題が土日に減ること、競馬の話題が金土に増えること、観光・行楽の話題が土日に増えることなどが分かった。ココログでは、書いている人のプロフィールが紐付いているので、これと組み合わせることで新しい知見を得ることができる。
- CGM編集における課題
-
- 例えば、自由記述から機械的な処理によって好きな飲料ランキングを作成したいとき、「午後」と「紅茶」を分離してしまう問題や、「コカコーラ」と「コカ・コーラ」を別に分類してしまう問題などが生じる。これらの問題に対処するためには、単語辞書が必要となる。近年、辞書登録には、系列パタンマイニングを用いることが多い。また、同義表現の判別には、編集距離による類似度測定を用いることが多い。
- 自動辞書構築の技術は大きく進歩しており、人手による辞書構築ではなく、機械的に大規模な文書集合から辞書を構築する手法が一般的となっている。
- コンテンツと機能
-
- 「みんなのレシピ検索β」では、食材やレシピ名で検索するだけでなく、効能で検索、自然文による検索、気分からの検索など、多面的な検索に対応しており、検索結果に豆知識を併記する機能も付与している。特定分野に限定することにより、よりユーザーの意図を反映させた検索を実現させている(垂直検索)。
- 質疑
-
- [質問] @nifty温泉について、評価をどうやっているのか?
- [回答] 係り受けによって評価の得点を判定し、積み上げている
- [質問] Buzz Marketing Solutionについて、対象の製品・サービスの質が良い悪いだけでなく、「どこが」良いか、という判断はできるのか?
- [回答] 「どこが」良いのかという範囲では、温泉など、対象が絞られていれば比較的うまくいく。しかし、任意の製品に対しては、属性を定義し、まとめ上げる必要がある。
- [質問] Buzz Marketing Solutionについて、売上などで市場の評価は結果として分かると思うが、CGMを分析することに意味はあるか?
- [回答] ブログの情報から、なぜ売れているのか、などの要因を掘り出すことができる。
- [質問] 新しい提案をユーザーにもたらすことはできるのではないかと思うが、問題は提案の仕方だと思う。商売っ気が出てくると引かれてしまうかも知れない。
- [回答] 商売っ気を出さない、というのは大切だと思う。しかし、それまでに長い投資期間があるので、Googleのような長期的な視点に立たないと成功はしない
- [質問] 情報は集めれば集めるほど精度が高い、と言われているが、本当にそうなのか?
- [回答] 確かに、チューニングすることがベストではない、という点はあると思う
以上