norishideのブログ

皮肉が散りばめられた真面目な文章を書きたい

文章を要約する人工知能についての話

30日チャレンジなのにブログ更新が1日空いてしまったけど、昨日は仕事の文章を書いていたのでよしとします。自然言語処理を用いて自動で文章を要約することに関心を持ったので軽く調べたことを書きますね。

(時間制限のアウトプット付きのインプットは効率がいいと思う。帰ってきて適当にfacebookを眺めるよりはずっといい。でも調べるの含めて90分かかった...)

 

なぜ興味を持ったか

先日、友人と「情報のリフォーマット」という観点で色々とアイデアを話し合っていた時に話題になり、調べてみようとなった。これには、Acrossという「論文をスマホから読みやすくしよう」というサービスを作るサイドプロジェクトが背景にある。これはまた今度説明。個人的には、論文を読み込んで新規の研究テーマを自動で見つけたりできたら面白いと思う。

 

文章要約は精度の高いエンジンが開発されつつある

何を持って要約とするのかという疑問があったけど、無料公開のツールはすでに多くあり、2000文字の文章は3-5文で要約できてしまうし、なんとなく全体像がつかめてしまう。ライブドアニュースや47 ニュースという実用例もある。実は自動アルゴリズムだったらしい。細かいアルゴリズムはわからないけど、形態素分解をして文章や単語ごとの重要度をランク付けしていくのだろうか。ウィキペディアによると、単に「タイトルと同じ単語が含まれる」などのルールを設定して本文を抽出するだけものもあるが、最近では流行りのディープラーニングを使って精度を上げることに成功したと報告する論文もあり、メディアによると人の要約と大差ないとか。この論文の著者は自然言語処理が得意なIBM Watsonの研究者とモントリール大学の研究者なんだけど、なんでも数年前の文章要約コンテストで他を圧倒した性能で優勝したのがモントリオール大学のチームだったそう。リクルートテックが公開しているpythonコードの実装と、この論文を読み込んでみたい。

文章要約の応用先

例の友達と話していたことだけど、論文、ニュース、メールなど自分の関心のある文章を要約して構造化し、それらを音声で流す自分専用のラジオなんかがあるといいよね。朝メールを聞きながら出勤し、デスクに着くとともに効率的に対応できるとか。(せかせかしすぎ?)

今日みたいに、夜遅く帰宅したけど文章要約について調べたいなと思いながら晩御飯を用意している時に音声で教えてくれたら便利だと思う。いやでも、そもそもグーグルで検索して上位5件をざっと読むのも面倒だから、それらを3点にまとめて「ようはざっくりこういうことだよ」と情報を表示してくれたらとても素敵じゃない?それって、まるで何でも知っている賢人が常にそばにいて何でもわかりやすく教えてくれるみたいだ。グーグルは検索エンジンの高度化を進める傍ら、世界中の情報を整理するための、検索エンジンの次を作っているんじゃないか。それが進んでいくと、いつかはのび太にとってのドラえもんみたいな都合の良い教師があまねく行き渡るのかもしれない(ドラえもんは必ずしも正しい知識をのび太に与えているわけじゃないから違うかも。人の言葉を話せるR2D2って感じかな)。

論文自動読み込みで研究テーマを見つけるというアイデアに関しては、「この研究分野においてまだはっきりとわかっていない部分はもしかしてこれじゃない?」と候補を提案するような形ができれば現実的で面白いかなと思う。地図の空白部分を見つけるのに似ている。どの問題を解くかを見極めるのは研究者がすることで、その補助ツールという立ち位置。これは臨床現場でのAIの応用と同じ構造。