norishideのブログ

皮肉が散りばめられた真面目な文章を書きたい

Cognitoysは意外と楽しいという雑感

Cognitoysは Kickstarter発のプロダクトで、5~9歳向けのスマートトイ。IBM Watsonによる音声認識と会話機能が実装されている。wi-fi経由でネットワークに繋げないとただのピカピカ光る恐竜の置き物になる。30分ほど 使ってみたが、それなりに楽しく遊べた。

 

まず最初に、コンテンツの充実性、音声コマンドによるコントロール、返し方の3つに注目して使った感じを。

基本的な機能は公式webに書いてある通りだが、ジョーク、お 話、ゲーム、QA形式の雑談(i.e. chit chat)が主たる会話の機能となっており、他にも音楽を流したりできる。ジョーク、お話、ゲームのコンテンツはまだ限定的だが徐々に拡張されている。ロ ジック的に当たり前だけど、話を遮ることはできない。ジョークやクイズゲームなどの短いコンテンツならいいが、長めのお話が開始されるとそれが終わるまで 聞き続けなければならない。途中で「I want to quit」など何を言っても終了できない。特定のポイントに来ると「Do you want to continue?」と言った意味の質問をしてくるので、ここでユーザー入力のyes/no(ネガ/ポジ)判定を行う。

Dino Commandと 呼ばれる音声コマンドで特定の機能を動作できる。 例えば、「Say xxx」と入力すればDino(恐竜の名前)は「xxx」と返答する。「Say "I hate Donald Trump"」 と入力すれば Dinoに 「I hate Donald Trump」と言わせることもできる。(ひとり爆笑してしまった...)他の例では「Repeat」や「I didin't get that」で前言ったことを繰り返し言わせることができる。音声インターフェースを作るならこの聞き返し機能は必須だと思う。これらの動作を特定のキー ワードでトリガーできるのは有効な手段だ。音声認識について良いアイデアだと思ったのは、胴体のボタンを押している時だけ音声入力を受付るという点だ。こ れは電源がONにされている間ずっと音声待受け状態を維持するよりもはるかに良い。なぜなら、音声待ち受け時間を短くすることでAPI呼び出しのコストが 下がるし、余計なノイズを拾って認識できないケースを除外できる。さらにこの時口元のLEDの色が変わるので、ユーザーは明確にDinoが話を聞いている 状態と喋っている状態を区別できる。

悪意のある入力に対する反応を試してみた。fワードや極端にネ ガティブな発言に対しては「そんなこと言っちゃいけないよ」という意味の反応を返される。入力が、悪い発音、言い直す、そもそも日本語、などで判別できな いような時は「I didn't get/hear that, Say it again」とか、「何か別のことを話そう」という反応になる。言い回しやパターンがいくつかあるのでそんなにストレスを感じない。そもそも「これは答え られないだろ」というい前程で話しかけているのだけれど。返答にかかる時間はだいたい2〜3秒で、意外とストレスを感じない。

 

アマゾンのレビューでは評価が分かれている。とても楽しいおもちゃだと評する5つ星のレビューと、1つ星が同じくらいあり、中間が少ない。低評価のレビューのうち、「子供の興味を学習するとあるが私の子供の興味を学んでいるようには思えない」という指摘はもっともだ。なぜなら、このページを 見ればわかるようにコンテンツを決めているのは製品企画側だから。一般的に、「人工知能(もといWatson)があなたの会話を学習してそれに合わせて製 品をアップグレードします」という神話が流布さているが、実際にあなたの会話を学習するのは超高性能の天然知能、すなわち会話ログを見てあれこれ考えてい る製品企画側の人間だ。とはいえ、今までは「おもちゃにユーザーがどんなことを話しかけるか」という記録を入手できる手段はほぼなく、超リアルなユーザー の声が直接コンテンツメイカーに届く仕組みというだけでも十分に画期的だとも言える。

 

気になる値段だが、なんと$99.99。一方シャープのロボホ ンは21万円*1。Cognitoysはこの値段でどうやって利益を出しているんだろう。Watson APIのConversation,STT,TTSを使っていると仮定すれば、安く見積もっても$10/monthくらいかかってしまうはず*2。子供 は成長が早いから9ヶ月もしたら飽きる前程で作られているんだろうって?いや、それじゃあ、「恐竜のDinoはあなたの子供と一緒に成長します」っていう 製品の大事なウリが嘘になる。次に予想できることといえば、実際にはAPIを使っているわけではないということだ。Watson APIのオファリングが始まる前に開かれたIBMのコンテストか何かで優勝したstart-upなので、IBMが特別な形で技術提供をしているのかもしれ ない。

 

*1:携帯電話として の機能と、可愛らしい動作を実現するため のモーションシステムが値段を釣り上げていることは確かだけど、それだけでここまで高くなるものなのか。ハイエンド層を狙った実験的な値段設定と思われる けれど、市場へ大きく広めたいならばこの値段設定は適切ではないように思える。

*2:API公式ドキュメントに値段が書いてある。一日に数分遊ぶと仮定する