コンテンツ

SAカレッジ22年度コースⅡ 第11回月例会質疑セッションがありました

2023年02月24日

伊藤彰則教授「ロボットからエンターテイメントまで
～幅広い分野に応用が広がる音声対話技術～」

SNS230224-s 2023年2月21日、SAカレッジコースⅡ第11回月例会質疑セッションが開催されました。
講師は、伊藤彰則教授。講義テーマは「ロボットからエンターテイメントまで～幅広い分野に応用が広がる音声対話技術～」でした。
質疑セッションの前に、講義内容の補足をお話してくださいました。

AI技術の大きな進展

この業界、非常に変化が早くていろいろなことがおきています。今日はアップデート情報ということで、その後どういうことが起こっているかということについてお話ししたあと、質疑ということで何でもお答えしようかと思っております。よろしくお願いします。

まず、ご存じの通りここ1、2年のAI技術の進展はものすごくて、私もついていくのが精いっぱいという感じではあります。
特にここ1、2年で劇的に進歩した分野として、ひとつは「画像生成」。これは説明をいれるとその説明に合わせた絵を描くという、そういう技術です。
これが3年前くらいは「そういうことができるらしい」という話があって、「ホントか？」と半信半疑だったんですけれども、一番最初に出てきたDALL-Eというやつ、これが公開されて、そのあとStable Diffusionとか、そういうものが実際公開されて、オープンソースで自分でもプログラムが作れるみたいな、そういう状態になって、界隈が大騒ぎになったわけです。いろいろなものを自分で学習させ生成するみたいなことを、今も非常に盛んにおこなわれています。

「言語理解」と「対話」

それから、もう一つが「言語理解」と「対話」。

今日のテーマは音声対話ですけれども、音声対話の中の非常に重要な要素が対話技術ですね、何かを言われたときにそれに対して答えるということですが、この部分でも極めて大きい進展がありました。
その一つがGPT-3と呼ばれているモデルで、これは言語モデルというものです。言語モデル自体については、音声認識のところでもお話ししていて、それと原理的には同じものなんですけれども、違うところは、規模が非常に大きいところです。
あとでスライドを使って説明いたします。
で、大規模なモデルを作るとですね、大規模じゃなかったときとは全然違う挙動を示すということが、ここ1、２年くらいで明らかになりました。

それを使って対話ができるchatGTPというシステムがオープンAIという会社によってオープンにされて、それを見て大騒ぎになっているという状態です。
同様なサービスはPerplexity.aiとか、あとはchatGTPの改良版ですけれどもマイクロソフトがBingサーチに導入したりして、非常に今、この業界では最もホットな話題になっているという感じです。

特に音声対話って対話技術なので、その領域では今お話ししました大規模言語モデルによる対話システムの進歩というのが重要です。

これには要素が三つあって、内容まで詳しく理解するってなかなか難しいですけれども、大量データ、ともかくデータが多い。

近年のAIはデータを与えてそこから自動的にモデルが学習するというやり方をとるんですけれども、その時に使うデータの量が極めて多いというのが特徴です。
二つ目がtransformerってモデルで、これは系列を処理するモデルでGoogleが作ったものです。
三つめが自己教師あり学習というやつで、データだけあれば正解がなくても学習ができる、そういう技術が開発された。
この三つによってこういった技術が実現されたということですね。

で、こうなるっていうのは、最初から分かっていたことではなくて、実験していったらこうなった感じが正しいと思います。
「データとモデルの規模拡大による知能の創発」と書いてあるんですけれども、chatGTPとか試された方いらっしゃるかもしれません、Bingサーチの方は特別に何かしなくても、順番待ちの申込だけしてれば使えるようになるんですけれども、それをみると非常に機械とは思えないような対話をするんですけれども、どうしてそういうことができるようになったのかというと、よく分かんないんですよね。多分作っている方もよく分かっていない。
データが莫大でモデルも極めて規模を大きくしてみたらできたということで、「知能の創発」という言い方をしています。
で、現在そういう感じになっているということです。（中略）

その後、下記トピックスについてお話してくださいました。

対話AI（Bing Chat）
大規模言語モデル
transformerモデル
自己教師あり学習
音声認識技術の進展
今後の展望

今後の展望

今後の展望として、音声認識・合成技術は人間に迫ってきています。
一般的な状況での音声認識制度はすでに人間を超えています。

一般的でないところというは、雑音がするところとか、人がたくさんしゃべっているところとか、そういうところでは一部、まだ人間には及ばないところがあります。

ただこれもデータさえあれば精度が上がっていくので、時間の問題かなという感じはしています。
合成についても通常の音声でのテキスト読み上げなどの合成品質というのは、もう人間と区別ができないレベルです。
対話技術が非常に発展して、今爆発的に普及しようとしていて、GPT-3に代表される大規模言語モデルによるブレークスルーがおきましたので、今後はそれを使っていろいろなことが行われるんだろうなという状況になっています。

ではAIは人間と同等になるのか？ということですけれども、おそらく受付業務などの用途では、十分なレベルに達していて、音声で受付をして何かをするというのは、ちょっとしたチューニングでおそらく可能になるだろうと思います。

まだビジネス化してないので本当に使えるところまでいくかどうかは、やってみなければ分からないですけれども、おそらくできると思います。

より広い状況の問題で、例えば音声対話をロボットに実装したというのを考えると、人間同士の場合だと、「この人何の用事があるのかな」と近づいて話しかけることがあるんですけれども、自分と相手との関係を考慮して話しかけるとか話を聞くとかいつ会話を返すというのとか、そういう人間だったらやっているようなコミュニケーションの部分というのは、言語モデルではカバーできないので、そういうところは今後考えることになるんだろうなと思います。

あとは、数年前は「AIはすごいけど人間には及ばないよね」という状況だったのが、今、人間に大分近づいてきていて、そのうちこの勢いだと人間を超えるだろうなといのは、ほぼ確実です。
そうすると人間らしさってなんだって話で、感情とか不完全さとか、例えば音声合成みたいなものだと、人間の声は完璧じゃないから人間ぽく聞こえるという話がある訳ですね。
そういうところまで真似て、人間ぽくする必要があるかというのは、議論の対象だと思いますけれども、そういうところも残された問題としてあるんだろうなという風には思っています。（後略）

次回、コースⅡ第12回月例会は、薮上信教授による「磁気工学と高周波技術のヘルスケアサービスへの応用」です。

SACプロジェクト共同研究等に関するお問い合わせはこちら

講座紹介

前のページに戻る

コンテンツトップへ戻る