マルチモーダル対応が進む生成AI

06 Oct 2023

ChatGPTが、画像解析機能、音声認識・発話機能が追加され、声を出せる部分は口の一部として言えるかもしれませんが、マルチモーダルAIとしてついに目と耳を手に入れました。五感でいえば視覚、聴覚にあたり、以前にも増してさらに汎用人工知能（AGI）に近づいてきたと言えます。

今までも、画像生成AI「Midjourney」や、音声合成・変換を行う音声生成AIなどそれぞれ特化した分野ではすでに優れた生成AIが活躍していましたが、それらは専門家が必要とし使われるツールだというイメージがありました。
しかしながら、Google Bardのマルチモーダル機能に続き、ChatGPTが対応してくると、いつも会話と同じように声の指示でイメージ画像を作ってもらったりできるのでかなり身近に感じられます。
誰でも簡単に音声で会話ができるようになると、スマホでのAIとの会話は、まるで誰かに電話でもしているかにように自然にやりとりできます。そして、車にスマホを置くだけで、昔の海外ドラマのナイトライダーのナイト2000に搭載された人工知能K.I.T.T.（キット）が相棒になったような気分になれます。
音声合成の技術進化がめざましく、以前はナビとかが喋っている声は独特でパターン化された文章だったので誰もがコンピューターの応答だとわかったのですが、現在は自然言語なので人が喋っているかのように全く違和感のない会話が可能となっています。

しかも、特定の人の声をAIで合成してその人と同じ声色にすることができ、今後パーソナルAI化が進めば、その人のイントネーションや、言葉遣いの癖なども同じようにできてしまいます。各AIメーカーもやはりパーソナルAIの開発を目指しているようで、これが怖ろしいのは、今までは勘違いし易い老人を狙ったオレオレ詐欺が、普通に家族や友人が騙されてしまうほどのレベルになってしまうということです。そして、もはや犯行のために人を雇う必要もなく、ネット上のSNS等からパーソナルデータを盗めば、圧倒的な短時間に大量のオレオレ詐欺的な巧妙な犯罪が実行できてしまうようになります。困ったことに、1枚の写真から、その人の動画が作れてしまう現代では、電話のみならず映像も使って真実ぽく演出することが可能であるため、犯罪を見抜くことはかなり難しくなっていくでしょう。

悪いことばかりではなく、AIのパーソナライズが進めば、目と耳を手に入れたAIは、特定個人の特徴をかなり取り入れることができるため、いろいろな場面で活躍が期待されます。
先人の偉業や、考え方、生活習慣等をパーソナルAIに学習させれば、今後の経営方針の相談がその人が不在であっても可能になったり、自分が居なくてもオンラインコンサルの仕事をAIが代行してくれるなどさまざまなシーンが想像できます。まさしくAIの進歩で期待されていた、バカンスを楽しんでる最中でもAIが自分の業務を代行してくれる世の中に近づいてきました。
今後生成AIの活用の場が広がっていけば、テレビや動画で見ている限りは、有名人であっても本人なのかAIなのか分からなくなってくるでしょう。そうなるとファイクかどうかの判定、著作権、ファクトチェックなどさまざまな問題が浮上して、本人なのかAIなのかもうどうでもいい時代になってしまうのかもしれません。

とはいえ、五感の残り３つの触覚、味覚、臭覚はセンサーの技術進歩は進んでいても、汎用生成AIへの搭載はまだまだこれからなので、やはり触れ合えるほどの距離感が重んじられる時代になっていきそうです。
AIでどんなにいい音楽が作れても、Liveの演奏会は無くならないでしょうし、どんなに素晴らしい動画が家で視聴できるようになってもやっぱり友人といく映画館や舞台、遊園地などの娯楽施設は無くならず、むしろ今まで以上に流行っていく気がします。
実際の仕事についても、テレワークもいいけれどお金儲けはAIに任せて、実際に人と人が会って交流できる職場が人気になっていくでしょう。

マルチモーダル対応が進む生成AI

マルチモーダルは、パーソナルAIを加速させる

業務プロセス可視化支援

業務プロセス改革　DX推進支援

マルチモーダル対応が進む生成AI

マルチモーダルは、パーソナルAIを加速させる

業務プロセス可視化支援

業務プロセス改革 DX推進支援

業務プロセス改革　DX推進支援