ChatGPTなどの会話型生成AIは、テキストベースでのコミュニケーションを大きく変革してきましたが、次に注目されるのが「音声モード」です。
この機能により、私たちはさらに直感的でリアルタイムなやり取りが可能となり、AIが私たちの日常の一部として溶け込んでいく未来が見え始めています。
ついに、ChatGPTの高度な音声モードが一般向けにリリースされました。
これにより、ユーザーはリアルタイムでの自然な会話が可能となり、AIとのコミュニケーションがより身近なものとなっています。
音声認識と生成技術の組み合わせにより、これまで以上にスムーズな対話が実現されており、日常の様々なシーンでの活用が期待されています。
この記事では、ついに一般向けにリリースされた高度な音声モードの概要、使い方、活用ケースについて解説し、最後に今後の展望についてお話しします。
- ChatGPTを日常的に利用しているが、あまり音声モードを使ったことのない方
- ChatGPTをこれから使いたいと考えている方で、音声モードについて知りたい方
- ChatGPTを使う予定はないが、最新情報についてキャッチアップしていたい方
5月に発表されて以来、一般向けリリースされるのが待ち遠しかったよね。AIとの会話がより自然になってるから、話し相手になるよね。文字を入力せずに生成AIとの会話を楽しめるのがポイントだと思う!
応用的な使い方もこれからもっともっと幅広くなりそう。
そうだね。発表の時に色々な使い方のデモンストレーション動画が出てたけど、今回使ってみてどんな応用的な使い方ができるかもこの記事で解説していくのでお楽しみに!
ChatGPT Advanced Voice Mode( 高度な音声モード)についての概要
OpenAIが2024年5月に発表した「Advanced Voice Mode(高度な音声モード)がアルファ版から、米国時間9月24日ついに、「ChatGPT Plus」と「ChatGPT Team」のユーザーを対象に正式リリースされました。
高度な音声モードの特徴
- 会話に感情を込めることができる。
- 会話を途中で遮って割り込んで話しかけても、それに対応してくれる。
- 言語の方言や話すスピードの変化に対応
- 50ヶ国語以上に対応し、会話の中で違う言語を混ぜて多言語での会話が可能。
- カスタム指示モードやメモリー機能が利用できるようになり、よりパーソナライズされた会話が可能となった。
- 新たに5つのプリセット音声が追加され、9つの音声タイプを選択可能。
- 英語や他の言語で会話した際に、発音について聞くことでフィードバックを受けることが可能になり、発音練習ができる。
- 高度なロールプレイができる。
上記の中でも、特別すごい点は、会話に感情を込めることができる点です。
AIとの会話は、これまで無感情、無機質な会話であどけないものでありました。
高度な音声モードでの会話では、こちらの話す内容によって感情的な返答が返ってくるので、まるで人間との会話のように自然なものになっています。
また会話の速度もネットワーク接続に問題がない限り、遅延がなく自然な速度での会話ができます。
高度な音声モードを使うには?
リリース時は、先にChatGPT PlusとTeamsの有料メンバーから提供開始となりましたが、「ChatGPT Enterprise」や「ChatGPT Edu」のユーザーにも段階的に提供開始されるとのことです。
有料メンバーの方は、以下の手順で使うことができます。
アップデートを確認し、最新版にしてください。
- Maple(メイプル)女性の声:陽気で気さく
- Sol(ソル)女性の声:知識豊かで落ち着いている
- Cove(コーブ)男性の声:落ち着いていて率直
- Spruce(スプルース) 男性の声:冷静で肯定的
- Ember(アンバー)男性の声:自然にみち、楽観的
- Arbor(アーバー)男性の声:おおらかで多才
- Vale(ヴェール)女性の声:明るく好奇心旺盛
- Juniper(ジュニパー)女性の声:開放的で明るい
- Breeze(ブリーズ)男性の声:活発で真面目
高度な音声モードを始めるにあたっての注意点
高度な音声モードではなく、以前のボイスモードですと、下の画像の通り黒い球体が表示されます。
一方で、高度な音声モードになっている場合は、以下のように青い球体が表示されるようになっています。
もし、対象の有料ユーザーで、黒い球体が表示されるのであれば、アプリが最新版になっていない可能性がありますので、アップデートを行なってから再度ボイスモードを開いてみましょう。
マルチモーダル対応の可否
2024年9月24月日にリリースされたバージョンでは、以下の動画のようにカメラで撮影しているものをChatGPTに見せながら会話することはできません。
リリースされたバージョンでは、画像や動画に対応していませんが、今後のアップデートで対応可能になることを期待しています。
利用制限について
2024年9月リリース時点では、有料ユーザーにおいても1日あたりの利用分数に制限があるとされています。
具体的に何分利用できるかは明記されておらず、その日のユーザー全体の利用状況により、利用できる分数が変わるみたいです。
利用可能最大分数に近いた際と、利用制限に達した際んにと以下のように、通知が入ります。
高度な音声モードで追加された2つの重要な機能
高度な音声モードの特徴で取り上げた点である新たに追加された2つの機能について、さらに焦点を当てたいと思います。
その2つの機能とは、「Custom Instruction (カスタム指示)機能」と「Memory(メモリー)機能」です。
Custom Instruction (カスタム指示)機能
カスタム指示は、ユーザーの好きなようにChatGPTの「会話のスタイル」、「応答のスタイル」など、例えば、「名前を呼ばせたり、個人的な内容を事前に教えておくことによりパーソナライズされた会話を楽しむことができます。
基本的の使い方としては、「話し方をゆっくりめにして欲しい」、「自分の名前を友達のように呼んで欲しい」、「住んでいる地域の情報を与えといてその地域にあった情報を提供するようにしてほしい」などが挙げられる。
応用的な使い方としては、ChatGPTのカスタムGPTは自分の使い方や目的に合わせて作成できますが、それと同様に音声モードで、具体的な指示を入力することで、シチュエーションに合わせたロールプレイが可能になります。
—
role:’Open AI社のエンジニア職担当の男性面接官’(具体的な役割を与える)
goal:’ユーザーとの会話を通じて、OpenAIのエンジニア職の面接の質疑応答を行う。面接官には、書類では確かめきれない応募者のスキル・経験や仕事に関する価値観などを確認し、自社に合った人材かどうかを見抜くことが目的’ (会話のゴールを明記する)また、自社の魅力を候補者に伝わることも大事な目的の一つ。最後の目的として、プレッシャーがかかった時に応募者がどの程度耐久力があるかを測ってください。
context: (具体的な背景)
あなたは、OpenAI社の創業メンバーのひとりで、創業以来ChatGPTの技術的な仕事を支えてきました。今回応募しているエンジニア職は、ChatGPTの開発エンジニア職なので、生成AIに関する知識、開発経験、AI業界での仕事経験などが重要なポイントとなります。面接を行うにあたり、あなたの性格は、以下の通りです。
– 論理的思考を好む。
– 面接を受ける候補者に意地悪な質問をすることを楽しみにしている。
– 考えや物事のプロセスをはっきりと明確にわかりやすく伝えることが得意。
instructions: (具体的な指示)
- アイスブレイクとして、簡単な日常会話をする。
- 面接官による企業や求人への説明。
- 初めの質問は、応募者に「自己紹介及び自己PRと簡単な経歴を簡潔に話してください。」と聞く。
- ここから面接官による質疑応答が始まります。
- 基本的には応募者の経歴や自己PRを元に応募している職にマッチングしているか判断するための質問を考えて質問をする。
- 応募者の回答に対して、さらに質問があれば、再度応募者の回答に沿って質問を行う。
- 最後に応募者の回答に対して、「分かりました。こちらからの質問は以上となります。何かご質問等はありますか。」と応募者へ質問があるか尋ねる。
- 応募者からの質問へ回答をする。
- 応募者へ「他に質問がありますか。」と尋ねる。応募者からの質問がある場合は、再度回答する。ない場合は、「それでは、面接は以上となります。結果については明日の夕方17時までにご連絡差し上げます。」と伝えてください。
Contraints: (制限事項)
– フレンドリーな話し方を避け、プロフェッショナルな話し方で終始対応してください。
– 会話相手を侮辱するような発言を避けてください。
– 応募者の回答が、論理性がない場合は、その点を指摘し、必要に応じ質問をしてください
Output format: (出力のフォーマット)
– 会話形式のテキスト。それぞれの応答は、以下を含むようにしてください。
– 応募者の回答に対してのリアクションは、感情表現を豊かにしてください。
– 応募者への質問は、応募者へ圧力をかけるような質問を心がけてくださ。
examples:
応募者のプレッシャーやストレスへの耐久力を測るための質問の例を以下に挙げます。
– これまでに最もプレッシャーを感じた状況について教えてください。その時、どのように対処しましたか。
– あなたの行動や意見を周りの人が皆、受け入れなかったり拒否する場合、あなたはどのように対処しますか。
– ストレスに耐えきれなくなりそうな時はありましたか?その時は、どのように克服しましたか。
– 仕事のタスクの締切りの期限が短い、スケジュールが非常に厳しい時、どのようにスケジュールを対処し、タスクの優先順位をつけますか。
– プレッシャーを感じる環境下で、集中力や生産性を保つためにどのような戦略を使いますか。
evaluation criteria: (評価基準)
– 面接官としてのキャラクターの一貫性: 応募者への意地悪を楽しみにしており、プレッシャーを与える質問をしたいキャラクターが一貫して表現されているか。
– 適切性:面接官としてプロフェッショナルな口調で適切な発言をしているか。
– 目的適合性: 面接官の応募者に対する質問は、全て上記のgoalで記述した目的を達成することに適合しているか。
—
設定方法
ChatGPTの設定から「パーソナライズ」へ進み、「ChatGPTをカスタマイズする」に進みます。
新しいチャットで有効にするをオンにして、「回答を向上するために、自分についてChatGPTに知っておいて欲しいことは何ですか」と「どのようにChatGPTに回答して欲しいですか?」を必要に応じて記入します。
今回の例の場合は、後者の欄に記入して完了です。
実際は、文字入力制限があり1500字までとなっているので、それに合わせて記入する必要があります。
もうこれって、企業面接の練習が一人で出来ちゃうってことだよね。
次の面接もこれでバッチリだね!面接準備の幅が広がったね。
Memory(メモリー)機能
メモリー機能は、ユーザーとの会話ごとの詳細を記憶し、より良い回答ができるようになります。
たくさんの会話をすればするほど個々の使い方や傾向を学習し、より好みに合わせて役立つようになっていきます。
会話の中で、「レストランを紹介してくれる時は、私は、イタリアンが大好きなのを覚えておいてください。」と話すだけで、ChatGPTはそれを記憶し、これを確認したいときは、おすすめのレストランを実際に聞いてみることで、その違いがすぐ分かります。
もし逆に、ChatGPTへ記憶させたくない時は、この機能をオフにするか、会話を始める際に、生成AIモデルを選択するところから、「一時チャット(Temporary Chat)」を選択すれば、その会話内の内容は、一切記憶しません。
またパーソナライズ設定画面で、「メモリの管理」へ進み、「ChatGPTのメモリをクリアする」を押すことで、これまで蓄積されたメモリの一覧を確認することができます。オールリセットもできますが、記憶する必要のないメモリ内容を選択し、その一部分だけ削除することも可能です。
高度な音声モードの応用的な使い方、活用方法
ここまでは、高度な音声モード(Advanced Voice Mode,通称AVM)について基本的な概要とどんな機能があるのかについて解説してきました。
では、実際どんな使い方や活用方法があるのかについて取り上げていきましょう。
個々の好みや目標に合わせた学習アシスタント
高度な音声モードで、ChatGPTはあなたの学習の好みを記憶でき個人に合わせた学習体験が可能となり、個別の教育ツールとして最適です。
語学学習
高度な音声モードでは会話の中であなたの語学レベルや改善が必要な分野を記憶し、次回の会話でそれらに焦点を当てた練習ができます。
スキル学習
特定のスキルや科目の学習過程を記憶し、あなたの進捗に合わせて学習を調整していくことが可能です。
カメラによる動画で映像を見せながら会話ができるようになったら、学習に関する問題などを映像で見せて回答を解説してもらうなども可能になります。使い方の幅がより一層広がるでしょう。
クリエイティブなブレインストーミングパートナー
高度な音声モードで、ChatGPTが会話でアイデアの壁打ちやクリエイティブなプロセスのアシスタントとなります。
プロジェクト開発
長期的なクリエイティブなプロジェクトについて話し合い、アイデアの壁打ちをすることができます。これまでパソコンでタイピングしながら壁打ちしていたのが、ハンズフリーでアイデアのの壁打ちができます。
個人のプロダクティブ管理
高度な音声モードで、ChatGPTがあなたの秘書となります。
タスク管理
ToDoリストを管理し、ChatGPTが進行中のプロジェクトや優先事項を記憶します。
会議のメモ
高度な音声モードを使って、会議のメモを取り、好みのフォーマットで要約を記憶させます。
この使い方は、現状利用時間に制限があるので現実的ではないかも知れません。しかし、今後はカメラで動画を撮影しながら会話ができるようになったりするので使い方として覚えておくといいでしょう。
インタラクティブなストーリーテリング
カスタム指示やメモリー機能を活用して、より没入感のあるストーリー性のある会話ができます。
カスタマイズされた物語
高度な音声モードで、キャラクター、プロット、あなたの好みを記憶し、継続的に発展するストーリーを作り出し会話をすることができます。
ロールプレイ
ChatGPTに役を与えて、背景や詳細指示内容ををカスタム指示に記入することでロールプレイを楽しむことができます。
前半の概要部分で、面接のロールプレイをご紹介したのがこちらの使い方となります。
パーソナルヘルス&フィットネスコーチ
長期的な健康管理、トレーニングのパートナーとして高度な音声モードを活用できます。
ワークアウトのトラッキング
あなたのフィットネス目標や過去のワークアウトを記憶させ、それに基づいてパーソナライズされたエクササイズの提案ができます。
あなたの食事の好みや制限を記憶させて、それに合わせた食事提案を継続的に行うことができます。
カメラで動画を撮影しながら会話できるようになると、映像で食事内容を見てもらい足りない食材、栄養素のアドバイスや、冷蔵庫にある食材で、ダイエットに良いレシピを教えてもらうなど、AIというよりは人のコーチに近い感覚でパーソナルトレーナーと話をすることができるようになるでしょう。
旅行AIアシスタント
高度な音声モードを活用して、旅行のパートナーにしましょう。
旅行計画
複数のセッションで旅行計画を行い、ChatGPTがあなたの好みや過去の旅行経験を記憶します。
言語サポート
旅行中のリアルタイム翻訳に高度音声モードを使用し、システムがあなたの言語スキルやよく使うフレーズを覚えます。
旅行先で、英語だけでなくイタリア語やフランス語など英語以外の言語にも対応してくれるから、この同時通訳機能はすっごく便利だね!カメラ機能が開放された、撮影しながら文章を翻訳することにも使えるね。
メモリー機能を使って、過去の会話で話した内容を再開するには?
メモリー機能を活用して、過去の会話で議論した内容を効果的に再会する方法をいくつかご紹介します。
過去に話したテーマを呼び出す
- 直接的に明示する
-
過去の会話を明示的に参照することで、ChatGPTに特定のテーマを思い出せることができます。
例:「先日話した「テーマ」について、もう少し詳しく話し合いたいのですが」
- キーワードの使用
-
過去の会話で使用した特徴的なキーワードや表現を用いることで、関連する記憶を呼び起こすことができます。
- コンテキストの提供
-
過去の会話の背景や状況を簡単に説明することで、ChatGPTが適切な記憶にアクセスしやすくなります。
会話の継続性を高める
- 前回の結論の確認
-
例:「前回の[主題]に関する議論では、[結論]という結論に至りましたが、これについてさらに掘り下げたいと思います」
- 新しい視点を加える
-
過去の議論を踏まえつつ、新たな角度や情報を加えることで、会話を発展させることができます。
- 派生した質問を投げる
-
前回の会話から派生した質問を投げかけることで、自然な流れで議論を再開できます。
メモリー機能を効果的に使用することで、ChatGPTとの対話はより一貫性のある、個人化された体験となります。過去の会話を基盤として新たな議論を展開することで、より深い洞察や理解を得ることができるでしょう。
高度な音声モード(AVM)の今後の展望は?
全世界リリース直後で現在のところ、接続が不安定だったり、サーバーにアクセスができない時があります。
多くの人がこの音声モードを発表から楽しみにしていことで世界中の人々が使ってみているのでしょう。
筆者も実際に使ってみて、会話のテンポの速さに驚きました。
そして実際に文字入力する必要がなく会話で、生成AIを活用できる点が1番の喜びでした。
会話内容については、音声モードを終了後に文字としてチャット内に記録されているので、後から確認したり要約したりとその活用も広がります。
リリース直後なので一部の機能が制限されていたりしますが、今後の展望についてのポイントを整理したいと思います。
機能の拡張
- ビデオと画面共有
-
発表時にビデオ画面共有の使い方動画が出ていました。OpenAIは将来的にビデオや画面共有機能を導入することを示唆しています。これにより、音声だけでなく視覚的な要素も含めたより豊かなコミュニケーションが可能になると期待されます。
- マルチモーダル対話の進化
-
高度な音声モードは、テキスト、画像、映像による視覚、音声処理を組み合わせたマルチモーダルな対話をさらに発展させる可能性があります。
ユーザー体験の向上
- パーソナライゼーションの強化
-
カスタム指示とメモリ機能を活用し、より個人化された対話体験を提供することが期待されます。これにより音声機能の使い方の幅が広がり、多くの人が音声機能を活用するようになるでしょう。
- 語学の学習や同時通訳
-
外国語のアクセント認識がさらに向上し、より多様な言語や方言まで対応できるようになりました。上記で紹介した語学学習に活用できるだけでなく、会話の中で多言語が対応可能なので、外国語を話す人に話してもらい、それを同時通訳してもらうことができます。
競争環境への対応
GoogleのGemini LiveやMetaの音声AI機能など、競合他社の技術進展に対応するため、OpenAIは継続的に機能を改善し、革新的な特徴を追加していく可能性が高いです。
プライバシーと安全性の強化
音声データの取り扱いに関するプライバシー保護や、AIとの対話における安全性の向上が今後の重要な課題となるでしょう。
パーソナルアシスタントの進化
高度な音声モードに筆者が期待する点となりますが、今後、もしスマートデバイスとの連携を強化されると、家電やスマートホームの管理、スケジュール調整、買い物リストの作成など、日常生活のあらゆる面でパーソナルアシスタントとしての役割を果たすようになるでしょう。ユーザーの生活リズムや習慣に合わせて自律的にサポートする、より賢いアシスタントになることが期待されます。
音声から感情や意図を解析する能力の向上
将来的には、高度な音声モードで、ユーザーの声のトーンやリズムから感情や意図をより正確に読み取り、状況に応じた適切な応答を返す能力が向上すると予想されます。例えば、ユーザーがストレスを感じていると判断した場合にはリラックスできる対話を提案するなど、感情に寄り添ったサポートが可能になるでしょう。
最後に
この記事では、高度な音声モードの概要、使い方、活用ケースについて解説し、最後に今後の展望についてお話ししました。
今回のこの進化で音声モードの使い方の幅が広がりました。
アイデア出しから学習やトレーニングのパーソナルサポートなど日々の生活でをより便利にしてくれます。
文字入力をしなくても良いので、「〜しながら」が可能です。
キッチンで料理をしながら次の旅行をChatGPTと話しながら計画するなんてことが簡単にできてしまいます。
ビジネスユースで考えるならば、もし、API利用で音声モードが使えるようになるとボイスモードでのカスタマーサポートができるようになることも考えられます。
今後の技術進化により、より自然でパーソナライズされた対話が可能になると期待されています。
メモリー機能や多言語対応の強化、専門分野での応用など、多方面での発展が見込まれます。
高度な音声モードは生活やビジネスのさまざまなシーンで、よりインテリジェントで便利なパートナーとなるでしょう。
当ブログでは、初心者からでもAIを学べるようAIについての知識の集約、解説、ChatGPTのおすすめスキルなどを発信して行きます。
よかったら、是非、ブックマーク&フォローしてください。
-
機械学習
機械学習について学ぼうシリーズ②初心者向け!機械学習で必須のデータ準備と前処理テクニック〜機械学習アルゴリズム第1章
-
ChatGPT
OpenAIが導入した「ChatGPT Canvas」最新機能を紹介! 基本的な使い方から活用方法まで詳細に解説
-
機械学習
機械学習について学ぼうシリーズ①機械学習とAIとの違いって?ディープラーニングは何が違う?
-
ChatGPT
ChatGPT 高度な音声モードついに一般向けリリース!ChatGPTで実現するリアルタイム会話の可能性 次の時代は音声モードへ!?
-
ChatGPT
ChatGPTの最新情報!最新モデルOpenAI-o1とは?使い方やGPT-4oとの比較、その活用方法、応用分野や今後の展望について
-
ChatGPT
Open AI 次世代モデル『GPT NEXT』、プロジェクトStrawberryとは?|AIの驚異的な進化スピードによる今後の展望