OpenAIは、ChatGPT Plusの加入者の一部を対象に、高度な音声モードの提供を開始しました。この機能は、5月のGPT-4o発表イベントで披露されたものの、Scarlett Johanssonの声に似ているとの批判を受け、安全性の懸念から延期されていました。
イベントでのデモと機能改善
OpenAIのイベントでは、この新音声モードがChatGPTの既存の音声モードよりも大幅に進化していることが示されました。OpenAIの社員がチャットボットに物語を異なる方法で話すよう依頼し、チャットボットは中断を受けながらも回答を調整するなど、スムーズな対話を実現していました。
当初6月下旬にアルファ版としてリリース予定でしたが、OpenAIは「リリース基準を満たすため」に1ヶ月延期しました。延期の一環として、同社は「モデルの特定コンテンツの検出・拒否能力の向上」に取り組んだと述べています。OpenAIの広報担当者Taya Christianson氏によると、同社は100人以上の外部レッドチーム(技術の脆弱性を見つけるために攻撃を試みる人々)と協力して音声モデルの能力をテストしたとのことです。同社は最近、安全対策について多くの批判を受けており、この延期は適切な判断だったのかもしれません。Christianson氏によれば、OpenAIは「音楽やその他の著作権で保護された音声を生成する特定の要求を認識してブロックする新しいフィルターを追加した」とのことです。
声優による声となりすまし防止
OpenAIのイベントでは、新モードの主な批判の一つとして、ステージ上の「Sky」と名付けられた声が、映画『Her』でAIの声を演じたJohanssonの声に似ているという点が挙げられました。この声はOpenAIの春のデモ以前からChatGPTに搭載されていましたが、JohanssonがOpenAIに声の作成方法について質問する書簡を送ったことを明らかにした直後に、同社はこの声を削除しました。Christianson氏によると、ChatGPTの新モードでは、声優によって作成された4つのプリセット音声のみを使用し、「ChatGPTが個人や公人の声を問わず、他人の声を真似できないようにし、これらのプリセット音声と異なる出力はブロックするようにした」と述べています。
今後の展開
OpenAIは、Christianson氏によると、この秋にChatGPT Plusの全ユーザーに新モードを提供する予定です。