会話型AI「ChatGPT」の成功を支えたのは、AIモデルの出力の良し悪しを評価する人間のトレーナーたちだ。OpenAIは、このトレーナーたちの仕事をAIで支援することで、ChatGPTをさらに賢く、信頼性の高いものにすることを目指している。
OpenAIはChatGPT開発において、RLHF(人間のフィードバックによる強化学習)の先駆者となった。RLHFは、人間のテスターからの入力に基づいてAIモデルを微調整し、より一貫性があり、好ましくない内容が少なく、正確な出力を実現する技術だ。
しかし、RLHFには課題もある。人間のフィードバックは一貫性に欠ける場合があり、複雑な出力の評価は困難な場合もある。また、一見説得力があるが不正確な出力を生成するようにAIモデルを最適化してしまう可能性もある。
そこでOpenAIは、コード評価を任務とする人間のトレーナーを支援するため、OpenAIの最も強力なAIモデルである「GPT-4」をファインチューニングした新たなモデル「CriticGPT」を開発した。CriticGPTは、人間が見逃したバグを発見できることが明らかになっており、判定を下す人間のトレーナーたちは、63%の場面においてCriticGPTによるコード評価のほうが優れていると認めている。
OpenAIは、この技術を将来的にコード以外の領域にも展開することを検討している。CriticGPTは“幻覚”によるミスを起こすこともあるが、それでも人間によるトレーニングのミスを減らし、OpenAIのモデルやChatGPTなどのツールの正確性を高めるうえで役立つと期待されている。
また、人間が自身の能力を超えるAIを訓練する作業を支援できる可能性もあることから、この仕組みはAIモデルを現在よりはるかに賢くするうえで極めて重要になるかもしれない。
AIトレーニング手法の進化が加速
この新しい技術は、大規模言語モデル(LLM)を改良して最大限の能力を発揮させるために開発されているさまざまな技術のひとつであり、AIが能力を高めていっても容認可能な範囲で動作することを担保するための取り組みの一部でもある。
OpenAIの元従業員たちが立ち上げたライバル企業のAnthropicは、トレーニングの手法と学習データを改良して能力を高めた会話型AI「Claude」の新バージョンを発表した。AnthropicとOpenAIは最近、虚偽をはじめとする望ましくない動作を防ぐことを目的として、出力がどのように生成されるのかを理解するための新たなAIモデルの検証方法をアピールしている。
この新しい技術は、さらに強力になるAIモデルをOpenAIが訓練し、その出力がより信頼できて人間の価値観に沿ったものであることを保証するうえで役立つかもしれない。特に、この技術をコード以外の領域にも展開できたとしたら、なおさらだろう。
OpenAIは次の大型AIモデルを訓練中であり、好ましくない動作をしないよう制御することに真剣に取り組む姿勢を積極的にアピールしている。
AIモデルを用いたAIモデルの訓練
AIモデルを用いてさらに強力なAIモデルを訓練するというアイデアは以前から存在しており、ごく自然な流れだと専門家は指摘する。RLHFに用いられる技術を開発した研究者たちも数年前にも似たようなアイデアを議論していた。
この考え方がどれだけの汎用性があるのか、どれだけ強力なのかは、まだ未知数であるが、個々の能力の飛躍的な伸びにつながる可能性があり、長期的に見ると、より効果的なフィードバックのようなものを実現していく第一歩になるかもしれないと期待されている。