OpenAI、大規模モデルにおける悪意ある行動を防ぐためのCoTモニタリングを公開

Bitget2025/03/10 23:35

原文を表示

OpenAIは最新の研究を発表し、CoT（Chain of Thought）モニタリングを使用することで、大規模モデルがナンセンスを吐き出したり、真の意図を隠したり、その他の悪意のある行動を防ぐことができると示しています。また、スーパーモデルを監督するための効果的なツールの一つでもあります。OpenAIは、新たにリリースされた最先端モデルo3-miniを監視対象とし、より弱いGPT-4oモデルをモニターとして使用しました。テスト環境はコーディングタスクで、AIがコードライブラリ内で関数を実装し、ユニットテストを通過することが求められました。結果は、CoTモニターが体系的な「報酬ハッキング」行動を検出する際に優れた性能を発揮し、リコール率は95%に達し、行動のみを監視した場合の60%を大きく上回りました。

免責事項：本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。

PoolX: 資産をロックして新しいトークンをゲット

最大12%のAPR！エアドロップを継続的に獲得しましょう！

今すぐロック