Blogs

OpenAIの強化微調整:専門家のように考えるようAIに教える(12日目のうち、2日目)

December 11, 2024

強化微調整 (RFT) オープンAI「オープンAIの12日間」イベントでは、この日のスポットライトが当てられました。OpenAI Playground での AI カスタマイズへの新しいアプローチを示すこの手法は、パターンの再現から、ドメイン固有の方法による推論に焦点を移します。

現在、企業や研究者は、専門家レベルの精度で動作するAIを作成するためのツールを手に入れています。アルファユーザーが利用できるようになったRFTは、2025年初頭に一般公開される予定で、業界全体でのAIとその役割を再定義することが期待されています。

知っておくべきこと

RFTは単にモデルを改善することではなく、モデルを作ることです より賢い。OpenAIはイベント中に詳細を明らかにし、RFTが微調整のパラダイムをどのように変えるかを説明しました。

  • 推論主導型トレーニング: RFT は以下の方法でモデルを理性的に学習させる やりがいのある正しい推論経路。モデルをデータパターンに合わせる従来の微調整とは異なり、この強化ベースのアプローチにより、AI は複雑な医療、法律、金融の問題を解決できます。
  • カスタムグレーダー: RFT の基礎となるのは グレーダースキーマ、モデルの出力を評価するためのカスタマイズ可能なメカニズム。ユーザーは自分のニーズに合わせてグレーダーを設計することも、OpenAI の自動生成スキーマを利用することもできます。これらのグレーダーは、アウトプットの背後にある推論の質を測定し、専門家の考えと一致していることを確認します。
  • ドメイン固有の専門知識: 企業は、最小限のデータでAIをその分野の専門家に微調整できます。判例法の要約や医療診断記録などの分野固有のデータセットがあれば、精度の高いモデルを作成するのに十分です。
  • 3 つの微調整方法: RFT には他に次の 2 つのオプションがあります。監視付き微調整 (データパターンを模倣する) と ダイレクト・リファレンス・オプティマイゼーション (アウトプットと参考回答を一致させる) — ユースケースに基づいた柔軟性を提供します。
  • アルファロールアウトとその先: RFT 機能は現在アルファ版で、一部のユーザーが利用でき、企業や研究者が申請できます。OpenAIは、2025年のリリースまでにフィードバックに基づいてプロセスを改善することを目指しています。

なぜそれが重要なのか

RFT は今日の AI における主なギャップを解消します。 専門分野での推論。この開発が変革をもたらす理由は次のとおりです。

  • あらゆるドメインでのカスタム推論: OpenAIは、RFTによってモデルが特定の分野の専門家のように推論できるようになることを強調しました。たとえば、RFT で微調整された AI では以下のことが可能になります。
  • 限られた医療データを使用して希少疾患の症状を診断します。
  • プロの弁護士レベルの正確さでカスタマイズされた契約書を作成できます。
  • 経験豊富なエコノミストのように、新たな金融リスクを分析しましょう。
  • 効率的な微調整: RFT では、以下を使用してモデルをトレーニングできます。 数百 従来必要だった数千または数百万の例の代わりにこれにより、モデルの精度と使いやすさを向上させながら、コストを削減できます。

デモスポットライト:
発表の間、バークレー研究所の計算生物学者であるジャスティン・リースは、現実世界のシナリオでRFTの力を実証しました。彼は RFT を使用して、希少疾患の遺伝的原因を特定するためのモデルを微調整しました。厳選された数百例だけを使って:

  • RFT チューニングモデルの実現 最初の試行で 31% の精度、と比較して GPT-4 のベースモデルが 25% オフ
  • 採点者は、論理的かつ段階的な推論を経て遺伝的変異を特定した結果に報酬を与えました。
  • また、AIは新しい例をより効果的に一般化することもできました。これは、強化ベースのトレーニングの主な利点です。

競争環境

OpenAIはRFTで大きな一歩を踏み出しましたが、他のいくつかの競合他社も同様の強化ベースの微調整の取り組みを模索しています。これらには以下が含まれます。

  • ディープマインド・アルファコード:強化学習を適用して、論理を多用するタスクにおける推論を強化し、多様な問題解決方法を模索します。
  • アントロピック・クロード: フィードバック主導型のループを使用して、タスク固有の推論を改善し、モデルをユーザーの意図に合わせます。
  • メタのコードラマ: 近接政策最適化(PPO)などの強化手法を活用して、複雑な問題解決能力を磨きます。

これらのプログラムは、高度な推論と説明可能性に焦点を当てたRFTの焦点と密接に一致していますが、明示的に使用するものはありません。 グレーダー主導の推論—OpenAIが採用している独自のプロセス。オープンアイの RFT ヒューマンフィードバックを活用してモデルの問題評価と解決方法を積極的に導き、ハイステークスシナリオにおける透明性と説明責任を強化することで、他社とは一線を画しています。

より大きな可能性:誰が恩恵を受けるのか?

RFT は次のような AI システムを構築するように設計されています。 専門家ジェネラリストではなく、次のような業界セクターに利益をもたらすことを目的としています。

  • ヘルスケア: RFT で微調整された AI により、画像診断の分析、まれな遺伝病の特定、個別化された治療計画の推奨が可能になります。
  • リーガル: トムソン・ロイターなどOpenAIの既存のパートナーシップをRFTで強化すれば、AIを活用したリーガル・アシスタントが密度の高い契約や法律に対応できるようになります。
  • エンジニアリングと財務: RFTにより、AIは人間の専門家を反映した推論で構造設計分析、市場予測、最適化の問題に取り組むことができます。

最小限のトレーニングデータで専門家レベルの結果を提供するRFTの能力は、中小企業やニッチな要件を持つ業界にとってゲームチェンジャーです。

秘伝のソースとは?

RFTの中核は、RFT間の相互作用にあります。 年生 そして 強化学習:

  • 教師としての採点者: 採点者は、ユーザー基準または自動生成されたスキーマに基づいてモデル出力を評価します。たとえば、採点者は、モデルが医療診断を論理的かつ正確に説明しているかどうかを評価するかもしれません。
  • 報酬とペナルティシステム: モデルは正しい推論経路をたどると報われ、誤った論理や間違った答えを出した場合は罰せられます。時間が経つにつれて、モデルはドメイン固有の専門家へと形作られます。
  • カスタマイズ性: 企業は、疾患の診断、契約書の作成、ワークフローの最適化など、特定のニーズに合わせてグレーダーを調整できます。

このシステムにより、AIは答えを「推測」するだけでなく、次のことを学習します。 考える それらを介して、推論が重要なドメインに最適です。

次は何が来るの?

OpenAIのRFTロードマップには以下が含まれます。

  • フィードバック主導の改良: アルファテスターからの洞察が最終製品を形作り、多様な業界のニーズを満たすことを保証します。
  • 2025年のパブリックロールアウト: 2025年第1四半期には、研究者や企業を含む幅広いオーディエンスがアクセスできるようになる見込みです。
  • チャットGPTプロとの統合: ハイコンピューティングRFTモデルは月額200ドルのサブスクリプションに含まれており、あらゆる規模の企業が高度な微調整を利用できるようになります。

さらに、OpenAIはそのことをからかいました ボイスクローニング機能これにより、ユーザーは短いテキストを読むことで自分の声を再現できます。この機能は RFT とは直接リンクしていませんが、AI のカスタマイズにおける新たなステップであり、年齢制限などの保護手段を備えた形でリリースされる予定です。

ザ・ファイナル・ワード

強化の微調整により、OpenAIはAIの機能に関する私たちの考え方を変えています。モデルはもはや答えを提供するだけではなく、専門家のように推論することを学びます。病気の診断、法的文書の起草、市場動向の分析のいずれにおいても、RFT は AI を複雑でリスクの高い問題を解決するための重要なツールとして位置づけています。

私たちと一緒に好奇心を持ち続けてください!」
追いつく 12 日目の 1 日目 OpenAIのO1モデルに関するブログを読んで、毎日AIの世界を深く掘り下げていくのをフォローしてください。