[go: up one dir, main page]

コンテンツへスキップ

Composer: RLで高速な最先端モデルを構築する

作成者: Cursor Team研究

Composer は、ソフトウェア開発における知能と速度を重視して設計された新しいエージェントモデルです。社内ベンチマークでは、同等モデルの4倍の生成速度で、フロンティアレベルのコーディング性能を示しています。

私たちは、大規模なコードベースで実際のソフトウェアエンジニアリング課題をモデルに解かせるよう訓練することで、こうした成果を実現しています。学習中、Composer には本番運用の検索・編集ツール群へのアクセスが与えられ、幅広く難度の高い問題を効率的に解くことが求められます。最終的に得られるのは、Cursor でエージェントとして高速に活用できるよう最適化された大規模モデルです。

私たちの原動力は、独自の補完モデルである Cursor Tab を開発してきた経験にあります。開発者はしばしば、対話的に使えてコーディングのフローを途切れさせない、最も賢いモデルを求めていることがわかりました。開発の過程では、より高速なエージェントモデルの効果を理解するために、Cheetah というコードネームのプロトタイプのエージェントモデルを試作しました。Composer はこのモデルをさらに高機能にしたもので、対話的な体験に十分な速さを備え、コーディングの楽しさを保ちます。

Composer は、長いコンテキストの生成と理解に対応した mixture-of-experts(MoE)言語モデルです。多様な開発環境での強化学習(RL)により、ソフトウェアエンジニアリングに特化しています。学習の各反復で、モデルは問題の記述を与えられ、コードの編集、計画の立案、有益な回答などのうち最適な応答を生成するよう指示されます。モデルは、ファイルの読み取りや編集といったシンプルなツールに加え、ターミナルコマンドやコードベース全体にわたるセマンティック検索といった、より強力なツールにもアクセスできます。

進捗を測るため、私たちはソフトウェア開発者にとってのモデルの有用性をできる限り忠実に評価する仕組みを構築しました。私たちのベンチマークである Cursor Bench は、Cursor のエンジニアおよび研究者による実際のエージェントへのリクエストと、それに対する人手で厳選した最適解で構成されています。これにより、この評価はエージェントの正確性だけでなく、対象コードベースにおける既存の抽象化やソフトウェアエンジニアリング慣行への整合性も測定します。

強化学習により、モデルを効果的なソフトウェアエンジニアリング向けに積極的に最適化できます。インタラクティブな開発では応答速度が重要なため、ツールの使い方で効率的な判断を行い、可能な限り並列性を最大化するようモデルを報酬設計で促しています。加えて、根拠のない主張や不要な応答を抑えることで、有用なアシスタントとして振る舞うよう訓練しています。さらに、RLの過程で、複雑な検索の実行、リンターエラーの修正、ユニットテストの作成と実行といった有用な振る舞いをモデルが自発的に身につけることも確認しています。

大規模な MoE モデルを効率的に訓練するには、インフラ構築とシステム研究への多大な投資が必要です。私たちは PyTorch と Ray を活用したカスタム訓練基盤を構築し、非同期強化学習を大規模に実現しています。MXFP8 MoE kernelsとエキスパート並列、ハイブリッド分割データ並列を組み合わせ、低精度でネイティブに訓練することで、通信コストを最小限に抑えつつ、数千枚の NVIDIA GPU までスケール可能にしています。さらに、MXFP8 で訓練することで、学習後の量子化を行わずに、より高速な推論を提供できます。

RL中、モデルがCursor Agentハーネス内のあらゆるツールを呼び出せるようにしたいと考えています。これらのツールにより、コード編集、セマンティック検索の活用、文字列のgrep、ターミナルコマンドの実行が可能になります。弊社の規模では、モデルにこれらのツールを効果的に呼び出すことを学習させるには、クラウド上で数十万ものサンドボックス化された並列コーディング環境を同時に稼働させる必要があります。このワークロードを支えるため、Background Agents向けに構築した既存のインフラを拡張し、学習ジョブのバースト的な特性とスケールに対応できるよう仮想マシンのスケジューラを書き直しました。これにより、RL環境と本番環境をシームレスに統合できました。

Cursorはソフトウェアエンジニアリング向けのツールを開発しており、自社で開発したツールを積極的に活用しています。Composerの開発動機の一つは、私たち自身の業務で真っ先に手に取るエージェントを作ることでした。ここ数週間、社内の多くの同僚が日々のソフトウェア開発にComposerを活用していることがわかりました。今回のリリースが、皆さまにとっても有用なツールとなることを願っています。

¹ Cursor のツールハーネスにおける社内ベンチマークに基づく結果です。モデルはスコアに応じてクラス分けし、各クラスで最良のモデルを提示しています。「Fast Frontier」には Haiku 4.5 や Gemini Flash 2.5 など、高効率な推論向けに設計されたモデルが含まれます。「Best Open」には Qwen Coder や GLM 4.6 など、最近公開されたオープンウェイトモデルが含まれます。「Frontier 7/2025」は本年7月時点で利用可能な最良モデルを指します。「Best Frontier」には Composer を上回る GPT-5 と Sonnet 4.5 が含まれます。Tokens per Second の算出では、各モデルのトークンを最新の Anthropic トークナイザーに合わせて標準化しています。

カテゴリー: 研究

著者: Cursor Team