Microsoft 365 Copilot の Analyst エージェント
※本ブログは、米国時間 3 月 26 日に公開された “Analyst agent in Microsoft 365 Copilot” の抄訳を基に掲載しています。
データ分析と推論を手軽に実行
Xia Song (Microsoft 365 エンジニアリング担当 CVP)
言語、コード、視覚データ、音声をシームレスに扱う大規模言語モデル (LLM) やマルチモーダル システムによって情報処理が大きく変革されている一方で、膨大な量の表形式の構造化データは十分に活用されていません。Excel シート、データベース、CSV ファイル、Power BI レポートなどはたいていの場合、テキストや画像のように一目で理解できるようには作られていないものです。たとえば、あるプロジェクト マネージャーが、四半期のパフォーマンス分析情報を急ぎで必要としており、それをプレゼンテーション内の複数の Excel ワークシートや、構成が不完全な表に散らばったデータから引き出さなければならないとします。ワークシートの中に指標が隠れていたり、タブではなくコンマが使用されている TSV ファイルがあったりするうえ、データどうしのつながりや重要なデータはどれかを示す手がかりはほとんどありません。データの前処理や整形のスキルを持たないユーザーがこのような状況に陥ると、ストレスの溜まる作業を何時間も続けることになったり、分析情報を見落としたりする可能性があります。しかし、データを加工したりコードをツールとして活用したりするノウハウを持っていれば、このような複雑な問題をすばやく解明し、重要な情報を抽出して、厳しい競争で優位に立つことができます。
もし、だれもがこのような機能をたやすく利用できるとしたらどうでしょうか。マイクロソフトは、まさにこれを実現するために Analyst をリリースしました。これは、M365 Copilot で使用できる初の推論エージェントの 1 つです。Analyst は分析タスクに関して OpenAI o3-mini でポストトレーニングされた高度な推論モデルを搭載しており、「仮想データ サイエンティスト」の役割を果たします。この推論を活用したエージェントは Microsoft 365 に直接組み込まれているため、高度なデータ分析機能を手軽に利用できます。
段階的な推論と問題解決の時代の到来
従来の LLM は、問題に対して十分に時間をかけず安直に回答を出す傾向があり、新たに発生した複雑な問題に適応したり、誤りをうまく修正したりすることができていませんでした。Analyst エージェントを支える高度な推論モデルは、OpenAI の o3-mini から派生した推論駆動の思考連鎖型 (CoT) アーキテクチャを実装しており、これまでのものとは一線を画しています。従来のように即座に回答するのではなく、仮説、テスト、改善、適応というステップを経て問題を反復的に処理していきます。Analyst は必要に応じて何度もこのステップを実行し、複雑な問題が発生すればそれに適応して、人間の分析的思考を再現します。
このモデルは、推論の道筋におけるすべてのステップでコードを生成して実行する機能を備えており、増分情報の収集、仮説の構築、軌道修正、エラーからの自動回復といった点で優れています。
複雑な現実世界のデータへの対応: 導入事例
現実世界のデータは複雑です。モデルの推論機能のメリットを具体的に説明するため、実際の課題を想定してみましょう。次の 2 つのデータセットが手元にあるとします。
- データセット A: 複数のシートで構成された Excel ファイルに世界中のインターネット使用状況に関するデータが収められており、重要なデータが左上の見つけやすい位置ではなく、2 つ目のシートの中央付近に配置されている。
- データセット B: 国別統計データが含まれる .tsv ファイルで、おそらくタブで区切られるべき箇所が、エクスポート時の書式エラーにより誤ってコンマで区切られている。
エージェントに与えられたタスクはかなり漠然としており、「これら 2 つのデータセット間での興味深いインサイトとつながりを特定して視覚化するのを手伝ってください」というものです。従来のツールや既存のモデルのほとんどは、ここで苦戦します。完全に行き詰まるか、分析を実行したとしても不完全な結果や不正確な結果を返してきます。
しかし、Analyst はまさにこのような状況で驚くべき順応力を発揮します。
- Excel シートの中に潜む関連データをすばやく特定し、その場所に直接移動します。
- 該当するデータに注目し、シート名を確認してリストに記載します。
- 2 つ目のデータセット内で発生している区切り文字の問題を適宜検出して修正します。
- 反復的な仮説テスト手順を通じてデータを段階的に調査します。このとき、ユーザーが明示的に誘導しなくても実用的なインサイトが構築されます。
このように、段階的に問題を解決していった結果として、Analyst はこうした複雑な問題をスムーズに処理し、この機能自体が観察、インサイトの抽出、視覚化をすべて行うことができ、現実世界の分析タスクを変革する可能性があることを示しています。
学習方法: 強化学習、構造化推論、動的コード実行
Analyst を支える高度な推論モデルの有効性は、主に強化学習 (RL) によって生み出されています。この機能はポストトレーニングされた OpenAI の o3-mini モデルによって構築されており、ルールベースの報酬と組み合わせた高度な RL を採用して、広範囲の推論パス、増分情報の検出、動的なコード実行といった処理を行います。トレーニング中の強化学習コンピューティングを増やすと共に、推論中の思考をより慎重に行うことで、モデルのパフォーマンスが一貫して向上することが確認されています。
Analyst は、o3-mini などのモデルによって導入された STEM や分析的推論の最適化を活用しており、構造化データの取り扱いに優れています。この機能は、管理された実行環境内で Python コードを動的に記述、実行、検証します。この反復サイクルにより、モデルは軌道修正とエラーからの効果的な回復を通じて戦略を継続的に調整し、人間による問題解決のプロセスを忠実に再現します。
データの多様性と堅牢な報酬設定
トレーニング データの多様性は、モデルを効果的にトレーニングするうえで不可欠な要素です。マイクロソフトは、企業における実際のシナリオと構造化データの種類を網羅する広範なデータセットを構築しました。
- ファイルの種類: Excel、CSV、TSV、JSON、JSONL、XML、SQLite データベース、PowerPoint プレゼンテーションなど
- 同様にタスクの種類も、単純な数値計算や視覚化から、探索的な仮説の構築や予測まで多岐にわたります。
トレーニングで使用されるデータ ポイントは、実際の複雑さが正しく反映されるよう、慎重に構築および選定されており、モデルが特定のタスクやベンチマークに過度に適合するのを防いでいます。強化学習システムでよく見られる「報酬ハッキング」と呼ばれる挙動は、モデルの能力低下を招くおそれがあるため、より高度で堅牢な評価ツールを採用して報酬システムを改良しました。このように、データを綿密に選択し厳格なタスク設計と組み合わせることで、実際的な探索を行い正確な結果を得て、現実的な推論を行えるようになっています。
結果
次に示すベンチマーク結果には、DABstep ベンチマークや社内での M365 Copilot の比較といった厳密な分析を重視したタスクにおける、マイクロソフトのモデルの強みが明確に表れています。
DABStep (多段階推論のためのデータ エージェント ベンチマーク)
DABStep (英語) は、現実世界のデータ分析と推論タスクで AI エージェントをテストするために設計された厳密な評価スイートです。450 以上の構造化タスクと非構造化タスクで構成されており、「Easy」と「Hard」に分類されています。Easy セットでは比較的簡単なデータ抽出と集約が実行され、Hard セットでは多段階推論、多様なデータセットの統合、ドメイン知識が必要になります。
DABStep に照らして評価した際、マイクロソフトのモデルは既知のベースラインの中で全体的に最高水準のパフォーマンスを示しました。単純なタスクと複雑なタスクの両方で優れた能力を示し、後者のカテゴリでは特に大きくリードしていました。
注: 現時点で、M365 Copilot Analyst モデルはリアルタイム リーダーボードに「Test1」という未検証の匿名ラベルで表示されています。これを更新し、マイクロソフトからの Analyst モデルとして反映するよう DABStep チームに依頼しています。
製品ベンチマーク
学術的なベンチマークからは貴重なインサイトが得られますが、モデルの価値を正しく測定するには、現実世界のシナリオで実際に応用する必要があります。マイクロソフトは M365 スイート内の一般的な分析ワークフローを反映して、Excel スプレッドシート、CSV、PDF、XML、PowerPoint ファイルなどのさまざまなビジネス ドキュメントにおいて企業データの分析タスクを実行し、モデルのパフォーマンスのベンチマーク測定を行っています。この機能に特化した Analyst エージェントと、主要機能として使われている M365 Copilot Chat (詳細な推論機能なし) を比較し、企業で使用されているさまざまな形式のファイルにおけるインサイトの生成、データの解釈、構造化クエリの実行の精度を評価しています。
今後の展開: 改善の機会と現在の認識
マイクロソフトは、Analyst によってすべての Microsoft 365 ユーザーが高度なデータ分析機能を利用できるようになることを期待しています。しかし、現状では制約があるということを理解しており、大いに改善の余地があると考えています。アプリケーション間のシームレスな統合、インタラクション パラダイムの改善、モデルの能力拡張による分析シナリオの対応範囲の拡大など、まだ課題は残っています。
マイクロソフトは、Analyst とその基盤となるモデルを継続的に改善し、ユーザーからのフィードバックに耳を傾け、モデルと他の製品との統合を改良していきます。最終的な目標は、ユーザーと組織がより大きな成果を達成できるようにし、日常的に情報を扱うユーザーが「仮想データ サイエンティスト」を使いこなす有能なアナリストとして活躍できるようにすることです。
Analyst のロールアウトやお客様への提供状況などの詳細については、M365 Copilot 内の推論エージェントなどを紹介したブログ記事を併せてご確認ください。
参照資料:
Join the conversation