カバ🦛のAI・金融研究ブログ

AIはチャートと決算短信を読める?金融特化LLM論文を検証

1. どんな論文?

この論文は、金融の世界で使われるテキスト、表、そして株価チャートといった様々な形式のデータを、一つのモデルでまとめて理解できるオープンソースの大規模言語モデル(LLM)群、「Open-FinLLMs」を提案しています。独自に構築した金融専門のデータセットで学習させることで、GPT-4 のような高性能な商用モデルを超える性能を多くのタスクで達成したと報告しており、金融 AI の新しい可能性を感じさせる研究です。

2. チャートや財務諸表をAIが読み解く時代へ!

私たちは投資分析を行うとき、ニュース記事やレポートといったテキスト情報だけでなく、決算書の数字や株価のチャートといった画像情報も参考にします。以前までは「テキスト情報の分析が得意な AI」と、「画像情報の分析が得意な AI」は別々で、両方をまとめて扱うことは困難でした。

ですが近年では「マルチモーダル LLM」と呼ばれる、画像や表、音声といった複数の情報を解析できる AI が登場し、投資分析の分野でも活用が始まっています。今回の論文では、ニュース記事のような「テキスト」だけでなく、決算書の「表」や株価の「チャート」も一緒に読み解ける、金融に特化したマルチモーダル LLM を提案しています。

3. 論文の解説

この論文は The Fin AI や武漢大学、コロンビア大学、Nvidia など、多数の研究機関や企業に所属するメンバーで構成された大規模な研究チームによって発表されました。金融分野における AI の限界を押し広げようとする意欲的な研究と言えます。

どんなことをしようとしたか(動機・問題設定)

金融の世界には、ニュースやレポートといったテキスト情報、財務諸表などの表形式データ、そしてテクニカル分析で使う株価チャートなど、多様な形式の情報が溢れています。しかし、これまでの金融特化 LLM の多くはテキスト処理が中心で、チャートのような画像情報を一緒に分析することはできませんでした。一方で、GPT-4 のような汎用的なマルチモーダルモデルは、金融特有の専門知識が十分ではないという課題がありました。そこで研究チームは、金融に特化し、かつ多様なデータ形式(マルチモーダル)を扱えるオープンソースの LLM を開発することを目指しました。

どんなモデルを作ったか(手法)

研究チームは「Open-FinLLMs」と名付けたモデル群を開発しました。これは、Llama-3 や Qwen1.5 といった既存の強力な LLM をベースに、画像認識能力を追加したものです。このモデルを金融の専門家にするために、3段階の学習戦略をとっています。

  1. 継続的事前学習: まず、金融ニュースや SEC(米国証券取引委員会)への提出書類など、大量の金融テキストデータを読み込ませ、金融ドメインの基礎知識を叩き込みます。
  2. マルチモーダルアラインメント: 次に、一般的な画像と説明文のペアデータを使って、画像の内容とテキストを結びつける能力(視覚と言語の連携)を学習させます。
  3. マルチモーダル指示ファインチューニング: 最後に、本研究の核となる独自データセット「MFIB」を使います。これには「このチャートのパターンを説明して」「この決算書の要点は?」といった、テキスト・表・画像を含む11万件もの金融関連の具体的な「指示」と「模範解答」が含まれており、より実践的なタスクをこなせるようにモデルを仕上げます。

実験方法

開発した Open-FinLLMs の性能を測るため、合計15の金融ベンチマーク(性能評価タスク群)でテストを行いました。これには、金融ニュースの感情分析のようなテキストタスクだけでなく、チャートのパターンを読み解いたり、表の内容について質問に答えたりするマルチモーダルタスクも含まれています。比較対象として、GPT-4 のような最先端の商用モデルや、BloombergGPT といった他の金融特化モデルが使われました。

結果

実験の結果、Open-FinLLMs は非常に高い性能を示しました。

  • 総合性能で SOTA 達成: 特に Qwen1.5-72B をベースにしたモデルは、多くのベンチマークで既存のオープンソースモデルを大きく上回り、商用の GPT-4 と同等かそれ以上のスコアを記録しました。
  • チャートと表の読解能力: チャート画像に関する質疑応答タスク(ChartQA)や、表形式データに関する質疑応答タスク(TAT-QA)で、GPT-4 を超える最先端(SOTA: State-of-the-Art)の性能を達成しました。
  • 高度な分析能力: 質的な評価では、モデルが財務諸表の数値を比較したり、テクニカルチャートの「ヘッドアンドショルダー」のような複雑なパターンを認識したりできることが示されました。
  • 学習戦略の有効性: 3段階の学習プロセスのいずれもが、最終的なモデル性能の向上に不可欠であったことが確認されています。

4. 思ったこと

この論文を読んで、いくつか感じたことがあります。

  • 金融特化とマルチモーダルの融合は自然な流れ: BloombergGPT のような金融テキストに特化したモデルは以前からありましたが、そこに画像や表の理解能力を組み合わせる方向の進化は非常に合理的だと感じました。アナリストが複数の画面を見ながら分析する作業により近い分析が可能になると期待されます。

  • 「オープンソース」であることの価値: このモデルがオープンソースで公開されることの意義は大きいです。世界中の開発者がモデルを改良したり、特定の市場(例えば日本市場)向けにカスタマイズしたりすることが可能になります。現状の金融データは情報の格差が大きかったり、価格が非常に高かったりしますが、こういった基盤モデルが民主化を進めるかもしれませんね。

  • ハルシネーションのリスクは依然として大きい: LLM がもっともらしい嘘をつく「ハルシネーション」は、金融のような正確性が求められる分野では致命的です。論文でも課題として触れられていますが、このモデルを元に自動売買システムなどを作ってしまうと、とんでもない損失を被るリスクがあります。現状ではあくまで分析の「補助ツール」と割り切って、最終的な判断は必ず一次情報に基づいて人間が行う必要があります。

5. 検証してみました

論文の主張、私も試してみました。今回は論文発表時からのマルチモーダル LLM の進化にも期待し、汎用的なモデルを使って「チャート読解」と「決算短信の分析」にチャレンジしました。チャートタスクでは決算発表直前までの株価チャートから決算後の値動きを予測し、決算短信タスクは決算短信を読み込ませて発表後の値動きを予測しました。

結果から言うと、チャートの読解はイマイチ、決算短信の読解は少しだけ可能性を感じる、といったところでした。 ただ、予測の根拠自体は納得できるものも多く、それ以上にマーケットの動きの複雑さに翻弄されてしまった印象もあります。

チャート読解タスク

指標
サンプル数10
方向予測正答数 (棄権除く)3 / 10 (30.0%)
ベースライン精度 (ランダム)33.3%
棄権数0 / 10 (0.0%)
ハルシネーション数2 / 10 (20.0%)

正答率は 30.0% で、ランダム予測と同等の精度でした。また、ハルシネーションが疑われるケースも2件ありました。

チャート読解の成功例

ケースLLM が検出したパターン予測 (自信度)実際の方向リターン (5 日)判定
日本たばこ産業(2914) 2025-04-15ダブルボトム上昇 (0.85)上昇+1.1%正解

ケース: 2914_2025-04-15 : このケースでは、LLM はチャートから

『ダブルボトム』と呼ばれるチャートパターンを形成しています」

と正しく認識。これを強気のサインと解釈し、「上昇」と予測、見事に的中しました。

chart タスクの成功例 (日本たばこ産業(2914) 2025-04-15) ケース 2914_2025-04-15 の入力チャート。LLM はこのチャートから底値圏からの反転を示唆する「ダブルボトム」のパターンを読み取り、上昇を予測しました。

チャート読解の失敗例

ケースLLM が検出したパターン予測 (自信度)実際の方向リターン (5 日)判定
東京海上ホールディングス(8766) 2025-10-28ヘッドアンドショルダー + デッドクロス下落 (0.90)横ばい-0.6%不正解

ケース: 8766_2025-10-28 : こちらは失敗例です。LLM は

三尊天井(ヘッドアンドショルダー)パターンが形成されている

うえに

『デッドクロス』が発生しており

と、2つの強力な弱気シグナルを検出。自信度 0.90 と非常に強く「下落」を予測しましたが、実際は「横ばい」でした。 検証データが悪い気もしますが、教科書通りの動きをしないのもまた株価変動の特徴でしょうか。

chart タスクの失敗例 (東京海上ホールディングス(8766) 2025-10-28) ケース 8766_2025-10-28 の入力チャート。LLM は天井形成を示すヘッドアンドショルダーとデッドクロスという2つの弱気シグナルを検出しましたが、予測は外れました。

決算短信読解タスク

指標
サンプル数10
方向予測正答数 (棄権除く)5 / 8 (62.5%)
ベースライン精度 (ランダム)50.0%
棄権数2 / 10 (20.0%)
ハルシネーション数3 / 10 (30.0%)

こちらは正答率 62.5% と、ランダム予測(50%)をわずかに上回りました。判断に迷うと「棄権(予測しない)」こともありましたが、依然としてハルシネーションが発生している点は課題です。

決算短信の成功例

ケースLLM が読み取った主要数値予測 (自信度)実際の方向2 日リターン判定
トーカロ(3433) 2025-05-09大幅増収増益・来期増収増益・連続増配上昇 (0.85)上昇+8.0%正解

ケース: 3433-20250509: LLM は短信から「売上高が前期比16.0%増、営業利益が33.4%増」といった好調な実績や、来期の増収増益予想、連続増配計画を正確に抽出。これらを総合的に「強気」と判断し、「上昇」と予測。実際、株価は発表後に +8.0% と大きく上昇し、見事な予測となりました。

決算短信の失敗例

ケースLLM が読み取った主要数値予測 (自信度)実際の方向2 日リターン判定
日本たばこ産業(2914) 2024-08-02増収増益・通期上方修正・増配上昇 (0.85)下落-18.7%不正解 (ハルシネーション)

ケース: 2914-20240802: これは興味深いハルシネーションの失敗例です。LLM は「2024年12月期の通期連結業績予想について…上方修正が行われています」と主張し、これを根拠に「上昇」と予測しました。しかし、実際の決算短信を見てみると…

2914-20240802 の決算短信より: 3.2024年12月期の連結業績予想(2024年1月1日~2024年12月31日) (%表示は、対前期増減率) 売上収益 営業利益 親会社の所有者に帰属する当期利益 百万円 % 百万円 % 百万円 % 通期 3,109,000 9.4 660,000 △1.8 475,000 △1.5

なんと、通期の営業利益は前期比でマイナス(△1.8%)予想でした。LLM は存在しない「上方修正」を捏造してしまったようです。実際の市場もこれをネガティブに捉え、株価は -18.7% と急落しています。

決算短信の棄権例

ケースLLM が読み取った主要数値予測 (自信度)実際の方向2 日リターン判定
中外製薬(4519) 2024-04-24減収増益(特殊要因)・通期予想据置棄権 (—)下落-6.3%棄権

ケース: 4519-20240424 : このケースでは、LLM は中外製薬の決算が「売上収益の大幅減」と「営業利益と純利益は増益を確保」という強弱入り混じった内容であると正しく理解。サプライズ感に欠けるとして「市場の反応は中立的と解釈します」と述べ、予測を「棄権」しました。結果的に株価は下落しましたが、無理に予測せず棄権できたのは評価できる点です。

今回の検証はサンプル数が少なく、あくまで簡易的なものですが、汎用 LLM が金融データを扱う上での現状と課題が垣間見えたように思います。

6. まとめ

  • やったこと: テキスト・表・チャートを統合的に理解する金融特化 LLM「Open-FinLLMs」を紹介し、その中核的な能力である「チャート読解」と「決算短信分析」を、汎用のマルチモーダル LLM で簡易的に検証しました。
  • 分かったこと: 論文が示すような高精度な分析を汎用 LLM で再現するのは、まだ難しいようです(データが悪かった可能性もあります)。明確なハルシネーションも確認でき、「AI まかせ」は危険な印象でした。
  • これから気になること: 今回のような汎用モデルではなく、論文のように日本市場のデータでしっかりファインチューニングしたモデルを使えば、結果は変わるかもしれません。いつか、そんな日本株特化のマルチモーダル AI が登場する日を楽しみにしたいです。

7. 注意・免責事項