AIはチャートと決算短信を読める？金融特化LLM論文を検証

1. どんな論文？

論文名: Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
著者: Jimin Huang, Mengxi Xiao, Dong Li, Zihao Jiang, Yuzhe Yang, Yifei Zhang, Lingfei Qian, Yan Wang, Xueqing Peng, Yang Ren, Ruoyu Xiang, Zhengyu Chen, Xiao Zhang, Yueru He, Weiguang Han, Shunian Chen, Lihang Shen, Daniel Kim, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Guojun Xiong, Zhiwei Liu, Zheheng Luo, Zhiyuan Yao, Ruey-Ling Weng, Meikang Qiu, Kaleb E Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jian-Yun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Qianqian Xie, Sophia Ananiadou, Junichi Tsujii(The Fin AI, Wuhan University, Columbia University, The Chinese University of Hong Kong, Shenzhen, Nanjing University, Rensselaer Polytechnic Institute, The University of Manchester, Stevens Institute of Technology, National University of Singapore, University of Florida, University of Montreal, Yale University, New York University, Harvard University, NVIDIA, Artificial Intelligence Research Centre, Archimedes/Athena Research Centre)
公開年: 2024
リンク: https://arxiv.org/abs/2408.11878

この論文は、金融の世界で使われるテキスト、表、そして株価チャートといった様々な形式のデータを、一つのモデルでまとめて理解できるオープンソースの大規模言語モデル（LLM）群、「Open-FinLLMs」を提案しています。独自に構築した金融専門のデータセットで学習させることで、GPT-4 のような高性能な商用モデルを超える性能を多くのタスクで達成したと報告しており、金融 AI の新しい可能性を感じさせる研究です。

2. チャートや財務諸表をAIが読み解く時代へ！

私たちは投資分析を行うとき、ニュース記事やレポートといったテキスト情報だけでなく、決算書の数字や株価のチャートといった画像情報も参考にします。以前までは「テキスト情報の分析が得意な AI」と、「画像情報の分析が得意な AI」は別々で、両方をまとめて扱うことは困難でした。

ですが近年では「マルチモーダル LLM」と呼ばれる、画像や表、音声といった複数の情報を解析できる AI が登場し、投資分析の分野でも活用が始まっています。今回の論文では、ニュース記事のような「テキスト」だけでなく、決算書の「表」や株価の「チャート」も一緒に読み解ける、金融に特化したマルチモーダル LLM を提案しています。

3. 論文の解説

この論文は The Fin AI や武漢大学、コロンビア大学、Nvidia など、多数の研究機関や企業に所属するメンバーで構成された大規模な研究チームによって発表されました。金融分野における AI の限界を押し広げようとする意欲的な研究と言えます。

どんなことをしようとしたか（動機・問題設定）

金融の世界には、ニュースやレポートといったテキスト情報、財務諸表などの表形式データ、そしてテクニカル分析で使う株価チャートなど、多様な形式の情報が溢れています。しかし、これまでの金融特化 LLM の多くはテキスト処理が中心で、チャートのような画像情報を一緒に分析することはできませんでした。一方で、GPT-4 のような汎用的なマルチモーダルモデルは、金融特有の専門知識が十分ではないという課題がありました。そこで研究チームは、金融に特化し、かつ多様なデータ形式（マルチモーダル）を扱えるオープンソースの LLM を開発することを目指しました。

どんなモデルを作ったか（手法）

研究チームは「Open-FinLLMs」と名付けたモデル群を開発しました。これは、Llama-3 や Qwen1.5 といった既存の強力な LLM をベースに、画像認識能力を追加したものです。このモデルを金融の専門家にするために、3段階の学習戦略をとっています。

継続的事前学習: まず、金融ニュースや SEC（米国証券取引委員会）への提出書類など、大量の金融テキストデータを読み込ませ、金融ドメインの基礎知識を叩き込みます。
マルチモーダルアラインメント: 次に、一般的な画像と説明文のペアデータを使って、画像の内容とテキストを結びつける能力（視覚と言語の連携）を学習させます。
マルチモーダル指示ファインチューニング: 最後に、本研究の核となる独自データセット「MFIB」を使います。これには「このチャートのパターンを説明して」「この決算書の要点は？」といった、テキスト・表・画像を含む11万件もの金融関連の具体的な「指示」と「模範解答」が含まれており、より実践的なタスクをこなせるようにモデルを仕上げます。

実験方法

開発した Open-FinLLMs の性能を測るため、合計15の金融ベンチマーク（性能評価タスク群）でテストを行いました。これには、金融ニュースの感情分析のようなテキストタスクだけでなく、チャートのパターンを読み解いたり、表の内容について質問に答えたりするマルチモーダルタスクも含まれています。比較対象として、GPT-4 のような最先端の商用モデルや、BloombergGPT といった他の金融特化モデルが使われました。

結果

実験の結果、Open-FinLLMs は非常に高い性能を示しました。

総合性能で SOTA 達成: 特に Qwen1.5-72B をベースにしたモデルは、多くのベンチマークで既存のオープンソースモデルを大きく上回り、商用の GPT-4 と同等かそれ以上のスコアを記録しました。
チャートと表の読解能力: チャート画像に関する質疑応答タスク（ChartQA）や、表形式データに関する質疑応答タスク（TAT-QA）で、GPT-4 を超える最先端（SOTA: State-of-the-Art）の性能を達成しました。
高度な分析能力: 質的な評価では、モデルが財務諸表の数値を比較したり、テクニカルチャートの「ヘッドアンドショルダー」のような複雑なパターンを認識したりできることが示されました。
学習戦略の有効性: 3段階の学習プロセスのいずれもが、最終的なモデル性能の向上に不可欠であったことが確認されています。

4. 思ったこと

この論文を読んで、いくつか感じたことがあります。

金融特化とマルチモーダルの融合は自然な流れ: BloombergGPT のような金融テキストに特化したモデルは以前からありましたが、そこに画像や表の理解能力を組み合わせる方向の進化は非常に合理的だと感じました。アナリストが複数の画面を見ながら分析する作業により近い分析が可能になると期待されます。
「オープンソース」であることの価値: このモデルがオープンソースで公開されることの意義は大きいです。世界中の開発者がモデルを改良したり、特定の市場（例えば日本市場）向けにカスタマイズしたりすることが可能になります。現状の金融データは情報の格差が大きかったり、価格が非常に高かったりしますが、こういった基盤モデルが民主化を進めるかもしれませんね。
ハルシネーションのリスクは依然として大きい: LLM がもっともらしい嘘をつく「ハルシネーション」は、金融のような正確性が求められる分野では致命的です。論文でも課題として触れられていますが、このモデルを元に自動売買システムなどを作ってしまうと、とんでもない損失を被るリスクがあります。現状ではあくまで分析の「補助ツール」と割り切って、最終的な判断は必ず一次情報に基づいて人間が行う必要があります。

5. 検証してみました

論文の主張、私も試してみました。今回は論文発表時からのマルチモーダル LLM の進化にも期待し、汎用的なモデルを使って「チャート読解」と「決算短信の分析」にチャレンジしました。チャートタスクでは決算発表直前までの株価チャートから決算後の値動きを予測し、決算短信タスクは決算短信を読み込ませて発表後の値動きを予測しました。

結果から言うと、チャートの読解はイマイチ、決算短信の読解は少しだけ可能性を感じる、といったところでした。ただ、予測の根拠自体は納得できるものも多く、それ以上にマーケットの動きの複雑さに翻弄されてしまった印象もあります。

チャート読解タスク

指標	値
サンプル数	10
方向予測正答数 (棄権除く)	3 / 10 (30.0%)
ベースライン精度 (ランダム)	33.3%
棄権数	0 / 10 (0.0%)
ハルシネーション数	2 / 10 (20.0%)

正答率は 30.0% で、ランダム予測と同等の精度でした。また、ハルシネーションが疑われるケースも2件ありました。

チャート読解の成功例

ケース	LLM が検出したパターン	予測 (自信度)	実際の方向	リターン (5 日)	判定
日本たばこ産業(2914) 2025-04-15	ダブルボトム	上昇 (0.85)	上昇	+1.1%	正解

チャート読解の失敗例

ケース	LLM が検出したパターン	予測 (自信度)	実際の方向	リターン (5 日)	判定
東京海上ホールディングス(8766) 2025-10-28	ヘッドアンドショルダー + デッドクロス	下落 (0.90)	横ばい	-0.6%	不正解

決算短信読解タスク

指標	値
サンプル数	10
方向予測正答数 (棄権除く)	5 / 8 (62.5%)
ベースライン精度 (ランダム)	50.0%
棄権数	2 / 10 (20.0%)
ハルシネーション数	3 / 10 (30.0%)

こちらは正答率 62.5% と、ランダム予測（50%）をわずかに上回りました。判断に迷うと「棄権(予測しない)」こともありましたが、依然としてハルシネーションが発生している点は課題です。

決算短信の成功例

ケース	LLM が読み取った主要数値	予測 (自信度)	実際の方向	2 日リターン	判定
トーカロ(3433) 2025-05-09	大幅増収増益・来期増収増益・連続増配	上昇 (0.85)	上昇	+8.0%	正解

決算短信の失敗例

ケース	LLM が読み取った主要数値	予測 (自信度)	実際の方向	2 日リターン	判定
日本たばこ産業(2914) 2024-08-02	増収増益・通期上方修正・増配	上昇 (0.85)	下落	-18.7%	不正解 (ハルシネーション)

ケース: 2914-20240802: これは興味深いハルシネーションの失敗例です。LLM は「2024年12月期の通期連結業績予想について…上方修正が行われています」と主張し、これを根拠に「上昇」と予測しました。しかし、実際の決算短信を見てみると…

2914-20240802 の決算短信より: ３．2024年12月期の連結業績予想（2024年1月1日～2024年12月31日）（％表示は、対前期増減率）売上収益営業利益親会社の所有者に帰属する当期利益百万円％百万円％百万円％通期 3,109,000 9.4 660,000 △1.8 475,000 △1.5

なんと、通期の営業利益は前期比でマイナス（△1.8%）予想でした。LLM は存在しない「上方修正」を捏造してしまったようです。実際の市場もこれをネガティブに捉え、株価は -18.7% と急落しています。

決算短信の棄権例

ケース	LLM が読み取った主要数値	予測 (自信度)	実際の方向	2 日リターン	判定
中外製薬(4519) 2024-04-24	減収増益(特殊要因)・通期予想据置	棄権 (—)	下落	-6.3%	棄権

今回の検証はサンプル数が少なく、あくまで簡易的なものですが、汎用 LLM が金融データを扱う上での現状と課題が垣間見えたように思います。

6. まとめ

やったこと: テキスト・表・チャートを統合的に理解する金融特化 LLM「Open-FinLLMs」を紹介し、その中核的な能力である「チャート読解」と「決算短信分析」を、汎用のマルチモーダル LLM で簡易的に検証しました。
分かったこと: 論文が示すような高精度な分析を汎用 LLM で再現するのは、まだ難しいようです(データが悪かった可能性もあります)。明確なハルシネーションも確認でき、「AI まかせ」は危険な印象でした。
これから気になること: 今回のような汎用モデルではなく、論文のように日本市場のデータでしっかりファインチューニングしたモデルを使えば、結果は変わるかもしれません。いつか、そんな日本株特化のマルチモーダル AI が登場する日を楽しみにしたいです。