ChatGPT で株価を予測できる？ | カバ🦛のAI・金融研究ブログ

1. どんな論文？

ChatGPTにニュースの見出しを読ませると、翌日の株価の方向性を統計的に意味のある精度で当てられる——フロリダ大学の研究者がそう主張する論文です。従来のセンチメント分析ツールを上回る性能を示しており、効率的市場仮説（市場は公開情報をすぐ価格に織り込む）に対する一石を投じる内容になっています。

2. AIが「良いニュース」と判断したら、翌日の株価は上がるのか？

ニュースを見て「これは買いだ！」と判断しても、市場はとっくにその情報を織り込んでいて思ったような動きをしなかった——そんな経験、心当たりはないでしょうか。効率的市場仮説の世界では、公開情報からリターンを得ることは原理的に難しいとされています。

ところが、この論文はChatGPTというフィルターを通すと話が変わると主張しています。文脈や皮肉まで読み取れるLLMが「良いニュース」と判断した銘柄群は、翌日のリターンが統計的に高かったというのです。果たしてそれは本当なのか。実際にソフトバンクグループ（9984）で追試した結果も含めて、丁寧に見ていきます。

3. 論文の解説

この論文は、University of Florida の Alejandro Lopez-Lira と Yuehua Tang による研究です。

どんな問題を解こうとしたか

従来のセンチメント分析（文章の語感がポジティブかネガティブかを推定する手法）は、単語の辞書的な意味にもとづいて感情を判定します。たとえば「落ちる」「損失」という単語が多いとネガティブ、というシンプルな仕組みです。しかしこの手法は、「予想を大幅に下回る赤字（でも市場はそれ以上の悪材料を予想していた）」のような文脈の複雑さを読み取れません。

LLMならば、そうした「行間」を読む能力がある。著者たちはそんな仮説を実証しようとしました。

どんな実験をしたか

対象: 2021年10月〜2022年12月の米国株（NYSE・NASDAQ・AMEX上場銘柄）
入力: 企業に関連するニュースの見出し
モデル: ChatGPT（GPT-3.5）を主に使用、GPT-4との比較も実施
プロンプト設計: 「あなたは金融の専門家です。このニュースは株価にとって良いニュース（YES）、悪いニュース（NO）、判断できない（UNKNOWN）のどれですか？」という趣旨の質問をChatGPTに投げかける
評価: 返ってきた「YES/NO/UNKNOWN」を数値化し、翌日のリターンとの統計的な相関を分析

競馬のオッズに例えるなら、「AIアナリストに全レースの新聞を読ませて本命を選ばせ、その的中率が偶然の水準（50%）を上回るかを検証した」ようなイメージです。

主な発見

ChatGPTのセンチメントスコアは、同期間の伝統的な辞書ベースの分析手法と比較して、翌日リターンの予測力で統計的に優れた性能を示した。

具体的には、以下の点が報告されています。

方向性の予測に有意な相関: 「良いニュース（YES）」と判断された銘柄の翌日リターンは平均プラス、「悪いニュース（NO）」はマイナスで、この差は統計的に有意
ロングショート戦略での好成績: YESの銘柄を買い・NOの銘柄を空売りするシミュレーション上のリターンが高かった
小型株で特に効果が顕著: アナリストのカバレッジが薄い小型株ほど予測効果が強い傾向。大型株は情報がすぐ織り込まれるが、小型株には「情報のタイムラグ」が残りやすいと解釈できる
GPT-4はさらに高性能: GPT-3.5よりもGPT-4の方がセンチメント分類の精度が高く、リターン予測力も強い傾向が示された

見逃せないポイント：ヘッドラインだけを分析している

この手法が使っているのはニュースの「見出し」のみです。本文まで読めば全く逆の評価になるケースも十分ありえます。この点は後で詳しく触れます。

4. 思ったこと

「試してみました」的な研究: 全体的な印象として、「金融や言語処理の専門家が行った深い研究」というよりは「使えるデータで簡易的に実験してみました」という感じでした。効率的市場仮説が実市場で限界があるのは当たり前で、情報の非対称性や投資家の非合理性等、金融市場を形成する様々な「非効率的な」要素に対して数えきれないほど多くの研究が行われてきています。そうした知見と LLM の「読解力」を組み合わせて、新しい定性理論が構築できると良いですね。
実験結果の信頼性はイマイチ: 「分析期間が短い」「取引コストが考慮されていない(特に小型株は大きくなりがち)」「翌日の株価しか予測していない」「LLM が学習の過程で過去の株価の変動を記憶している可能性がある」等不十分な点は多く、安定して提案手法がパフォーマンスを発揮できるとか考えづらいです。とはいえ、パイオニア的な立ち位置の研究としては面白いですし、今後の類似研究の発展も楽しみです。
「学習」にもチャレンジしたい: ニュースの見出しや本文とその後の株価動向を学習データとして予測モデルを学習してみるのも面白そうです。もっとも、株価は世界のあらゆる出来事の影響を受けるため、「何を学習データとすれば十分か」の線引きが難しいですが…。

5. 検証してみました

LLM を使った予測、私も試してみました。

結果、全く予測できませんでした…。

指標	値
予測日数	10
LLM 精度	40.0%
ベースライン精度	33.3%
p 値（二項検定）	0.4407
判定	有意な予測力なし

予測シグナルと株価推移

買いシグナルを上向き三角、売りシグナルを下向き三角で表示した図。マーカーが緑色だと予測に成功し、赤色だと失敗しています。

精度比較（シグナル vs ベースライン）

LLM による予測とベースラインの予測について、全体・上昇予測・下降予測の3区分それぞれの正解率をまとめています。

サンプル数が少なすぎますが、この調子では大規模な実験を行っても結果は同じでしょう。いくらでも改善の余地はあるので、いろいろな先行研究を見ていきながら良いモデルを考えていきたいですね。

6. まとめ

やったこと: ChatGPTのニュース見出し分析で株価方向を予測する2023年の論文を紹介し、ソフトバンクグループ（9984）株を使った短期追試も行いました。
分かったこと: 「ただニュースの見出しを LLM に与えるだけ」では流石に難しそうです。
これから気になること: 金融市場に対する「専門家の知識」を学習した LLM であれば、信頼性が高い予測ができるかも、と考えています。