2024年7月9日
横山 文人(亜細亜大学 経営学部 准教授/笹川スポーツ財団 理事/上席特別研究員)
- 調査・研究
© 2020 SASAKAWA SPORTS FOUNDATION
2024年7月9日
横山 文人(亜細亜大学 経営学部 准教授/笹川スポーツ財団 理事/上席特別研究員)
様々な分野の政策提言において、近い将来、生成AIが重要な役割を果たし得る可能性を有していることは疑う余地のないことである。生成AIは、大量データを迅速かつ過去のデータや知見に基づいた分析をおこなうことで、データに内在する傾向やパターンを抽出することができ得るツールの一つである。この結果(one of evidences)に基づいて、政策立案者は提言された政策についての意思決定をおこなうことがよりやりやすくなり得ると考えられる。ただし、生成AIの利用には倫理的な課題やバイアスのリスクが存在するため、その運用には透明性と説明可能性が不可欠である(Sun & Medaglia, 2019)。
OpenAI (2024) は2024年5月13日(米国時間)、最新のAIモデル「ChatGPT-4o(GPT-4 Omni)」を発表した。この最新モデルはGPT-4の進化版で、テキスト、音声、画像や動画などの多様な入力をサポートしており、より自然で直感的な対話ができるようになったということである。さらに、より高度なデータ分析が可能となり、複雑な統計やデータセットの解釈も容易になったと報告されている。
また、神田(2024)によると、最新のGPT-4oを使い経営計画を読み込ませ、分析・問題解決ができるかを実験したところ、旧型GPTでは人による修正が必要であったが、GPT-4oでは修正作業が激減し、マーケティングの専門的なRFM分析(「最終購入日(Recency)」「購入頻度(Frequency)」「購入金額(Monetary)」という3つの指標で顧客をグループ分けする分析手法)も瞬時に実行してみせた、と報告されている。このことから、ChatGPT-4oでは高度なデータ分析も可能となったように思われる。
そこで、本稿では、この生成AIの代表格であるChatGPTの最新版ChatGPT-4oのアップデートされた機能の一つである高度なデータ分析の実行結果と従来型の人によるデータ分析結果との比較評価を試みた。これにより、ChatGPT-4oは“evidence based policymaking”のevidenceとなるに足りうる結果を導き出せるか否かを検討する。
対象としたデータは、笹川スポーツ財団が実施した最新の全国調査「スポーツライフに関する調査2022」における『スポーツに対する』や『スポーツの普及や発展』に対する自由回答とした。データ分析方法は、前回の報告(横山, 2023)と同様にテキストマイニングを援用した。ChatGPT-4oの高度なデータ分析を円滑にかつ機能制限なくおこなうため、「ChatGPT Plus」のステータスで使用した。ChatGPT-4oによるテキストマイニングの結果自体を評価するとともに前回の報告結果との比較をおこない、ChatGPT-4oとのインタラクティブなやりとり(手順)を交えながら評価をおこなっていく。
ChatGPT-4oとのやりとりとデータ分析結果は、次のとおりである。
1)ウェブブラウザMicrosoft EdgeからChatGPTのオンラインサイト(https://chatgpt.com/)に移動し、ログインする。
2)当該サイトのメッセージボックスに分析対象となるデータファイルをアップロードし、「アップロードしたファイルを読み込んでください。」とプロンプト(命令・指示文)を入力し実行させる。
最初のデータ読み込みでは、変数名が日本語として認識されなかったが、自動的に2回目の読み込みで正常にデータが読み込まれた(下図)。
3)「テキストマイニングをおこなってください。」とプロンプトを入力して実行させた結果は、以下のとおりであった。
(ChatGPT-4oからのレスポンス)
テキストマイニングを行うために、データに含まれているテキストデータのクリーニングと解析を行います。まず、「スポーツに対する思いや意見」列のテキストデータを抽出し、基本的なクリーニングを行います。その後、頻出単語やトピックの抽出を試みます。
まずはデータのクリーニングを行います。
テキストデータの抽出
クリーニング(不要な文字の除去、正規化など)
頻出単語の抽出
トピックモデリング(必要に応じて)
それでは、テキストデータの抽出とクリーニングを行います。
テキストデータのクリーニングと頻出単語の抽出を行いました。以下に、最も頻出する単語のトップ20を示します:
「なし」が圧倒的に多く出現していますが、これは無回答または特に意見がない場合の表現だと思われます。次に、「スポーツは」「スポーツ」「また」「今は」などが頻出しています。
4)「『なし』は欠損値としてください。『スポーツは』と『スポーツ』は結合してください。」というプロンプトを実行した後、「頻出単語トップ20を示してください。」というプロンプトを実行した結果を以下に示す。
(ChatGPT-4oからのレスポンス)
頻出単語のトップ20は以下の通りです:
「スポーツ」が最も頻出しており、健康に関連する単語や、具体的なスポーツの種目(野球、サッカーなど)が多く含まれています。その他に、繰り返しの表現や、時間に関連する単語も多く見られます。
ここまでのChatGPT-4oからのレスポンスで、前回の報告(横山, 2023)とほぼ同様のテキストマイニングによる単語出現頻度の分析結果が得られたので、その内容について様々な観点から比較検討をおこなっていく。
1)分析結果を得られるまでの驚異的な簡便さ
分析対象となるデータファイルをアップロードした後、次の2つのプロンプトを入力しChatGPT-4oに実行させるだけで、テキストマイニングの分析結果が得られることは、従来の統計分析ソフトウエア(SPSS, SAS, JMP, 等)の分析手続きと比較すると驚異的に簡便であるといえよう。分析対象のデータを読み込んでからは、統計分析を実行する「自然で直感的な」プロンプト(選択した分析方法の実行)を一つ入力するだけで、分析結果が得られるのである。
(入力・実行したプロンプト)
「アップロードしたファイルを読み込んでください。」(アップロードしたデータの読み込み)
「テキストマイニングをおこなってください。」(分析方法の実行)
これらのプロンプトだけで分析結果がレスポンスとして出力される様は、まさにアメリカのSFドラマ『スタートレック』の“コンピュータ”を想起させるものであり、統計分析をおこなう者にとっては夢のようなツールであるようにみえる(ただし、分析結果が正確であることが必須であるが)。
しかしながら、ChatGPTと『スタートレック』の“コンピュータ”には違いがあり、「スタートレックの“コンピュータ”は自らの回答についてのデータを持っていない・足りない場合、データが無いことや不足していることを回答としてくる。しかし、ChatGPTなどは“それっぽい答え”を生成して返してくる。(高広, 2023)」ということに留意しなければならない。
生成AIであるChatGPTが“それっぽい答え”を生成して返してくるということは、複雑な統計分析であればあるほど、より注意深く結果を吟味しなければならないことを示唆している(現時点での生成AIにおいては)。そこで、ChatGPT-4oが返してきた分析結果について、前回の分析結果と比較しつつ評価をおこなっていく。
2)ChatGPT-4oによる分析結果とR統計解析言語による分析結果(前回の報告:SPORT POLICY INCUBATOR(33))との比較
R言語によるテキストマイニングによる抽出した単語の頻度分析結果は、次のとおりであった。
頻出する単語のトップ5をみてみよう。
「スポーツ」という単語は自由回答の設問文に含まれているので、分析から除外した。
ChatGPT-4oによる分析結果は次のとおりであった(頻出する単語のトップ10)。
頻出頻度第1位の「スポーツ」という単語を除外しても、R言語による分析結果とは出現単語および出現回数ともに全く異なるものとなった。これはいったいどうしたことであろうか。その原因を探るために、ChatGPT-4oによるレスポンスである分析結果について、さらに深耕すると、次のようなことが明らかになった。
①ChatGPT-4oのレスポンスの中に「現在の環境では MeCab を直接インストールすることができないため、代替手段として他の形態素解析ライブラリ(例えば、janome)を使用します。」とあった。これはR言語で用いた形態素解析MeCabとは異なるツールを利用したことを意味する。ただし、形態素解析ツールが異なることで、単語の頻度分析結果に、これほど大差が生じるとは考えにくい。
②さらに、「形態素解析に「MeCab」を使用するためには、ローカル環境での実行が必要です。クラウド環境では直接的なインストールや実行が難しい場合があります。ローカル環境での手順を以下に示します。」とのレスポンスがあり、オンライン環境での実行には複雑な統計分析をする際に制限があり、Pythonのプログラムを示すことでローカル環境での実行を勧めている。
③頻出頻度の少ない単語(1回)をみてみると、形態素解析が不十分で単語に区分されていない文章もみられた。②と同様にクラウド環境においては、分析データの量的な制限がかかっているように推察される。
以上のことから、現時点においては、1000サンプル以上のテキストデータを対象にしたテキストマイニングを、オンラインのクラウド環境下でのChatGPT-4oを用いて実行することは、結果の正確性に関しては疑問を持たざるを得ない。換言すると、ChatGPT-4oによる大量のテキストデータを対象とするテキストマイニングの結果に限っては、正確性に問題があると言えよう。したがって、現時点では、テキストマイニングという比較的高度な統計的分析をChatGPT-4oで実行した結果(one of evidences)を“evidence based policymaking”へと利活用することは困難であると結論付けられる。
一方で、Pythonプログラムを提示してくれるので、それを用いてローカル環境において実行することにより、分析結果の正確性を担保することも考えられる。あるいは、分析方法に関する詳細な指示をプロンプトに加えることで、結果の正確性をより向上させることができ得る可能性もある。しかしながら、これではChatGPT4oの最大の特長の一つである「分析結果を得られるまでの驚異的な簡便さ」を大幅に犠牲にすることになってしまう。
今日、生成AIが秒進分歩でアップグレードされている現状を鑑みると、近い将来には、テキストマイニングのように比較的複雑で高度な統計的分析もクラウド環境下において、「驚異的な簡便さ」で実行することができるようになるであろうことは容易に予測できよう。そのようになったとしても、ChatGPT-4oのレスポンスの最後の行に「ChatGPT の回答は必ずしも正しいとは限りません。重要な情報は確認するようにしてください。」との現時点でのメッセージが(おそらくは)付加されているのではないだろうか。
OpenAI (2024) “Hello GPT-4o” https://openai.com/index/hello-gpt-4o/
神田昌典(2024)「『GPT-4o』を使ってみた」日経MJ 2024年6月9日 3面
カレーちゃん、からあげ (2024) 「面倒なことはChatGPTにやらせよう」 講談社
Sun, T. Q., & Medaglia, R. (2019). Mapping the challenges of Artificial Intelligence in the public sector: Evidence from public healthcare. Government Information Quarterly, 36(2), 368-383.
高広伯彦 (2023) 「スタートレックの“コンピュータ”とChatGPTとの違い」 https://note.com/mediologic/n/n23b06189fa89
横山文人 (2023) 「スポーツライフ・データ 2022」からみたスポーツ政策に係るキーワード:自由回答を対象としたテキストマイニング. SPORT POLICY INCUBATOR(33): 笹川スポーツ財団. https://www.ssf.or.jp/knowledge/spi/33.html