米国の株価はバングラデシュのバターで決まる

米国の株価はバングラデシュのバターで決まる

バターが決める
(写真=PIXTA)

 不動産ビッグデータを使って不動産の価格を推計する動きが活発です。

 ビッグデータを使った価格の推計には、人工知能(AI:Artificial Intelligence)や機械学習といった用語が使われます。最近では機械学習の進化した形としてディープラーニング(深層学習、Deep Learning)という言葉もよく見かけます。
 人工知能や機械学習といった分野では、価格を推計するときの考え方(「アルゴリズム」と言います)に学習機能を持たせている点に特徴があります。
 一見すると、機械(コンピューター)が自動的に学習して、勝手に頭がよくなるイメージを持ちがちですが、実際のところは「アルゴリズム」を与えるのは人間ですし、使用するデータを与えるのも人間です。

 データを入れて、アルゴリズムで処理して、結果を返すのはデータ分析の領域です。大量のビッグデータの中から意味のある結果を出すのは「データマイニング(Data Mining)」と呼ばれます。マイニングとは、ダイヤモンドなどを「掘り当てる」という意味がありますが、掘り当てた結果が意味のあるものかについては、興味深い指摘があります。

推計や予測とオーバーフィッティング

 推計や予測とは、知られているデータをインプットして、知られていない値を導き出すことです。その際、インプットするデータは、推計したいものと合理的な関係がないといけません。
 たとえば、ある生徒の英語力が知りたい場合、その人の国語や数学や社会といった他の教科の点数から推計するのは合理的ですが、その人の身長や体重、100メートル走のタイムから推計するのは合理的とは言えません。かりに、結果としてうまく推計できたとしてもです。
 なぜなら、意味のないデータをインプットしても、高い推計力が出ることがあるからです。統計学や機械学習の分野で指摘される、オーバーフィッティング(過剰適合)の問題です。

米国の株価はバングラデシュのバターの生産量で決まる

 レインウェイバーという人が、1995年にデータマイニングについて「Stupid Data Miner Tricks: Overfitting the S&P 500」というペーパーを書いています。タイトルから分かるようにデータマイニングについて皮肉を込めた内容になっています。
 そこでは、米国の株価(S&P500)は、バングラデシュのバターの生産量で75%説明できるとあり、さらには、バングラデシュのバターの生産量に、米国のチーズの生産量、バングラデシュと米国の羊の頭数、これらの要素を加えることで米国の株価を99%説明できると書かれています。

 当然のことですが、米国の株式が、バングラデッシュのバターの生産量や米国のチーズの生産量、両国の羊の頭数によって決まると考える合理的な理由はありません。
 合理的な理由はありませんが、「結果として」高い説明力を持つことはあります。レインウェイバー氏はデータ分析における、オーバーフィッティングの問題を指摘しているのです。

データ分析におけるオーバーフィッティング

 統計学や機械学習において、過去データに対して過剰に学習されたモデルは、そのデータに対しては説明力が高くなりますが、未知のデータに対しては適合できていないことがあります。それがオーバーフィッティングです。
 オーバーフィッティングは、推計モデルが複雑で説明変数が多いと起こりやすくなります。非線形モデルで次数を高くし、推計に用いる要素を増やせば増やすほど、一般的には測定データとの適合度を高めることができます。しかし、推計に用いる要素を増やすことで、本来関係のないデータを取り入れる恐れも高まります。
 モデルの当てはまりが高いことが、推計や予測に関する汎用性が高いとは限らないことに注意が必要です。バングラデシュのバターの生産量、米国のチーズの生産量、バングラデシュと米国の羊の頭数。これらの要素で、ある期間の米国の株価を99%説明できたとして、そのモデルの汎用性、有効性が高いわけではないのです。

 今後、不動産投資の世界でも不動産ビッグデータを使った人工知能や機械学習による価格の推計が広まるでしょう。その際、オーバーフィッティングの可能性を頭の片隅に入れておけば、モデルの結果を過信することが避けられます。モデルの結果はあくまで参考値として見るのがいいでしょう。
 

不動産投資カテゴリの最新記事