機械学習における外挿：完全ガイド

はじめに

機械学習モデルは、すでに見たパターン内での予測に非常に優れています。入力がトレーニングデータに類似している限り、画像を分類し、製品を推奨し、高精度で異常を検出します。しかし、その慣れた範囲外の何かを予測するように求めると、パフォーマンスはしばしば崩壊します。これが機械学習における外挿の中心的な課題です：モデルが学習した範囲を超えて信頼性の高い予測を行うことです。これは、株価の予測から気候トレンドのモデリングまで、すべてに影響を与えるよく知られた問題です。モデルが外挿で失敗する理由と、それに対して何ができるかを理解することは、現実世界で機能する予測システムを構築するすべての人にとって不可欠です。

MLにおける外挿とは？

機械学習における外挿とは、トレーニングデータの範囲外にある入力のターゲット値を予測することを意味します。モデルが$100,000から$500,000の間の住宅価格でトレーニングされている場合、$1,000,000の住宅の価格を推定するように依頼することは外挿タスクです。モデルはその領域のデータを見たことがないため、その予測は本質的に不確実です。

これは、観測されたデータポイントの範囲内で予測が行われる補間とは対照的です。補間は、モデルが近くの例に依存して出力を導くことができるため、一般的に信頼性があります。一方、MLの外挿は、モデルを参照ポイントが存在しない領域に押し込みます — これは、ほとんどのアルゴリズムがうまく処理できるように設計されていない分布外予測の形態になります。

実際には、補間と外挿の境界は常に明確とは限りません。特定の領域ではデータポイントがまばらで、補間のように見えるものが事実上の外挿問題に変わることがあります。この境界の詳細については、補間 vs 外挿のガイドをご覧ください。

MLモデルが外挿に苦戦する理由

ほとんどの機械学習モデルは、基礎となるルールや物理法則ではなく、データからパターンを学習します。トレーニングセットに存在する関係を近似しますが、なぜそれらの関係が存在するかを理解していません。そのデータを超えて予測するように求められると、従うべきパターンはなく、推測のみです。

「分布外」問題がここで中心となります。あるデータ分布でトレーニングされたモデルは、推論時にまったく異なる分布に遭遇する可能性があります。日中に撮影された画像でトレーニングされたニューラルネットワークは、オブジェクトが同じであっても、夜間の画像では失敗する可能性があります。

外挿ニューラルネットワークは根本的な制限に直面します：ニューラルネットワークは本質的に高次元の補間器です。その出力はトレーニング例の加重結合であるため、実際のトレンドに従うのではなく、トレーニング範囲外では滑らかで平均化された予測を生成する傾向があります。決定木とランダムフォレストには、異なるが同様に制限的な問題があります — リーフノードの範囲を超える値を予測できません。データを最大値500のリーフに分割するツリーは、入力に関係なく501を出力することはありません。

アンサンブルメソッドやディープアーキテクチャでさえ、これらの問題を引き継ぎます。未見の領域を処理する明示的なメカニズムがない場合、モデルは数学的に安全だが実質的に間違った動作にデフォルト設定されます。R²スコアを理解することは、モデルがトレーニングドメインの外に押し出されたときにどの程度劣化するかを定量化するのに役立ちます。

MLモデルが外挿で失敗する理由。トレーニング範囲内（破線の左側）では、ニューラルネットワーク（青）はデータに密接に従います。しかし、その先（破線の右側）では、ネットワークの出力はほぼ一定の値に平坦化します — 拡張するための学習パターンがありません。線形モデル（金色の破線）は、対照的に、そのトレンドを無期限に継続します。この根本的な制限は、すべての補間器タイプのモデルに影響します：既知の例をブレンドすることはできますが、新しいものを発明することはできません。

MLの外挿を改善する方法

単一の方法で外挿問題を完全に排除できるものはありませんが、いくつかのアプローチで分布外予測を有意義に改善できます。

線形回帰

線形回帰は、自然に外挿する数少ないモデルの一つです。データに線形関数を適合させるため、その関数を両方向に無期限に拡張します。真の関係が非線形の場合、非現実的な予測を生成する可能性がありますが、少なくとも平坦化するのではなく一貫したトレンドに従います。単純なユースケースでは、線形外挿は実用的なベースラインのままです。

線形リーフを持つランダムフォレスト

標準的なランダムフォレストは、トレーニング範囲を超えて外挿できません。ただし、定数値の代わりにリーフノードで線形モデルを適合させるバリアントは、観測データを超えて予測を拡張できます。これにより、ツリーベースのモデルの柔軟性と線形回帰の外挿能力が組み合わされ、真のトレンドを伴うタスクのパフォーマンスが向上します。

単調制約付きニューラルネットワーク

特定の入力特徴に単調性制約を課すことにより、ニューラルネットワークは既知の方向関係に従う予測を生成するように導くことができます。ドメイン知識が圧力とともに温度が上昇するべきであると示す場合、単調制約により、ネットワークがトレーニング範囲外でもそのルールを尊重することが保証されます。これは、科学および工学アプリケーションで特に有用です。

記号的回帰

記号的回帰は、データに適合する数式を見つけるために数学的表現の空間を探索します。結果は学習されたマッピングではなく明示的な方程式であるため、発見された関係と一致する方法で外挿できます。PySRやEureqaなどのツールにより、このアプローチはますますアクセスしやすくなっています。

物理インフォームドニューラルネットワーク（PINN）

PINNは、損失関数に微分方程式の制約を追加することにより、物理法則をトレーニングプロセスに直接組み込みます。つまり、トレーニングデータのない領域でも、ネットワークは既知の物理学に違反できません。PINNは、流体力学、熱伝達、およびよく理解された方程式によって支配される他の領域で、強力な外挿結果を示しています。

実世界の例

外挿の課題は、多くの産業や研究領域に現れます。

気候変動モデリングは、気温と排出量のデータを歴史的記録をはるかに超えて投影することに依存しています。モデルは観測データに前例のない条件を予測する必要があり、機械学習による予測は特に困難で不確実です。

金融予測は、定期的に最近の市場行動を超えた予測を必要とします。経済状況は変化し、体制は変わり、強気市場で訓練されたモデルは弱気市場で壊滅的に失敗する可能性があります — 古典的な外挿の失敗です。

創薬は、臨床試験でテストされたことのない用量や組み合わせでの化合物の効果を予測することがよくあります。低用量応答で訓練されたモデルは、非線形毒性が現れる可能性のある高用量での安全性を予測するために外挿する必要があります。

自動運転車は、トレーニングデータにない道路状況、気象イベント、障害物構成に遭遇します。信頼性の高い運用には、ある程度の外挿能力、または未知のものに直面したときの優雅な劣化が必要です。

MLにおける外挿 vs 補間

補間と外挿の違いを理解することは、適切なモデルを選択し、現実的な期待を設定するために重要です。以下の表は、主な違いを強調しています。より詳細な比較については、補間 vs 外挿の記事をご覧ください。

側面	補間	外挿
データ範囲	トレーニングデータ内	トレーニングデータ外
モデルの信頼性	高い	低い
エラーのリスク	低い	高い
一般的な使用	分類、適合	予測、予報

補間は、予測を固定する密な参照ポイントの恩恵を受けます。外挿にはこれらのアンカーがないため、MLの汎化が中心的な関心事 — そして中心的なリスク — になります。トレーニング分布内でうまく汎化するモデルも、その外ではまったく汎化しない可能性があります。当社の補間計算機または回帰計算機で、両方のアプローチを実際に試すことができます。

ベストプラクティス

分布外テストセットで検証する。 標準的なトレインテスト分割では、評価はトレーニング分布内に留まります。さまざまな範囲や条件から意図的にデータを保持して、真の外挿パフォーマンスを測定します。
ドメイン知識を使用して予測を制約する。 既知の物理法則、単調関係、または境界条件をモデリングプロセスに組み込みます。これにより、モデルが物理的に不可能な結果を生成するのを防ぎます。
MLを従来の統計手法と組み合わせる。 学習されたパターンを原則的な外挿技法とブレンドするハイブリッドアプローチ — 古典的な統計からの外挿手法など — は、分布外設定で純粋なMLを上回る傾向があります。最も一般的な2つの古典的手法の比較については、多項式外挿 vs 線形をご覧ください。

ツールとリソース

いくつかのPythonライブラリは、外挿を考慮したモデリングをサポートしています。scikit-learnは、より良い外挿動作のために設定できる線形モデルとツリーベースのメソッドを提供します。PyTorchは、単調特徴や物理インフォームドトレーニングループを含む、カスタム損失関数とアーキテクチャ制約を可能にします。より単純なニーズには、外挿計算機がコードを書かずにトレンドを投影する高速な方法を提供します。

従来の数値予測ですか？外挿計算機を試して、迅速なトレンド予測を行いましょう。

結論

機械学習における外挿は本質的に困難ですが、不可能ではありません。線形モデル、制約付きアーキテクチャ、記号的回帰、および物理インフォームドアプローチは、それぞれより信頼性の高い分布外予測への道を提供します。鍵は、外挿が必要な時期を認識し、タスクに適した方法を選択し、トレーニング分布を超えて積極的に検証することです。さまざまなアプローチを試し、何が失敗するかを測定し、反復します。完全なMLパイプラインを構築せずにトレンドを投影する簡単な方法が必要な場合は、外挿計算機をお試しください。

ニューラルネットワークは外挿できますか？

標準的なニューラルネットワークは外挿が苦手です。トレーニング例の間を補間することを学習し、トレーニング範囲外では平坦または不安定な予測を生成する傾向があります。単調制約や物理インフォームド損失関数を備えた特殊なアーキテクチャは外挿を改善できますが、通常のネットワークは一般的にできません。

なぜ機械学習で外挿は難しいのですか？

外挿が難しいのは、MLモデルが因果ルールではなくトレーニングデータから統計的パターンを学習するためです。入力がトレーニング分布の外にある場合、従うべきパターンがなく、モデルには予測の原理的な根拠がありません。これにより、予測不可能でしばしば極めて誤った出力が発生します。

MLにおける補間と外挿の違いは何ですか？

補間はトレーニングデータの範囲内で予測し、モデルは近くの例を参照できます。外挿はその範囲外で予測し、参照ポイントは存在しません。補間は通常正確です。外挿は通常不確実でエラーが発生しやすいです。

どのMLモデルが外挿できますか？

線形回帰は、適合した線を延長することで自然に外挿します。正則化（リッジ、ラッソ）を伴う線形モデルも同様に動作します。線形リーフを持つランダムフォレスト、記号的回帰モデル、および物理インフォームドニューラルネットワークも、さまざまな信頼性で外挿できます。他のほとんどのモデル — 標準的なニューラルネットワーク、決定木、k最近傍法を含む — はできません。