الاستقراء في التعلم الآلي: دليل شامل

مقدمة

نماذج التعلم الآلي جيدة بشكل مذهل في التنبؤ ضمن الأنماط التي رأتها بالفعل. فهي تصنف الصور، وتوصي بالمنتجات، وتكتشف الحالات الشاذة بدقة عالية — طالما أن المدخلات تشبه بيانات التدريب الخاصة بها. ولكن في اللحظة التي تطلب منها التنبؤ بشيء خارج ذلك النطاق المألوف، غالبًا ما ينهار الأداء. هذا هو التحدي الأساسي للاستقراء في التعلم الآلي: عمل تنبؤات موثوقة تتجاوز حدود ما تعلمه النموذج. إنها مشكلة موثقة جيدًا تؤثر على كل شيء بدءًا من التنبؤ بأسعار الأسهم وحتى نمذجة الاتجاهات المناخية. فهم سبب فشل النماذج في الاستقراء — وما يمكن فعله حيال ذلك — أمر ضروري لأي شخص يبني أنظمة تنبؤية تحتاج إلى الصمود في العالم الحقيقي.

ما هو الاستقراء في تعلم الآلة؟

الاستقراء في التعلم الآلي يعني التنبؤ بقيم مستهدفة للمدخلات التي تقع خارج نطاق بيانات التدريب. إذا تم تدريب نموذج على أسعار المنازل بين 100,000 دولار و500,000 دولار، فإن طلب تقدير سعر منزل بقيمة 1,000,000 دولار هو مهمة استقراء. لم ير النموذج بيانات في تلك المنطقة مطلقًا، لذا فإن تنبؤه غير مؤكد بطبيعته.

هذا يتناقض مع الاستيفاء، حيث تتم التنبؤات ضمن نطاق نقاط البيانات الملاحظة. الاستيفاء موثوق به بشكل عام لأن النموذج يمكنه الاعتماد على الأمثلة القريبة لتوجيه مخرجاته. الاستقراء في تعلم الآلة، من ناحية أخرى، يدفع النموذج إلى منطقة لا توجد فيها نقاط مرجعية — مما يجعله شكلاً من أشكال التنبؤ خارج التوزيع الذي لم تصمم معظم الخوارزميات للتعامل معه بشكل جيد.

من الناحية العملية، الحدود بين الاستيفاء والاستقراء ليست حادة دائمًا. قد تكون نقاط البيانات متناثرة في مناطق معينة، مما يحول ما يبدو كاستيفاء إلى مشكلة استقراء فعلية. لإلقاء نظرة أعمق على هذه الحدود، راجع دليلنا حول الاستيفاء مقابل الاستقراء.

لماذا تكافح نماذج تعلم الآلة مع الاستقراء

معظم نماذج التعلم الآلي تتعلم الأنماط من البيانات، وليس القواعد الأساسية أو القوانين الفيزيائية. إنها تقرب العلاقات الموجودة في مجموعة التدريب دون فهم سبب وجود تلك العلاقات. عندما يُطلب منها التنبؤ بما يتجاوز تلك البيانات، لا يوجد نمط يمكن اتباعه — فقط التخمين.

مشكلة “خارج التوزيع” أساسية هنا. النموذج المدرب على توزيع بيانات واحد قد يواجه توزيعًا مختلفًا تمامًا في وقت الاستدلال. شبكة عصبية مدربة على صور ملتقطة أثناء النهار ستفشل على الأرجح في صور الليل، حتى لو كانت الأشياء نفسها.

تواجه شبكات الاستقراء العصبية قيدًا أساسيًا: الشبكات العصبية هي في الأساس أدوات استيفاء عالية الأبعاد. مخرجاتها هي توليفات مرجحة من أمثلة التدريب، لذا فهي تميل إلى إنتاج تنبؤات سلسة ومتوسطة خارج نطاق تدريبها بدلاً من اتباع الاتجاهات الحقيقية. أشجار القرار والغابات العشوائية لها مشكلة مختلفة ولكنها مقيدة بنفس القدر — لا يمكنها التنبؤ بقيم تتجاوز نطاق عقدها الورقية. الشجرة التي تقسم البيانات إلى أوراق بقيمة قصوى 500 لن تخرج 501 أبدًا، بغض النظر عن المدخلات.

حتى طرق التجميع والهياكل العميقة ترث هذه المشكلات. بدون آليات صريحة للتعامل مع المناطق غير المرئية، تعود النماذج إلى سلوكيات آمنة رياضيًا ولكنها خاطئة عمليًا. فهم درجات R² يمكن أن يساعد في قياس مدى تدهور النموذج عند دفعه خارج مجال تدريبه.

لماذا تفشل نماذج تعلم الآلة في الاستقراء. داخل نطاق التدريب (يسار الخط المتقطع)، تتبع الشبكة العصبية (الزرقاء) البيانات عن كثب. ولكن خارجه (يمين الخط المتقطع)، يتسطح خرج الشبكة إلى قيمة شبه ثابتة — ليس لديها نمط مكتسب لتمديده. النموذج الخطي (المتقطع الذهبي)، بالمقابل، يواصل اتجاهه إلى أجل غير مسمى. هذا القيد الأساسي يؤثر على جميع نماذج نوع الاستيفاء: يمكنها مزج الأمثلة المعروفة ولكن لا يمكنها ابتكار أمثلة جديدة.

طرق تحسين الاستقراء في تعلم الآلة

لا توجد طريقة واحدة تقضي على مشكلة الاستقراء تمامًا، ولكن عدة طرق يمكنها تحسين التنبؤات خارج التوزيع بشكل ملحوظ.

الانحدار الخطي

الانحدار الخطي هو أحد النماذج القليلة التي تستقرئ بشكل طبيعي. لأنه يلائم دالة خطية للبيانات، فإنه يمد تلك الدالة إلى أجل غير مسمى في كلا الاتجاهين. بينما يمكن أن ينتج هذا تنبؤات غير واقعية إذا كانت العلاقة الحقيقية غير خطية، فهو على الأقل يتبع اتجاهًا ثابتًا بدلاً من التسطح. لحالات الاستخدام البسيطة، يظل الاستقراء الخطي خط أساس عمليًا.

الغابات العشوائية بأوراق خطية

الغابات العشوائية القياسية لا يمكنها الاستقراء خارج نطاق تدريبها. ومع ذلك، فإن المتغيرات التي تلائم نماذج خطية في العقد الورقية بدلاً من القيم الثابتة يمكنها تمديد التنبؤات إلى ما بعد البيانات الملاحظة. هذا يجمع بين مرونة النماذج القائمة على الأشجار وقدرة الاستقراء للانحدار الخطي، مما يحسن الأداء في المهام ذات الاتجاهات الحقيقية.

الشبكات العصبية مع قيود الرتابة

من خلال فرض قيود الرتابة على ميزات إدخال محددة، يمكن توجيه الشبكات العصبية لإنتاج تنبؤات تتبع علاقات اتجاهية معروفة. إذا كانت المعرفة المجالية تقول أن درجة الحرارة يجب أن تزيد مع الضغط، فإن قيد الرتابة يضمن أن الشبكة تحترم تلك القاعدة حتى خارج نطاق التدريب. هذا مفيد بشكل خاص في التطبيقات العلمية والهندسية.

الانحدار الرمزي

يبحث الانحدار الرمزي في فضاء التعبيرات الرياضية لإيجاد صيغة تلائم البيانات. لأن النتيجة هي معادلة صريحة بدلاً من تعيين مكتسب، يمكنها الاستقراء بطريقة متسقة مع العلاقة المكتشفة. أدوات مثل PySR وEureqa تجعل هذا النهج متاحًا بشكل متزايد.

الشبكات العصبية المستنيرة بالفيزياء (PINNs)

تدمج PINNs القوانين الفيزيائية مباشرة في عملية التدريب عن طريق إضافة قيود المعادلات التفاضلية إلى دالة الخسارة. هذا يعني أن الشبكة لا يمكنها انتهاك الفيزياء المعروفة، حتى في المناطق التي لا توجد بها بيانات تدريب. أظهرت PINNs نتائج استقراء قوية في ديناميكا الموائع، نقل الحرارة، ومجالات أخرى تحكمها معادلات مفهومة جيدًا.

أمثلة من العالم الحقيقي

تظهر تحديات الاستقراء عبر العديد من الصناعات ومجالات البحث.

نمذجة تغير المناخ تعتمد على إسقاط بيانات درجة الحرارة والانبعاثات بعيدًا إلى ما بعد السجلات التاريخية. يجب على النماذج التنبؤ بظروف ليس لها سابقة في البيانات الملاحظة، مما يجعل التنبؤ بالتعلم الآلي صعبًا وغير مؤكد بشكل خاص.

التنبؤ المالي يتطلب بانتظام تنبؤات تتجاوز سلوك السوق الأخير. الظروف الاقتصادية تتغير، والأنظمة تتحول، والنماذج المدربة على الأسواق الصاعدة قد تفشل بشكل كارثي أثناء فترات الركود — فشل استقراء كلاسيكي.

اكتشاف الأدوية غالبًا ما يتضمن التنبؤ بتأثيرات المركبات بجرعات أو توليفات لم تُختبر أبدًا في التجارب السريرية. النموذج المدرب على استجابات الجرعات المنخفضة يجب أن يستقرئ للتنبؤ بالسلامة عند الجرعات الأعلى، حيث يمكن أن تظهر السمية غير الخطية.

السيارات ذاتية القيادة تواجه ظروف طريق، أحداث مناخية، وتكوينات عوائق غير موجودة في بيانات تدريبها. التشغيل الموثوق يتطلب بعض القدرة على الاستقراء، أو على الأقل تدهورًا سلسًا عند مواجهة غير المألوف.

الاستقراء مقابل الاستيفاء في تعلم الآلة

فهم الفرق بين الاستيفاء والاستقراء أمر بالغ الأهمية لاختيار النموذج الصحيح وتحديد توقعات واقعية. الجدول أدناه يسلط الضوء على الاختلافات الرئيسية. لمقارنة أكثر تفصيلاً، راجع مقالتنا حول الاستيفاء مقابل الاستقراء.

الجانب	الاستيفاء	الاستقراء
نطاق البيانات	ضمن بيانات التدريب	خارج بيانات التدريب
ثقة النموذج	أعلى	أقل
خطر الخطأ	أقل	أعلى
الاستخدام الشائع	تصنيف، ملاءمة	تنبؤ، توقع

الاستيفاء يستفيد من نقاط مرجعية كثيفة تثبت التنبؤات. الاستقراء يفتقر إلى تلك المراسي، لذلك يصبح التعميم في تعلم الآلة هو الاهتمام الرئيسي — والخطر الرئيسي. النماذج التي تعمم جيدًا ضمن توزيع تدريبها قد لا تعمم على الإطلاق خارجه. يمكنك استكشاف كلا الطريقتين مباشرة باستخدام حاسبة الاستيفاء أو حاسبة الانحدار.

أفضل الممارسات

التحقق من صحة مجموعات الاختبار خارج التوزيع. تقسيمات التدريب-الاختبار القياسية تبقي التقييم ضمن توزيع التدريب. احتفظ عمدًا ببيانات من نطاقات أو ظروف مختلفة لقياس أداء الاستقراء الحقيقي.
استخدم المعرفة المجالية لتقييد التنبؤات. أدرج القوانين الفيزيائية المعروفة، العلاقات الرتيبة، أو الشروط الحدودية في عملية النمذجة. هذا يمنع النموذج من إنتاج نتائج مستحيلة فيزيائيًا.
ادمج تعلم الآلة مع الطرق الإحصائية التقليدية. الطرق الهجينة التي تمزج الأنماط المكتسبة مع تقنيات الاستقراء المبدئية — مثل طرق الاستقراء المأخوذة من الإحصاء الكلاسيكي — تميل إلى التفوق على تعلم الآلة الخالص في البيئات خارج التوزيع. لمقارنة مركزة للطريقتين الكلاسيكيتين الأكثر شيوعًا، راجع الاستقراء متعدد الحدود مقابل الخطي.

أدوات وموارد

العديد من مكتبات بايثون تدعم النمذجة الواعية بالاستقراء. scikit-learn توفر نماذج خطية وطرق قائمة على الأشجار يمكن تهيئتها لسلوك استقراء أفضل. PyTorch تمكن دوال خسارة مخصصة وقيود هيكلية، بما في ذلك ميزات الرتابة وحلقات التدريب المستنيرة بالفيزياء. للاحتياجات الأبسط، تقدم حاسبة الاستقراء طريقة سريعة لإسقاط الاتجاهات دون كتابة كود.

تنبؤ عددي تقليدي؟ جرب حاسبة الاستقراء لإسقاط سريع للاتجاهات.

الخاتمة

الاستقراء في التعلم الآلي صعب بطبيعته، لكنه ليس مستحيلاً. النماذج الخطية، الهياكل المقيدة، الانحدار الرمزي، والطرق المستنيرة بالفيزياء تقدم كل منها مسارات لتنبؤات خارج توزيع أكثر موثوقية. المفتاح هو التعرف على وقت الحاجة إلى الاستقراء، واختيار الطرق المناسبة للمهمة، والتحقق بقوة خارج توزيع التدريب. جرب طرقًا مختلفة، وقس ما يفشل، وكرر. عندما تحتاج إلى طريقة مباشرة لإسقاط الاتجاهات دون بناء خط أنابيب تعلم آلة كامل، جرب حاسبة الاستقراء.

هل يمكن للشبكات العصبية أن تستقرئ؟

الشبكات العصبية القياسية ضعيفة في الاستقراء. تتعلم الاستيفاء بين أمثلة التدريب وتميل إلى إنتاج تنبؤات مسطحة أو غير منتظمة خارج نطاق التدريب. الهياكل المتخصصة مع قيود الرتابة أو دوال الخسارة المستنيرة بالفيزياء يمكنها تحسين الاستقراء، لكن الشبكات العادية لا تستطيع ذلك عمومًا.

لماذا الاستقراء صعب في التعلم الآلي؟

الاستقراء صعب لأن نماذج تعلم الآلة تتعلم أنماطًا إحصائية من بيانات التدريب بدلاً من القواعد السببية. عندما تقع المدخلات خارج توزيع التدريب، لا توجد أنماط يمكن اتباعها، وليس للنموذج أساس مبدئي لتنبؤاته. هذا يؤدي إلى مخرجات غير متوقعة وغالبًا خاطئة بشكل كبير.

ما الفرق بين الاستيفاء والاستقراء في تعلم الآلة؟

الاستيفاء يتنبأ ضمن نطاق بيانات التدريب، حيث يمكن للنموذج الرجوع إلى أمثلة قريبة. الاستقراء يتنبأ خارج ذلك النطاق، حيث لا توجد نقاط مرجعية. الاستيفاء دقيق عادةً؛ الاستقراء غير مؤكد وعرضة للخطأ عادةً.

أي نماذج تعلم الآلة يمكنها الاستقراء؟

الانحدار الخطي يستقرئ بشكل طبيعي بتمديد خطه الملائم. النماذج الخطية مع التنظيم (ريدج، لاسو) تتصرف بالمثل. الغابات العشوائية بأوراق خطية، نماذج الانحدار الرمزي، والشبكات العصبية المستنيرة بالفيزياء يمكنها أيضًا الاستقراء بدرجات متفاوتة من الموثوقية. معظم النماذج الأخرى — بما في ذلك الشبكات العصبية القياسية، أشجار القرار، وأقرب الجيران k — لا تستطيع.