مقدمة بصرية إلى التعلم الآلي

language::

تستفيد الحواسب أثناء التعلّم الآلي من تقنيات التعلم الإحصائي statistical learning لاستكشاف الأنماط المتضمنة في البيانات آلياً. تتيح هذه التقنيات القيام بتنبؤات عالية الدقة.

تابع التمرير ضمن هذا الموضوع التفاعلي الذي يشرح التعلّم الآلي باستخدام مجموعات بيانات عن المنازل. سنقوم بإنتاج نموذج تعلم آلي للتمييز بين منازل نيويورك وسان فرانسيسكو في الولايات المتحدة.

تمرير للأسفل


أولاً، بعض البديهيات

لنقل أولاً أننا نريد تحديد إذا ما كان المنزل في سان فرانسيسكو أو نيويورك. يسمّى ماسنقوم به الآن في مصطلحات تعلّم الآلة بالـ تصنيف classification task.

الآن، بما أن سان فرانسيسكو مدينة كثيرة التلال والتحدّر يمكننا اعتبار هذا عامل جيد للتمييز بين المنازل في المدينتين.

بناء على بيانات ارتفاع المنازل في كل مدينة (كما في الرسم التوضيحي) يمكننا إجمالاً القول بأن أي منزل على ارتفاع أعلى من 240 قدم يمكن تصنيفه على أنه في سان فرانسيسكو.


مزيد من الفوارق

لنقم الآن بإضافة بعض المعايير الأخرى لتصنيف أكثر دقة. لنعتبر أنه بعد dimension جديد للتمييز. يمكننا مثلاً اعتبار الكلفة العالية جداً لمنازل نيويورك (تكلفة القدم المربع الواحد) بعداً مناسباً للتمييز.

عبر إنتاج مخطط انتشار scatterplot يجمع بين معياري السعر والارتفاع نلاحظ انتشار المنازل ذات العلو المنخفض.

بناء على المخطط وماتظهره البيانات، سنجد أن من بين المنازل الأقل من 240 قدم ارتفاعاً، تأتي تلك التي تكلف أكثر من 1776 دولار في مدينة نيويورك.

تسمّى هذه الأبعاد أو المعايير التي نستخدمها للمقارنة features الميزات, predictors معايير التنبؤ, or variables المتغيرات.


ترسيم الحدود

يمكنك بصريا رؤية الحدود التي ترسمها المنازل المرتفعة (أعلى من ٢٤٢ قدم) والمكلفة (الأعلى من ١٧٧٦ دولار للقدم المربع) في مخطط الانتشار. تم تقسيم المنازل إلى منطقتين خضراء وزرقاء (سان فرانسيسكو ونيويورك)

يعتبر تعريف الحدود boundaries في البيانات باستخدام الرياضيات أساساً في التعلّم الإحصائي statistical learning.

سنحتاج طبعاً لمعلومات إضافية لتمييز المنازل المنخفضة الارتفاع والمنازل الأرخص أيضاً والمتمثلة في المنطقة التي تتداخل فيها نقاط المنازل بين المدينتين.


تمتلك مجموعة البيانات dataset التي نستخدمها لبناء النموذج model المعني بتصنيف المنازل بين المدينتين 7 أبعاد مختلفة. يعرف إنتاج النموذج أيضاً بـ training تدريب النموذج.

قمنا في الرسم بتمثيل المتغيرات بصرياً باستخدام scatterplot matrix مصفوفة تشتت لعرض العلاقات بين كل زوج من الأبعاد.

من الواضح أن هناك أنماط متكررة في هذه البيانات، لكن تحييد نقاط (منازل) المدينتين ورسم الحدود بينها غير واضح بشكل مباشر.


حان وقت التعلّم الآلي الآن!

يأتي التعلّم الآلي عندما نعمل على إيجاد الأنماط في البيانات. تستخدم طرق التعلم الآلي علوم الإحصاء والتعلم الإحصائي لتعيين الحدود identifying boundaries.

من أمثلة طرق التعلّم الآلي استخدام شجرة القرار decision tree. تتعامل أشجار القرار مع متغير\متحول فردي في كل دورة\مرحلة من تحليل القرار ويمكن اعتبارها طريقة تعلّم آلي سهلة نوعاً ما (مع أنها بدائية).



إيجاد حدود أفضل

لندرس الحد الذي وضعناه سابقاً والقائم على الارتفاع 240 قدم ونحاول تحسينه.

سيتطلب هذا طبعاً منظوراً مختلفاً للبيانات.


مثل أن نقوم مثلاً بتمثيل بصري مختلف، واعتماد رسم التوزيع التكراري histogram. سيتيح لنا هذا رؤية أفضل لمعدل تكرار المنازل على كل ارتفاع.

بالرغم من أن أعلى المنازل في نيويورك يصل لارتفاع 240 قدما، إلا أن غالبيتها العظمى تقع على ارتفاعات أكثر انخفاضا.


الفرع الأول

تستخدم شجرة القرار عبارات if-then (إذا-فإن) لتعريف الأنماط في البيانات.

مثال ذلك، if إذا كان ارتفاع المنزل أعلى من قيمة معينة, then فإنه سيكون ربما في سان فرانسيسكو.


تسمى هذه العبارات بـ forks التفريعات, وتقوم بقسم البيانات إلى فرعين branches فرعين استناداً على قيمة معينة.

تسمى تلك القيمة التي تفصل بين الأفرع بـ split point نقطة الفصل. يتم تصنيف المنازل على يسار تلك النقطة بطريقة، وتلك التي على يمينها بطريقة أخرى. نقطة الفصل هي التعبير المكافئ للحد boundary الذي ذكر سابقاً.


بعض التنازلات

اختيار نقطة الفصل هذه يأتي مع بعض التنازلات. فمثلاً، فصلنا الأساسي القائم على ارتفاع 240 قدم يصنف بالخطأ بعض المنازل في سان فرانسيسكو كمنازل في نيويورك.

لننظر إلى القسم الكبير الأخضر اللون من الدائرة البيانية pie chart الذي يعبر عن منازل سان فرانسيسكو التي صنفت بالخطأ. تسمى هذه بالـ false negatives سلبيات الخاطئة.


من جهة أخرى، ستحتوي نقطة الفصل الخاصة بتحديد كل منازل سان فرانسيسكو على العديد من منازل نيويورك أيضاً. تسمى هذه بالـ false positives إيجابيات الخاطئة.


أفضل نقطة فصل

عند تحديد best split نقطة الفصل الأفضل, سنكون قد استطعنا جعل كل فرع متجانساً (أو نقياً) بأكبر قدر ممكن وبالتالي تحقيق أعلى نسبة تصنيف صحيحة. هناك عدة طرق رياضيّة يمكن الاختيار بينها لتحديد نقطة الفصل الأفضل.


نلاحظ هنا أنه على الرغم من وصولنا لأفضل نطقة فصل اعتماداً على متغير واحد، لم نستطع فصل المنازل بين نيويورك وسان فرانسيسكو بشكل مثالي.



Recursion العودية

تقوم الخوارزمية بإضافة نقطة فصل أخرى بتكرار العملية على مجموعة فرعية من البيانات. يسمى هذا recursion العودية, وهو مفهوم يتكرر كثيراً في تدريب النماذج.

تظهر رسوم التوزيع التكراري توزيع distribution كل مجموعة فرعية بحسب كل متغير.


ستتفاوت نقاط الفصل الأفضل - وبالتالي قيمة المتغير - بناء على فرع الشجرة الذي ندرس.

بالنسبة لفرع الشجرة المكون من المنازل ذات الارتفاع المنخفض، تمثل قيمة المتغير الخاص بسعر القدم المربع المساوية لـ 1061 دولارا نقطة الفصل المثالية في جملة الـ إذا-فإن الخاصة بالفرع. أما بالنسبة لفرع الشجرة المكون من المنازل ذات الارتفاع العالي (أعلى من 9109 قدم)، تكون قيمة متغير السعر الإجمالي المثالية للفصل هي 514,500 دولار.

.

نمو الشجرة

إضافة التفريعات الجديدة في الشجرة تزيد من المعلومات التي تجعل دقة التنبؤ prediction accuracy أفضل.


تزداد دقة التنبؤ للشجرة لـ 84% بالمئة عندما الفصل لدرجة إضافية أعمق.


إضافة طبقات إضافية يزيدها لـ 96% بالمئة.


يمكننا إضافة المزيد من التفريعات للوصول إلى دقة 100% بالمئة بحيث أنه وعند نهاية كل فرع، ستكون المنازل إمّا في نيويورك أو في سان فرانسيسكو فقط.


تسمى هذه النهايات للشجرة leaf nodes عقد الأوراق. ستقوم نماذج شجرة القرار بتصنيف المنازل في كل عقدة وفقاً لصنف المنازل الذي يشكل الأغلبية.



التنبؤ

تحدد شجرة القرار التي تم تدريبها إذا ماكان المنزل في سان فرانسيسكو أو نيويورك عبر تمرير كل نقطة بيانات data point من خلال الأفرع.


ننظر هنا إلى البيانات التي تم استخدامها لتدريب النموذج وهي تتدفق عبر شجرة القرار.

هذه البيانات تدعى training data بيانات التدريب لأنه تم استخدامها في تدريب النموذج model.


ولأننا قمنا بإنماء الشجرة لتصل لدقة 100% بالمئة، توضح هذه الشجرة انتماء كل نقاط بيانات التدريب بشكل دقيق للمدينة.


لنتحقق من الواقع

المهم طبعاً في حالتنا هو معرفة كيف ستتصرف هذه الشجرة على بيانات غير معروضة عليها من قبل.


و لاختبار أداء شجرة القرار على بيانات جديدة، علينا أن نطبقها على نقاط بيانات غير معروضة لها مسبقاً. البيانات الغير مستخدمة سابقاً تسمى test data بيانات الاختبار.


مثالياً، يفترض أن تتصرف الشجرة بنفس الطريقة على البيانات المعروفة وغير المعروفة.


في حالتنا هذه، الشجرة ليست مثالية جداً.


تأتي الأخطاء التي أثرت على الدقة من مفهوم الـ overfitting التكيّف الزائد. وهو أن الشجرة أصبحت متكيّفة بشكل زائد، بحيث تبرع في فهم تفاصيل عينة البيانات التي عالجتها، وفس نفس الوقت تعجز عن الإلمام بما يميز تفاصيل البيانات غير المعروفة لديها. تعلّم نموذجنا أن يتعامل مع كل تفصيل في بيانات التدريب بأهمية مطلقة حتى لو كانت تلك التفاصيل غير مهمة لاحقاً.

الـ overfitting هو مفهوم أساسي في تعلّم الآلة سندرسه بشكل موسع في الجزء القادم.



خلاصات

  1. يقوم تعلم الآلي بتحديد النماذج باستخدام statistical learning التعلم الإحصائي والحواسب عبر boundaries ترسيم الحدود في مجموعات البيانات.. يمكن استخدام هذا للتنبؤ.
  2. أشجار القرار decision trees هي أحد طرق التنبؤ، وهي تستخدم سلسلة من عبارات الـ If-then لإيجاد الحدود وتحديد الأنماط في البيانات.
  3. في بعض الحالات، يمكن أن يتم ترسيم بعض الحدود بناء على ميزات غير مؤثرة distinctions that don't make a difference وهنا يحصل مايسمى بالـ overfitting. يمكن معرفة ماإذا كان هناك overfitting عبر تمرير بيانات اختبارية test data عبر النموذج.

الدرس التالي

سنقوم في درسنا القادم بدراسة الـ overfitting وكيف يمكن أن يؤدي لأحد أهم التنازلات في عالم تعلّم الآلة.

أسئلة؟ يرجى التواصل معنا عبر تويتر @r2d3us أو البريد الإلكتروني team@r2d3.us.

أخيراً، شكراً لـ محمد صالح كيالي و وائل العلواني (Twitter @waelalwani, Twitter @mskayyali) على التطوع لترجمة هذا الدرس باللغة العربية


تابعونا على تويتر....

...أو فيسبوك...

مقدمة بصرية إلى التعلم الآلي

Posted by R2D3 on Facebook

...أو تواصلوا معنا عبر البريد الإلكتروني

Posts from R2D3.us


ملاحظات

  1. سبب الأسماء المختلفة أن مجال التعلم الآلي أتى كجهد جماعي من علوم الكمبيوتر، الإحصاء، الهندسة، علم النفس وغيرها
  2. للبحث أكثر في الموضوع يمكن البحث عن gini index أو cross entropy
  3. أحد أهم أسباب كون الحواسب جيدة جداً في تطبيق تقنيات التعلم الإحصائي هي قدرتها على القيام بالمهام التكرارية بشكل سريع جداً دون أن تمَل :)
  4. توصف الخوارزمية هنا بالطمع لأنها تعتمد على أسلوب فصل البيانات من الأعلى للأسفل (الأكثر للأقل). بعبارة أخرى، تبحث عن المتحول الذي يجعل مجموعة البيانات الفرعية الأكثر تجانساً في لحظة معينة.
  5. حرك بالماوس فوق المسار لدراسة الشجرة وكيفية اتخاذ القرارات بشكل أفضل
  6. مرتبط بالانحياز bias و التباين variance