التعلم النشط واستقراء قاعدة المعرفه

**Admin** الجمعة ديسمبر 18, 2009 12:31 pm

التعلم النشط واستقراء قاعدة المعرفه

مستخلص

تعرض هذه الورقه طرقا لتعزيز دقة انظمة التعلم الاستقرائي، وتهتم بمسائل: تعلُم قواعد الأثر production rules في مهام تصنيف متعددة الفئه multi-class classification tasks في مجالات مشوّشه ، والإبقاء على تعلم مستمر عند مصادفة وضع جديد عقب انتهاء مرحلة التعلم الأولى، وتصنيف كائن ما object عندما لا يوجد قانون ينطبق على ذلك الكائن.
لقد اوضحنا ان دمج نسق تقييم الأداء والتعلم يعمل على تقديم تصنيفات دقيقه لفئات بيانات واقعيه. وتعرض الورقه النظام أريس ARIS الذي يحقق هذا الاسلوب، وقد تبين ان التصنيفات الناتجه هي غالبا أدق من تلك التي توفرت عن طريق قواعد المعرفه غير المنقحه.
يعتمد قرار التصميم الرئيسي في نظام اريس على ترتيب القوانين Rules طبقا لأوزانها، ويتم تعلم وزن القانون باستخدام نظرية باييز لحساب اوزان شروط القانون ودمجها، ويركز هذا النموذج على تحليل قاعدة المعرفه ويساند عملية التنقيح بكفاءة.
ان هذا النظام (أي اريسARIS) ليس تفاعليا، ويعتمد على كاشفات heuristics لتركيز عملية التنقيح على تلك التجارب التي تبدو اكثر تناغما مع فئة بيانات التنقيح. ويتكون الاطار التصميمي لنظام ARIS من نموذج جدولي لتمثيل اوزان القانون والعلاقه بين حالات التنقيح والقوانين التي تفي (او تنطبق على) كل حاله لتركيز عملية التنقيح، وقد استخدم النظام لتنقيح قواعد معرفه صنعها ARIS بنفسه، وكذلك تنقيح قواعد معرفه اختلقها نظام RIPPER ونظام C4.5 في عشرة ميادين تم اختياها.

الكلمات المفتاحيه: الذكاء الاصطناعي، تعلم الآله، تنقيح قاعدة المعرفه، التعلم النشط

1. مقدمه:
لقد ادى التطور في تقنية قواعد البيانات واتصالات الحاسوب الى انتاج مستودعات بيانات ضخمه وكفؤه في كل المجالات، مثل معاملات بطاقة الاعتماد، والصور الطبيه و عمليات مسح الفضاء الجوي كلها تخزن في قواعد بيانات ضخمه تتزايد باستمرار. وتحتاج هذه البيانات للتحليل واشتقاق معلومات ذات مستوى عال ويمكن ان تكون مجديه في اتخاذ القرارات وفي فهم العملية المنتجه للبيانات. ولأنظمة من هذا النوع نحتاج الى اساليب مؤتمته تمكنها من اكتساب معرفه لصنع القرارات.
يحاول الناس فهم الطبيعه بواسطة ايجاد تبسيط لهذه الطبيعه (يدعى نموذج). ويمثل هذا النموذج احداث في البيئه والتشابهات بين الكائنات . تجمع الكائنات المتشابهة في اصناف classes ثم تبنى قوانين rules للتنبؤ بسلوك كائنات objects جديده لذلك الصنف. نحاول في مجال تعلم الآله ميكنة هذه العمليه وبناء توصيفات او اوصاف descriptions للصنف (النموذج) باستخدام استراتيجية بحث تكراريه على مكتبه من الأمثله. ويسمى هذا النوع تعلم استقرائي inductive learning . المشكله في الاستنتاج الاستقرائي هي ان المعرفة المنتجه استقرائيا ( سواء كانت مختلقه بواسطة البشر او الآلات) هي غير مؤكده uncertain حيث تم تأسيسها بناء على عينه فقط من كل الحالات الممكنه.
هناك اسلوبان شائعا الاستخدام. في التعلم الموجه supervised learning تحدد الاصناف classes للنظام بصحبة امثله من كل صنف. اما في التعلم غيرالموجه unsupervised learning (او التعلم من الملاحظه والاكتشاف) فيجب على النظام اكتشاف الاصناف من تلقاء نفسه معتمدا على خصائص عامه للكائنات. وتقتصر هذه الورقه على الاسلوب الأول.
وتعد مسألة تنقيح قاعدة المعرفه غير التامه (الناقصه/ غير الصحيحه) مفهوما مهما لتحسين القدره التنبؤيه لنظام التعلم على حالات لم يتم رؤيتها مسبقا. وقد ظهرت العديد من الاساليب (1،2،3،4). احد المآخذ على هذه الاساليب هو عدم وجود استراتيجيه مناسبه لتعريض فئة الاختبار بكاملها للمزيد من التحليل عندما تصادف حاله أخطئء في تصنيفها، بدلا من الاستعجال لتصحيح الحاله المشخصة خطأ. السبب الشائع في ظاهرة التصنيف الخاطئ هو ان انتقاء قوانين الاستنتاج يتم بطريقه اعتباطيه (عشوائيه) وهذا راجع الى ان القوانين يتم ترتيبها حسب اولوية ظهورها او انتاجها. الفائده من ترتيب القوانين طبقا لمعيار اهمية معينه هو ان ذلك ينجم عنه تطبيق عدد اقل من عوامل التحويل على قاعدة المعرفه.
تصف هذه الورقه منهجيه نظريه وتنفيذ لهذه المنهجيه في نظام تنقيح استقرائي يدعى أريس ARIS، والذي يحقق خطوة للامام باتجاه تحسين انظمة تعلم المفاهيم استقرائيا. ويستخدم اريس ARIS عدد من التقنيات لتركيز عملية التنقيح على الاجزاء الاكثر اهميه في قاعدة المعرفه واصلاحها.

2. المصاعب التي تواجه الانظمة الحاليه

تلعب قاعدة المعرفه دورا مهما في امكانيات الحل لانظمة التعلم، وهي الوحده الاكثر قوة، ولكن جرينر Greiner (5) اوضح ان بناء قاعدة معرفه كفؤه هي مسألة غاية في الصعوبه NP hard ، وغالبا ما تكون قاعدة المعرفه التي تم بناؤها غير متناغمه inconsistent وغير كامله incomplete وقد لا تعمل بكفاءه تامه، بغض النظر عما اذا كانت قاعدة المعرفه هذه قد انتزعت مباشرة من الخبراء او من خلال تحليل مكتبة من الحالات. لذا، من الضروري تحديث قاعدة المعرفه للحصول على نموذج أعم ومطور واكثر تأثيرا. وتعد الاعتبارات التاليه حوافز دافعه لهذا البحث:
• تعاني خوارزمات تعلم المفاهيم الاستقرائيه من عيوب تضعها في شرك ما يعرف بالقمة المحليه local maxima والتي قد تكون بعيده جدا عن الحل الأمثل بشكل عام
• يمكن ان تكون انظمة التعلم الاستقرائي اكثر ذكاء في حل المسائل اذا دعمت بامكانية دمج تحليل الاداء في عملية التعلم. بالتحديد، السماح لنظام التعلم ان يستعلم عما اذا كان احتواء مثال معين في قاعدة المعرفه يزيد بشكل ملحوظ من قوة النظام ام لا. السبب هو ان هذه التغذيه الراجعه (العكسيه) feedback تزيد من مقدرة التعلم باتجاهات مختلفه عن طريق تعميم generalize قاعدة المعرفه الاصليه لتضمين الامثله التي تقع خارج التغطيه واستثناء الامثله المضمنة بقاعدة المعرفه بالخطاء. ويضم ذلك تعميم غطاء القانون وإضافة قانون جديد، وإلغاء قوانين زائده وتخصيص بعض القوانين العامه بشكل مفرط.
• تلجأ الانظمه الحاليه الى تعيين صنف الانسحاب default class (صنف الغالبيه) الى حالة يراد تصنيفها، اذا لم يتوفر قانون ينطبق على قيم خصائص الحاله. وعند ازدياد عدد الحالات لأكثر من اثنين يزداد احتمال الخروج بتنبؤات خاطئه. ومن ثم يتطلب الامر تقنية بديله

3. بنية نظام اريس ARIS

يعمل نظام اريس مبدئيا على انتاج قاعدة معرفه باستخدام الاستقراء على مجموعه من امثلة التدريب، ويواصل النظام بعد ذلك اختبار قاعدة المعرفه على مجموعه منفصله من البيانات لاغراض التنقيح وتسمى هذه الفئه فئة بيانات التنقيح refinement data set . بعد هذا الاختبار وفقط في حالة بروز تصنيف خاطئ لبعض بيانات التنقيح يستدعى النظام الفرعي للتنقيح. واخيرا يختبر النظام على فئة منفصلة خاصه بالاختبار لتعميم عملية التنقيح. يعمل نظام التنقيح على تحديد الاخطاء المحتمله في قاعدة المعرفه، ويستدعي مكتبة من العوامل لاكتشاف التنقيح الممكن بمساعدة دالة كاشفه عامه global heuristic ، ويطبق افضل تنقيح، وتتكرر العمليه حتى تنتهي كافة التنقيحات الممكنه.
يؤدي نظم اريس بحثا في فضاء من عوامل التخصيص specialization والتعميم generalization في محاولة لايجاد ادنى تنقيح او تعديل لقاعدة المعرفه. ومن حيث المفهوم توجد ثلاثة مراحل رئيسية لنظام التنقيح، تنفذ اثنتان منها لكل فرضيه او صنف متوفر بقاعدة المعرفه، بينما يحافظ على ترتيب القوانين rules وفقا لأوزانها

المرحلة الأولى (المركزه Localization)

يتم خلال هذه المرحله تحديد كافة الحالات التي أخطئء في تصنيفها من ضمن فئة التنقيح والتي تنتمي الى صنف class معين. وتمنح كل حاله وزن weight من خلال القوانين التي تنطبق على الحاله، ويشير هذا الى التشابك عند هذه النقطه (الحاله) في فضاء الصنف (الفرضيه). ويتم اختيار الحاله ذات الاعلى وزن من بين الحالات التي أخطىء في تصنيفها، لأن هذا يحدد القانون الاقوى من فئة القوانين الخاطئه.

المرحلة الثانيه (تنفيذ التنقيح والتحقق والاختبار)

يحدد في هذه المرحلة القانون rule المسئول عن الاخطاء، ويتم تجربة كافة عوامل التنقيح الممكنه، أي يتم تخصيص القانون الخاطيء ، ويعمم قانون آخر مشابه يغطي الصنف المقصود، كما يستحدث قانون جديد . تجرب كافة العوامل الممكنه وتختبر قاعدة المعرفه ويحتفظ بالاداء الناتج. أخيرا يتم اختيار عامل التنقيح او مجموعة العوامل التي تعطي افضل اداء. وتكرر العمليه حتى لا تبقى اية تحسينات اخرى ممكنه.

المرحلة الثالثه (التأكد من الكمال وإزالة القوانين الزائده)

أخيرا، تفحص قاعدة المعرفه للتأكد من تمامها . ويجب تغطية كل حاله بقانون واحد على الأقل. اذا كانت هناك حالات غير مشموله بالقوانين المتوفره ، فيمكن اضافة قوانين جديده . إضافة الى ذلك تزال القوانين الزائده عن الحاجه. المكونات الاساسيه لنظام اريس ARIS هي مولّد الشجره tree generator و مولّد القوانين rule generator و مولد التنقيح ونموذج الحكم judgement module و آلية الاستنتاج inference engine .
مولّد التنقيح هو المسئول عن تطبيق كل التنقيحات الممكنه لعلاج أي خطأ تصنيفي ويمكن ان تتغير القوانين بواسطة تحريرها (ويدعى التمكين enabling) او منعها من التحرر (ويسمى الإعاقه disabling) . يختار نموذج الحكم judgement module عامل التنقيح او مجموعة العوامل التي تنتج افضل تحسين على اداء قاعدة المعرفه مع ضرورة تصحيح الحالات المصنفه خطأ في السابق. ويوضح الشكل ادناه بنية نظام اريس ARIS .

الشكل 1: بنية النظام أريس

4. استقراء قاعدة المعرفه

تم استخدام تمثيل القضايا propositional representation كلغة تمثيل المعرفه، ويستخدم تمثيل القضايا صيغ المنطق المحتويه على شرط وقيمة الخاصيه .attribute-value condition فمثلا
(colour=red v colour=green) & shape=circle
(اللون=احمر او اللون=اخضر) و الشكل=دائره
وتأخذ قاعدة المعرفه شكل قوانين أثر (او انتاج) production rule والتي يمكن ان تحتوي على استثناءات محليه للقانون مثل
IF outlook=sunny & humidity=low THEN class=mild
IF outlook=rain & windy=true THEN class=don't play
UNLESS
Covered_stadium=true
وليتم بناء نماذج تصنيف، يعرض على اريس ARIS ملف يحتوي على اوصاف قيمة-خاصيه attribute-value لفئة من الحالات التي تم تعريف اصنافها، وكل حاله هي وصف لكائن واحد. يحلل نظم اريس بيانات التدريب training data ويولّد فئة من قوانين الأثر في صيغة القضايا التي تصف المفاهيم concepts .
تبدأ عملية التأويل بتعلم شجرة القرار، وترجع الفكره الاساسيه الى عمل كوينلن quinlan (6) مستغلا فكرة " فرّق تسد " واوضحت التجارب ان تحويل شجرة القرار الى مجموعة من القوانين يؤدي الى قوانين واضحه ومفهومه وذات تنبؤ دقيق على حالات لم يسبق مصادفتها. إن إعادة كتابة شجرة في شكل مجموعة من القوانين ،قانون لكل مسار بالشجره لن ينتج تراكيب ابسط لأنه ببساطه يوجد قانون واحد لكل وريقه طرفيه. ولكن بالتفحص الجيد عن قرب في مقدمة القانون قد نتعرّف على بعض الشروط التي ليست ذات علاقه. الغاء الشروط الزائده ينتج قانون جديد بدون التأثير في دقة القانون الاصلي، مما يجعل القانون اكثر قبولا. ولفهم الفكره من وراء إلغاء الشروط نفرض ان القانون G هو
IF A THEN class C
حيث ان A هي اتحاد لمجموعة شروط a1,a2,a3,…….
وقانون آخر اكثر عمومية G' هو
IF A' THEN class C
حيث ان A' يتحصل عليها بالغاء شرط واحد ai من الشروط A .
كل حاله في بيانات التدريب التي تشملها المقدمه القصيره A' اما انها تنتمي او لا تنتمي الى الصنف المعني C ، وانها ترضي او لا ترضى الشرط ai
يمكن تنظيم عدد الحالات في كل مجموعه كما يلي:

يوجد عدد S1+E1 حاله من الحالات التي تغطيها A' وهي ترضي الشرط ai (بمعنى ان القانون G يشملها) حيث ان منها عدد E1 يصنفها القانون G تصنيف غير صحيح. ويوجد عدد S2+E2 حاله مغطاة بواسطة القانون المعمم G' ولا يغطيها القانون الاصلي. يوجد منها عدد E2 تم تضمينها بالخطأ، حيث انها تنتمي الى اصناف اخرى. وحيث ان G' تغطي كل الحالات التي يغطيها G ايضا، فإن عدد الحالات المغطاة بواسطة G' هي S1+S2+E1+E2 . استخدم اختبار الاهميه test of significance على الجدول اعلاه لتقرير ما اذا كان من الواجب الغاء الشرط ai. الفكره هي ان يبقى الشرط ai فقط عندما يكون معدل الخطأ الحقيقي للقانون G' اكبر من معدل الخطأ الحقيقي لقانون G . انه من غير المرجح للقانون الذي يرتكب نسبة خطأ مقدارها في بيانات التدريب ان يكون له خطأ في حدود على حالات لم يسبق رؤيتها، لذا تم استخدام مقياس خطأ تقديري يدعى تقدير لابلاس للخطأ Laplace error estimate
حيث ان N هو عدد امثلة التدريب وان عدد E منها تنتمي الى اصناف غير الصنف المعني C . لذا يحتفظ بالشرط ai فقط اذا كان الغاؤه يحدث معدل خطأ حقيقي اكبر من خطأ الانسحاب. وبالطبع، يمكن الغاء اكثر من شرط في القانون عند تعميم القانون. ويعمل النظام على تطبيق اسلوب شره greedy approach في الغاء الشروط التي تنتج اقل معدل خطأ حقيقي للقانون المعمم.
لقد تم تطوير اسلوب آخر لبناء القوانين، ويوجه هذا الاسلوب بواسطة دالة تقييم كاشفه heuristic evaluation function لتقييم جودة القانون بتطبيق خاصيتين مهمتين وهما الكمال completeness والتناغم consistency. ويتم احتساب قيمة جودة الداله باستخدام

ويسبب الغاء احد شروط القانون، زيادة غطاء القانون، بينما يعمل اضافة شرط للقانون على زيادة نقاوة القانون. يتعلم اريس ARIS القوانين (باستخدام هذا الاسلوب) بحيث تركز بشكل اكبر على التناغم وبشكل اقل على التغطيه coverage، ولكن يمكن تغيير هذا بتعديل قيمة المتغير α. هذه دالة كاشفه، نتجت من تجارب وملاحظات مع ARIS في عدة مجالات فعليه. يعمل اعتماد جودة القانون على التناغم كطريقه لابراز بعض المرونه، والتكيف مع اوضاع متنوعه (مثل القوانين التي تغطي حالات نادره او القوانين العامه جدا). لقد تم تثبيت قيمة المتغير α ليساوي 0.8 وتعظيم جودة الداله (1). ويساعد عامل الكمال او التمام على تفضيل القوانين التي تغطي حالات اكثر عندما يتساوى التناغم كما يوضحه المثال ادناه:
بفرض ان لدينا عدد من البيانات =(10 حالات منها 5 موجبه و عدد 5 سالبه) واذا كان لدينا قانونين:
قانون 1: يغطي 3 حالات كلها تنتمي الى الصنف +
والقانون 2: يغطي 4 حالات ، كلها تنتمي الى الصنف + فان

للقنون الأول وللقانون 2

التناغم=3÷3=1 التناغم=4÷4=1
الكمال=3÷5= 0.6 الكمال=4÷5= 0.8

كما ترى، كلا القانونين لهما القيمه( 1 ) لمعامل التناغم بينما يختلف معامل الكمال. لذا فان اضافة عامل الكمال سيكون له معنى حيث ان معامل التناغم وحده غير كاف. بعد تعلم كافة القوانين، يشكل ARIS تقديرا لأوزان تربط بكل قانون ويتم تقدير الوزن باستخدام حالات فئة التدريب بكاملها.

5. احتساب وزن القانون

يتم تقدير وزن القانون من خلال تشكيله من الاوزان لخصائص القانون، ويمكن تعريف وزن القانون بانه: مقياس الثقه في معتقد القانون Rule's opinion ، مبرزا اهمية الشروط للاعتقاد (الافتراض او الصنف) ، ويسمح لنا هذا بمعايرة قوة القانون بطريقة عمليه. يصف الجدول 1 المصطلحات ذات العلاقه بهذا الشأن. ونستخدم نظرية باييز Bayes لإشتقاق الاوزان لكل جزئيه في القانون.
تخيل فضاء عينه تقسّمه الاحداث E1,E2,…… . وافترض ان H+ تعني حدث في الفضاء يشير الى صنف (او مفهوم) معين باحتمال < P(H+) 0،
اذا

وكمثال بسيط ذو شرطين وافتراضين(أو صنفين) h+,h-

يمكننا تعريف هذا بالمعادله 2 ادناه

حيث ان

او استخدام اصطلاحات الجدول 1

وتقع قيمة QA في الفتره [0,+INF] . اذا نظرنا الى المعادله 2 على اساس انها صيغة تحديث للمعتقد في E1 فان قيم QA الاكبر من 1 يبدو انها تزيد من P(E1) وبالمثل القيم الاصغر من 1 تقلل من P(E1). لذا يمكن اعتبار QA على اساس نها وزن ، يحمله الدليل E،والذي يحرك المعتقد بهذا الاتجاه او ذاك. تدل الاوزان الموجبه على دليل داعم للصنف، وتدل الاوزان السالبه على دليل عكسي يعارض الافتراض(او الصنف). وتجمع الداله التاليه اوزان كل شرط في وزن واحد للقانون

حيث ان W هي وزن القانون. ويحسب هذا تأثير الاختبارات في مقدمة القانون ،حيث ان 0=<W<=1. ولكننا مهتمين بحصر قيم وزن الدليل في الفتره [-1,+1]. لذا فقد استخدمت الداله التاليه لاحالة القيمه الى المدى المطلوب

W=F(QA)
حيث ان

وتنتج هذه المعادله قيمة للوزن في المدى [-1,+1]. الوزن للقانون هو اندماج لاوزان اختباراته ، واستخدم هذا الوزن كمعيار ترتيب لتنظيم القانون وللمساعده في التصنيف وايضا داعما لعملية التنقيح.

6. المعرفه الخاصه بالتنقيح Refinement knowledge

الهدف من تنقيح قاعدة المعرفه هو تقليل عدد الاخطاء الموجبه false positive والاخطاء السالبه false negative في حالات جديده، مع تقليل عدد الاخطاء الجديده الموجبه والسالبه في الحالات المشخصه حديثا. وحيث أن هناك علاقه بين الكمال والتناغم عند تنقيح قاعدة المعرفه فاننا نعرّف جودة قاعدة المعرفه كما يلي:

خلال تجاربنا، تم تثبيت القيمه 0.8 للمتغير α. وهذا يحقق الهدف المنشود للتنقيح والذي يحسب جودة قاعدة المعرفه كتشكيله من الكمال والتناغم.

7. نتائج عمليه

حاول البحث المعروض في هذه الورقه ايجاد طريقة افضل لاستغلال المعلومات في مجالات بها البيانات المتاحه كبيرة الحجم وتنمو باستمرار، مثل بيئات تجميع البيانات المؤتمته automated.
الجدول 2 يلخص تجارب توضح التحسن في دقّة التصنيف بعد انتهاء عمليات التنقيح. العمود الاول في الجدول 3 يصف المجال المستخدم في التجارب، وتم دمج الجدول في ثلاثة مجاميع: المجموعة الاولى تلخص النتائج قبل وبعد التنقيح لقواعد معرفه صنعها نظام ARIS وتم فيها استخدام معياري الكمال والتناغم، وتحتوي المجموعه الثانيه على معلومات قبل وبعد التنقيح على بيانات اختبار لقواعد معرفه طورها نظام C4.5. اما المجموعة الثالثه فتحتوي على معلومات قبل وبعد التنقيح على بيانات اختبار لقواعد معرفه اختلقها نظام RIPPER. وفي كل مجموعه تم تقديم المعلومات التاليه:
العمود المعنون "rules" يشير الى متوسط عدد القوانين في قاعدة المعرفه لعدد عشرة اختبارات اختيرت عشوائيا في كل مجال.
العمود "acc%" يعطي دقّة التنبؤ لقاعدة المعرفه على فئة بيانات معينه لعدد 10 محاولات
وتشير العلامات ( √ ) الى ان عمليات التنقيح نتج عنها تحسّن في دقّة قاعدة المعرفه.
وتعد مركمة قاعدة المعرفه خاصيه هامه للتحليل، اذ يعمل كل من نظام ARIS (نقصد انتاج القوانين باستخدام خاصيتي الكمال والتناغم) ونظام C4.5 على انتاج قوانين من نماذج شجرة قرار مستقراه بتحليل قاعدة بيانات مكوّنه من امثله، وكلا النظامين ينتج قوانين زائده.تحذف هذه القوانين الزائده خلال دورة التنقيح. ومن جهة اخرى ينتج نظام RIPPER قواعد معرفه موجزه، وهناك حاجه لإضافة قوانين كنتيجة لمعلومات اضافيه وخاصة في حالة ما لم يعمل تعميم القوانين الحاليه في المساعدة على تغطية البيانات التي تتم مصادفتها.

8. المقارنه بين ثلاثة انظمه

الهدف من هذا الجزء هو تحديد متى يمكن لاستراتيجية التقييم إحداث نتائج افضل من تدريب نظام التعلم على كافة البيانات المتاحه، ويتضمن اسلوبنا في المقارنه، الاستراتيجية التاليه:
• استقراء قاعدة المعرفه بواسطة تدريب نظام التعلم على 40% من البيانات المتاحه ثم تنقيحها باستخدام 20% من البيانات المتوفره
• استقراء قاعدة المعرفه بواسطة تدريب النظام باستخدام 60% من البيانات المتاحه
• قارن الاداء لقواعد المعرفه المنتجه وذلك باختبار الاسلوبين على باقي البيانات (40%).
• الجدول 3 هو مقارنه اخرى للأنظمة الثلاثه أي ARIS ، C4.5، و نظام RIPPER على مجالات اختبار منتقاه. تمت مقارنة نتائج التقييم لقواعد معرفه مستقراه بواسطة دمج كل من فئة بيانات التدريب وفئة بيانات التنقيح كفئة تدريب مدمجه، وهذا يعطي مقارنه عادله بين كل من ARIS،و C4.5، و RIPPER. يبين العمود الاول المجال المستخدم، ويوضح العمود الثاني اداء نظام ARIS على بيانات الاختبار حينما يدرب على 40% من البيانات المتاحه. ويعطي العمود الثالث اداء نظام ARIS على نفس بيانات الاختبار عند تدريبه على بيانات التدريب المدمجه (أي بيانات التدريب والتنقيح معا). ويعطي العمود الرابع اداء قاعدة المعرفه على بيانات الاختبار بعد التنقيح. العمود الخامس يزودنا باداء نظام C4.5 على بيانات الاختبار عند تدريبه على 40% من البيانات المتاحه. اما العمود السادس فيوضح اداء نظام C4.5 على بيانات الاختبار عند تدريبه على البيانات مدمجة. ويشير العمود السابع الى اداء قاعدة المعرفه المنقّحة والمستقراة بواسطة نظام C4.5 على نفس بيانات الاختبار. يوضح العمود الثامن اداء نظام RIPPER على ذات بيانات الاختبار عند تدريبه على 40% من البيانات المتوفره. ويعطي العمود التاسع اداء نظام RIPPER على بيانات الاختبار عند تدريبه على البيانات مدمجة. ويبرز العمود العاشر اداء قاعدة المعرفه المنقّحه والمستقراة بواسطة RIPPER على نفس بيانات الاختبار.
وتشير العلامات ( √) الى المواضع التي انتجت فيهاعملية التدريب متبوعة بالتنقيح نتائج جيده افضل من تلك المتحصل عليها عن طريق التدريب على البيانات بأكملها.
وتوضح التجارب الفرق الواضح في استقراء القوانين بين كل من نظامي C4.5و RIPPER. بالتحديد، يولّد نظام C4.5 العديد من القوانين والتي يؤدي بعضها الى تضارب فيما بين القوانين. ويعمل نسق التنقيح المبيّن على الغاء مثل هذه القوانين الزائده مما يزيد من دقّة قاعدة المعرفه. من ناحية اخرى ، يعمل اسلوب RIPPER في استقراء القوانين على انتاج عدد اقل من القوانين، لذا فانه خلال التنقيح يؤدي نظام ARIS عدد اكبر من عمليات بناء القوانين ويظهر القليل من عمليات الغاء القوانين على قواعد المعرفه الخاصه بنظام RIPPER.
باختصار، تعمل آلية التنقيح على تحسين جودة وصف الاصناف لكافة الخوارزميات في ثلاثة مجالات طبيه (وهي Hepatitis و Hypothyroid و Heart )وهي ذات معضلات مثل التشويش (عدم النقاوه) و مشكلة الحالات الخاصه الصغرى. وفوق ذلك تم الحصول على تحسينات على عدة مجالات اخرى عديده استخدم فيها نظامي C4.5 و ARIS على التوالي. لذا ينصح بان تستخدم نظم التعلم آلية تنقيح على بيانات اختبار والتي تكون منفصله عن بيانات التدريب المستخدمة في استقراء قاعدة المعرفه كما في نظام RIPPER و C4.5 للحصول على اوصاف مفاهيم ذات جودة عاليه.

9. الاستنتاج

تعرضت هذه الورقه لمسألة بناء اوصاف مفاهيم concept descriptions في مجالات كبيرة الحجم، حتى يمكن الاستفاده من كميات هائله من البيانات المتزايده باستمرار. وتم تطوير نموذج تنقيح استقرائي قادر على بناء قواعد معرفه من مكتبة من الحالات المصنّفة مسبقا، وتحديثها باستمرار لتضمين حقائق جديده. ان لهذا النموذج اهمية خاصه في المجالات المتغيرة والمشوّشه مثل معاملات بطاقة الاعتماد والصور الطبيه.
لقد طورنا اسلوبا لتعلم وزن القانون معتمدا على تقدير للعلاقه بين شروط القانون وخاتمة القانون (او الاستنتاج). ورتبت القوانين طبقا لاوزانها لتحديد الحالات التي أخطيء في تصنيفها بسهولة.

منقول للفائدة