د ناوری اطلاعات دانشكدة مديريت دانشگاه تهران
دورة 7، شمارة 4 زمستان 1394 ص. 844- 825

كشف و يادگيري پديده هاي استثنايي با به كارگيري
تئوري استثنائات و تئوري رضايتمندي
مسعود عابسي1، الهه حاجي گل يزدي2
چكيده: منطق يادگيري از استثنائات چالش مهمي در حيطة دادهكاوي و كشف دانش است. در اين پژوهش بر اساس تئوري استثنائات و رضايتمندي، الگويي نوين براي بهبـود شـايان توجـه ميزان اعتماد و اطمينان به كشف و يادگيري از استثنائات ارائه مي شود. ابتدا بـه كمـك رويكـردتلفيقي پيشنهادي بر اساس تئوري استثنائات، حدود رفتار نرمـال و اسـتثنايي دادههـا مشـخصمي شود و پس از آن با به كارگيري تئوري رضايتمندي، راهحلهاي رضايت بخش به دست ميآيد.
استخراج دانش از دادههاي نرمـال و اسـتثنايي بـه كمـك رويكـرد يـادگيري پـايين بـه بـالا وبه كارگيري الگوريتم پيشنهادي RISE ارتقايافته صورت ميگيرد. به منظور تعيين كارايي الگـويپيشنهادي، كشف سهام استثنايي در پايگاه اطلاعاتي بازار بورس ايران هدف قرار گرفت. برتري نتايج روش پيشنهادي با نتايج به دست آمده از به كارگيري ساير الگوريتمهاي دادهكاوي، روزنهاي براي توجه به رويكرد پيشنهاد شده است. همچنين با بهره منـدي از شـاخص g-means ميـزاندقت اين روش سنجيده شد. نتايج نشان داد روش پيشنهادشده از قابليت شناسايي و يادگيري از دادههاي استثنايي برخوردار است.

واژه هاي كليدي: تئوري استثنائات، تئوري رضايتمندي، داده كاوي، يادگيري پايين به بالا.

استاديار مديريت صنعتي، دانشكدة صنايع، دانشگاه يزد، يزد، ايران
دانشجوي دكتري مهندسي صنايع، دانشكدة صنايع، دانشگاه يزد، يزد، ايران

تاريخ دريافت مقاله: 28/08/1393 تاريخ پذيرش نهايي مقاله: 06/09/1394 نويسندة مسئول مقاله: الهه حاجي گليزدي E-mail: elahehajigol@gmail.com
مقدمه
يادگيري از داده هاي استثنايي، يكي از موضوعات مهم و پيچيدة پژوهش است كـه كاربردهـايفراواني در دنياي امروز دارد. كشف و مطالعة الگوهاي استثنايي در پايگاه داده، از جذابيت خاصـيبرخوردار است كه از كاربردهاي آن مي توان به كشف ناهنجاري هـاي سيسـتم و تجزيـه وتحليـلداده هاي پزشكي اشاره كرد. استثنايي به پديدههاي موجود در پايگـاه داده اطـلاق مـيشـود كـهرفتاري متفاوت از الگوهاي اصلي و مورد انتظار از خود بروز مي دهند. اغلب در فرايند دادهكـاوي ، يادگيري از دادههاي استثنايي دشـوار اسـت؛ زيـرا داده هـاي غير عـادي حجـم كمـي از مجمـوعداده هاي پايگاه داده را دربرمي گيرند. همچنين مدلهاي معمول يادگيري كارايي كـافي را بـرايشناسايي و يادگيري از اين دادهها ندارند؛ زيرا اين مدلها با فـرض تـوازن توزيـع داده هـا عمـلمي كنند. اين فرضيه سبب مي شود الگوريتم هاي يادگيري معمول، بـر اسـاس معيارهـاي هزينـة خطا، دقت و توزيع دسته ها، در شناسايي داده هاي استثنايي عملكرد ضعيفي داشته باشند. بنابراين مطالعه و يافتن راهكارهاي عملي بـراي غلبـه بـر مشـكلات شناسـايي و يـادگيري از داده هـاياستثنايي، ارزشمند خواهد بود.
مسئلة كشف داده هاي استثنايي با عنوان كاوش دسته هاي استثنايي، كشف تصادفي1، كشف موارد جديد2 و مسئلة كاوش استثنائات3 نيز شناخته مي شود. داده هاي استثنايي از لحاظ ماهيت با داده هاي پرت بسيار تفاوت دارند. شناسايي دادههاي استثنايي به دليل دانش نهفتـهاي كـه دارنـد، بسيار ارزشمند است. داده هاي پرت، اغلب به دليل خطاي انساني، خطاي ماشين (ابزار) يا خطـا درسيستم رخ مي دهند، در حاليكه داده هاي استثنايي به دليل انحراف طبيعي از ميانگين (قـد بلنـد)، رفتار تقلبي يا تغيير در رفتار سيستم، ايجاد مي شوند. در واقع داده هاي استثنايي دادههـاي مثبـتپيش بينينشده و دادههاي پرت دادههاي منفي پيش بيني نشده اند.
مبناي نظري پژوهش حاضر، به كارگيري تئوري استثنائات4 و تئوري رضـايتمندي 5 (سـيمون1974) است كه به منظور مديريت رخدادهاي غيـر عـادي ، شـامل كشـف حالـت هـاي اسـتثنايي،استخراج دانش و يادگيري از فرايندهاي استثنايي، بـه كـار گرفتـه مـيشـود . بـر اسـاس تئـورياستثنا ئات برخي از داده ها رفتار متفاوتي از رفتار مورد انتظار نشان مي دهنـد . از آنجـا كـه كشـفاستثنائات با تفسير يافته ها ي مشاهده شده در محتواي حوزة مسئله ارتباط دارد، نقطة آغاز مناسب
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Chance discovering
Novelty detection
Exception mining
Abnormality Theory
Satisficing Theory
براي توضيح استثنائات، مدل مفهومي انواع دانشي است كه رفتار عـادي و غيرعـادي سيسـتم راشرح مي دهند.
از ديد تئوري رضايتمندي، بسياري از مسائل پيرامون ما به بهينهسـازي نيـاز ندارنـد و كـافياست راهحل رضايتبخشي براي آنها كشف شود. رويكـرد رضـايتمندي در حـل مسـئله، هماننـدلبه هاي قيچي عمل مي كند؛ زيرا فضاي مسئله را به فضاي كوچك تري كه شـامل راه حـلهـايرضايت بخش مي شود، تبديل ميكند. اين رويكرد فضاي مسئله را كوچك كرده و پيچدگي مسئله را بي آنكه تغيير عمده اي در كيفيت اطلاعات ايجاد كند، بهطور شايان توجهي كاهش مي دهد.
در اين پژوهش برآنيم چارچوبي براي تلفيق تئوري اسـتثنا ئات و تئـوري رضـايتمندي ايجـادكنيم و از آن براي كشف استثنائات بهره ببريم. ابتدا به منظـور شناسـايي قـوانين اسـتثناييشـدندادهها، مدل مفهومي رفتار غيرعادي سهام شكل مي گيرد كه دربردارندة آستانههاي قابـل قبـولبراي استثناييشدن دادههاست. پس از شناسايي دادههاي استثنايي، قـوانين بـه كمـك الگـوريتمRISE ارتقايافته1 استخراج ميشود. بهمنظور تعيـين كـارايي الگـوي پيشـنهادي، حيطـة عملـيمطالعه رصد رفتار متفاوت انواع سهام براي شناسايي و تشكيل سبد سـهام اسـتثنايي بـر اسـاس تئوري استثنائات و تئوري رضايتمندي در نظر گرفته شده است. سبد سـهام اسـتثنايي سـهامي راپوشش ميدهد كه رفتارها و ويژگي هـاي مثبـت غيرمعمـولي در بـازار از خـود نشـان مـي دهـد؛ به طوري كه سبب كسب بيشترين ثروت شود. بنابراين، ساختن سيستم كارا بـراي انتخـاب سـبداستثنايي از سهام موجود در بازار بورس به تفسير دو مسئلة اصلي نياز دارد. اول؛ سيستم بايد يـادبگيرد، بفهمد و بهصورت خودكار مدلي از رفتارهـاي غيرمعمـول و اسـتثنايي از سـهام در دسـتبررسي بسازد. دوم؛ سيستم بايد بتواند از دانشي كه ياد گرفته است استفاده كند و بـا نظـارت بـررفتارهاي فعلي سهام، هرگونه انحراف در الگوهاي نرمال فعاليت را كشف كند و از آنها به منظـورساختن سبد سهام استثنايي بهرهمند شود.
پژوهش بدين شرح ادامه مييابد؛ نخسـت در بخـش پيشـين ة پـژوهش ، سـوابق شناسـايي ويادگيري از دادههاي استثنايي، تئـوري اسـتثنائات و چگـونگي شناسـايي دادههـاي اسـتثنايي بـابهره مندي از اين تئوري بررسي ميشود و با تشريح رويكرد رضايتمندي در كشف استثنائات ادامه مي يابد. سپس به منظـور اسـتخراج قـوانين پنهـان در پايگـاه داده، بـه معرفـي الگـوريتمRISE ارتقايافته پرداخته ميشود. بخش روش شناسي پژوهش، به ارائـة مـدل پيشـنهادي بـراي كشـف دادههاي استثنايي و استخراج قوانين موجود در پايگاه داده مي پردازد. سپس يافته هاي پژوهش در
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
.1 Enhanced RISE algorithm
حيطة شناسايي و يادگيري سهام استثنايي بيان مي شود. بخش آخر نيـز بـه خلاصـه اي از نتـايجاختصاص دارد.
پيشينة پژوهش
مطالعه در زمينة كشف و يادگيري داده هاي استثنايي با كاوش حول مسئلة يادگيري از داده هـاينامتوازن پا به عرصة وجود گذاشت. روند تـاريخي پيشـرفت سيسـتمهـاي يـادگيري از داده هـا وحالت هاي نامتوازن، در تحقيقات چاولا، جاپكويچ و ايز (2007) و ويـس (2004) بررسـي شـدند .
چن، چن، سو و ژنگ (2008) رويكرد دادهكاوي را بر اساس دانه هـاي اطلاعـاتي1 بـراي كشـفدانش از دادههاي نامتوازن به كار بردند. بورز و وندن پل (2009) موضوع از دست دادن مشـتري رابه منزلة رخداد استثنايي در صنعت خدمات بررسي كردند كه هدف از آن ارتقاي كارايي روش هاي نمونهسازي با به كارگيري سنجه هاي ارزيابي مناسب تر بود. كو ، ژو و ژانگ (2008) با به كارگيري ابزار آماري به كاوش الگوي فعاليـتهـاي هـدف (غيرعـادي )، فعاليـت هـاي مغـاير بـا هـدف وفعاليتهايي با تأثير معكوس پرداختند، در حالي كه ساختار داده نامتوازن در نظر گرفته شد. مسئلة كشف تقلب در سيستم هاي بانكي (وثوق، تقوي فرد و البرزي، 1393و محقر، لوكـاس، حسـيني ومنشي، 1389) و در صنعت بيمه ( تقويفرد و جعفري، 1394) براي يافتن رفتارهاي نـادر پرخطـربراي سيستم مورد بررسي، از مصاديق ديگر كشف استثنائ ات است.
روش هاي ارائهشده در مطالعات پيشين، فقط براي شناسايي موردها و حالـت هـاي غير عـادي اعم از داده هاي غيرعادي مثبت (استثنائات) و غيرعادي منفي (داده هاي پرت) بهكـار رفتـه انـد و تاكنون روشي براي تشخيص و شناسـايي داده هـاي اسـتثنايي از داده هـاي پـرت و يـادگيري ازداده هاي استثنايي ارائه نشده است. پژوهش حاضر به بحث و بررسي چالشهاي پروسة كاويدن و كشف دانش از داده هاي استثنايي مي پردازد و به دنبال يافتن راهكـار مناسـب بـراي يـادگيري ازداده ها و حالت هاي استثنايي به كمك تئوري استثنائات است.
تئوري استثنائات
رويكردهاي متفاوتي در انواع زمينه هاي علمي و عملي براي استثنائات وجود دارد كه از جملة آنها مي توان به استثنائات موضوعي2، استثنائات آماري3، استثنائات ژنتيكـي 4، اسـتثنائات بيولوژيـك5،
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
.1 Information granuls
32. Subjective abnormality. Statistical abnormality
Genetic abnormality
Biological abnormality
انحراف از استانداردهاي اجتماعي1 و رويكردهاي تئوريك اشاره كرد. نخستين بار هافمن (1979) تئوري استثنائات را در علم ژنتيك مطرح كرد. پس از ظهور تئـوري اسـتثنائات در علـم ژنتيـك، مك كارتي در سال 1980 بحث تئوري استثنائات را در استنتاج آغـاز كـرد . مـك كـارتي بـا مثـالمعروفي به معرفي استثنائات پرداخت: اين قانون خاص را در نظـر بگيريـد »پرنـدگان بـه صـورتمعمولي مي توانند پرواز كنند« اگر x پرنده اي خاص باشد، AB(x) به اين معناست كه »x دسـتة استثنايي از جامعة پرندگاني است كه نمي توانند بپرند« (مانند پنگوئن). مك كارتي با بـه كـارگيريقوانين علي و معلولي به شناسايي استثنائات پرداخت. پس از رويكـرد مـك كـارتي، رويكردهـايتئوريك به مسئلة شناخت استثنائات مطرح شد. رويكردهاي تئوريك به استثنائات بر اساس ايجاد يا توسعة تئوري توسط شخصي آغاز مي شود. اگر براي مسئله بتوان حيطة نرمـالي تعريـف كـرد،استثنائات شكستي در توسعة اين تئوري در نظر گرفته ميشوند.
تئوري مفهومي است كه براي يافتن استثنائات به كار مي رود و بسته بـه نـوع دانـش موجـودعمل مي كند. در واقع استثنائات با تفسير يافته هاي مشاهده شده در محتواي حوزة مسـئله ارتبـاطدارند. نقطة آغاز مناسب بـراي توضـيح اسـتثنائات ، مـدل مفهـومي انـواع دانشـي اسـت كـه در كاربردهاي مختلف استثنائات اهميت دارد. دانش ضمني در سيستم يافتن استثنائات ممكن اسـتبر پاية توضيحي از ساختار عادي و رفتار وظيفهاي سيستم يا بيان رفتار غيرعادي سيسـتم باشـد.
يافتههاي جمع آوري شدهاي كه با رفتار نرمال سيستم مطابقت دارند »يافته هاي نرمال« نام دارنـدو در غير اين صورت به آنها »يافته هاي غير نرمال« مي گويند. اين تئوري ها بر اساس انواع دانش كسب شده و يافته هاي مشاهده شده شكل مي گيرند؛ مانند تئوري هاي »انحراف از ساختار و رفتـارنرمال« و »انطباق با رفتار غير نرمال«.
تئوري كشف استثنائات بر اساس سازگاري
ري ريترز (1987) نخستين بار اين تئـوري را بـه منزلـة چـارچوبي منطقـي بـراي كشـف عارضـة سيستم هاي فيزيكي با استفاده از مدل ساختار و رفتار نرمال سيستم مطرح كرد. ايدة اصلي تئوري يادشده، حاصل پژوهشهاي ريترز و مك كارتي دربارة مسئلة اسـتنتاج غيريكنواخـت2 اسـت . بـراساس اين تئوري، استثنائات بر مبناي مقايسة داده هاي مشاهده شـده بـا سـاختار و رفتـار نرمـالسيستم و مغايرت با آن كشف ميشوند.

Violation of socially accepted standards
Non-monotonic Reasoning
تئوري كشف استثنائات براساس تطابق با رفتار غيرعادي
كشف استثنائات بر اساس تطابق با رفتار غيرعادي و با درنظرگرفتن دانـش رفتارهـاي اسـتثناييسيستم عمل مي كند؛ به نحوي كه به شبيه سازي رفتار غيرعادي سيستم مي پردازد. با فرض وجود عيب هاي مشخص، مي توان برخي از حالت هاي قابل مشاهدة غيرعـادي را پـيش بينـي كـرد . در عمل، حوزة دانش به كاربرده شده در اين سيستم، ارتباطات علت و معلولي است. تئوري هاي معتبر در اين زمينه، تئوري هاي پوشش مجموعه ها1 و استدلال قياسي2 است. جيمز رگيا، تئوري پوشش مجموعه ها را كه بر اساس دانش علي به صورت ارتباطات رياضي بيان مي شود، ارائه كرد. توراسـاو كنزوله نيز تئوري استدلال قياسي را كه برمبناي منطق است مطرح كردند. پژوهش حاضـر از رويكرد پوشش مجموعه ها بهره مي برد.
به منظور ارتقاي دقت در كشف استثنائات، چارچوب تئوريك تلفيقي جديدي مركب از تئـوريكشف استثنائات بر اساس سازگاري و تئوري كشف استثنائات بر اساس تطابق با رفتار غيرعـاديبه صورت شكل 1 پيشنهاد مي شود. استثنائات بر مبناي ميزان سازگاري دادههاي مشاهده شده بـامدل رفتار غيرعادي و مغايرت دادههاي مشاهده شده با رفتـار عـادي سيسـتم كشـف مـي شـوند . يافته هاي جمع آوري شده اي كه با رفتار عادي سيستم مغايرت دارند يا مطابق بـا رفتـار غيرعـادي سيستماند » يافتههاي استثنايي« ناميده مي شوند.

تطابق

مغايرت

داده

استخراج

هاي
استثنايي

غيرنرمال

رفتار

مدل

پيرامون

جهان

نرمال

رفتار

مدل

پيش

بيني

پيش

بيني

پيش

بيني

داده

هايپيش

بيني

شده

داده

مشاهده

هاي

شده

داده

هايپيش

بيني

شده

تطابق

مغايرت

داده

استخراج



قیمت: تومان


پاسخ دهید