DOI: http://dx.doi.org/10.22059/jitm.2016.59948
Journal of Information Technology Management د ناوری اطلاعات
دانشكدة مديريت دانشگاه تهران دورة 8، شمارة 4 زمستان 1395 صص. 732- 711

ارائة چارچوبي براي اصلاح نرخ حق بيمه در رشتة بدنة اتومبيل با
استفاده از مدل شبكه هاي عصبي (مطالعة موردي: شركت بيمة آسيا)
محمد صالح تركستاني1، آرمان دهپناه2، محمد تقي تقوي فرد3، شهرام شفيعي4
چكيده: رشتة بدنة اتومبيل برخلاف آنچه بـهنظـر مـي رسـد ، چنـدان رشـتة سـود آوري بـرايشركت هاي بيمه محسوب نمي شود و به سمت زيان دهي در حركت اسـت . از ايـن رو، پـژوهشحاضر به كفايت نرخ هاي حق بيمة بدنة اتومبيل و تـدابير ي بـراي آنهـا توجـه كـر ده و در پـيبهسازي و علمي كردن هر چه بيشتر اين امور است. به اين ترتيب، ابتدا بـا شناسـايي متغيرهـايتأثير گذار بر ريسك بيمه گذاران و مطابقت دادن متغيرها با داده هاي موجود در پايگاه دادة شركت مطالعه شده، عوامل نهايي انتخاب شدند؛ سپس ضـمن عمليـات پـيش پـردازش روي داده هـا بـااستفاده از مدل شبكه هاي عصبي، طبقة خسارتي و ميزان خسارت بالقوة بيمه گذاران پـيش بينـي شد تا شركت هاي بيمه بتوانند با درنظر گرفتن آنهـا و ضـريب خسـارت مدنظرشـان، نـرخهـايبهينه اي براي بيمه نامه ها تعريف كنند. نتايج پژوهش نشان مي دهد مدل ارائهشده مـي توانـد بـادقت 91 درصد طبقة خسـارتي را تخمـين بزنـد و بـا دقـت 87 درصـد ميـزان خسـارت بـالقوة بيمه گذاران را پيش بيني كند.

واژه هاي كليدي: بيمة بدنة اتومبيل، پيشبيني، داده كاوي، مدل شبكههاي عصبي.

استاديار گروه مديريت بازرگاني، دانشكدة مديريت و حسابداري، دانشگاه علامه طباطبائي، تهران، ايران
دانشجوي دكتري مديريت بازرگاني، دانشكدة مديريت، دانشگاه آزاد اسلامي، بابل، ايران
دانشيار گروه مديريت صنعتي، دانشكدة مديريت و حسابداري، دانشگاه علامه طباطبائي، تهران، ايران
استاديار گروه مديريت ورزشي، دانشكدة تربيت بدني و علوم ورزشي، دانشگاه گيلان، رشت، ايران

تاريخ دريافت مقاله: 15/06/1394
تاريخ پذيرش نهايي مقاله: 06/02/1395
نويسندة مسئول مقاله: آرمان ده پناه
E-mail: arman.dehpanah@gmail.com
مقدمه1
بر اساس نتايج پژوهشي، تصادفات اتومبيل نهمين عامل مرگ و مير در جهان در سال 2004 بـوده است و طبق پيش بيني ها، در سال 2030 به پنجمين عامل تبـديل خواهـد شـد (كيـاورز مقـدم وونگ، 2014).
به موجب اين تصادفات، سالانه بيش از يك ميليون نفر در سراسر جهان جان خود را از دست مي دهند و بيش از پنجاه ميليون نفر مجروح مي شوند. علاوهبر اين، مرگ و مير ناشي از تصـادفاتدر ايران، حدود بيست برابر بيشتر از كشورهاي پيشرفته گزارش شده اسـت (منصـوري و كـارگر،2014).
نرخ حق بيمة بدنة اتومبيل در بسياري از شركتهاي بيمهاي در كشورهاي پيشرفته با توجـهبه متغيرهاي گوناگون جمعيتشناختي، مشخصات اتومبيل و سابقة خسارت بيمـه گـذار محاسـبهمي شود؛ اين در حالي است كه در ايران تا اواخر سال 1388 و اجراي آزاد سازي نرخ ها، نـرخ حـقبيمة بدنة اتومبيل با توجه به تعرفة بيمة مركزي تعيين مي شد. اين امر سبب ميشد كه مشتريان كم ريسك تر، خسارت هاي مالي مشتريان پرريسك را جبران كنند، از اين رو تفاوت چنـد اني بـينمشتر يان پرريسك و كم ريسك وجود نداشت. در واقع، در كشور ما ب هجـاي فـرد، اتومبيـل بيمـه ميشد و اين امر موجب شده بود بيشتر شركت هاي بيمه در زمينة بيمة اتومبيـل، متحمـل زيـانشوند (حنفي زاده و رستخيز پايدار، 1390).
نداشتن معيار سنجشي براي تعيين ريسـك افـراد در بيمـة اتومبيـل، عـلاوه بـر ناكـارا كـردن قراردادهاي بيمه، به تعيين نرخ هاي غيـر عادلانـه نيـز منجـر مـي شـود، در صـورتي كـه بيشـتر كشورهاي توسعهيافته با بهرهمندي از سيستم طبقـه بنـدي ريسـك خسـارت افـراد، در افـزايش بهرهوري و سوددهي صنعت بيمة خود تلاش مي كنند.
بدين ترتيب، پژوهش حاضر با هدف ارائة مدل و چارچوبي براي اصلاح نرخ حـق بيمـة بدنـة اتومبيل به عرصة تحقيق گام برداشته است. بر اين اساس، پژوهش پـيش رو درصـدد اسـتفاده ازمدل شبكههاي عصبي براي پيش بيني طبقة خسارتي و ميزان خسارت بالقوة بيمـه گـذاران بيمـة بدنة اتومبيل در شركت بيمة آسيا برآمده است تا بتوان با در نظرگـرفتن ضـريب خسـارت مـدنظرشركت، ميزان بهينة حق بيمه را مشـخص كـرد و سياسـتهـاي مقتضـي را دربـارة گـروههـايمشخص بيمهگذاران ب هكار گرفت. در اين رابطه سؤ الهاي پژوهش به شرح زير مطرح مي شود:
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ1. اين پژوهش با همكاري و حمايت پژوهشكدة بيمه وابسته به بيمة مركزي جمهوري اسلامي ايران اجرا شده است.

چگونه مي توان با استفاده از مدل شبكه هاي عصبي، چارچوبي براي اصـلاح نـرخ حـقبيمة بدنة اتومبيل ارائه كرد؟
چه عواملي بر ايجاد خسارت در رشتة بدنة اتومبيل تأثير مي گذارند؟
چه سياست هايي را مي توان براي بهبود فرايند تعيين نرخ حـق بيمـة بدنـة اتومبيـل وشناسايي اثربخش مشتريان ارائه كرد؟
پيشينة نظري پژوهش
يكي از موارد مهمي كه در سازمان هاي امروز به خوبي به چشم مي خـورد، فراوانـي و حجـم زيـاد داده ها و اطلاعاتي است كه در سازمان توليد مي شود. اين حجم وسيع داده و اطلاعات، در حـاليكه سازمان را با مسائلي در زمينة چگونگي نگهداري، جمـع آوري و طبقـهبنـدي داده هـا روبـه رو مي كند، دانش نهفتهاي دارند كه هر سازمان يادگيرنده و هوشمند، از آن بهماننـد فرصـتي بـرايارتقاي توانمندي هايش استفاده مي كند (محمدي و عليزاده، 1393).
دادهكاوي ابزار بسيار ارزشمندي است كه در سال هاي اخير ب هطـور گسـترده بـراي اسـتخراجاطلاعات، جست وجوي روابط و الگوها بين حجم عظيمي از دادهها استفاده شده است ( حنفـيزاده و رستخيز پايدار، 1390). دادهكاوي از تركيب چندين رشته نشئت مي گيرد. آمار، يادگيري ماشين، روش هاي بهينهسازي، روش هاي تشـخيص و شـناخت الگـو، بانـك اطلاعـاتي، تجسـم سـازي،شبكه هاي عصبي، مدلهاي رياضي، بازيابي اطلاعات، الگوريتم ژنتيك و هوش مصنوعي، فنوني هستند كه داده كاوي از آنها بهره مي برد (رادفر، نظافتي و يوسفي اصلي، 1393).
داده كاوي اغلب مي تواند مدل هاي اكچوئري موجود در صنعت بيمـه را از طريـق پيـدا كـردنمتغيرهاي مهم، تعيين روابط بين آنها و كشف روابط غير خطي متغيرها ارتقا دهد و آنها را به نتايج
قابل استفاده در كسب وكار، شامل توسعة محصول، بازاريابي و تحليل توزيع خسار ت ها تبديل كند (قره خاني و ابوالقاسمي، 1390).
با توجه به اينكه پژوهش حاضر بر پاية كشف دانش از پايگاه دادة شركت بيمـ ة مطالعـه شـده استوار است، به منظور اجراي فرايند پژوهش از استاندارد جهاني فرايند داده كاوي در صنعت1 بهره برده شده است. شكل 1 مراحل اين استاندارد را در قالب نمودار نشان مي دهد.

ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Cross-Industry Standard Process for Data Mining (CRISP-DM)

شكل 1. مراحل داده كاوي بر اساس استاندارد CRISP-DM

پيشينة تجربي پژوهش
يئو، اسميت، ويليس و بروكز (2001) با استفاده از تكنيك خوشهبندي و در نظر گـرفتن معيارهـايجمعيت شناختي نظير سن و جنسيت راننده، به خوشه بندي مشـتريان و ريسـك مربـوط بـه آنهـاپرداختند؛ سپس در هر خوشه با استفاده از مدل شبكه هاي عصبي و با در نظـر گـرفتن معيارهـاييادشده، تغييرات حق بيمه را پيش بيني كردند. نتايج نشان داد استفاده از تكنيك هاي خوشه بنـديبه بهبود عملكرد پيشبيني منجر مي شـود . اسـتفادة تركيبـي از شـبكه هـاي عصـبي و الگـوريتمخوشه بندي كا ـ مينز1 توانست دقت 78 درصد در پيش بيني را بهدست آورد.
گو (2003) با استفاده از روش خوشه بندي به وسيلة الگوريتم كاـ مينز، به بررسي ويژگي هـاي بيمهگذاران در رشتة اتومبيل با تأكيد بر مشخصه هاي بيمه گذار پرداخت و مشتريان را با توجه بـه
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. K-means
عواملي چون سن، جنسيت، سطح تحصيلات راننده، نوع اتومبيل، محل اقامت و… خوشه بندي كرد؛سپس، با استفاده از درخت تصميم، اهميت هر يك از اين عوامل را در ايجاد خسارت نشان داد.
نيوستد و دي اليا (2007) در پژوهشي با استفاده از روش رگرسـيون و در نظـر گـرفتن توزيـعپواسون، رابطة بين رنگ اتومبيل و احتمال خسـارت را بررسـي كرد نـد . بـدين منظـور ، دو ايالـتاستراليا به عنوان نمونه براي جمع آوري داده ها انتخاب شدند. به طور كلي، آنها نتيجه گرفتنـد كـههنگام روز رنگ هاي مشكي، نوك مدادي و نقره اي، هنگام غروب رنـگ مشـكي و هنگـام شـبرنگ قرمز پرخطرترين رنگ ها محسوب مي شوند. آنها نشان دادند بين رنـگ اتومبيـل و احتمـالخسارت رابطة انكارنشدني وجود دارد.
پارنيتزكه (2008) سيستم نرخ گذاري بيمه در آمريكـا را بررسـي كـرد. وي در ايـن پـژوهش سيستمي را با عنوان امتيازدهي بيمه1 كه در بيشتر ايالت هاي آمريكا استفاده مي شود، تفسير كرد.
در اين سيستم بر اساس سوابق اعتباريِ بيمهگذاران به آنها امتيازهايي داده ميشود كه در تعيـيننرخ حق بيمه مؤثر است. طبق اين سيستم، بيمهگذاري كه سابقة اعتباري خوبي نـدارد، بـه طـورمثال قسط وام هاي خود را به موقع پرداخت نمي كند، فردي بي احتياط در نظر گرفته ميشود كـهاحتمال رانندگي نامطمئن و وقوع خسارت براي او بيشتر است. وي اين سيستم را با سيستم هـايرايج محاسبة نرخ در آلمان مقايسه كرد و رويكرد تركيبي از هر دو روش را براي پيـادهسـازي درنظام بيمة اتومبيل آلمان پيشنهاد داد.
از تحقيقات انجامشده در كشور نيز ميتوان به پژوهش چوبـدار (1387) اشـاره كـرد كـه بـا در نظرگرفتن متغيرهايي نظير سن و جنسيت راننده، نوع و كـاربري اتومبيـل و… و بـا اسـتفاده ازتكنيك درخت تصميم، بيمهگذاران بدنة اتومبيل و پيش بيني طبقة خسارتي آنها را شناسايي كرد.
دقت پيش بيني مدل به كاررفته در اين پژوهش بهميزان 75 درصد ب هدست آمد و قابل قبول بود.
عنبري، نادعلي و اسلامي نصرتآبادي (1389) در پژوهشي با در نظر گـرفتن مشخصـه هـاي بيمهگذار مانند سن و جنسيت او، در كنار مشخصه هاي اتومبيل مانند كاربري و سن آن، چند مدل (درخت تصميم، شبكههاي عصبي، شبكههاي بيزين، ماشين بردار پشتيبان، رگرسيون لجسـتيك،تحليل تمايزي) را به منظور پيش بيني طبقة خسارتي بيمه گذاران مقايسه كردند و به دسـتهبنـديآنها در سه طبقة كم ريسك، ريسك متوسط و پر ريسك پرداختند. طبق نتايج اين پژوهش، مـدلدرخت تصميم بيشترين دقت را در پيش بيني داشت و با دقت 68 درصد توانست طبقـة خسـارتيبيمه گذاران را پيشبيني كند.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Insurance Scoring
در پژوهشـي مش ابه ح اجي حي دري، خال ه و فراه ي (1390) ب ا در نظ ر گ رفتن همزم انمشخصه هاي بيمه گذار و اتومبيل، چند مدل (درخت تصميم، شبكه هاي عصبي، شبكه هاي بيزين، ماشين بردار پشتيبان، رگرسيون لجستيك، تحليل تمايزي) را به منظور پيش بيني طبقـ ة خسـارتيبيمه گذاران مقايسه كردند. طبق نتايج اين پژوهش، مدل هاي شبكههاي عصبي و درخت تصميم با حدود 82 درصد، بيشترين دقت را در پيش بيني داشتند.
حنفي زاده و رستخيز پايدار (1390) ابتدا عوامل مؤثر بر ايجاد خسارت در بدنـ ة اتومبيـل را در ايران بررسي كردند. پس از مشخصشدن عوامل با استفاده از شبكههاي عصبي خود سازمانده، به خوشه بندي بيمه گذاران بر اساس ريسك بالقوة آنها پرداختند.
در پژوهشي ديگر، فتحنژاد و ايزدپرست (1390) با استفاده از تكنيك خوشهبندي كـ اـ مينـز ودرخت تصميم و با درنظر گرفتن متغيرهاي جمعيتشناختي نظير سـن، جنسـيت، شـغل، وضـعيتتأهل راننده و متغيرهاي مربوط به اتومبيل نظير نوع، سال ساخت، كاربري و ظرفيت اتومبيل و…
بيمه گذاران را خوشه بندي كردند و نتيجه گرفتند علاوهبر مشخصات اتومبيل، مشخصات رفتـاريمشتري نيز در پيش بيني سطح خسـارت مشـتريان بيمـة بدنـة اتومبيـل تأثيرگـذار اسـت. دقـتمدل هاي استفاده شده در اين پژوهش حدود 60 درصد بوده است.
روش شناسي پژوهش
پژوهش حاضر به لحاظ هدف كاربردي است؛ زيرا مدل ارائه شده در اين پژوهش راهكارهايي براي بهبود نرخ گذاري حق بيمة بدنة اتومبيل و به طور كلي بهبود عملكرد شركت هاي بيمـه ، پـيش رو مي گذارد. از آنجا كه به منظور شناخت رفتار بين متغيرها به توصـيف و تحليـل روابـط بـين آنهـاپرداخته شده است، از ديد ماهيت و روش توصـيف ي ـ همبسـتگي اسـت. روش و ابـزار گـردآورياطلاعات در اين پژوهش به واسطة بررسي پيشينة پژوهش و استفاده از داده هاي ثانويه و مطالعـ ة مقاله ها، كتاب ها و پايان نامه هاي خارجي و داخلي مرتبط، كتابخانه اي است.
ابتدا عوامل اثرگذار بر ريسك مشتريان بيمة بدنة اتومبيل از طريق بررسي پيشـين ة پـژوهششناسايي شدند و در سه دستة كلي مشخصات بيمه گذار، اتومبيل و بيمه نامه قرار گرفتند؛ سـپس ، از طريق مشورت با چند نفر از خبرگان صنعت بيمه و مطابقت دادن اين عوامل با داده هاي موجود در پايگاه داده هاي شركت مد نظر، عوامل نهايي ريسك انتخاب شدند. در گام بعد بـا اسـتفاده ازالگوريتم شبكه هاي عصبي مدلي ارائه شد كه به وسيلة آن مي توان طبقة خسارتي بيمـه گـذاران وميزان خسارت بالقوة آنان را پيش بيني كرد. چنين مدلي مي توانـد در سياسـت گـذاري هـاي آتـيشركت هاي بيمه به كار گرفته شود. شركت هاي بيمه مي توانند با استفاده از نتايج اين داده كـاوي ، ميزان حق بيمة دريافتي از بيمه گذاران مختلف را تعديل كنند و با ايجاد سيستم نرخ گذاري مبتنيبر ريسك بيمه گذاران، ميزان رضايت آنها را افزايش داده و سودآوري خود را ارتقا دهند.
شبكه هاي عصبي مصنوعي
بر اساس تحقيق ان گايي، ژيو و چاو (2009) مشخص شـد كـه از بـين 34 تكنيـك داده كـاوي،شبكه هاي عصبي بيشترين و مؤثرترين كاربرد را داشته است. برتري شبكه هاي عصبي نسبت بـهروش هاي ديگر اين است كه مي تواند از وقايع گذشته بياموزد و با گذشت زمـان نتـايج را بهبـوددهد. همچنين مي تواند ضمن استخراج قوانين، رفتار آينده را بر اساس وضعيت فعلـي پـيش بينـيكند (وثوق، تقوي فرد و البرزي، 1393). اين شبكهها بـا اسـتفاده از مجموعـة ورودي و خروجـي ، روابط بين آنها را پيش بيني مي كنند و به اصطلاح آموزش ميبينند؛ به گونه اي كه پس از آمـوزش ، به ازاي يك عضو جديد از مجموعة ورودي، خروجي متناظر آن را تقريب مي زنند.
شايان ذكر است كه مدل شبكه هاي عصبي معماري هاي مختلفي دارد كه معروف تـرين آنهـاعبارت اند از پرسپترون1، پرسپترون چندلايه2، تابع پاية شعاعي3 و ماشـينهـاي بـردار پشـتيبان4.
شبكههاي پرسپترون چندلايه با الگوريتم پس انتشار خطا تا چندين سال پرطرفـدارترين معمـاري شبكههاي عصبي بود (مؤمني، 1385)، اما طي سال هاي اخير با حجيم ترشدن پايگاههـاي داده و پيچيده ترشدن ساختار آنها، معماري هاي جديدي از شبكه هاي عصبي نظير تـابع پايـة شـعاعي وماشين هاي بردار پشتيبان ارائه شدند كه در برخي موارد نيز توانستند عملكرد بهتـري نسـبت بـهپرسپترون چندلايه داشته باشند. هريك از معماري هاي شبكه هاي عصبي عيب ها و مزيـت هـاي ي دارد و نمي توان در مجموع يك معماري را بهتر از بقيه دانست؛ بهطور مثال، ماشـين هـاي بـردارپشتيبان، اغلب قدرت پيش بيني بهتري نسبت به ساير معماري ها نشان مي دهند، اما آموزش آن هـا كمابيش زمان بر است و انتخاب معيارهايي نظير كرنل5 يـا حاشـية اطمينـان بـراي ساختارشـان، استفاده از آنها را نسبتاً مشكل ميكند. بهطور كلي، مي توان گفت كه براي داده هايي كـه سـاختاربسيار پيچيده، ابعاد گسترده و اختلال فراوان دارند، بهتر اسـت از معمـاري هـاي جديـد يـا حتـيتركيبي استفاده كرد و براي دادههايي با ساختار نهچندان پيچيده و اختلال كمتر، به منظور راحتـيكار و استفادة بهينه از زمان، از معماريهاي سنتي نظير پرسپترون چندلايه بهره برد (گانتي، پاول
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Perceptron
Multi Layer Perceptron (MLP)
Radial Basis Function (RBF)
Support Vector Machines (SVMs)
Kernel
و پال، 2009). در اين تحقيق، به دليل ساختار نه چندان پيچيده و اختلالات نه چندان زياد داده هـا ،از شبكه هاي پرسپترون چندلايه با آموزش شبكة پس انتشار خطا از نوع تـابع سـيگموئيد اسـتفادهشده است.
تعريف متغيرها
در مرحلة نخست همة متغيرهاي اثرگذار بر وقـوع خسـارت از طريـق مطالعـة پيشـينة تحقيـق، شناسايي شدند؛ سپس، طي مشورت با چند نفر از خبرگـان صـنعت بيمـه و نظرخـواهي از آنـان، متغيرهايي نظير نوع گواهي نامه، سرعت رانندگي، ظرفيت موتور، نوع پرداخت حق بيمه و… حذف شدند. در مرحلة بعد متغيرهاي باقي مانده در سه دسـته قـرار گرفتنـد. مشخصـه هـاي نهـايي درجـدول 1 آورده شده است.
جدول 1. عوامل نهايي انتخاب شده پس از مشورت با خبرگان

سن، جنسيت، وضعيت تأهل، شهر محل زندگي، سـال اخـذ گـواهي نامـه (سـابقة راننـدگيراننده)، ميزان تحصيلات، ميزان درآمد، شغل، تعداد ادعاي خسـارت در سـال قبـل، فاصـلةمحل كار تا محل زندگي مشخصات بيمه گذار
نوع، رنگ، سال ساخت، تجهيزات ايمني (ABS)، ميزان كاركرد به كيلومتر، كاربري، گروه، نوع پلاك، تعداد سيلندر، نوع تيپ، ارزش روز مشخصات اتومبيل
ميزان پوشش بيمهاي مشخصات بيمه نامه

جمع آوري داده ها
در اين پژوهش از داده هاي موجود در پايگاه داد ة بيمة بدنة اتومبيل يكـي از شـركت هـاي بيمـة داخلي (بيمة آسيا) استفاده شد. اين دادهها شامل دادههاي مربوط به بيمهنامة بيمـه گـذاران بدنـة اتومبيل است كه تعدادي از آنها دچار حادثه شده اند و خسارت ديدهاند. از آنجا كـه شـركت بيمـة آسيا از سال 1389 سيستم جديدي را براي پايگاه داده هايش به كار برده اسـت، جامعـة آمـاري را 733875 دادة مربوط به بيمه نامههاي بدنة اتومبيل كه طي سـال هـاي 1389 تـا سـه ماهـة اول
1391، شركت بيمة آسيا براي آنها بيمهنامه صادر كـرده اسـت و بخشـي از آنهـا دچـار خسـارتشده اند، در نظر ميگيريم.

پيش پردازش داده ها
پيش پردازش داده ها از گامهاي مهم فرايند دادهكاوي است كه ميزان دقت نتايج به دست آمـده تـاحد زيادي به اجراي درست آن بستگي دارد؛ بدينمنظـور دو اقـدام مهـم كـاهش داده و اعمـالتغييرات در شكل داده ها روي آنها انجام گرفت. ابتدا 9 متغير از متغيرهاي نهايي، شامل سال اخذ گواهي نامه، شغل، ميزان تحصيلات، ميزان درآمد و فاصلة محل كار تا محل زندگي از مشخصات بيمه گذار؛ تجهيزات ايمني، ميزان كاركرد به كيلومتر و نوع تيپ از مشخصـات اتومبيـل و ميـزانپوشش بيمه اي از مشخصات بيمه نامه، به دليل موجود نبودن اطلاعـات در پايگـاه داده، از بررسـي خارج شدند. همچنين بعضي از متغيرهاي موجود در پايگاه داده مانند كد ملـي، كـد پسـتي و نـامبيمه گذاران، شمارة بيمه نامه و… به دليل يكتا بودن براي هر يك از بيمه گذاران و بي ارتباط بودن بـا هدف پژوهش حذف شدند. با توجه به اينكه فراواني هفت نـوع خـودروي پرايـد، پـژو 405، پـژو206، سمند، كاميون، وانت و پژو پارس با ساير انواع خودروهاي بيمه شده در اين شـركت تفـاوتچشمگيري داشتند، تنها به تجزيه و تحليل اين هفت نوع خودرو پرداخته شد.
در خصوص نوع پلاك، كاربري و گروه اتومبيل نيز مـواردي كـه فراوانـي بيشـتري داشـتندحفظ شده و باقي حذف شدند. همچنين اتومبيل هاي توليد شده در 16 سال اخير، به دليـل فراوانـيبيشتر بررسي شدند. از آنجا كه تنوع رنگ در اتومبيل ها زياد بود، اتومبيل ها از روي رنگ در چنـدطبقة كلي تر دسته بندي شدند. به طور مثال، رنگ هاي آلبالويي، جگري، عنابي و… در گـروه رنـگقرمز قرار داده شدند. داده هاي باقي مانده كيفيت لازم و صلاحيت ورود به مدل نهايي را نداشتند؛ به همين دليل معيوب بودن داده ها از دو جنبه مطالعه شـد؛ ابتـدا خطاهـاي اپراتـور در وارد كـردنداده ها بررسي شد، بدينمعنا كه بعضي متغيرها مقادير نامناسب و نامربوط داشتند. به طور مثال، در بعضي ركوردها سال توليد خودرو اعداد پنج رقمي يا سه رقمي وارد شده بود كـه امكـان اصـلاح وحدس زدن مقدار صحيح وجود نداشت و ركورد آن حذف شد، يا اينكه تعداد سيلندر براي خودروي سمند عدد 8 درج شده بود كه با مقدار 4 جايگزين شد. همچنين در بعضي ركوردها با توجه به نام بيمه گذار، جنسيت بعضي از بيمهگذاران اشتباه وارد شده بود كه تا حـد امكـان تصـحيح شـدند و اقداماتي از اين قبيل در مرحلة اول روي داده ها انجـام گرفـت . در جنبـة دوم ، ركوردهـا از لحـاظ وجود دادههاي نامرتبط بررسي شدند؛ بدين صورت كه براي بعضي از متغيرها مقادير نامرتبط وارد شده بود. به طور مثال، براي نوع خودرو يا نوع استفادة آن مقادير عددي اختصاص يافته بـود . بـراين اساس، تا حد امكان سعي شد ركوردهاي معيوب طي مشورت با متصديان بيمه و با توجه بـهمتغيرهاي مرتبط ديگر اصلاح شود، به طور كلي ركوردهايي كه امكان اصلاح دادههاي معيوبشان وجود نداشت، حذف شدند.
يادآوري مي شود كه با استفاده از فيلد شهر محل سكونت بيمه گذاران، جمعيـت هـر يـك ازاين شهرها از نتايج رسمي سرشماري عمومي نفوس و مسكن سال 1390 استخراج شد. سـپس، شهرها براساس جمعيت به سه گروه كم جمعيت، متوسط و پر جمعيت دستهبندي شدند. شهرهايي كه كمتر از صدهزار نفر جمعيت داشتند، شهرهاي كمجمعيت؛ بين صد هزار تا يـك ميليـون نفـرشهرهاي متوسط و شهرهايي كه بيشتر از يك ميليون نفر جمعيت داشتند، شهرهاي پرجمعيت در نظر گرفته شدند.
انتخاب مشخصه1
در اين قسمت با استفاده از امكان انتخاب مشخصه در كلمنتاين، صلاحيت متغيرها براي ورود به مدل و در صورت امكان كاهش ابعـاد آنهـا بررسـي شـد . شـكل 2 نشـان دهنـدة نتـايج انتخـابمشخصه ها براي متغير هدف مرحلة نخست، يعني طبقه بندي خسارتي بيمه گذاران است كه طبق آن همة متغيرهاي انتخاب شده صلاحيت لازم براي پيش بيني طبقة خسارتي را دارنـد، وابسـتگيخاصي به يكديگر ندارند و ورودشان به مدل بلامانع است.

شكل 2. نتيجة انتخاب مشخصه براي متغيرها در پيش بيني طبقة خسارتي
همچنين شكل 3 نشاندهندة نتايج انتخاب مشخصه ها براي مرحلة دوم و پيش بينـي ميـزانخسارت بيمهگذاران بهعنوان متغير هدف است. در اين قسمت نيز همة متغيرهـاي انتخـاب شـدهصلاحيت لازم براي پيش بيني ميزان خسارت ر ا داشتند، وابستگي خاصي به يكـديگر نداشـتند و ورودشان به مدل مانعي نداشت.
خلاصه اي از عمليات پيش پردازش انجام شده در جدول 2 آورده شده است.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Feature Selection

شكل 3. نتيجة انتخاب مشخصه براي متغيرها در پيش بيني ميزان خسارت

جدول 2. خلاصه اي از عمليات پيش پردازش روي داده ها
مثال عمليات پيشپردازش انجامشده نوع داده
حذف متغيرهايي مانند شـمار ة ملـي، شـمارة پلاك و كد پستي حذف داده ها داده هاي نامرتبط، بيمعنا وخاص
حذف متغيرهايي مانند ميزان درآمـد، ميـزانتحصيلات و شغل حذف داده ها داده هاي اضافي يا ناموجود درپايگاه داده
انتخاب هفت نوع خـودرو بـا فراوانـي بيشـترميان انواع خودرو كاهش داده ها فراواني داده ها
گ روهبندي رنگ هاي مشـابه ماننـد آلبـالويي،عنابي، جگري در گروه كلـي رنـگ قرمـز، وگروه بندي جمعيتي شهرهاي بيمه گذاران كاهش ابعاد داده ها گستردگي مقادير داده ها
جاي گذاري عدد 4 به جاي عدد 8 براي تعداد سيلندر خودروي سمند در صــورت امكــان تصــحيح از طريــقمشورت بـا متصـديان يـا دانسـتههـايپيشين محقق، در غير اين صورت حذف داده هاي داراي اختلال، برون هشته يا خطاي اپراتور
جاي گذاري تعداد سـيلندر بـا توجـه بـه نـوعخودروها، يا حذف داده در صورت خالي بـودنفيلد رنگ در صــورت امكــان تصــحيح از طريــقمشورت با متصديان يا مقـدار دادههـايمشابه، در غير اين صورت حذف داده هاي مفقود

در نهايت، پس از پالايش، پيش پردازش و انتخاب مشخصه ها، 24370 داده شامل 13 متغيـرمستقل و وابستة طبقة خسارتي در مرحلة اول و ميزان خسارت در مرحلة دوم به عنوان ورودي هـاو خروجي هاي مدل انتخاب شدند. در جدول 3 تغييرات نهايي اعمال شده، نوع متغيرهاي مسـتقلبه كار رفته در مدل و مقادير هريك آورده شده است. همچنين در شكل 4 مدل شبكههاي عصبي به كار رفته در اين پژوهش نشان داده شده است.

جدول 3. متغيرهاي به كار رفته در مدل به همراه مقادير هريك
مقادير متغير نام متغير در مدل متغير

از 19 تا 91 سال Age سن بيمه

مشخصات

گذار

بيمه

مشخصات



قیمت: تومان


پاسخ دهید