DOI: http://dx.doi.org/10.22059/jitm.2016.57234
Journal of Information Technology Management د ناوری اطلاعات
دانشكدة مديريت دانشگاه تهران دورة 8، شمارة 2 تابستان 1395 ص. 434- 415

بهبود روشهاي متنكاوي در كاربرد پيشبيني بازار با استفاده از
الگوريتمهاي انتخاب نمونة اوليه
فرزاد نيكنام1، علياكبر نيكنفس2
چكيده: امروزه محققان با حجم وسيعي از داده مواجه انـد كـه بخـش زيـادي از آنهـا سـاختارپردازش پذيري ندارند. دو مورد از چالش هاي اصلي در اين زمينه بالا بودن ابعاد فضاي ويژگي و حجيم بودن داده هاي در دسترس است. به منظور رفع اين چالش ها، مقالـة پـيش رو يـك روش انتخاب ويژگي مبتني بر ويژگي هاي هدف ارائه كرده است كه در كاهش ابعـاد فضـاي ويژگـيتأثير زيادي دارد و همچنين براي مقابله با حجم بسيار زياد نمونه هـاي آمـوزش، بـا اسـتفاده ازروش هاي انتخاب نمونة اوليه، به ويرايش مجموعة آموزش مي پردازد. روش پيشـنهادي در ايـنمقاله در سه فاز اجرا شده است كه هر فاز بهبوديافتة فاز قبل است و علاوهبـر دسـتيـافتن بـهنتايج مناسب در هر فاز، در پايان فاز سوم روش پيشنهادي بيشـتر ين كـارايي را بـه دسـت آورد .
براي ارزيابي كارايي روش پيشـنهادي، ايـن روش بـا يكـي از الگـوريتمهـاي موفـق در زمينـةپيش بيني بازار مقايسه شد كه با وجود كاهش نمونه هاي آموزش توسط الگـوريتم هـاي انتخـابنمونة اوليه، به نتايج بسيار بهتري نسبت به آن الگوريتم دست يافت.

واژه هاي كليدي: انتخاب نمونة اوليه، پيش بيني بازار، طبقهبندي متن، متنكاوي.

دانشجوي كارشناسي ارشد مهندسي كامپيوتر، دانشكدة فني و مهندسي، دانشگاه شهيد باهنر كرمان، كرمان، ايران
استاديار بخش مهندسي كامپيوتر، دانشكدة فني و مهندسي دانشگاه شهيد باهنر كرمان، كرمان، ايران

تاريخ دريافت مقاله: 22/10/1394 تاريخ پذيرش نهايي مقاله: 17/02/1395 نويسندة مسئول مقاله: فرزاد نيكنام
E-mail: fd.niknam@gmail.com
مقدمه
بازارهاي هر كشور در حال توسعه، قلب تپندة آن كشور به شمار ميروند و اطلاع از نوسـانهـاي بازار براي هر كشور مهم و حياتي است. به كمك علم پيش بيني بـازار و يـادگيري حركـات بـازار، تاجران مي توانند به سودهاي شايان توجهي دست يابند يـا حتـي از ضـررها ي مـالي فـراوان دوربمانند. از اين رو، بسياري از تجار و اقتصاددانان به دنبال روش هايي براي پيش بيني نوسـان هـاي بازار هستند. اخبار اقتصادي و مالي يكي از منابع مهمي است كه تاجران مي توانند به كمك آنها از روند بازار و چگونگي حركت آن آگاه شوند. تحقيقات نشان مي دهد بين اخبار منتشرشده و آينـد ة بازار، ارتباط بسيار محكمـي وجـود دارد (ايـم و همكـاران ، 2014). بنـابراين ، اسـتخراج عقايـد والگوهاي پنهان از ميان اخبار مشاهده شده به منظور پيش بيني آيندة بازار، بسيار مفيد است؛ امـا بـاتوجه به ساخت يافته ن بودن اخبار منتشرشده، درك بشر از اين گونه اطلاعات بسيار محدود است؛ به همين دليل پژوهشگران كمتر به اين موضوع پرداخته اند و معدود پـژوهش هـاي موجـود در ايـن زمينه نيز، دقت كم و نزديك به 50 درصد دارند. از جمله اين كارها مي توان بـه پـژوهش علمـيايم و همكارانش (2014) اشاره كرد كه دقت آن به 71 درصد رسيد يا ميان پژوهش هاي موجود، پژوهش نصيرطوسي، آقابزرگي، وا و انگو (2014) در زمينة پيش بيني بازار، به بهترين دقت دست يافت؛ به طوري كه در برخي موارد دقت روش پيشنهادي آنها به 33/83 درصـد رسـيد. بنـابراين، ارائة مدلي براي استفاده از اسناد متني و خبرهاي اقتصادي بسيار مهم است.
دانش متن كاوي ابزاري براي تجزيه و تحليل اسناد متني است و با تبديل سـاختار متـون بـهساختار پردازش پذير، به استخراج دانش از ميان اسناد متني و غير قابل پردازش مي پردازد (ويس، ايندارخيا و ژانگ، 2010). پيش بيني بازار با استفاده از متون خبري با چالش هاي بزرگـي از جملـهبالا بودن ابعاد فضاي ويژگي و فراوان بودن اسناد متني در دسترس همراه است. زياد بودن تعداد ويژگيها در ماتريس سند ـ ويژگي، تأثير بسيار زيـادي بـر افـزايش پراكنـدگي مـاتريس سـند ـ ويژگي و كاهش كارايي الگوريتم هاي يادگيري ماشين در مراحل بعدي پردازش دارد (يانگ، ليـو،ژو، ليو و ژانگ، 2012). همچنين تعداد اسناد خبري به منظـور پـردازش بسـيار فـراوان اسـت؛ در حاليكه ممكن است حجم بسـيار عظيمـي از ايـن اسـناد بـي اهميـت باشـند و از كـارايي فراينـدپيش بيني بكاهند (پاسـيني، لـويزا، اسـتفانز، فيگـوردو و نيلسـون، 2013). بنـابراين چـالش هـا ي بيانشده، انگيزة اين پژوهش شدند و راه حل هاي زير به تفصيل مورد مطالعه قرار گرفتند.
ويرايش مجموعة آموزش و حذف اسناد نـويزي از درون آن بـه كمـك الگـوريتم هـاي انتخاب نمونه هاي اولية ويرايشي؛
كاهش ابعاد فضاي ويژگي با توجه به ويژگي هاي مجموعة هدف (مجموعة تست).
دو مورد بيانشده، از مهم تر ين نوآوري هاي اين مقاله است كه بـا تركيـب آنهـا و اسـتفاده از برخي روش هاي پيش پردازش همانند هيستوگرام و ريشه يابي، روش جديدي بـه منظـور افـزايشكارايي پيش بيني بازار ارائه شده است. روش پيشنهادشدة اين مقاله، روي بازار ارز فاركس به اجرا درآمد و با استفاده از تيترهاي خبري، روند تغييرات ارز يورو بر مبناي ارز دلا ر پيش بيني شد. ايـنمسئله، مسئلة كلاسيك طبقه بندي متن است كه تيترهاي خبـري را در دو دسـتة افـزايش رونـدقيمت و كاهش روند قيمت ارز يورو دسته بند ي مي كند.
پيشينة پژوهش
روش هاي پيش بيني بازار در دو شاخة كلي قرار مي گيرند، شاخة اول مربوط به پيش بيني بازار بـر اساس تاريخچه بازار است و پژوهشگراني كه در اين زمينه به مطالعه مي پردازند، اعتقاد به تكـرارتاريخچة بازار دارند. اين روش ها كه به آناليز فني مشهورند، دادههاي مربوط به سال هاي گذشـتة كالايي را بر اساس روش هاي مختلف پيش بيني، مانند شبكه هاي عصبي و… ارزيابي مـي كننـد و با محاسبات دقيق، به شناسايي الگوهاي مخفي در آنها مي پردازند و جهت حركت قيمت يا قيمت نهايي كالا را در زمان مشخصي پيش بيني مي كنند. شاخة دوم كه با عنوان آناليز بنيادي شـناختهمي شود، نسبت به روش هاي فني اميدواركننده تر است (نصيرطوسي، آقابزرگي، وا و انگـو ، 2015) و به تحليل داده هاي اساسي ميپردازد. داده هاي اين شاخه نيز از منابع مختلفي ماننـد، اطلاعـاتمالي شركت، وضعيت جغرافيايي و آب وهوا مانند بلاياي طبيعي و غيرطبي عـي، موقعيـت سي اسـي، اطلاعات مالي دربارة فعاليت هاي دولت و بانك ها و اخبار اقتصادي و مـالي گونـاگون جمـع آوري مي شود. يكي از مهم ترين چالش ها در اين زمينه، ساخت يافتـهنبـودن داده هـاي جمـع آوري شـده است؛ به همين دليل در حوزة تحليل بنيـادين بـازار، تحقيقـات كمتـري نسـبت بـه آنـاليز فنـي انجام شده و آن معدود تحقيقات نيز كارايي كمي دارند.
در حوزة تحليل بنيادي، برخي مطا لعات به ارائة نماي كلي از سيستم هاي پيش بيني بر اساس خبرها اختصاص دارد (هگنو، ليبمن و نيـومن، 2013؛ نيـكفرجـام، عمـادزاده و موتايـا، 2010 و نصيرطوسي و همكاران، 2014). اين پژوهشگران در مطالعات خود اجزاي سيستم هاي پيش بينـيرا بررسي كردند و به مرور مطالعات انجام شده در اين زمينـه پرداختنـد. همچنـين نصيرطوسـي و همكارانش (2015) به منظور تأكيد بيشتر بر روش هاي متنكاوي و مقابله با برخـي از جنبـه هـا ي خاص از جمله مشكلات ابعاد زياد و ناديده گرفتن احساسات و معناشناسـي 1 در برخـورد بـا زبـانمتني، الگوريتم چندلا يهاي ارائه كردند. ال گوريتم آنها از نوعي روش انتخـاب ويژگـي بـر مبنـاي
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Sentiment
ويژگيهاي هدف بهره برده و به منظور پيش بيني هر نمونة تست، مدل مجزايي براي هـر نمونـهايجاد شده است. هگنو و همكارانش (2013) در پژوهشي بر روش هاي استخراج و انتخاب ويژگي تمركز كردند. به همين منظور پس از تركيب روش هاي پيشرفتة انتخاب ويژگي، يعني اسـتفاده ازتركيب كلمات به عنوان ويژگي و ادغام اين روش ها با بازخوردهاي بازار، توانستند دقت طبقه بندي و آناليزهاي احساسات را افزايش دهند. برخي از پژوهشگران نيز به منظور تحليل بازار با استفاده از داده هاي متني، از روش هاي عقيده كاوي و تحليل احساسات متون استفاده كردند. در ايـن زمينـهكيم، جنگ و غنـي (2014) بـراي پـيش بينـي شـاخص بـورس كامپوزيـت كـُره، نـوعي روش عقيده كاوي ارائه دادند. همچنين ايم و همكارانش (2014) نـوعي سيسـتم آنـاليز احساسـات بـرمبناي فرهنگ لغت طراحي كردند و با استفاده از فرهنگ لغت به هر كلمه يـك امتيـاز مثبـت ومنفي اختصاص دادند. آنها به منظور بررسي تأثير تيترهاي خبري بر بازار، آزمايش هاي خود را سه مرتبه تكرار كردند (فقط بر اساس تيتر، تيتر و محتوا، فقط بـر اسـاس محتـوا). در زمينـة تحليـلاحساسات، هانگ، ليو، يانگ، چانگ و لو (2010) به منظور رسيدن به بار معنـا يي خبرهـا و تـأثير آنها بر بازار، ابتدا با استفاده از قوانين انجمني وزن دار به شناسايي ويژگي هاي مهم پرداختند و بـههر ويژگي متناسب با اهميتش وزنـي اختصـاص دادنـد. سـپس بـا بهـره منـدي از تكنيـك هـاي داده كاوي بار معنايي هر خبر را مشخص كردند. دفورتونيو، دسميت، مارتينز و دلمانس (2014) به بحث و تحقيق دربارة طراحي مدلي براي پيش بيني قيمت سهام بر مبناي تكنيك هاي متن كاوي پرداختند. مطالعة آنها در سه بخش انجام گرفت؛ در بخش اول يك مدل پـيش بينـي قيمـت بـر مبناي تكنيك هاي متن كاوي طراحي كردند، در بخش دوم بـه مط العـة معيارهـاي مناسـب تـر و دقيق تر براي ارزيابي مدل هاي پيش بيني قيمت بر اساس تكنيك هاي متن كـاوي پرداختنـد و دربخش سوم به بحث در خصوص بهدست آوردن بينشي جديد براي ارائة مدل هـا بـا دقـت بيشـترپرداختند.
در بيشتر مطالعات پيشين در زمينة تحليل بنيادي بازار، بـهمنظـ ور اسـتخراج ويژگـي از روشكيسة كلمات بهره برده شده كه اين روش با مشكل زيادبودن ابعاد فضـاي ويژگـي همـراه اسـت (نصيرطوسي، آقابزرگي، وا و انگو، 2014). در برخي مطالعات نيز با وجـود كـاهش ابعـاد فضـايويژگي، روش هاي پيشنهادي كارايي كمي دارند. از چالش هاي مهم ديگر مطالعـات، تعـداد زيـادنمونه ها و اسناد آموزش است كه اين موضوع سبب طولانيشـدن محاسـبات در فراينـد آمـوزش مدل مي شود؛ در حاليكه ممكن است بسـياري از اسـناد آمـوزش بـي اهميـت باشـند و در فراينـدآموزش مدل، سبب اختلال و يادگيري كم مدل شوند. به طور مثال امكان دارد لابه لاي خبرهـا ، برخي از اخبار از منابع نامعتبر منتشر شوند. اين چالش در اغلب مطالعات ديده مي شود، امـا كمتـربه آن پرداخته شده است. مطالعة پاسيني، لـويزا، اسـتفانز، فيگـوردو و نيلسـون (2013) از دسـته مطالعات طبقه بندي متن است كه در آن از تكنيك هاي انتخاب نمونه هاي آموزش اسـتفاد ه شـدهاست؛ اما در حوزة مطالعة بازار، بهره مندي از اين تكنيك ها و به خصـوص تكنيـك هـاي انتخـاب نمونههاي اوليه، مشاهده نشده است.
الگوريتمهاي انتخاب نمونه هاي اوليه، الگوريتم هايي هستند كـه پـس از ويـرايش مجموعـة آموزش، از الگوريتم هاي داده كاوي مبتني بر نمونه استف اده مي كنند (گارسيا، لنگو و هررا، 2015 و مورتي و دو، 2011). اساس كار برخي از اين الگوريتم هـا بـر مبنـاي حـذف داده هـا ي نـويزي ازمجموعة آموزش است و استفاده از اين الگوريتم ها علاوه بر حـذف نمونـه هـاي نـويزي از ميـانمجموعة آموزش، به كاهش نمونه هاي آمـوزش و كـاهش ميـزان محاسـبات در الگـوريتم هـايداده كاوي مبتني بر نمونه، كمك فراواني مي كند. در اين مطالعه تـأث ير ايـن روش هـا بـر مطالعـة بنيادين بازار فاركس بررسي شده است.
روش شناسي پژوهش
روش پيشنهادي اين مقاله طي سه فاز متوالي و به هم پ يوسته و آزمايش روش هـاي متنـوع ارائـه شده است و جنبة كاربردي دارد. در هر فاز تلاش شده است كه با رفع نقص هـاي فـاز قبـل، بـه بهبود الگوريتم پرداخته شود تا الگوريتم در فاز پاياني از نظر كارايي به نتايج مطلوبي دست يابد.
فاز اول
فاز اول مطالعه مربوط به ارائة روش پيشنهادي در دو گام پيش پردازش و طبقه بندي اسناد اسـت كه اين فاز پايه و اساس فازهاي دوم و سوم پژوهش محسوب مي شـود . در فازهـاي دوم و سـومگام پيش پردازش، روش پيشنهادي نسبت به فاز اول تغييري نميكند و عمدة تمركز اين فازها بر بهبود فاز طبقه بندي روش پيشنهادي است.
مرحلة اول روش پيشنهادي، مرحلة پيش پردازش اسناد است. بـدين ترتيـب كـه ابتـدا اسـنادواردشده به اين مرحله قطعه بندي1 مي شوند و سپس به مرحلة حذف كلمات توقف وارد مي شوند. در اين مرحله، كلماتي مانند a, an, the و … كه به تعداد فراوان در هـر سـند تكـرار شـده انـد و هيچ گونه بار معنايي ندارند، از ميان كلمات سند حذف خواهند شد (آگراوال و ژايي، 2012). مرحلة بعد در گام پيش پردازش، مرحلة ريشه يابي است. هدف از اين مرحله يكسان سازي شـكل و فـرمكلمات موجود در اسناد است. به كمك روش هاي ريشه يابي، كلماتي كه از نظر مفهوم مشابه انـد و
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. Tokenization
تنها در فرم ظاهري با يكديگر تفاوت دارند، در يك گروه قرار مي گيرند و به عنوان ويژگي در نظر گرفته مي شوند. كاهش ابعاد فضاي ويژگي از مزيت هاي ريشه يابي است و در روش پيشنهادي ازريشهياب پورتر كه يكي از مشهورترين ريشهيابهاي زبان انگليسي اسـت ، اسـتفاده شـده اسـت(جيواني، 2011). در مرحلة بعد، حضور يا نبود دقيق كلمات هر سـند در فرهنـگ لغـت وردنـت1 بررسي مي شود؛ در صورتي كه كلمهاي به طور دقيق در اين فرهنگ لغـت باشـد ، كلمـه در بـردار ويژگي مربوط به هر سند حفظ مي شود و در غير اين صورت از بردار ويژگي سندش حذف خواهد شد. گام بعد، يافتن معادل HYPERNYM بـراي كلمـات موجـود در هـر سـند اسـت. معـادلHYPERNYM هر كلمه برابر با طبقة هر كلمه اسـت. بـراي مثـال معـادلHYPERNYM براي سه كلمة »آبي«، »قرمز« و »زرد« كلمة »رنگ« است. چنانچه بـراي يـك كلمـه بـيش ازيك معادل يافت شود، اولين كلمة يافت شده بهجاي كلمة اصلي در بردار ويژگـي سـند جـايگزينمي شود و در صورت نيافتن معادل براي يك كلمه، آن كلمه از بردار ويژگي مربوط بـه هـر سـندحذف خواهد شد.
در مرحلة بعد، هدف، يافتن وزن مناسب هر كلمه با توجه به روش هاي وزن دهي TF-IDF و Sum Score است. روش TF-IDF، روش وزن دهي متداول در مطالعات متن كاوي است كه بـراساس تعداد ت كرار هر كلمه در هر سند و تعداد تكرار آن در كل اسناد، به آن كلمـه وزن مناسـب اختصاص مي دهد و از رابطة 1 محاسبه مي شود. در اين رابطه tk به كلمة kام، di به سـندi ام، N به تعداد كل اسناد موجود و dk به تعداد اسناد داراي ترم tk اشاره دارد (ويس و همكاران، 2010).
(,) =(,) × log

(1 رابطة
Sum Score نوعي معيار وزن دهي است كه از فرهنگ لغت احساسي استخراج مـي شـود . در اين فرهنگ لغت، به هر كلمه با توجه به مفهومش سه امتياز مثبت، منفي و امتياز كل نسبت داده ميشود و Sum Score برابر مجموع امتيازهاي مثبت و منفي اسـت (نصيرطوسـي و همكـاران، 2015). پس از محاسبة TF-IDF و Sum Score براي هر كلمه در هر سند، از حاصل ضرب اين دو معيار به عنوان وزن اختصاص داده شده به هر ترم استفاده مي شود و تنها در مـواردي كـه ايـنحاصل ضرب براي همة ترم هاي يك سند برابر صفر باشد، براي آن سند فقط از معيـارTF-IDF استفاده مي شود. شكل 1 مراحل گام پيش پردازش روش پيشنهادي را نشان مي دهد. مرحلة آخـراين گام فاز طبقه بندي نام دارد كه بهبود اين فاز از اهداف اصلي پژوهش اسـت و ايـن هـدف درسه فاز متوالي اجرا شده است.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
1. WordNet

شكل
1
.

پيشنهادي

روش

فلوچارت

شروع

توكن

كلمات

حذف

و

بندي
توقف

ريشه

الگوريتم

پورتر

يابي

جود
و
WordNet

بله

جود
و
Hypernym
خير

ترم

حذف

ترم

حذف

خير

له
ب

جايگزيني
Hypernym

هيستوگرام

گرم

هر

وزن

محاسبة

طبقه

فاز

بندي

شكل

1

.

پيشنهادي

روش



قیمت: تومان


پاسخ دهید