ارزیابی مقایسه‌ای اثربخشی تکنیک‌های داده‌کاوی در پیش‌بینی ریسک و بازده سهام شرکت‌های پذیرفته شده در بورس اوراق بهادار تهران

نوع مقاله: مقاله پژوهشی

نویسندگان

1 استادیار گروه حسابداری، دانشگاه آزاد اسلامی، واحد اصفهان (خوراسگان)، اصفهان، ایران

2 کارشناس ارشد حسابداری، دانشگاه آزاد اسلامی، واحد نجف آباد، اصفهان، ایران

چکیده

ریسک و بازده سهام همواره از مهم­ترین عوامل در اتخاذ تصمیمات مالی سرمایه­گذاران بوده است. از این رو پیش­بینی آنها برای سرمایه­گذاران و سایر فعالان بازار سرمایه حائز اهمیت بسیار است. هدف پژوهش حاضر به کارگیری تکنیک­های داده­کاوی در پیش­بینی بازده و ریسک سیستماتیک سهام در شرکت­های پذیرفته شده در بورس اوراق بهادار تهران می­باشد. در این پژوهش با استفاده از چهار الگوریتم تحلیل جداساز خطی، الگوریتم تحلیل جداساز غیرخطی، الگوریتم نزدیکترین K همسایگی و درخت تصمیم و به کمک 16 متغیر مستقل به پیش­بینی بازده و ریسک سیستماتیک سهام پرداخته می­شود. چهار الگوریتم مذکور یک بار با استفاده از کل متغیرهای مستقل و بار دیگر با استفاده از 4 متغیر مستقل  که با استفاده از رویکرد فیلترینگ به عنوان مؤثرترین متغیرها در پیش­بینی بازده و ریسک شناخته شده­اند، اجرا می شود. سپس صحت پیش­بینی چهار الگوریتم در دو حالت (مجموعاً 8 پیش­بینی برای بازده و 8 پیش­بینی برای ریسک) مقایسه و بهترین الگوریتم انتخاب می­گردد. بدین منظور داده­های 107 شرکت پذیرفته شده در بورس اوراق بهادار تهران طی سال­های 1380 تا 1392 مورد استفاده قرار گرفته است. نتایج حاصل شده حاکی از این است که در حالت به کارگیری 16 متغیر مستقل الگوریتم تحلیل جداساز خطی بهترین پیش­بینی بازده و الگوریتم تحلیل جداساز غیرخطی بهترین پیش­بینی ریسک سیستماتیک را به دست می­دهد. لیکن در حالت استفاده از متغیرهای مستقل منتخب  الگوریتم تحلیل جداساز غیرخطی بهترین پیش­بینی بازده و الگوریتم تحلیل جداساز خطی بهترین پیش­بینی ریسک سیستماتیک را ارائه می­دهد. به طور کلی استفاده از متغیرهای مستقل منتخب (به جای استفاده از کل متغیرهای مستقل) توان الگوریتم­ها در پیش­بینی بازده و ریسک سیستماتیک را بهبود می­بخشد.
 

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

The Comparative Assessment of Data Mining Methods Effectiveness to Forecasting Return and Risk of Stock in Companies Listed in Tehran Stock Exchange

نویسندگان [English]

  • Afsaneh Soroushyar 1
  • Mohammad Akhlaghi 2
1 Department of Accounting, Isfahan (Khorasgan) Branch, Islamic Azad University, Isfahan, Iran
2 Department of Accounting, Najaf Abad Branch, Islamic Azad University, Isfahan, Iran
چکیده [English]

In this study, with using of four algorithms: linear discriminant analysis algorithm, quadratic discriminant analysis algorithm, K-nearest neighbors algorithm and decision tree with the help of 16 independent variables has been addressing to predict stock returns and systematic risk. Four algorithms are running once with using of whole independent variables and one again with using of 4 independent variables that are known with using of filtering approach as the most effectiveness of variables in predicting the return and risk. Then the accuracy of forecasting 4 algorithms in both cases (in total, 8 predictions for return and 8 predictions for risk) compares and chooses the best algorithm. For this purpose data of 107 companies listed in Tehran stock exchange is used during the period of 2002 to 2014. The results show that in the case of using 16 independent variables, the linear discriminant analysis algorithm provides the best prediction for return and the quadratic discriminant analysis algorithm provides the best prediction for systematic risk. But in the case of using independent variables that are chosen, the quadratic discriminant analysis algorithm offers the prediction for return and linear discriminant analysis algorithm offers the best prediction for systematic risk. In general, using of selected independent variables (instead of using whole independent variables), improves the algorithm's ability in prediction of return and systematic risk.

کلیدواژه‌ها [English]

  • Return
  • systematic risk
  • Data Mining
  • K-Nearest Neighbors
  • Decision Tree

یکی از مهم‌ترین مسائلی که در اقتصاد هر کشوری بسیار حایز اهمیت است، بازار سرمایۀ آن کشور است. بازار سرمایه، بازاری است که هر سرمایه­گذار نهادی و یا فردی برای اتخاذ تصمیمات اقتصادی و در نهایت سرمایه­گذاری در پرتفوی مناسب خود، با آن روبه‌روست. ریسک و بازده، دو مؤلفۀ اساسی است که در تصمیم­گیری­های مالی سرمایه­گذاران تأثیر بسزایی دارد؛ چرا‌که سرمایه‌گذاران همواره درصدد کسب بازدهی بیشتر و تحمل ریسک کمتر هستند. بازده سهام شامل سود نقدی و تغییرات قیمت سهام و ریسک شاخصی برای اندازه‌گیری بی‌اطمینانی در حصول بازده مورد انتظار است. یکی از مباحث مهم در بازار سرمایه، آگاهی از میزان ریسک شرکت­ها، به‌ویژه ریسک سیستماتیک است که‌ نقش بسزایی در تصمیم‌گیری­ها ایفا می‌کند؛ زیرا اعتقاد بر این است که بازده مورد انتظار سهام شرکت­ها تابعی از ریسک سیستماتیک است و ریسک سیستماتیک‌، تغییرات نرخ بازده یک سهم نسبت به نرخ بازده کل بازار سهام را بیان می‌کند. به‌نظر می­رسد‌ اطلاعات حسابداری در قیمت بازار سهام و ریسک بازار شرکت­ها مؤثرند. از دیرباز تأثیر اطلاعات حسابداری بر ریسک و بازده‌، توجه پژوهشگران را به‌دنبال داشته است. برای مثال، بیور و همکاران ]12[ و الگرز و ماری ]18[ رابطه بین اطلاعات حسابداری و ریسک سیستماتیک را بررسی و وجود این رابطه را تأیید کرده­اند. همچنین، رابطۀ سود با بازده سهام‌ که نخستین‌بار‌ بال و براون ]9[ مطرح کردند، به‌دلیل گستردگی و سهولت استفاده از اطلاعات حسابداری، ‌ ملاکی برای ارزیابی عملکرد مالی حال و آیندۀ شرکت ‌استفاده شده است.

پژوهش حاضر، روشی نظام­مند را برای جست‌وجوی ویژگی­های بالقوۀ اثرگذار بر پیش­بینی ریسک و بازده سهام در بورس از بین نسبت­های نقدینگی، نسبت‌های فعالیت، نسبت­های اهرمی، نسبت­های سودآوری و نسبت­های بازار به‌کار می‌گیرد. همچنین، در این پژوهش از چهار الگوریتم تحلیل جداساز خطی[1] (LDA)، الگوریتم تحلیل جداساز غیر‌خطی[2] (QDA)، الگوریتم نزدیک‌ترین همسایگی[3] (KNN) و الگوریتم درخت تصمیم طبقه‌بندی‌کننده[4](CDT)  برای پیش­بینی ریسک و بازده سهام استفاده شده است و دقت پیش­بینی این روش‌ها با یکدیگر مقایسه می­شود.‌ به‌کمک الگوریتم‌های گزینش[5] متغیرهای مستقل و تحلیل خوشه­ای[6]، مربوط‌ترین متغیرها از بین نسبت­های مورد بررسی انتخاب می‌شود و دوباره به مقایسۀ دقت پیش­بینی چهار روش فوق با استفاده از نسبت­های منتخب پرداخته می­شود. بر این اساس، هدف پژوهش حاضر تعیین بهترین الگوریتم برای پیش­بینی ریسک و بازده سهام شرکت‌هاست. استفاده از چهار الگوریتم متفاوت و نیز استفاده از الگوریتم­های گزینشمتغیرهای مستقل و تحلیل خوشه­ای برای تعیین تأثیرگذارترین عوامل بر ریسک و بازده سهام از نوآوری­های این پژوهش است. مقایسۀ دقت پیش­بینی چهار الگوریتم فوق و انتخاب الگوریتم بهینه، سرمایه‌گذاران و تحلیل­گران مالی را در پیش­بینی ریسک و بازده شرکت یاری خواهد کرد.

 

مبانی نظری و پیشینۀ پژوهش

از مهم‌ترین دغدغه­های متخصصان بازار، اطلاعاتی است که ‌شرکت‌ها ارائه می‌دهند. پیش­بینی قابل اتکای وضعیت شرکت، فرصتی را در اختیار سرمایه­گذار قرار می­دهد تا سرمایه­گذاری مطمئن‌تری انجام دهند و بازده بیشتری را عاید شوند ]20[. برخلاف بازده که اغلب مورد توجه فعالان بازار قرار دارد، به پیش­بینی ریسک کمتر‌ توجه شده است. این در حالی است که آنان معمولاً باید بازده خود را با سطح متناسبی از ریسک تنظیم کنند، زیرا‌ بدون ارزیابی ریسک، نتایج و یافته­های کارآمد در زمینۀ مجموعه اوراق بهادار معنا و مفهومی ندارد. همچنین، پیش­بینی تغییرات قیمت سهام به‌صورت نادرست، دیدگاه دقیقی از آیندۀ سهام و جذب سرمایه­گذاران در اختیار قرار نمی­دهد. از این‌رو،‌ ریسک و بازده هر دو از مهم‌ترین عوامل برای اتخاذ تصمیمات مالی محسوب می­شوند ]10[.

به‌منظور پیش­بینی دقیق ریسک و بازده، تعیین عوامل اثربخش حایز اهمیت است. اگرچه عوامل متعددی در تعیین ریسک و بازده سهام مؤثر است، اما نادیده‌گرفتن اقلام صورت­های مالی در این پیش­بینی دور از هدف اصلی گزارشگری مالی است. صورت‌های مالی اطلاعاتی دربارۀ عملیات گذشتۀ شرکت ارائه می‌کنند و سرمایه­گذاران از این اطلاعات برای پیش­بینی بازدهی آتی شرکت در تصمیمات تخصیص منابع بهره می­گیرند ]15[. در صورتی‌که ارقام حسابداری به‌میزان کافی قابل اتکا باشد،‌ منعکس‌کنندۀ ارزش بازار حقوق صاحبان سهام‌ است و اطلاعاتی را ‌‌برای ارزشیابی شرکت به بازار منتقل می‌کند. بینش زیربنایی در تبیین این دیدگاه چنین است که توابع حسابداری، اطلاعاتی فراهم می­آورد که منعکس‌کنندۀ عملکرد شرکت است و متعاقباً در قیمت سهام شرکت منعکس می­شود ]13[.

به اعتقاد بارث و همکاران ]11[ حذف صورت سود و زیان در تحلیلگری، احتمالاً منجر به تبیین اشتباه مدل می‌شود و تفسیر نتایج به‌دست‌آمده دشوار خواهد شد. مفید‌بودن صورت سود و زیان و ترازنامه به‌میزان زیادی به توانایی آنها در پیش­بینی جریان­های نقد آتی بستگی دارد ]15[. چنین انتظار می­رود که انعطاف‌پذیری مالی و ارزش نقدشوندگی دارایی‌ها از طریق صورت ترازنامه و جریان­های نقدی مورد انتظار آتی از طریق صورت سود و زیان منعکس شود. افزون بر این، هرچه همبستگی متغیرهای حسابداری و ریسک سیستماتیک بیشتر باشد، قیمت اوراق بهادار و در نتیجه ریسک آن در بازار نسبت به اطلاعات جدید سریع‌تر واکنش نشان می­دهد ]7[. واتز و زیمرمن ]27[ معتقدند ارقام حسابداری، اطلاعاتی را دربارۀ جریان­های نقد مورد انتظار و نرخ تنزیل به بازار مخابره می­کند؛ زیرا نرخ بازده مورد انتظار به ریسک دارایی و ریسک دارایی نیز به اعداد حسابداری وابسته است. از آنجا که سود حسابداری با جریان­های نقدی جاری و آتی شرکت مرتبط است،‌ سود حسابداری حاوی اطلاعاتی در رابطه با ریسک شرکت است. بر این اساس، چنین استنباط می­شود که نسبت­های حسابداری ‌به‌عنوان شاخص ریسک استفاده می‌شوند ]2[.

محاسبۀ نسبت­های مالی که بیانگر ساختارهای زیربنایی همچون سودآوری، نقدینگی، کارایی و اهرمی است، به‌منظور درک رابطۀ صورت­های مالی و ریسک ضروری است. افزون بر این، استفاده‌کننده به هنگام تصمیم­گیری باید چگونگی وزن‌دهی به این اطلاعات را دریابد. در این راستا، پژوهش حاضر درصدد به‌کارگیری الگوریتم‌های داده‌کاوی برای انجام وزن‌دهی به متغیرهای حسابداری مختلف برای پیش‌بینی دقیق‌تر بازده و ریسک سهام شرکت است. داده­کاوی به فرآیند جست‌وجو و کشف مدل­های گوناگون، مختصرسازی و اخذ مقادیر از مجموعه­ای از داده­های معلوم گفته می‌شود. داده­کاوی سودمندترین سناریوی تحلیلی اکتشافی است که در آن تصور و برداشت از پیش تعیین‌شده­ای دربارۀ نتیجه­ای که به‌دست می­آید، وجود ندارد. در حقیقت، داده­کاوی جست‌و‌جوی لازم برای یافتن اطلاعات کلی جدید، ارزشمند و غیر‌بدیهی از میان حجم زیاد داده­هاست ]6[. در ادامه برخی از پژوهش‌های انجام‌شده در خصوص پیش­بینی بازده و ریسک سهام ارائه می­شود.

ردر و همکاران ]25[ با انجام پژوهشی به بررسی توان پیش­بینی بازده سهام در مدل غیرخطی شبکۀ عصبی بازگشت‌کننده و دو مدل خطی شامل مدل میانگین متحرک خودکاهنده و مدل هموارسازی تصاعدی پرداختند. نتایج حاصل‌شده، درستی پیش‌بینی عملکرد شبکۀ عصبی بازگشت‌کننده را تأیید کرد. همچنین عملکرد مدل ترکیبی پیشنهادی در پیش­بینی بازده سهام به‌طور قابل‌توجهی بهبود یافت.

ژانگ و همکاران ]28[ در پژوهشی با استفاده از داده­های 13‌ساله از بازار سهام شانگهای، توان الگوریتم انتخاب ویژگی علّی (CFS) و سه الگوریتم انتخاب ویژگی شناخته‌شده، یعنی‌ تجزیه و تحلیل محتوای اصلی (PCA)، درخت تصمیم (CART) و حداقل انقباض خالص و عملگر انتخاب (LASSO) را در پیش­بینی بازده سهام‌ مقایسه کردند. نتایج نشان داد CFS در شرایطی که با هر‌یک از هفت مدل خطی پایه و شناسایی 18 ویژگی سازگار مهم ترکیب شود، بهترین عملکرد پیش­بینی را از نظر صحت و دقت خواهد داشت.

چنگ‌لی و همکاران ]14[ طی انجام پژوهشی به پیش­بینی ریسک و بازده سرمایه­گذاری در سهام از طریق شبیه‌ساز عددی، یعنی زمان تأخیر و تابع چگالی احتمال بازده سهام در مدل اصلاح‌شدۀ هستون[7] با تأخیر زمانی پرداختند. آنها تأخیر زمانی و موقعیت اولیۀ ریسک و بازده سرمایه­گذاری را‌ تجزیه و تحلیل کردند و دریافتند که یک تأخیر زمانی بهینه مطابق با حداقل ریسک سرمایه­گذاری سهام، حداکثر متوسط بازده قیمت سهام و ثبات قوی از بازده سهام برای کشش قوی تقاضای سهام (EDS) وجود دارد.

جایاواردنا و همکاران] 22[ با انجام پژوهشی به پیش­بینی نوسانات سهام با استفاده از اطلاعات یک ساعت بعد، با روش مربع بازگشت شبانه پرداختند. آنها سودمندی استفاده از نوسانات قبل از باز‌شدن بازار و نوسانات شناسایی‌شده از دارایی­های مرتبط از بازارهای دیگر را زمانی‌که بورس ایتالیا بسته است،‌ تأیید کردند. آنها دریافتند‌ قدرت پیش­بینی اطلاعات شبانه در دورۀ زمانی باز‌شدن بازار بالاتر است و در نهایت‌‌ این مدل ابزار مهمی را برای‌ سرمایه­گذار فراهم می­کند.

اوزتکین و همکاران ]24[ با استفاده از سه روش تطبیق سیستم استنتاج فازی- عصبی، شبکه‌های عصبی و پشتیبانی ماشین‌بردار به پیش­بینی بازده روزانۀ سهام پرداختند. آنها دریافتند‌ روش ماشین‌بردار پیش‌بینی‌های دقیق­تری را نسبت به دو روش دیگر به دست می­دهد.

تسای و هسیائو ]26[ در پژوهشی از سه روش تجزیه و تحلیل محتوای بنیادی (PCA)، الگوریتم­های ژنتیک (GA) و درخت تصمیم (CART) با استفاده از روش فیلترکردن متغیرهای نماینده بر مبنای راهبردهای واحد، متقاطع و چند‌تقاطعی برای پیش‌بینی بازده سهام استفاده کردند. نتیجۀ حاصل از به‌کارگیری این روش‌ها با استفاده از دو شیوۀ متقاطع و چند‌تقاطعی به‌ترتیب به انتخاب 14 و 17 شاخص مهم برای پیش­بینی بازده سهام منتهی شد که می­توانند برای تصمیم‌گیری سرمایه­گذاران در آینده استفاده شوند.

رهنمای رودپشتی و همکاران ]5[ کارایی بهینه‌سازی پرتفوی سهام را براساس مدل پایدار با بهینه‌سازی کلاسیک، برای پیش­بینی ریسک و بازده پرتفوی مقایسه کردند. این پژوهش تلاشی‌ است به‌منظور بهینه‌سازی پرتفوی با استفاده از بهینه‌سازی پایدار و تخمین بازده و ریسک پرتفوی و مقایسۀ بازده و ریسک پیش­بینی‌شدۀ مدل کلاسیک با ریسک و بازده پیش­بینی‌شدۀ این مدل. در این پژوهش مشخص شد‌ بازده پیش­بینی‌شده پرتفوی در مدل پایدار با بازده پیش­بینی‌شده در مدل کلاسیک تفاوت معناداری دارد و ریسک پیش­بینی‌شده در مدل پایدار تفاوت معنا‌داری با ریسک پیش‌بینی‌شده در مدل کلاسیک ندارد.

نیکو اقبال و همکاران ]8[ به ارزیابی دقت عملکرد مدل­های شبکۀ عصبی ایستا و پویا در پیش­بینی بازدهی شاخص قیمت و بازده نقدی بورس تهران پرداختند تا بتوانند بهترین مدل را برای پیش‌بینی بازدهی شاخص قیمت انتخاب کنند. در این پژوهش از مدل‏های شبکۀ عصبی اتورگرسیون پویا، ایستای فازی و ایستای چندلایه پیش‏خور استفاده شده است که طبق نتایج به‌دست‌آمده مدل شبکه عصبی فازی عملکرد بهتری در پیش‏بینی متغیرهای مورد بررسی داشته است.

ایزدی‌نیا و کربلایی‌کریم ]3[ به بررسی نقش برخی متغیرهای حسابداری از جمله جریان نقدی آزاد، بازده نقدی سرمایه­گذاری ارزش افزوده اقتصادی و سود هر سهم در پیش­بینی بازده سهام پرداختند. آنان دریافتند از بین متغیرهای یادشده تنها سود هر سهم ارتباط معناداری با بازده سهام دارد.

احمدپور و غلامی‌جمکرانی ]1[ به بررسی برخی از نسبت­های مالی از جمله نسبت دارایی جاری بـه بـدهی جـاری، سـود خالص به حقوق صاحبان سهام، فروش به حقوق صاحبان سهام، بدهی به حقوق صاحبان سهام و جمـع دارایی‌ها با ریسک سیستماتیک پرداختند. در این پژوهش شواهدی دالّ بر رابطۀ معنادار بین اطلاعات حسابداری با ریسک سیستماتیک یافت نشد.

نمازی و خواجوی ]7[ به بررسی نقش متغیرهای حسابداری در پیش‌بینی ریسک سیستماتیک شرکت‌های پذیرفته‌شده در بورس اوراق بهادار تهران پرداختند. آنان از 17 متغیر حسابداری در پنج‌دسته نسبت­های نقدینگی، اهرمی، سودآوری، اهرم عملیاتی، اهرم مالی به‌عنوان متغیر مستقل استفاده کردند. در این پژوهش از رگرسیون چند‌متغیره و از روش گزینش دنباله‌ای متغیرها با عنوان حذف پس‌رو به‌منظور انتخاب مدل بهینه استفاده شده است. نتایج به‌دست‌آمده از این پژوهش نشان داد از بین متغیرهای مستقل 12 متغیر با ریسک سیستماتیک رابطه­ای معنادار دارند.

خواجوی و همکاران ]4[ به آزمون مدل بازده و مدل قیمت با استفاده از الگوی پانل با داده­های متوازن پرداختند و به این نتیجه رسیدند که چون محتوای اطلاعاتی سود هر سهم نسبت به ارزش دفتری آن بیشتر است و با توجه به نتایج مدل که نشان می­دهد محتوای اطلاعاتی نسبت تغییرات سود هر سهم به قیمت، بیشتر و در مقابل آن محتوای اطلاعاتی نسبت سود هر سهم به قیمت کمتر است، پس اطلاعات حسابداری در تعیین قیمت سهام و نرخ بازده و همچنین در تصمیم‌گیری­های سرمایه­گذاران بسیار با اهمیت است.

      

پرسش‌های پژوهش

از آنجا که هدف پژوهش حاضر مقایسۀ توان چهار تکنیک داده­کاوی در پیش­بینی بازده و ریسک سیستماتیک است، پرسش‌های پژوهش را‌ به این صورت‌ ارائه می‌شود:

- کدام‌یک از چهار الگوریتم تحلیل جداساز خطی (LDA)، الگوریتم تحلیل جداساز غیر­خطی (QDA)، الگوریتم نزدیکترین K همسایگی (KNN) و الگوریتم درخت تصمیم طبقه‌بندی‌کننده قادر است بازده سهام شرکت‌های پذیرفته‌شده در بورس اوراق بهادار تهران را با دقت بیشتری پیش­بینی کند؟

- کدام‌یک از چهار الگوریتم تحلیل جداساز خطی (LDA)، الگوریتم تحلیل جداساز غیر­خطی (QDA)، الگوریتم نزدیک‌ترین K همسایگی (KNN) و الگوریتم درخت تصمیم طبقه‌بندی‌کننده قادر است ریسک سیستماتیک شرکت‌های پذیرفته‌شده در بورس اوراق بهادار تهران را با دقت بیشتری پیش­بینی کند؟

 

روش‌ پژوهش

پژوهش حاضر از این‌رو که در پی یافتن بهترین تکنیک برای پیش­بینی ریسک و بازده است، در زمره پژوهش­های همبستگی و پیش­بینی قرار دارد که تحلیل­های آن مبتنی بر روش­های اکتشافی است. از سویی دیگر، این پژوهش از نوع کاربردی است. در این پژوهش به‌منظور پیش­بینی ریسک سیستماتیک و بازده سهام شرکت به کمک اطلاعات حسابداری و نسبت­های مالی از روش داده­کاوی استفاده شده است. استفاده از این تکنیک مستلزم اجرای سه مرحله است. در اولین مرحله، فهرست کاملی از نسبت­های مالی و متغیرهای حسابداری تهیه می‌شود که قرار است به‌کمک آنها به پیش­بینی ریسک و بازده پرداخته شود‌. این متغیرها شامل نسبت­های نقدینگی، نسبت­های فعالیت، نسبت­های اهرمی، نسبت­های سودآوری و نسبت­های بازار هستند. همچنین دو متغیر پاسخ (وابسته) شامل ریسک سیستماتیک و بازده سهام هر شرکت محاسبه می­شود. بازده سهام شامل دو بخش سود نقدی و تغییرات قیمت بازار سهام است و ریسک سیستماتیک نیز از تقسیم کورایانس بازده سهام و بازده بازار بر واریانس بازده بازار محاسبه می‌شود. سپس داده­های مربوط به ریسک و بازده پس از حذف داده­های پرت به‌طور مجزا در 5 طبقه در قالب طبقات خیلی کم، کم، متوسط، زیاد و خیلی زیاد دسته‌بندی شده است. طبقه‌بندی بازده به این شرح ‌است: خیلی کم (276/0- تا 931/0-)، کم (046/0- تا 274/0-)، متوسط (158/0 تا 044/0-)، زیاد (605/0 تا 158/0) و خیلی زیاد (103/8 تا 606/0). همچنین طبقه‌بندی ریسک سیتماتیک نیز به‌ این صورت‌ است: خیلی کم (190/0- تا 59/4-)، کم (120/0- تا 180/0-)، متوسط (61/0 تا 122/0)، زیاد (276/1 تا 617/0) و خیلی زیاد (22/19 تا 28/1). پس از انجام طبقه‌بندی به‌کمک چهار الگوریتم مذکور به پیش­بینی ریسک و بازده پرداخته می­شود. در پژوهش حاضر این فرآیند دو بار تکرار می­شود. یک‌بار به‌کمک 16 نسبت مالی (به شرح نگارۀ 1‌) به پیش­بینی ریسک سیستماتیک و بازده با استفاده از چهار الگوریتم پرداخته می­شود. بار دیگر، ابتدا با استفاده از تکنیک­های خوشه‌بندی و فیلترینگ تأثیرگذارترین نسبت­های مالی بر ریسک سیستماتیک و بازده تعیین و دوباره با استفاده از متغیرهای گزینش‌شده ریسک و بازده به‌کمک این الگوریتم­ها پیش­بینی می­شود. در پایان نیز به مقایسه بین الگوریتم­های مختلف پرداخته و بهترین الگوریتم بر اساس دقت پیش­بینی ریسک و بازده انتخاب خواهد شد ]10[.

از جمع 1193 ردیف داده جمع‌آوری‌شده، ابتدا 75 درصد از داده­ها (تقریباً تعداد 900 ردیف داده) با به‌کارگیری الگوریتم­های مربوطه آموزش داده می‌شوند و سپس با استفاده از 25 درصد از داده­های باقیمانده (که تقریباً تعداد 293 ردیف داده است) و با عنوان داده­های آزمون شناخته می­شوند، میزان دقت پیش­بینی الگوریتم­ها آزمون می‌شود. به‌عبارت‌دیگر، 75/0 از داده­ها موسوم به داده­های آموزش برای تبیین ارتباط متغیرهای مستقل و وابسته و 25/0 مابقی موسوم به داده­های آزمون برای آزمایش رابطه ایجاد‌شده به‌کار می­رود. برای اجرای یک پیش‌بینی معتبر و مقاوم (معتبرسازی) از مدل k-fold cross-validation استفاده شده است ]21[؛ بنابراین در مرحلۀ اول هر الگوریتم با استفاده از 900 داده، نوع رابطه بین 16 متغیر مستقل و بازده (ریسک) را به نرم‌افزار آموزش می­دهد، سپس الگویی را که آموخته است، برای پیش­بینی بازده (ریسک) 293 ردیف داده باقیمانده به‌کار می­گیرد. بازده (ریسک) پیش­بینی‌شده در قالب یکی از طبقات خیلی کم، کم، متوسط، زیاد و خیلی زیاد به‌کمک نرم‌افزار ارائه می­شود. سپس طبقۀ پیش­بینی‌شده با طبقه‌ای مقایسه می‌شود که بازده (ریسک) واقعی در آن قرار دارد‌. در صورتی‌که طبقۀ پیش­بینی‌شده با طبقۀ واقعی بازده (ریسک) مشابه باشد،‌ این الگوریتم پیش­بینی را به‌درستی انجام داده است. این فرآیند برای هر چهار الگوریتم خبره در پیش­بینی طبقات ‌استفاده شده است.

در الگوریتم تحلیل جداساز خطی براساس معادلۀ تحلیل ممیز خطی، برای هر ردیف شرکت در هر طبقه از یک تا پنج، یک بردار ورودی   محاسبه می­شود که در نهایت شمارۀ طبقۀ بیشترین مقدار بردار ورودی از بین پنج بردار محاسبه‌شده، طبقۀ آن شرکت در نظر گرفته می‌شود. الگوریتم تحلیل جداساز غیرخطی کاملاً مطابق با روش قبل است با این تفاوت که در این روش، ماتریس واریانس کواریانس برای هر طبقه به‌صورت جداگانه محاسبه می­شود؛ یعنی به‌جای یک ماتریس واریانس کواریانس کلی، پنج ماتریس واریانس کواریانس وجود دارد.

 

 

 

شکل 1- تحلیل جداساز خطی و ماتریس واریانس کواریانس

 

 

     تحلیل جداساز خطی (برای یک مسأله سه‌کلاسه)            تحلیل جداساز غیرخطی (برای یک مسأله دو‌کلاسه)

شکل 2- نمودار تحلیل جداساز خطی و غیرخطی

 

 

 

در الگوریتم نزدیکترین K همسایگی، تعداد K نقطه شناسایی می­شود که از لحاظ معیار شباهت در متغیرهای مستقل، به نقطۀ مورد ارزیابی، نزدیک‌ترین نقاط هستند. پس از آن احتمال اینکه نقطۀ مورد نظر در هر طبقه پیش­بینی شود، بر اساس نسبت تعداد نزدیک‌ترین نقاط در هر طبقه به تعداد کل نقاط همسایگی محاسبه می­شود و در نتیجه، نقطۀ مورد نظر در طبقه­ای دسته‌بندی می­شود که دارای بیشترین مقدار عددی احتمال باشد‌.

 

شکل 3- فاصلۀ نزدیک‌ترین همسایگی

 

 

 

درخت تصمیم، شامل گره­هایی است که بر روی آنها آزمایشاتی صورت گرفته است. شاخه­های بیرونی یک گره از نتایج آزمون­های انجام‌گرفته در هر گره منتج شده است. یک درخت تصمیم برای طبقه­بندی نمونه‌ها با دو مشخصۀ ورودی X و Y در شکل 4 نمایش داده شده است. نمونه­های با مقادیر ویژگی 1< X و Y = B در طبقۀ دوم جای می­گیرند. در حالی‌که نمونه­هایی با مقادیر 1X <  در طبقۀ اول دسته­بندی می­شوند (با هر مقدار Y) [6]. لازم به ذکر است که در این پژوهش از شاخص جینی و معیار واریانس برای انشعاب در درخت تصمیم استفاده شده است و عمق درخت تصمیم ده انشعاب بوده است.

 

 

 

شکل 4- درخت تصمیم همراه با آزمون بر روی صفات X و Y

 

نگارۀ 1- متغیرهای مستقل و وابسته

متغیرهای پاسخ (وابسته)

 = بازده سهام

  = ریسک سیستماتیک

متغیرهای مستقل

نسبت‌های سودآوری:

نسبت‌های نقدینگی:

 = بازده فروش

 = نسبت جاری

= بازده دارایی‌ها

= نسبت آنی

 = بازده حقوق صاحبان سهام

بدهی‌های جاری – دارایی‌های جاری = خالص سرمایه در گردش

نسبت‌‌های اهرمی:

نسبت‌های فعالیت:

= نسبت بدهی به دارایی

 = نسبت گردش موجودی کالا

 = نسبت بدهی به حقوق صاحبان سهام

 = نسبت گردش دارایی‌ها

نسبت‌های بازار:

 = نسبت سود هر سهم

 = نسبت قیمت به درآمد هر سهم

(سود هر سهم)  = تغییرات سود هر سهم

 = نسبت قیمت به فروش

 = نسبت Q توبین

   = نسبت پرداخت سود سهام

 

جامعه و نمونۀ آماری

جامعۀ آماری این پژوهش شامل کلیۀ شرکت‌‌های پذیرفته‌شده در بورس اوراق بهادار تهران است. در این مطالعه برای اینکه نمونۀ پژوهش نمایندۀ مناسبی از جامعۀ آماری مورد نظر باشد، برای انتخاب نمونه از روش حذف سیستماتیک استفاده شده است. برای این‌منظور، این معیارها‌ ‌در نظر گرفته شد‌ه است و در صورتی‌که‌ شرکتی همۀ معیارها را احراز کرده باشد،‌ یکی از شرکت‌­های نمونۀ انتخاب شده است:

1) قبل از سال 1381 در بورس پذیرفته شده باشد، 2) سال مالی آنها منتهی به پایان اسفندماه باشد، 3) در قلمرو زمانی پژوهش تغییر سال مالی نداشته باشد، 4) جزء شرکت­های سرمایه‌گذاری و واسطه‌گری مالی نباشد، 5) اطلاعات مورد نیاز شرکت در دورۀ مورد بررسی در دسترس باشد.

نمونۀ آماری پژوهش حاضر شامل 107 شرکت است. از این تعداد، داده­های 1193 سال- شرکت به‌طور کامل در اختیار بود که به‌عنوان نمونه‌ استفاده شده است.

پیش‌بینی متغیرهای پاسخ با استفاده از همۀ

متغیرهای مستقل

در این بخش نتایج مربوط به پیش­بینی بازده و ریسک با استفاده از 16 متغیر مستقل مورد اشاره، به کمک چهار الگوریتم به تفکیک ارائه می­شود.

یافته­های الگوریتم تحلیل جداساز خطی

نتایج حاصل از به‌کارگیری الگوریتم تحلیل جداساز خطی در پیش­بینی متغیر بازده و ریسک به‌شرح نگاره‌های (2) و (3) است. عناوین در هر ستون معرف طبقۀ پیش­بینی و عناوین در هر ردیف معرف طبقۀ واقعی است. مقادیر واقع‌شده بر روی قطر نگاره نشان‌دهنده تعداد پیش­بینی­هایی است که با بازده (ریسک) واقعی مطابقت دارد. این نتایج بدین معناست که برای تعداد 31 سال- شرکت بازده واقعی در طبقه خیلی کم بوده است که این الگوریتم آن را به‌درستی در همین طبقه پیش­بینی کرده است، اما 31 بازده مابقی (17+5+5+4) را اشتباهی در طبقات دیگر پیش­بینی کرده است. همچنین، به‌ترتیب بازده تعداد 15، 18، 20 و 17 سال- شرکت به‌درستی در طبقات کم، متوسط، زیاد و خیلی زیاد پیش­بینی شده است. به‌طور‌کلی، از 293 سال- شرکت، بازده 101 سال- شرکت (31+15+18+20+17) به‌طور صحیح پیش­بینی شده است.

 

نگارۀ 2- نتایج طبقه‌بندی پیش­بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

4

5

5

17

31

خیلی کم

7

12

10

15

9

کم

15

13

18

16

18

متوسط

13

20

12

12

5

زیاد

17

6

5

2

6

خیلی زیاد


 

نگارۀ 3- نتایج طبقه‌بندی پیش­بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

12

8

17

18

16

خیلی کم

8

6

15

15

21

کم

11

7

10

10

6

متوسط

16

13

3

3

10

زیاد

23

7

14

14

8

خیلی زیاد


در پیش­بینی ریسک نیز همانند نگارۀ قبل، ارقامی که روی قطر نگاره قرار گرفته­اند، نشان‌دهندۀ تعداد سال- شرکت­هایی هستند که ریسک سیستماتیک پیش­بینی‌شدۀ آنها در طبقۀ واقعی ریسک قرار گرفته است. برای مثال، برای 16 سال- شرکت ریسک واقعی در طبقه خیلی کم بوده است و این الگوریتم ریسک را در همین طبقه پیش­بینی کرده است؛ بنابراین پیش­بینی ریسک برای 55 سال- شرکت (18+17+8+12) اشتباه انجام شده است و مطابق با طبقه واقعی ریسک نیست. به‌گونه‌ای مشابه ریسک سیستماتیک تعداد 15، 10، 13 و 23 سال- شرکت به‌درستی در طبقات کم، متوسط، زیاد و خیلی زیاد پیش­بینی شده است.

به‌طور‌کلی و براساس نتایج نگاره‌های (2) و (3)، درستی پیش‌بینی بازده به‌وسیلۀ الگوریتم تحلیل جداساز خطی 47/34% (293÷101) و برای ریسک 28/26% (293÷77) است.

 

یافته­های الگوریتم تحلیل جداساز غیرخطی

نتایج حاصل از به‌کارگیری الگوریتم تحلیل جداساز غیرخطی در پیش­بینی متغیر بازده و ریسک با داده­های آزمون (293 سال- شرکت)، به‌ترتیب در نگاره‌های (4) و (5) نمایش داده شده است. همانند الگوریتم تحلیل جداساز خطی، پیش­بینی­های انجام‌شده با این الگوریتم، با نتایج واقعی بازده برای 293 سال- شرکت مقایسه شد. همان‌طور‌که در نگارۀ ذیل مشاهده می­شود، تعداد 96 سال- شرکت (43+6+32+2+13) به‌طور صحیح و مطابق با نتایج واقعی پیش­بینی شده است.

در پیش­بینی ریسک سیستماتیک نیز همانند بازده، اعداد روی قطر نگاره که 81 سال- شرکت (4+23+36+8+10) است، تعداد پیش­بینی‌شده­های صحیح از میان 293 سال- شرکت آزمون‌شده‌ هستند؛ یعنی تعداد 81 سال- شرکت دقیقاً در همان طبقه‌ای پیش­بینی شده­اند که ریسک واقعی آنها قرار گرفته است. به‌طور‌کلی، با توجه به نتایج نگاره‌های (4) و (5)، مقدار صحت پیش‌بینی با الگوریتم تحلیل جداساز غیر­خطی برای بازده 76/32% (293÷ 96) و برای ریسک 64/27% (293÷ 81) است.


نگارۀ 4- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

21

8

17

20

43

خیلی کم

5

3

1

6

2

کم

17

23

32

29

22

متوسط

1

2

3

4

3

زیاد

13

7

7

2

2

خیلی زیاد

 

نگارۀ 5- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

4

3

1

1

4

خیلی کم

9

16

18

23

16

کم

43

32

36

21

18

متوسط

3

8

8

1

7

زیاد

10

4

1

3

3

خیلی زیاد


یافته­‌های الگوریتم نزدیک‌ترین K همسایگی

الگوریتم سومی که برای پیش­بینی ریسک و بازده به‌کار برده شده است، الگوریتم نزدیک‌ترین K همسایگی است. نتایج حاصل از به‌کارگیری این الگوریتم در پیش­بینی متغیر بازده و ریسک با داده­های آزمون، در نگاره­های (6) و (7) منعکس شده است. تعداد اعداد روی قطر نگاره‌ها که همان پیش­بینی­های انجام‌گرفته منطبق با نتایج واقعی است، برای نگاره بازده برابر با 67 سال- شرکت (12+18+10+13+14) و برای نگارۀ ریسک تعداد 74 سال- شرکت (16+16+14+13+15) است.

 

نگارۀ 6- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

10

10

11

10

12

خیلی کم

10

19

7

18

11

کم

14

5

10

13

7

متوسط

13

13

13

14

14

زیاد

14

17

11

9

8

خیلی زیاد

 

نگارۀ 7- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

13

9

11

14

16

خیلی کم

12

14

13

16

20

کم

9

7

14

12

7

متوسط

11

13

11

8

4

زیاد

15

13

7

8

16

خیلی زیاد


بنابر نتایج به‌دست‌آمده در نگاره‌های (6) و (7)، مقدار صحت پیش­بینی با به‌کارگیری الگوریتم نزدیکترین K همسایگی (1k=) برای بازده 86/22% (293÷ 67) و برای ریسک 26/25% (293÷ 74) است.

یافته­های الگوریتم درخت تصمیم طبقهبندی‌کننده

آخرین الگوریتم به‌کار‌‌رفته و به‌عبارتی چهارمین الگوریتم خبره استفاده‌شده برای داده­های آزمون، الگوریتم درخت تصمیم طبقه‌بندی‌کننده است. همانند روش­های گفته‌شده در بالا، نتایج این الگوریتم نیز در نگاره­های (8) و (9) به‌ترتیب برای بازده و ریسک که شامل طبقات پیش­بینی در هر ستون و طبقات واقعی در هر ردیف هستند، نمایش داده شده است. همان‌طور که مشاهده می‌شود، اعداد روی قطر نگاره برای بازده که عبارت است از مجموع 97 سال- شرکت (25+14+11+26+21)، معرف تعداد پیش‌بینی­های صحیح انجام‌شده به‌وسیلۀ این الگوریتم است. برای نگارۀ ریسک نیز مانند بازده اعداد روی قطر نگاره معرف تعداد پیش­بینی‌های صحیح انجام‌شده به‌وسیلۀ این الگوریتم است که عبارت‌اند از: 56 سال- شرکت (7+17+3+15+14).

به‌طور‌کلی، با توجه به نتایج به‌دست‌آمده از نگاره‌های (8) و (9)، مقدار درصد صحت پیش­بینی با به‌کارگیری الگوریتم درخت تصمیم طبقه‌بندی‌کننده برای بازده 10/33% (293÷ 97) و برای ریسک 11/19% (293÷ 56) است.


نگارۀ 8- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

2

5

8

11

25

خیلی کم

5

13

15

14

17

کم

8

4

11

9

4

متوسط

24

26

17

14

8

زیاد

21

9

10

7

6

خیلی زیاد

 

نگارۀ 9- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

8

11

16

9

7

خیلی کم

4

15

13

17

15

کم

6

11

3

5

11

متوسط

22

15

22

14

16

زیاد

14

10

7

8

14

خیلی زیاد


پیش­بینی متغیرهای پاسخ با‌ وجود متغیرهای مستقل منتخب فیلترینگ

در این بخش اهمیت وزنی 16 متغیر مستقل در پیش­بینی بازده (ریسک) با استفاده از الگوریتم فیلترینگ و تحلیل خوشه­‌ای تعیین و از بین آنها 4 متغیر، مؤثرترین متغیرها انتخاب شدند. سپس با استفاده از چهار الگوریتم پیش‌گفته دوباره به پیش­بینی ریسک و بازده پرداخته می­شود. بدین‌ترتیب، تأثیر رویکرد فیلترینگ بر افزایش یا کاهش صحت پیش‌بینی الگوریتم‌ها بررسی می­شود. الگوریتم فیلترینگ با به‌کارگیری شاخص­های مربع کای ]23[، ضریب پیرسون، ضریب اسپیرمن، آنتروپی Infogain، آنتروپی Gainratio ]16[، شاخص عدم‌قطعیت متقارن ]17[، الگوریتم OneR ]19[ و الگوریتم Relief-f ]23[ به این گزینش می­پردازد. با توجه به نتایج تحلیل خوشه‌ای بر روی داده­های مربوط به متغیر بازدهی، 4 متغیر سود هر سهم، تغییرات سود هر سهم، بازده حقوق صاحبان سهام و گردش دارایی، مؤثرترین متغیرها در پیش­بینی بازده و 4 متغیر سود هر سهم، تغییرات سود هر سهم، بازده حقوق صاحبان سهام و خالص سرمایه در گردش، مؤثرترین متغیرها در پیش­بینی ریسک انتخاب شد.

 

 

یافته‌های الگوریتم تحلیل جداساز خطی

همانند حالت قبل، نتایج پیش­بینی­های ریسک سیستماتیک و بازده در دو نگاره به‌طور مجزا نمایش داده شده است. نتایج حاصل از به‌کارگیری این الگوریتم در پیش­بینی متغیر بازده و ریسک به شرح نگاره‌های (10) و (11) است. همان‌طور‌که ملاحظه می­شود، اعداد روی قطر نگاره نمایانگر پیش­بینی­های بازده صحیح مطابق با بازده واقعی هستند که درجمع 102 سال‌- شرکت (31+4+26+14+27) از 293 سال- شرکت در طبقات کم، متوسط، زیاد و خیلی زیاد پیش­بینی شده است و مابقی 293 سال- شرکت یعنی تعداد 191 سال- شرکت (102-293) به صورت اشتباه در طبقات دیگر پیش­بینی شده­اند. برای ریسک سیستماتیک نیز تعداد 89 سال- شرکت (23+23+3+13+27) که روی قطر نگاره با رنگ متفاوت نمایش داده شده است، پیش­بینی‌های صحیح را نشان می­دهد.


نگارۀ 10- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

2

10

10

21

31

خیلی کم

1

2

0

4

2

کم

30

21

26

24

15

متوسط

6

14

9

6

2

زیاد

27

11

7

5

7

خیلی زیاد

 

نگارۀ 11- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

20

10

17

18

23

خیلی کم

8

14

22

23

17

کم

1

2

3

2

4

متوسط

9

13

3

3

4

زیاد

27

15

12

9

14

خیلی زیاد


به‌طور‌کلی و با توجه به این نگاره‌ها می­توان نتیجه گرفت‌ مقدار صحت پیش­بینی الگوریتم تحلیل جداساز خطی برای بازده 81/34% (293÷ 102) و برای ریسک 37/30% (293÷ 89) است.

 

یافته­های الگوریتم تحلیل جداساز غیرخطی

نتایج حاصل از به‌کارگیری الگوریتم تحلیل جداساز غیرخطی در پیش­بینی متغیر بازده و ریسک به شرح نگاره‌های (12) و (13) است. این نتایج بدین معناست که از 293 سال- شرکت، بازده 103 سال- شرکت (50+9+15+14+15) به‌طور صحیح پیش­بینی شده، اما 190 بازده مابقی را اشتباهی در طبقات دیگری پیش­بینی کرده است. در خصوص ریسک نیز برای 80 سال- شرکت (0+4+54+16+6) پیش­بینی به‌درستی در طبقات خیلی کم، متوسط، زیاد و خیلی زیاد انجام شده است، اما برای 213 سال- شرکت این پیش­بینی نادرست است. به‌طور‌کلی و براساس نتایج نگاره‌های (12) و (13)‌ صحت پیش­بینی بازده به‌وسیلۀ الگوریتم تحلیل جداساز غیرخطی برای بازده 15/35% (293÷ 103) و برای ریسک 30/27% (293÷ 80) است.


نگارۀ 12- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

22

34

32

34

50

خیلی کم

4

0

1

9

3

کم

5

11

15

7

5

متوسط

1

14

3

5

1

زیاد

15

8

5

5

4

خیلی زیاد

 

نگارۀ 13- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

2

0

0

3

0

خیلی کم

2

2

6

4

2

کم

39

32

54

40

55

متوسط

11

16

8

3

4

زیاد

6

2

1

1

0

خیلی زیاد

 


یافته­های الگوریتم نزدیک‌ترین K همسایگی

نتایج حاصل از به‌کارگیری این الگوریتم در پیش­بینی متغیر بازده و ریسک با داده­های آزمون، در نگاره‌های (14) و (15) نشان داده شده است. تعداد پیش­بینی صحیح بازده برابر با 80 سال-  شرکت (19+15+15+16+15) است. در پیش­بینی ریسک سیستماتیک نیز اعداد روی قطر نگاره که 74 سال- شرکت (14+15+15+20+10) است، تعداد پیش‌بینی‌شده­های صحیح از میان 293 سال- شرکت‌ آزمون‌شده‌ هستند. بدین‌ترتیب می­توان نتیجه گرفت‌ مقدار صحت پیش­بینی با به‌کارگیری الگوریتم نزدیک‌ترین K همسایگی (1k=) برای بازده 30/27% (293÷80) و برای ریسک 26/25% (293÷74) است.


 

نگارۀ 14- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

6

4

8

12

19

خیلی کم

8

5

13

15

16

کم

11

10

15

12

13

متوسط

17

16

15

15

11

زیاد

15

11

14

9

3

خیلی زیاد

 

نگارۀ 15- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

15

9

8

10

14

خیلی کم

4

15

19

15

18

کم

12

13

15

10

17

متوسط

9

20

6

10

6

زیاد

10

16

10

5

7

خیلی زیاد

 


یافته­های الگوریتم درخت تصمیم طبقه‌بندی‌کننده

در آخرین الگوریتم به‌کاررفته، نتایج الگوریتم درخت تصمیم نیز در نگاره‌های (16) و (17) به‌ترتیب برای بازده و ریسک که شامل طبقات پیش‌بینی در هر ستون و طبقات واقعی در هر ردیف هستند، نمایش داده شده است. همان‌طور که مشاهده می­شود، اعداد روی قطر نگاره برای بازده که برای تفهیم مطلب با رنگ متفاوت نشان داده شده است، عبارت است از مجموع 95 سال- شرکت (21+17+17+27+13)، معرف تعداد پیش­بینی­های صحیح انجام‌شده به‌وسیلۀ این الگوریتم است. برای نگارۀ ریسک نیز مانند بازده اعداد روی قطر نگاره معرف تعداد پیش­بینی­های صحیح انجام‌شده با این الگوریتم است که عبارت‌اند از: 59 سال- شرکت (6+14+13+16+10) و تعداد پیش­بینی­های اشتباه انجام‌شده با الگوریتم درخت تصمیم در این مرحله برابر است با 234 سال- شرکت (59-293).

به‌عبارت دیگر، با توجه به نتایج نگاره‌های (16) و (17)، مقدار صحت پیش­بینی با به‌کارگیری الگوریتم درخت تصمیم برای بازده 42/32% (293÷95) و برای ریسک 14/20% (293÷59) است که با این حال نسبت به مرحلۀ قبلی بهبود یافته است.


نگارۀ 16- نتایج طبقه‌بندی پیش‌بینی بازده

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

1

2

5

7

21

خیلی کم

7

11

15

17

20

کم

13

14

17

15

10

متوسط

26

27

21

14

7

زیاد

13

3

3

2

2

خیلی زیاد

 

نگارۀ 17- نتایج طبقه‌بندی پیش‌بینی ریسک

خیلی زیاد

زیاد

متوسط

کم

خیلی کم

طبقه

6

6

12

6

6

خیلی کم

7

21

12

14

16

کم

7

14

13

14

21

متوسط

24

16

22

18

15

زیاد

10

5

2

1

5

خیلی زیاد


مقایسۀ نهایی الگوریتم­ها و پاسخ به پرسش‌های پژوهش

در نگارۀ (18) نتایج پیش­بینی ریسک و بازده با حضور همۀ متغیرهای مستقل و با استفاده از متغیرهای منتخب ارائه شده است. مقادیر انحراف صحت پیش­بینی بازده و ریسک نشان می­دهد‌ رویکرد فیلترینگ و گزینش متغیرهای مهم در افزایش صحت پیش­بینی تأثیرگذار است. به‌طوری‌که انحراف­های مثبت، میزان بهبود در صحت پیش­بینی را نشان می‌دهند و انحراف­های منفی، میزان کاهش صحت پیش­بینی را نمایش می­دهند.

همان‌طور که در نگارۀ زیر نشان داده شده است، با اجرای روش­های فیلترینگ و انتخاب متغیرهای مهم در پیش­بینی بازده، صحت پیش­بینی دو الگوریتم تحلیل جداساز غیرخطی و نزدیک‌ترین K همسایگی به‌ترتیب به‌میزان 39/2% و 44/4% افزایش یافته است، درحالی‌که تأثیر بسزایی در صحت پیش­بینی الگوریتم تحلیل جداساز خطی دیده نمی­شود (34/0%) و صحت پیش­بینی درخت تصمیم هم تاحدودی کاهش یافته است (68/0%-). همچنین با گزینش متغیرهای مهم در پیش­بینی ریسک، بهبودی در صحت پیش­بینی دو الگوریتم تحلیل جداساز خطی (09/4%) و درخت تصمیم (03/1%) ملاحظه می­شود؛ ولی تأثیری در نزدیک‌ترین K همسایگی ندارد (0%) و صحت پیش‌بینی تحلیل جداساز غیرخطی تاحدودی کاهش یافته است (34/0%-).

به‌طور‌کلی نتایج حاصل‌شده نشان می­دهد‌ اجرای تحلیل خوشه­ای و روش­های فیلترینگ برای گزینش متغیرهای پیش­بینی‌کننده بااهمیت نقش مؤثری در بهبود صحت پیش­بینی الگوریتم­های مورد استفاده در این پژوهش دارد و می­تواند به‌عنوان یک روش مناسب به‌منظور افزایش صحت پیش­بینی طبقات‌ استفاده شود.

 

 

نگارۀ 18- نتایج تأثیر گزینش متغیرهای مستقل با اهمیت در تغییرات صحت پیش‌بینی بازده و ریسک با به‌کارگیری چهار الگوریتم

ردیف

الگوریتم

با استفاده از 16 متغیر

با استفاده از متغیرهای منتخب

انحراف صحت بازده

با استفاده از 16 متغیر

با استفاده از متغیرهای منتخب

انحراف صحت ریسک

1

LDA

47/34%

81/34%

34/0%

28/26%

37/30%

09/4%

2

QDA

76/32%

15/35%

39/2%

64/27%

30/27%

-34/0%

3

KNN

86/22%

30/27%

44/4%

26/25%

26/25%

00/0%

4

CDT

10/33%

42/32%

-68/0%

11/19%

14/20%

03/1%


 


نتیجه‌گیری

هدف پژوهش حاضر، پیش­بینی ریسک سیستماتیک و بازده سهام شرکت­ها با استفاده از نسبت­های مالی و به‌کمک 4 الگوریتم کاربردی تحلیل جداساز خطی (LDA)، تحلیل جداساز غیر­خطی (QDA)، نزدیک‌ترین همسایگی (KNN) و درخت تصمیم و در نهایت مقایسۀ صحت پیش­بینی این الگوریتم­ها‌ست. بدین‌منظور، ابتدا با استفاده از 16 متغیر مستقل ریسک سیستماتیک و بازده پیش­بینی شد و سپس با استفاده از رویکرد فیلترینگ و خوشه­بندی 4 متغیر مستقل مؤثرتر انتخاب و دوباره به پیش­بینی پرداخته شد. بر مبنای نتایج به‌دست‌آمده‌ در حالت استفاده از همۀ متغیرهای مستقل، الگوریتم تحلیل جداساز خطی و درخت تصمیم با بیشترین صحت پیش­بینی برای پیش­بینی بازده و الگوریتم تحلیل جداساز خطی و الگوریتم تحلیل جداساز غیر­خطی برای پیش­بینی ریسک عملکرد مناسب­تری داشته­اند. همین­طور با به‌کارگیری روش فیلترینگ و تحلیل خوشه­ای و استفاده از 4 متغیر برتر انتخاب‌شده برای هرکدام از ریسک و بازده، دو الگوریتم تحلیل جداساز خطی و تحلیل جداساز غیرخطی برای پیش­بینی بازده و دو الگوریتم جداساز خطی و الگوریتم جداساز غیرخطی برای پیش­بینی ریسک نتایج بهتری را کسب کرده­اند. به‌طور خلاصه‌، رویکرد فیلترینگ در انتخاب متغیرهای مستقل به‌طور نسبی‌ در بهبود پیش­بینی ریسک سیستماتیک و به‌ویژه بازده مؤثر واقع می‌شود. در مجموع چه در حالت به‌کارگیری کل متغیرهای مستقل و چه در حالت استفاده از متغیرهای منتخب، الگوریتم تحلیل جداساز خطی و الگوریتم تحلیل جداساز غیرخطی پیش­بینی­های نسبتاً مناسبی از ریسک و بازده ارائه می­دهد. با توجه به موارد یادشده، کاربرد روش فیلترینگ‌، عملیات پیش­بینی ریسک و بازده سهام به‌وسیلۀ سرمایه­گذاران و بیشتر فعالان بازار سرمایه را بهبود می‌بخشد و می‌توانند به‌جای استفاده از همۀ متغیرهای مستقل و طولانی‌شدن زمان تحلیل‌ها، با مهم­ترین متغیرهای مستقل نتایج قابل اتکایی را در کوتاه­ترین زمان ممکن به‌دست آورند. اگرچه پژوهشی با شیوۀ مشابه برای پیش­بینی ریسک و بازده سهام انجام نشده است، اما روند پیش­بینی ریسک و بازده سهام شرکت­ها برای انتخاب پرتفوی بهینه با استفاده از دیگر مدل­ها در گذشته انجام شده است که از این منظر با پژوهش حاضر مشابهت دارد و از آن جمله می­توان به پژوهش‌های ردر و همکاران ]25[، ژانگ و همکاران ]28[، چنگ‌لی و همکاران ]14[، تسای و هسیائو (2010) [26]، رهنمای رودپشتی و همکاران ]5[، نیکو‌اقبال و همکاران ]8[، احمدپور و غلامی‌جمکرانی ]1[ و نمازی و خواجوی ]7[ اشاره کرد.

 



[1] Linear Discriminant Analysis

[2] Quadratic Discriminant Analysis

[3] K-Nearest Neighbors

[4] Classification Decision Tree

[5] Filter

[6] Function Based Clustering

[7] Heston

1-  احمدپور، احمد و رضا غلامی. (1384). بررسی رابطۀ اطلاعات حسابداری و ریسک بازار (شرکت­های پذیرفته‌شده در بورس اوراق بهادار تهران). مجلۀ علوم اجتماعی و انسانی دانشگاه شیراز (ویژه‌نامۀ حسابداری)، دورۀ 22، شمارۀ 2، صص 30-18.

2-  ایزدی‌نیا، ناصر؛ طیبی، کمیل و علی‌اکبر کاشف. (1391). تعیین توان سود عملیاتی و تغییرات آن در تبیین و پیش­بینی بازده سهام: مورد بازار بورس اوراق بهادار تهران. مجلۀ دانش حسابداری، سال سوم، شمارۀ 9، صص 32-7.

3-  ایزدی‌نیا، ناصر و امیر‌حسین کربلایی‌کریم. (1390). شناسایی تأثیر متغیرهای منتخب مالی بر بازده سهام در بورس اوراق بهادار تهران. مجلۀ پژوهش­های حسابداری مالی، سال 4، شمارۀ 1، شمارۀ پیاپی 11، صص 30-17.

4-  خواجوی، شکرالله؛ الله­یاری، حمید و میثم قاسمی. (1390). آزمون مدل بازده و مدل قیمت در شرکت­های پذیرفته‌شده در بورس اوراق بهادار تهران با استفاده از الگوی پانل با داده­های متوازن. مجلۀ پژوهش­های حسابداری مالی، سال 3، شمارۀ 4، شمارۀ پیاپی 10، صص 55-70.

5-  رهنمای رودپشتی، فریدون؛ نیکومرام، هاشم؛ طلوعی اشلقی، عباس؛ حسین‌زاده لطفی، فرهاد و مرضیه بیات. (1394). بررسی کارایی بهینه‌سازی پرتفوی براساس مدل پایدار با بهینه‌سازی کلاسیک در پیش­بینی ریسک و بازده پرتفوی. مهندسی مالی و مدیریت اوراق بهادار، دورۀ 6، شمارۀ 22، صص 60-29.

6-  کانتاردزیک، مهمد. (1385). داده­کاوی. ترجمۀ امیر علیخانزاده. بابل، علوم رایانه، چاپ سوم.

7-  نمازی، محمد و شکرالله خواجوی. (1383). سودمندی متغیرهای حسابداری در پیش­بینی ریسک سیستماتیک شرکت­های پذیرفته‌شده در بورس اوراق بهادار تهران. بررسی­های حسابداری و حسابرسی، سال یازدهم، شمارۀ 37، صص 93-119.

8-  نیکواقبال، علی‌اکبر؛ گندلی‌علیخانی، نادیا و اسماعیل نادری. (1392). ارزیابی مدل­های شبکه عصبی مصنوعی ایستا و پویا در پیش­بینی قیمت سهام. فصلنامۀ علمی پژوهشی دانش مالی تحلیل اوراق بهادار، شمارۀ 22، صص 91-77.

9-        Ball, R. and P. Brown. (1968). An empirical evaluation of accounting income numbers. Journal of Accounting Research, Vol. 6, No. 2, Pp. 159-178.

10-    Barak, S. and M. Modarres. (2015). Developing an approach to evaluate stocks by forecasting effective features with data mining methods, Expert Systems with Applications, No. 42, Pp. 1325-1339.

11-    Barth, M.E., Beaver, W.H. and W.R. Landsman. (1998). Relative valuation roles of equity book value and net income as a function of financial health. Journal of Accounting and Economics, No. 25, Pp. 1-34.

12-    Beaver, W.H., Kettler, P. and M. Scholes. (1970). The Association Between Market Determind and Accounting Determind Risk Measures. Accounting Review, Vol. 45, No. 4, Pp. 654-682.

13-    Brimble, M.A. (2003). The Relevance of Accounting Information for Valuation and Risk. Phd Thesis, Pp. 1-304.

14-    Cheng Li, J. and D. Cheng Mei. (2013). The risks and returns of stock investment in a financial market. Physics Letters A, No. 377, Pp. 663-670.

15-    Chu, L., Mathieu, R., Mbagwu, C. and P. Zhang. (2013). The Usefulness of Accounting Information and Firms’ Oprational Risks. working paper, www.degroote.mcmaster.ca.

16-    Duda, R.o., Hart, P.E. and D.G. Strok, (2001). Pattern classification. Wiley.

17-    Dumais, S., Platt, J., Heckerman, D. and M. Sahami. (1998). Inductive learning algorithms and representations for text categorization. In Proceedings of the
international conference on information knowledge management. Pp. 148–155.

18-    Elgers, P. and D. Murray. (1982). The impact of the choice of market index on the empirical evaluation of accounting risk measures. The Accounting Review, Vol. 57, No. 2, Pp. 358-375.

19-    Holte, R.C. (1993). Very simple classification rules perform well on most commonly used datasets. Machine Learning, No. 11, Pp. 63–90

20-    Huang, C.F. (2012). A hybrid stock selection model using genetic algorithms and support vector regression. Applied Soft Computing, No. 12, Pp. 807–818.

21-    James, G., Witten, D., Hastie, T. and R. Tibshirani. (2013). An introduction to statistical learning with applications in R. Springer science + business media New York.

22-    Jayawardena, N., Todorova, N., Li, B. and J. Su. (2016). Forecasting stock volatility using after-hour information: Evidence from the Australian Stock Exchange. Economic modeling, No. 52, Pp. 592-608.

23-    Kononenko, I. (1994). Estimating attributes: analysis and extensions of relief. In Proceedings of the seventh European conference on machine learning. Pp. 171–182.

24-    Oztekin, A., Kizilaslan, R., Freund, S. and A. Iseri. (2016). A Data Analytic Approach to Forecasting Daily Stock Returns in an Emerging Market. European Journal of operational research, Vol. 253, No. 3, Pp. 697-710.

25-    Rather, A.M., Agarwal, A. and V.N. Sastry. (2015). Recurrent neural network and a hybrid model for prediction of stock returns, Expert Systems with Applications, No. 42, Pp. 3234-3241.

26-    Tsai, CH. and Y. Hsiao. (2010), Combining multiple feature selection methods for stock prediction: union, intersection and multi-intersection approaches, Decision support systems, No. 50, Pp.258-269

27-    Watts, R. and J. Zimmerman. (1986). Positive Accounting Theory, Prentice Hall International, Inc.

28-    Zhang, X., Hu, Y., Xie, K., Wang, Sh., Ngai, E.W.T. and M. Liu. (2014). A causal feature selection algorithm for stock prediction modeling. Neurocomputing, No. 142, Pp. 48-59.