آزمون کولموگروف اسمیرنف (Kolmogorov-Smirnov) در SPSS یکی از روشهای ارزیابی توزیع پذیری دو جامعه یا ارزیابی «برازش توزیع» (Goodness of Fit Test)گفته می شود و همچنین به آن آزمون نیکویی برازش نیز میگویند. آزمون بدون در نظر داشتن هیچ پیشفرضی، انجام می شود و به این ترتیب از گروه روشهای ناپارامتری محسوب میشود.
پس از تحلیل spss در برونداد آزمون کولموگروف – اسمیرنوف اگر آزمون معنی دار بود یعنی p کوچک تر از ۵ صدم بود، به معنی این است که توزع نرمال نیست و باید از آزمون ناپارمتریک استفاده کنیم. بنابراین اگر نتیجه این آزمون معنی دار نباشد امکان استفاده از آزمونهای پارامتریک وجود دارد.
نرم افزار spss را باز کرده و به مسیر زیر بروید:
Analyze> Nonparametric Test> Legacy Dialogs> 1Sample K-S.
پس از رفتن به مسیر بالا به صفحه زیر هدایت خواهید شد. در این صفحه متغیری که میخواهید مورد آزمون قرار گیرد را انتخاب و در کادر Test Variable List وارد کنید. سپس Ok را بزنید.
نرم افزار یک خروجی همانند شکل زیر را به شما خواهد داد. در خروجی زیر دو سطر آخر مورد نظر ما خواهد بود و گزارش خواهند شد.
همانطور که مشاهده میشود یک Z و یک Sig آمده است.
اگر Sig کوچک تر از ۵ صدم بود یعنی آزمون معنی دار شده و باید از آزمونهای ناپارامتریک استفاده شود.
در شکل زیر معنی داری به دست نیامده و بنابراین میتوان برای مقایسه سن در دو گروه از آزمون t مستقل استفاده کرد.
همانطور که از اسم «تابع توزیع تجربی» (Empirical Cumulative Distribution Function- ECDF) پیدا است، براساس مشاهدات و نتایج آزمایشهای تصادفی محاسبه میشود. از این تابع به عنوان برآوردگر «تابع توزیع احتمال تجمعی» (Cumulative Distribution Function- CDF) استفاده میشود.
حال اگر بخواهیم مقدار تابع توزیع تجربی را در نقطه x برای مقادیر مختلف متغیر تصادفی Xi محاسبه کنیم، از رابطه زیر کمک خواهیم گرفت.
مشخص است که منظور از تابع نشانگر است که مقدار آن برایXi<x برابر با ۱ و در غیراینصورت برابر با صفر خواهد بود.
در اینجا باید توجه داشت کهXi مربوط به یک نمونه nتایی بوده که از یکدیگر مستقل هستند. همچنین هنگام محاسبه تابع توزیع تجربی باید این مقادیر از کوچک به بزرگ مرتب شده سپس تابع توزیع محاسبه شود.
در تصویر بالا یک نمونه از تابع توزیع تجربی به همراه تابع توزیع تجمعی دیده میشود. در محور افقی مقدارهای متغیر تصادفی و در محور عمودی نیز مقدار احتمال تجمعی دیده میشود. خطوط خاکستری روی محور افقی، نشان دهنده مقدار مشاهده آن مقدار است. از آنجایی که ۲۰ مشاهده وجود دارد، احتمال هر یک از آنها برابر با یعنی ۰٫۰۵ است. بنابراین ارتفاع خطوط خاکستری به اندازه ۰٫۰۵ در نظر گرفته شده که احتمال مشاهده هر مقدار است.
برای رسم خطوط آبی رنگ در هر نقطه مثلا x، مجموع احتمالات (ارتفاع خطوط خاکستری) تا نقطه x محاسبه میشود. در هر نقطهای از محور افقی که این مجموع تغییر نکرده است، خط آبی را به صورت افقی کشیدهایم و هرگاه تغییری وجود داشته است، خط آبی رنگ دارای یک پرش به میزان تغییر صورت گرفته، خواهد داشت.
برای مثال، مقدار تابع توزیع تجربی برای نقطه چهارم ( برابر است با:
با توجه به تعریف ذکر شده برای تابع توزیع تجربی، آماره کولموگروف-اسمیرنف به صورت زیر تعریف میشود.
منظور از supx پیدا کردن کوچکترین کران بالا برای فاصله بین دو توزیع تجربی و توزیع واقعی روی همه مقدارها است. میتوان نشان داد که اگر مشاهدات از توزیع F(x) باشند، مقدار Dn با افزایش مقدار n به سمت صفر میل میکند.
در آزمون کولموگروف-اسمیرنف فرض صفر و فرض مقابل به صورت زیر نوشته میشود:
H0: توزیع تجربی با توزیع اصلی یکسان است
H۱: توزیع تجربی با توزیع اصلی یکسان نیست
به این ترتیب برای تعیین ناحیه بحرانی (Critical Area) از چندک αام بالایی توزیع کولموگروف (Kα) استفاده کرده و اگر آماره آزمون بزرگتر Kα باشد، فرض صفر (یعنی یکسان بودن توزیع تجربی با توزیع واقعی) را رد میکنیم.
آزمون کولموگروف-اسمیرنف برای آزمون کردن مطابقت با توزیع نرمال، مناسب نیست. نسخههای اصلاح شده آن از جمله آزمون لیلیفورس (Lilliefors) برای سنجش نرمال بودن دادهها بهتر عمل میکند. در ادامه به بررسی این روش خواهیم پرداخت. همچنین آزمون اندرسن-دارلینگ در این زمینه حتی با وجود دادههای کم، دارای توان آزمون بیشتری نسبت به آزمون کولموگروف-اسمیرنف است.
همانطور که قبلا گفته شد، از آزمون و آماره کولموگروف-اسمیرنف برای بررسی هم توزیعی دو متغیر تصادفی نیز میتوان استفاده کرد. فرض کنید دادههای مربوط به جامعه اول با توزیع تجربی معرفی شدهاند. همچنین دادههای جامعه دوم با توزیع تجربی
مشخص شدهاند.
به این ترتیب فرض صفر و فرض مقابل برای آزمون یکسان بودن توزیع تجربی به صورت زیر نوشته میشود.
H0: توزیع تجربی با توزیع تجربی
یکسان است
H1: توزیع تجربی با توزیع تجربی
یکسان نیست
در چنین حالتی آماره کولموگروف-اسمیرنف به صورت زیر نوشته خواهد شد.
و ناحیه بحرانی برای آن مطابق با رابطه زیر است:
البته برای محاسبه مقدار c(α) باید از روشهای عددی استفاده کرد. در جدول زیر برای بعضی از مقدارهای α محاسبه c(α) صورت گرفته است.
همچنین برای محاسبه تقریبی به ازاء مقدارهای دیگر α مطابق با رابطه زیر عمل میشود.
همانطور که در محاسبه و اجرای آزمون کولموگروف-اسمیرنف دیده شد، احتیاج به برآورد هیچ پارامتری از دادهها نیست.
برای سنجش و مقایسه توزیع احتمال دادهها با توزیع نرمال، آزمون کولموگروف-اسمیرنف خیلی محتاط عمل میکند. به این معنی که تا حد امکان رای به نرمال بودن دادهها میدهد و خیلی به ندرت (با وجود چولگی و وجود نقاط پرت) فرض نرمال بودن را رد میکند. ولی در روش اصلاح شده «لیلیفورس» (Lilliefors)، که توسط دانشمند آمریکایی آمار و استاد دانشگاه واشنگتن «هوبرت لیلیفورس» (Hubert Lilliefors) ایجاد شده، دقت آزمون کولموگروف-اسمیرنف برای توزیع نرمال بهبود یافته است. مراحل انجام این آزمون به صورت زیر است:
از آنجایی که برآورد پارامترها برای توزیع نرمال صورت گرفته است، آماره حاصل از مرحله ۳ دیگر دارای توزیع کولموگروف نیست بلکه دارای توزیع لیلیفورس است. با توجه به نزدیکتر شدن توزیع نرمال با توجه به برآورد پارامترهای آن توسط دادهها، آماره آزمون لیلفورس نسبت به آماره کولموگروف-اسمیرنف به صورت احتمالی کوچکتر است. محاسبات مربوط به توزیع آماره لیلیفورس توسط روشهای شبیه سازی مونتکارلو صورت میگیرد.
فرض کنید ۲۵۰ داده به عنوان یک نمونه از یک جامعه آماری در اختیار شما قرار گرفته است. میخواهیم بررسی کنیم که آیا این دادهها دارای توزیع یکنواخت در بازه (۰,۱) هستند یا خیر. گامهای مورد نیاز برای اجرای آزمون برازش کولموگروف-اسمیرنف در SPSS به صورت زیر هستند.
از فهرست ظاهر شده، دستور One Sample را اجرا کنید.
در پنچره ظاهر شده به نام One-Sample Nonparametric Tests در برگه Objective هدف از اجرای آزمون را با انتخاب گزینه Automatically Compare observed data to hypothesized، «اجرای خودکار آزمون فرض»، انتخاب کنید.
در برگه دوم به نام Fields نیز مشخص کنید که آزمون باید روی کدام متغیرها اجرا شود. این تنظیمات را مطابق با تصویر زیر انجام دهید.
مشخص است که باید آزمون روی متغیر uniform_data اجرا شود. برای تعیین آزمون مورد نظر از این پنجره برگه Settings را انتخاب کنید تا به انواع آزمونهای ناپارامتری دسترسی پیدا کنید. در تصویر زیر انتخاب آزمون کولموگرو اسمیرنف به همراه تنظیمات مربوط به توزیع یکنواخت ظاهر شده است.
با توجه ستون Sig در خروجی، دیده میشود که در سطح خطای ۰٫۰۵، فرض صفر که در ستون Null Hypothesis یکنواخت بودن توزیع دادهها است، رد نمیشود. در ستون Decision نیز همین امر گوشزد شده است. اگر روی این خروجی دوبار کلیک کنید، پنجره «نمایش مدل» (Model Viewer) ظاهر و نمودار توزیع احتمال به همراه خلاصه آزمون نمایش داده میشود.
در کادر سمت راست، حداکثر قدر مطلق میزان اختلاف بین توزیع یکنواخت و توزیع تجربی دادهها برابر با ۰٫۰۲۸ است. با توجه به رابطه محاسباتی برای آماره آزمون که در رابطه ۱ قابل مشاهده است، نتیجه برابر با ۰٫۴۸۸ محاسبه شده. با مقایسه آن با مقدار صدک ۹۵ام توزیع کولموگروف (kα=۰٫۰۱۱) فرض صفر رد نخواهد شد. بنابراین به نظر میرسد که توزیع تجربی دادهها با توزیع یکنواخت مطابقت دارد. این واقعیت را به کمک مقدار Asymptotic Sig= 0.988 (مقدار تقریبی برای مقدار Sig) نیز میتوان مشاهده کرد. از آنجایی مقدار احتمال (p-value) یا همان Sig بزرگتر از احتمال خطای نوع اول (α=۰٫۰۵α=۰٫۰۵) است، فرض صفر رد نخواهد شد.
باز هم فرض کنید یک نمونه ۲۵۰تایی دارید. به منظور بررسی همتوزیع بودن این دادهها با توزیع نرمال، از آزمون کولموگروف-اسمیرنف به همراه اصلاح لیلیفورس در SPSS استفاده میکنیم.
فرض کنید باید نرمال بودن دادههای متغیر normrand را بررسی کنیم. از فهرست Analysis گزینه Nonparametric Tests و از فهرست ظاهر شده زیر فهرست Legacy Dialogs و دستور ۱−Sample K−S را انتخاب کنید.
در پنجره One-Sample Kolmogorov-Smirnov Test متغیر مربوط به آزمون را در کادر Test Variable List قرار دهید. با انتخاب توزیع نرمال (Normal) در کادر Test Distribution، توزیع مورد نظر برای فرض صفر در آزمون فرض را نرمال انتخاب کنید.
با فشردن دکمه Ok، نرمافزار SPSS خروجی را تولید کرده و آزمون را اجرا مینماید. در تصویر زیر نمونه خروجی برای دادههای مثال، نمایش داده شده است. همانطور که دیده میشود، در زیرنویس جدول اطلاعاتی مشخص شده که از آماره لیلیفورس (Lilliefors) استفاده شده است.
با توجه به بزرگتر بودن مقدار احتمال یا Asymp Sig= 0.088 از احتمال خطای نوع اول α=۰٫۰۵α=۰٫۰۵ فرض صفر که معتبر بودن توزیع نرمال برای دادهها است، رد نمیشود. البته این فرض را به کمک نمودار فراوانی نیز میتوان نشان داد.
حال دادهها را دست کاری میکنیم. مقدارهای بزرگ و کوچک را طوری تغییر میدهیم تا نمودار بافتنگار فراوانی به صورت چوله درآید. از بین بزرگترین مقدارها، سه مقدار که بزرگترین مقادیر هستند را انتخاب کرده و با دادهها ۵، ۶ و ۷ جایگزین میکنیم. همچین سه مقداری که از همه کوچکتر هستند را با مقدار ۳- تغییر میدهیم. به نمودار فراوانی دادههای تغییر یافته توجه کنید.
حال آزمون کولموگروف-اسمیرنف را اجرا میکنیم. همانطور که در خروجی زیر میبینید، نرمال بودن دادهها رد خواهد شد. زیرا مقدار Asymp. Sig تقریبا برابر با صفر است. در البته باید یادآور شد که آزمون صورت گرفته با توجه به میانگین و واریانس برآورد شده توسط نمونه، مربوط به نرمال بودن توزیع داده با میانگین ۰٫۰۸۲۵ با انحراف استاندارد ۱٫۱۴۲۳۷ است.
اگر آزمون مربوط به مقایسه توزیع دادهها با توزیع نرمال با میانگین صفر و انحراف استاندارد ۱ را اجرا کنیم، فرض صفر با توجه به آماره کولموگروف-اسمیرنف رد نخواهد شد در حالیکه چولگی کاملا در نمودار فراوانی مشهود است.
با توجه به مقدار Asymptotic Sig که برابر با ۰٫۵۱۰ است، دلیلی برای رد فرض صفر وجود ندارد. بنابراین دیده میشود در زمانیکه حتی دادهها دارای چولگی هستند، بازهم آزمون کولموگروف -اسمیرنف رای به نرمال بودن دادهها داده است.
فرض کنید دو نمونه از دو جامعه در دسترس شما است. میخواهید یکسان بودن توزیع این دو جامعه را بررسی کنید. از آنجایی که در مورد پارامترها و توزیع احتمال هیچ یک از جوامع اطلاعی ندارید، از شیوه و روش آزمون کولموگروف-اسمیرنف برای مقایسه توزیع تجربی دو جامعه استفاده خواهیم کرد. اطلاعات مربوط به نمونههای این دو جامعه در جدول زیر قابل مشاهده است. در سطرهای فرد این جدول، مقادیر و در سطرهای زوج شماره جامعهای که نمونه از آن گرفته شده است، دیده میشود.
۰٫۱۱ | ۰٫۰۹ | ۰٫۷۵ | ۰٫۸۷ | ۰٫۷۴ | ۰٫۰۳ | ۰٫۷۰ | ۰٫۰۶ | ۰٫۲۷ | ۰٫۰۳ |
۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ |
۰٫۸۱ | ۰٫۷۴ | ۰٫۰۵ | ۰٫۷۴ | ۰٫۴۷ | ۰٫۴۷ | ۰٫۵۱ | ۰٫۰۱ | ۰٫۲۴ | ۰٫۴۹ |
۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۱ | ۲ | ۲ |
۰٫۱۸ | ۰٫۹۱ | ۰٫۹۰ | ۰٫۲۵ | ۰٫۳۱ | ۰٫۷۲ | ۰٫۳۹ | ۰٫۲۵ | ۰٫۱۸ | ۱٫۰۰ |
۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ |
۰٫۵۶ | ۰٫۰۵ | ۰٫۱۱ | ۰٫۱۳ | ۰٫۲۸ | ۰٫۳۸ | ۰٫۵۳ | ۰٫۴۱ | ۰٫۲۹ | ۰٫۱۲ |
۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ | ۲ |
به این ترتیب واضح است که مقدار ۰٫۱۱ متعلق به جامعه اول و مثلا مقدار ۰٫۱۲ (آخرین مشاهده) مربوط به جامعه دوم است. میخواهیم با توجه به متفاوت بودن تعداد اعضای هر گروه، آماره آزمون کولموگروف-اسمیرنف را محاسبه و براساس مقدار احتمال، نسبت به رد فرض صفر اقدام کنیم. گامهای زیر مربوط به انجام این آزمون در SPSS است.
همانطور که در ستون Sig مشخص است، با توجه به مقدار ۰٫۳۴۳ فرض صفر که برابری توزیع دو جامعه است، رد نمیشود. این امر در ستون Decision نیز با ثبت عبارت Retain the null hypothesis تاکید شده است. به این ترتیب فرض صفر با توجه به نمونههای بدست آمده از جوامع ۱ و ۲ تایید میگردد. با دوبار کلیک روی کادر، پنجره Model Viewer ظاهر خواهد شد.
مطابق با رابطه ۲ آماره آزمون برابر است با ۰٫۹۳۸ و مقدار احتمال نیز ۰٫۳۴۳ است. به این ترتیب فرض صفر رد نخواهد شد. در این پنجره نمودار رسم شده، مقایسه نمودار فراوانی برای دو جامعه است. همنطور که میبینید شکل نمودار فراوانی تجمعی که به صورت یک خط برای هر دو جامعه ترسیم شده، تقریبا شبیه به یکدیگر است.