نظر منتشر شده
۲
توصيه به ديگران
 
کد مطلب: 48151
آزمون مربع کای برای بررسی...
تاریخ انتشار : سه شنبه ۲ تير ۱۳۸۸ ساعت ۱۲:۵۷
محمد حسین ر نوشته است:

اخیرا مقاله ای تحت عنوان "تحلیل علمی انتخابات ریاست جمهوری 1388" در سایت الف منتشر شد که نویسنده مقاله برای تست برازش توزیع احتمال ارقام اعلام شده به عنوان آراء کاندیداها توسط وزارت کشور با توزیع بن فورد از تست مربع کای استفاده کرده بود. در این رابطه به عنوان پاسخ (اشکال) به این کار فردی به نام حسن توکلی در بخش نظرات خوانندگان، نظری را درج کرده بود. این مقاله در پاسخ به ایشان نگاشته شده است. 
آزمون مربع کای
آزمون مربع کای، یکی از آزمون های آماری است که به منظور بررسی تطابق یک توزیع تخمین زده شده با یک توزیع واقعی به کار می رود. توزیع تخمین زده شده از روی N داده iid بدست می آید. تحت این آزمون باید ابتدا یک آماره به نام آماره مربع کای به شکل زیر محاسبه شود :


که در این رابطه، Ei برابر تعداد داده مورد انتظار برای مشاهده در نقطه i ام توزیع (که برابر Npi است، که N تعداد نمونه ها و pi مقدار احتمال در نقطه i ام توزیع واقعی است) و Oi مقدار مشاهده شده (تخمین زده شده) از نقاط i از روی نمونه های آماری است. در صورت یکسان بودن توزیع نمونه های آماری با توزیع واقعی، این آماره تقریبا دارای توزیع مربع کای با درجه آزادی n-1 است (که n تعداد نقاطی است که توزیع در آنها تخمین زده می شود).
برای انجام آزمون، باید ابتدا مقدار آماره فوق محاسبه شود و سپس با یک مقدار حد آستانه مقایسه شود. این مقدار حد آستانه بر اساس دقت آزمون باید از روی جداول آزمون مربع کای محاسبه شود. راه دیگری که آقای حسن توکلی استفاده کرده اند، محاسبه احتمال رد شدن تست است.
روش آقای توکلی به این شکل عمل می کند که اگر مقدار آماره برابر X باشد، حاصل را که fn-1(x) توزیع مربع کای با درجه آزادی n-1 است را محاسبه می کند و حاصل این انتگرال برابر احتمال یکسان بودن توزیع نمونه ها و توزیع واقعی داده شده در نظر می گیرد.
هر چند این روش به نظر درست می رسد، ولی نکات ریزی وجود دارد که ایشان از آنها غافل بوده است. یک نکته مهم این است که اصولا ممکن است مقدار انتگرال (به دلیل خاصیت تصادفی بودن آن که ناشی از تصادفی بودن مقدار X است)، عدد کوچکی باشد (هر چند تعداد نمونه ها یا N زیاد باشد).
برای نشان دادن این مسئله، قطعه کد

MATLAB زیر را در نظر بگیرید :
clc;
P = zeros(1, 10);
for k = 1 : 10
% PDF formation
x = 1:9;
px = exp(-x/3);
px = px / sum(px);
% Sampling the PDF to find iid samples
N = 366;
samples = zeros(1, N);
for i = 1 : length(samples)
    r = rand;
    sm = 0;
    for j = 1:9
        if (sm < r && (sm + px(j)) >= r)
            samples(i) = j;
            break;
        elseif (j == 8)
            samples(i) = 9;
        end
        sm = sm + px(j);
    end   
end
% Estimation of the PDF using the iid samples
fr = zeros(1, 9);
for i = 1 : 9
    fr(i) = length(find(samples == i));
end
% Performing the Chi-Square Test of fitness
X2 = 0;
for i = 1 : 9
    X2 = X2 + (fr(i) - N * px(i))^2 / (N * px(i));
end
p = chi2pdf(0:0.1:30, 8);
X2ind = floor(X2 * 10);
P(k) = sum(p(X2ind:end)) * 0.1;
end


با استفاده از این کد، مسئله ای شبیه مسئله بن فورد طراحی شده است و 10 بار آزمون مربع کای با مسائل مختلف (در حالتی که دو توزیع یکسان هستند) اجرا شده است. نتایج احتمال یکسان بودن دو توزیع بدین ترتیب بدست آمده است :
0.08, 0.68, 0.66, 0.42, 0.23, 0.11, 0.006, 0.78, 0.17, 0.56
ملاحظه می کنیم که مقادیر کوچک احتمال مانند 0.08 و حتی 0.006 محتمل هستند، با اینکه دو توزیع یکسان هستند! بنابراین، روش ایشان در اعمال آزمون مربع کای برای یک مسئله ساده ناکارا خواهد بود!
اما روش مقاله اصلی در رسم نمودار ساده تر و قابل فهم تر است و نیازی به توضیح ندارد که توزیع تخمین زده شده با توزیع واقعی فاصله کمی دارند و نیاز به اینهمه فلسفه بافی آقای توکلی نیست.  
 
نتیجه گیری
آمار و احتمالات یکی از حوزه هایی است که امکان نتیجه گیری اشتباه در آن زیاد است و این اشتباه ها می تواند حتی دامنگیر کارشناسان آمار نیز بشود. نکته مهم فهم عمیق مفاهیم آماری و استفاده از Visualization (به جای کار کردن صرف با اعداد) و رسم نمودار است. در غیر اینصورت نتایج تاسف باری رقم خواهد خورد.

 
۱۳۸۸-۰۴-۰۲ ۱۴:۰۰:۱۹
پس با توجه به تاكيد شما بر روي نمودارها، سخنان شما در تاييد مقاله اصلي \"تحلیل علمی انتخابات ریاست جمهوری 1388\" است... (160511)
 
۱۳۸۸-۰۴-۰۳ ۰۲:۲۱:۲۶
همه به فکر افتادند که یه جوری این اقا رو قانع کنند! غافل از اینکه ایشون می دونه ولی خودش رو زده به کوچه علی چپ! (161389)
 


نظراتی كه به تعميق و گسترش بحث كمك كنند، پس از مدت كوتاهی در معرض ملاحظه و قضاوت ديگر بينندگان قرار مي گيرد. نظرات حاوی توهين، افترا، تهمت و نيش به ديگران منتشر نمی شود.