الف - تحليل علمي انتخابات رياست جمهوري 1388

سازگاری نتایج انتخابات با آزمون‌های بنفورد؛
تحليل علمي انتخابات رياست جمهوري 1388 سیدمهدی سیدنصرالله*
مقدمه: با توجه با داغ بودن موضوع صحت انتخابات در روزهاي اخير، مقاله اي با عنوان "مستندات علمی دستکاری در آراء انتخابات دهمین دوره انتخابات" در پایگاههای متعدد اینترنتی مرا بر آن داشت تا محاسبات ادعايي در آن مقاله را بررسی كنم كه نتيجه اين امر چيزي جز رد آن مقاله و اطمينان از نتايج انتخابات نبود. در مقاله ادعايي هيچ نموداري رسم نشده بود تا اصل ماجرا مشخص گردد و البته قسمتهاي اصلي مقاله يعني محاسبه ميزان خطا و انحراف، كاملا اشتباه بود و تعمداً از مقادیر نرمال نشده استفاده شده بود و نتيجه ديگري را به خواننده القا مي‌كرد. اما در مقاله پيش رو سه آزمون متعارف آماری براي بررسي علمي نتايج انجام شده است تا به طور كامل صحت داده ها تحليل گردد. اميد است تا خوانندگان گرامي، نگارنده را از نظرات خود بهره‌مند سازند. ×××
طی چند روز گذشته بحثهای فراوانی در خصوص امکان و احتمال تقلب در انتخابات ایران بعمل آمده است. با توجه به اینکه بازشماری آراء کاری پرزحمت برای دستگاه اجرایی و نظارتی انتخابات خواهد بود باید، کاندیداهای معترض شواهد و مستندات قابل قبولی را به این مراجعه اعلام نمایند تا دستکاری در نتایج انتخابات را آشکارا نشان دهد. راههای علمی زیادی وجود دارد که با استفاده از آمارهای اعلام شده توسط وزارت کشور این دستکاری ها در صورت وجود به نمایش گذاشته شود و يا صحت انتخابات از لحاظ شاخصهاي علمي آمار بررسي شود.

صحبت از تقلب در انتخابات تنها یک موضوع مختص به ایران و حتی کشورهای در حال توسعه نظیر ونزوئلا، مکزیک، و زیمباوه نیست و در سال 2000 شاهد بودیم که بحث تقلب در انتخابات ریاست جمهوری در ایالت فلوریدا به موضوع داغ آنروزها بدل شده بود. به هر حال آنچه مسلم است آنکه اهمیت سیاست و موضوع تقلب در انتخابات سبب شده که دانشمندان علم آمار با استفاده از کمترین داده های موجود از انتخابات روشهای آماری را طراحی کنند که با کمک آن بتوان با صراحت در مورد سلامت انتخابات اظهار نظر نمایند. یکی از معمول ترین این روشها روشی است که از قانون بن فورد (Benford’s Law) پیروی می‌کند. بطور خیلی مختصر و قابل درک برای خوانندگان این قانون به آن اشاره دارد که رقمهای مربوط به یک عدد (خواه یک رقمی یا بیش از یک رقمی) حاصل از شمارش یک پدیده در جهان خارج (جهان واقعی) از توزیع نرمال (Normal distribution) یا توزیع یک فرم (Uniform distribution) پیروی نمی‌کند بلکه از توزیعی شبیه توزیع Chi Square پیروی می‌کند. آقای بن‌فورد احتمال این اعداد را برای حوادثی چون انتخابات محاسبه کرده است. قابل ذکر است که اعداد ذکر شده در قانون بن‌فورد همانند قوانین نیوتن یک واقعیت علمی است و در حال حاضر علاوه بر مسئله انتخابات، برای رسیدگی به احتمال تقلب در سود سهام شرکتها و مسائل مالیاتی نیز از همین روش استفاده می‌شود.

اجازه بدهید چند خط از این مقاله را به توضیح ساده این قانون بپردازيم. در این قانون احتمال اینکه آخرین عدد سمت چپ یک عدد (فرض کنید تعداد آراء اخذ شده به نفع یک کاندیدا) که می‌تواند یکی از اعداد 1 تا 9 باشد با هم برابر نیست. بلکه احتمال آنکه رقم سمت چپ یک عدد، 1 باشد حدود 30% است در حالی که این احتمال برای عدد 9 در حدود 4.5%. همچنین است احتمال وجود عدد 0 تا 9 برای دومین رقم سمت چپ تعداد آراء اخذ شده به نفع یک کاندیدا كه آن نيز از قانون ديگري پيروي مي‌كند.
طبق اين قانون احتمال ظهور اعداد در رقم اول از رابطه 1 تبعيت مي‌كند:

(1)

شكل 1- توزيع ستوني احتمال توزيع اعداد در رقم اول، دوم و سوم طبق قانون بن فورد

جدول 1- توزيع اعداد در رقم اول طبق قانون بن فورد
براي توضيح بيشتر به توزيع رقمهاي اول، دوم و سوم يك دسته تصادفي مي‌پردازيم، براي نمونه يك دسته 20000تايي اعداد تصادفي كه به پيوست خواهد آمد را در نظر مي‌گيريم و توزيع اعداد 1 تا 9 را در ارقام اول تا سوم آن در جدول 2 بررسي مي‌كنيم.

جدول 2 - توزيع يكنواخت اعداد در رقم اول،دوم و سوم در يك دسته تصادفي
همان گونه كه در جدول 2 ديده مي‌شود، توزيع اعداد در رقمهاي اول، دوم و سوم يك دسته تصادفي كاملا يكنواخت بوده و اين تفاوت، اصلي ترين تفاوت بين داده‌هاي به دست آمده از طبيعت و داده های دستکاری شده می باشد. چرا كه همان گونه كه ذكر شد، طبق قانون بن‌فورد براي داده‌هاي طبيعي اين نسبتها يكسان نيستند و مطابق جدول 1 مي‌باشند.

براي اينكه اهميت قانون بن‌فورد بهتر ديده شود، جدول 3 كه شامل مثالهايي از طبيعت و تطابق آن با قانون بن فورد است، نشان داده شده است.

جدول 3- توزيع اعداد در رقم اول در كميتهاي طبيعي و مقايسه با قانون بن‌فورد
همان گونه كه در جدول 3 ديده مي‌شود اعداد به دست آمده از طبيعت به طرز شگفت انگیزی در انواع كميتها از توزيع پيش‌بيني شده بن‌فورد تبعيت مي‌كند و البته جمعيت افراد و نتايج به دست آمده بر مبناي جمعيت نيز جزء اين كميت هاست.

آزمون رقم اول

جدول 4- تعداد تكرار اعداد 1،2،3...،9 در اولين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان
نمودار 1 گوياي نتايج جدول 4 است كه مقايسه اين اعداد با حالت ايده آل كه در واقع معيار بن‌فورد مي‌باشد، نشان دهنده تطابق اين اعداد با مدل بن‌فورد است.

نمودار 1- مقايسه توزيع رقم اول نتايج آراي نامزدها با توزيع پيش بيني شده بن فورد
اگر بخواهيم اين اعداد را به صورت درصد نسبي نشان دهيم جدول 5 ارائه دهنده اين اعداد است.

جدول 5- نسبت تكرار اعداد 1،2،3...،9 در اولين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان

اگر بخواهيم ميزان اين اختلاف را به صورت علمي حساب كنيم، بايد از روشهاي معتبر محاسبه خطا مانند Chi-Squared استفاده كنيم، بر مبناي اين رابطه داریم :
(2)

در اين رابطه m نشان دهنده ميزان واقعي كميت و p احتمال وقوع آن است كه با ضرب تعداد كميتها(N) در آن به تعداد پيش‌بيني شده در توزيع ايده آل مي‌رسيم. جدول 6 بر مبنای این محاسبات تنظیم شده است:

جدول 6- محاسبه ميزان خطاي Chi-Squared براي رقم اول داده‌ها

همان گونه كه ديده مي‌شود، بيشترين خطاي نسبي 0.07 مي باشد، كه با توجه به تعداد نه چندان زياد داده‌ها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.

آزمون رقم دوم

براي بررسي دقيق تر صحت اعداد اعلام شده، گاهي اوقات رقم دوم اعداد را نيز بررسي مي‌كنند و براي صحت نتايج آن را با پيش‌بيني بنفورد مي‌سنجند. اگر آمار ارائه شده وزارت كشور را براي نتايج آراي نامزدها در شهرستانها بررسي كنيم برای توزیع اعداد در رقم دوم، نتايج زير به دست مي‌آيد.

جدول 7- تعداد تكرار اعداد 0،1،2،3،...،9در دومين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان
همان گونه كه در جدول 7 و نمودار 2 نشان داده شده است نتايج آراي تمامي نامزدها با مدل پيش‌بيني بن‌فورد تطابق بسيار خوبي دارد.

نمودار 2- مقايسه توزيع رقم دوم نتايج آراي نامزدها با توزيع پيش بيني شده بن فورد
اگر نتايج جدول 7 را به صورت نسبي نشان دهيم به جدول 8 مي‌رسيم.

جدول 8 - نسبت تكرار اعداد0،1،2،3،...،9 در دومين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان
براي محاسبه خطا، اين بار نيز با استفاده از محاسبه Chi-Squared به تحليل نتايج مي‌پردازيم، که جدول 9 به همین منظور تهیه شده است.

جدول 9 - محاسبه ميزان خطاي Chi-Squared براي رقم دوم داده‌ها
همانگونه كه ديده مي‌شود، بيشترين خطاي نسبي براي اين آزمون 04/0 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد داده‌ها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.

آزمون رقم سوم

اگر بخواهيم حد اطمينان را افزايش دهيم، مي‌توان تمامي اين محاسبات را براي رقم سوم نيز تكرار كرد، البته براي اين منظور بايد از معيار رقم سوم بن‌فورد استفاده كرد. با ادامه محاسبات براي بررسي نهايي، جداول و نمودارهاي ذيل خواهند آمد. شايان ذكر است در اين آزمون از اطلاعات مربوط به يكي از نامزدها به علت اينكه بسياري از آرا ايشان در شهرستانها دو رقمی و فاقد رقم سوم بود، حذف گرديده است.

جدول 10 - تعداد تكرار اعداد 0،1،2،3...،9 در سومين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان نمودار 3 گویای نتایج آزمون رقم سوم است:

نمودار 3- مقايسه توزيع رقم سوم نتايج آراي نامزدها با توزيع پيش بيني شده بن فورد
بر همین اساس جدول 11 نسبت تكرار اعداد 0،1،2،3...،9 در سومين رقم سمت چپ تعداد آراي هر نامزد را نشان می دهد.

جدول 11- نسبت تكرار اعداد 0،1،2،3...،9 در سومين رقم سمت چپ تعداد آراي هر نامزد در 366 شهرستان

جدول 12 - محاسبه ميزان خطاي Chi-Squared براي رقم سوم داده‌ها
همانگونه كه ديده مي‌شود، بيشترين خطاي نسبي براي اين آزمون 0.03 مي باشد، كه اين ميزان نيز با توجه به تعداد نه چندان زياد داده‌ها (366 شهرستان) نتيجه بسيار خوبي براي اعتبار نتايج است.

نتيجه گيري نهايي

همان گونه كه بيان شد، امروزه براي اعتبار سنجي علمي نتايج انتخاباتها در سراسر دنيا روشهاي خوبي وجود دارد، كه يكي از اصلي ترين اين روشها روش توزيع Benford بر مبناي تعداد ظاهر شدن اعداد 1 تا 9 در رقمهاي اول تا سوم نتايج تفكيكي است. در اين مقاله سه روش قدرتمند بر داده هاي استخراج شده مربوط به آرای تفکیکی شهرستانها از پايگاه اينترنتي وزارت كشور www.moi.ir اعمال گرديد كه همگی حاكي از صحت علمي نتايج انتخابات است و بنابراین فرض دستکاری گسترده در آرا و عددسازی مردود است.

منابع و مراجع

1. پايگاه اينترنتي وزارت كشور www.moi.ir
2. “Detecting Problems in Survey Data using Benford’s Law”, George Judge, University of California at Berkeley, Laura Schechter, University of Wisconsin at Madison, November 1, 2007
3. “The Effective Use of Benford’s Law to Assist in Detecting Fraud in Accounting Data”, Cindy Durtschi,William Hillison, Carl Pacini, Journal of Forensic Accounting, Vol. V 2004, pp 17-34
4. “Election Forensics: Vote Counts and Benford's Law”, Walter R. Mebane, Jr., July 17, 2006
5. http://mathworld.wolfram.com/Chi-SquaredTest.html
6. http://mathworld.wolfram.com/BenfordsLaw.html
7. http://en.wikipedia.org/wiki/Benford's_law
8. http://en.wikipedia.org/wiki/Chi-square_distribution
9. http://en.wikipedia.org/wiki/P-value

*پژوهشگر – کارشناس ارشد دانشگاه شریف

دانلود فایل PDF

مرتبط:
و باز هم بنفورد
یک یادداشت آماری دیگر درباره انتخابات
آزمون مربع کای برای بررسی...
یک منحنی گمراه‌کننده
انحراف معیار آرای اعلام شده مشکل دار بود؟
یک رگرسیون گمراه‌کننده
يک بحث آماري درباره فراگيري موج سبز