شاخصهای پراکندگی در آمار روشی برای توصیف چگونگی پراکندگی مجموعهای از دادهها هستند. پراکندگی حالتی است که دادهها در دستههای مختلف پراکنده، گسترده با پخش میشوند. این شاخص یافتن اندازهی پراکندگی مورد انتظار، برای یک متغیر خاص را درگیر میکند.
در شاخص تمایل مرکزی اطلاعاتی را در مورد مرکز دادهها به ما داده می شود. اما در بعضی از تحقیقات تنها اکتفا کردن به این اندازهها کافی نیست و اطلاعات جامع، کامل و درستی از مسئله داده نمیشود. در این زمان چگونگی پراکنده شدن دادهها حول میانگین اهمیت پیدا میکند.
پراکندگی در علم آمار چیست؟
پراکندگی دادهها در آمار به افراد کمک میکند تا با طبقه بندی داده در معیارهای پراکندگی خاص خودشان مانند واریانس، انحراف استاندارد و محدوده به راحتی آنها را درک کنند. این شاخص مجموعهای از اقدامات است که به افراد کمک میکند تا کیفیت دادهها را به شیوهای قابل سنجش و عینی انداه گیری کند. شاخصهای پراکندگی دارای همان واحدی هستند که کمیت با آن اندازه گیری میشود. معیارهای پراکندگی زیادی وجود دارد که در بدست آوردن بیتش بیشتر درمورد دادهها به ما کمک میکنند مانند:
- دامنه
- واریانس
- انحراف معیار
- چولگی و کشیدگی
دامنه سادهترین شاخص پراکندگی
سادهترین شکل اندازه گیری پراکندگی دامنه یا Range است. برای این شاخص تفاوت بین بزرگترین و کوچکترین مقدار متغیر باید بدست آورده شود. یک دامنه بزرگ به معنای تنوع زیاد و یک دامنه کوچک به معنای تنوع کم است. زمانی که پراکندگی مقادیر بینهایتی نداشته باشد، معمولا دامنه نشانگر خوبی از تنوع است. اما زمانی که دادههای پرتی وجود داشته باشد، این شاخص میتواند گمراه کننده باشد.
برای اندازه گیری دامنه تمام مقادیر موجود در مجموعه دادهها را از کم به زیاد مرتب کنید. کمترین داده را از بزرگترین داده کم کنید. فرقی نمیکند دادههای شما مثبت باشند یا منفی، اعداد کامل یا کسر، این روش اندازه گیری دامنه برای همهی این دادهها یکسان است.
چارک شاخص های پراکندگی
چارک یکی از شاخص های پراکندگی است که پراکندگی دادهها را نسبت به میانه نشان میدهد. همانطور که قبلا گفته شده است میانه دادهها را به دو قسمت مساوی تقسیم میکند، مقادیری که از میانه بزرگتر هستند و مقادیری که از دامنه کوچکتر هستند. چارک اعتبار آماری بیشتری نسبت به دامنه دارد. چارک دادهها را به 4 قسمت مساوری تقسیم میکند که هر بخش شامل 25 درصد مشاهدات است.
کمترین 25% اعداد
25% بعدی تا میانه
25% درصد بالاتر از میانه
بالاترین 25% اعداد
دامنه به مقادیر انتهایی وابسته است. اما چارکها دید بهتری از توزیع دادهها را به ما میدهند. بر مبنای چارکها، شاخص دامنه بین چارکی تعریف میشود. این شاخص، معیاری است برای اندازه گیری اینکه قسمت عمده مقادیر در کجا قرار دارند. فرمول دامنه بین چارکی کم کردم چارک اول از چارک سوم است.
IQR = Q3 – Q1
انحراف معیار جذر مثبت واریانس
انحراف معیار مانند انحراف متوسط بر مبنای انحراف مشاهدات از میانگین محاسبه میشود. در واقع این شاخص، درجه پراکندگی یا پرداکندگی دادهها نسبت به میانگین بدست آمده در آمار توصیفی است. برخی از انحراف دادهها، مثبت و برخی منفی هستند که جمع جبری آنها مساوی با صفر است. میانگین توانهای دوم انحرافها برای حذف علامت جبری مثبت و منفی را واریانس میگویند. در این ورش مقیاس اندازه گیری دادهها به توان 2 میرسد، با این حال میتوان با جذر واریانس به مقیاس اصلی که انحراف معیار است دست پیدا کند.
مراحل اندازه گیری انحراف معیار
- میانگین را که میانگین حسابی دادهها است را پیدا کنید.
- مجذور تفاوتهای میانگین را پیدا کنید. (مقدار داده – میانگین) 2
- میانگین اختلاف مجذور را بیابید. (واریانس = مجموع مجذور اختلاف ÷ تعداد مشاهدات)
- جذر واریانس را حساب کنید. (انحراف معیار = √واریانس)
واریانس دادهها
واریانس اندازه گیری فاصله هر متغیر از میانگین در مجموعه داده است. از آزمون واریانس برای محاسبه انحراف دادهها استفاده میشود و ابزار ارزشمندی برای سرمایه گذاران و متخصصین امور مالی است. واریانس محاسباتی است که متغیرهای تصادفی را برحسب رابطهی آنها با میانگین دادهها درنظر میگیرد. از آن میتوان برای تعیین فاصله هر متغیر از میانگین و فاصلهی متغیرها از هم استفاده کرد. همچنین در استنباطهای آماری، آزمون فرضیهها، روشهای مونت کارلو و … استفاده میشود.
در برخی از موارد واریانس و انحراف معیار را میتوان جایگزین هم کرد. ممکن است فردی انحراف معیار را به جای واریانس استفاده کند، زیرا این عدد کوچکتر است و کار کردن با آن ممکن است آسانتر باشد و کمتر تحت تاثیر انحراف قرار بگیرد. همانطور که گفته شد برای پیدا کردن انحراف معیار کافیست جذر واریانس گرفته بشود. با این عدد همان استنتاجهایی که از واریانس بدست میآید قابل استخراج، اما با محاسبات کوچکتر است.
نحوه محاسبه واریانس
برای محاسبه واریانس از شاخص های پراکندگی باید هر انحراف از یک متغیر معین و میانگین را مربع کنید. در یک مجموعه از دادهها، باید هر مقدار را جداگانه از میانگین کم کنید، سپس مقدار بدست آمده را مربع کنید، مانند (μ – X)². سپس تمام انحرافات مجذور را اضافه کرده و آنها را بر تعداد کل مقادیر تقسیم میکنید تا به یک میانگین برسید. این عدد واریانس است.
ضرایب عدم تقارن پیرسون
چولگی و کشیدکی یا skewness و kurtosis به فرمولهای ضرایب عدم تقارن پیرسون معروف هستند. برخی از توزیعهای فراوانی متقارن نبوده و به راست یا چپ چولگی دارند که مقدار آن برحسب میانه یا مد بدست میآید.
چولگی
چولگی یا skewness معیاری برای سنجش تقارن در یک توزیع آماری است. یا به بیان دیگر این شاخص، عدم تقارن در یک توزیع آماری میباشد. در آن به نظر میرسد منحنی به سمت راست یا چپ منحرف شده است. چولگی را میتوان برای تعیین میزان تفاوت یک توزیع با توزیع نرمال استفاده کرد.
در یک توزیع نرمال، نمودار به شکل یک منحنی زنگوله شکل کلاسیک و متقارن ظاهر میشود روی منحنی، میانگین، مد و یا نقطه ماکسیموم برابر هستند. در یک توزیع نرمال، دنبالهی نمودار در دو طرف منحنی، تصویر آینهای دقیق از هم هستند.
اما زمانی که منحنی به سمت چپ منحرف میشود دنباله در سمت چپ منحنی طولانیتر از دنبالهی سمت راست است و میانگین کمتر از حالت عادی میشود. به این وضعیت چولگی منفی گفته میشود.
هنگامی که توزیع، به سمت راست منحرف میشود، دنباله سمت راحت منحنی، بلندتر از دنبالهی سمت چپ است. در این حالت میانگین بیشتر از حالت عادی است. به این وضعیت چولگی مثبت گفته میشود. محاسبه معادله چولگی براساس میانگین توزیع، تعداد متغیرها و انحراف معیار توزیع انجام میشود.
کشیدگی
همراه با چولگی، کشیدگی یا kurtosis از شاخص های پراکندگی مهم در علم آمار است. با این حال این دو مفهوم را نباید با هم اشتباه گرفت. چولگی اساسا تقارن توزیع را اندازه گیری میکند، در حالی که کشیدگی سنگینی دنبالههای توزیع را تعیین میکند.
کشیدگی یک اندازه گیری آماری است که تعیین میکند دنبالههای یک توزیع با دنبالههای کی توزیع نرمال، تا چه اندازه تفاوت دارند. به عبارت دیگر، این شاخص مشخص میکند که آیا دنبالههای یک توزیع حاوی مقادیر شدید هستند یا خیر.
در امور مالی کشیدگی به عنوان معیار ریسک مالی استفاده میشود. یک کشیدگی بزرگ با ریسک بالایی برای سرمایه گذاری همراه است. از سوی دیگر یک کشش کوچک نشان دهندهی سطح متوسطی ار ریسک است.
نمره سیگمائی، استاندارد یا Z
زمانی که مقیاس دادهها و دامنه تغییرات آنها در دو یا چند توزیع فراوانی مشابه نباشد، امکان مقایسه دادهها وجود ندارد. به همین دلیل برای مقایسه نیاز است مشاهدات را به اعداد نسبی و فاقد واحد اندازه گیری تبدیل کرد. برای این منظور باید انحراف هر مقدار را نسبت به میانگین بدست آورد و با تقسیم کردن آن بر انحراف معیار، آن را بدون واحد اندازه گیری کرد. به این عدد نمره سیگمائی با Z گفته میشود.
نمره Z میتواند مثبت یا منفی باشد. به شما میگوید مشاهدا بالاتر یا پایینتر از میانگین است. به عنوان مثال نمره سیگمائی 2+ نشان میدهد که مقطه داده دو انحراف استاندارد بالاتر از میانگین است. در حال که 2- نشان دهندهی دو انحراف استاندارد زیر میانگین است.