شاخص های پراگندگی در آمار

شاخص‌های پراکندگی در آمار روشی برای توصیف چگونگی پراکندگی مجموعه‌ای از داده‌ها هستند. پراکندگی حالتی است که داده‌ها در دسته‌های مختلف پراکنده، گسترده با پخش ‌می‌شوند. این شاخص یافتن اندازه‌ی پراکندگی مورد انتظار، برای یک متغیر خاص را درگیر می‌کند.
در شاخص تمایل مرکزی اطلاعاتی را در مورد مرکز داده‌ها به ما داده می شود. اما در بعضی از تحقیقات تنها اکتفا کردن به این اندازه‌ها کافی نیست و اطلاعات جامع، کامل و درستی از مسئله داده نمی‌شود. در این زمان چگونگی پراکنده شدن داده‌ها حول میانگین اهمیت پیدا می‌کند.

پراکندگی در علم آمار چیست؟

پراکندگی داده‌ها در آمار به افراد کمک می‌کند تا با طبقه بندی داده در معیارهای پراکندگی خاص خودشان مانند واریانس، انحراف استاندارد و محدوده به راحتی آنها را درک کنند. این شاخص مجموعه‌ای از اقدامات است که به افراد کمک می‌کند تا کیفیت داده‌ها را به شیوه‌ای قابل سنجش و عینی انداه گیری کند. شاخص‌های پراکندگی دارای همان واحدی هستند که کمیت با آن اندازه گیری می‌شود. معیارهای پراکندگی زیادی وجود دارد که در بدست آوردن بیتش بیشتر درمورد داده‌ها به ما کمک می‌کنند مانند:

  • دامنه
  • واریانس
  • انحراف معیار
  • چولگی و کشیدگی

دامنه ساده‌ترین شاخص پراکندگی

دامنه یکی از شاخص های پراکندگی

ساده‌ترین شکل اندازه گیری پراکندگی دامنه یا Range است. برای این شاخص تفاوت بین بزرگترین و کوچکترین مقدار متغیر باید بدست آورده شود. یک دامنه بزرگ به معنای تنوع زیاد و یک دامنه کوچک به معنای تنوع کم است. زمانی که پراکندگی مقادیر بی‌نهایتی نداشته باشد، معمولا دامنه نشانگر خوبی از تنوع است. اما زمانی که داده‌های پرتی وجود داشته باشد، این شاخص می‌تواند گمراه کننده باشد.

برای اندازه گیری دامنه تمام مقادیر موجود در مجموعه داده‌ها  را از کم به زیاد مرتب کنید. کمترین داده را از بزرگترین داده کم کنید. فرقی نمی‌کند داده‌های شما مثبت باشند یا منفی، اعداد کامل یا کسر، این روش اندازه گیری دامنه برای همه‌ی این داده‌ها یکسان است.

چارک شاخص های پراکندگی

چارک یکی از شاخص های پراکندگی است که پراکندگی داده‌ها را نسبت به میانه نشان می‌دهد. همانطور که قبلا گفته شده است میانه داده‌ها را به دو قسمت مساوی تقسیم می‌کند، مقادیری که از میانه بزرگتر هستند و مقادیری که از دامنه کوچکتر هستند. چارک اعتبار آماری بیشتری نسبت به دامنه دارد. چارک داده‌ها را به 4 قسمت مساوری تقسیم می‌کند که هر بخش شامل 25 درصد مشاهدات است.

کمترین 25% اعداد

25% بعدی تا میانه

25% درصد بالاتر از میانه

بالاترین 25% اعداد

دامنه به مقادیر انتهایی وابسته است. اما چارک‌ها دید بهتری از توزیع داده‌ها را به ما می‌دهند. بر مبنای چارک‌ها، شاخص دامنه بین چارکی تعریف می‌شود. این شاخص، معیاری است برای اندازه گیری اینکه قسمت عمده مقادیر در کجا قرار دارند. فرمول دامنه بین چارکی کم کردم چارک اول از چارک سوم است.

IQR = Q3 – Q1

انحراف معیار جذر مثبت واریانس

انحراف معیار جذر مثبت واریانس

انحراف معیار مانند انحراف متوسط بر مبنای انحراف مشاهدات از میانگین محاسبه می‌شود. در واقع این شاخص، درجه پراکندگی یا پرداکندگی داده‌ها نسبت به میانگین بدست آمده در آمار توصیفی است. برخی از انحراف داده‌ها، مثبت و برخی منفی هستند که جمع جبری آنها مساوی با صفر است. میانگین توان‌های دوم انحراف‌ها برای حذف علامت جبری مثبت و منفی را واریانس می‌گویند. در این ورش مقیاس اندازه گیری داده‌ها به توان 2 می‌رسد، با این حال می‌توان با جذر واریانس به مقیاس اصلی که انحراف معیار است دست پیدا کند.

مراحل اندازه گیری انحراف معیار

  1. میانگین را که میانگین حسابی داده‌ها است را پیدا کنید.
  2. مجذور تفاوت‌های میانگین را پیدا کنید. (مقدار داده – میانگین) 2
  3. میانگین اختلاف مجذور را بیابید. (واریانس = مجموع مجذور اختلاف ÷ تعداد مشاهدات)
  4. جذر واریانس را حساب کنید. (انحراف معیار = √واریانس)

واریانس داده‌ها

واریانس داده‌ها

واریانس اندازه گیری فاصله هر متغیر از میانگین در مجموعه داده است. از آزمون واریانس برای محاسبه انحراف داده‌ها استفاده می‌شود و ابزار ارزشمندی برای سرمایه گذاران و متخصصین امور مالی است. واریانس محاسباتی است که متغیرهای تصادفی را برحسب رابطه‌ی آنها با میانگین داده‌ها درنظر می‌‎گیرد. از آن می‌‎توان برای تعیین فاصله هر متغیر از میانگین و فاصله‌ی متغیرها از هم استفاده کرد. همچنین در استنباط‌های آماری، آزمون فرضیه‌ها، روش‌های مونت کارلو و … استفاده می‌شود.

در برخی از موارد واریانس و انحراف معیار را می‌توان جایگزین هم کرد. ممکن است فردی انحراف معیار را به جای واریانس استفاده کند، زیرا این عدد کوچکتر است و کار کردن با آن ممکن است آسان‌تر باشد و کمتر تحت تاثیر انحراف قرار بگیرد. همانطور که گفته شد برای پیدا کردن انحراف معیار کافیست جذر واریانس گرفته بشود. با این عدد همان استنتاج‌هایی که از واریانس بدست می‌آید قابل استخراج، اما با محاسبات کوچکتر است.

نحوه محاسبه واریانس

برای محاسبه واریانس از شاخص های پراکندگی باید هر انحراف از یک متغیر معین و میانگین را مربع کنید. در یک مجموعه از داده‌ها، باید هر مقدار را جداگانه از میانگین کم کنید، سپس مقدار بدست آمده را مربع کنید، مانند (μ – X)². سپس تمام انحرافات مجذور را اضافه کرده و آنها را بر تعداد کل مقادیر تقسیم می‌کنید تا به یک میانگین برسید. این عدد واریانس است.

ضرایب عدم تقارن پیرسون

چولگی و کشیدکی یا skewness و kurtosis به فرمول‌های ضرایب عدم تقارن پیرسون معروف هستند. برخی از توزیع‌های فراوانی متقارن نبوده و به راست یا چپ چولگی دارند که مقدار آن برحسب میانه یا مد بدست می‌آید.

چولگی

چولگی در آمار

چولگی یا skewness معیاری برای سنجش تقارن در یک توزیع آماری است. یا به بیان دیگر این شاخص، عدم تقارن در یک توزیع آماری می‌باشد. در آن به نظر می‌رسد منحنی به سمت راست یا چپ منحرف شده است. چولگی را می‌توان برای تعیین میزان تفاوت یک توزیع با توزیع نرمال استفاده کرد.

در یک توزیع نرمال، نمودار به شکل یک منحنی زنگوله شکل کلاسیک و متقارن ظاهر می‌شود روی منحنی، میانگین، مد و یا نقطه ماکسیموم برابر هستند. در یک توزیع نرمال، دنباله‌ی نمودار در دو طرف منحنی، تصویر آینه‌ای دقیق از هم هستند.

اما زمانی که منحنی به سمت چپ منحرف می‌شود دنباله در سمت چپ منحنی طولانی‌تر از دنباله‌ی سمت راست است و میانگین کمتر از حالت عادی می‌شود. به این وضعیت چولگی منفی گفته می‌شود.

هنگامی که توزیع، به سمت راست منحرف می‌شود، دنباله سمت راحت منحنی، بلندتر از دنباله‌ی سمت چپ است. در این حالت میانگین بیشتر از حالت عادی است. به این وضعیت چولگی مثبت گفته می‌شود. محاسبه معادله چولگی براساس میانگین توزیع، تعداد متغیرها و انحراف معیار توزیع انجام می‌شود.

کشیدگی

کشیدگی در امار

همراه با چولگی، کشیدگی یا kurtosis از شاخص های پراکندگی مهم در علم آمار است. با این حال این دو مفهوم را نباید با هم اشتباه گرفت. چولگی اساسا تقارن توزیع را اندازه گیری می‌کند، در حالی که کشیدگی سنگینی دنباله‌های توزیع را تعیین می‌کند.

کشیدگی یک اندازه گیری آماری است که تعیین می‌کند دنباله‌های یک توزیع با دنباله‌های کی توزیع نرمال، تا چه اندازه تفاوت دارند. به عبارت دیگر، این شاخص مشخص می‌کند که آیا دنباله‌های یک توزیع حاوی مقادیر شدید هستند یا خیر.

در امور مالی کشیدگی به عنوان معیار ریسک مالی استفاده می‌شود. یک کشیدگی بزرگ با ریسک بالایی برای سرمایه گذاری همراه است. از سوی دیگر یک کشش کوچک نشان دهنده‌ی سطح متوسطی ار ریسک است.

نمره سیگمائی، استاندارد یا Z

نمره سیگمائی، استاندارد یا Z

زمانی که مقیاس داده‌ها و دامنه تغییرات آنها در دو یا چند توزیع فراوانی مشابه نباشد، امکان مقایسه داده‌ها وجود ندارد. به همین دلیل برای مقایسه نیاز است مشاهدات را به اعداد نسبی و فاقد واحد اندازه گیری تبدیل کرد. برای این منظور باید انحراف هر مقدار را نسبت به میانگین بدست آورد و با تقسیم کردن آن بر انحراف معیار، آن را بدون واحد اندازه گیری کرد. به این عدد نمره سیگمائی با Z گفته می‌شود.

نمره Z می‌تواند مثبت یا منفی باشد. به شما می‌گوید مشاهدا بالاتر یا پایین‌تر از میانگین است. به عنوان مثال نمره سیگمائی 2+ نشان می‌دهد که مقطه داده دو انحراف استاندارد بالاتر از میانگین است. در حال که 2- نشان دهنده‌ی دو انحراف استاندارد زیر میانگین است.

فهرست