رابطه ی بین متغیرها در آمار را با استفاده از دو مبحث رگرسیون و همبستگی توضیح میهیم. ارتباطی که بین متغیرها وجود دارد را میتوان به صورت معادله ریاضی نشان داد. در معادلهها یکی از متغیرها X و دیگری Y است. معمولا X متغیر ثابت و Y متغیر تابع است. تعیین اینکه کدام متغیر ثابت و کدام تابع است به نوع آزمایش و ماهیت متغیر بستگی دارد.
به طور کلی برای تعیین وجود یا عدم وجود رابطه بین متغیرها از روش های رگرسیون و همبستگی استفاده میشود. از همبستگی برای تعیین رابطه بین دو متغیر تصادفی و از رگرسیون برای مشخص کردن وجود یا عدم وجود رابطه بین یک متغیر تابع و ثابت استفاده میشود.
تیم آمار برتر ارائه دهندهی خدمات آماری و خدمات دانشجویی از جمله نگارش پایان نامه و پروپوزال نویسی را به عنوان مرجعی برای اطلاعات آماری دنبال کنید.
رگرسیون چیست؟
تحلیل رگرسیون مجموعهای از روشهای آماری است که برای تخمین روابط بین یک متغیر تابع با یک یا چند متغیر مستقل استفاده میشود. میتوان از آن برای ارزیابی میزان یا قدرت رابطه بین متغیرها و مدل سازی رابطه آتی بین آنها استفاده کرد. در بحث رگرسیون شدت تغییرات یک متغیر (تابع) به ازای تغییرات متغیر دیگر (ثابت) سنجیده میشود و حالت عکس آن مفهومی ندارد.
تجزیه و تحلیل رگرسیون شامل چندین نوع است مانند خطی، خطی چندگانه و غیرخطی است. رایج ترین آنها خطی و خطی چندگانه هستند. نوع غیرخطی معمولا برای دادههای پیچیدهتری استفاده میشود که در آن متغیرهای تابع و غیرمستقل یک رابطه غیرخطی را نشان میدهند.
تعریف رگرسیون خطی
رگرسیون خطی یک روش آماری است که سعی در نشان دادن رابطه بین متغیرها دارد. به نقاط داده مختلف نگاه میکند و یک خط روند را ترسیم میکند. یک مثال ساده از رگرسیون خطی این است که هزینه تعمیر ماشین آلات با گذشت زمان افزایش مییابد.
به طور دقیقتر، این روش آماری برای تعیین نوع و قدرت ارتباط بین یک متغیر تابع و یک سری از متغیرهای مستقل دیگر استفاده میشود. از آن برای ایجاد مدلهای پیش بینی مانند پیش بینی قیمت سهام شرکت کمک میکند.
قبل از تلاش برای برازش یک مدل خطی برای مجموعه داده مشاهده شده، باید ارزیابی کرد که آیا رابطهای بین متغیرها وجود دارد یا خیر. البته این بدان معنا نیست که یکی از متغیرها باعث دیگری میشود، بلکه باید یک همبستگی قابل مشاهده بین آنها وجود داشته باشد.
به عنوان مثال، نمرات دانشگاهی بالاتر لزوماً به معنای حقوق بالاتر نیست. اما می تواند بین این دو متغیر ارتباطی وجود داشته باشد.
همبستگی چیست؟
به وجود رابطه متقابل بین دو یا چند متغیر که تحت تاثیر عوامل مشترک قرار میگیرند، همبستگی گفته میشود. چند نمونه از دادهها که همبستگی بالایی دارند:
- کالری دریافتی و وزن شما
- رنگ چشم شما و رنگ چشم اقوامتان
- مدت زمان مطالعه و معدل
همبستگی ها مفید هستند، زیرا اگر بفهمید متغیرها چه رابطهای دارند میتوان در مورد رفتار آینده پیش بینی کرد. علارغم اینکه از شاخص همبستگی برای تعیین رابطه بین دو یا یک متغیر تصادفی و از شاخص رگرسیون برای تعیین رابطه ی یک یا چند متغیر استفاده میشود، در مواردی این شاخصها به جای هم به کار میروند. به عنوان مثال دو متغیر طول خوشه و تعداد دانه در خوشه گندم را که متغیرهای تصادفی هستند در نظر بگیرید. برای تعیین میزان ارتباط متقابل آنها باید از شاخص همبستگی استفاده کرد. در حالی که برای تعیین اینکه به ازای هر واحد افزایش طول خوشه، به چه میزان تعداد دانه ها تغیر میکند باید از روش رگرسیون استفاده کرد.
ضریب همبستگی چیست؟
ضریب همبستگی با حرف r نشان داده میشود و عددی بین ۱- و ۱ است که شدت و درجه همبستگی بین دو متغیر را نشان میدهد. به عبارت دیگر، نشان می دهد که اندازه گیری دو یا چند متغیر در یک مجموعه داده چقدر شبیه است.
1: هنگامی که یک متغیر تغییر میکند، متغیرهای دیگر در همان جهت تغییر میکنند.
0: هیچ رابطه ای بین متغیرها وجود ندارد.
1-: هنگامی که یک متغیر تغییر می کند، متغیرهای دیگر در جهت مخالف تغییر می کنند.
ضرایب همبستگی دادهها را خلاصه میکنند و کمک میکنند نتایج را بین مطالعات مقایسه کنیم. ضریب همبستگی آمار توصیفی است. یعنی دادههای نمونه را بدون اینکه به شما اجازه دهد در مورد جامعه برداشتی داشته باشید، خلاصه میکند.