کلمه همبستگی در زندگی روزمره برای نشان دادن نوعی روابط استفاده می شود. با این حال ، از نظر آماری ما از همبستگی استفاده می کنیم تا ارتباط بین دو متغیر کمی را نشان دهیم. همبستگی یکی از رایج ترین و مفیدترین آمار است. همبستگی یک عدد واحد است که میزان رابطه بین دو متغیر عددی را توصیف می کند. یک همبستگی مثبت نشان می دهد که میزان افزایش یا کاهش آن به صورت موازی چقدر است. یک همبستگی منفی نشان می دهد که میزان متغیر با کاهش دیگری افزایش می یابد.
همبستگی با استفاده از ضریب همبستگی (یا "R") اندازه گیری می شود. مقدار R ا ز-1. 0 تا 1. 0 متغیر است. هرچه R نزدیکتر به +1 ی ا-1 باشد ، دو متغیر از نزدیک بیشتر مرتبط هستند.
معمولاً ، در آمار ، ما سه نوع همبستگی را اندازه گیری می کنیم: همبستگی پیرسون ، همبستگی درجه کندال و همبستگی اسپیرمن.
همبستگی پیرسون R به طور گسترده ای در آمار برای اندازه گیری میزان رابطه بین متغیرهای مرتبط با خطی استفاده می شود.
ضریب ، R (در آمار ، مقدار ضریب همبستگی ‘R" بین 1 تا 1 متفاوت است.)
همبستگی برای داده های قابل اندازه گیری کار می کند که در آن اعداد معنی دار هستند ، معمولاً مقادیر به نوعی. برای آزمایش ارتباط برای داده های کاملاً طبقه بندی ، مانند جنسیت ، مارک های خریداری شده یا رنگ مورد علاقه ما از آزمون مجذور کای استفاده می کنیم. جزئیات آزمون مجذور کای در مقاله آینده گنجانده خواهد شد.
ارتباط اندازه گیری همبستگی ، نه علیت
علت به معنای رابطه علت و اثر است."همبستگی به معنای علیت نیست" به این معنی است که از همبستگی نمی توان برای استنباط رابطه علّی بین متغیرها استفاده کرد. مثال ساده این است که فروش رایانه های شخصی و کفش های ورزشی در چند سال گذشته به شدت افزایش یافته است و همبستگی بالایی بین آنها وجود دارد ، اما شما نمی توانید فرض کنید که خرید رایانه باعث می شود افراد کفش ورزشی بخرند (یا برعکس).
همبستگی در r
R می تواند همبستگی با عملکرد COR () انجام دهد.
نحو برای به دست آوردن ضریب همبستگی: COR (VAR1 ، VAR2 ، روش = "روش").
روش پیش فرض "پیرسون" است. نوع "کندال" یا "اسپیرمن" برای به دست آوردن ضریب همبستگی مناسب.
EG1: Finding the correlation between Age and Circumference of an orange Tree >کتابخانه (توده)
در اینجا ‘R‘ ارزش 0. 9135189 نشان می دهد که بین سن و دور شدن یک درخت نارنجی یک ارتباط مثبت قوی وجود دارد.
EG2:- IQFile. txt نمرات ضریب هوشی 10 مادر و دختران بزرگتر آنها را نشان می دهد.
(ب) مقدار ضریب همبستگی نمونه r را پیدا کنید.
[1] 135 127 124 120 115 112 104 96 94 85
[1] 121 131 112 115 99 118 106 89 92 90
در اینجا R 0. 8621791 به این معنی است که بین ضریب هوشی مادر و دختر همبستگی مثبت خوبی وجود دارد.
همسایه
کواریانس دو متغیر x و y در یک نمونه داده ، چگونگی ارتباط این دو متغیر به صورت خطی است. کواریانس مثبت نشان دهنده رابطه خطی مثبت بین متغیرها است و یک کواریانس منفی برعکس را نشان می دهد.
کواریانس در r
عملکرد COV () برای تولید کواریانس استفاده می شود. cov (x ، y = null ، روش = "روش")
به عنوان مثال:- استفاده از عملکرد COV برای محاسبه کواریانس سن و دور درختان نارنجی
در اینجا کواریانس ضریب هوشی مادر و دختر 201. 0444 است. این یک رابطه خطی مثبت بین دو متغیر را نشان می دهد.
طرح پراکندگی: برای تشخیص یک رابطه خطی
برای به دست آوردن یک اندازه گیری از رابطه بین دو متغیر ، مقادیر مربوطه را در نمودارهایی که یکی از متغیرها در امتداد محور x و دیگری در امتداد محور Y قرار می گیرد ، ترسیم می کنیم. نمودار حاصل که مجموعه ای از نقاط را نشان می دهد ، نمودار پراکندگی نامیده می شود.
نحو برای تولید یک طرح پراکندگی در r
به عنوان مثال:-نمودار پراکنده از داده های ضریب هوشی مادر و دختر.
آزمون های همبستگی و اهمیت
ما یک آزمون فرضیه از "اهمیت ضریب همبستگی" را انجام می دهیم تا تصمیم بگیریم که آیا رابطه خطی در داده های نمونه به اندازه کافی قوی است که می تواند برای مدل سازی رابطه در جمعیت استفاده کند.
ρ = ضریب همبستگی جمعیت (ناشناخته)
R = ضریب همبستگی نمونه (شناخته شده ؛ از داده های نمونه محاسبه شده است)
آزمون فرضیه به ما اجازه می دهد تصمیم بگیریم که آیا ارزش ضریب همبستگی جمعیت "نزدیک به 0" است یا "به طور قابل توجهی با 0" متفاوت است. ما این را بر اساس ضریب همبستگی نمونه R و اندازه نمونه n تصمیم می گیریم.
اهمیت همبستگی در r
از عملکرد Cor. Test () برای آزمایش اینکه رابطه معنی دار است یا خیر ، استفاده می شود.
مثال زیر نتیجه آزمون اهمیت همبستگی انجام شده در مجموعه داده ضریب هوشی مادر و دختر را نشان می دهد.
همبستگی لحظه ای محصول پیرسون
داده ها: MOM_IQ و دختر_IQ
t = 4. 8136 ، df = 8 ، p-value = 0. 001332
فرضیه جایگزین: همبستگی واقعی برابر با 0 نیست
فاصله اطمینان 95 درصد: 0. 5087021 0. 9669150
مراقب همبستگی جزئی در پست بعدی باشید.
منبع
- آمار مدیریت (چاپ هفتم): -Richard L. Levin & David S. Rubin
Kavitha P. S یک MCA است. در حال حاضر وی به عنوان یک کارآموز ارشد تحلیلگر با Nikhilguru Consulting Analytics Service LLP ، Bangalore مشغول به کار است. او قبلاً 5 سال با UST-Global ، Trivandrum کار کرده است.
درباره نویسنده
دویتی
Dyuti علاقه مندان به تحلیلی است. او یک MBA در امور مالی و B. E در علوم کامپیوتر است. وی سالها تجربه در زمینه تحلیلی دارد و همچنین بنیانگذار ، مدیرعامل ، نیکیل آنالیتیکس است. او قبلاً با شرکت هایی مانند HCL Technologies ، Deutsche Bank ، WNS ، Reliance Capital و غیره همکاری کرده است.