همبستگی

  • 2022-05-27

همبستگی یک معیار آماری است که میزان ارتباط خطی دو متغیر را بیان می کند (به این معنی که آنها با هم با یک نرخ ثابت تغییر می کنند). این یک ابزار رایج برای توصیف روابط ساده بدون اظهار نظر در مورد علت و معلول است.

همبستگی چگونه اندازه گیری می شود؟

ضریب همبستگی نمونه، r، قدرت رابطه را کمی نشان می دهد. همبستگی ها برای معنی دار بودن آماری نیز آزمایش می شوند.

برخی از محدودیت های تحلیل همبستگی چیست؟

همبستگی نمی تواند حضور یا تأثیر سایر متغیرها را خارج از دو مورد بررسی قرار دهد. مهم این است که همبستگی در مورد علت و معلول به ما نمی گوید. همبستگی همچنین نمی تواند به طور دقیق روابط منحنی را توصیف کند.

همبستگی ها حرکت داده ها را با هم توصیف می کنند

همبستگی ها برای توصیف روابط ساده بین داده ها مفید هستند. به عنوان مثال، تصور کنید که به مجموعه داده ای از کمپینگ ها در یک پارک کوهستانی نگاه می کنید. می خواهید بدانید که آیا رابطه ای بین ارتفاع کمپ (چقدر از کوه بلند است) و میانگین دمای بالا در تابستان وجود دارد یا خیر.

برای هر اردوگاه جداگانه، دو معیار دارید: ارتفاع و دما. وقتی این دو متغیر را در نمونه خود با همبستگی مقایسه می کنید، می توانید یک رابطه خطی پیدا کنید: با افزایش ارتفاع، دما کاهش می یابد. همبستگی منفی دارند.

اعداد همبستگی به چه معناست؟

ما همبستگی ها را با یک اندازه گیری بدون واحد به نام ضریب همبستگی توصیف می کنیم که ا ز-1 تا +1 متغیر است و با r نشان داده می شود. اهمیت آماری با مقدار p نشان داده می شود. بنابراین، همبستگی ها معمولاً با دو عدد کلیدی نوشته می شوند: r = و p = .

  • هر چه r به صفر نزدیکتر باشد، رابطه خطی ضعیف تر است.
  • مقادیر r مثبت یک همبستگی مثبت را نشان می دهد، که در آن مقادیر هر دو متغیر تمایل به افزایش با هم دارند.
  • مقادیر r منفی یک همبستگی منفی را نشان می دهد، که در آن مقادیر یک متغیر با کاهش مقادیر متغیر دیگر تمایل به افزایش دارند.
  • p-value شواهدی به ما می دهد که به طور معنی داری می توانیم نتیجه بگیریم که ضریب همبستگی جمعیت احتمالاً بر اساس آنچه از نمونه مشاهده می کنیم با صفر متفاوت است.
  • "اندازه گیری بدون واحد" به این معنی است که همبستگی ها در مقیاس خودشان وجود دارند: در مثال ما، عدد داده شده برای r در مقیاس ارتفاع یا دما نیست. این با سایر آمارهای خلاصه متفاوت است. به عنوان مثال، میانگین اندازه‌گیری‌های ارتفاع در مقیاسی مشابه با متغیر آن است.

مقدار p چیست؟

p-value معیاری از احتمال است که برای آزمون فرضیه استفاده می شود.

این نشان دهنده احتمال به دست آوردن داده هایی است که در صورت عدم وجود اثر می بینیم - به عبارت دیگر، در مورد فرضیه صفر. برای داده های اردوگاه ما، این فرضیه است که هیچ رابطه خطی بین ارتفاع و دما وجود ندارد. هنگامی که یک مقدار p برای توصیف یک نتیجه از نظر آماری معنی دار استفاده می شود، به این معنی است که از یک برش از پیش تعریف شده (به عنوان مثال، p

هنگامی که همبستگی قابل توجهی به دست آوردیم ، می توانیم به قدرت آن نیز نگاه کنیم. یک همبستگی مثبت کامل دارای مقدار 1 است و یک همبستگی منفی کامل دارای مقدا ر-1 است. اما در دنیای واقعی ، ما هرگز انتظار نداریم که یک همبستگی کامل را ببینیم ، مگر اینکه یک متغیر در واقع یک اندازه گیری پروکسی برای دیگری باشد. در حقیقت ، دیدن یک شماره همبستگی کامل می تواند شما را نسبت به خطایی در داده های شما هشدار دهد!به عنوان مثال ، اگر به طور تصادفی فاصله از سطح دریا را برای هر اردوگاه به جای دما ثبت کنید ، این امر کاملاً با ارتفاع ارتباط دارد.

یکی دیگر از اطلاعات مفید N یا تعداد مشاهدات است. مانند اکثر آزمایشات آماری ، دانستن اندازه نمونه به ما کمک می کند تا در مورد قدرت نمونه خود قضاوت کنیم و چقدر خوب جمعیت را نشان می دهد. به عنوان مثال ، اگر ما فقط برای پنج اردوگاه ارتفاع و دما را اندازه گیری کنیم ، اما این پارک دارای دو هزار اردوگاه است ، می خواهیم اردوگاه های بیشتری را به نمونه خود اضافه کنیم.

تجسم همبستگی با پراکندگی

از بالا به مثال ما بازگشت: با افزایش ارتفاع اردوگاه ، دما کاهش می یابد. ما می توانیم مستقیماً با یک پراکندگی به این موضوع نگاه کنیم. تصور کنید که ما داده های اردوگاه خود را ترسیم کرده ایم:

  • هر نقطه از طرح نشان دهنده یک اردوگاه است که می توانیم با ارتفاع و درجه حرارت بالا در یک محور x و y قرار دهیم.
  • ضریب همبستگی (R) همچنین پراکندگی ما را نشان می دهد. این به ما می گوید ، از نظر عددی ، چقدر نزدیکترین نقاط نقشه برداری شده در ScatterPlot به یک رابطه خطی نزدیک می شوند. روابط قوی تر یا ارزشهای بزرگتر R ، به معنای روابط است که نقاط بسیار نزدیک به خطی هستند که ما متناسب با داده ها هستیم.

در مورد روابط پیچیده تر چیست؟

Scatterplots همچنین برای تعیین اینکه آیا در داده های ما وجود دارد که ممکن است یک همبستگی دقیق را مختل کند ، مانند الگوهای غیرمعمول مانند یک رابطه منحنی یا یک فاصله شدید ، مفید است.

همبستگی ها نمی توانند به طور دقیق روابط منحنی را ضبط کنند. در یک رابطه منحنی ، متغیرها در یک جهت معین تا یک نقطه خاص ، جایی که رابطه تغییر می کند ، با هم ارتباط دارند.

به عنوان مثال ، تصور کنید که ما به ارتفاعات اردوگاه خود نگاه کردیم و به طور متوسط اردوگاه ها به طور متوسط هر اردوگاه را چقدر ارزیابی می کنیم. شاید در ابتدا ، ارتفاعات و رتبه بندی اردوگاه همبستگی مثبت داشته باشند ، زیرا اردوگاه های بالاتر از پارک بهتر می گیرند. اما در یک نقطه خاص ، ارتفاعات بالاتر با رتبه های اردوگاه همبستگی منفی می کنند ، زیرا اردوگاه ها در شب احساس سرما می کنند!

ما می توانیم با افزودن بیضی های چگالی سایه دار به پراکندگی خود ، بینش بیشتری کسب کنیم. بیضی تراکم ، متراکم ترین منطقه نقاط را در یک پراکندگی نشان می دهد ، که به نوبه خود به ما کمک می کند تا قدرت و جهت همبستگی را ببینیم.

بیضی های چگالی می توانند اندازه های مختلفی باشند. یکی از انتخاب های مشترک برای بررسی همبستگی ، بیضی چگالی 95 ٪ است که تقریباً 95 ٪ از مشاهدات را ضبط می کند. اگر دو متغیر مانند ارتفاع و درجه حرارت اردوگاه های ما در حال حرکت باشند ، انتظار داریم این آرامی بیضوی چگالی شکل خط را ببینیم. و می توانیم ببینیم که در یک رابطه منحنی ، بیضوی چگالی به نظر می رسد: یک همبستگی توضیحی معنی دار از این رابطه به ما نمی دهد.

ثبت دیدگاه

مجموع دیدگاهها : 0در انتظار بررسی : 0انتشار یافته : ۰
قوانین ارسال دیدگاه
  • دیدگاه های ارسال شده توسط شما، پس از تایید توسط تیم مدیریت در وب منتشر خواهد شد.
  • پیام هایی که حاوی تهمت یا افترا باشد منتشر نخواهد شد.
  • پیام هایی که به غیر از زبان فارسی یا غیر مرتبط باشد منتشر نخواهد شد.