همبستگی جعلی چیست؟

همبستگی جعلی چیست؟

همبستگی جعلی چیست؟ ، زمانی که دو یا چند متغیر به نظر می رسد رابطه علت و معلولی دارند، همبستگی های کاذب در آمار رخ می دهد. این همبستگی ها به ندرت یک رابطه علّی واقعی دارند، حتی اگر به نظر می رسد که یک رابطه علّی دارند. یادگیری در مورد این همبستگی ها می تواند به شما درک بهتری از ویژگی ها و رفتارهای یک مجموعه داده بدهد.

در این مقاله، همبستگی کاذب را تعریف می‌کنیم، در مورد تعاریف «همبستگی» و «علیت» بحث می‌کنیم، مراحل چگونگی شناسایی این همبستگی‌ها را ارائه می‌کنیم و مثال‌هایی را برای بینش بیشتر در مورد این رابطه آماری به اشتراک می‌گذاریم.

همبستگی جعلی چیست؟
همبستگی جعلی چیست؟ – تزیسمی

فهرست مطالب

همبستگی کاذب چیست؟

همبستگی کاذب یک رابطه ریاضی بین دو متغیر است که از نظر آماری با یکدیگر مرتبط هستند، اما بدون یک متغیر مشترک به طور تصادفی با یکدیگر ارتباط ندارند. در تحلیل آماری، به همبستگی زیاد بین دو متغیر به دلیل عامل یا متغیر سوم اشاره دارد. این رابطه بین متغیرها با معرفی یک متغیر غیر معمول ناپدید می شود و ممکن است با معرفی عامل سوم یا متغیر مشترک ظاهر شود. رابطه علّی یک رابطه علت و معلولی بین دو متغیر را توصیف می کند که در آن یکی کاری را انجام می دهد که مستقیماً بر دیگری تأثیر می گذارد.

در متغیر مداخله گر، رابطه علت و معلولی بین دو متغیر تصادفی یا به دلیل عامل مزاحم سومی است که بر هر دو متغیر تأثیر می گذارد. به عنوان مثال، اگر متوجه شدید که هزینه تحصیلات عالی و هزینه زندگی افزایش می‌یابد، این تغییر در هر دو متغیر به این معنی نیست که رابطه علی بین این دو وجود دارد، زیرا افزایش هزینه زندگی لزوماً علت آن نیست. شهریه آموزش عالی در این مثال، ممکن است تغییر در هر دو هزینه را به افزایش تورم یا سایر عوامل کلان اقتصادی نسبت دهید که در نتیجه چنین همبستگی هایی با یک عامل مخدوش کننده ایجاد می شود.

تعاریف همبستگی در مقابل علیت- همبستگی جعلی چیست؟

در آمار، شما می توانید روابط و رفتارهای متغیرهای متعدد را برای به دست آوردن بینش در مورد مطالعه خود تجزیه و تحلیل کنید. روابطی که بین متغیرها به وجود می آیند همبستگی یا علی هستند و می توانند مستقیماً با یکدیگر مرتبط باشند یا پیوند واقعی نداشته باشند. در اینجا تعاریف آنها آمده است:

همبستگی

همبستگی جهت و اندازه دو یا چند متغیر را در یک مجموعه داده اندازه گیری می کند. این بدان معناست که هنگام بررسی مدل های آماری، اگر یک متغیر تغییر کند یا در جهت خاصی حرکت کند، متغیر دیگری تغییر می کند. وقتی رفتارهایی مانند این بین متغیرهای مطالعه ظاهر می شود، آماردانان می توانند یک همبستگی یا پیوند بین نمونه ها را فرض کنند. این رابطه می تواند به عنوان هر همبستگی ظاهر شود تا زمانی که جعلی بودن نمونه را شناسایی کنید و مشخص کنید که چه چیزی باعث ایجاد چنین روابطی می شود. سه نوع اصلی همبستگی که می تواند در هر مطالعه مشخص رخ دهد عبارتند از:

1. همبستگی مثبت: نشان دهنده تغییر مثبت در یک متغیر به دلیل دیگری است
2. همبستگی منفی: نشان دهنده تغییر منفی در یک متغیر به دلیل دیگری است
3. همبستگی صفر: نشان دهنده عدم ارتباط آشکار بین دو یا چند متغیر است

علیت

روابط علّی اساساً روابط علت و معلولی هستند. این بدان معنی است که یک یا چند متغیر مستقیماً بر متغیرهای دیگر تأثیر می گذارد تا نتیجه ای ایجاد کند. به عنوان مثال، اگر یک قایق سوراخ داشته باشد، سوراخ باعث نشتی و نشتی باعث پر شدن قایق از آب می شود. متغیرها قایق، سوراخ و آب هستند. سوراخ در قایق به طور مستقیم بر افزایش نشت آب به داخل آن تأثیر می گذارد و باعث تغییر نامطلوب در شناوری قایق می شود.

این مثال رابطه علت و معلولی می تواند به شما در درک چگونگی نسبت دادن روابط علی به عاملی که مستقیماً بر یک متغیر تأثیر می گذارد کمک کند. روابط همبستگی فقط دو یا چند متغیر را به هم پیوند می دهند و یک ارتباط ممکن را تشکیل می دهند.

درک همبستگی جعلی- همبستگی جعلی چیست؟

روابط جعلی در ابتدا نشان می دهد که یک متغیر مستقیماً بر دیگری تأثیر می گذارد، اما اینطور نیست. این همبستگی گمراه‌کننده اغلب توسط عامل سومی ایجاد می‌شود که در زمان معاینه آشکار نیست، که گاهی اوقات عامل مخدوش‌کننده نامیده می‌شود.

هنگامی که دو متغیر تصادفی یکدیگر را از نزدیک در یک نمودار دنبال می کنند، به راحتی می توان به همبستگی مشکوک شد که در آن تغییر در یک متغیر باعث تغییر در متغیر دیگر می شود. با کنار گذاشتن علیت، که موضوع دیگری است، این مشاهده می تواند خواننده نمودار را به این باور برساند که حرکت متغیر A به حرکت در متغیر B یا بالعکس مرتبط است.

با این حال، بررسی آماری دقیق تر ممکن است نشان دهد که حرکات هم تراز تصادفی یا ناشی از عامل سومی است که بر دو متغیر تأثیر می گذارد. این یک همبستگی ساختگی است. تحقیقات انجام شده با حجم نمونه کوچک یا نقاط پایانی دلخواه، به ویژه در معرض جعلی بودن هستند.

آمار همبستگی به شما چه می گوید؟- همبستگی جعلی چیست؟

تنوع مخدوش کننده می تواند به شما در مورد روابط بین داده های مختلف در یک نمونه اطلاع دهد. آمارشناسان هنگام تجزیه و تحلیل نمونه ها برای آزمایش نظریه ها و فرضیه ها، به دنبال روابط علت و معلولی بین متغیرهایی هستند که آزمایش می کنند. آنها می توانند ارزیابی کنند که آیا رابطه بین دو یا چند متغیر تصادفی است یا نتیجه یک عامل مخدوش کننده سوم در صورت تشکیل همبستگی های مخدوش کننده.

چگونه یک همبستگی جعلی را شناسایی کنیم؟- همبستگی جعلی چیست؟

متخصصانی که داده ها را در حرفه خود تجزیه و تحلیل می کنند به طور مداوم به دنبال روابط بین متغیرها در مطالعات خود هستند. این به معنای استفاده از رویکردهای مختلف برای شناسایی و محاسبه این همبستگی ها است. در اینجا آمده است که چگونه آماردانان، تحلیلگران داده و سایر محققان چنین همبستگی هایی را پیدا می کنند:

1. از حجم نمونه کافی اطمینان حاصل کنید

افراد حرفه ای که با داده ها کار می کنند می توانند اطمینان حاصل کنند که اندازه نمونه کافی را به دست می آورند. اگر اندازه نمونه خیلی کوچک باشد، به احتمال زیاد دارای تنوع گیج کننده است زیرا داده های کافی برای ایجاد دیدگاه گسترده تر در مورد رفتار نمونه ها وجود ندارد. این سناریو می تواند یک رابطه بین رخدادهایی ایجاد کند که داده ها در یک نمونه بزرگتر رفتار متفاوتی داشته باشند.

2. داده ها را برای نقاط پایانی دلخواه ارزیابی کنید

نقاط پایانی دلخواه نتایج یا نتایجی هستند که به نظر می رسد هیچ دلیل یا ارتباطی با رفتار متغیرها در مطالعه ندارند. در برخی از مطالعات، مانند مطالعات پزشکی یا دارویی، نقاط پایانی به شما اطلاع می‌دهند که آیا نتایجی که آزمایش کرده‌اید می‌تواند برای تحقیقات مفید باشد یا خیر. در صورت بروز این سناریوها، احتمالاً یک متغیر گیج کننده است.

3. کنترل برای متغیرهای خارجی

هنگامی که آماردانان مطالعات، آزمایش‌ها یا سایر آزمایش‌ها را توسعه می‌دهند، همه عوامل مؤثر بر متغیرهای مجموعه نمونه را در نظر می‌گیرند. آنها این عوامل را ارزیابی می کنند تا بفهمند که چگونه بر داده ها هنگام تجزیه و تحلیل داده ها تأثیر می گذارد. درک اینکه چگونه عوامل خارجی بر داده‌هایی که مطالعه می‌کنند تأثیر می‌گذارد، می‌تواند به آماردانان کمک کند تا تعیین کنند آیا روابط بین رفتار متغیرها قابل دوام است یا همبستگی‌های مخدوش‌کننده. انجام یک تحلیل علی و شناسایی متغیرهای مداخله گر را در نظر بگیرید که ممکن است همبستگی های مخدوش کننده ای بین متغیرهای نامرتبط ایجاد کند.

به عنوان مثال، دمای بالا می تواند باعث افزایش فروش کرم های ضد آفتاب و رفتن افراد به شنا شود. افزایش تعداد افرادی که در حال شنا هستند می تواند باعث افزایش تعداد تصادفات استخر شود. فروش کرم های ضدآفتاب و حوادث استخرهای شنا ربطی به هم ندارند، اما با تغییرات دما، افزایش و کاهش می یابند که باعث ایجاد تغییرات مخدوش کننده بین آنها می شود. شما می توانید احتمال متغیرهای خارجی را با تصادفی سازی مطالعه یا استفاده از متغیرهای کنترلی حذف کنید تا شرایط محیطی تا حد ممکن سازگار باشد. تصادفی سازی عوامل مخدوش کننده بین گروه های محیطی را برابر می کند و احتمال چنین همبستگی ها را کاهش می دهد.

4. از فرضیه صفر استفاده کنید

فرضیه صفر یک نظریه آماری است که بیان می کند هیچ رابطه ای بین متغیر وابسته و مستقل وجود ندارد. می تواند نشان دهد که کنترل یک متغیر بر دیگری تأثیر نمی گذارد. اگر همبستگی که از نمونه داده ها محاسبه می کنید در کمتر از 5 درصد نمونه داده ها رخ دهد، می توانید فرضیه صفر را رد کنید.

رد اشتباه یک فرضیه صفر واقعی می تواند باعث خطای نوع I شود. یک خطای نوع I زمانی است که شما به اشتباه یک فرضیه صفر واقعی را که نتایج مثبت کاذب ارائه می دهد رد می کنید و منجر به پذیرش یک همبستگی گیج کننده می شود. در مقابل، شما همچنین می توانید با رد یک فرضیه صفر نادرست، یک خطای نوع II ایجاد کنید.

نمونه هایی از همبستگی جعلی- همبستگی جعلی چیست؟

در اینجا نمونه هایی از نشان دادن همبستگی های جعلی در رویدادهای روزمره آورده شده است:

مثال واقعیت مجازی

نمودار روند صعودی فروش بازی های واقعیت مجازی (VR) و افزایش تعداد دانشجویانی که در یک سال خاص با مدرک کارشناسی ارشد در فناوری فارغ التحصیل می شوند را نشان می دهد. با توجه به علاقه و تعامل دانش آموزان با فناوری واقعیت مجازی، افراد بیشتری مدارک فناوری خود را به پایان می برند. اگر کاربران بازی‌های واقعیت مجازی دانش‌آموزان دبیرستانی در همان سالی باشند که تعداد فارغ‌التحصیلان فناوری افزایش می‌یابد، این یک همبستگی کاذب می‌شود. عامل بیرونی سن این رابطه را باطل می کند زیرا دانش آموزانی که هنوز در دبیرستان هستند به احتمال زیاد همزمان با مدرک کارشناسی ارشد فارغ التحصیل نمی شوند.

نمونه پارک موضوعی

محققان به این نتیجه رسیدند که بین افزایش تعداد فروش بلیت پارک های آبی و تعداد فروش بستنی در سوپرمارکت ها رابطه وجود دارد. اگرچه هر دو تعداد فروش در حال افزایش هستند، بعید است که افزایش فروش بستنی سوپرمارکت باعث افزایش فروش در پارک های موضوعی شود. به همین ترتیب، به دلیل فروش بیشتر بستنی، افزایش فروش بلیط پارک موضوعی بعید است.

یک عامل مخدوش کننده سوم نیز وجود دارد. این مطالعه در طول تابستان انجام می شود، بنابراین علت هر دو افزایش فروش احتمالا گرما است. دمای بالاتر در تابستان به احتمال زیاد باعث می‌شود افراد بیشتری بلیط پارک آبی و خوراکی‌های سرد مانند بستنی را در سوپرمارکت‌های خود خریداری کنند.

مثال مصرف مواد غذایی

افزایش جمعیت باعث افزایش مصرف مواد غذایی و نرخ توسعه زیرساخت ها در کشور می شود. هیچ رابطه ای بین مصرف مواد غذایی و نرخ توسعه زیرساخت وجود ندارد، اما تغییر در اندازه جمعیت به طور مشابه بر آنها تأثیر می گذارد. بعید به نظر می رسد که افزایش مصرف غذا بر نرخ توسعه زیرساخت ها تأثیر بگذارد و بالعکس، اما اندازه جمعیت عامل مخدوش کننده است.

همبستگی جعلی چیست؟
همبستگی جعلی چیست؟ – تزیسمی

مثالی از همبستگی اما نه علیت چیست؟- همبستگی جعلی چیست؟

یک مثال از یک همبستگی این است که خواب بیشتر منجر به عملکرد بهتر در طول روز می شود. اگرچه یک همبستگی وجود دارد، اما لزوماً علی وجود ندارد. خواب بیشتر ممکن است دلیل عملکرد بهتر فرد نباشد. برای مثال، آنها ممکن است از یک ابزار نرم افزاری جدید استفاده کنند که بهره وری آنها را افزایش می دهد. برای یافتن علت، باید شواهد واقعی از یک مطالعه وجود داشته باشد که رابطه علی بین خواب و عملکرد را نشان دهد.

رگرسیون جعلی چیست؟

رگرسیون جعلی یک مدل آماری است که شواهد آماری گمراه‌کننده‌ای از یک رابطه خطی را نشان می‌دهد. به عبارت دیگر، یک همبستگی کاذب بین متغیرهای مستقل غیر ثابت.

علیت کاذب چیست؟

علیت کاذب به این فرض اشاره دارد که یک چیز به دلیل رابطه بین آنها باعث چیز دیگری می شود. به عنوان مثال، ممکن است فرض کنیم که هری به سختی تمرین کرده است تا به یک دونده سریع‌تر تبدیل شود، زیرا زمان مسابقه او بهبود یافته است. با این حال، واقعیت ممکن است این باشد که زمان مسابقه هری بهبود یافته است، زیرا او کفش‌های دویدن جدید ساخته شده با آخرین فناوری را دارد. فرض اولیه یک علیت نادرست بود.

تشخیص و پیشگیری از همبستگی های جعلی

بهترین راه برای تشخیص همبستگی جعلی از طریق دانش موضوعی است. ایجاد روابط علّی می تواند مشکل باشد. هیچ آزمون آماری وجود ندارد که بتواند آن را ثابت کند. در عوض، تحلیلگران اغلب نیاز دارند که سایر علل و جعلی بودن را رد کنند.

از دانش موضوعی خود برای ارزیابی همبستگی ها و پرسیدن سؤالات زیادی استفاده کنید:

آیا آنها به عنوان روابط علی معنا پیدا می کنند؟
آیا آنها با نظریه تثبیت شده مطابقت دارند؟
آیا می توانید مکانیزمی برای علیت پیدا کنید؟
آیا پیوند مستقیمی وجود دارد یا متغیرهای واسطه درگیر هستند؟

معیارهای زیادی می توانند به شما در ارزیابی همبستگی ها کمک کنند. برای اطلاعات بیشتر، پست من در مورد معیارهای هیل برای علت را برای چند نمونه بخوانید.

روش های مختلف آماری و تجربی می تواند به کاهش همبستگی های جعلی کمک کند. به طور خاص، این روش ها می توانند از ایجاد همبستگی های کاذب توسط متغیرهای مخدوش کننده جلوگیری کنند.

در یک مطالعه تصادفی، تصادفی سازی تمایل به یکسان سازی عوامل مخدوش کننده بین گروه های آزمایشی و در نتیجه کاهش خطر همبستگی کاذب دارد. علاوه بر این، می‌توانید از متغیرهای کنترلی برای ثابت نگه داشتن شرایط آزمایشی تا حد امکان استفاده کنید. درباره تخصیص تصادفی در آزمایش‌ها بیشتر بدانید.

تطبیق تکنیک دیگری است که می تواند خطر همبستگی های کاذب را به دلیل عوامل مخدوش کننده کاهش دهد. این فرآیند شامل انتخاب شرکت کنندگان مطالعه با ویژگی های مشابه خارج از متغیر مورد علاقه برای گروه های درمان و کنترل است. در مقاله من در مورد مطالعات مشاهده ای درباره تطبیق بیشتر بیاموزید.

تحلیل رگرسیون چندگانه می‌تواند با استفاده از مدل‌هایی که متغیرهای مخدوش‌کننده را به حساب می‌آورند، از همبستگی کاذب جلوگیری کند. این رویکرد از نظر آماری گیج کننده را کنترل می کند. درباره نحوه کنترل رگرسیون متغیرهای مخدوش کننده بیشتر بدانید.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *