رگرسیون خطی: راهنمای قطعی

رگرسیون خطی: راهنمای قطعی

رگرسیون خطی: راهنمای قطعی ، در آمار، رگرسیون خطی راهی برای بررسی رابطه بین دو متغیر است. اگر شغل شما شامل استفاده از آمار در عملیات روزمره است، یادگیری رگرسیون خطی احتمالاً تأثیر مثبتی بر نتایج حرفه ای شما خواهد داشت. دانستن اینکه رگرسیون خطی چیست و برای چه کاری باید از آن استفاده کرد، می تواند حرکت شغلی خوبی باشد، اما نیاز به تحقیق و تمرین دارد. در این مقاله، رگرسیون خطی چیست، کاربردهای اصلی آن، معادله رگرسیون خطی، نقاط پرت در رگرسیون خطی را مورد بحث قرار می‌دهیم و مثالی از رگرسیون خطی ارائه می‌کنیم.

رگرسیون خطی: راهنمای قطعی
رگرسیون خطی: راهنمای قطعی – تزیسمی

فهرست مطالب

رگرسیون خطی چیست؟- رگرسیون خطی: راهنمای قطعی

رگرسیون خطی روشی برای یافتن رابطه خطی بین متغیرها است. معمولاً هنگام تلاش برای تعیین مقدار یک متغیر بر اساس مقدار متغیر دیگر استفاده می شود. متغیر شناخته شده، متغیر مستقل یا توضیحی نامیده می شود، در حالی که متغیری که می خواهید پیش بینی کنید، متغیر وابسته یا پاسخ نامیده می شود.

دو نوع اصلی رگرسیون خطی وجود دارد:

. رگرسیون خطی ساده: از یک متغیر مستقل برای پیش‌بینی نتیجه یک متغیر وابسته استفاده می‌کند.
. رگرسیون خطی چندگانه: از دو یا چند متغیر مستقل برای پیش‌بینی نتیجه یک متغیر وابسته استفاده می‌کند.

هنگام انجام رگرسیون خطی ساده، فرضیات خاصی در مورد داده های موجود ایجاد می کنید. آن ها هستند:

. همگنی واریانس: اندازه خطای پیش بینی شده در تمام مقادیر متغیر مستقل تفاوت معنی داری ندارد.
. استقلال مشاهده: کلیه مشاهدات درون مجموعه داده ها از طریق روش های نمونه گیری معتبر آماری بدون هیچ رابطه پنهانی بین آنها جمع آوری شده است.
. نرمال بودن: توزیع نرمال داده ها وجود دارد
. رابطه خطی بین متغیرها: رگرسیون خطی فرض می کند که یک رابطه خطی بین متغیرهای مستقل و وابسته وجود دارد، به این معنی که خطی که از نقاط داده می گذرد مستقیم است.

انواع رگرسیون خطی با مثال- رگرسیون خطی: راهنمای قطعی

رگرسیون خطی یک نیروی محرکه مهم در پشت بسیاری از کاربردهای هوش مصنوعی و علم داده بوده است. این تکنیک آماری برای مشاغل مفید است زیرا روشی ساده، قابل تفسیر و کارآمد برای ارزیابی روندها و برآوردها یا پیش بینی های آینده است.

انواع مدل های رگرسیون خطی عبارتند از:

1. رگرسیون خطی ساده

رگرسیون خطی ساده همبستگی بین یک متغیر وابسته (ورودی) و یک متغیر مستقل (خروجی) را نشان می دهد. در درجه اول، این نوع رگرسیون موارد زیر را توصیف می کند:

. قدرت رابطه بین متغیرهای داده شده
مثال: رابطه بین سطوح آلودگی و افزایش دما.

. مقدار متغیر وابسته بر اساس مقدار متغیر مستقل است.
مثال: مقدار سطح آلودگی در یک دمای خاص.

2. رگرسیون خطی چندگانه

رگرسیون خطی چندگانه رابطه بین متغیرهای مستقل (دو یا بیشتر) و متغیر وابسته مربوطه را برقرار می کند. در اینجا متغیرهای مستقل می توانند پیوسته یا مقوله ای باشند. این نوع رگرسیون به پیش‌بینی روندها، تعیین مقادیر آینده و پیش‌بینی اثرات تغییرات کمک می‌کند.

مثال: وظیفه محاسبه فشار خون را در نظر بگیرید. در این حالت می توان قد، وزن و میزان ورزش را متغیرهای مستقل در نظر گرفت. در اینجا، می‌توانیم از رگرسیون خطی چندگانه برای تحلیل رابطه بین سه متغیر مستقل و یک متغیر وابسته استفاده کنیم، زیرا همه متغیرهای در نظر گرفته شده کمی هستند.

3. رگرسیون لجستیک

رگرسیون لجستیک – که به آن مدل لاجیت نیز گفته می شود – در مواردی که یک متغیر وابسته و متغیرهای مستقل بیشتری وجود دارد، قابل استفاده است. تفاوت اساسی بین رگرسیون چندگانه و لجستیک این است که متغیر هدف در رویکرد لجستیک گسسته است (دودویی یا یک مقدار ترتیبی). به این معنی که متغیر وابسته محدود یا مقوله ای است – یا P یا Q (رگرسیون باینری) یا طیفی از گزینه های محدود P، Q، R یا S.

مقدار متغیر فقط به دو نتیجه ممکن در رگرسیون خطی محدود می شود. با این حال، رگرسیون لجستیک به این موضوع می پردازد، زیرا می تواند یک امتیاز احتمالی را که شانس هر رویداد خاصی را نشان می دهد، برگرداند.

مثال: می توان احتمال انتخاب یک پیشنهاد در وب سایت شما (متغیر وابسته) را تعیین کرد. برای اهداف تجزیه و تحلیل، می‌توانید به ویژگی‌های مختلف بازدیدکننده مانند سایت‌هایی که از آن‌ها آمده‌اند، تعداد بازدیدکنندگان از سایت و فعالیت در سایت خود (متغیرهای مستقل) نگاه کنید. این می تواند به تعیین احتمال بازدیدکنندگان خاصی که احتمال بیشتری برای پذیرش پیشنهاد دارند کمک کند. در نتیجه، به شما این امکان را می دهد که تصمیمات بهتری در مورد اینکه آیا پیشنهاد را در سایت خود تبلیغ کنید یا خیر، بگیرید.

علاوه بر این، رگرسیون لجستیک به طور گسترده در الگوریتم‌های یادگیری ماشینی در مواردی مانند شناسایی ایمیل‌های هرزنامه، پیش‌بینی مبلغ وام برای مشتری و موارد دیگر استفاده می‌شود.

4. رگرسیون ترتیبی

رگرسیون ترتیبی شامل یک متغیر دوگانه وابسته و یک متغیر مستقل است که می تواند ترتیبی یا اسمی باشد. تعامل بین متغیرهای وابسته با چندین سطح مرتب شده با یک یا چند متغیر مستقل را تسهیل می کند.

برای متغیر وابسته با m دسته معادلات (m -1) ایجاد خواهد شد. هر معادله برای متغیرهای پیش‌بینی کننده، فاصله‌ای متفاوت اما ضرایب شیب یکسانی دارد. بنابراین، رگرسیون ترتیبی معادلات پیش‌بینی چندگانه را برای دسته‌های مختلف ایجاد می‌کند. در یادگیری ماشینی، رگرسیون ترتیبی به رتبه بندی یادگیری یا تجزیه و تحلیل رتبه بندی که با استفاده از یک مدل خطی تعمیم یافته (GLM) محاسبه می شود، اشاره دارد.

مثال: نظرسنجی را در نظر بگیرید که در آن پاسخ دهندگان قرار است به‌عنوان «موافق» یا «مخالف» پاسخ دهند. در برخی موارد، چنین پاسخ‌هایی کمکی نمی‌کنند، زیرا نمی‌توان نتیجه‌گیری قطعی به دست آورد و نتایج کلی را پیچیده می‌کند. با این حال، می‌توانید با افزودن سطوح به پاسخ‌ها، مانند موافق، کاملاً موافق، مخالف و کاملاً مخالف، نظم طبیعی را در دسته‌ها مشاهده کنید. بنابراین رگرسیون ترتیبی به پیش‌بینی متغیر وابسته با دسته‌بندی‌های متعدد با استفاده از متغیرهای مستقل کمک می‌کند.

5. رگرسیون لجستیک چند جمله ای

رگرسیون لجستیک چند جمله ای (MLR) زمانی انجام می شود که متغیر وابسته اسمی با بیش از دو سطح باشد. رابطه بین یک متغیر اسمی وابسته و یک یا چند متغیر مستقل سطح پیوسته (فاصله، نسبت یا دوگانه) را مشخص می کند. در اینجا، متغیر اسمی به متغیری اطلاق می‌شود که ترتیب ذاتی ندارد.

مثال: از logit چند جمله ای می توان برای مدل سازی برنامه های انتخاب شده توسط دانش آموزان مدرسه استفاده کرد. در این مورد، انتخاب های برنامه به یک برنامه حرفه ای، برنامه ورزشی و برنامه دانشگاهی اشاره دارد. انتخاب نوع برنامه را می توان با در نظر گرفتن ویژگی های مختلفی پیش بینی کرد، مانند اینکه دانش آموزان چقدر می توانند در مورد موضوعات ارائه شده بخوانند و بنویسند، جنسیت و جوایز دریافت شده توسط آنها.

در اینجا، متغیر وابسته، انتخاب برنامه هایی با سطوح چندگانه (نامرتب) است. تکنیک رگرسیون لجستیک چند جمله ای برای پیش بینی در چنین موردی استفاده می شود.

کاربردهای رگرسیون خطی- رگرسیون خطی: راهنمای قطعی

رگرسیون خطی در چندین زمینه استفاده می شود و کاربردهای عملی زیادی دارد. در اصل به دو صورت استفاده می شود:

. اگر هدف از استفاده از آن پیش‌بینی تکامل یک متغیر یا کاهش حاشیه خطا باشد، معمولاً برای مقایسه یک مدل پیش‌بینی‌کننده با مجموعه داده‌های مشاهده‌شده حاوی مقادیر پاسخ و متغیرهای توضیحی استفاده می‌شود. اگر پس از ایجاد مدل، هر مقدار متغیر توضیحی اضافی بدون مقادیر پاسخ متناظر تعیین شود، مدل پیشگو معمولاً برای پیش بینی استفاده می شود.
. اگر هدف از استفاده از رگرسیون خطی نشان دادن تغییرات در متغیر پاسخ است که تغییر در متغیرهای توضیحی ممکن است باعث شود، می توان آن را برای تعیین قدرت رابطه بین متغیرهای توضیحی و پاسخ تحلیل کرد. اغلب برای تعیین اینکه آیا برخی از متغیرهای توضیحی و پاسخ هیچ رابطه خطی با یکدیگر ندارند یا خیر استفاده می شود.

فیلدهایی که بیشتر از رگرسیون خطی استفاده می کنند عبارتند از:

. آمار: از آمار سرچشمه می گیرد و در مدل سازی آماری برای نشان دادن روابط بین متغیرهای وابسته و مستقل از مجموعه داده های مختلف استفاده می شود.
. یادگیری ماشین: این زمینه نسبتاً جدید همچنین از رگرسیون خطی، عمدتاً برای مدل‌سازی پیش‌بینی، با هدف نهایی محدود کردن حاشیه خطای مدل تا حد امکان استفاده می‌کند.
. امور مالی: متخصصان امور مالی رابطه خطی بین قیمت کالاها و قیمت سهام در مشاغلی را که با آن کالاها معامله می کنند تجزیه و تحلیل می کنند.
. فروش: متخصصان فروش رابطه بین متغیرهای مختلف را در تلاش برای پیش بینی فروش آینده تجزیه و تحلیل می کنند.

رگرسیون خطی چگونه کار می کند؟- رگرسیون خطی: راهنمای قطعی

در هسته خود، یک تکنیک رگرسیون خطی ساده تلاش می کند یک نمودار خطی بین دو متغیر داده، x و y ترسیم کند. به عنوان متغیر مستقل، x در امتداد محور افقی رسم می شود. متغیرهای مستقل را متغیرهای توضیحی یا متغیرهای پیش بینی نیز می نامند. متغیر وابسته y روی محور عمودی رسم می شود. همچنین می توانید به مقادیر y به عنوان متغیرهای پاسخ یا متغیرهای پیش بینی شده اشاره کنید.

مراحل رگرسیون خطی

برای این نمای کلی، ساده ترین شکل معادله نمودار خطی بین y و x را در نظر بگیرید. y=c*x+m، که در آن c و m برای تمام مقادیر ممکن x و y ثابت هستند. بنابراین، برای مثال، فرض کنید که مجموعه داده ورودی برای (x,y) (1،5)، (2،8)، و (3،11) باشد. برای شناسایی روش رگرسیون خطی، مراحل زیر را انجام دهید:

1. یک خط مستقیم رسم کنید و همبستگی بین 1 و 5 را اندازه بگیرید.
2. به تغییر جهت خط مستقیم برای مقادیر جدید (2،8) و (3،11) ادامه دهید تا زمانی که همه مقادیر متناسب شوند.
3. معادله رگرسیون خطی را به صورت y=3*x+2 مشخص کنید.
4. برون یابی یا پیش بینی کنید که y 14 است وقتی x است

رگرسیون خطی: راهنمای قطعی
رگرسیون خطی: راهنمای قطعی – تزیسمی

معادله رگرسیون خطی- رگرسیون خطی: راهنمای قطعی

معادله رگرسیون خطی ساده به صورت زیر است:

Y = a + bX + u

معادله رگرسیون خطی چندگانه به صورت زیر است:

Y = a + b1 x 1 + b2 x 2 + b3 x 3 + … + b + u

جایی که:

Y = متغیر وابسته (یا پاسخ).

X = متغیر مستقل (یا توضیحی).

b = شیب (یا شیب خط نمودار)

a = قطع (یا جایی که خط یک محور را قطع می کند)

u = رگرسیون باقیمانده (یا فاصله عمودی بین یک نقطه داده و خط رگرسیون)

تکنیک رگرسیون حداقل مربعات چیست؟

تکنیک رگرسیون حداقل مربعات نوعی تحلیل رگرسیونی است که هدف آن تعیین خط بهترین تناسب برای یک مجموعه داده است، که به خطی اشاره دارد که از یک نمودار پراکنده از نقاط داده عبور می کند که به بهترین نحو رابطه بین نقاط مربوطه را نشان می دهد. معمولاً در تحلیل رگرسیون خطی برای تعیین معادله هندسی خط مربوطه استفاده می شود. تحلیل رگرسیون ساده یک خط مستقیم ایجاد می کند، در حالی که یک رگرسیون با متغیرهای متعدد می تواند یک خط منحنی ایجاد کند.

پرت در رگرسیون خطی

نقاط پرت آماری نقاط داده ای هستند که تفاوت قابل توجهی با سایر مشاهدات دارند. آنها ممکن است ناشی از یک تغییر غیرعادی در مجموعه داده ها باشند، اما همچنین می تواند نشان دهد که در جایی از محاسبه خطایی رخ داده است. آنها می توانند به طور قابل توجهی بر نتایج تأثیر بگذارند، بنابراین تعیین صحیح منشأ آنها برای دقت رگرسیون بسیار مهم است.

دو روش اصلی برای تشخیص نقاط پرت در هنگام توسعه مدل های رگرسیون خطی عبارتند از:

. فاصله Mahalanobis: این شامل اندازه گیری فاصله بین یک نقطه انتخاب شده (P) و یک توزیع (D) است. هدف آن اندازه‌گیری فاصله بین P و میانگین D است که بر حسب تعداد انحرافات استاندارد محاسبه می‌شود.
. اهرم: اغلب در تحلیل رگرسیون استفاده می شود، اهرم راهی برای اندازه گیری فاصله بین مقادیر متغیر مستقل مشاهده و سایر مشاهدات است.

مثالی از رگرسیون خطی

این مثال از یک رگرسیون خطی ساده را در نظر بگیرید:

می توانید از رگرسیون خطی برای تعیین رابطه بین سن یک خودرو خاص و قیمت فروش پیش بینی شده آن استفاده کنید. به عنوان یک قاعده کلی، قیمت خودرو با افزایش سن به تدریج کاهش می یابد، به این معنی که بین قیمت خودرو (Y) و سن آن (X) رابطه منفی وجود دارد. با تجزیه و تحلیل رابطه بین سن خودرو و قیمت آن در سال های گذشته، می توان مدلی ایجاد کرد و پیش بینی کرد که قیمت در سال های آینده چگونه تغییر خواهد کرد.

رگرسیون خطی در یادگیری ماشین چیست؟

در یادگیری ماشینی، برنامه های کامپیوتری به نام الگوریتم، مجموعه داده های بزرگ را تجزیه و تحلیل می کنند و از آن داده ها برای محاسبه معادله رگرسیون خطی کار می کنند. دانشمندان داده ابتدا الگوریتم را بر روی مجموعه داده های شناخته شده یا برچسب گذاری شده آموزش می دهند و سپس از الگوریتم برای پیش بینی مقادیر ناشناخته استفاده می کنند. داده های واقعی پیچیده تر از مثال قبلی هستند. به همین دلیل است که تحلیل رگرسیون خطی باید مقادیر داده‌ها را برای برآوردن چهار فرض زیر از نظر ریاضی تغییر یا تبدیل کند.

رابطه خطی

یک رابطه خطی باید بین متغیرهای مستقل و وابسته وجود داشته باشد. برای تعیین این رابطه، دانشمندان داده یک نمودار پراکندگی ایجاد می کنند – مجموعه ای تصادفی از مقادیر x و y – تا ببینند آیا آنها در امتداد یک خط مستقیم قرار می گیرند یا خیر. اگر نه، می‌توانید توابع غیرخطی مانند جذر یا log را برای ایجاد رابطه خطی بین دو متغیر به صورت ریاضی اعمال کنید.

استقلال باقیمانده

دانشمندان داده از باقیمانده ها برای اندازه گیری دقت پیش بینی استفاده می کنند. باقیمانده تفاوت بین داده های مشاهده شده و مقدار پیش بینی شده است. باقیمانده ها نباید یک الگوی قابل شناسایی بین خود داشته باشند. به عنوان مثال، شما نمی خواهید باقیمانده ها با گذشت زمان بزرگتر شوند. برای تعیین استقلال باقیمانده می توانید از آزمون های ریاضی مختلف مانند آزمون دوربین واتسون استفاده کنید. می توانید از داده های ساختگی برای جایگزینی هر گونه تغییر داده مانند داده های فصلی استفاده کنید.

عادی بودن

تکنیک های نموداری مانند نمودارهای Q-Q تعیین می کنند که آیا باقیمانده ها به طور معمول توزیع شده اند یا خیر. باقیمانده ها باید در امتداد یک خط مورب در مرکز نمودار قرار گیرند. اگر باقیمانده ها نرمال سازی نشوند، می توانید داده ها را برای مقادیر پرت تصادفی یا مقادیری که معمولی نیستند آزمایش کنید. حذف نقاط پرت یا انجام تبدیل‌های غیرخطی می‌تواند مشکل را برطرف کند.

واریانس همسانی

Homoscedasticity فرض می کند که باقیمانده ها یک واریانس ثابت یا انحراف استاندارد از میانگین برای هر مقدار x دارند. در غیر این صورت، نتایج تجزیه و تحلیل ممکن است دقیق نباشد. اگر این فرض برآورده نشد، ممکن است مجبور شوید متغیر وابسته را تغییر دهید. از آنجا که واریانس به طور طبیعی در مجموعه داده های بزرگ رخ می دهد، تغییر مقیاس متغیر وابسته منطقی است. به عنوان مثال، به جای استفاده از اندازه جمعیت برای پیش بینی تعداد ایستگاه های آتش نشانی در یک شهر، ممکن است از اندازه جمعیت برای پیش بینی تعداد ایستگاه های آتش نشانی به ازای هر نفر استفاده شود.

یک دیدگاه ثبت کنید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *