Biostatistics - Epidemiology

 Ibrahim Alghamdi

Subtitle

                                                         Multiple Linear Regression                     الإنحدار الخطي المتعدد

  

تحليل الإنحدار الخطي المتعدد

 

 يستخدم تحليل الإنحدار الخطي المتعدد لدراسة العلاقة أو التنبأ بين عدة متغيرات مستقلة مع المتغير التابع المستمر. المتغيرات المستقلة التفسيرية قد تكون مستمرة أو فئوية فإذا قام الباحث بدراسة أثر أكثر من متغير واحد مستقل على متغير تابع مستمر فأنه يستخدم في هذه الحالة تحليل الإنحدار الخطي المتعدد ، فعلى سبيل المثال استخدام العمر والجنس كمتغير مستمر والآخر فئوي للتنبؤ بمقياس ضغط الدم الذي يعتبر متغير تابع مستمر

   

 المطلوب في الإنحدار الخطي المتعدد

  إثنان أو أكثر من المتغيرات المستقلة الكمية أو النوعية مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

 واحد متغير تابع كمي النوع مثل الطول ، ضغط الدم ، نسبة الكوليسترول

 

 يساعدنا استخدام الإنحدار الخطي المتعدد في التالي

 أولا : التنبأ بقيم المتغير التابع ( متغير النتيجة ) عن طريق معرفتنا بقيم المتغيرات المستقلة التفسيرية ذات الدلالة الإحصائية فلو افترضنا بأن عدد الكتب المقرؤة قبل الإختبار ونوع الجنس الطالب  يمثلان المتغيران المستقلين بتأثيرهما على المتغير التابع ( درجات الطلاب في مادة الإحصاء الحيوي ) وبذلك نتنبأ بدرجات الطلاب من خلال عدد الكتب المقرؤة بعد ضبط جنس الطالب كان ذكرا أو أنثى

 ثانيا : تحديد مقدار التباين والإختلاف في المتغير التابع بنموذج الإنحدار والمفسر من قبل المتغيرات المستقلة ذات الدلالة الإحصائية فلو افترضنا بأن عدد الساعات التي يقضيها الشخص في ممارسة الرياضة ونوع الجنس يمثلان المتغيران المستقلين بتأثيرهما على المتغير التابع ( نسبة الكوليسترول في الدم ) وبذلك نستطيع أن نقدر التباين المفسر من قبل هذه المتغيرات المستقلة على المتغير التابع بأستخدام معامل التحديد

 

 معادلة خط الإنحدار المتعدد

 Y = a (b0) + b1X1 + b2X2 + b3X3 + .........

 

 تعني المتغير التابع الذي يتأثر بالمتغير المستقل  Y

 تعني الثابت وهو قيمة المتغير التابع عندما تكون قيمة المتغير المستقل صفر  A

   تعني ميل الخط المستقيم الذي يوضح مقدار قيمة التغير في المتغير التابع في حالة التغير بوحدة واحدة للمتغير المستقل  B

تعني المتغير المستقل الذي يؤثرعلى المتغير التابع X

 

  شروط الإنحدار الخطي المتعدد

  أولا : يجب أن تكون العينة كبيرة وممثلة للسكان

 ثانيا : يجب أن يكون هناك علاقة ارتباط بين المتغيرات المستقلة والمتغير التابع

 ثالثا : تجانس التباين خلال فترة النموذج

 رابعا : يجب أن يكون الإرتباط بين المتغيرات التفسيرية ضعيف

 خامسا : يجب أن يكون توزيع البقايا ذو التوزيع الطبيعي

 

 أمور هامة يجب أن يتم أخذها في الإعتبار قبل بناء النموذج

 أولا : تحليل البقايا وتجانس التباين

البقايا هي المسافة بين القيم المتنبأ بها والقيم الملاحظة الحقيقية . يجب أن تكون ذات توزيع طبيعي قبل بناء النموذج ويتم تحقيق ذلك عن طريق مخطط التشتت للبقايا ضد القيم المتنبأ بها وكذلك ضد المتغيرات التفسيرية المستقلة. عندما تحسب قيم البقايا لجميع العناصر في الدراسة يتم استبعاد وحذف القيم الخارجة عن نطاق التوزيع الطبيعي بمعنى أنه اذا كان هناك قيم خارج مدى ثلاث انحرافات معيارية أو تزيد عن القيمة -3 أو +3 يتم استبعادها حيث من المتوقع ان تكون نسبة القيم خارج هذا النطاق 1% ويتضح ذلك من نسبة البيانات الواقعة تحت ثلاثة انحرافات معيارية 99% ويبقى منها الواحد في المئة

 إذا كان هناك علاقة خطية بين المتغير المستقل والمتغير التابع وتحقق التوزيع الطبيعي للمتغير التابع مع كل قيمة من المتغير المستقل فأن توزيع البقايا يجب أن يكون طبيعيا كذلك

 

 ثانيا : العلاقة الخطية المتداخلة

 هي التي تتمثل في الإرتباط بين متغيرين أو أكثر من المتغيرات المستقلة التفسيرية. عندما يكون هناك ارتباط عالي بين أثنين من المتغيرات المستقلة ويتم بناء نموذج الإنحدار فتكون نتيجة معامل الإنحدار غير دقيقة والخطأ المعياري كبير في معاملات بيتا وبالتالي لا يمثل النموذج القيم الصحيحة التي نهدف إليها. يجب أن لا تكون العلاقة بين المتغيرات المستقلة في نموذج الإنحدار أكبر من 0.70

 نستطيع تقدير العلاقة الخطية المتداخلة في النموذج بأستخدام معامل التضخيم للتباين بالطريقة التالية

 

Variance Inflation Factor ( VIF ) = 1/ (1 - R2) 

 إذا كانت قيم معامل التضخم للتباين اكبر من 4 فهذا يعني وجود علاقة خطية متداخلة ولابد من استبعاد المتغير المستقل الذي لديه تلك القيمة ولكن كلما اقتربت قيمة معامل التضخم للتباين من الصفر كان دليل على عدم وجود العلاقة الخطية المتداخلة

  

هناك قياس اخر يدعى التحمل ويمكن حسابه بالطريقة التالية

 

Tolerance = ( 1- R2 )

 

 إذا كانت قيم التحمل قريبة من الصفر فهذا يعني وجود علاقة خطية متداخلة حيث تشير القيم الإقل من 0.2 إلى هذه العلاقة بينما كلما اقتربت قيمة التحمل من القيمة 1 فهذا دليل على عدم وجود علاقة خطية متداخلة

 

VIF عامل التضخيم Tolerance التحمل  R الإرتباط
1.07  0.94 0.25
1.33  0.75  0.50
1.96  0.51   0.70 
5.26  0.19    0.90  
10.26  0.10   0.95 

  

  ثالثا : تحليل البقايا للمتغيرات التفسيرية المتعددة عن طريق المشاهدات المتطرفة ( الليفريج ) والتناقض ومسافة كوك

 

 Leverage, discrepancy and cook's distance                          

 

 الليفريج ( قوة الرافعة ) هو المقياس الذي يستخدام لمعرفة قيم المشاهدات التي تؤثر على ميل خط الإنحدار حيث يتم حسابه عن طريق استخدام قيم البيانات التفسيرية التي تقيس نقاط القيم المتطرفة في تلك البيانات ونهدف من تحليلها الحصول على القيم الشاذة والبعيدة عن المتوسط الحسابي لكل متغير تفسيري  ولكنه لا يوضح اتجاه النقطة للقيمة المتطرفة على خط الإنحدار أو المسافة عن بقية النقاط لقيم البيانات. تعتبر القيمة المقبولة للفيريج من 0.2  بينما القيمة التي أعلى من 0.5 لابد من التأكد منها. بالنسبة لطريقة حساب القيمة القاطعة لليفريج أي ما بعدها يكون قيمة متطرفة شاذة ولابد من فحصها والتأكد منها

2 ( K + 1 ) / N

تعني عدد المتغيرات التفسيرية K 

تعني حجم العينة N 

 

 الدسكريبانسي أو التناقض يقيس نقاط القيم المتطرفة في المتغيرات التفسيرية ومن خلاله يوضح اتجاه النقطة للقيمة المتطرفة على خط الإنحدار أو المسافة عن بقية النقاط لقيم البيانات

 مسافات كوك تستخدم لمعرفة التأثير الخاص بالليفريج والدسكريبانسي حيث تقيس التغير في معامل الإنحدار عند حذف نقطة القيمة المتطرفة وبالتالي فأن حساب القيمة القاطعة لمسافة كوك يؤكد على فحص القيمة التي بعدها فكلما كانت المسافة عالية كان الليفريج عالي والعكس صحيح . إذا كانت قيمة مسافة كوك أقل من 1 فتعني أنه لا يوجد قيم شاذة متطرفة والعكس صحيح

4 / ( N - K - 1 ) 

 تعني عدد المتغيرات التفسيرية K 

تعني حجم العينة N 


 DfBeta 

  هو مقياس مقدار التغير في معامل الإنحدار عند حذف قيمة المشاهدة من تحليل الإنحدار DfBeta

 أيضا يمكن تعريفه بالفرق بين ميل خط الإنحدار عند وجود المشاهدة وعند غيابها أو الفرق بين معامل الإنحدار المحسوب لجميع البيانات في حالة وجود جميع المشاهدات وعند استبعاد إحداها. القيمة القاطعة لهذا المقياس بحث يكون ما بعدها يتطلب الفحص والتأكد

 2 / sqrt (N)

 لو إفترضنا ان القيمة القاطعة للمقياس كانت 0.183 وتم ملاحظة المشاهدة رقم 10 والتي قيمتها بالمقياس 20.32 وهي اعلى بكثير من القيمة القاطعة ويمكن تفسيرها بأن معامل الإنحدار للمتغير التفسيري في حالة وجود المشاهدة رقم 10 سوف يزيد من الخطأ المعياري بمقدار 20 مرة إذا لم تتم عملية الإستبعاد لتلك المشاهدة

 

 طريقة بناء النموذج

 الإضافة والحذف في النموذج

يمكن استخدام طريقة الإنحدار المتعدد التدريجي التي تنقسم الى قسمين بالإختيار للأمام أو الحذف للخلف ،، حيث تتمثل  طريقة الإختيار للأمام في إضافة المتغيرات واحد بواحد حتى يثبت زيادة التباين الذي يحدثه ذلك المتغير في نموذج الإنحدار المتعدد وهكذا مع باقي المتغيرات ، أما فيما يخص طريقة الحذف الراجع التي تتمثل في إدخال جميع المتغيرات المستقلة في النموذج ومن ثم القيام على حذف المتغير الذي لا يساهم بشكل معنوي في التنبؤ بالمتغير التابع حتى ينتهي نموذج الإنحدار بالمتغيرات التفسيرية ذات الدلالة الإحصائية بالتنبأ في المتغير التابع وتكون قيمة مربع الإرتباط عالية وترتفع تدريجيا في كل إضافة أو حذف من الطرق التي ذكرنها

  

قيمة تربيع الإرتباط : تفسر نسبة التباين في المتغير التابع والمفسر من قبل المتغير المستقل فلو كان لدينا قيمة تربيع الإرتباط 0.54 فهي تعني بأنه 54% من التباين المفسر من قبل المتغير المستقل على المتغير التابع

 

 

Multiple Linear Regression

 

Multiple linear regression can be used to describe and predict the outcome or dependent variable by two or more explanatory variables. Explanatory variables can be continuous or categorical.

Regression is a good way to predict outcomes and explain the relationship between variables. If the correlation between two continuous variables are perfect positive or negative, it will be able to get a perfect prediction about the outcome so the higher the correlation, the more precise about the predictions.    

Examples

If we want to use the weight and age as independent continuous variables, to predict blood pressure or to use age and gender as a continuous and a categorical variable, to predict body mass index.  

 

The requirements for simple linear regression :

1- One dependent continuous variable such as ( weight, grades, blood pressure, cholesterol )

2- Two or more Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )   

 

The using of simple linear regression :

1- To predict the value of the dependent variable when we know the value of the independent continuous or categorical variables

2- To know the proportion of variance in the dependent variable that explained by independent continuous or categorical variables  

 

The Regression Equation:

 

The regression equation for the fitted line is written as:

                            Y = a (b0) + b1X1 + b2X2 + b3X3 + .........  

Y : The predicted value for dependent variable 

A : Constant, Intercept, the value of Y when X = 0 

B : It measures the slope of regression line, it is the rate of change in Y with a unit change in X 

X : The independent variable that predict the outcome

 

Assumption 

1- ) The sample must be representative of the population.

2- ) The variable of X and Y must have a normal distribution.

3- ) The variance is homoscedasticity

4- ) The relationship between X and Y must be linear.

5- ) The residual must have a normal distribution.

  

The sample size for multiple regression:

It is important to have large sample size. The minimum number of elements must be at least 100 or the number of variables should be multiply by 40 in the regression model. It is also important to include a few variables because including too many independent variables can inflate the R square value. If the sample size is very small, the R square value will be inflated and the precision of the regression model is incorrect.    

 

Multicollinearity 

It means a high correlation between two or more explanatory variables. The collinearity may distort the regression coefficients and lead to inaccuracy in the model that increases standard error of the beta coefficients. The correlation between independent variables must not be greater than 0.70.

The degree of multicollinearity is estimated by the variance inflation factor (VIF), it is calculated as :

 

Variance Inflation Factor ( VIF ) = 1/ (1 - R square) or = 1 / Tolerance

If the VIF value is greater than 4, the degree of collinearity will be high and the variable must be excluded from the fitted model.   

  

The tolerance of the variable is used to measure of collinearity, it lies between   ( 0 and 1 ). If the tolerance of the variable is close to 0, the degree of collinearity will be high and vice versa  

 

Tolerance = ( 1 - R square ) 

 

Tolerance VIF 
 0.250.94 1.07  
 0.500.75  1.33
 0.70 0.51 1.96
 0.90  0.19 5.26
 0.950.10  10.26

 

Residuals

It is the distance between the predicted value and actual value. Standradised residuals are assumed to be normal distributed with a mean of zero and standard deviation of 1. Residual can be plotted against the predicted values and against the independent variables to check the assumption of homoscedasticity. If the standradised residuals are outside the area that lies between -3 and +3 standard deviations from the mean, the case of that residual should be removed before fitting the regression model. It can be expected that 1% of the sample size is outside the area of 3 SD because 99% of the sample fall within 3 SD.  

 

Leverage helps to know the observations that effect on the slope of regression line. It can be calculated by the values of independent variables. The acceptable value for leverage should be less than 0.2, 0.2 to 0.5 as risky and the value above 0.5 is considering as dangerous. If the point is far away from other points, it will be high leverage and vice versa. The cut-off for leverage is given by :

2 ( K + 1 ) / N  

K is the number of independent variables

N is the sample size

 

Discrepancy helps to know which outlying point is in the line with other data points. If the point is very close to the line, it will be low discrepancy and vice versa.    

 

Cook's distances are a measure of the impact of leverage and discrepancy that change in regression coefficients if the data point is removed. It is important to drop any observation with cook's distance greater than 1. The cut-off for detecting influential cases for cook's distances is given by :

 4 / ( N - K - 1 )  

K is the number of independent variables

N is the sample size 

 

DfBeta is a measure of the difference between the regression coefficient of the slope when the observation is included and the regression coefficient of the slope when the the observation is excluded. The cut-off for dfbeta is given by :

2 / sqrt (N) 

For example : If the value of the cut-off for dfbeta is 0.183 and the value of the observation(10) for dfbeta is 20.32, it means that the standard error of the regression coefficient will increases by 20.32 times if the observation(10) is not excluded. 

 

Fitting the regression model

1-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

 

2-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.

 

R Square means the proportion of variance in the dependent variable that can be explained by independent variables.

Correlation coefficient (R) X Correlation coefficient (R) = R square

Sum of square of regression(SS) / Total of (SS) = R square

F value in anvoa table is calculated as the unexplained variation divided by explained variation. Thus, F is the regression mean square divided by the residual mean square.

Mean square of regression / Mean square of residual

Square root of F value gives = T value  

 

95% Confidence interval of regression coefficient :

Upper CI = b + 1.96 X SE

Lower CI = b - 1.96 X SE 

 

                                                          

DfBeta is a measure of the difference between the regression coefficient of the slope when the observation is included and the regression coefficient of the slope when the the observation is excluded. The cut-off for dfbeta is given by :

2 / sqrt (N) 

For example : If the value of the cut-off for dfbeta is 0.183 and the value of the observation(10) for dfbeta is 20.32, it means that the standard error of the regression coefficient will increases by 20.32 times if the observation(10) is not excluded.