Biostatistics - Epidemiology

 Ibrahim Alghamdi

Subtitle

                                                             Logistic Regression                       الإنحدار اللوجستي البسيط والمتعدد

 

 تحليل الإنحدار اللوجستي البسيط والمتعدد 

 

 يستخدم تحليل الإنحدار اللوجستي في الدراسات الوبائية والطبية والذي من خلاله يتم تحديد المتغيرات المستقلة الكمية والنوعية التي تؤثر في إحتمال حدوث المتغير الناتج. عندما يتم تطبيق الإنحدار اللوجستي فلابد أن يكون متغير النتيجة ثنائي التفسير يحمل الترميز 0 و 1

 المطلوب في الإنحدار اللوجستي البسيط

  واحد متغير مستقل كمي أو اسمي  مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

 واحد متغير إسمي تابع ثنائي النوع مثل وجود المرض ( نعم ، لا ) نوع الجنس ( ذكر ، أنثى ) وغيرها

 

  المطلوب في الإنحدار اللوجستي المتعدد

  إثنان أو أكثر من المتغيرات المستقلة الكمية أو الإسمية  مثل الوزن ، الطول ، الحالة الإجتماعية ، الجنس

 واحد متغير إسمي تابع ثنائي النوع مثل وجود المرض ( نعم ، لا ) نوع الجنس ( ذكر ، أنثى ) وغيرها


 يساعدنا استخدام الإنحدار اللوجستي في التالي

 التنبأ في إحتمال وقوع مشاهدات الدراسة في إحدى نواتج المتغير التابع (متغير النتيجة) الذي يرمز له 0 ، 1 عن طريق معرفتنا بالمتغيرات المستقلة التفسيرية ذات النوع الكمي والإسمي وذات الدلالة الإحصائية فلو افترضنا بأن المتغير الإسمي التابع هو وجود المرض الذي يرمز له ( 0= غير موجود ، 1= موجود ) ونريد معرفة علاقة المتغيرات المستقلة الكمية أو النوعية في إحتمال حدوث المرض من عدمة بمعرفة نسبة الأرجحية ومعامل الإنحدار اللوجستي

 

 معادلة خط الإنحدار اللوجستي

(Y) Log odds of the outcome = (b0) + b1X1 + b2X2 + b3X3 + .........

 

 تعني المتغير التابع الذي يرمز له 0 و 1  Y

 تعني الثابت وهو معامل الإنحدار اللوجستي للمتغير التابع عندما تكون قيمة المتغير المستقل صفر  A

   تعني معامل الإنحدار اللوجستي الذي يوضح مقدار التغير في المتغير التابع في حالة التغير بوحدة واحدة للمتغير المستقل  B

تعني المتغير المستقل الذي يؤثرعلى المتغير التابع X

 

  شروط الإنحدار اللوجستي

  أولا : يجب أن تكون العينة كبيرة وممثلة للسكان

  ثانيا : يجب أن يكون هناك علاقة ارتباط بين المتغيرات المستقلة والمتغير التابع

يتم قياس العلاقة عن طريق التحليل الأحادي بين المتغير المستقل والمتغير التابع بأستخدام اختبار مربع كاي ، بيرسون ، سبيرمان أو عن طريق نموذج الإنحدار اللوجستي بشكل فردي بين المتغيرين

  ثالثا : يجب أن يكون هتاك علاقة ارتباط بين اللوغارثم للمتغير التابع والمتغير التفسيري ذو النوع المستمر أو الترتيبي

لابد من إنشاء متغير جديد يوضح قيمة اللوغارثم للمتغير التابع وبعدها يتم إكتشاف العلاقة بين المتغيرين

 رابعا : يجب أن يكون الإرتباط بين المتغيرات التفسيرية ضعيف

  راجع العلاقة الخطية المتداخلة في تحليل الإنحدار المتعدد 

 

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

 

 العلاقة بين المرض وعامل الخطر

 سوف نتطرق بالتفصيل لحساب نسبة الأرجحية الغير مضبوطة وبالتالي سنتعرف على الأرجحية المضبوطة والمتعلقة بنموذج الإنحدار اللوجستي والتي يمكن استخدامها في الدراسات الوبائية مثل دراسة الحالة والشاهد ، دراسة المقطع العرضي والتجارب الطبية

 نسبة الأرجحية الغير مضبوطة تعني عدم وجود تأثير للعوامل أو المتغيرات المربكة والتي قد تتسبب في التقدير المبالغ للعلاقة بين المتغيرات بينما الأرجحية المضبوطة يتم استخدمها في نموذج الإنحدار اللوجستي وذلك من أجل ضبط العوامل المربكة والحد منها

 المجموع غياب المرض وجود المرض  
A+B BA وجود عامل الخطر
C+D  C غياب عامل الخطر
B+D A+C  المجموع

 

  Binary level Odds Ratio  نسبة الأرجحية للمتغير الثنائي

 

 (A/B) / (C/D)

(A x D) / (B x C)  

مثال 

 المجموع غياب المرض وجود المرض  
703040 وجود عامل الخطر
130 70  60 غياب عامل الخطر
200 100 100  المجموع

نسبة الأرجحية في حالة التعرض وحدوث المرض = (30/40) / (70/60) = 0.8/1.6 = 2

 نسبة الأرجحية في حالة  عدم التعرض وحدوث المرض = (70/60) / (30/40) = 1.6/0.8 = 0.5

 

 إذا كانت نسبة الأرجحية = 1 ، فهذا يعني بأن نسبة أرجحية المرض في الأشخاص المعرضين والغير معرضين متساوية وبذلك لا يوجد فرق بينهم ولا توجد علاقة بين المرض والمسبب

 إذا كانت نسبة الأرجحية > أكبر من 1 ، فهذا يعني بأن نسبة أرجحية المرض في الأشخاص المعرضين لعامل الخطر أكبر من نسبة أرجحية المرض في الغير معرضين وبذك يتضح وجود علاقة موجبة ضارة بين المرض والمسبب

  إذا كانت نسبة الأرجحية < أقل من 1 ، فهذا يعني بأن نسبة أرجحية المرض في الأشخاص المعرضين لعامل الخطر أقل من نسبة أرجحية المرض في الغير معرضين وبذك يتضح وجود علاقة سالبة وقائية بين المرض والمسبب

في المثال السابق نستطيع أن نفسر العلاقة الأولى بين حدوث المرض وحالة التعرض بالشكل الإيجابي حيث أن نسبة الأرجحية أكبر من 1 وتساوي 2 وبذلك فإن أرجحية المرض في الأشخاص المعرضين لعامل الخطر أكبر مرتين من نسبة أرجحية المرض في الأشخاص الغير معرضين لنفس عامل الخطر
  
 يمكن أيضا تفسير العلاقة بين حدوث المرض وعدم التعرض لنفس البيانات بالشكل السلبي الوقائي حيث أن نسبة الأرجحية اصغر من 1 وتساوي 0.5 وبذلك فإن أرجحية المرض في الأشخاص الغير معرضين لعامل الخطر اقل 50% من نسبة أرجحية المرض في الأشخاص المعرضي لنفس عامل الخطر 

   Multiple levels Odds Ratio نسبة الأرجحية للمتغير المتعدد المستويات

نسبة الأرجحية الشواهد الحالات مؤشر كتلة الجسم BMI 
 21 / 30 = 0.730 21  1
31 / 26 = 1.192 / 0.7 = 1.70 26  31 2
24 / 11 = 2.81 / 0.7 = 3.1111  24 3
17 / 4 = 4.25 / 0.7 = 6.07  17 4

  

 طريقة بناء نموذج الإنحدار اللوجستي

 أولا : تحقيق العلاقة بين المتغير التابع الإسمي الثنائي والمتغير المستقل الإسمي وذلك عن طريق التحليل الأحادي بأستخدام مربع كاي وأختبار الإرتباط 

 ثانيا : تحقيق علاقة الإرتباط بين لوغارثم المتغير التابع الإسمي الثنائي والمتغير المستقل الكمي المستمر عن طريق مخطط التشتت بين المتغيرين حيث لابد أن تكون العلاقة موجبه

  ثالثا : تحليل العلاقة الخطية المتداخلة بين المتغيرات المستقلة

 راجع الرابط التالي تحليل العلاقة الخطية المتداخلة

 رابعا : الإضافة والحذف في النموذج
 كما هو موضح في الإنحدار المتعدد طريقة الحذف والإضافة

 

 

 

 

Logistic Regression

 

Binomial or binary logistic regression can be used to predict the probability of the observation takes one of two groups dichotomous outcome variable. The explanatory variables can be continuous or categorical.

 

The requirements for simple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- One Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )   

 

The requirements for multiple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- Two or more Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )  

 

The using of logistic regression : 

It can be used to predict the probability of the categorical dependent variable based on one or more categorical and continuous predictors. Logistic regression helps to calculate the adjusted odds ratio for the effects of other variables in the model.

Logistic regression is the method for examining associations in epidemiological studies such as  cross sectional study and case-control study where the outcome is binary for predicting a subject is a case or a control.  

 

The Logistic Regression Equation:

The logistic regression equation is written as:

(Y) Log odds of the outcome = (b0) + b1X1 + b2X2 + b3X3 + .........


Y : The log odds of the outcome coded ( 0 , 1 ) 

A : Constant, Intercept, the coefficient of Y when X = 0 

B :  It is the rate of change in Y with a unit change in X 

X : The independent variable that predict the probability of the outcome

  

 

Assumption 

1- ) The sample must be representative of the population.

2- ) The relationship should be strong between the outcome and the explanatory variables.

3- ) The relationship must be linear between the logit transformation of the dependent variable and the continuous independent variable

4- ) No multicollinearity .

 
 

 

 Coding in logistic regression

Coding Condition  Interpretation
 0disease absent negative outcome  
 1disease Present positive outcome 
 0risk factor absent   negative exposure 
 1risk factor present positive exposure 

 

Measuring the relationship between disease and exposure 

Both odds ratio and relative risk are used to describe the magnitude of the relationship between the outcome and the exposure variables.

If the odds ratio or relative risk = 1, it means that there is no association between the disease and the exposure variables. The odds ratio and relative risk of the disease are equal in both exposed and non-exposed group.

If the odds or relative risk > 1, it means that there is a positive association between the disease and the exposure variables. The odds ratio and relative risk of the disease are higher in exposed than non-exposed group.  

If the odds or relative risk < 1, it means that there is a negative association between the disease and the exposure variables. The odds ratio and relative risk of the disease are lower in exposed than non-exposed group.  


  Disease presentDisease absent  Total
Exposure present  A+B
 Exposure absent  C+D 
Total A+C B+D 

Odds ratio for binary variable   

Odds Ratio = odds of exposed group / odds of non-exposed group  

 (A/B) / (C/D)

(A x D) / (B x C)  

 

Example : 

  Disease presentDisease absent  Total
Exposure present 40 30  70
 Exposure absent 60 70  130 
Total 100 100 200

Odds ratio = (40/30) / (60/70) = 1.6 / 0.8 = 2

The odds of the disease in exposed group is twice higher compared to the non-exposed group.The odds ratio is higher than 1, the association is positive between the outcome and the exposure.

Odds ratio = (60/70) / (40/30) = 0.8 / 1.6 = 0.5

The odds of the disease in non-exposed group is 50% lower than the exposed group. The odds ratio is lower than 1, the association is negative between the outcome and the exposure. 

    

 Odds ratio for multiple variables   

  
GroupCases  ControlsOdds ratio 
21 30  21 / 30 = 0.7 
31 26 31 / 26 = 1.192 / 0.7 = 1.70  
24 11 24 / 11 = 2.81 / 0.7 = 3.11 
17 17 / 4 = 4.25 / 0.7 = 6.07

  

Fitting the logistic regression model :
 
1-) Univariate analysis that amis to detect whether there is any significant relationship between the outcome variable and all explanatory categorical variables, this can be done by using chi-square test, pearson correlation, spearman correlation or using logistic regression model.
 
2-) Univariate analysis that amis to detect whether there is any significant relationship between the logit transformation of the outcome variable and all explanatory continuous variables, the relationship should be linear, this can be done by using pearson correlation, spearman correlation.
 
3-) Multicollinearity analysis : see the multiple regression analysis Multicollinearity analysis
 
4-) Multivariate analysis that aims to find the best logistic regression model on the univariate resulted variables. The techniques that can be used to investigate the model for the multivariate analysis is given by the following :  
 

A-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

 

B-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.  

 

                                                        

The requirements for simple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- One Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )   

 

The requirements for simple logistic regression :

1- One dependent binary variable such as sex ( male, female ) presence of disease ( yes, no )

2- One Independent continuous or categorical variables such as( height, time of exercise, gender, marital status )   

 

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

 عملية الترميز في تحليل الإنحدار اللوجستي

التفسير للحالة الحالة الترميز 
النتيجة سلبية غياب المرض 0 
التنيجة إيجابية  وجود المرض 1 
 عامل الخطر سلبي غياب عامل الخطر 0
 عامل الخطر إيجابيوجود عامل الخطر 
 1

  Disease presentDisease absent  Total
Exposure present  A+B
 Exposure absent  C+D 
Total A+C B+D 

   

  Disease presentDisease absent  Total
Exposure present  A+B
 Exposure absent  C+D 
Total A+C B+D 

   

Odds ratio for multiple variables   

  
Variable Cases  ControlsOdds ratio 
21 30  21 / 30 = 0.7 
31 26 31 / 26 = 1.192 / 0.7 = 1.70  
24 11 24 / 11 = 2.81 / 0.7 = 3.11 
17 17 / 4 = 4.25 / 0.7 = 6.07  

Odds ratio for multiple variables   

  
Variable Cases  ControlsOdds ratio 
21 30  21 / 30 = 0.7 
31 26 31 / 26 = 1.192 / 0.7 = 1.70  
24 11 24 / 11 = 2.81 / 0.7 = 3.11 
17 17 / 4 = 4.25 / 0.7 = 6.07  

Odds ratio for multiple variables   

  
Variable Cases  ControlsOdds ratio 
21 30  21 / 30 = 0.7 
31 26 31 / 26 = 1.192 / 0.7 = 1.70  
24 11 24 / 11 = 2.81 / 0.7 = 3.11 
17 17 / 4 = 4.25 / 0.7 = 6.07  

Odds ratio for multiple variables   

  
Variable Cases  ControlsOdds ratio 
21 30  21 / 30 = 0.7 
31 26 31 / 26 = 1.192 / 0.7 = 1.70  
24 11 24 / 11 = 2.81 / 0.7 = 3.11 
17 17 / 4 = 4.25 / 0.7 = 6.07  

Fitting the regression model

1-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

 

2-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.

Fitting the regression model

1-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

 

2-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.

Fitting the regression model

1-) Backward technique : we start to include all independent variables in the model. The regression coefficients are estimated, and the explanatory variables that not statistically significant are removed from the model, and re-estimate the regression coefficient again until no more independent variables are significant

 

2-) Forward technique : we start with the first high correlated independent variable which is significant ( p < 0.05 ) and will be added in the model. The variable that would have the next highest value of correlation is then assessed to check the p-value. This procedure continues until no more independent variables are significant.