Biostatistics - Epidemiology

 Ibrahim Alghamdi

Subtitle

                                             Simple linear regression analysis               تحليل الإنحدار الخطي البسيط

 

تحليل الإنحدار الخطي البسيط

 

 يستخدم تحليل الإنحدار الخطي البسيط لدراسة قوة العلاقة بين متغيرين عدديين فإذا قام الباحث بدراسة أثر متغير واحد مستقل على متغير تابع أو اراد التنبأ بقيمة متغير تابع بناء على قيمة متغير مستقل فأنه يستخدم في هذه الحالة تحليل الإنحدار الخطي البسيط بينما إذا كان هناك دراسة لأكثر من متغير مستقل على متغير تابع فتحليل الإنحدار المتعدد هو الأتم في هذه الحالة

 

 نموذج الإنحدار الخطي البسيط

 لتحقيق العلاقة بين متغيرين عدديين وتوضيح معادلة خط الإنحدار في النموذج المدروس التي من خلالها يتضح لنا الخط المستقيم لشكل العلاقة بين المتغير التفسيري المستقل والمتغير التابع

 

 المطلوب في الإنحدار الخطي البسيط

    واحد متغير مستقل كمي النوع مثل الوزن ، الطول ، عدد ساعات التدريب

 واحد متغير تابع كمي النوع مثل الطول ، ضغط الدم ، درجات الطلاب في الإحصاء الحيوي

 

 يساعدنا استخدام الإنحدار الخطي البسيط في التالي

 أولا : التنبأ بقيم المتغير التابع ( متغير النتيجة ) عن طريق معرفتنا بقيم المتغير المستقل التفسيري فلو افترضنا بأن عدد الكتب المقرؤة قبل الإختبار تمثل المتغير المستقل الذي يؤثر على المتغير التابع كدرجات الطلاب في مادة الإحصاء الحيوي وبذلك نتنبأ بدرجات الطلاب من خلال عدد الكتب المقرؤة

 ثانيا : تحديد مقدار التباين والإختلاف في المتغير التابع والمفسر من قبل المتغير المستقل فلو افترضنا بأن عدد الساعات التي يقضيها الشخص في ممارسة الرياضة تمثل المتغير المستقل الذي يؤثر على المتغير التابع كنسبة الكوليسترول في الدم وبذلك نستطيع أن نقدر التباين المفسر من قبل المتغير المستقل على المتغير التابع بأستخدام معامل التحديد

 

 إختبار الفرضيات

 الفرضية الصفرية : معامل ميل خط الإنحدار يساوي صفر

 الفرضية البديلة : معامل ميل خط الإنحدار لا يساوي صفر

  

  شروط الإنحدار الخطي البسيط

  أولا : يجب أن تكون العينة ممثلة للسكان

ثانيا : يجب أن يكون المتغيرين المرتبطان ببعضهما ذو توزيع تكراري طبيعي

ثالثا : تجانس التباين في المتغيرين

رابعا : يجب أن يكون هناك علاقة ارتباط بين المتغيرين

 

 الشروط الخاصة والمهمه للبقايا

 أولا : الإستقلالية

  ثانيا : التوزيع الطبيعي

 ثالثا : التجانس

لابد أن يكون التباين ثابت لجميع قيم البقايا الخاصة بالمتغير المتنبأ به بمعنى أن تكون المسافة تقريبا واحدة بين النقاط ، إذا نظرنا إلى مخطط التشتت للبقايا بالاسفل لوجدنا عدم التجانس حيث أن النقاط تضيق كلما اقتربنا من الصفر وتتسع كلما اقتربنا من 100 

 

 

   

 معادلة خط الإنحدار البسيط

 Y = a + bx + e

 تعني المتغير التابع الذي يتأثر بالمتغير المستقل  Y

 تعني الثابت وهو قيمة المتغير التابع عندما تكون قيمة المتغير المستقل صفر  A

   تعني ميل الخط المستقيم الذي يوضح مقدار قيمة التغير في المتغير التابع في حالة التغير بوحدة واحدة للمتغير المستقل  B

تعني المتغير المستقل الذي يؤثرعلى المتغير التابع X

 تعني الخطأ العشوائي وهو الفرق بين القيمة الفعلية للمتغير التابع والمقدرة في المعادلة E

 

  تفسير معادلة خط الإنحدار

  لدراسة تأثير الطول على الوزن أو التنبأ بمقدار الوزن من خلال معرفة مقياس الطول ، يتضح لنا من المعادلة التالية

 Y = a + bX

weight (pounds) = 80 + 2 ( Height ) 

 الثابت يساوي 80 عندما يكون الطول يساوي 0 ، معامل خط الإنحدار للطول يساوي 2 انش بمعنى أن مقدار التنبأ بالزيادة للوزن 2 باوند في حالة زيادة الطول وحدة واحدة  (1) انش

لو أردنا التنبأ بوزن أحد الأشخاص طوله يساوي 63 انش بما يعادل 160 سم فتكون المعادلة على النحو التالي

 

weight (pounds) = 80 + 2 ( 63 )  

weight = 206 Pound

 

 

 

 طريقة المربعات الصغرى لحساب معامل الإنحدار

 أولا : حساب مجموع قيم المتغير التابع

ثانيا : حساب مجموع قيم المتغير المستقل

 ثالثا : حساب مجموع ضرب قيم المتغير التابع في قيم المتغير المستقل

رابعا : حساب مجموع تربيع قيم المتغير المستقل

 خامسا : الوسط الحسابي للمتغير التابع والمستقل 

سادسا : حل المعادلة الأولى والثانية 

 

قيمة تربيع الإرتباط ( معامل التحديد ): تفسر نسبة التباين في المتغير التابع والمفسر من قبل المتغير المستقل فلو كان لدينا قيمة تربيع الإرتباط 0.54 فهي تعني بأنه 54% من التباين المفسر من قبل المتغير المستقل على المتغير التابع

 فترة الثقة 95% لمعامل الإنحدار

 

Upper CI = b + 1.96 X SE

Lower CI = b - 1.96 X SE


 

 

Simple Linear Regression

 

Simple linear regression can be used to describe the strength of association between two continuous variables. The correlation between variables helps to develop a prediction equation that will allow to predict the value of one variable based on the value of the other.

Regression is a good way to predict outcomes and explain the relationship between variables. If the correlation between two continuous variables are perfect positive or negative, it will be able to get a perfect prediction about the outcome so the higher the correlation, the more precise about the predictions.    

The requirements for simple linear regression :

1- One dependent continuous variable such as ( weight, blood pressure, cholesterol )

2- One Independent continuous variable such as ( height, time of exercise )   

 

The using of simple linear regression :

1- To predict the value of the dependent variable when we know the value of the independent variable

2- To know the proportion of variance in the dependent variable that explained by independent variable 

 

Hypothesis test for simple linear regression :

Null hypothesis (H0) : The regression coefficient for the slope = 0 

Alternative hypothesis (H1) : The regression coefficient for the slope not = 0 

  

Assumption
 
1- ) The sample must be representative of the population.
2- ) The variable of X and Y must have a normal distribution.
3- ) The variance is homoscedasticity
4- ) The relationship between X and Y must be linear. 

  

The most important for residuals are :

1- Normal distribution of residuals 

2- Homoscedasticity of residuals

Homoscedasticity means that the variance should be constant and the residuals are equal for all values of predicted variable.

 

 

Regression Equation

The regression equation for the straight line is written as:

                               Y = a + bx + e

 
Y : the predicted value for dependent variable
A : Constant, Intercept, the value of Y when X = 0
B : it measures the slope of regression line, it is the rate of change in Y with a unit change in X
E : it is a random error
 
 
Interpretation of the regression equation for the straight line
  
If we want to predict the weight as dependent variable by height as independent variable and get the following equation :
 

 Y = a + bX

weight (pounds) = 80 + 2 ( Height ) 
 
 
 
The value of constant or intercept is equal 80 pounds when height = 0 , we predict increasing in weight 2 pounds when the height increases one unit ( one inch ).
 
To predict the weight of someone his height 63 inches, then we would calculate this as follows :
      

weight (pounds) = 80 + 2 ( 63 )  

Predicted weight = 206 Pound

 

Least square methods
 
1- ) Sum of Y
2- ) Sum of X
3- ) Sum of (X) (Y)
4- ) Sum of square (X)
5- ) The mean of X & Y
6- ) Write the regression equation
 
 

 

R Square means the proportion of variance in the dependent variable that can be explained by independent variables.

Correlation coefficient (R) X Correlation coefficient (R) = R square

Sum of square of regression(SS) / Total of (SS) = R square

F value in anvoa table is calculated as the unexplained variation divided by explained variation. Thus, F is the regression mean square divided by the residual mean square.

Mean square of regression / Mean square of residual

Square root of F value gives = T value 

 

95% Confidence interval of regression coefficient :

Upper CI = b + 1.96 X SE

Lower CI = b - 1.96 X SE