Biostatistics - Epidemiology

 Ibrahim Alghamdi

Subtitle

                                                Assumptions of Normality                     افتراضات التوزيع الطبيعي للبيانات

 

 افتراضات التوزيع الطبيعي للبيانات

قبل الشروع والبدأ في تحليل البيانات الكمية يتطلب من الباحث القيام بفحص التوزيع التكراري والتأكد من التالي

أولا : الإلتواء

ثانيا : التفرطح

ثالثا : القيم الشاذة

 رابعا : تشتت البيانات عن وسطها الحسابي

  

الإختبار المطلوب  الإجراء المتبع نوع التوزيعنوع البيانات
الإختبار المعلمي  --- طبيعي البيانات الكمية
 الإختبار المعلمي  تحويله إلى طبيعي ،، نعم استطعت تحويله   غير طبيعي البيانات الكمية
الإختبار اللامعلمي    تحويله إلى طبيعي ،، لا لم استطع تحويله      غير طبيعي  البيانات الكمية

 

 الطرق المتبعة لتفحص البيانات الكمية المستمرة

 أولا : الطريقة العددية الحسابية

 يمكن التعرف على هذه الطريقة بأستخدام الوصف الإحصائي للمتغير الكمي بمعنى معرفة الوسط الحسابي ، الوسيط ، الإنحراف المعياري ، الإلتواء والتفرطح ،، اذا استطعنا الحصول على القيمة الحرجة للتفرطح والإلتواء فيمكننا الحكم على طبيعة التوزيع للبيانات ،، ولمزيد من المعلومات تابع الرابط التالي الإلتواء والتفرطح

=  للإلتواء والتفرطح  Z قيمة

  الإلتواء / الخطأ المعياري = القيمة الحرجة

 التفرطح / الخطأ المعياري = القيمة الحرجة

 في حالة مستوى المعنوية 0.05 وفترة الثقة 95% ،، فأن أي قيمة من الناتج تخرج عن نطاق ( +  أو  - ) 1.96 تعتبر دليل على عدم التوزيع الطبيعي للبيانات والعكس صحيح

  في حالة مستوى المعنوية 0.01  وفترة الثقة 99% ،، فأن أي قيمة من الناتج تخرج عن نطاق( +  أو  - ) 2.58 تعتبر دليل على عدم التوزيع الطبيعي للبيانات والعكس صحيح

 
  أختبار شابيرو ويلك
 
 يساعد هذا الإختبار في الإجابة على فرضية التوزيع الطبيعي للبيانات فإذا كانت قيمة ( البي الإحتمالية ) أكبر من مستوى المعنوية المحدد من قبل الباحث ( 0.05 أو 0.01 ) فأننا في هذه الحالة نعتبر بأن بيانات المتغير ذات توزيع طبيعي والعكس صحيح في ذلك
 
 الفرضية الصفرية : التوزيع طبيعي
الفرضية البديلة : التوزيع غير طبيعي
 
  تعني بأن التوزيع طبيعي P > 0.05

   تعني بأن التوزيع غير طبيعي P < 0.05


                                     ثانيا : طريقة الرسوم البيانية ومن أفضلها

 أولا : المدرج التكراري

 للمزيد من المعلومات تابع الرابط التالي أشكال المدرج التكراري

 ثانيا : رسم الصندوق

 يبين رسم الصندوق معلومات مهمة عن الوسيط الذي يمثل الخط القاطع للصندوق ،، فعندما يتمركز الخط في منتصف الصندق يكون التوزيع طبيعي للبيانات بينما في حالة تمركز الخط المنصف للصندوق في الأعلى أو في الأسفل يدل على انتهاك شرط التوزيع الطبيعي لتلك البيانات

تمثل نهاية الصندوق من الأسفل 25% من البيانات وتسمى بالربيع الأول وهو القيمة التي يسبقها 25% ويليها 75% من البيانات

تمثل نهاية الصندوق من الأعلى 75% من البيانات وتسمى بالربيع الثالث وهو القيمة التي يسبقها 75% ويليها 25% من البيانات

 يمثل الخط المنصف للصندوق 50% من البيانات وتسمى بالربيع الثاني وهو القيمة التي يسبقها النصف ويليها النصف الاخر من البيانات

  يمثل الخط الطولي النازل من الصندوق أقل قيمة في البيانات بينما الخط الطولي الصاعد من الصندوق أعلى قيمة في البيانات

 تمثل النجمة أو النقاط التي تبتعد عن الخط الطولي للصندوق من الأعلى والأسفل القيم الشاذة التي تؤثر في التوزيع الطبيعي للبيانات

 

 توزيع البيانات من خلال الصندوق

 أولا : التوزيع طبيعي في حالة تمركز الخط في منتصف الصندوق

 ثانيا : التوزيع ذو الإلتواء نحو اليمين ( إلتواء ايجابي ) الخط يتمركز في أسفل الصندوق

 ثالثا : التوزيع ذو الإلتواء نحو اليسار ( إلتواء سلبي ) الخط يتمركز في أعلى الصندوق

  

                            

 

 

Assumptions of Normality

 

Before starting statistical analysis of continuous quantitative variable, it is very important to examine the distribution within the following things :

1- Skewness

2- Kurtosis

3- Spread

4- Outliers  

 

Data Type Distribution Action Assigned test 
Continuous  Normal No Parametric 
Continuous  Not normal Transformation -- become normal Parametric  
Continuous  Not normal Transformation -- No way Non-parametric 

 

There are two ways to examine the distribution of data :

1- Statistical methods

we can test the normality when to divide skewness and kurtosis by their standard errors, it is a way to get a z score. When the level of significance is 0.01, which equivalent to a z score (+ , - ) 2.58. If the z score of skewness and kurtosis is within (+ , - ) 2.58, then the data is normally distributed and vice versa. see more information Skewness and kurtosis   

Z score for skewness = skewness / standard error = critical value

Z score for kurtosis = kurtosis / standard error = critical value

If 95% confidence interval and level of significant 0.05, the critical value outside the range of ( + , - ) 1.96 indicates that the variable is not normally distributed.
 
If 99% confidence interval and level of significant 0.01, the critical value outside the range of ( + , - ) 2.58 indicates that the variable is not normally distributed.

Shapiro - Wilk test :
 
It can be used to test the normality for each category of contnuous independent variables. The hypothesis test for shapiro-wilk test is given by :
 
Null hypothesis : The distribution of data is equal to a normal distribution
Alternative hypothesis: The distribution of data is not equal to a normal distribution
 
If the p-value > 0.05, then accept null hypothesis that the distribution of data is equal to a normal distribution.
 
If the p-value < 0.05, then reject null hypothesis that the distribution of data is equal to a normal distribution.

2- Graphical methods
 
A-) Histogram
 
You can access the following link for more information Histogam 
 
B-) Box plot
 
It can be used to test the normality of continuous variable, it gives information about the median, 25th percentile, 75th percentile and the smallest and largest values within the distribution. Box plot also helps to get idea about outlier that calls extreme values.
 
The lower edge of the box plot is equal ( 25% - first quartile), while the upper edge is equal ( 75% - third quartile). The median is a horizontal line through the center of the box, it equals ( 50% - second quartile ). The vertical lines at the of the box can show the smallest and largest values within the distribution. The asterisk that is located outside the box shows the extreme values in the data set.
 
Distribution of data in box plot:
 
1- Normal distribution : it can be described by a horizontal line through the centre of the box.
 
2- Positive skewed : If the median is closer to the lower edge of the box
 
3- Negative skewed : If the median is closer to the upper edge of the box