Biostatistics - Epidemiology

 Ibrahim Alghamdi

Subtitle

     مقاييس التشتت للبيانات

 

Measures of variation 

 

تعتبر مقاييس التشتت للبيانات ذات أهمية بالغة في وصف البيانات حيث أن مقاييس النزعة المركزية المتضمنة الوسط الحسابي ، والوسيط ، والمنوال لا تعطينا الصورة الكاملة والحقيقية في توزيع البيانات ، فقد يكون لدينا مجموعتين من البيانات لديها نفس قيمة الوسط الحسابي ولكنها مختلفة تماما من حيث التشتت والإنتشار أو مدى التقارب والتباعد للبيانات من مقاييس النزعة المركزية الخاصة بها

مثال يوضح الصورة بطريقة مبسطة

لدينا مجموعتين من الطلاب ، وكانت درجات المجوعة الأولى والثانية على النحو التالي

100 
 90 88 85 8075 70 55 45 40 المجموعة الأولى
78 
77
 76 75 74 73 7270 
68
 65المجموعة الثانية 

إذا تم ايجاد الوسط الحسابي للمجوعة الأولى = 728 ÷ 10 = 72 درجة

إذا تم ايجاد الوسط الحسابي للمجوعة الثانية = 728 ÷ 10 = 72 درجة

الوسط الحسابي في المجموعتين متساويين ولكن المدى وتشتت البيانات مختلف تماما حيث تعتبر بيانات المجموعة الثانية أكثر تجانسا وتقارب بينما بيانات المجوعة الأولى متباعدة ومتشتتة

 

ما هي مقاييس التشتت للبيانات ؟؟ 

أولا / المدى للبيانات ( غير المبوبة ) التي ليس لها جدول توزيع تكراري

يعتبر من أسهل مقاييس التشتت للبيانات ويمكن تعريفه على أنه الفرق بين أعلى وأصغر قيمة في البيانات ، فإذا كان المدى الخاص بالبيانات صغير يدل على تجانسها وتقاربها من بعضها لبعض وإذا كان عكس ذلك فهو يدل على تشتتها وتباعدها عن بعضها لبعض

المدى = أعلى قيمة ـــ أدنى قيمة

نأخذ المثال السابق لتوضيح ذلك 

لدينا مجموعتين من الطلاب ، وكانت درجات المجوعة الأولى والثانية على النحو التالي

100 
 90 88 85 8075 70 55 45 40 الجموعة الأولى
78 
77
 76 75 74 73 7270 
68
 65المجموعة الثانية 
 
المدى للمجموعة الأولى = 100 ـــ 40 = 60
المدى للمجموعة الثانية = 78 ـــ 65 = 13
 
نلاحظ في هذا المثال بأن المدى في المجموعة الثانية أكثر تجانسا وتقاربا حيث يساوي 13 بينما في المجموعة الأولى أكثر تشتتا وتباعدا حيث يساوي 60 وهو قرابة خمسة أضعاف مدى المجموعة الثانية
 
 

ثانيا / المدى للبيانات ( المبوبة ) التي لها جدول توزيع تكراري

المدى = مركز الفئة الأخيرة ـــ مركز الفئة الأولى

مثال / أوجد المدى للبيانات التالية
 
 عدد الطلاب
 الدرجات

 10 - 0
12 
   20 - 10  
22 
  30 - 20

  40 - 30

  50 - 40
 
مركز الفئة الأخيرة = 50 + 40 ÷ 2 = 90 ÷ 2 = 45
مركز الفئة الأولى = 10 + 0 ÷ 2 = 10 ÷ 2 = 5
 
المدى = 45 ـــ 5 =40
  

ما هي المميزات والعيوب التي يتصف بها المدى ؟؟

 المزايا والعيوب التي يحظى بها المدى
 قليل الإستخدام في مقاييس التشتت
سهولة استخدامه حسابيا
 يعتمد على قيمتين فقط في عملية حسابه
   يتأثر بالقيم الشاذة والمتطرفة
لا نعطيه اهتمام بالغ في قياس التشتت للبيانات

 

ثالثا / التباين والإنحراف المعياري للبيانات ( غير المبوبة ) التي ليس لها جدول توزيع تكراري

يعتبر الإنحراف المعياري أكثر استخداما لقياس تشتت البيانات ، قيمة الإنحراف المعياري تخبرنا عن مدى تشتت وانتشار البيانات حول الوسط الحسابي ،  فكلما كانت قيمة الإنحراف المعياري متدنية دلت على أن قيم البيانات متقاربة في مداها حول الوسط الحسابي بينما لو كانت قيمة الإنحراف المعياري عالية دلت على أن قيم البيانات متباعدة في مداها حول الوسط الحسابي . الإنحراف المعياري يمكن الحصول عليه بعد ايجاد قيمة التباين فهو يساوي الجذر التربيعي لقيمة التباين

 اذا كانت البيانات ذات توزيع طبيعي على الشكل الهرمي فالبتالي يكون هناك ثلاثة انحرافات معيارية عن الوسط الحسابي
 
الإنحراف المعياري الأول يتضمن 68% من البيانات
الإنحراف المعياري الثاني يتضمن 95% من البيانات
الإنحراف المعياري الثالث يتضمن 99% من البيانات
 
  
 
إذا كان لدينا متوسط درجات الطلاب في مادة الإحصاء 25 وقيمة الإنحراف المعياري عن المتوسط الحسابي 5
 المطلوب هنا توضيح نسبة الطلاب من خلال درجات الإنحراف المعياري ؟؟
 
الإنحراف المعياري الأول يتضمن 68% من الطلاب تقع درجاتهم في مادة الإحصاء ( 30 - 20 ) درجة
الإنحراف المعياري الثاني يتضمن 95% من الطلاب تقع درجاتهم في مادة الإحصاء ( 35 - 15 ) درجة
الإنحراف المعياري الثالث يتضمن 99% من الطلاب تقع درجاتهم في مادة الإحصاء ( 40 - 10 ) درجة
 
 
صيغة التباين للسكان
  
 
 
 
صيغة التباين للعينة 
  
 
صيغة الانحراف المعياري للسكان   

 

رمز الإنحراف المعياري للسكان

  القيمة العددية

الوسط الحسابي

عدد القيم في السكان

 

صيغة الانحراف المعياري للعينة

رمز الانحراف المعياري للعينة

  القيمة العددية

الوسط الحسابي

عدد القيم في العينة

 

كيف يمكن الحصول على قيمة  التباين والانحراف المعياري ؟؟

أولا / ايجاد قيمة الوسط الحسابي للبيانات

ثانيا / نوجد انحراف البيانات بواسطة طرح القيم من الوسط الحسابي

ثالثا / تربيع ناتج الطرح لإنحراف كل قيمة على حدة

رابعا / جمع تربيع انحرافات القيم جميعها

 خامسا / قسمة حاصل جمع تربيع انحرافات القيم على حجم العينة ـــ 1

سادسا / حاصل الناتج يساوي التباين

سابعا / الجذر التربيعي للتباين يساوي الانحراف المعياري

 

مثال / أوجد قيمة المدى والتباين والانحراف المعياري للبيانات التالية ؟؟

10 ، 9 ، 8 ، 7 ، 6 ، 5 ، 4 ، 3 ، 2 ، 1

الوسط الحسابي = 55 ÷ 10 = 5.5

 تربيع ... س ــ الوسط الحسابي س ــ الوسط الحسابي 
س
4.5 × 4.5 = 20.25 
 1 - 5.5 = - 4.5 1
 3.5 × 3.5 = 12.25
2 - 5.5 = - 3.5 
 2
2.5 × 2.5 = 6.25 
3 - 5.5 = - 2.5
 3
1.5 × 1.5 = 2.25 
4 - 5.5 = -1.5 
 4
0.5 × 0.5 = 0.25 
5 - 5.5 = - 0.5 
 5
 0.5 × 0.5 = 0.256 - 5.5 = 0.5
 6
 1.5 × 1.5 = 2.257 - 5.5 = 1.5
 7
2.5 × 2.5 = 6.25   8 - 5.5 = 2.5
 8
3.5 × 3.5 = 12.25  9 - 5.5 = 3.5
 9
4.5 × 4.5 = 20.25  
10 - 5.5 = 4.5
 10
 المجموع = 82.5
المجموع = 0 

 التباين = 82.5 ÷ 10- 1

التباين = 82.5 ÷ 9 =  9.166

الانحراف المعياري = الجذر التربيعي للتباين

الانحراف المعياري =3.027

 
 
ثالثا / التباين والإنحراف المعياري للبيانات ( المبوبة ) التي لها جدول توزيع تكراري
 
 
مثال / أوجد التباين والانحراف المعياري للجدول التكراري التالي  ؟؟
 
 التكرارالعمر 
 410 - 12 
 1213 - 15 
 2016 - 18 
 1419 - 21 
 
أولا / ايجاد قيمة الوسط الحسابي للبيانات
  

تربيع

  النقطة المنصفة ـــ الوسط الحسابي × التكرار 

تربيع

النقطة المنصفة ـــ الوسط الحسابي 

النقطة المنصفة ـــ الوسط الحسابي

 النقطة المنصفة × التكرار
 النقطة المنصفة
  freq التكرارالعمر Age  
127.236 
 31.809-5.64  44 11 410 -12 
 83.6286.969 
-2.64 
 16814 
 1213 - 15
 2.580.129
0.36 
340 
17 
 20 16 -18
25.886 
1.849 
1.36 
280 
18 
 1419 - 21
239.33 
 40.76  83260 
 50 المجموع
 

الوسط الحسابي = 832 ÷ 50 =16.64 

التباين = 239.33 ÷ 49 = 4.88 
 
الانحراف المعياري = الجذر التربيعي لـ 4.88
الانحراف المعياري = 2.21 
 
 
 

 Measures of Variation

 

 1-) Variance

 

 

2-) Standard deviation

 

   

 Example:

Calculate the variance and standard deviation for the following values ?

 10 ، 9 ، 8 ، 7 ، 6 ، 5 ، 4 ، 3 ، 2 ، 1

 Mean = 55 / 10 = 5.5

 Square ( X - mean ) ( X - mean ) 
 
4.5 × 4.5 = 20.25 
 1 - 5.5 = - 4.5 1
 3.5 × 3.5 = 12.25
2 - 5.5 = - 3.5 
 2
2.5 × 2.5 = 6.25 
3 - 5.5 = - 2.5
 3
1.5 × 1.5 = 2.25 
4 - 5.5 = -1.5 
 4
0.5 × 0.5 = 0.25 
5 - 5.5 = - 0.5 
 5
 0.5 × 0.5 = 0.256 - 5.5 = 0.5
 6
 1.5 × 1.5 = 2.257 - 5.5 = 1.5
 7
2.5 × 2.5 = 6.25   8 - 5.5 = 2.5
 8
3.5 × 3.5 = 12.25  9 - 5.5 = 3.5
 9
4.5 × 4.5 = 20.25  
10 - 5.5 = 4.5
 10
 Total = 82.5
Total = 0 

 

Variance = 82.5 / ( 10 - 1 ) = 82.5 / 9 = 9.166

Standard deviation = Square root of variance = square root ( 9.166 ) = 3.027 

 

Advantages and disadvantages of using standard deviation
The most common measure of dispersion 
Easy to use
It is effected by outlier or exterem values  
It takes into account the whole values to be calculated

 

When the data are normally distributed and bell shaped, 68% of the data within 1 SD from the mean, 95% of the data within 2 SD from the mean and greater than 99% of the data within 3 SD from the mean.


Example :

If we have a group of students had a normal distribution for weight. The mean weight was 70kg and the SD was 5kg.

1 SD above the mean weight is 70 + 5 = 75kg

1 SD below the mean weight is 70 - 5 = 65kg

2 SD above the mean weight is 70 + 10 = 80kg

2 SD below the mean weight is 70 - 10 = 60kg

3 SD above the mean weight is 70 + 15 = 85kg

3 SD below the mean weight is 70 - 15 = 55kg 

1 SD will include 68.2% of students weigh between ( 75 and 65 kg )

2 SD will include 95.4% of students weigh between ( 80 and 60 kg ) 

3 SD will include 99.7% of students weigh between ( 85 and 55 kg ) 

 

3-) Range 

 

The simplest measure of variability, it is the difference between maximum and minimum values in the distribution.

Range = Maximum - Minimum 

 

 

 

References

1- Prem S. Mann 1998, Introductory Statistics, 3rd edn, New York, USA. 

2- Barbara H. M 2005, Statistical Methods for Health Care Research, 5th edn, New York, USA

                                                        

When the data are normally distributed and bell shaped, 68.2% of the data within 1 SD from the mean, 95.4% of the data within 2 SD from the mean and greater than 99.7% of the data within 3 SD from the mean.

 

Example :

If we have a group of students had a normal distribution for weight. The mean weight was 70kg and the SD was 5kg.

1 SD above the mean weight is 70 + 5 = 75kg

1 SD below the mean weight is 70 - 5 = 65kg

2 SD above the mean weight is 70 + 10 = 80kg

2 SD below the mean weight is 70 - 10 = 60kg

3 SD above the mean weight is 70 + 15 = 85kg

3 SD below the mean weight is 70 - 15 = 55kg 

1 SD will include 68.2% of students weigh between ( 75 and 65 kg )

2 SD will include 95.4% of students weigh between ( 80 and 60 kg ) 

3 SD will include 99.7% of students weigh between ( 85 and 55 kg ) 

3-) Range

 

When the data are normally distributed and bell shaped, 68.2% of the data within 1 SD from the mean, 95.4% of the data within 2 SD from the mean and greater than 99.7% of the data within 3 SD from the mean.

 

Example :

If we have a group of students had a normal distribution for weight. The mean weight was 70kg and the SD was 5kg.

1 SD above the mean weight is 70 + 5 = 75kg

1 SD below the mean weight is 70 - 5 = 65kg

2 SD above the mean weight is 70 + 10 = 80kg

2 SD below the mean weight is 70 - 10 = 60kg

3 SD above the mean weight is 70 + 15 = 85kg

3 SD below the mean weight is 70 - 15 = 55kg 

1 SD will include 68.2% of students weigh between ( 75 and 65 kg )

2 SD will include 95.4% of students weigh between ( 80 and 60 kg ) 

3 SD will include 99.7% of students weigh between ( 85 and 55 kg ) 

3-) Range

 

When the data are normally distributed and bell shaped, 68.2% of the data within 1 SD from the mean, 95.4% of the data within 2 SD from the mean and greater than 99.7% of the data within 3 SD from the mean.

 

Example :

If we have a group of students had a normal distribution for weight. The mean weight was 70kg and the SD was 5kg.

1 SD above the mean weight is 70 + 5 = 75kg

1 SD below the mean weight is 70 - 5 = 65kg

2 SD above the mean weight is 70 + 10 = 80kg

2 SD below the mean weight is 70 - 10 = 60kg

3 SD above the mean weight is 70 + 15 = 85kg

3 SD below the mean weight is 70 - 15 = 55kg 

1 SD will include 68.2% of students weigh between ( 75 and 65 kg )

2 SD will include 95.4% of students weigh between ( 80 and 60 kg ) 

3 SD will include 99.7% of students weigh between ( 85 and 55 kg ) 

3-) Range

 

When the data are normally distributed and bell shaped, 68.2% of the data within 1 SD from the mean, 95.4% of the data within 2 SD from the mean and greater than 99.7% of the data within 3 SD from the mean.

 

Example :

If we have a group of students had a normal distribution for weight. The mean weight was 70kg and the SD was 5kg.

1 SD above the mean weight is 70 + 5 = 75kg

1 SD below the mean weight is 70 - 5 = 65kg

2 SD above the mean weight is 70 + 10 = 80kg

2 SD below the mean weight is 70 - 10 = 60kg

3 SD above the mean weight is 70 + 15 = 85kg

3 SD below the mean weight is 70 - 15 = 55kg 

1 SD will include 68.2% of students weigh between ( 75 and 65 kg )

2 SD will include 95.4% of students weigh between ( 80 and 60 kg ) 

3 SD will include 99.7% of students weigh between ( 85 and 55 kg ) 

3-) Range

 

The simplest measure of variability, it is the difference between maximum and minimum values in the distribution.

Range = Maximum - Minimum 

 

The simplest measure of variability, it is the difference between maximum and minimum values in the distribution.

Range = Maximum - Minimum