Normallik :Pek çok çalışmada normallik varsayımı kontrol edildikten sonra yapılacak analizlerin çeşitlerine karar verilir. Veri setinin normal dağılması durumunda dağılımın şekli aşağıda görüldüğü gibi simetrik bir çan eğrisine benzemektedir.
Normal Dağılım Grafiği
Normal dağılıma uyan bir veri setinde ortalama, ortanca ve tepe değerleri birbirine eşit veya çok yakındır. ‘Merkezi limit teoremine’ göre normal dağılıma sahip olan bir evrenden seçilen ve bağımsız gözlemlerden oluşan örneklemlerin her biri, örneklem büyüklüğü 30 ve üzerinde olmak koşuluyla normal dağılım gösterirler. Teorik olarak 30 ve üzerindeki örneklem büyüklüklerine sahip veri setlerinin normal dağıldıkları varsayılsa da pratikte durum farklıdır. Örnek hacmi 30’dan çok fazla olmasına rağmen normal dağılıma uymayan pek çok veri bulunmaktadır. Bu sebeple analizlerimize karar vermeden önce veri setinin normal dağılıp dağılmadığını mutlaka test etmeliyiz.
Verilerin dağılımlarının, aritmetik ortalama, ortanca, tepe değeri, çarpıklık ve basıklık katsayıları gibi istatistikler üzerinden incelenmesi de mümkündür. Bu kapsamda aritmetik ortalama, ortanca ve tepe değerlerinin eşit ya da yakın olması, çarpıklık ve basıklık katsayılarının ±2 sınırları içinde 0’a yakın olması normal dağılımın varlığına kanıt olarak değerlendirilmektedir.
Kullanım Amacı
Analiz aşamasında veri setine uygulanacak testlerden hangisinin uygun olduğunu belirlemek için normallik testi yapılmalıdır. Eğer veriler normal dağılıma sahip ise parametrik testler, veriler normal dağılıma sahip değil ise parametrik olmayan testler uygun olacaktır.
Parametrik testler; belirli bir hipotetik evren dağılımına ve bu dağılımı belirleyen ortalama, standart sapma gibi parametrelere dayalı algoritmalar içeren yöntem ve tekniklerin ortak adıdır. Parametrik olmayan testler ise genellikle bir evren dağılımından bağımsız olarak, beklenen-gözlenen değer farkları, sıra ve sıra farkları gibi daha temel ve betimsel kestirimlere dayalı algoritmalar içeren esnek yöntem ve tekniklerdir.
Parametrik testlerin istatistiksel gücü ve etki büyüklüğü, parametrik olmayan testlere göre daha yüksektir. Birinci(alpha)ve ikinci tip(beta) hatalara karşı daha dirençlidir.
Gruplar arasında karşılaştırma yapılacak veri setlerinde normal dağılım testleri sonucuna göre en az bir grup normal dağılıma sahip değil ise parametrik olmayan testlerden yararlanılmaktadır.
Kullanım Alanları
Sağlık, eğitim bilimleri, fen bilimleri gibi birçok alanda yapılan araştırmalarda veri yapısını incelemek amacıyla normallik testlerinden yararlanılmaktadır.
Örneklem büyüklüğünün 30’dan büyük olması durumunda Kolmogorov-Smirnov testi; küçük olması durumunda ise Shapiro-Wilk testi sonuçları kullanılabilmektedir.
Yukarıda belirtilen teorik bilgilerin pratikte karşılıklarını daha rahat anlayabilmek amacıyla normal dağılıma uyan ve uymayan 2 farklı veri seti üzerinde uygulama örnekleri verilecektir. Uygulama sırasında verinin normal dağılıp dağılmadığı hakkında bilgi sahibi olabileceğimiz 3 farklı SPSS çıktısı üzerinde durulacaktır. Bu çıktılar “Histogram”, “Stem and Leaf Plot”, “Kolmogorov-Smirnov” ve “Shapiro-Wilk” testleridir.
MERKEZİ EĞİLİM ÖLÇÜLERİ: Merkezi eğilim ölçüleri, veri dağılımının nerede toplandığını gösterir. Sık kullanılan merkezi eğilim ölçüleri aritmetik ortalama (mean), ortanca (medyan) ve tepe değeridir (mod).
ARİTMETİK ORTALAMA (MEAN):En sık kullanılan merkezi eğilim ölçüsüdür. Aritmetik ortalama; birimlere ait Xi toplamlarının toplam birim sayısı N’e bölünmesi sonucu elde edilir.
ORTANCA (MEDYAN): Verilerin büyükten küçüğe doğru sıralanmasından sonra ortada bulunan değer ortanca olarak ifade edilir. Eğer veri sayısı çift sayı ise veriler küçükten büyüğe doğru sıralandıktan sonra ortada kalan iki değer toplanarak ikiye bölünür ve elde edilen değer ortanca değer olarak ifade edilir.
TEPE DEĞERİ (MOD):En çok tekrarlanan değer veya kategoridir. Aritmetik ortalama ve ortanca sözel veriler için uygun değildir fakat tepe değeri (mod) sözel veriler için de uygun bir merkezi eğilim ölçüsüdür.
YAYGINLIK ÖLÇÜLERİ:Veri setindeki farklılıkları ve dağılımı gösterir. İki farklı veri seti aynı aritmetik ortalama, ortanca ve tepe değerine sahipken farklı yaygınlık ölçülerine sahip olabilir. Sık kullanılan yaygınlık ölçüleri varyans, standart sapma, standart hata ve değişim aralığıdır.
VARYANS: Bir yığındaki birimlerin belli bir değişkene ilişkin aritmetik ortalamasının bilinmesi çoğu zaman yeterli bir bilgi olmayabilir. Aritmetik ortalamaya göre birimlerin birbirlerinden ne kadar farklı değerler aldıklarının bilinmesi de önemli bir bilgidir. Bu bilgi varyans sayesinde elde edilir. Varyans bir yığındaki birimlerin belli bir değişkene göre aldıkları değerlerden aritmetik ortalamanın farklarının karelerinin ortalaması olarak tanımlanır.
STANDART SAPMA: En sık kullanılan yaygınlık ölçülerindendir. Gözlemlerin ortalamadan ne kadar uzaklaştığını gösterir. Dağılımdaki tüm değerlerin aritmetik ortalamaya olan uzaklıklarının ortalamasıdır. Bir başka ifade ile denekler arasında ne kadar yaygınlık olduğunu ifade eder. Standart sapma varyansın kare köküdür. Standart sapma büyüdükçe verinin yaygınlığı artar. Veri setindeki bütün değerlerin aynı olması durumunda standart sapma 0’a eşit olacaktır.
STANDART HATA:Örnekleme dağılımındaki ortalamaların standart sapmasıdır. Hedef kitleye ait birimlerden seçilecek aynı sayıdaki farklı örneklemlerin ortalamaları arasındaki yaygınlığı gösterir. Standart sapma değerinin örnek hacminin kareköküne bölünmesiyle elde edilir. Standart sapma ile çok sık karıştırılan bir kavramdır. Standart sapma, bilindiği gibi bir veri setinde yer alan her bir verinin aritmetik ortalamaya göre ne kadar uzaklıkta olduğunu yani veri setinin ne genişlikte bir aralıkta dağıldığını gösterir. Standart hata ise aynı kitleden seçilecek, aynı büyüklükteki örneklemlerin ortalamalarının yayılmasının ölçütüdür, öyle ki grupların ortalamaları birbirleri ile karşılaştırılırken standart hatadan yararlanılır. Aynı kitleden seçilmiş iki farklı veri grubunun ortalamaları arasında anlamlı bir farklılık olup olmadığı karşılaştırılırken veri gruplarına ait standart hata değerleri kullanılır. Standart hata değerlerinin küçük olması hedef kitle ile ilgili tahminlerin daha dar güven aralığında üretilmesini sağlayacaktır.
DEĞİŞİM ARALIĞI:Örneklemdeki en büyük değer ile en küçük değer arasındaki farktır. Genişlik değeri verilmek istendiğinde çıkarma işlemi yapılmadan min ve max değerlerinin verilmesi daha uygundur.
ÇARPIKLIK – BASIKLIK :Veri setlerinin dağılımı ve yaygınlığı hakkında merkezi eğilim ölçüleri ve yaygınlık ölçüleri yardımıyla belli ölçüde bilgi edinebiliriz. Bu iki ölçünün yanında, veri setinin normallikten(normal dağılımdan) ne kadar uzaklaştığını gösteren “Çarpıklık Katsayısı” ve veri setinin yüksekliğinin normal serinin yüksekliğinden ne kadar uzaklaştığını gösteren “Basıklık Katsayısı” hesaplanabilir. Çarpıklık ve basıklık katsayıları -2 ile +2 aralığında bir değer aldığında veri setinin normal dağıldığı kabul edilmektedir.