Normallikten Sapma Ölçüleri: Verilerin Dağılımını Anlama
Veri analizi dünyasında, bir veri setinin dağılımını anlamak için kullanılan en önemli kavramlardan biri normalliktir. Normallik, verilerin bir normal dağılıma, yani çan eğrisi şeklindeki bir dağılıma ne kadar yakın olduğunu ifade eder. Ancak, gerçek dünyadaki veriler genellikle mükemmel bir normal dağılım göstermez. Bu durumda, verilerin normallikten ne kadar saptığını ölçmek için belirli istatistiksel araçlar kullanılır. Bu araçlar, verilerin dağılımının şeklini ve özelliklerini anlamamıza yardımcı olur. İşte normallikten sapma ölçüleri hakkında bilmeniz gerekenler:

1. Çarpıklık (Skewness)
Çarpıklık, bir veri setinin simetrisini veya asimetrisini ölçen bir istatistiktir. Bir veri setindeki değerlerin ortalamaya göre nasıl dağıldığını gösterir.
- Pozitif Çarpıklık: Veri setindeki yüksek değerlerin düşük değerlere göre daha yaygın olduğu anlamına gelir. Çarpıklık değeri pozitiftir ve dağılımın sağa doğru uzandığını gösterir. Örneğin, gelir dağılımı verilerinde yüksek gelirli birkaç kişinin bulunması, gelir dağılımının sağa çarpık olmasına neden olabilir.
- Negatif Çarpıklık: Veri setindeki düşük değerlerin yüksek değerlere göre daha yaygın olduğu anlamına gelir. Çarpıklık değeri negatiftir ve dağılımın sola doğru uzandığını gösterir. Örneğin, öğrencilerin notlarının çoğunlukla yüksek olduğu bir sınav sonucunda not dağılımı sola çarpık olabilir.
Çarpıklık değeri sıfıra ne kadar yakınsa, veri seti o kadar simetriktir. Genellikle, -1 ile 1 arasında bir çarpıklık değeri kabul edilebilir bir simetriyi gösterir.
2. Basıklık (Kurtosis)
Bir veri setindeki uç değerlerin yoğunluğunu ve yüksekliğini ölçen bir istatistik olan basıklık, verilerin merkezi değeri etrafında ne kadar yoğunlaştığını ve uç değerlerin yaygınlığını gösterir.
- Pozitif Basıklık (Leptokurtic): Verilerin çoğu merkezi bölgede toplanmış ve uç değerler daha yaygındır. Dağılım sivri ve yüksektir. Bu, veri setinin merkezi etrafında yoğunlaştığını ve uç değerlerin daha sık görüldüğünü gösterir. Örneğin, finansal verilerde genellikle yüksek basıklık gözlemlenir çünkü piyasalarda ani ve büyük değişiklikler sıkça meydana gelebilir.
- Negatif Basıklık (Platykurtic): Veriler daha düz ve geniş bir dağılım gösterir. Uç değerler daha az yaygındır ve dağılım daha yassıdır. Bu, veri setinin merkezi etrafında daha az yoğunlaştığını ve uç değerlerin nadir olduğunu gösterir. Örneğin, normal dağılım, standart basıklık değeri olan 0 ile tanımlanır ve verilerin orta noktaya yakın bir şekilde yayıldığını gösterir.
- Normal Basıklık (Mesokurtic): Normal dağılıma sahip veri setlerinde gözlemlenir. Basıklık değeri yaklaşık olarak sıfırdır. Normal dağılımın basıklık değeri 0 olarak kabul edilir ve verilerin orta noktaya yakın bir şekilde yayıldığını gösterir.
3. Jarque-Bera Testi
Jarque-Bera testi, bir veri setinin normal dağılıma uygun olup olmadığını test eden bir istatistiksel testtir. Bu test, çarpıklık ve basıklık ölçülerini kullanarak verilerin normallikten sapma derecesini belirler. Jarque-Bera testi, özellikle büyük örneklemler için uygundur.
- p-değeri > 0.05: Veri seti normal dağılıma uygundur. Bu, verilerin normal dağılıma uygun olduğunu ve istatistiksel analizlerde normal dağılım varsayımının geçerli olduğunu gösterir.
- p-değeri ≤ 0.05: Veri seti normal dağılıma uygun değildir. Bu, verilerin normal dağılıma uymadığını ve istatistiksel analizlerde normal dağılım varsayımının geçerli olmadığını gösterir.
4. Shapiro-Wilk Testi
Shapiro-Wilk testi, verilerin normal dağılıma uygunluğunu test eden başka bir yöntemdir. Bu test, özellikle küçük veri setleri için etkilidir ve normalliği değerlendirmek için yaygın olarak kullanılır.
- p-değeri > 0.05: Veri seti normal dağılıma uygundur. Bu, verilerin normal dağılıma uygun olduğunu ve istatistiksel analizlerde normal dağılım varsayımının geçerli olduğunu gösterir.
- p-değeri ≤ 0.05: Veri seti normal dağılıma uygun değildir. Bu, verilerin normal dağılıma uymadığını ve istatistiksel analizlerde normal dağılım varsayımının geçerli olmadığını gösterir.
5. Kolmogorov-Smirnov Testi
Kolmogorov-Smirnov testi, iki veri setinin dağılımlarının birbirine ne kadar benzediğini veya bir veri setinin belirli bir dağılıma ne kadar uyduğunu test eder. Bu test, özellikle sürekli ve ordinal veriler için kullanışlıdır.
- p-değeri > 0.05: Veri seti belirtilen dağılıma uygundur. Bu, verilerin belirli bir dağılıma uygun olduğunu ve istatistiksel analizlerde bu dağılım varsayımının geçerli olduğunu gösterir.
- p-değeri ≤ 0.05: Veri seti belirtilen dağılıma uygun değildir. Bu, verilerin belirtilen dağılıma uymadığını ve istatistiksel analizlerde bu dağılım varsayımının geçerli olmadığını gösterir.
Sonuç
Normallikten sapma ölçüleri, veri analizinde kritik bir rol oynar. Bu ölçüler, verilerin dağılımının şeklini ve özelliklerini anlamamıza yardımcı olarak doğru istatistiksel yöntemleri seçmemizi sağlar. Çarpıklık ve basıklık gibi temel ölçüler ile Jarque-Bera, Shapiro-Wilk ve Kolmogorov-Smirnov testleri, verilerin normallikten ne kadar saptığını belirlemek için kullanılan önemli araçlardır.
Veri analizinde doğru sonuçlar elde etmek için verilerin dağılımını doğru bir şekilde değerlendirmek önemlidir. Normallikten sapma ölçüleri, verilerin normal dağılımdan ne kadar saptığını belirleyerek analizlerde daha doğru ve güvenilir sonuçlar elde etmenize yardımcı olur. Bu nedenle, veri analizi yaparken bu ölçüleri dikkate almak, verilerin dağılımını anlamak ve uygun istatistiksel yöntemleri seçmek için gereklidir. Daha fazlası için bizimle iletişim‘e geçin.
İstatistiğe Dair Her Şey sitesinden daha fazla şey keşfedin
Subscribe to get the latest posts sent to your email.