İstatistiksel Belirginlik ve P-Değerleri Hakkında Beyan — Amerikan İstatistik Birliği

9 Haziran 2016

1. Giriş

Bilimsel araştırmanın nicelik bakımından artması ve büyük, karmaşık veri kümelerinin çoğalması, son yıllarda istatistiksel yöntemlerin uygulama kapsamını genişletmiştir. Bilimsel ilerleme için böylece yeni yollar açılmıştır, ama araştırma verilerinden çıkarılan sonuçlar hakkında kaygılar da ortaya çıkmaktadır. Bilimsel sonuçların geçerliliği, yeniden üretilebilirliği de dahil, sadece istatistiksel yöntemlerin kendisine bağlı değildir. Uygun şekilde seçilmiş teknikler, düzgünce icra edilmiş analizler ve istatistiksel sonuçların doğru yorumlanması da sonuçların geçerli olduğunun ve onları saran belirsizliğin düzgünce temsil edildiğinin emniyet altına alınmasında kilit rol oynar.

Yayınlanmış birçok bilimsel sonucun altında yatan “istatistiksel belirginlik” kavramı, tipik durumda p-değeri denilen bir endeksle değerlendirilir. Elverişli bir istatistiksel ölçü olabilse de, p-değeri yaygınca yanlış kullanılır ve yanlış yorumlanır. Bu yüzden kimi bilimsel dergiler p-değerlerinin kullanılmasını istemezler, kimi bilimci ve istatistikçiler de terk edilmesini tavsiye ederler; bu yönde kimi argümanlar p-değerlerin ilk çıkışından beri esas itibariyle değişmemiştir.

Bu bağlamda Amerikan İstatistik Birliği, p-değerinin düzgün kullanım ve yorumunu destekleyen genel anlamda uzlaşılmış birçok ilkeyi netleştiren formel bir beyandan bilimsel topluluğun fayda sağlayabileceğine inanır. Burada değinilen sorunlar sadece araştırmayı etkilemez, araştırma fonlarını, dergi pratiklerini, kariyer gelişimini, bilimsel eğitimi, kamu siyasetini, gazeteciliği ve hukuku da etkiler. Bu beyan ne geçerli istatistik pratiğine ilişkin tüm sorunları çözümlemeyi, ne de temel ihtilafları sonuca bağlamayı hedefliyor. Beyan, istatistik topluluğundaki genel mutabakata dayanarak, nicelik biliminin icra ve yorumunu iyileştirebilecek birkaç seçilmiş ilkeye teknik olmayan terimlerle ifade veriyor.

2. p-Değeri Nedir?

Enformel olarak, p-değeri, verilerin istatistiksel bir özetinin (mesela kıyaslanan iki grubun örneklem ortalamaları arasındaki farkın) gözlenen değere eşit ya da ondan daha aşırı olabilmesinin tarif edilen bir istatistiksel model altındaki ihtimalidir.

3. İlkeler

1. P-değerleri verilerin tarif edilen bir istatistiksel modelle ne kadar uyumsuz olduğunu belirtebilir.

P-değeri, belirli bir veri kümesi ile veri için önerilen bir model arasındaki uyumsuzluğu özetlemek için bir yaklaşım sağlar. En yaygın bağlamda, bir varsayımlar kümesi altında inşa edilmiş bir model, bir de “boş hipotez” denilen bir şey vardır. Çoğu zaman boş hipotez bir etkinin yokluğunu farzeder, mesela iki grup arasında hiçbir fark olmadığını farzeder, ya da bir faktör ile bir netice arasında bir ilişkinin yokluğunu farzeder. P-değeri ne kadar küçükse, verilerin boş hipotezle istatistiksel uyumsuzluğu o kadar fazladır, şayet p-değerini hesaplamak için kullanılan varsayımlar geçerliyse. Bu uyumsuzluk boş hipoteze ya da altta yatan varsayımlara kuşku düşmesi ya da onların aleyhinde delil sağlanması diye yorumlanabilir.

2. P-değerleri ne çalışılan hipotezin doğru olma ihtimalini ölçer, ne de verilerin salt tesadüf eseri üretilmiş olma ihtimalini ölçer.

Araştırmacılar çoğu zaman p-değerini bir boş hipotezin doğruluğu hakkında ya da gözlenen verinin salt tesadüf eseri üretildiği hakkında bir beyana çevirmek isterler. P-değeri bunların ikisi de değildir. Tarif edilen hipotetik açıklamayla ilişkilidir ama veri hakkında bir beyandır, açıklamanın kendisiyle ilgili bir beyan değildir.

3. Bilimsel sonuçlar, iş ve siyaset kararları salt bir p-değerinin belirtilen bir eşiği geçip geçmediğine dayandırılmamalıdır.

Veri analizini ya da bilimsel çıkarımı, bilimsel iddia veya sonuçları gerekçelendiren mekanik “kırmızı çizgi” kurallarına (“p < 0.05″ gibi) indirgeyen pratikler hatalı inançlara ve kötü kararlara yol açabilir. Bir netice hemen bir çizginin bir tarafında “doğru” öbür tarafında “yanlış” olmaz. Araştırmacılar bilimsel çıkarımlar türetmek için birçok bağlam faktörünü devreye sokmalıdır, mesela çalışmanın tasarımı, ölçümlerin niteliği, çalışılan görüngü hakkında dış deliller, veri analizinin altında yatan varsayımların geçerliliği gibi. Pragmatik değerlendirmeler çoğu zaman ikili “evet-hayır” kararları gereksinir, ama bu tek başına p-değerlerinin bir kararın doğru ya da yanlış olduğunu emniyete alabileceği anlamına gelmez. Genelde “p ≤ 0.05″ diye yorumlanan “istatistiksel belirginliğin” bilimsel bir bulgu (ya da çıkarsanan bir hakikat) için bir ehliyet gibi yaygınca kullanılması bilimsel süreci ciddi anlamda bozmaktadır.

4. Düzgün çıkarım yapılması eksiksiz bildirmeyi ve şeffaflığı gereksinir.

P-değerleri ve ilişkili analizler seçerek bildirilmemelidir. Veri üzerinde çok sayıda analiz yapılması ve sadece belli p-değerleri olanların (tipik durumda bir belirginlik eşiğini geçenlerin) bildirilmesi, bildirilen p-değerlerini esas itibariyle yorumlanamaz kılar. Ümit veren bulguların seçmece yapılması (veri taraklama, belirginlik kovalama, belirginlik tarama, seçici çıkarım ve “p-hacklemesi” adlarıyla da bilinir) yayınlanmış literatürde belirgin çıkan sonuçlarda sunî bir aşırılığa yol açar ve bundan kesinlikle kaçınılmalıdır. Sorun çıkması için formel anlamda çok sayıda istatistiksel test yürütülmesi gerekmez: Ne zaman bir araştırmacı istatistiksel sonuçlara dayanarak neyin sunulacağını seçerse, o sonuçların geçerli yorumu ciddi anlamda tehlikeye girer, şayet okur bu seçim ve dayanak hakkında bilgilendirilmezse. Araştırmacılar çalışma boyunca dikkate alınan hipotezlerin sayısını, tüm veri toplama kararlarını, yürütülen tüm istatistiksel analizleri ve hesaplanan tüm p-değerlerini ortaya koymalıdırlar. P-değeri ve ilişkili istatistiklere dayanarak geçerli bilimsel sonuçlara varılabilmesi için en azından hangi analizlerin ne kadar yürütüldüğü ve o analizlerin bildirilmek üzere nasıl seçildikleri (p-değerleri dahil) bilinmelidir.

5. Bir p-değeri yahut istatistiksel belirginlik, ne bir etkinin boyunu ölçer ne de bir sonucun önemini ölçer.

İstatistiksel belirginlik, ne bilimsel, ne insanî, ne de ekonomik belirginlik ile eşdeğerdir. Daha küçük p-değerleri daha büyük yahut daha önemli etkilerin mevcudiyetini gerektirmez, ve daha büyük p-değerleri ne önem eksikliğini ne de etkiden yoksunluğu belirtir. Her etki, ne kadar küçük olursa olsun, örneklem boyu ya da ölçüm isabeti yeterince büyükse küçük bir p-değeri üretebilir, ve büyük etkiler, örneklem boyu küçükse ya da ölçümler isabetsizse, intibasız p-değerleri üretebilir. Bunun gibi, kestirilen etkiler aynı da olsa kestirim isabetleri farklıysa p-değerleri de farklı olacaktır.

6. Kendi başına bir p-değeri bir model ya da hipotez bakımından iyi bir delil ölçüsü sağlamaz.

Araştırmacılar bağlam veya başka deliller olmadan p-değerinin sınırlı bilgi sağladığını anlamalılar. Mesela 0.05’e yakın bir p-değeri kendi başına alındığında boş hipotez aleyhine ancak zayıf bir delil sunar. Bunun gibi, nispeten büyük bir p-değeri boş hipotezin lehine delil sunmaz; gözlenen verilerle en az o kadar bağdaşan birçok başka hipotez olabilir. Bu nedenlerle, başka uygun ve elverişli yaklaşımlar varken, p-değerinin hesaplanmasıyla veri analizi sona ermemelidir.

4. Başka Yaklaşımlar

P-değerlerine ilişkin yaygın yanlış kullanım ve yanlış kavrayışları dikkate alan kimi istatistikçiler p-değerlerinin yanında veya onun yerine başka yaklaşımlara başvurmayı tercih ederler. Bunlar arasında, test etmekten çok kestirmeyi vurgulayan güven, güvenirlik ya da kestirim aralıkları gibi yöntemler; Bayesci yöntemler; olabilirlik oranları ya da Bayes Faktörleri gibi alternatif delil ölçüleri; ve karar-kuramsal modelleme ve fol keşif oranları gibi başka yaklaşımlar sayılabilir. Bütün bu ölçüler ve yaklaşımlar daha başka varsayımlara yaslanırlar, ama bir etkinin boyunu (ve onunla ilişkili belirsizliği) ya da bir hipotezin doğru olup olmadığını daha doğrudan gösterebilirler.

5. Sonuç

İyi istatistik pratiği, iyi bilimsel pratiğin elzem bir bileşenidir, ve iyi çalışma tasarım ve yürütme ilkelerini, veri hakkında sayısal ve grafik özetlerde çeşitliliği, çalışılan görüngünün anlaşılmasını, sonuçların bağlam içinde yorumlanmasını, eksiksiz bildirmeyi ve veri özetlerinin ne anlama geldiğinin mantık ve nicelik bakımından düzgünce anlaşılmasını vurgular. Tek bir endeks bilimsel akıl yürütmenin yerine geçirilmemelidir.

Teşekkür

Amerikan İstatistik Birliği Yönetmenler Kurulu beyanın gelişimi esnasında uzmanlık ve bakış açılarını paylaştıkları için adı sayılan kişilere teşekkür eder. Beyanın tüm bu insanların bakış açılarını yansıtması gerekmez, ve aslında aralarında bazıları beyanın tümüne veya bir kısmına aykırı görüşlere sahiptirler. Yine de katkılarından dolayı onlara çok müteşekkiriz. Naomi Altman, Jim Berger, Yoav Benjamini, Don Berry, Brad Carlin, John Carlin, George Cobb, Marie Davidian, Steve Fienberg, Andrew Gelman, Steve Goodman, Sander Greenland, Guido Imbens, John Ioannidis, Valen Johnson, Michael Lavine, Michael Lew, Rod Little, Deborah Mayo, Chuck McCulloch, Michele Millar, Sally Morton, Regina Nuzzo, Hilary Parker, Kenneth Rothman, Don Rubin, Stephen Senn, Uri Simonsohn, Dalene Stangl, Philip Stark, Steve Ziliak.

http://amstat.tandfonline.com/doi/full/10.1080/00031305.2016.1154108

Türkçesi: Işık Barış Fidaner

1 Comment

Filed under çeviri, bildiri, bilim, şey

One response to “İstatistiksel Belirginlik ve P-Değerleri Hakkında Beyan — Amerikan İstatistik Birliği

  1. Pingback: Asla bir daha — çeviri derlemesi | YERSİZ ŞEYLER