İstatistikten büyük isimler çok kötülenen P değerinde değişiklik yapmak istiyor — Dalmeet Singh Chawla

Dalmeet Singh Chawla — 26 Temmuz 2017 — nature.com

Bilimcilerin en sevdiği istatistiklerden birisi –P değeri– için daha katı standartlar uygulanmalı, diyor önde gelen araştırmacılar.

Bilim yeniden üretilebilme krizinin sancıları içinde; araştırmacı, foncu ve yayıncılarda bilimsel literatürün güvenilmez sonuçlarla pisletildiği endişesi giderek şiddetleniyor. 72 önde gelen araştırmacı sorunun bir sebebi dedikleri şeyi hedef alıyor: yeni keşif [discovery, exploration ile karıştırılmamalı] iddiaları için zayıf istatistiksel delil standartları.

Birçok disiplinde bulguların belirginliği P değerleriyle muhakeme edilir. Bu değerler ‘null hipotez’i test etmek (ve reddetmek) için kullanılır; ‘null hipotez’ genelde test edilen etkinin varolmadığını beyan eder. Bir sonuç kümesi için bulunan P değeri ne kadar küçükse, o sonuçların salt tesadüf eseri olması o kadar az muhtemeldir. Bu değer 0.05’in altında olduğu zaman sonuçlar ‘istatistiksel anlamda belirgin’ sayılır.

Fakat birçok bilimcinin endişesi o ki 0.05 eşiği literatürde çok fazla fol olumlu [false positive] belirmesine sebep oldu, ve bu sorun P hacklemesi denen bir pratikle daha da fenalaştı: bu pratikle araştırmacılar test edecekleri bir hipotez yaratmadan veri topladılar ve sonuçlarda istatistiksel anlamda belirgin olduğu bildirilebilecek örüntüler aradılar.

O yüzden PsyArXiv önyayın sunucusuna 22 Temmuz’da gönderilen kışkırtıcı bir makalede araştırmacılar P-değeri eşiklerinin sosyal ve biyomedikal bilimlerde 0.005’e düşürülmesi gerektiğini savunuyorlar. Son kağıt Doğa İnsan Davranış’ta yayınlanacak.

“Araştırmacılar P değeri 0.05 olduğunda delilin ne kadar zayıf olduğunu fark etmiyorlar ki,” diyor Daniel Benjamin, kağıdın eş-başyazarlarından birisi, Los Angeles Güney Kaliforniya Üniversitesi’nde ekonomist. Ona göre 0.05 ile 0.005 arasındaki P değerleri oturmuş bilgi sayılmak yerine sadece “telkin edici delil” sayılmalı.

Diğer eş-yazarlar arasında yeniden üretilebilmenin iki ağır topu var: Kaliforniya Stanford Üniversitesinde bilimsel gürbüzlük çalışan John Ioannidis ile Virginia Charlottesville Açık Bilim Merkezi’nin yürütücü yönetmeni Brian Nosek.

Süper-boy örneklemler

P-değeri eşiklerini düşürmekle ilgili bir sorun, bunun fol olumsuz [false negative] şansını yükseltebilmesi –etkiler aslında olduğu halde olmadıklarının beyan edilmesi–, diyor Casper Albers, Hollanda Groningen Üniversitesi’nde psikometrik ve istatistik araştırmacısı. Bu soruna karşı koymak için Benjamin ve meslektaşları araştırmacıların örneklem kümelerini %70 oranında büyütmelerini telkin ediyor; bunun fol olumsuz oranlarındaki artışları önlerken fol olumlu oranlarını yine büyük ölçüde azaltacağını söylüyorlar. Ama Albers’e göre pratikte ancak iyi-fonlanmış bilimciler bunu yapabilme araçlarına sahip olabilir.

Shlomo Argamon, Chicago Illinois Teknoloji Enstitüsü’nden bilgisayar bilimcisi, soruna basit bir yanıt olmadığını söylüyor, çünkü “hangi itimat seviyesini seçerseniz seçin, eğer deneyinizi tasarlamanın yeteri sayıda farklı yolu varsa, onlardan en azından bir tanesinin salt tesadüf eseri istatistiksel anlamda belirgin bir sonuç vermesi hayli muhtemel olur”. Yeni metodolojik standartlar ve araştırma incentiveleri gibi daha radikal değişiklikler gerektiğini söylüyor.

P-değeri eşiklerini alçaltmak ayrıca “dosya-çekmece sorunu”nu da fenalaştırabilir, yani olumsuz sonuçlar veren çalışmalar yayınlanmadan kalabilir, diyor Tom Johnstone, UK Reading Üniversitesi’nden bilişsel nörobilimci. Ama Benjamin’e göre tüm araştırmalar yayınlanmalı, P değerine bakılmaksızın.

Kale direklerini oynatmak

Başka bilimsel alanlar çoktan P değerlerine sert müdahalelerde bulundu — ve 2015’te bir psikoloji dergisi bu değerleri yasakladı. Parçacık fizikçileri, atom çarpışma deneylerinden tomar tomar veri topluyor, ve uzun zamandır 0.0000003’ün (3 × 10−7) altında P değeri talep ediyordu, daha düşük bir eşiğin hatalı iddialara yol açabileceği endişesiyle, diyor Valen Johnson, College Station Texas A&M Üniversitesi’nden istatistikçi ve kağıdın eş-başyazarı. On küsur yıl önce genetikçiler de benzeri adımlarla genom-çapında ilişkilendirme çalışmaları için 5 × 10−8 eşiğini oturttular (bu çalışmalar hastalığı olan ve olmayan insanlar arasındaki farkları yüzbinlerce DNA-harf varyantları içinde arar).

Başka bilimciler ise P değerlerini terk ederek Bayesci testler gibi daha sofistike istatistiksel araçlara yöneldiler: bu testler araştırmacıların iki tane alternatif hipotez tanımlayıp test etmesini gereksinirler. Ama tüm araştırmacılar Bayesci testler yürütecek teknik uzmanlığa sahip olmaz, diyor Johnson, ona göre P değerleri hâlâ bir hipotezin delille desteklenip desteklenmediğini ölçmekte yararlı olabilir. “P değerinin kendisi kötü yürekli olmak zorunda değildir.”

Türkçesi: Işık Barış Fidaner

Leave a comment

Filed under çeviri, bilim

Comments are closed.