Öbekleme Problemine Bayesci Bir Yaklaşım Ve Gen İfadesi Analizinde Uygulanması

Işık Barış Fidaner, PhD Tezi

Bu tezde gen ifadesi zaman serisi verisinden bilgi çıkarılması için yöntemler araştırılmıştır. Bu zaman serileri altta yatan biyolojik mekanizmalara dair dolaylı ölçümler sağlar, bu yüzden analizlerde istatistiksel modelleme tekniklerine yoğunca başvurulur. Özellikle popüler bir analiz yaklaşımı, ifade profili benzerliklerine göre genleri öbeklemektir. Fakat bilimsel veri analizi açısından öbekleme güçlü bir metodoloji gerektirir ve Bayesci nonparametri bu konuda gelecek vaat eden bir çerçeve sağlar.

Bu bağlamda, iki yeni Bayesci nonparametrik model geliştirildi: Standart sonsuz karışım modelini genişleten Sonsuz Çokyönlü Karışım (IMM); ve karışım bileşenlerinde gen ifadesi zaman serilerine uyarlanmış özgül bir yapıyı varsayım alan Parçalı Doğrusal Dizilerin Sonsuz Karışımı (IMPLS). Bayesci paradigmada gen analizi için anahtar nesne, model ve gözlemler verildiğinde, bölüntüler üzerindeki sonsal dağılımdır. Fakat, bölüntüler üzerinde bir sonsal dağılım oldukça karmaşık bir nesnedir. Burada Markov zinciri Monte Carlo çıkarımı uygulayarak gen bölüntülerinin sonsal dağılımından bir örneklem elde ediyoruz, ve geliştirdiğimiz sezgisel iki-aşamalı öbekleme yaklaşımı ile sonsal örneklemi işliyoruz. Bölüntüler üzerindeki dağılımların analizi için entropi toplaşması (EA) adını verdiğimiz alternatif, yeni bir yaklaşım da geliştirildi. EA’nın bölüntülerden ve daha genelde özellik atamalarından oluşan örneklemlerin yorumlanmasında kullanışlı olduğu gösterildi.

Öbekleme metodolojisinin değerlendirilmesinde iki farklı sahada ayrı deneyler gerçekleştirilmiştir. Birincisinde, edebi bir metnin (James Joyce’un Ulysses’i) paragrafları EA ile analiz edilerek sözcükleri arasındaki bağlamsal ilişkiler ortaya çıkarılmıştır. İkinci olarak, biyoenformatik uygulamasında, sonuçta çıkan öbeklerin amaca uygunluğunu değerlendirmek için standart çoklu hipotez testi uygulanmış, bir gen ontolojisine ait terimlerle kodlanmış önceki biyolojik bilgilerle karşılaştırılmıştır. Geliştirilen metodolojinin entegre edildiği eksiksiz süreç akışı CLUSTERnGO (CnG) dört fazdan oluşur (Yapılandırma, Çıkarım, Öbekleme, Değerlendirme). CnG’nin işlem hattının tamamı bir yazılım paketi olarak geliştirilmiş ve GNU Genel Kamusal Lisansı altında yayınlanmıştır.

(ingilizce özetözet istatistikleriizdüşüm entropisi)

1 Comment

Filed under bilim

One response to “Öbekleme Problemine Bayesci Bir Yaklaşım Ve Gen İfadesi Analizinde Uygulanması

  1. Pingback: Çantanın dışarması meselesi | YERSİZ ŞEYLER