1913'te rus matematikçi andrey markov, puşkin'in yevgeni onegin adlı kitabıyla birlikte bir kalem ve boş bir kağıtla çalışmak üzere oturdu ve saatlerce kalkmadı. amacı puşkin'in kitabını okumak değildi. kalemle kağıdın üzerine bir tablo çizdi ve kağıda bir şeyler yazmaya başladı. Sonrasında elinde şu veriler vardı:
ikinci aşamada harfleri bigram (ikili gruplar halinde: elma--> el-lm-ma) olarak inceledi. Ve şu verileri elde etti:
1.104 kez sesli harf, sesli harfle takip edildi. 3.827 kez sessiz harf, sessiz harfle takip edildi. 15.069 kez sesli harf, sessiz harfle ya da sessiz harf, sesli harfle takip edildi.
Bu verileri elinde bulundurunca bir sonraki harfin sesli mi yoksa sessiz mi olacağını tahmin etmek kolay hale geliyordu. Yani sadece o anda okunulan harfin bilinmesi, bir sonraki harfin sesli mi yoksa sessiz mi olacağının olasılığını hesaplamaya yetiyordu. Yani sadece mevcut durumun bilinmesi, geçmişteki durumlardan bağımsız olarak gelecekteki bir sonraki durumun olasılığını hesaplamaya yetiyordu. işte markov özelliği* budur ve markov özelliği taşıyan stokastik süreçlere de markov zinciri denir. Markov’u, puşkin’in kitabı üzerinde saatlerce çalışmaya iten şey kendi çalışmasının uygulamasını görebilmekti. (burada eklemem gereken şey; markov zinciri genelde markov özelliği taşıyan ayrık zamanlı stokastik süreçler için kullanılır ama sürekli zamanlı stokastik süreçler için de kapsayıcı şekilde kullanılmaktadır.)
Ancak bu çalışması uzun süre sadece dönemin rusyası içerisinde popüler olabildi. Kimse kendisinin makalesini ingilizceye çevirmemişti bile. 1948’de, information theory’nin babası olarak bilinen claude shannon, "A Mathematical Theory of Communication" adlı makalesinde bir sonraki harfi, markov zincirinden faydalanarak tahmin eden bir çalışma yapınca, markov’un çalışması yavaş yavaş ünlenmeye başladı. Shannon bu çalışmalardan faydalanarak bir bilgiyi kaybetmeden sıkıştırma üzerine çalışmalar yaptı ve dijital haberleşmenin ilk adımlarını attı. (bkz: shannon entropy) Mit’den bir dil bilimci, Morris Halle, meslektaşlarından gelen ricalar sonucu 1955’te markov’un çalışmasını ingilizceye çevirdi ama yayınlamadı. Daha sonrasında noam chomsky 1956, 1957, ve 1963’te peş peşe yayınladığı çalışmalarda, dil için geliştirilen istatistikler modellerin, insanların gramer bilgisini oluşturan bilişsel modeli tamamen karşılamayacağını, sadece güzel bir mühendislik örneği olduğunu söyleyince istatistiksel dil modelleri üzerindeki çalışmalara uzun süre ara verildi.
Markov’un çalışması, yaklaşık 100 sene sonra, 2006’da david link tarafından ingilizceye çevrildi ve "An Example of Statistical investigation of the Text Eugene Onegin Concerning the Connection of Samples in Chains" adıyla yayınlandı .
buraya kadar biraz geçmişinden bahsettim, şimdi ilk çıkış noktasına tekrar döneceğim. Andrey markov’un siyasi görüşü ve hayatı kendi başlığında irdelenmesi gereken bir konu, ancak bu çalışmayı yapmasında biraz da karşıt siyasi görüşte olduğu bir diğer matematikçi pavel nekrasov ile iddialaşması etkili olmuştur. (markov anti-çarist idi.) şimdi mantığına gelirsek:
klasik olarak okullarda öğretilen olasılık, bağımsız olaylar üzerine kurulmuştur. Mesela bir parayı havaya fırlattığınız zaman tura gelme olasılığı 1/2’dir. Parayı iki kere fırlatırsanız, ikinci seferde tura gelmesi olasılığı da 1/2’dir. ikinci seferde tura gelme olasılığı, ilk seferin sonucundan bağımsızdır.
Ama bu olasılık modeli sıralı* bağımlı olaylarda işlemez. Mesela, hava durumunun üç farklı hali olduğunu varsayın: güneşli, bulutlu ve yağmurlu.
Bugünkü havanın bulutlu olma olasılığı 1/3’tür dersek, yarınki havanın bulutlu olma olasılığına da 1/3 diyemeyiz. Aksine bugün hava bulutluysa, yarın yağmurlu olması daha olasıdır. Yani sıralı iki olay birbirlerine bağımlıdır. Markov, bu tarz sıralı bağımlı olaylar için de bir olasılık dağılımı olması gerektiğini düşünüyordu. Ancak nekrasov, bunun mümkün olmadığını düşünüyordu. Markov bu iddialaşmanın neticesinde ilk çalışmasını 1906’da yayınlayarak, belirli koşullar altında bunun mümkün olduğunu kanıtladı. Daha sonraları puşkin’in eseri üzerinde deney yaparak, söz konusu zincirler için bir merkezi limit teoremi olacağını kanıtladı.
Gerçek hayat uygulaması ile ilgili çok güzel bir örnek, adım adım çözümüyle birlikte şadi evren şeker’in bilgisayar kavramları adlı sayfasında mevcuttur. Emeğe saygı duyarak, örneği direkt buraya kopyalamayacağım. hem sözlükte matris yazmam da pek olası değil. O yüzden şu linkten bakarsanız, bir örnekle birlikte tüm süreç çok güzel oturacaktır diye düşünüyorum: bilgisayarkavramlari.com/...
onun dışında bir markov zinciri tam olarak şuna benzer.
çok basit bir sistem için simülasyonunu görebileceğiniz bir örnek ise şu linkte mevcuttur. Stokastik matris değerlerini değiştirerek sistemin hareketini simülasyonla gözlemleyebilirsiniz.
Şimdi “markov zinciri gerçek hayatta ne işimize yarayacak” kısmına gelelim. rassal yürüyüş* bir çeşit markov zinciridir. Ukde sahibinin pagerank/#193784 nolu girdide belirttiği üzere, pagerank bir çeşit markov zinciridir. Yaklaşık 100 yıl sonrasında bile websitelerini derecelendirmek için google tarafından kullanılmıştır. Finans, biyoloji, fizik ve doğal dil işleme gibi birçok alanda kullanılmıştır. Doğal dil işlemede markov zincirleriyle metin üretmek*mümkündür . Telefonlarınızdaki otomatik tamamlama, markov zinciri yardımıyla geliştirilebilir. (ya da en azından onu temel alarak.) markov zinciri, bazı durumlar için derin öğrenme modellerinden (rnn’lerden) daha efektif çalışır. (rnn’lerde markov özelliği şartı yoktur.)
Eğer sistem otonomsa ve bir andaki durumu kısmen gözlemlenebilirse buna hidden markov model adı verilir. Eğer sistem bazı aksiyonlarla (seçim ve ödül) kontrol edilebilir ve tamamen gözlemlenebilirse, buna markov karar süreci* adı verilir. reinforcement learning, bana göre insanları en iyi taklit edebilen makine öğrenmesi paradigması, markov karar süreci problemlerini çözüp, optimum politikayı elde etmek için kullanılır. Yani görüldüğü gibi, 100 yıldan uzun süre önce yapılmış çalışma, halen yapay zeka çalışmaları için yardımcı olmaktadır.