Pagerank sisteminin ardında çok basit ve dürüts bir yaklaşım yatıyor.
1. Her web sitesi yada blog için, o siteye bağlantı veren başka web siteleri yada bloglar vardır.
2.Tabii bu web sitelerinin de kendilerine ait bir pageranki bulunur.
3. B sayfasından A sayfasına verilen bir bağlantı, B'nin A'ya desket olduğu anlamına gelir.
4. Formülde A sayfasına oy veren B sayfasının pagerank'ı da değerlendirmeye katılır. B'nin sıralama değeri ne kadar yüksekse o kadar iyidir.
5. B sayfasında kaç adet bağlantı verildiği de önemlidir. Yani size link veren diğer sitelerde ki link toplamı ne kadar az ise bu sizin pagerankınızı o kadar olumlu yönde etkiler.
6. Tüm pagerankların toplamı, web'deki tüm dökümanların toplam sayısına eşittir. Pagerank, bir belgenin tüm internetteki ağırlığı ile ilgilidir.
Önemli olan bir diğer nokta da şu ki; pagerank değeri web sitelere için değil, her bir web sayfası için hesaplanmakta. Bundan dolayı, bir web sunucusunda yer alan bir makalenin anasayfanınkinden daha yüksek bir değere sahip olması mümkün.
Anlattıklarımızı bir formüle dönüştürdüğümüzde, pagerank değeri şu şekilde görünüyor;
PR(A) = (1-d) + d (PR(T1) / C(T1) + ... + PR(Tn) / C(Tn))
Bu formülde şu şekilde okunabilir: A sayfasının sayfa sıralaması, T1'den Tn'e kadar giden sayfaların sayfa sıralaması değerinin, bu sayfalardaki bağlantı sayısına bölünmesiyle elde edilir. Buna, daha sonraki işlemlerde büyük rol oynayan bir handikap faktörü de ekleniyor.
Pagerank ilkesini biraz daha anlaşılır şekilde anlatacak olursak. Şöyle düşünün WWW'nin sadece dört sayfası var. Bunlar da A, B, C ve D isimli web siteleri. Hepsinin başlangıçtaki sayfa sıralaması değerlerinin 1 olduğunu varsayalım. Sayfa sıralama değerlerinin toplamı, internette yer alan toplam sayfa sayısını, yani 4'ü verecektir. İlk örnek için, B, C ve D'ye A'dan birer bağlantı verilmiş olsun. Bundan başka hiçbir balğantı bulunmasın.
Handikap faktörünü şimdilik hesaba katmıyoruz bu yüzden formülümüz şu oluyor;
PR(A) = 1/1 + 1/1/ + 1/1
Böylelikle A'nın pagerankı 3 ediyor. Biraz daha karmaşık olan, aşağıdaki grafiğe bakalım. A sayfası B'ye ve C'ye bağlantı veriyor. B, sadece A'ya bağlantı veriyor. C ise A, B ve D'ye. D'nin tek bağlantısı ise B sayfasına.
Bu durumda, A'nın formülü aşağıdaki gibi oluyor;
PR(A) = 1/1 + 1/3
Çünkü B'den gelen bağlantı 1 sayılıyor. C'de ise üç bağlantı bulunduğundan, oradan gelen bağlantı 0,33 değerindedir. Böylelikle toplam değeri 1,33 olur.
B içinse aşağıdaki kural geçerlidir
PR(B) = 1/2 + 1/3 + 1/1
Bu da yaklaşık 1,83 eder.
C ise şu şekilde hesaplanır.
PR(C) = ½
Bu yüzden de değeri 0,5'tir.
D'nin değeri değeri ise;
PR(D) = 1/3
Yani yuvarlak hesap 0,33'tür.
Toplamda yine tüm sayfaların sayısını elde etmemiz gerekiyor.
1,33+1,83+0,5+0,33=3,99
Kayıp olan 0,01 yuvarlamanın sonucu bildiğiniz gibi. Ancak bu hesaplamada bir şey daha eksik ki o da her bir web sitesinin pagerank değerinin formülde yer almayışı. Bir kez daha B örneğine bakalım. Bu formülde, sayfa sıralamalarını 1 almak yerine, önceki basamakta elde ettiğimiz değerleri kullanırsak:
PR(B) = 1/2 + 1/3 + 1/1
Yerine
PR(B) = 1,33/2 + 0,5/3 + 0,33/1
Formülünü elde ederiz ve sonuç da yuvarlanmış olarak 1,62 eder. Doğal olarak, B'nin sayfa sıralamasının yeniden hesaplanması A, C ve D'nin değerini değiştirecektir. D'nin değeri yeniden hesaplanmak zorunda kalınacaktır.
Bu yüzden, Google pagerank değerlerini tekrar tekrar toplayarak, yaklaşık olarak hesaplıyor. Arama motoru, bir hesaplama döngüsünün sonucunu bir sonraki adımda kullanıyor. Yapılan açıklamaya göre de kaydedilmiş milyarlarca sayfanın pagerank değerini hesaplamak için döngünün yaklaşık 100 kez tekrarlanması gerekiyor.
Kaynak: www.chip.com.tr







Yorum Gönder