Google’ın yinelenen sayfalar için bir ceza uygulamadığını hepimiz biliyoruz ancak bu sayfaların hangisini birincil olarak belirliyor, nelere göre değerlendiriyor. Bunu anlamak için Google’ın 03.10.2017 tarihli “Bir dökümanın birinci versiyonunu belirleme” adlı patentini rehber alalım.

yinelenen içerik kopya içerik

Yöntem belirli bir belgenin çok sayıda farklı versiyonunun bir bilgisayar sistemi tarafından tanımlanması olarak ifade ediliyor. Google bunu yaparken her bir belge sürümü için üretilen öncelik değerlerine dayanarak birçok meta veri türünü kullanır.

Sistem, bir öncelik kuralı ve belge sürümüyle ilişkilendirilen bilgilere dayanarak, her belge sürümü için yetki önceliğini seçer. İlişkilendirilen otorite önceliğine ve meta bilgilere dayanarak birincil sürümü belirler.

Aynı içeriği paylaşan kopya dokümanlar, bir web tarayıcı sistemi tarafından tanımlanır. Yeni yüklenmiş bir belgenin taranmasının ardından, daha önce taranan doküman grubu (aynı içeriğe sahip sayfalar) tanımlanır.

Yeni taranmış belgeyi ve seçilen belge kümesini tanımlayan bilgiler, yeni bir belge kümesini tanımlayan bilgilerle birleştirilir. Mükerrer belgeler, sorgudan bağımsız bir metriğe dayanan yeni belge grubuna dahil edilir. Bu yeni gruba ait bir belge, önceden tanımlanmış koşullara göre yeniden tanımlanır.

Bazı düzenlemelerde, bir çift kopya dokümandan temsili bir doküman seçmek için:

Birinci dokümanın arama sorgularından bağımsız skoru ile ilişkili olması esasına dayanarak, her dokümanın birden fazla sayıda bağımsız bir skorla ilişkilendirilmesi temelinde, her belge (sayfa) kendi içeriğini tanımlayan bir birçok ize sahiptir. Bu izler dokümanların esas olarak aynı içeriğe sahip olduğunu gösterir. Çok sayıda sayfada yer alan ilk belge, sorgudan bağımsız bir puan ile ilişkilendirilir. Metot ayrıca, bağımsız skor sorgusuna göre indekslemeyi de içerir.

Google niçin sayfaların ilk sürümlerini bulmak zorundadır?


Google’ın temel hedefi en alakalı ve güvenilir arama sonucunu sunmaktır. Arama sonuçlarında görünen bir belgenin farklı sürümlerinden birini birincil sürüm olarak tanımlamanın temel nedenleri şunlardır.

  • Aynı belgenin farklı sürümlerinin sonuçlara dahil edilmesi ek yararlı bilgiler sağlamaz ve kullanıcılara faydası yoktur.
  • Aynı belgenin farklı sürümlerini içeren arama sonuçları, dahil edilmesi gereken diğer çeşitli içerikleri kalabalıklaştırabilir.
  • Arama sonuçlarında mevcut olan bir dokümanın farklı versiyonlarının bulunduğu yerlerde, kullanıcı hangi versiyonun en yetkili, eksiksiz veya en iyi olduğunu bilemeyebilir ve sonuçları karşılaştırmak için ek zaman harcayabilir.

Sistem nasıl çalışır?

Bir belgenin farklı sürümleri, veritabanları, web siteleri ve diğer veri sistemleri gibi birkaç farklı kaynak sayesinde tanımlanır. Her belge sürümü için şunlara göre bir yetki önceliği seçilir:

  1. Belge sürümüyle ilişkili meta veri bilgileri, örneğin kaynak
  2. Münhasır yayınlama hakkı
  3. Lisans hakkı
  4. Alıntı bilgisi
  5. Anahtar kelimeler
  6. Sayfa sırası

İkinci adım

Uzunluk ölçüsü kullanılarak belge sürümlerinin uzunluk kalifikasyonu belirlenir. Yüksek bir yetki önceliğine ve nitelikli bir uzunluğa sahip olan sürüm, dokümanın temel hali olarak kabul edilir.

Belge sürümlerinden hiçbiri hem yüksek önceliğe hem de nitelikli bir uzunluğa sahip değilse, birincil sürüm, her bir doküman sürümüyle ilişkili bilgilerin toplamına göre seçilir.

Bilimsel literatür çalışmaları sıkı bir format gerekliliğine tabi olduğundan, dergi makaleleri, konferans makaleleri, akademik makaleler ve dergi makalelerinin alıntı kayıtları belgelerin içeriğini ve kaynağını açıklayan meta veri bilgilerine sahiptir. Sonuç olarak, bilimsel literatür çalışmaları, alt kimlik sistemi için iyi adaylardır.

Bu işlem sırasında incelenebilecek meta veriler aşağıdakileri içerebilir:

  1. Yazar isimleri
  2. Başlık
  3. Yayımcı
  4. Yayın tarihi
  5. Yayın yeri
  6. Anahtar kelimeler
  7. Sayfa sırası
  8. Alıntı bilgisi
  9. Dijital Nesne Tanımlayıcısı,
  10. PubMed Tanımlayıcısı,
  11. SICI, ISBN ve benzeri tanımlayıcıları
  12. Ağ konumu (ör. URL)
  13. Referans sayısı
  14. Atıf sayısı
  15. Dil

Bir sayfanın birincil versiyonunu belirlemenin arkasındaki metodoloji daha derinlemesine gider:

Öncelik Kuralı

Öncelik kuralı, bir doküman versiyonuna erişim yetkinliğini, bütünlüğünü veya değerini yansıtmak için sayısal bir değer (örneğin bir puan) oluşturur. Öncelik kuralı, kaynak öncelikli bir listeye dayalı olarak, belge sürümünün kaynağı tarafından belge sürümüne atanan yetki önceliğini belirler.

Kaynak önceliği listesi, her kaynağa karşılık gelen, yetki önceliğine sahip bir liste içerir. Bir kaynağın önceliği, kaynağın itibarı, kaynağı yayınlayan kuruluşunun büyüklüğü, güncellemelerin tekrarı, sıklığı veya diğer dışsal faktörlerin göz önünde bulundurulması gibi editoryal seçime dayalı olabilir. Böylece her belge sürümü bir otorite önceliği ile ilişkilidir; bu ilişkilendirme çeşitli veri yapılarında saklanır.

Nitelikli Öncelik nedir?

Nitelikli bir öncelik değeri, bir belge sürümünün öncelik kuralına bağlı olarak yetkili, eksiksiz veya erişmesi kolay olup olmadığını belirlemek için kullanılan bir eşiktir. Belge sürümünün atanan önceliği, nitelikli öncelik değerine eşit veya ondan büyükse, belgenin öncelik kuralına bağlı olarak yetkili, eksiksiz veya erişimi kolay olduğu kabul edilir. Alternatif olarak, nitelikli öncelik, bir dizi belge sürümünün göreceli bir ölçümüne de dayanabilir. Sadece en yüksek öncelik, nitelikli öncelik olarak kabul edilir.

Yinelenen sayfaların birincil sürümünü tanımlamaya yönelik patent, Google’ın yinelenen belgeler arasında hangisinin en önemli sürüm olduğuna inandığını anlamamıza yardımcı oluyor. Bu bilgiler web sitenizi arama sonuçlarında daha üst konumlara taşımanıza yardımcı olur mu bilmiyorum ancak SEO’nun çok ciddi bir biçimde ele alındığını görmek güzel.

Google’ın konu ile ilgili patentine buradan ulaşabilirsiniz.

  1. Bilgi diyor ki:

    Oldukça güzel yazılar yazıyorsunuz sosyal medya üzerinden denk geliyorum umarım hak ettiğiniz sonuçlar ile müşterilerinize ulaşırsınız ben okurken bilginin yanında keyifte aldım iyi çalışmalar.

  2. Kadir Ak diyor ki:

    E-ticaret sitelerinin bu noktada dikkat etmesi gereken unsurlar nelerdir Yılmaz bey?

    Bursa’da seo uzmanı olarak referans verilecek içerikler hazırlıyorsunuz, tebrik ederim.

    • Yılmaz Saraç diyor ki:

      Bu yazı, patentlerin nasıl çalıştığını gösteren bir ders veya analiz değildir. Google’ın patent alarak korumaya çalıştığı süreçler hakkında bir şeyler bilmek, büyük resmi görme adına bazı fikirler verebilir.
      Teşekkür ederim.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

×
Göster