Google’ın aylık ofis saatleri Soru-Cevap oturumunda, Google Search Console’daki genel verilere kıyasla filtrelenen verilerin hacminin daha yüksek olduğuna ilişkin bir soru soruldu.
Bu soru, Google Arama İlişkileri ekip üyesi Gary Illyes’in Google’ın çiçek filtreleri kullanımına ışık tutan ayrıntılı bir yanıt vermesini sağladı.
Search Console’da Orantısız Veri
Soru şuydu: “Filtrelenen veriler neden Search Console’daki genel verilerden daha yüksek, bunun hiçbir anlamı yok.”
Görünüşte bu bir çelişki gibi görünebilir.
Beklenti, genel verilerin daha kapsamlı olması ve dolayısıyla filtrelenen herhangi bir alt kümeden daha kapsamlı olmasıdır.
Ancak kullanıcıların yaşadığı şey bu değil. Burada neler oluyor?
Arama Konsolu ve Bloom Filtreleri
Illyes cevabına başlıyor:
“Kısa cevap şu ki, çok fazla veriyi işlememiz gerektiğinden Bloom filtreleri adı verilen bir şeyi yoğun olarak kullanıyoruz ve Bloom filtreleri bize çok fazla zaman ve depolama alanı kazandırabilir.
Bir sette çok sayıda öğeyi ele aldığınızda, yani trilyonlarca olmasa da milyarlarca öğeyi kastediyorum, her şeyi hızlı bir şekilde aramak çok zor hale gelir. Bloom filtrelerinin işe yaradığı yer burası.”
Bloom filtreleri, öncelikle ayrı bir karma veya kodlanmış veri koleksiyonuna başvurarak büyük verilerdeki aramaları hızlandırır.
Illyes, bunun daha hızlı ancak daha az doğru analizlere olanak sağladığını açıklıyor:
“Önce karmaları aradığınız için bu oldukça hızlıdır, ancak karma bazen kasıtlı olsun ya da olmasın veri kaybıyla birlikte gelir ve deneyimlediğiniz şey bu eksik verilerdir: incelenecek daha az veri, bir şeyin olup olmadığına dair daha doğru tahminler anlamına gelir.” Ana kümede var olup olmadığı ve yaşadığınız şey bu eksik veridir: incelenecek daha az veri, ana kümede bir şeyin var olup olmadığına ilişkin daha doğru tahminler anlamına gelir.
Temel olarak Bloom filtreleri, bir veri kümesinde bir şeyin var olup olmadığını tahmin ederek aramaları hızlandırır, ancak doğruluk pahasına ve veri kümesi ne kadar küçükse, tahminler de o kadar doğru olur.”
Doğruluk Üzerinden Hız: Kasıtlı Bir Takas
Illyes’in açıklaması kasıtlı bir ödünleşimi ortaya koyuyor: mükemmel doğruluk yerine hız ve verimlilik.
Bu yaklaşım şaşırtıcı olabilir ancak Google’ın günlük olarak işlediği çok büyük miktarda veriyle uğraşırken gerekli bir stratejidir.
Özetle
Google, büyük miktarlardaki verileri hızlı bir şekilde analiz etmek için çiçeklenme filtreleri kullandığından, filtrelenen veriler Search Console’daki genel verilerden daha yüksek olabilir.
Bloom filtreleri Google’ın trilyonlarca veri noktasıyla çalışmasına olanak tanır ancak doğruluktan bir miktar ödün verir.
Bu takas kasıtlıdır. Google, %100 doğruluktan ziyade hıza önem verir. Küçük yanlışlıklar, verileri hızlı bir şekilde analiz etmek için Google’a değer.
Dolayısıyla filtrelenen verilerin genel verilerden daha yüksek olduğunu görmek yanlış değil. Çiçeklenme filtreleri bu şekilde çalışır.