SEO uzmanları bilgi alma hakkında konuştuğumuzda, ağırlıklı olarak bilgi toplama aşamasına – taramaya odaklanma eğilimindeyiz.
Bu aşamada, bir arama motoru, erişimi olan URL’leri keşfeder ve tarar (hacim ve genişlik, halk arasında genel dil olarak adlandırdığımız diğer faktörlere bağlıdır).
Tarama aşaması, bu makalede odaklanacağımız bir konu değil, ayrıca indekslemenin nasıl çalıştığına da derinlemesine girmeyeceğim.
Tarama ve indeksleme hakkında daha fazlasını okumak istiyorsanız, bunu yapabilirsiniz.
Bu makalede, anlaşıldığında web sayfalarını sıralama performansı için daha iyi optimize etmenize yardımcı olabilecek bilgi almanın bazı temellerini ele alacağım.
Ayrıca daha iyi analiz etmenize yardımcı olabilir algoritma değişiklikleri ve arama motoru sonuç sayfası (SERP) güncellemeleri.
Günümüz arama motorlarının pratik bilgi erişimini nasıl işlediğini anlamak ve takdir etmek için, internette bilgi almanın geçmişini, özellikle de bunun arama motoru süreçleriyle ilişkisini anlamamız gerekir.
Dijital bilgi erişimi ve arama motorları tarafından benimsenen temel teknolojilerle ilgili olarak, 1960’lara ve Gerard Salton’un SMART Bilgi Erişim Sistemini geliştiren bir ekibin liderliğini yaptığı Cornell Üniversitesi’ne geri dönebiliriz.
Salton, bilgi erişimi için vektör uzayı modellemesini geliştirmek ve kullanmakla tanınır.
Vektör Uzay Modelleri
Vektör uzay modelleri vardır, veri bilimi topluluğunda kabul edildi ve arama motorlarının nasıl “aradığı” ve Amazon gibi platformların öneriler sunduğu konusunda kilit bir mekanizma olarak.
Bu yöntem, Google gibi bir işlemcinin, sorgular vektörler olarak temsil edildiğinde farklı belgeleri sorgularla karşılaştırmasına olanak tanır.
Google, belgelerinde buna vektör benzerlik araması veya 1973’te Donald Knuth tarafından tanımlanan “en yakın komşu araması” olarak atıfta bulunmuştur.
Geleneksel bir anahtar kelime aramasında işlemci, ilgili içeriği bulmak için veritabanı içinde anahtar kelimeler, etiketler, etiketler vb. kullanır.
Bu oldukça sınırlıdır, çünkü veri tabanındaki arama alanını daraltır, çünkü cevap evet veya hayırdır. Bu yöntem işlenirken de sınırlandırılabilir.
İki varlık yakınlık açısından ne kadar yakınsa, vektörler arasındaki boşluk o kadar az olur ve benzerlik/doğruluk bakımından o kadar yüksek sayılırlar.
Bununla mücadele etmek ve birden çok ortak yoruma sahip sorgular için sonuçlar sağlamak için Google, çeşitli anlamları, eş anlamlıları ve varlıkları birbirine bağlamak için vektör benzerliğini kullanır.
İkili evet/hayır ölçütleriyle geleneksel anahtar kelime aramasını kullandığınızda, birinci sayfada bu yayılımı elde edemezsiniz.
Vektör arama ile işlemci, veritabanındaki farklı varlıklar ve vektörler arasındaki benzerlik ve ilişkilere dayalı bir arama sonuçları sayfası oluşturabilir.
Şirketin blogunu okuyabilirsiniz burada Google’ın bunu birden fazla üründe nasıl kullandığı hakkında daha fazla bilgi edinmek için.
Benzerlik Eşleştirme
Belgeleri bu şekilde karşılaştırırken, arama motorları muhtemelen Sorgu Terimi Ağırlıklandırması (QTW) ve Benzerlik Katsayısı kombinasyonunu kullanır.
QTW, sorgudaki belirli terimlere bir ağırlık uygular, bu daha sonra vektör uzayı modeli kullanılarak bir benzerlik katsayısını hesaplamak için kullanılır ve kosinüs katsayısı kullanılarak hesaplanır.
Kosinüs benzerliği iki vektör arasındaki benzerliği ölçer ve metin analizinde belge benzerliğini ölçmek için kullanılır.
Bu, arama motorlarının bir web sitesinde yinelenen içeriği ve değer tekliflerini nasıl belirlediğine ilişkin olası bir mekanizmadır.
Kosinüs -1 ile 1 arasında ölçülür.
Geleneksel olarak bir kosinüs benzerlik grafiğinde 0 ile 1 arasında ölçülecektir, 0 maksimum farklılık veya ortogonal ve 1 maksimum benzerliktir.
Bir Endeksin Rolü
SEO’da indeksleme, indeksleme ve indeksleme sorunları hakkında çok konuşuyoruz – ancak indeksin arama motorlarındaki rolü hakkında aktif olarak konuşmuyoruz.
Bir dizinin amacı, Google’ın katmanlı dizin oluşturma sistemleri ve parçaları aracılığıyla yaptığı bilgileri bir veri deposu olarak işlev görmek için depolamaktır.
Bunun nedeni, web sayfalarına uzaktan erişmenin (taramanın), içeriklerini ayrıştırmanın, puanlamanın ve ardından gerçek zamanlı olarak bir SERP sunmanın gerçekçi olmaması, kârsız olması ve zayıf bir son kullanıcı deneyimi olmasıdır.
Tipik olarak, modern bir arama motoru dizini, her belgenin tam bir kopyasını içermez, ancak daha çok anahtar noktaların ve tokenize edilmiş verilerin bir veritabanıdır. Belgenin kendisi daha sonra farklı bir önbellekte yaşayacaktır.
Google gibi arama motorlarının bilgi alma sistemlerinin bir parçası olarak hangi işlemlerden geçeceğini tam olarak bilmesek de, muhtemelen şu aşamalara sahip olacaklardır:
- Yapısal Analiz – Metin formatı ve yapısı, listeler, tablolar, resimler vb.
- kök salmak – Bir kelimenin varyasyonlarını köküne indirgemek. Örneğin, “aradı” ve “arama”, “arama”ya indirgenir.
- sözcüksel analiz – Belgenin bir kelime listesine dönüştürülmesi ve ardından tarihler, yazarlar ve terim sıklığı gibi önemli faktörleri belirlemek için ayrıştırma. Bu, TF*IDF ile aynı şey değildir.
Ayrıca bu aşamada, geri bağlantılar, kaynak türü, belgenin kalite eşiğini karşılayıp karşılamadığı, dahili bağlantı, ana içerik/destekleyici içerik vb. gibi diğer hususların ve veri noktalarının da dikkate alınmasını bekleriz.
Doğruluk ve Alma Sonrası
2016’da Paul Haahr, Google’ın sürecinin “başarısını” nasıl ölçtüğü ve ayrıca alma sonrası ayarlamaları nasıl uyguladığı konusunda büyük bir fikir verdi.
Çoğu bilgi erişim sisteminde, sistemin iyi bir sonuç kümesi döndürmede ne kadar başarılı olduğuna dair iki temel ölçü vardır.
Bunlar kesinlik ve hatırlamadır.
Kesinlik
İade edilen toplam belge sayısı ile ilgili olan iade edilen belge sayısı.
Birçok web sitesi, son aylarda sıraladıkları toplam anahtar kelime sayısında düşüşler gördü (muhtemelen sıralamada hakları olmayan tuhaf, uç anahtar kelimeler gibi). Arama motorlarının daha fazla kesinlik için bilgi alma sistemini iyileştirdiğini tahmin edebiliriz.
Hatırlamak
İlgili belge sayısının, iade edilen toplam ilgili belge sayısına oranı.
Kesinlik, daha iyi arama sonuçları sayfalarına ve daha fazla kullanıcı memnuniyetine yol açtığından, arama motorları hatırlama yerine kesinliğe daha fazla yönelir. Ayrıca, gerekenden daha fazla belge döndürme ve daha fazla veri işleme açısından sistem açısından daha az yoğundur.