Googlebot, Google’ın dizininin yenilenmesini sağlayan otomatik ve her zaman açık olan bir web tarama sistemidir.
Google’ın dizininin 62 milyardan fazla web sayfası olduğunu tahmin ediyor.
Google’ın arama dizini “iyi bitti” 100.000.000 gigabayt boyutunda.”
Googlebot ve türevleri (akıllı telefonlar, haberler, resimler vb.), JavaScript oluşturma sıklığı veya kaynakların boyutu için belirli kısıtlamalara sahiptir.
Google, tarama kısıtlamaları kullanır, kendi tarama kaynaklarını ve sistemlerini korumak için.
Örneğin, bir haber sitesi önerilen makaleleri her 15 saniyede bir yeniliyorsa, Googlebot sık sık yenilenen bölümleri atlamaya başlayabilir – çünkü bunlar 15 saniye sonra alakalı veya geçerli olmayacaktır.
Yıllar önce Google, 15 MB’tan büyük kaynakları taramadığını veya kullanmadığını açıklamıştı.
28 Haziran 2022’de Google yeniden yayınladı bu blog yazısını 15 MB’den sonra kaynakların fazla olan kısmını tarama için kullanmadığını belirterek.
Nadiren olduğunu vurgulamak için Google, bir HTML dosyasının medyan boyutunun 15 MB’den 500 kat daha küçük olduğunu belirtti.
Archive.org medyan masaüstü ve mobil HTML dosya boyutunu gösterir. Bu nedenle, çoğu web sitesinde tarama için 15 MB kısıtlaması sorunu yoktur.
Ancak, web büyük ve kaotik bir yerdir.
15 MB’lık tarama sınırının doğasını ve onu analiz etmenin yollarını anlamak SEO’lar için önemlidir.
Bir resim, video veya hata, tarama sorunlarına neden olabilir ve daha az bilinen bu SEO bilgisi, projelerin organik arama değerlerini korumasına yardımcı olabilir.
15 MB Googlebot Tarama Sınırı Yalnızca HTML Belgeleri İçin mi?
15 MB Googlebot tarama sınırı, Google Earth, Hancom Hanword (.hwp), OpenOffice metni (.odt) ve Zengin Metin Biçimi (.rtf) veya Googlebot tarafından desteklenen diğer dosya türleri dahil olmak üzere dizine eklenebilir ve taranabilir tüm belgeler içindir.
Resim ve Video Boyutları HTML Belgesiyle Toplanıyor mu?
Hayır, her kaynak 15 MB tarama sınırına göre ayrı ayrı değerlendirilir.
HTML belgesi 14.99 MB ise ve HTML belgesinin öne çıkan resmi yine 14.99 MB ise, ikisi de Googlebot tarafından taranacak ve kullanılacaktır.
HTML belgesinin boyutu, HTML etiketleri aracılığıyla bağlanan kaynaklarla toplanmaz.
Satır İçi CSS, JS veya Veri URI’si HTML Belge Boyutunu Şişirir mi?
Evet, satır içi CSS, JS veya Veri URI’si HTML belgesi boyutunda sayılır ve kullanılır.
Bu nedenle, satır içi kaynaklar ve komutlar nedeniyle belge 15 MB’ı aşarsa, belirli HTML belgesinin taranabilirliğini etkiler.
Google, 15 MB’den Büyükse Kaynağı Taramayı Durdurur mu?
Hayır, Google tarama sistemleri, 15 MB sınırını aşan kaynakları taramayı durdurmaz.
Dosyayı getirmeye devam ederler ve yalnızca 15 MB’den daha küçük olan kısmı kullanırlar.
15 MB’den büyük bir resim için Googlebot, “içerik aralığı” yardımıyla resmi 15 MB’a kadar parçalayabilir.
İçerik Aralığı, Googlebot’un veya diğer tarayıcıların ve istek sahiplerinin kısmi istekler gerçekleştirmesine yardımcı olan bir yanıt başlığıdır.
Kaynak Boyutu Manuel Olarak Nasıl Denetlenir?
Google Chrome Geliştirici Araçları kaynak boyutunu manuel olarak denetlemek için kullanabilirsiniz.
Google Chrome’da aşağıdaki adımları izleyin.
- Google Chrome aracılığıyla bir web sayfası belgesi açın.
- F12’ye basın.
- Ağ sekmesine gidin.
- Web sayfasını yenileyin.
- Kaynakları Şelaleye göre sıralayın.
- Kontrol edin boyut HTML belgesinin boyutunu gösteren ilk satırdaki sütun.
Kaynak Boyutu Otomatik ve Toplu Olarak Nasıl Denetlenir?
HTML belge boyutunu otomatik olarak ve toplu olarak denetlemek için Python’u kullanın. Advertools ve Pandas iki kullanışlı Python Kitaplığıdır.
Aşağıdaki talimatları izleyin.
- Reklam araçlarını ve Pandaları içe aktarın.
- Site haritasındaki tüm URL’leri toplayın.
- Site haritasındaki tüm URL’leri tarayın.
- URL’leri HTML Boyutlarıyla filtreleyin.
import advertools as adv
import pandas as pd
df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")
adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})
df = pd.read_json("output.jl", lines=True)
df[["url", "size"]].sort_values(by="size", ascending=False)
Yukarıdaki kod bloğu, site haritası URL’lerini çıkarır ve tarar.
Kodun son satırı, yalnızca boyutlara göre azalan bir düzende bir veri çerçevesi oluşturmak içindir.
HTML belgelerinin boyutlarını yukarıdaki gibi görebilirsiniz.
Bu örnekteki en büyük HTML belgesi, bir kategori sayfası olan yaklaşık 700 KB’dir.
Bu nedenle, bu web sitesi 15 MB kısıtlamaları için güvenlidir. Ancak bunun ötesini kontrol edebiliriz.
CSS ve JS Kaynaklarının Boyutları Nasıl Kontrol Edilir?
Kuklacı, CSS ve JS Kaynaklarının boyutunu kontrol etmek için kullanılır.
pptr tarayıcı otomasyonu ve web sitesi testleri için Google Chrome’u başsız modla kontrol eden bir NodeJS paketidir.
Çoğu SEO uzmanı kullanır Lighthouse veya Page Speed Insights API performans testleri için. Ancak Puppeteer’ın yardımıyla her teknik özellik ve simülasyon analiz edilebilir.
Aşağıdaki kod bloğunu takip edin.
const puppeteer = require('puppeteer');
const XLSX = require("xlsx");
const path = require("path");
(async () => {
const browser = await puppeteer.launch({
headless: false
});
const page = await browser.newPage();
await page.goto('https://www.holisticseo.digital');
console.log('Page loaded');
const perfEntries = JSON.parse(
await page.evaluate(() => JSON.stringify(performance.getEntries()))
);
console.log(perfEntries);
const workSheetColumnName = [
"name",
"transferSize",
"encodedSize",
"decodedSize"
]
const urlObject = new URL("https://www.holisticseo.digital")
const hostName = urlObject.hostname
const domainName = hostName.replace("\www.|.com", "");
console.log(hostName)
console.log(domainName)
const workSheetName = "Users";
const filePath = `./${domainName}`;
const userList = perfEntries;
const exportPerfToExcel = (userList) => {
const data = perfEntries.map(url => {
return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];
})
const workBook = XLSX.utils.book_new();
const workSheetData = [
workSheetColumnName,
...data
]
const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);
XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);
XLSX.writeFile(workBook, path.resolve(filePath));
return true;
}
exportPerfToExcel(userList)
//browser.close();
})();
JavaScript bilmiyorsanız veya herhangi bir Kuklacı eğitimini tamamlamadıysanız, bu kod bloklarını anlamanız biraz daha zor olabilir. Ancak, aslında basittir.
Temel olarak bir URL açar, tüm kaynakları alır ve “transferSize”, “encodingSize” ve “decodingSize” değerlerini verir.
Bu örnekte, “decodingSize”, odaklanmamız gereken boyuttur. Aşağıda, sonucu bir XLS dosyası biçiminde görebilirsiniz.
Bu işlemleri her URL için tekrar otomatikleştirmek istiyorsanız, “await.page.goto()” komutunda bir for döngüsü kullanmanız gerekecektir.
Tercihlerinize göre her web sayfasını farklı bir çalışma sayfasına koyabilir veya onu ekleyerek aynı çalışma sayfasına ekleyebilirsiniz.