Розбираємося: як Googlebot індексує веб-сторінки


Всім привіт! Google Search Central недавно запустив нову серію публікацій під назвою "Crawling December", де ділиться інсайтами про те, як Googlebot індексує веб-сторінки. На відміну від нас, людей, які переглядають сайти, коли Googlebot відвідує веб-сторінку, він спочатку завантажує HTML з основного URL, який може містити посилання на JavaScript, CSS, зображення та відео. Потім веб-рендерингова служба Google (WRS) використовує Googlebot для завантаження цих ресурсів для створення кінцевого вигляду сторінки.
Сучасні веб-сайти є складними через розширений JavaScript та CSS, що робить їх важчими для індексації, ніж старі сторінки, виключно на HTML.
🚀 Дуже важливим моментом є управління "crawl budget" (бюджетом сканування). Справа в тому, що кожен відвід веб-сайту використовує частину цього бюджету, і якщо Googlebot витрачає багато часу на завантаження додаткових ресурсів, це може зменшити "crawl budget" головного веб-сайту. Ось тут Google використовує стратегію кешування, яка допомагає зберегти "crawl budget" сайту. Кеш WRS триває до 30 днів і не залежить від HTTP-правил кешування, встановлених розробниками.
- 📌 Ресурси можуть значно впливати на бюджет сканування вашого сайту, тому важливо розуміти, як Googlebot обробляє ці ресурси.
- 📌 Заблокувати важливі ресурси в robots.txt може бути ризиковано. Якщо Google не може отримати доступ до необхідного ресурсу для рендерингу, це може вплинути на рейтинг і вміст сторінки.
- 📌 Розуміння цих механік допоможе SEO-спеціалістам та розробникам приймати кращі рішення щодо розміщення ресурсів та доступності - вибори, які безпосередньо впливають на те, наскільки добре Google може сканувати та індексувати їх сайти.
Часті питання:
1. Що таке Googlebot?
Googlebot - це веб-робот від Google, який сканує нові та оновлені веб-сторінки для додавання до індексу Google.
2. Що таке "crawl budget"?
"Crawl budget" - це кількість сторінок на сайті, які Googlebot може та хоче проіндексувати за певний період часу.
3. Як впливає robots.txt на процес індексації?
Файл robots.txt вказує Googlebot, які сторінки або файли він повинен або не повинен відвідувати на вашому сайті.
4. Що таке веб-рендерингова служба Google (WRS)?
WRS - це система, яку Google використовує для рендерингу веб-сторінок, подібно до того, як це робить браузер.
Статтю згенеровано з використанням ШІ на основі зазначеного матеріалу, відредаговано та перевірено автором вручну для точності та корисності.
https://www.searchenginejournal.com/google-host-resources-on-different-hostname-to-save-crawl-budget/534317/