Разделы

Интернет Веб-сервисы Техника

Google случайно выложила на Github под свободной лицензией тысячи секретных документов о работе поисковика. Распространение материалов уже не остановить

Корпорация Google случайно опубликовала внутреннюю документацию, касающуюся фирменной поисковой системы, на хостинг проектов GitHub. Остановить утечку не представляется возможным, поскольку технически сведения, теперь уже удаленные Google, были доступны под свободной лицензии Apache 2.0 и продолжают на законных основаниях распространяться в Сети. Материалы, оказавшиеся способными пролить свет на отдельные принципы устройства поисковых алгоритмов Google, вызвали бурный ажиотаж в сообществе SEO-специалистов.

Интернет помнит все

Google допустила непреднамеренную утечку значительного объема технической документации, которая способна пролить свет на некоторые принципы работы алгоритмов поискового движка корпорации, пишет Ars Technica.

Утечка содержит массу информации о компоненте API Google под названием “ContentWarehouse”, который, как отмечает Ars Technica, вероятно, связан с системой индексации поисковой системы Google. Обрывки сведений, ставшие достоянием общественности из-за оплошности специалистов корпорации, свидетельствуют невероятно сложном устройстве системы ранжирования, применяемой поисковиком Google.

По словам экспертов в области поисковой оптимизации (Search Engine Optimizations; SEO) Рэнда Фишкина (Rand Fishkin) и Майка Кинга (Mike King), подборка, оказавшаяся в публичном доступе, насчитывает 2,5 тыс. документов.

В Google поначалу отказывались комментировать возможную утечку, однако в конце мая 2024 г. все же подтвердили подлинность оказавшихся в руках специалистов материалов изданию The Verge. Представитель компании в разговоре с журналистами предостерег общественность от «…неверных предположений о “поиске” на основе вырванной из контекста, устаревшей или неполной информации…».

Google случайно опубликовала внутреннюю документацию, посвященную собственному поисковику, на GitHub

Особую пикантность ситуации придает тот факт, что материалы для внутреннего пользования компания технически опубликовала на хостинге GitHub на условиях свободной лицензии Apache 2.0, отмечает Ars Technica. Таким образом поисковый гигант даровал всем желающим право «бессрочного» бесплатного использования содержащейся в них информации по своему усмотрению. Другими словами, ограничить распространение документов легальным путем уже не представляется возможным. Тем не мене Google все же предпочла удалить случайно опубликованные сведения из своего репозитория – это было сделано 7 мая 2024 г., что не помешало энтузиастам «перезалить» материалы на сторонние площадки.

Интересное в утечке

Утекшая документация написана программистами для программистов, и для ее полного понимания необходимо иметь определенный уровень осведомленности, которым, скорее всего, могут похвастаться лишь сотрудники команды, работающей над главным поисковым движком интернета. В настоящее время сообщество специалистов в области SEO занято разбором по воле случая оказавшихся в их руках материалов и строят предположения относительно принципов работы поисковика Google.

Фишкин и Кинг, изучив документы, поспешили обвинить Google во «лжи». Из утекших материалов стало понятно, что данных о количестве пользовательских кликов все же используются алгоритмами системы для ранжирования сайтов, несмотря на то что представители корпорации неоднократно отрицали принятие в расчет этого критерия поисковиком. Как выяснилось, за кликами следит специальная система под названием “Navboost”, во многом опирающаяся на данные фирменного браузера Google – Chrome, который продолжает собирать сведения о совершаемых пользователем кликах, в том числе и когда поисковик не применяется.

Кроме того, специалисты по итогам анализа утечки пришли к выводу, что в Google действует механизм так называемых белых списков, с помощью которых отдельные веб-сайты определенной тематики могут быть искусственным образом получать более высокие позиции в выдаче. Об этом, в частности, как отмечает Ars Technica, свидетельствует наличие в поисковом API Google таких атрибутов как “isElectionAuthority” и “isCovidLocalAuthority”, которые предположительно могут помогать отбирать веб-ресурсы, контролируемые государственными организациями и структурами.

Значительная часть сведений в утекших документах подтверждает уже имеющиеся догадки относительно принципов формирования поисковой выдачи Google. Так, каждому сайту поисковик присваивает значение “SiteAuthority”, которое отражает авторитетность и популярность сайта. Этот атрибут также оказывает влияние на очередность появления веб-ресурса в поисковой выдаче.

Также системой учитывается рейтинг каждого конкретного автора. Однако, как отмечает Ars Technica, пока остается неизвестным, какие из параметров имеют наибольший вес и как именно система функционирует в целом.

Google продолжает доминировать, но не в России

Несмотря на недавние не вполне удачные эксперименты с искусственным интеллектом, система Google остается непререкаемым лидером глобальном на рынке поисковиков, следует из данных StatCounter за май 2024 г. На долю американского сервиса приходится 90,8% трафика. С большим отставанием за Google следуют Bing корпорации Microsoft (3,72%) и российский «Яндекс» (1,58%).

При этом в России «Яндекс» доминирует с долей в 70,6%, а Google вынуждена довольствоваться лишь второй строчкой рейтинга Statcounter (28,24%). В августе 2023 г. CNews сообщил о том, что Google уступил «Яндексу» лидерство в российском поиске с большим отрывом. Отказываться от американского поисковика пользователей вынуждало наличие уязвимостей к хакерским атакам и нежелательная реклама.