RankBrain: эволюция алгоритма Google

По словам старшего научного сотрудника Грега Коррадо, который помогал разрабатывать RankBrain, Google использует в своем веб-поиске самообучающийся компонент алгоритма. Сотрудник Google рассказал СМИ Bloomberg, 15 октября^th, 2015 года, что лидер поискового рынка использует искусственный интеллект (ИИ) при интерпретации запросов пользователей. Соответствующая система под названием RankBrain уже была интегрирована в алгоритм поисковой системы за несколько месяцев до публикации интервью.

Google уже много лет инвестирует миллионы в исследования в области ИИ. Еще в 2012 году поисковая система наняла технического визионера Раймонда Курцвейла на должность директора по инженерным вопросам. В 2014 году стартап DeepMind, специализирующийся на системах ИИ, был приобретен Google более чем за 500 миллионов долларов. С появлением RankBrain усилия Google в области исследований ИИ переходят в основную деятельность компании. Но насколько умна новая технология на самом деле? И какое влияние RankBrain оказывает на работу операторов сайтов и SEO-экспертов?

Содержание

Что такое RankBrain?
Исследование ИИ: 60 лет искусственного интеллекта
Как работает RankBrain?
RankBrain и поисковая оптимизация (SEO)

Что такое RankBrain?

По словам Коррадо, RankBrain используется как часть усовершенствованного поискового алгоритма Google «Hummingbird» с начала 2015 года, но он все еще ограничен, когда речь идет о новых поисковых запросах.

Ежедневно Google получает около 3 миллиардов поисковых запросов. Около 15% пользовательских запросов — это ключевые слова и словосочетания, которые Google никогда раньше не видел, например, разговорные термины, словосочетания или сложные длинные фразы.

Примечание

Длиннохвостая ключевая фраза — это сложный поисковый запрос, состоящий из нескольких слов вплоть до полного предложения. Противоположностью длинного хвоста является короткая голова, которая представляет собой короткую, точную фразу. Для сравнения: «как работает облачный сервер?» по сравнению с «облачный сервер».

В 2016 году использование RankBrain было распространено на всю поисковую платформу Google, то есть теперь эта технология участвует в обработке всех запросов, которые Google получает через веб-поиск.

Основной задачей RankBrain является интерпретация ключевых слов и поисковых фраз с целью выяснения того, что пытается искать пользователь. RankBrain была представлена как самообучающаяся система искусственного интеллекта. Но что Google имеет в виду, когда говорит об искусственном интеллекте? И как именно работает RankBrain?

В целях защиты вашей конфиденциальности видео не будет загружаться, пока вы не нажмете на него.

Машинное обучение: Making Sense of a Messy World (Google через YouTube).

Исследование ИИ: 60 лет искусственного интеллекта

Полностью автономный компьютер и технологическая сингулярность, прогнозируемые футуристами, все еще остаются научной фантастикой. Вместо этого исследования в области ИИ занимаются автоматизацией разумного поведения уже около 60 лет. Сегодня все еще не существует жесткого и быстрого общего определения термина «искусственный интеллект». То же самое относится и к самой концепции интеллекта.

За рождение исследований в области ИИ отвечает конференция, которая состоялась в Дартмутском колледже в США в 1956 году. Тематика мероприятия, согласно заявке на финансирование 1955 года, включала в себя автоматический компьютер, синтез речи, нейронные сети, машинное обучение, а также абстракции, совпадения и творчество. Все это было обобщено Джоном Маккарти, ответственным за организацию, с помощью ранее неизвестного лозунга: «Искусственный интеллект». Ученый-компьютерщик, получивший множество наград, заложил основы новой междисциплинарной области, исследовательский интерес которой он определил в заявке на финансирование Дартмутской конференции следующим образом:

Цитата

В настоящих целях проблема искусственного интеллекта рассматривается как задача заставить машину вести себя таким образом, который можно было бы назвать разумным, если бы так вел себя человек».

Джон Маккарти, 1955 год

Аналогичное определение можно найти в Британской энциклопедии:

Цитата

Искусственный интеллект (ИИ), способность цифрового компьютера или робота, управляемого компьютером, выполнять задачи, обычно ассоциируемые с разумными существами.

Британская энциклопедия

Пионер компьютерной техники Алан Тьюринг в 1950 году предложил эксперимент для объективной проверки интеллекта машины. В так называемом тесте Тьюринга человек ведет разговор с двумя неизвестными собеседниками, используя только клавиатуру и экран, так что визуальный или звуковой контакт отсутствует. Один из партнеров по тесту — человек, а другой — машина. Цель обоих партнеров — убедить испытуемого в том, что он разговаривает с мыслящим существом. По мнению Тьюринга, машина пройдет тест, если человек не сможет определить, кто из партнеров — машина, а кто — реальный человек.

На сегодняшний день тест Тьюринга считается непреодолимым препятствием. Чатбот Евгения Густмана привлек большое внимание СМИ. В 2014 году чатбота протестировали в другой тестовой системе — он показал не очень хорошие результаты.

Критики, однако, сомневаются, что тест, придуманный Тьюрингом, вообще пригоден для доказательства машинного интеллекта. Экспериментальная установка лишь имитирует межличностный разговор. Однако речевые способности отражают лишь одну часть человеческого интеллекта. Кроме того, тест Тьюринга проверяет только то, можно ли интерпретировать сигналы, исходящие от машины, как разумное поведение. Не ставится вопрос о наличии интеллекта, например, в форме преднамеренности или осознанности.

Однако на практике это различие имеет второстепенное значение. Основное внимание здесь уделяется функциональности систем ИИ. Этот практико-ориентированный подход к исследованию ИИ отражен в определении компьютерного ученого Элейн Рич:

Цитата

Искусственный интеллект — это изучение того, как заставить компьютеры делать вещи, в которых на данный момент люди лучше.

Элейн Рич, 1983 г.

Существуют даже две различные концепции искусственного интеллекта:

Жесткий искусственный интеллект: согласно концепции жесткого искусственного интеллекта, машина должна обладать интеллектуальными способностями, аналогичными человеческим, чтобы считаться разумной. Помимо способности делать выводы и решать проблемы, эта концепция включает в себя такие понятия, как самопознание, самосознание, чувствительность и мудрость. Целью является создание интеллекта.

Мягкий искусственный интеллект: согласно этой концепции, достаточно наделить машины способностями, которые ассоциируются с разумным поведением человека. Таким образом, цель состоит в том, чтобы имитировать разумное поведение человека, такое как логическое мышление, принятие решений, планирование, обучение и общение, используя математические правила.

Когда Google говорит о самообучающейся системе ИИ в терминах RankBrain, имеется в виду концепция мягкого ИИ. Это технология, которая находит автоматические решения проблем, которые раньше приходилось решать людям. Как и большинство систем такого типа, RankBrain также опирается на методы машинного обучения.

Машинное обучение — это искусственное генерирование знаний на основе опыта. Системы машинного обучения анализируют большие объемы данных, выявляют закономерности, тенденции и взаимосвязи с помощью математических алгоритмов и в итоге получают независимые прогнозы на основе этих данных. Более подробную информацию о системах машинного обучения и возможностях их использования в контексте интернет-маркетинга и веб-анализа можно найти в основной статье по этой теме.

Резюме

По определению, Rankbrain — это искусственный интеллект в соответствии с концепцией мягкого ИИ. Система основана на методах машинного обучения и используется в контексте поискового алгоритма Google для интерпретации вводимых пользователем данных.

Как работает RankBrain?

RankBrain помогает Google интерпретировать пользовательский ввод и находить веб-страницы из поискового индекса Google — базы данных объемом около 100 миллионов гигабайт — которые наилучшим образом соответствуют запросу пользователя. Система искусственного интеллекта выходит далеко за рамки простого соответствия поисковым запросам.

С обновлением Hummingbird в августе 2013 года Google внедрил так называемый семантический поиск. До Hummingbird поисковые термины и словосочетания оценивались статично и без контекста, но обновление алгоритма Google актуализировало важность пользовательского вклада. С помощью RankBrain Google дополнил семантический поиск самообучающейся системой искусственного интеллекта, которая способна использовать полученные ранее знания для ответа на новые и уникальные поисковые запросы.

Чтобы продемонстрировать пример использования RankBrain, агентство Bloomberg задало Google следующий поисковый запрос:

‘Как называется потребитель на самом высоком уровне пищевой цепочки’.

Вместо того чтобы анализировать каждое отдельное слово независимо, RankBrain улавливает семантику всего пользовательского ввода и, таким образом, определяет намерения поисковика. Несмотря на длинную хвостовую фразу, поиск может рассчитывать на быстрый ответ.

Поскольку RankBrain — это система машинного обучения, она опирается на свой опыт работы с предыдущими поисковыми запросами, устанавливает связи, делает прогнозы о том, что ищет пользователь и как лучше ответить на его вопрос. Это необходимо для разрешения неоднозначностей и раскрытия смысла ранее неизвестных терминов (например, неологизмов).

Однако Google не раскрывает, как система искусственного интеллекта справилась с этой задачей. SEO-эксперты предполагают, что RankBrain использует векторы слов для перевода поисковых запросов в форму, которая позволяет компьютерам интерпретировать смысл.

В 2013 году компания Google выпустила программное обеспечение для машинного обучения с открытым исходным кодом Word2Vec, которое можно использовать для перевода, измерения и сравнения семантических отношений между словами в математическом представлении. Этот анализ основан на лингвистических текстовых корпорациях.

На первом этапе Word2Vec создает n-мерное векторное пространство, в котором каждое слово исходного текста («обучающие данные») представлено в виде вектора, чтобы «изучить» контекст между словами. N — это количество измерений вектора, в котором будет отображаться слово. Чем больше измерений выбрано для векторов слов, тем больше связей программа может зарегистрировать по отношению к другим словам.

На втором этапе созданное векторное пространство подается в искусственную нейронную сеть (KNN), которая позволяет адаптировать его с помощью алгоритма обучения. Это означает, что слова, которые используются в одном и том же контексте, также образуют похожий вектор слов. Сходство между векторами слов рассчитывается с помощью так называемого косинусного расстояния как значение между -1 и +1.

Короче говоря, если вы даете Word2Vec на вход произвольный корпус текстов, программа выдает на выходе соответствующие векторы слов. Они позволяют оценить семантическую близость слов, содержащихся в корпусе. Если Word2Vec получает новые данные, алгоритм обучения позволяет программе адаптировать векторное пространство и, таким образом, создавать новые значения или отвергать старые предположения: нейронная сеть «обучается».

Совет

Используя искусственные нейронные сети (KNN), исследователи ИИ пытаются имитировать принципы организации и обработки информации в человеческом мозге. Цель состоит в том, чтобы разработать системы, способные решать проблемы неясности, а также брать на себя задачи, которые раньше выполнялись людьми. Нейронные сети Google используются в контексте автоматического распознавания изображений.

Google официально не устанавливает связь между тем, как работает Word2Vec, и компонентом поискового алгоритма RankBrain, но предполагается, что система ИИ опирается на схожие математические операции.

RankBrain и поисковая оптимизация (SEO)

Что еще более удивительно, чем объявление о том, что результаты исследований Google в области искусственного интеллекта включены в веб-поиск, так это частота, с которой это происходит. С 2016 года Google не только может интерпретировать все поисковые запросы с помощью RankBrain; по словам Коррадо, самообучающаяся система искусственного интеллекта является третьим по важности фактором ранжирования в алгоритме Google.

Факт

По данным Google, RankBrain функционирует как третий по важности фактор ранжирования в веб-поиске. По словам старшего стратега по качеству поиска Google Андрея Липатцева, позиции 1 и 2 делят между собой факторы контента и обратных ссылок.

Для операторов веб-сайтов и SEO-специалистов основное внимание уделяется стратегии ключевых слов. Будучи семантической поисковой системой, Google способен обращаться к фоновым знаниям в виде концепций и связей, чтобы определить смысл текстов и поисковых запросов.

Пригодность сайта для конкретного поиска зависит не столько от того, содержит ли он поисковый запрос, сколько от того, соответствует ли содержание сайта (текст) определенному понятию, которое RankBrain связывает с поисковым запросом. В центре внимания находится не само ключевое слово, а релевантность содержания сайта.

Компания Searchmetrics также пришла к такому выводу. Searchmetrics — это компания-разработчик программного обеспечения, которая присутствует на международном рынке SEO с платформой для поиска и контент-маркетинга. Начиная с 2012 года, компания публикует авторитетную серию исследований по центральным факторам ранжирования алгоритма Google.

Классический контрольный список SEO уходит в прошлое, согласно основной идее текущего исследования от 2016 года. Под названием «Факторы ранжирования по версии Searchmetrics» Searchmetrics изучает последние изменения в Google. Вывод: общие факторы ранжирования больше не соответствуют текущему состоянию развития поисковой системы. Вместо этого веб-операторам следует сосредоточиться на релевантности контента и ориентации на пользователя. Однако требования к веб-сайту сильно варьируются в зависимости от сектора и отрасли. Поэтому компания объявляет о том, что в будущем представит результаты исследований по конкретным отраслям.

Факт

Благодаря RankBrain релевантность контента и намерения пользователей находятся в центре внимания поисковой оптимизации.

Чтобы изучить связь между рейтингом сайта и его релевантностью соответствующему поисковому запросу, компания Searchmetrics в своем исследовании 2016 года также использовала программное обеспечение для встраивания слов. Это программное обеспечение отображает семантические связи в виде векторов. Из набора 10 000 ключевых слов компания определила контент-релевантность первых 20 результатов поиска по каждому поисковому запросу, исключая ключевое слово. Для этого аналитики удаляли соответствующие поисковые термины из текстов рейтинговых сайтов и определяли балл релевантности от 0 до 100 для остального контента. Затем этот показатель соотносился с позицией на странице результатов поиска.

Выводы: сайты, находящиеся в верхней части результатов поиска Google, были значительно более релевантны по содержанию, чем сайты, занимающие более низкие позиции в результатах. Наибольшая релевантность контента была обнаружена Searchmetrics для сайтов на позициях с 3 по 6. Здесь следует отметить, что позиции 1 и 2 занимают многие поисковые запросы с сайтов компаний, которые, по данным Searchmetrics, также выигрывают от того, что являются известными брендами в рейтинге Google.

Обратите внимание на .

Даже самый лучший контент достигнет вершины рейтинга Google только в том случае, если уже существует надежная техническая база. Успешные сайты одинаково доступны для людей и машин. Основными факторами являются время загрузки страницы и размер файла, а также структура URL сайта и внутренняя перелинковка. С тех пор как Google обновила систему mobile-friendly, удобная для мобильных устройств структура страниц также входит в число основных технических требований, определяющих успех сайта.

Вопрос остается открытым: как операторы сайтов должны реагировать на RankBrain и другие разработки Google? Searchmetrics показывает, что целостный дизайн текста является главным фактором успеха. Под этим подразумевается создание текста, основанного не на ключевых словах, а на теме. Таким образом, в центре внимания оказывается пользователь. Цель состоит в том, чтобы отвечать на поисковые запросы в Google, предоставляя релевантный контент. Для этого операторы сайтов должны определить намерение поиска по всем ключевым словам, которые они хотят ранжировать. Только таким образом можно структурировать поисковые термины и объединить их с темами, которые послужат основой для редакционного плана и создания читабельных, богатых содержанием текстов.

Подробнее о том, как работать с поисковыми терминами, вы можете узнать из нашего руководства по поиску, анализу и стратегии ключевых слов.