Алгоритм Яндекса «Палех»
К созданию алгоритма «Палех» разработчики отнеслись прямо-таки креативно. Творческий подход чувствуется уже в самом названии. Имя продукту дали по знаменитой деревне в Ивановской области, которая издавна славится ремесленным искусством. Кроме того, узнаваемость деревня получила благодаря изящному гербу: застывшая в полете жар-птица.
Содержание:
Народное творчество и нейронные сети
«Палех» — новый алгоритм от Yandex, который был анонсирован еще осенью 2016 года, в ноябре. Схема частотности запросов представлена в виде жар-птицы. Идея его разработки и запуска перекликается с продуктивным алгоритмом Гугла RankBrain. Функционал этого сервиса также позволяет обрабатывать запросы из «хвоста» птицы.
Схематически частотность запросов | Наполнение |
---|---|
Клюв (высокочастотные запросы) |
Здесь список не особенно большой, но запросы из него задают очень часто. Например, какие-либо сведения по социальной сети ВКонтакте запрашиваются практически каждую минуту. Также часто пользователей интересует информация о погоде в разных частях страны. |
Туловище (среднечастотные запросы) | Список в этой категории больше. Запросы из нее встречаются относительно часто. Как правило, это информация о новостях по регионам. |
Хвост (низкочастотные запросы) | В эту категорию входят запросы, которые встречаются реже всего, но при этом отличаются «многословием». В своем большинстве это попытка пользователей найти фильм, песню или товар по своему, «авторскому» описанию. Часто описание выглядит сколь схематично, столь же и неуклюже. |
Типичные примеры низкочастотных запросов: минус на песню Фредди Меркьюри Шоу должно быть продолжено; кино где Аль Пачино молодой мафиози; посудомойка на большое количество комплектов посуды.
Задавшись целью создать новый алгоритм, разработчики отталкивались от беспристрастной статистики. Она утверждает, что из 200 млн запросов за одни только сутки более 100 млн относится к тем, которые принято называть низкочастотными. Эту особенность взяли на вооружение веб-мастера, поскольку именно низкочастотные запросы характеризуются минимальной конкуренцией. То есть, это тот сегмент поисковика, по которому можно легко «прорваться» в топ.
Бессмысленно пытаться как-то классифицировать низкочастотные запросы. Сколько пользователей, столько и предпочтений.
Алгоритм «Палех» от Яндекса ранжирует сайты не по вбитым в строку словам, а по фразам с идентичным содержанием. Другими словами, поисковик ищет сходство не только в лексических моментах, но и в общем смысле запроса.
Помимо низкочастотных, имеется много разнообразных (иногда — эксклюзивных) запросов, которые появляются в строке поиска буквально по одному разу. Как правило, это попытка пользователей получить сугубо специфичные сведения профессионального, технического или искусствоведческого характера.
Такие запросы обрабатывать очень трудно даже машине. Скрупулезная статистика по ним попросту отсутствует. Именно поэтому авторы нового алгоритма прибегли к искусственным нейронным сетям.
Таким образом, функционал «Палеха» базируется на ИНС, которые имеют уникальное свойство: они могут самосовершенствоваться и самообучаться. Они сформированы по образу мозга человека, что обусловило их способность впитывать и обрабатывать большой объем информации. То есть, получив длинный и замысловатый вопрос, ИНС, прежде всего, проводят серьезно аналитическую работу по его внутреннему содержанию. Затем пользователю предлагается максимально верный и точный результат.
«Палех»: практическое назначение
Поисковая сеть устроена очень сложно и умно. Яндекс самостоятельно способен проанализировать степень удовлетворенности потребительского запроса. Если пользователь находит нужную информацию на первой строке и сразу же переходит на нужный сайт, то поисковик определяет это как реальную помощь и удовлетворение потребностей. То есть, пользователю был предложен верный результат.
Машина «запомнит» этот путь и в дальнейшей практике будет предлагать его другим людям. В сегменте высокочастотных запросов поисковику легче сориентироваться, поскольку здесь данных очень много. Верная выдача подбирается практически мгновенно.
Для НЧ ситуация другая. На переработку низкочастотных запросов требуется больше времени. Подобрать единственно верный ответ труднее, поскольку на него есть меньше аналогов в памяти машины. Поэтому в данном сегменте типичной является ситуация, когда пользователь ищет, и никак не может найти желаемое. Он пытается перефразировать запрос, не понимая, что машина быстрее ориентируется по коротким формулировкам.
Алгоритм «Палеха» изначально задумывался для того, чтобы низкочастотные запросы удовлетворялись так же быстро, как и любые другие.
Как это работает
Все технологии, основанные на нейронных сетях, специалисты определяют как искусственный интеллект. Алгоритм «Палех» способен обучаться. Он использует не только сведения, загруженные в базу, но и анализирует поведение пользователей. Машина со временем самостоятельно определяет, какие страницы «любят» пользователи, а какие — нет.
Нейронные сети сформированы по образу человеческого мозга, они способны перерабатывать разноплановые сведения:
- распознавать речь;
- вспоминать образы на картинках;
- запоминать длинные предложения;
- искать аналоги в разных семантических комбинациях.
По сути, машина работает всего с двумя текстами: запросом пользователя и документом. Документ выдается после достаточно серьезной аналитической работы машины.
В настоящее время искусственные нейронные сети способны анализировать даже звуки и образы, и находить их аналоги в заданном сегменте.
Почему это свойство разработчики взяли на вооружение только сейчас? Дело в том, что со смыслом и содержанием работать гораздо сложнее, чем с конкретными лексемами или картинками. Новый алгоритм генерирует похожие векторы в близких по смыслу текстах. Он актуализировался, когда инвертированного индекса (простого поиска по слову) и даже поиска с учетом ссылок стало недостаточно.