Посетители сайтов оставляют кучу поведенческих данных во время интернет-серфинга: посещенные страницы, клики и посты в соцмедиа. С помощью тестирования мы сопоставили различные алгоритмы и нашли способы выяснить, на какую рекламу кликнут с наибольшей вероятностью.

Вспомните, как друзья рекомендовали фильм на выходные? Они исходили из ваших предпочтений или из своих, считая их схожими, или опирались на контекст беседы?

На сегодня почти в каждом онлайн-направлении, от интернет-магазинов до онлайн-кинотеатров и социальных платформ, есть системы рекомендаций. Их задача — наблюдать за поведением пользователей в фоновом режиме и предлагать то, что привлечет людей.

Все онлайн-гиганты стремятся стать лучше и предлагать самые актуальные и самые индивидуальные рекомендации. В этой статье мы взглянем на разные типы рекомендательных систем и алгоритмов фильтрации, а также посмотрим, как работает движок рекомендации контента MGID.

Что такое движок рекомендации контента?

Системы рекомендации контента наблюдают за поведением пользователя и предсказывает, на что еще он отреагирует. Они помогают создать персонализированный опыт. Это как друг, знающий вас, знающий, что нравится вам и другим, и понимающий, что еще можно порекомендовать.

Клики, покупки, просмотры, читательское поведение и другие действия можно представить графически, как связь между пользователями и контентом или продуктами. Каждая связь показывает, что купил, что посмотрел и на что кликнул пользователь. В некоторых системах такие связи различаются по силе. Например, можно определить количество покупок товара или рейтинг фильма по шкале от 1 до 10. Проблема в том, как определить, какие еще неизвестные линии можно добавить на график, и как предсказать их силу.

Есть два типа рекомендательных систем, фильтрующих по товарам или по пользователям. Алгоритмы фильтрации по пользователю весьма прямолинейны. Они просто берут других пользователей со схожими интересами и поведенческими шаблонами, анализируют выбранные ими товары и предлагают их новому посетителю.

Алгоритмы по товарам смотрят на связанные товары по каталогу. Связь должна определяться отдельно для каждого случая. Часто это работает так: товар А выбирается (покупка, клик, просмотр и т.д.) с необычно большой частотой пользователями, выбирающими товар Б (связанный товар).

История рекомендательных движков

В 1998 году, когда Amazon был в первую очередь книжным магазином, они запустили очень простой движок рекомендаций от товара к товару. Первый алгоритм основывался на коллаборативной фильтрации и предлагал новые товары к покупке, исходя из того, что уже добавил в корзину пользователь. Люди приняли эту функцию очень хорошо, и с тех пор системы рекомендаций стали набирать популярность в сети.

К 2003 году Amazon и другие большие интернет-магазины усложнили систему. Рекомендации стали предлагаться по прошлым покупкам и просмотренным товарам. У страниц поиска работают другие алгоритмы, подсвечивающие наиболее подходящие к запросу товары. На большинстве страниц есть какой-нибудь рекомендуемый контент, включая страницы просмотра и страницы с информацией о продукте. К тому времени около 30% всех просмотров страниц Amazon шли из системы рекомендаций.

Затем онлайн-игроки в сфере развлечений, путешествий и на других нишах тоже начали использовать рекомендательные алгоритмы. Netflix использовал эту функцию так широко, что в 2006 году представил конкурс машинного обучения по предсказанию рейтинга фильмов — Netflix Prize. Они предложили 1 миллион долларов, чтобы улучшить точность своей системы рекомендаций. Оценивались разные решения и алгоритмы, как они могут уменьшить среднеквадратичную ошибку (RMSE) предсказания рейтинга фильма. Была задана планка — снижение на 10%.

В 2010-х цифровые паблишеры и новостные веб-сайты тоже стали использовать рекомендации по обнаружению контента и предлагать посетителям статьи, исходя из их поведения на сайте и интересов. Рекомендуемые статьи ведут к контенту на этом же или других сайтах, показывают видео и предпросмотр других веб-форматов.

Рекомендации на сайте повышают заинтересованность пользователей в площадке паблишера и уменьшают bounce rate, а рекомендации вне сайта используются для продвижения дополнительных контентных проектов и рекламируемых продуктов и создают лиды.

Сейчас паблишеры добавляют рекомендации по обнаружению контента разными способами: от простых плагинов до специальных платформ с широкой функциональностью. Один из примеров — платформа MGID. Она первой предложила виджет рекомендаций контента, ставший самым популярным форматом.

Некоторые из рекомендательных движков (в основном плагины) основываются на анализе ключевых слов и тегов и предлагают контент, похожий на потребляемый пользователем в текущий момент. Другие исследуют поведение пользователя, реакцию на разную информацию, его интересы и социальную демографию.

Коллаборативная фильтрация vs фильтрация по контенту

Есть два общих подхода к созданию алгоритмов рекомендаций: на основе контента или с помощью коллаборативной фильтрации.

Фильтрация по контенту помечает каждый товар или каждого пользователя определенными характеристиками, а затем смотрит на получившееся и делает выводы о сходстве. Чтобы предполагать что-то, нужно очень хорошо знать товары или аудиторию. Например, рекомендательный движок должен знать жанры фильмов, страны происхождения, режиссеров, даты выхода и т.д., чтобы увидеть сходство и порекомендовать одно кино, когда пользователь проявил интерес к другому.

В противоположность фильтрации по контенту, коллаборативным системам не нужна глубокая экспертиза или обширная категоризация. Они смотрят на реальное поведение пользователей. Характеристики и особенности берутся прямо из исторических данных прошлых взаимодействий пользователей и товаров. Движок создает гигантскую матрицу с пользователями и товарами и выделяет общие группы. Для разложения матрицы можно также использовать метрики расстояния.

Таким образом, коллаборативные системы рекомендаций можно разделить на два типа:

фильтрация по памяти

Такие системы ищут сходство между товарами или пользователями. Они рекомендуют товар по принципу, если кто-то купил товар А (или просмотрел, кликнул на него и т.д.), то купит товар Б. Эти системы могут быть очень точными, но им нужна многомерная группировка, и их трудно масштабировать.

фильтрация по модели

Алгоритм основан на разложении матрицы. Нужно назначить несколько функций (параметров) и взвесить их, т.е. построить математическую модель предсказания сходства товаров. Также нужно выбрать целевую функцию модели, например вероятность покупки.

Подытожим. Модели, основанные на контенте, можно использовать, когда известны все особенности товаров и все пользователи. С другой стороны, коллаборативная фильтрация делает рекомендации без глубоких знаний о товаре, или когда есть высокая вероятность тенденциозных заключений. Чтобы воспользоваться доступной экспертизой о товаре и избежать потенциальных предубеждений, можно выбрать гибридную фильтрацию.

Движок рекомендаций контента MGID

Алгоритм MGID подбирает нативную рекламу, которая вероятней всего заинтересует пользователя, через его прошлое поведение и контент страницы. Целевая функция движка — повысить CTR (кликабельность). Система предсказывает, с какой вероятностью пользователь кликнет на различную рекламу, и показывает ему самые кликабельные объявления.

Алгоритм основан на гибридной фильтрации: система смешивает данные алгоритма по контенту (категории контента веб-страницы и объявлений, социальную демографию, интересы аудитории и т.д.) с поведенческими алгоритмами (прошлые просмотры страниц, клики и показы).

Краткосрочный интерес пользователей

При создании рекомендательной системы мы нацеливались на выделение особенностей или параметров, помогающих показывать самую релевантную и кликабельную рекламу. С помощью серии экспериментов и тестов мы определили, что краткосрочный интерес пользователей, т.е. наблюдения за самыми недавними действиями на сайте вроде кликов и просмотров страниц, — наиболее важный параметр в предсказании кликабельности рекламы.

Вероятность того, что пользователь нажмет на рекламу из определенной категории повышается, если недавно он кликал на другую рекламу из этой же категории. Используя краткосрочный интерес пользователей, как один из главных факторов при рекомендации контента, мы смогли повысить средний CTR на 3,5% в продуктовых кампаниях и на 4,5% в контентных.

Система обновляется немедленно с поступлением новой информации о кликах и просмотрах страниц. Рекомендательный движок MGID находит самые релевантные объявления, фильтрует дублирующие и отклоненные и показывает рекламу.

Временная близость наблюдаемых действий имеет значение. Если пользователь кликнул на объявление из конкретной категории даже несколько дней назад, это доказательство того, что реклама из этой же категории будет полезна ему и сегодня. Поэтому мы определяем и храним только недавние данные о поведении пользователей.

Заключение

Все онлайн-гиганты борются, чтобы стать лучше в рекомендательных системах. С одной стороны, вкусы и поведение людей некогда нельзя предсказать на 100%, потому что влияет слишком много факторов, и они постоянно меняются. Однако, возможно прикинуть самые вероятные совпадения и показать самую релевантную рекламу с помощью большого количества данных о поведении и предпочтениях.

Движок рекомендаций действует в нативной рекламе как третья сторона, сочетающая интересы пользователей с настройками паблишеров и таргетингом рекламодателей. Такой способ рекомендации нативного контента усиливает вовлеченность читателя и приносит больше конверсий и продаж.

Теперь, когда мы узнали, как работают системы рекомендаций контента, и как это делает MGID, приглашаем связаться с нами, чтобы узнать, как наша платформа поможет вашему онлайн-бизнесу.