Как работают персональные рекомендации

С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?
Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:
Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.
Google решает эту проблему с помощью двух алгоритмов:
- MinHash-кластеризация
- Вероятностная латентно-семантическая индексация (PLSI)
MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как
где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:
- Взять кластеры, к которым относится пользователь.
- Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
- Посчитать ранг статьи.
Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.
Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:
- Пользователь открывает Google.
- Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
- Сортировка кандидатов.
- Выдача данных пользователю.
Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.
Персональные рекомендации для интернет-магазина
Алгоритм простой:
- Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
- При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
- При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».
Комментарии:
Данные по 24 миллионам кликов в 24 тематиках и 391 городу...
08 06 2026 13:22:37
Безопасность Instagram — что делать, если заметили попытку взломщиков украсть аккаунт, и как вернуть аккаунт после взлома....
07 06 2026 17:11:34
Как мы с помощью Call Tracking узнали настоящую рентабельность контекстной рекламы для магазина мебели...
06 06 2026 15:15:42
Сохраняем время и ресурсы для проверки типичных задач и тратим его на реализацию креативных идей по оптимизации сайта....
05 06 2026 11:21:11
О том, как рассчитать коэффициент ROI (ROMI) для выявления эффективности и прибыльности рекламных кампаний...
04 06 2026 11:56:54
Рекомендации от Google для бизнеса о поведении в период распространения коронавируса....
03 06 2026 19:56:26
Эффективность контекстной рекламы в тематике «тюнинг автомобилей»....
02 06 2026 20:51:47
Как быстро систематизировать мысли и заметки? Используйте систему Zettelkasten....
01 06 2026 18:40:55
К социальным сетям уже нельзя относиться, как к сугубо личному прострaнcтву?...
31 05 2026 10:54:32
Тренды, рекомендации, уроки, инструкции, а также вакансии, идеи, кейсы и всё, что поможет оставаться в теме, находить интересные проекты и вдохновляться. Читать дальше....
30 05 2026 23:10:13
Готовые к использованию таргетинговые идеи для мобильных приложений онлайн в Facebook....
29 05 2026 21:34:11
SMM для агентства перформанс-маркетинга. Как уйти от сухих текстов и стандартных баннеров для бизнес-страницы....
28 05 2026 10:38:13
Digital-маркетинг развивается и модернизируется: новые методы работы, инструменты и технологии. И стабильно растут требования к digital-специалистам. Чтобы оставаться в профессии, нужно мониторить тренды, отслеживать тенденции и повышать знания....
27 05 2026 5:30:46
Многие расширения Google Chrome предназначены для изучения иностранных языков, позволяют сохранять историю переводов и отдельные слова в словарь для дальнейшего запоминания....
26 05 2026 8:42:34
При создании рекламы на украинском мы завоевываем большую долю рынка без повышения цены за клик....
25 05 2026 1:26:38
Технологии решают, но не всегда....
24 05 2026 9:42:41
Советы для фрилансеров и удаленных сотрудников: как строить рабочий процесс так, чтобы он вел к максимальной эффективности. О работе со временем, перерывами, необходимости выключать уведомления, статусе задач, празднованиях побед и организации рабочей среды...
23 05 2026 7:12:45
Обо всех способах передачи данных из несвязанных с сайтом источников, а также о ручной передаче данных...
22 05 2026 20:11:42
Кейс: контент-маркетинг сервиса в США, или как SerpStat покорил англоязычный мир...
21 05 2026 1:35:25
Иногда даже замена блока с промокодом или обновление хедера и футера способны освежить рассылки и принести продажи, заявки, повысить лояльность клиентов. Узнать больше!...
20 05 2026 21:52:43
Что делать, если вы специально или нет попали под фильтр: руководство от выявления до спасения...
19 05 2026 21:12:13
Находим пользователей, которые не знали, что им нужен ваш товар или услуга....
18 05 2026 13:22:48
О работе внутреннего и внешнего контент-маркетолога: необходимые знания и навыки для старта, плюшки и головная боль. Все здесь....
17 05 2026 13:57:48
Кейс по росту органического трафика на сайте интернет-магазина на платформе Summer Cart....
16 05 2026 5:32:51
Легче запомнить алгоритм правильной отправки писем, чем потом вытягивать их из папки со спамом....
15 05 2026 0:32:39
Голосуй за первых лиц маркетинга ecommerce-проектов Украины...
14 05 2026 12:26:43
Ошибки, которые допускают новички и теряют деньги, трафик, клиентов....
13 05 2026 0:21:17
Будьте полезны, будьте удобны и будьте везде. Далее подробно — 18 способов собрать базу для email-рассылок. О пользе бесплатного, привлечении внимания, возможных активностях для аудитории, социальных доказательствах, предсказуемости, работе с Facebook и многом другом...
12 05 2026 20:13:11
Как найти продавцов для маркетплейса с помощью рекламы в Google, Facebook, TikTok и Viber....
11 05 2026 7:51:10
Как завоевать Instagram, задавая правильные цели и вопросы. Также в статье делимся табличкой лучшего времени постинга для различных тематических публикаций. Узнать больше!...
10 05 2026 15:46:26
Краш-тест сервиса визуализации данных: выбираем задачу, источники, создаём отчет с помощью DataDeck. Бонус в конце — лаконичные списки преимуществ и недостатков этого инструмента и приятный подарок для дочитавших...
09 05 2026 16:34:36
Менеджер экспортного направления Гугл Украина — об особенностях выхода на рынки разных стран мира....
08 05 2026 20:52:41
Рекламные заголовки в гугл адвордс так и пестрят предложениями контекстной рекламы бесплатно — вы когда-нибудь задумывались о том, откуда берутся эти «подарки»?...
07 05 2026 22:54:17
Пять примеров дизайна, который помогает продавать в рассылках. Просто любуемся и тренируем насмотренность....
06 05 2026 23:31:12
Всё, что важно узнать о лидогенерации и работе с целевой аудиторией....
05 05 2026 1:44:53
Как добиться 100% пользы от контекстных объявлений с помощью расширений...
04 05 2026 3:13:24
Как сформировать правильную стратегию продвижения и сфокусировать внимание на получении прибыли...
03 05 2026 23:35:40
в поисках нового источника трафика расскажем о Pinterest — современной поисковой сети c акцентом на визуальном контенте...
02 05 2026 11:43:24
Ежегодный прирост рынка фриланса в Украине составляет в среднем 35%. В прошлом году зарегистрировано более 200 тысяч проектов на общую сумму 385 млн гривен....
01 05 2026 6:28:10
Доминирование маркетплейсов и агрегаторов в Яндексе усилилось. Первый магазин появляется не раньше 5 позиции. Поэтому компания Alto подготовила пошаговое руководство - как обойти агрегаторы в выдаче....
30 04 2026 2:26:11
Продолжаем разговор о том, почему функция «Совмещение данных» в Google Data Studio может работать не так, как вы ожидаете....
29 04 2026 5:10:13
Комaнда Serpstat провела исследование среди интернет-маркетологов и создала виджет, который рассчитывает среднюю зарплату на основе опыта, навыков и знаний специалистов. Что из этого получилось, читаем в статье....
28 04 2026 17:53:14
Как найти, нарастить и проанализировать ссылочную массу...
27 04 2026 17:11:47
Впереди ещё черная пятница и новогодние праздники. И успех массовых распродаж можно повторить....
26 04 2026 10:30:27
SEO-продвижение сайта, торгующего натуральной косметикой...
25 04 2026 9:43:34
Рост дохода в шесть раз, ROMI +500% за пять месяцев....
24 04 2026 19:47:55
Пожар в дата-центре, неудачные обновления и то самое падение Facebook....
23 04 2026 0:29:32
Бесплатно, быстро и безопасно. Но есть и минусы. Узнать больше!...
22 04 2026 16:29:53
Как собрать свой онлайн марафон на 500 или 1000 человек? Сколько это стоит и какие сервисы использовать. Давайте разбираться....
21 04 2026 23:24:56
Распределение бюджета на кампании в Google Рекламе. Обозревает Григорий Крутий....
20 04 2026 12:20:15
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::