Как работают рекомендательные системы?
Синонимы к «Рекомендательные системы»
Рекомендательные механизмы — это алгоритмы, которые подбирают соответствующие товары и услуги, основываясь на информации о пользователе.
Эта технология является подразделом машинного обучения.
История возникновения рекомендательных систем
Рекомендательные системы появились недавно. Шведский ученый Юсси Карлгрен впервые упомянул о цифровой книжной полке в 1990 году. Эта работа стала основой для его будущих исследований.
В 2000 годах алгоритмы рекомендаций начали использоваться в электронной коммерции. Amazon стал одним из пионеров в этой области.
В 2006 году Netflix запустила конкурс на лучший рекомендательный алгоритм с призовым фондом в $1 млн. В 2009 году приз вручили команде BellKor’s Pragmatic Chaos.
В 2010 годах рекомендательные системы появились в социальных сетях. Большинство популярных платформ отказались от использования хронологической ленты в пользу алгоритмической.
Как работают рекомендательные системы?
На сегодня используются два основных подхода в рекомендательных системах: коллаборативная фильтрация и модель, основанная на контенте.
Основной принцип коллаборативной фильтрации — генерировать рекомендации на основе данных о других пользователей с похожими интересами. Фильтрация бывает user-based и item-based .
Основная задача user-based алгоритма — найти пользователей, чьи интересы максимально похожи на основе потребленных ими продуктов и выставленных оценок. Допустим, Анна и Вадим купили сок, булочку и йогурт. Также известно, что Максим часто приобретает сок и булочки. Это значит, ему нужно порекомендовать купить йогурт.
Item-based рекомендации рассматривают задачу с противоположной стороны: найти похожие объекты и посмотреть, как их оценивали до этого. Попробуем выяснить, нравится ли Максиму йогурт. Мы знаем, что он любит сок и булочки. Йогурт, как продукт питания, обладает похожими характеристиками. Значит мы можем предположить, что этот товар понравится Максиму.
- Коллаборативная фильтрация — поиск пользователя, оценившего объект и расчет корреляции его оценок всех объектов в базе данных. Чаще всего используется метод k-ближайших соседей.
- Модель, основанная на контенте — объект находится в центре модели, для оценки пользователя не требуется. Модели важны любые свойства объекта: автор, жанр, страна происхождения, производитель и т. д. Однако не все свойства релевантны для потребителя, поэтому стоит ограничиться основными атрибутами.
- Модели, основанные на контенте , пользуются большой популярностью. Их не нужно долго обучать, разработчики могут сразу начать рекомендовать товары для пользователей.
- Однако у этого метода есть и недостатки . Многие пользователи замечали, что после поиска определенного товара в Google их начинала «преследовать» реклама с предложением приобрести этот товар в каком-нибудь интернет-магазине. Для уменьшения количества отрицательных отзывов о нерелевантности подобных объявлений разработчики дополняют алгоритмы моделями, основанными на знаниях. Они также не опираются на оценки, а учитывают лишь профили пользователя и товара.
-
Как рекомендательные системы собирают данные?
-
Данные для рекомендательных алгоритмов могут собираться явным и скрытым способами.
-
К явным способам относятся запрос у пользователя оценить объекты по дифференцированной шкале, ранжировать их от лучшего к худшему, сравнить два похожих товара или составить список любимых объектов. Ключевой момент — пользователь понимает, что его данные используются алгоритмами и дает согласие на их обработку.
-
Во время скрытого способа посетители сайтов не всегда отдают себе отчет в том, что их действия могут использоваться рекомендательными системами. Сюда относятся файлы cookie, рекламные трекеры Google или Facebook, детальный анализ взаимодействия с видеороликами и прочее.
-
Как правило, правительства многих стран обязывают сайты оповещать посетителей о сборе таких данных. Однако у пользователей не всегда есть возможность отказаться от этого.
-
Где используются рекомендательные системы?
-
Как уже упоминалось, рекомендательные системы широко используются в электронной коммерции. С их помощью интернет-магазины могут советовать покупателям релевантные товары в блоке «Вам также может понравиться» или предлагать комплементарные продукты непосредственно в корзине. Также если товара нет на складе, алгоритмы могут найти аналоги.
- В почтовых рассылках также часто используются персональные рекомендации.
- Подобными алгоритмами пользуются ритейлеры вроде Amazon, Ozon или Wildberries.
Рекомендации в карточке товара Amazon. Данные: Amazon.
- Крупные стриминговые сервисы также используют рекомендательные системы. Среди них Netflix, Spotify, Apple Music, Яндекс.Музыка, YouTube, Megogo и прочие.
- Алгоритмы рекомендаций широко используются и в социальных сетях. Facebook, Twitter, Instagram, ВКонтакте и другие уже на протяжении многих лет демонстрируют пользователям контент, собранный алгоритмами. Лишь немногие из них позволяют переключиться на хронологическую ленту.
Какие проблемы у рекомендательных систем?
- Рекомендательные системы обладают рядом ограничений. Одним из них является проблема холодного старта — когда для работы алгоритма еще не накоплено достаточное количество данных. Это типичная ситуация для нового или непопулярного объекта, который оценило малое количество пользователей, или для неординарного потребителя, предпочтения которого сильно отличаются от среднестатистического пользователя.
Корректировка рейтингов
- При малом количестве отзывов рейтинг объекта будет тяготеть к некой «безопасной средней».
- Оценку вычисляют не как среднюю по позиции, а как сглаженную среднюю.
- Когда набирается достаточное количество реальных оценок, то искусственное усреднение отключается.
Предвзятость рекомендательных алгоритмов
- Неточно настроенные алгоритмы, заложенные в них стереотипы, а также действия пользователей могут повлиять на ранжирование информации.
- В 2021 году рекламные алгоритмы Facebook непропорционально показывали разные объявления о вакансиях мужчинам и женщинам.
- Инструмент автоматической обрезки фотографий для домашней ленты Twitter в большинстве случаев акцентировал внимание на молодых и стройных девушках.
- Разработчики быстро исправили ошибки, однако не всегда это удается.
Проблемы работы рекомендательных алгоритмов Google
- Результаты выдачи по поисковому запросу «спортсмены» и «спортсменки» сильно отличаются.
- По отношению к женщинам система выдает различные рейтинги «привлекательности» и «сексуальности».
- По отношению к мужчинам алгоритмы показывают статьи с профессиональными достижениями атлетов.
Результаты поисковой выдачи в Google по запросам «спортсмены» и «спортсменки». Данные: Google.
- Изображение:
- Изображение:
Воздействовать на поиск могут не только люди, но и роботы. В 2018 году пользователи Reddit произвели намеренные манипуляции с алгоритмами Google, чтобы при запросе «идиот» отображалось фото Дональда Трампа, бывшего президента США.
Дональд Трамп, попавший в выдачу по запросу idiot. Данные: Google.
Во время слушаний в Конгрессе генеральный директор корпорации Сундар Пичаи заявил , что сотрудники компании не вмешиваются в ранжирование информации. По его словам, алгоритмы делают это автоматически, сканируя миллионы поисковых запросов и ранжируя их по более чем 200 параметрам.
Предвзятостью алгоритмов могут пользоваться и разработчики рекомендательных систем. В октябре 2021 года бывшая сотрудница Facebook опубликовала документы , доказывающие намеренное использование «вредных» инструментов на площадке. По ее словам, топ-менеджмент знал, что алгоритмы проявляют нетерпимость по отношению к незащищенным слоям населения. Но компания не спешила устранять ошибки, так как такой контент сильнее вовлекал пользователей и увеличивал доходы компании за счет показа рекламы.
Подписывайтесь на новости Cryptoit в Telegram: Cryptoit AI — все новости из мира ИИ!