Когда люди размышляют о данных, они думают о том, как те хранятся на непостижимых корпоративных серверах и направляются на исследования. Сегодня данные гораздо более подвижны и вездесущи. Основатель и генеральный директор SuperDataScience Кирилл Еременко доказывает это в своей книге «Работа с данными в любой сфере». В одной из глав он рассказывает о том, что такое «выхлопные данные», кто с их помощью имитирует проницательность, и может ли это повлиять на человеческие желания. Книга Еременко выходит в издательстве «Альпина Паблишер».
Подумайте о последнем фильме, который вы видели в кинотеатре. Как вы впервые узнали о нем? Возможно, вы кликнули на трейлер, когда YouTube рекомендовал его вам, или же ролик появился в качестве рекламы, прежде чем YouTube показал вам видео, которое вы действительно хотели посмотреть. Может быть, вы прочитали в социальной сети, что ваш друг хвалит картину, или в вашей новостной ленте появился увлекательный клип из фильма. Если вы любитель кино, сайт-агрегатор мог подобрать его для вас как фильм, который вам может понравиться. Вы, не исключено, нашли анонс фильма за пределами интернета — в своем любимом журнале либо же могли обратить внимание на афишу по дороге в кофейню, где лучше работает Wi-Fi.
Ни один из этих источников информации не был случайным. Звезды не просто сошлись для вас и фильма в нужный момент. Оставим идеалистические совпадения неожиданным экранным встречам. То, что привело вас в кино, было в меньшей степени желанием увидеть фильм и в гораздо большей — мощной смесью основанных на данных признаков, которые выделили вас в качестве вероятного зрителя, прежде чем вы сами поняли, что хотите посмотреть фильм.
Когда вы взаимодействовали с каждым из этих источников информации, вы оставили немного сведений о себе. Мы называем их выхлопными данными. Этот процесс не ограничивается вашим присутствием в онлайне и важен не только для создания социальных сетей. Независимо от того, используете ли вы социальные медиаплатформы, нравится вам это или нет, вы делитесь своими данными.
Вероятно, вы были выбраны, чтобы увидеть этот фильм, не проницательным маркетологом, сосредоточенно изучавшим соответствующие критерии, а умной машиной, которая изучила ваши «выхлопные данные» и сопоставила их с найденными ею демографическими сведениями о тех, кто увидел этот фильм и получил от него удовольствие.
Некоторые из киностудий Голливуда еще в 1950-х гг. собирали данные о том, что конкретно — от актера до режиссера и жанра — хотела увидеть их аудитория, а потом преобразовывали эту информацию в демографические характеристики респондентов, включавшие в себя возраст, местожительство и пол. Даже в то время люди принимали способные изменить ход событий решения в соответствии с информацией, извлеченной из данных.
Почему RKO Pictures, одна из голливудских студий «Большой пятерки» в 1950-х гг., продолжала снимать Кэтрин Хепберн в своих фильмах? Потому что данные показывали, что это был беспроигрышный выбор, способный привлечь внимание людей и в конечном итоге заставить их пойти в кинотеатры.
Это произошло благодаря Джорджу Гэллапу — первому человеку, который рассказал руководителям Голливуда о возможности использовать данные для принятия решений и прогнозирования, включая подбор актеров на главные роли и определение того, в какой жанр наиболее целесообразно вкладывать деньги.
Чтобы помочь RKO сделать это, Гэллап собрал, объединил и проанализировал качественные и количественные данные, которые охватывали демографическую информацию о зрительской аудитории RKO и ее мнение о фильмах, выпускаемых киностудией. Собирая эти данные, Гэллап создал модель, которая в первый раз сегментировала аудиторию кинозрителей демографически, выделив тех, кто благоприятно реагировал на определенные жанры, — модель, которая может и будет использоваться в дальнейшем для выборки и анализа данных.
Разрекламированный как предсказатель, помогающий студиям разбогатеть, Гэллап быстро стал любимцем многих лидеров киноиндустрии США, проверяя по данным опросов и интервью отношение аудитории к персонажам различных лент, от мультиков Уолта Диснея до фильмов Орсона Уэллса.
Данные могут генерировать контент
Итак, что если после всех умных свидетельств, основанных на данных, вы возненавидели фильм, который недавно видели в кинотеатре? Ну, данные, возможно, не могут предсказать все, но они, безусловно, заставили вас занять место перед экраном. Иногда данные могут получить тройку за достижения, но они всегда получают отлично за усилия. И над первым уже работают. Вместо того чтобы привязывать нужные демографические показатели аудитории к новому фильму или телевизионному сериалу, кинокомпании теперь находят способы использовать данные об аудитории, чтобы принимать обоснованные решения о предлагаемых публике развлечениях.
Но эта перемена влечет за собой необходимость в большем количестве данных. По этой причине сбор данных не прекращается, как только вы посмотрели выбранный для вас фильм; любые последующие комментарии, которые вы оставляете в социальных сетях или шлете по электронной почте, изменение ваших привычек просмотра фильмов в интернете генерируют о вас как о «кинозрителе» свежий массив данных, который учитывается в любых будущих рекомендациях, прежде чем наконец вы станете частью какой-либо демографической группы. Таким образом, по мере того как из подростка-эмо, интересующегося только демоническим пением, вы превращаетесь в любителя сложной сюрреалистической буффонады, которого все избегают на коктейльных вечеринках, ваши данные будут меняться вместе с вами и адаптироваться к этим колеблющимся предпочтениям.
В качестве примечания: еще более приятная новость состоит в том, что данные не отрицают ваших интересов. Если вы только прикидываетесь знатоком, но в действительности, как только опускаете шторы, до сих пор наслаждаетесь дрянными фильмами о зомби, ваши данные сохранят этот тайный вскормленный вами энтузиазм.
Кейс: Netflix
Сериал «Карточный домик», выпущенный развлекательной компанией Netflix, впервые доказал индустрии, насколько сильны могут быть данные не только в том, что касается охвата нужной аудитории определенными разновидностями контента, но и в управлении фактическим производством контента.
Сериал — политическая драма — выпуска 2013 г. был первой проверкой того, как данные могут быть применены в производстве хитов. В преддверии создания «Карточного домика» Netflix собирала данные о своих пользователях. Полученные сведения о зрительских привычках позволили Netflix группировать свой видеоконтент в разнообразные и даже удивительные категории. Интерфейс скрывал от пользователей эти категории, но тем не менее они были использованы компанией, чтобы представить нужный фильм нужной аудитории.
Когда информация об этих подкатегориях появилась в интернете несколько лет назад, люди были ошеломлены. Чтобы вы могли получить представление о том, насколько точно действовала Netflix, вот некоторые варианты подкатегорий: «Захватывающие фильмы ужасов 1980-х», «Хорошее образование и воспитание с участием героев “Маппет-шоу”», «Драмы шоу-бизнеса», «Глуповатая независимая сатира», «Откровенные фильмы о реальной жизни», «Умные фильмы о заграничных войнах», «Бросающие в дрожь триллеры» и «Признанные критиками мрачные фильмы-экранизации». Таковы весьма специфические предпочтения зрителей. Но Netflix нашла значительную аудиторию для каждой из этих категорий и для многих других.
В конце концов исследователи данных в Netflix начали видеть совпадения в зрительских моделях их аудитории. Оказалось, что существует значительное число подписчиков Netflix, которые наслаждались и работой Кевина Спейси, и серьезными политическими драмами. Остальное — перезапуск оригинального «Карточного домика» 1990-х гг. с Кевином Спейси в главной роли — это история (или это данные?).
Хейделин де Понтевес, предприниматель в области данных и мой бизнес-партнер, работал на конкурента Netflix в целях создания подобной системы.
«Мы знали, что у Netflix уже есть мощная система рекомендаций, и поэтому от нас как разработчиков баз данных и операционных систем требовалось не создать то же самое для нашей компании, а найти, где можно добиться разницы. Мы поняли, что для разработки действительно интересной системы нам нужно сделать больше чем просто инструмент для рекомендаций фильмов, соответствующих определенным демографическим сегментам. Мы также хотели создать алгоритм, позволяющий предлагать фильмы, которые могли бы вывести пользователей из их зоны комфорта, но в то же время доставить им удовольствие. Мы действительно стремились к тому, чтобы появился некий элемент неожиданности».
Хейделин понимал, что для достижения этой цели потребуется сложная система, способная проникнуть в головы пользователей и понять их предпочтения лучше, чем те сами понимали это. Он достиг цели, извлекая все имевшиеся у компании данные по клиентам и применяя правильное сочетание моделей, чтобы найти связи между зрительскими привычками. Помните, что этот подход почти такой же, как был у Джорджа Гэллапа многие годы назад; благодаря доступным технологиям и воображению аналитика данных мы теперь можем получить доступ к данным гораздо более хитроумным (и автоматизированным) способом.
Некоторые могут посетовать, что такой подход к использованию данных для творческого контента фактически убивает творчество. На это я бы ответил им, что данные всего лишь следуют за тем, чего хотят люди. Для любой отрасли желательно показать нужной аудитории в нужное время и в нужном месте соответствующий контент, чтобы побудить клиентов покупать их услуги. Таким образом, данные сделали индустрию более демократичной, потому что, хотя машины могут начать влиять на наши предпочтения в покупках, мы по-прежнему сохраняем самую ценную информацию: человеческое желание. Машины не говорят нам, чего мы хотим; они создают для нас связи, о которых мы, возможно, не знали.