Биг дата и дата майнинг

Несколько лет назад от нашей технологии, которая строит модели психики пользователя отмахивались, даже не вникая. Сердца аналитиков и менеджмента интернет компаний целиком были заняты BigData. Казалось, что еще пару лет и большие массивы данных позволят рассчитывать поведение пользователя как в НФ. Все ждали чуда. Но не я. Зависимости, которые обнаруживаются в больших массивах данных, выглядят очень интересно. Но когда речь заходит об анализе и прогнозе поведения людей, а не статистики по отказам сложных технических систем, у меня, как психоаналитика, это вызывает сильные сомнения. Продолжая спор в столовой одной из крупнейших геймерских компаний с их главным аналитиком, omegian :), хочу привести сравнение. Относительно поведения Человека, его жизни, уместна метафора написания романа. Мне она видится не очень точной, но, в целом, удачной. И там и здесь есть периоды с заданными особенностями (возрасты), есть перипетии сюжета, сцены (работа, личная жизнь, время с друзьями), есть персонажи которые не случайны (друзья, враги, родственники), и, наконец, атмосфера, жанр(мировоззрение, стиль жизни). А, главное, присутствует некоторая обусловленность последующих событий предыдущими. Как в пределах этой метафоры для прогноза действий человека будут действовать алгоритмы дата майнинга? Как узнать, чем продолжится неоконченный роман в ближайшей перспективе? Из неоконченного произведения случайным образом берутся слова – в нашем случае это зарегистрированные действия пользователя в интернете — и из них составляется список. Затем добавляются еще несколько миллионов (десятков, сотен миллионов) таких списков слов – это зарегистрированное поведение других пользователей. Списки будут написаны на разных языках, людьми из разных стран, климатов, возрастов, актуальных ситуаций. Для того, чтобы предугадать следующие строки или поворот сюжета конкретного романа анализируется весь массив данных, ищутся корреляции. И находятся. Но к прогнозу поведения конкретного пользователя на конкретном этапе эти зависимости почти никогда отношения не имеют. Прогноз же по событию не превышает 60% порог. Почти 50 на 50 — или сделает или нет. Не часто в первом акте на стене обнаруживается ружье:). А теперь давайте сравним этот процесс с методом моделирования психики пользователя. Мы знаем принципы написания романов в различных жанрах, условия развития сюжета, наиболее вероятных персонажей. Насколько нам сложно определить последующий текст? Жанр, ГГ, сеттинг произведения почти полностью детерминирует вторую часть произведения. Начните читать любой роман. В целом, вас не удивит его окончание. Если отойти от метафоры, человек характеризуется комплексом врожденных и приобретенных качеств. Выявив их и зная, как они проявляются в различных ситуациях, можно с большой точностью прогнозировать поведение этого человека. Посмотрите на своего хорошего знакомого – вы почти всегда угадаете ответы на вопросы «понравится ли ему такой-то фильм?», «будет ли он покупать автомобиль и какую марку предпочтет?», даже если вы эти вопросы с ним не обсуждали. Конечно, в бигдате постоянно осуществляется попытка выявить неявные группы (суть характеристики), например с помощью Латентного размещения Дирихле (LDA), но со случаями эффективной работы таких алгоритмов я не знаком. Я считаю, ближайшие пару десятков лет моделирование психики пользователя будет самым эффективным способом прогноза его реакций.