Большие возможности больших данных
От добычи руды до «выхода на пенсию» электростанции: где big data приведет к революционным изменениям
Будущее человечества связывают с большими данными. От big data многие ждут революции, которая изменит то, как мы живем, работаем и мыслим. Что такое big data, где уже применяются новые технологии, основанные на больших данных, и что нас ждет в цифровом будущем, рассказал заведующий научно-учебной лабораторией методов анализа больших данных Национального исследовательского университета «Высшая школа экономики» Денис Деркач.
— Считается, что термин big data возник в 2008 году, когда вышел номер журнала Nature, посвященный перспективам работы с большими данными. А если говорить о самом понятии больших данных, то когда оно появилось?
— Подход, который заключался в том, что нужно собирать данные и обрабатывать их на компьютере, применялся задолго до возникновения понятия big data. В принципе, как только появился более-менее приличный компьютер, началась компьютерная обработка данных. А до компьютера это делали на бумажных носителях. В 1960–1980-х годах уже обсуждалось, как хранить данные и как их использовать. В научных статьях того времени также анализировались данные, которые могут быть интересны и сейчас, но способы их анализа и верификации серьезно отличаются от того, как это делают в настоящее время.
Само понятие «большие данные» — именно как big data, то есть в современном его понимании — сложилось в 1990-х годах. В тот момент решили разграничивать неструктурированный набор данных и то, что можно потом использовать, например, на благо бизнеса или науки. Тогда же появились достаточно объемные системы хранения огромных массивов данных.
Например, в физике частиц и астрофизике именно в начале 1990-х годов начали применять некоторые методы машинного обучения. В тот момент стало понятно, что в физике частиц (в частности) на одном событии не построишь исследование, нужно много событий, и много — это не 10 событий, а 10 миллионов. И как проанализировать 10 миллионов событий? Нужны определенные методы. К тому времени в физике частиц исследования проводились на больших коллайдерах, и поступающую информацию нужно было как-то обрабатывать. Поэтому стали применять продвинутые методы анализа данных. Примерно то же самое происходило и в других науках, и в промышленности. Очень быстро, в частности, процесс пошел в области финансов.
— Как соотносятся понятия «большие данные» и «искусственный интеллект»?
— Методы ИИ используются при анализе больших данных. В этом отношении это комплиментарные понятия. При этом сам ИИ включает в себя как классические методы, так и методы машинного обучения. Развитие ИИ стало возможным благодаря накоплению больших данных, а также достаточного количества компьютерных мощностей для их хранения и обработки.
— Существуют ли сейчас единые критерии, что именно относить к big data?
— Big data действительно немного расплывчатый термин, но у него есть несколько характеристик. Это скорость накопления данных, объем, разнообразие, достоверность, изменчивость, ценность. Скорость сбора и обработки их должна быть такой, чтобы обрабатывались частые изменения данных. Разнообразие подразумевает, что данные поступают из разных источников. Достоверность — что информацию собирают из проверенных источников и анализируют объективными методами. При этом поток big data нестабилен и изменчив. Ценность — это выводы, которые делают на основе big data.
— Действительно ли большие данные привели к революции в целом ряде наук?
— Приведу пример из социальных наук, что именно изменило применение подходов big data. Благодаря новым подходам мы можем задавать вопросы, которые раньше не могли, и искать на них ответы. Например, получив данные о том, что сигналы многих мобильных телефонов регистрировались в определенные дни за городом, можно задаться вопросом, с чем это связано. Почему их владельцы в определенные дни уехали из города?
Или пример из области экономики. Допустим, в Архангельске появился какой-то супермозг, который собирает показания со всех электрических счетчиков по всей России, и он заметил аномалию в одном из регионов, например в Хабаровском крае. Эти данные стали известны экономисту. Экономист, который имеет доступ к этому мегамозгу, начинает, допустим, исследовать, что происходит в Хабаровском крае, после того как получил данные, что там стали меньше потреблять электроэнергию. Есть разные возможные варианты объяснения этого явления: например, праздничные дни или повышение локальных налогов и, как следствие, решение людей экономить на электричестве. Раньше такой анализ был доступен только как большое исследование. Сейчас мы можем анализировать разнообразные факторы в режиме реального времени, подстраивая или изменяя влияющие факторы.
— Насколько справедливо расхожее выражение, что все мы живем в эпоху big data?
— Мы живем в начале, скажем так, эры big data. Внезапно оказалось, что вокруг нас очень много вещей, которые могут собирать информацию. Но вопрос в том, как мы используем эту информацию и какие выводы с помощью нее делаем. Мне очень понравился доклад сотрудницы Британского музея, которая занималась его модернизацией и собирала данные для этого. Два года она потратила, просто выкидывая ненужные данные. То есть сейчас собирается действительно очень много информации, но мы до сих пор не знаем, насколько это будет интересно. Нужно ставить задачу и решать ее с помощью собранных данных. Хотя мы собираем разные данные, но сказать, что это именно big data, мы тем не менее не можем.
— Есть ли такие области, в которых мы практически ежедневно сталкиваемся с большими данными?
— Вопросы, которые решает сейчас технология, связанная с big data, разнообразны. Мы используем эти технологии практически везде, например, big data во многих случаях отвечает сейчас на вопросы про погоду. Когда открывается прогноз погоды в том или ином браузере, например «Яндекс. Погода», прогноз формируется с помощью нейронных сетей и накопленных данных. Если смотреть на статьи, посвященные анализу современного климата, то заметно, что и в России, и в мире начинают потихоньку переходить на нейронки, потому что это ускоряет процесс.
— Где еще можно также успешно использовать большие данные, как и в прогнозе погоды?
— В промышленности. Можно, допустим, накапливать данные со всех станков в рамках производственной линии. Это позволит понять, насколько производственная линия эффективна и где нужно эффективность повысить. В идеале планирование сложных цепочек — от добычи руды до выхода электростанции «на пенсию» — будет автоматизировано за счет сбора данных.
— В каких областях легче всего идет внедрение big data?
— В Интернете практически все основано на технологиях big data. Когда Интернет появился, нужна была какая-то модель для использования. Поэтому интернет-компании набрали много данных и начали смотреть, как исторически пользователи себя вели, стали предсказывать их поведение, проецируя, что они будут делать дальше. То есть в Интернете big data как раз и выстрелила, потому что там не было модели, как все делать.
В других областях, например в инженерных приложениях, базовые описательные законы были выведены уже давно и достаточно неплохо работают. Потому подходы анализа больших данных там изначально не приносили большого преимущества. Однако с ростом количества и качества данных оказывается, что и здесь возникают новые применения.
Получается, что в каждой отрасли необходимо постоянно искать точки приложения возможностей больших данных и придумывать идеи.
— В любых ли областях можно использовать большие данные? С какими ограничениями при их внедрении вы сталкиваетесь?
— Приведу пример. Допустим, вы ищете аномалии в работе двигателя. Сейчас много людей работают над тем, чтобы предсказывать их появление. При этом на практике в основном применяется подход, который был сформулирован еще в 1990-е годы, когда не было big data. Этот метод хотя не слишком эффективен, но имеет важную особенность — он хорошо интерпретируем и привычен. При использовании подходов машинного обучения можно поднять эффективность, но это снизит интерпретируемость и потребует обучения на каждом двигателе. Это повышает порог внедрения методов и доверия к этим методам.
— Если говорить об использовании big data в России, то можно ли сказать, что в этой области отечественные разработки идут в ногу с мировыми?
— Сейчас все говорят про большие языковые модели, которые будут работать как ChatGPT. В России в этом плане смогли выпустить, а через некоторое время модернизировать две языковые модели больших данных. Одна разработка принадлежит «Сберу», вторая — «Яндексу». После того как GPT-4 вышел, в России уже через три-четыре месяца выпустили свои модели. Соответственно, мы не так сильно отстали от мировых тенденций, тогда как много стран не смогли этого сделать. Это говорит о том, что у нас в стране есть достаточное количество инженеров, чтобы подхватить тренды.
— Хватает ли в России специалистов по большим данным?
— Большинство инженеров у нас сконцентрированы в определенных местах. Это, в частности, ИТ-компании, банки, которые стремятся стать ИТ-компаниями, и телекомы. За пределами этих организаций ощущается нехватка специалистов. В ВШЭ очень много выпускников, получающих техническое образование. Мы выпускаем примерно 900 человек в год с хорошим базовым образованием. Но это все равно не так много инженеров, как необходимо.
В целом ситуация с кадрами для big data в России сложная. Хотя мы на данный момент не лидеры по публикациям научных статей по этой теме, но у нас много специалистов, которые по крайней мере умеют читать и анализировать статьи на эту тему. Это значит, что код, который приводится в статьях, мы можем воспроизвести. Также вокруг много людей, которые попадают в топовые публикации. Но вопрос в количестве таких специалистов. В России их не так много, как в странах — лидерах по развитию big data и машинного обучения.
— Как готовят людей, которые работают c большими данными?
— Действительно, неизвестно, как готовить человека, который и инженер, и специалист по большим данным. Это нетривиальная задача. Инженеры в вузах осваивают огромный материал. Неслучайно их готовят по пять-шесть лет. А если добавлять к этому еще и курсы по большим данным, то непонятно, как они будут успевать. ВШЭ в этом отношении тестирует разные программы, пытаясь понять, чего не хватает инженерам, чтобы работать с big data, а чего — специалистам по большим данным для работы над инженерными задачами.
— Вы говорите, что мы только в начале эры big data. А что нас ждет дальше?
— Я очень надеюсь, что к 2030 году будет создана система, которая позволит автоматически планировать достаточно сложные вещи под решения конкретных задач. B ближайшее же время, скорее всего, будет развиваться тренд на автоматизацию рутинных задач. Например, если ты специалист по инженерии, ты должен будешь понимать, что происходит, каким образом поставить задачу нейронке, и дальше будешь просто нажимать кнопку и смотреть, что она выдает. То есть ты должен будешь уметь ставить задачи и выбирать из предложенных результатов.
— И какие задачи возможно будет решать?
— Решать достаточно сложные вещи можно будет, например, в ядерной медицине: нужно найти оптимальное решение, чтобы пациент получил наименьший уровень радиации, а результат диагностики или лечения был достигнут. Сейчас пытаются найти правильный метод, чтобы все это автоматизировать.
Возможно, в ближайшем будущем удастся решать вопросы, связанные с проектированием кораблей. Еще несколько лет назад наши коллеги из Сколтеха рассказывали, что они уже начинали проектировать крылья самолета с помощью искусственного интеллекта. В идеале все подходы и методы, которые сейчас уже созданы или еще только создаются, в ближайшие пять-шесть лет будут собраны в единое целое и будут работать под единой системой. К ней будут обращаться инженеры с конкретными задачами и выбирать решения из предложенных вариантов.
Если сравнивать с теми же дизайнерами, то в ряде компаний искусственный интеллект уже взял на себя выполнение рутинных задач, а арт-директор только выбирает из предложенных вариантов. Возможно, с инженерами будет то же самое.
— Куда денутся люди, которые выполняют рутинные задачи?
— На рынке труда будут происходить изменения. Многим, конечно, придется переквалифицироваться. Часть людей будет работать в сфере, связанной c big data. Например, тренировать нейронные сети. Уже сейчас есть такие вакансии.
Останутся и привычные форматы. Например, необходимость в генерации нового контента. Хотя сейчас искусственный интеллект умеет поддерживать разговор, причем на неплохом уровне, но все равно приятнее разговаривать с людьми.
Но как точно будет складываться ситуация на рынке труда, сложно предугадать. Если бы все было просто, то мы бы давно отказались от бензиновых двигателей и пересели на электромобили. Но этого не происходит: нет инфраструктуры. И в сфере больших данных такой инфраструктуры нет. Нам нужны миллионы машин и очень много инженерных кадров.
К тому же в ряде областей первоначальная стоимость внедрения механизмов big data превышает стоимость выигрыша. Допустим, вы хотите увеличить эффективность работы механизма на полпроцента, и эта эффективность вам принесет 100 тыс. рублей в год, но при этом вы должны нанять целую команду, работа которой будет стоить вам миллион рублей в месяц.
Приведу в пример также один медицинский кейс, когда команде топовых врачей показывали рентгеновские снимки, уже размеченные с помощью big data. Внимание врачей обращалось на значимые детали на снимках. Работа части врачей ускорялась, а части — наоборот, тормозилась: врачи перепроверяли представленные им снимки, предполагая, что искусственный интеллект мог ошибиться.
Многие вещи в реальном мире очень сложно менять, чтобы выигрывали технологии. Например, светофоры и многие работающие сегодня станки не предполагают использование big data. Это означает, что нужно ждать появления их следующего поколения, а на некоторых заводах нового производственного цикла придется ждать довольно долго, 30–40 лет. И изменения нужно планировать заранее, не просто прописывать, допустим, добавление новых датчиков, а изменять всю структуру управления производством.
Реальная жизнь в целом заточена на то, что мы делали и 5000 лет назад. Это будет тормозить процесс внедрения новых данных. Однако все же скорость изменений именно в big data может быть внезапной и скачкообразной. Потому что и результаты могут быть поразительные: например, производство станет очень эффективным, а пробки просто исчезнут на дорогах городов.
— Расскажите, пожалуйста, про вашу работу: можно ли вашу специальность называть data scientist? Что вы делаете каждый день, чтобы приблизить момент, когда исчезнут пробки?
— Data scientist — это все же больше инженер. Я скорее исследователь данных. Можно даже сказать, что исследователь исследований. Data scientist в компаниях — это часто человек, который разрабатывает методики. Мы сейчас занимаемся другими аспектами: как эти методики лучше всего использовать. Моя конкретная задача — поиск возможных вариантов, где большие данные можно применить. Я читаю научные статьи, хожу на отраслевые конференции, где общаюсь преимущественно с инженерами, и ищу, где этот метод можно применить или чем его можно дополнить. Решения мы часто тестируем на открытых данных.