Мир как данные
Рассказываем, как мышление на основе больших данных трансформирует науку и экономику
В 2022 году в России вышла в свет книга «Образ мышления в науке о данных» Лонбина Цао — пожалуй, самая системная и комплексная работа, посвященная этой теме. Автор книги — профессор Технологического университета Сиднея, известный специалист в области Data Science, он также является автором исследований и публикаций по различным аспектам этого научного направления. Именно он в своем труде очень точно и емко описал современный мир, в котором мы живем, — мир данных.
Новая реальность
Современный быстроразвивающийся мир данных, интенсивное их использование и, соответственно, открывающиеся новые возможности научного поиска и бизнеса на их основе породили науку о данных — новую парадигму исследований и разработок, которая использует методы и возможности экспериментальной, теоретической и вычислительной науки. Автор книги в полной мере раскрывает эволюцию образа мышления на основе данных. Такое мышление трансформирует наши представления о многих видах человеческой деятельности, в том числе в области науки, инноваций, экономики и управления.
Специалисты в области информационных технологий и обработки данных примерно 20 лет назад столкнулись с ситуацией, когда стало ясно, что данные стали чрезвычайно ценным ресурсом, но попытки использовать их в то время оказались непродуктивными. Было обнаружено, что старые подходы, модели, методы, алгоритмы и программные инструменты, которые в течение десятилетий создавались усилиями мирового научного сообщества и бизнеса, не в состоянии справиться с обработкой тех данных, которые стали на тот момент доступны.
То есть примерно в 2000 году стало понятно, что данные стали другими по сравнению с теми, к которым мы привыкли. Поэтому данные нового поколения назвали большими данными и приступили к исследованиям и разработке теоретических основ, подходов, методов, алгоритмов, специально предназначенных для работы с большими данными. Примерно к 2008–2009 годам одно из ключевых направлений информационных технологий и искусственного интеллекта было сформировано.
Примерно с 2012 года стали проводиться конференции, издаваться журналы и книги, разрабатываться университетские учебные курсы, предметом которых стала наука о данных. Однако с точки зрения Лонбина Цао, более 80% содержания этих инициатив посвящено вопросам и темам, которые относятся к статистике, искусственному интеллекту, распознаванию образов, поиску связей и закономерностей в данных, машинному обучению и бизнес-аналитике. То есть разные науки смотрят на один и тот же объект с разных точек зрения.
Новая аналитика
Лонбин Цао пишет, что наука о данных — это наука, изучающая свойства данных и их сложности, а также потенциал, скрытый в данных. В рамках науки о данных разрабатываются методы, алгоритмы и технологии преобразования данных, которые позволяют обнаруживать скрытые знания, извлекать их и использовать для эффективного решения новых задач. Причем не только задач науки и бизнеса, как это было раньше, но и многих других областей знания, в том числе тех, где раньше количественные методы вообще не применялись. Преобразование информации, полученной из данных, в решения и действия для их пополнения — цель науки о данных.
Автор книги называет подход, который применяется в науке о данных, образом мышления, он включает в это определение методологию и структуру мышления, характерные особенности и общие черты работы с проблемами в области данных. В частности, имеется в виду, что в науке о данных используются разные методики работы, данные рассматриваются как сложный многоаспектный объект, который следует изучать сразу с нескольких точек зрения. Особый стиль мышления, по мнению автора, является краеугольным камнем быстрого развития науки о данных, главным фактором, который делает ее самостоятельной дисциплиной, в отличие от науки об информации, компьютерных наук и статистики.
Наука о данных порождает новую аналитику, возможности которой значительно шире традиционной аналитики, уже давно ставшей в бизнес-среде признанным средством поддержки процессов принятия решений. Автор книги подчеркивает, что задача новой аналитики данных и науки о них состоит в том, чтобы, используя новые методы изучения, сделать «видимыми» скрытые возможности и потенциальную ценность данных для пользователей и программ. Говоря о влиянии науки о данных на современную экономику, автор отмечает принципиально новое явление, а именно появление и быстрое развитие бизнесов, основанных на данных.
«Бизнес, связанный с данными, уже приобрел масштаб, сравнимый с традиционным бизнесом, и это привело к ситуации, когда мир переживает революционный переход к новому поколению бизнеса, который обладает более высоким уровнем сложности и интеллектуальности и предоставляет новые благоприятные возможности», — пишет Лонбин Цао.
Новое будущее
Понимая, что наука о данных, или «даталогия», как ее называют в некоторых источниках, по сути, формирует образ будущего, различные государства разрабатывают и внедряют стратегии относительно данных. В частности, Лонбин Цао приводит австралийские инициативы, а именно деятельность государственного Центра передового опыта в области аналитики данных, задачей которого является побуждать государственные структуры применять подходы, основанные на данных. Также упоминается агентство Data61, целью которого является создание единой платформы для исследования данных и развития инноваций.
Кроме австралийских инициатив автор описывает китайский подход к данной проблеме. По мнению Лонбина Цао, китайское правительство использует большие данные как существенную часть своего стратегического плана развития инноваций и преобразования экономики. По словам автора, в Китае разработана национальная стратегия развития интернета вещей и больших данных. Кроме того, автор отмечает, что в Китае в последнее время наблюдается быстрое смещение интереса от интернета вещей к облачным вычислениям, затем к большим данным и теперь к искусственному интеллекту.
Подчеркивая мысль о том, что Data Science — это общемировой тренд, автор приводит в пример меморандум Европейской комиссии «На пути к процветающей экономике, основанной на данных» — план действий для построения экономики будущего, управляемой данными. В 2015 году была сформирована европейская Академия наук о данных, задачей которой является создание обучающих программ и курсов для подготовки специалистов в этой области.
Если говорить о США, то там, конечно, наука о данных играет ведущую роль в глобальном продвижении Big Data и в экономике данных. Правительство США разработало стратегию и способы финансовой поддержки исследований в области больших данных, а также других связанных инициатив, направленных на поддержку фундаментальной науки и инфраструктуры, которые делают возможной революцию в сфере больших данных. В 2005 году Национальный совет по науке и технологиям США определил одной из своих целей помощь карьерному росту профессионалов в области данных. В 2009 году Комитет по науке Национального совета по науке и технологиям США сформировал рабочую группу по цифровым данным, которая приступила к разработке стратегии, обеспечивающей лидерство США в науке и в конкурентном глобальном информационном обществе. Кроме того, Агентство перспективных исследований в области обороны запустило XData Program, цель которой — разработка вычислительных методов и программных продуктов для обработки и анализа больших объемов некорректных и неполных данных.
В обзоре государственных инициатив, приведенном в книге признанного авторитета в области науки о данных, нет России. Это, конечно, не значит, что этих инициатив в нашей стране нет, однако этот факт говорит о том, что пока, на взгляд экспертов, о большой системной работе России в этой области у них нет данных. И это необходимо изменить.