Семь трендов в Big Data, на которые ориентируются успешные компании
Аналитики TechTarget утверждают, что только в сфере финансовых услуг объём новых данных в течение 2021 года вырастет более чем на 700%. Обрабатывая данные и извлекая из них знания, компании могут существенно повысить своё конкурентное преимущество и снизить расходы. Например, благодаря работе с Big Data Netflix ежегодно экономит порядка одного миллиарда долларов на удержании клиентов. Становясь всё более популярным направлением, Big Data обрастает многочисленными новинками: какие-то из них приживаются, другие остаются на уровне локальных экспериментов. В этой статье директор департамента поддержки продаж Arenadata Александр Тимчур рассказал о семи тенденциях, по пути которых идут наиболее успешные игроки российского и зарубежного рынков.
Аналитики исследовательской ИТ-компании Gartner в прогнозе на 2021 год предположили, что облачные сервисы станут необходимыми для 90% новых продуктов и сервисов в области данных. Наступила веха стратегии Cloud First: сохраняя собственные ИТ-системы, компании используют возможности облачных технологий, переезжая в облака как на платформу хранения данных. Это даёт им возможность максимально оперативно запускать новые проекты, быстрее проверять теории и выводить на рынок новые продукты.
Однако «распробовать» преимущества облаков бизнес смог далеко не сразу. Первостепенными для компаний были экономические аспекты: сравнивали ТСО on-premises и облачной инфраструктуры. Потом главной стала быстрая go-to-market стратегия, позволяющая оперативно масштабироваться в облаках или переносить некритичную для бизнеса рабочую нагрузку, такую как среды разработки, тестирования, обучения ML-моделей. И, наконец, компании стали переносить в облака дата-платформы потому, что не хотят держать у себя сложную инфраструктурную экспертизу. Стало расти количество дата-проектов, для которых всё чаще используются Open Source — инструменты, проверенные в мировой практике.
Cloud First даёт возможность компании отдавать часть компетенций на аутсорс. В мировой практике большинство компаний предпочитают работать на прикладном уровне, который показывает, как именно компания может извлекать из данных выгоду в контексте своего бизнеса. Компании оставляют себе только корневые компетенции в области бизнес-процессов, а всё, что связано с системным программным обеспечением, платформами данных и инфраструктурой, отдают на откуп профессионалам. Даже если заказчик не готов перейти на публичного cloud-провайдера, он хочет построить аналогичную систему внутри своей компании и найти внешнего подрядчика, который полностью закроет вопросы с масштабируемыми инфраструктурой и платформой данных.
Исследование J’son & Partners Consulting показало, что российский рынок публичных IaaS и PaaS вырос в пять раз за последние шесть лет (2014–2020) по количеству компаний-пользователей и в 2020 году составил 15,8 миллиарда рублей. В основном это представители сферы торговли и услуг (включая телекоммуникационные), ИТ, финансовые и государственные компании.
Переход на облачную инфраструктуру будет проходить активнее по мере того, как станет расти защищённость данных. Это приведёт и ко всё более динамичному функциональному развитию российских облачных провайдеров, которые со временем максимально приблизятся по возможностям к западным конкурентам.
Построение экосистемы — это самая востребованная на многих рынках бизнес-модель, которая позволяет организовать платформу для партнёрства и технологического сотрудничества.
Углубление интеграции с партнёрами — жизненная необходимость. Компании это хорошо понимают, однако продолжают задумываться о том, на каких принципах строить партнёрство. Привычные экосистемы формировались на основе площадок электронной торговли, когда на их базе множество производителей имели возможность предлагать свои продукты и услуги. Теперь же партнёрства начинают чаще строиться на базе платформ данных, когда объединяются разные участники рынка именно с целью обмена и обогащения данных друг друга.
Например, в 2020 году банк ВТБ и «Ростелеком» создали компанию «Платформа больших данных», объединив уникальные массивы обезличенных данных, технологии и компетенции.
Она уже запустила сервис по предоставлению специализированных массивов обезличенных больших данных — Geo-embedding. Его пользователи могут найти оптимальные места для открытия новых точек продаж, оценить потенциал и установить умные KPI в ранее открытых точках, сделать выводы об инвестиционной привлекательности проектов.
Дата-альянсы на российском рынке появляются всё чаще: компании из различных сегментов на базе единой платформы данных строят общие клиентские профили, обогащая их каждый со своей стороны. Например, ретейлеры, дистрибьюторы и поставщики выстраивают процессы совместного интегрированного планирования: на основании прогноза покупательского спроса более точно пополняются товарные запасы. Производственные планы строятся так, чтобы, с одной стороны, не было излишков, а с другой — чтобы объёма товаров точно хватило для тех или иных розничных точек. И если на производстве возникают какие-то ограничения, ретейлер своевременно получает эту информацию и может прогнозировать выручку от той или иной продукции, а также корректировать планы, начиная от маркетинга и заканчивая логистикой.
Так X5 Retail Group реализовала амбициозный проект, предоставив своим поставщикам набор аналитических сервисов. В режиме реального времени они смогли анализировать портрет покупателя, контролировать снижение его лояльности из-за отсутствия товаров на полке, выбирать аудиторию для рекламных кампаний и даже обрабатывать логистические данные от торговых сетей.
Если некоторое время назад крупные компании повально собирали данные, то теперь этот процесс приобрёл более осмысленный характер. Бизнес стал задумываться, какие же именно данные собирать, как их использовать, защищать и отвечать за них в поле правового регулирования.
Согласно прогнозу IDC, к 2025 году общий объём данных, генерируемых во всем мире, вырастет более чем вчетверо — до 175 зеттабайтов (для сравнения: в 2019 году это значение достигало только 40 зеттабайтов).
Предполагается, что почти 30% всех генерируемых данных будут анализироваться в реальном времени против 15% в 2017 году. При этом более 90% неструктурированных данных остаются необработанными. Это приводит к огромным потерям.
Неудивительно, что компании переосмысляют подходы к работе с данными и пересматривают потребности в их обработке. Они стараются использовать минимальный объём данных для решения конкретной задачи. Кроме того, появляется всё больше устройств, способных собирать и хранить данные самостоятельно, не нагружая централизованное хранилище. Например, мобильные приложения банков, которые удалённо выполняют большое количество задач, не связываясь ежесекундно с центральными банковскими системами обработки данных.
Некоторое время назад анализ данных преимущественно использовался для ретроспективной аналитики. Проанализировав количество проданных единиц товара в определённый год и связав эти данные, например, с прогнозом погоды, продавец мог понять, почему упали продажи.
Со временем аналитика позволила не только смотреть в прошлое, но и прогнозировать, к каким результатам приведёт то или иное решение.
Сегодня большие данные позволяют строить рекомендации, вовремя влияющие на качество бизнес-процессов. Показательный пример — цифровые двойники различного оборудования, получившие широкое распространение на производственных предприятиях. Это виртуальная копия реального объекта, которая в режиме реального времени ведёт себя так же, как он. Использование цифрового двойника позволяет проводить любые эксперименты и, анализируя, как повёл бы себя физический объект, выбирать наиболее оптимальный сценарий развития событий. Это особенно актуально при прогнозировании отказов оборудования.
Продолжают развиваться и фабрики данных (Data Fabric). Подобная архитектура предоставляет возможность из единой точки получать доступ к данным, хранящимся на различных платформах и облачных сервисах. Она помогает сократить расходы на администрирование процессов хранения и управления данными, но при этом её использование приводит к увеличению затрат на интеграционные возможности между СУБД разных типов. На помощь приходит единая платформа хранения данных, которая нивелирует избыточность хранения Data Fabric.
Сегодня компании способны с высокой производительностью обрабатывать петабайты информации. Для этого они используют технологии распределённой обработки данных, а также инструменты с открытым исходным кодом. Выявлять закономерности, аномалии и делать прогнозы бизнесу помогают системы машинного обучения и искусственного интеллекта (ИИ).
ИИ используется организациями любого размера для оптимизации и улучшения своих бизнес-процессов. Он помогает использовать большие данные для более глубокой поддержки клиентов — например, с помощью интеллектуальных чат-ботов и более персонализированного взаимодействия. При этом нет необходимости значительно увеличивать штат службы поддержки клиентов. Системы с поддержкой ИИ способны собирать и анализировать огромные объёмы информации о клиентах и пользователях, особенно в сочетании со стратегией озера данных, которая может агрегировать широкий спектр информации из многих источников.
Однако в ближайшей перспективе компаниям предстоит начать воспринимать клиента в качестве субъекта и готовиться отвечать за то, как они используют его данные. Отбирать данные нужно так, чтобы не нарушать неприкосновенность частной жизни. Например, уже сейчас любой человек может запросить у такого гиганта, как Google, информацию о том, какие его данные имеет эта компания. Клиент становится полноценным участником процесса работы с Big Data: он хочет понимать, насколько актуальна собранная о нём информация, иметь возможность внести в неё коррективы и даже монетизировать свои данные.
Эта тенденция получила название Differential Privacy (дифференциальная приватность). Она приводит к тому, что компании начинают нуждаться не в персональной информации о конкретных клиентах, а в данных о клиентских сегментах или кластерах, обладающих сходными характеристиками.
Тенденция использования Big Data в интернете вещей (IoT) не первый год набирает обороты. По данным Gartner, в 2020 году количество подключённых устройств составило 21 миллиард. Аналитики J’son & Partners Consulting пришли к выводу, что в 2019 году объём российского рынка межмашинных коммуникаций и IoT достиг 64 миллиардов рублей при 23 миллионах устройств. К 2025 году они ожидают, что в нашей стране будет не менее 56 миллионов IoT-устройств, а объём рынка интернета вещей вырастет до 86 миллиардов рублей.
Одними из первых направление интернета вещей начали развивать телеком-операторы. Например, в сети МТС по итогам первого полугодия 2019 года было зарегистрировано 8,4 миллиона IoT-устройств. В J’son & Partners Consulting считают, что до 2025 года одним из наиболее растущих рынков по подключению устройств станут сегменты мониторинга автотранспорта и дорожной инфраструктуры, ЖКХ с подключёнными счётчиками потребления ресурсов и видеонаблюдение.
Интеграция интернета вещей с машинным обучением и аналитикой данных позволяет повысить гибкость и точность ответов, получаемых с помощью машинного обучения. Крупные компании уже используют устройства интернета вещей для повышения эффективности анализа данных. Так, российские заводы проверяют исправность и оптимизируют загруженность оборудования. Использование решений IoT в логистике позволяет оптимизировать перевозки. Ретейлеры и рестораторы получают возможность анализировать поведение клиентов и делать им персональные предложения. А страховые компании активно используют страховую телематику, отслеживания манеру вождения клиентов.
Согласно прогнозам Mordor Intelligence, рынок данных как услуги (DaaS) будет расти в среднем на 10% и только в США достигнет 46,5 млрд долларов к 2025 году. Использование DaaS позволяет улучшить качество обслуживания клиентов, увеличить доход и разрабатывать улучшенные продукты и услуги.
65% респондентов в исследовательском опросе Adobe считают, что использование данных как услуги помогло им улучшить возможности анализа данных, чтобы лучше понять требования к клиентскому опыту. Согласно прогнозу FinancesOnline, доход рынка DaaS к 2023 году вырастет до 10,7 миллиарда долларов.
Пришедшие на российский рынок тенденции работы с Big Data требуют от бизнеса переосмысления многих устоявшихся процессов. И решать эти вопросы нужно уже сейчас, так как каждый тренд многогранен и постоянно эволюционирует, обрастая новыми знаниями, решениями и инструментами. К каким-то из них стоит присматриваться, постепенно внедряя их в бизнес, а на другие реагировать оперативно.
Большие данные прошли переоценку
Рынок больших данных в РФ при базовом сценарии развития вырастет до 319 млрд руб. к концу 2024 года, полагают в Ассоциации участников рынка больших данных (АБД). Там разработали несколько сценариев, худший из которых предполагает перевод рынка на «мобилизационную экономику» — то есть монополизацию и возложение госзаданий на крупные компании. В АБД, однако, полагают, что рынок вырастет и в этом случае. Эксперты в целом сомневаются, что цифровой учет военнообязанных всерьез повлияет на ситуацию с большими данными в России, поскольку эта система будет работать вне рыночного поля.
Фото: Евгений Павленко, Коммерсантъ
Фото: Евгений Павленко, Коммерсантъ
“Ъ” ознакомился с презентацией АБД (объединяет «Яндекс», VK, «Ростелеком», «МегаФон» и др.) разработанной ею стратегии развития рынка до конца 2024 года. Ассоциация представила пять возможных сценариев, целевой подразумевает рост рынка со 170 млрд руб. в 2021 году (данные за 2022 год не приводятся) до 319 млрд руб. Для его реализации нужно, чтобы рынок IT был «приоритетным для государства», а услуги и решения в области больших данных распространялись в другие сегменты. Необходимо стимулировать внутренний спрос на решения, а также обеспечить частичную замену иностранного софта российским.
Наихудший, «кризисный» сценарий наступит, если государство будет вести «политику «мобилизационной экономики»» в области больших данных, а граждане окажутся готовы делиться только минимальной информацией.
При таком сценарии рынок больших данных в России, по оценке АБД, составит 189 млрд руб. к концу 2024 года. В соответствии с поправками к семи федеральным законам, принятыми Госдумой 12 апреля, будет сформирован электронный реестр воинского учета, включающий паспортные данные граждан, адреса регистрации и проживания, телефон, данные о месте работы и состоянии здоровья, а также другие сведения.
Наилучший сценарий (прогноз объема рынка — 441 млрд руб.), в частности, подразумевает появление в России института страхования от утечек персональных данных в пользу их субъектов. Такую идею рассматривало Минцифры (см. “Ъ” от 7 ноября 2022 года).
«С целью достижения консенсуса по ключевым направлениям развития» стратегия сейчас обсуждается с администрацией президента, Минцифры, Минэкономики, Минпромторгом, Госдумой и Советом федерации, сообщили “Ъ” в АБД.
В Минцифры говорят, что представили АБД свои предложения, а также договорились с бизнесом о разработке совместного проекта по подготовке IT-аналитики: «Он должен заполнить нишу отраслевой аналитики, которая образовалась после ухода с рынка ряда западных агентств».
В аппарате вице-премьера Дмитрия Чернышенко добавили, что разрабатываются и согласовываются методические рекомендации по управлению данными государственных информсистем (ГИС), работающих на платформе «Гостех». В других органах власти “Ъ” не ответили.
Почему операторы данных считают неэффективным механизм компенсаций за утечки
Источник “Ъ”, близкий к разработке проекта, говорит, что под «мобилизационной экономикой» в области больших данных подразумевалась монополизация рынка государством, повышение нагрузки, возлагаемой на крупных игроков рынка — «в частности, за счет возложения на бизнес задач от государства». Он уточнил, что пока невозможно оценить рынок в 2022 году, так как «не все игроки предоставили отчетность».
По данным Fortune Business Insights, мировой рынок больших данных в 2022 году составил $271,83 млрд и увеличивается на 13,4% ежегодно. В России он тоже будет расти в любом случае, хоть и не такими высокими темпами, какими мог бы без ухода иностранных игроков, считает гендиректор Института исследований интернета Карен Казарян: «»Яндекс» и VK так или иначе продолжат работать и развиваться». В то же время он полагает, что опасения людей, связанные с введением цифровых повесток, едва ли скажутся на объеме рынка, поскольку «вопрос не в сборе данных, а в их использовании».
Будущее Big Data: к 2025 году 60% мировых данных будет создавать бизнес
К 2025 году общемировой объем данных вырастет в 10 раз и достигнет 163 зеттабайт (Збайт, в одном зеттабайте содержится 10 в 21-ой степени байтов), причем большую часть этих данных будут генерировать предприятия, а не потребители. Об этом говорится в докладе «Эпоха данных — 2025» (The Data Age 2025), подготовленном аналитиками компании IDC при поддержке производителя жестких дисков Seagate. Полная версия доклада есть в распоряжении Forbes.
Представьте, что вас разбудил виртуальный личный помощник, который советует, какая одежда из вашего гардероба лучше всего подходит под погоду за окном, а также согласовывает ваше расписание на день и маршрут, предлагают авторы исследования. Хотя возможно вам и не придется добираться до офиса, так как извлекать рабочие файлы можно из облака, а общаться с коллегами — при помощи голографических телеконференций.
В выходные можно подыскать новую мебель через приложение с технологией дополненной реальности, которое позволит «встроить диван» в вашу гостиную перед тем, как заказать его. Пока вы будете отдыхать на новом диване, «умный» помощник закажет вам пиццу, которую доставит дрон. Такое будущее рисуют авторы доклада, отмечая, что данные за последние 30 лет стали критически важными для всех аспектов нашей жизни.
«Мы стремительно приближаемся к новой эре эпохи больших данных. От беспилотных автомобилей до роботов-гуманоидов и от умных личных помощников до домашних устройств. Мир вокруг нас претерпевает фундаментальные изменения, трансформируя то, как мы живем, работаем и развлекаемся», — отмечают авторы исследования. Всего они выделяют шесть основных тенденций, определяющих развитие области Big Data на ближайшие годы:
Данные больше не «фон» бизнес-деятельности, а «жизненно важный актив». Авторы исследования утверждают, что к 2025 году почти 20% всех данных в глобальной информационной сфере будут играть критически важную роль в повседневной жизни, а около 10% этих данных будут «сверхкритичными». Теперь это фактор нормальной работы общества и техники: от медицинских приборов до самоуправляемых автомобилей.
Безопасность как критический фундамент. Особое внимание в IDC обращают на проблему защиты частной и конфиденциальной информации, которая будет сталкиваться с новыми и новыми уязвимостями. Исследователи подчеркивают, что уже сегодня существует серьезный пробел между производимым объемом данных, которые требуют защиты, и тем их объемом, который фактически защищен. Такой разрыв в будущем будет лишь расти, признают эксперты. Они указывают, что к 2025 году почти 90% всех данных потребуют того или иного уровня безопасности, но лишь половина из них будет реально защищена.
Встроенные системы и Интернет вещей. Рост объемов больших данных и метаданных приведет к тому, что к 2025 году каждый среднестатистический житель Земли начнет взаимодействовать с устройствами, соединенными с сетями, примерно 4800 раз в день: по одной процедуре взаимодействия каждые 18 секунд.
Машинное обучение изменит экономический ландшафт. Согласно прогнозу IDC, доля глобальной информационной сферы, подвергаемой анализу, к 2025 году вырастет по сравнению с нынешней в 50 раз, достигнув 5,2 Збайт; а объем данных, анализируемых при участии когнитивных систем, вырастет в 100 раз, составив 1,4 Збайт. Когнитивные системы позволят чаще и более гибко анализировать данные во многих отраслях и во многих ситуациях.
Мобильные данные и информация в режиме реального времени. К 2025 году почти 20% генерируемых данных станут информацией, получаемой в режиме реального времени. При этом более 95% составят данные, поступающие от устройств Интернета вещей. В связи с этим данные должны быть мгновенно доступными для пользователей и предприятий в любое время и в любом месте.
Автоматизация и межмашинное взаимодействие станут основными конкурентами традиционных источников в области создания данных. Если в предыдущие 10 лет данные создавались во многом за счет роста объемов развлекательного контента, то в предстоящее десятилетие главными источниками информации станут бизнес-деятельность и работа встроенных систем, а также производство изображений и видеозаписей неразвлекательного характера — например, генерируемых системами видеонаблюдения и производимых рекламодателями.
В Seagate в связи с этими тенденциями рекомендуют главам корпораций сосредоточиться на сборе значительно меньшей по объему, но более ценной для бизнеса информации. «Тот факт, что мы можем хранить огромные массивы данных, не означает, что нам следует это делать», — указывает вице-президент компании по маркетингу Джефф Фочтман. Он уверен, что оптимальное количество данных для хранения определяется, исходя из задач в каждой конкретной ситуации. В случае неэффективного использования данных компания, по мнению топ-менеджера Seagate, рискует столкнуться с проблемами, например, при обработке заказов или же с невозможностью обеспечить индивидуальный подход к своим клиентам.
Фочтман подчеркивает, что к 2025 году предприятия будут создавать около 60% мировых данных (в 2015 году этот показатель составлял менее 30%), в то время как раньше создателями основного массива данных выступали потребители. Картину производства информации изменят, в частности, такие технологии как машинное обучение, автоматизация и межмашинные технологии, объясняет он.
Но и потребители не останутся в стороне. Согласно прогнозу IDC, если сейчас на каждого человека приходится меньше одной единицы техники со встроенными источниками данных, «питающими» глобальную информационную экосистему, то через 10 лет этот показатель вырастет более чем до четырех.
Большие данные в России: что изменилось для бизнеса и государства
В 2023 году в Москве прошел первый российский форум, посвященный большим данным. Мероприятие под названием First Russian Data Forum (18+) стало интерактивной площадкой для публичного диалога бизнеса и государства. Обе стороны поделились своими достижениями, прогнозами и опасениями, связанными с развитием этой сферы. И если бизнес больше всего пугают возможные законодательные ограничения, то государственные структуры страшатся избыточного накопления и бесконтрольного распространения big data. В событии приняли участие более 700 человек, проведение форума инициировала Ассоциация больших данных (АБД). Делимся главным, о чем говорили на форуме.
Прогнозы и оценки
В ходе форума президент АБД Анна Серебряникова представила масштабную стратегию развития рынка данных до 2024 года. По ее словам, похожий проект составили пять лет назад, однако современные реалии заставили его изменить. «У нас была стратегия 2018 года, которая прекрасно реализовывалась. Темпы роста рынка фиксировались на уровне около 75% за предыдущие годы. Но в 2022 году рынок существенно изменился. Мы поняли, что не можем жить в рамках прежней стратегии, и разработали новую — на три года», — объяснила Серебряникова.
Описывая текущее состояние рынка данных, эксперт выделила влияние государственной поддержки IT-отрасли. Серебряникова назвала его беспрецедентным с точки зрения количества мер, возможности быть услышанным и постоянного развития IT-направления. Она также отметила высокий уровень зрелости отраслевых игроков и потребления цифровых сервисов пользователями.
Если смотреть в будущее и оценивать сценарии развития, АБД прогнозирует, что консолидированные действия бизнеса и государства способны обеспечить рост рынка больших данных на 90% (до 319 млрд руб.) к концу 2024 года. При этом от использования big data отрасли экономики получат дополнительный эффект в 1,6 трлн руб. Условием достижения такой цифры Серебряникова назвала, в частности, «право на ошибку» для бизнеса, также отметив, что сотрудничество бизнеса и государства необходимо в области стимулирования спроса на цифровые продукты, снятия излишних регуляторных барьеров и подготовки кадров.
Анна Серебряникова:
«Для совместных исследований и инновации в области больших данных нам нужны не только деньги, но и право на ошибку от государства. Сейчас господдержка предполагает, что проект будет не только разработан и внедрен, но найдет своих покупателей. Это не всегда так работает в области научно-исследовательских и опытно-конструкторских работ (НИОКР)».
Достижимой целью в Ассоциации больших данных сочли 40 некоммерческих НИОКР в области IT, рост экспорта товаров и услуг в области больших данных на 10%, а также достижение объема инвестиций в эту сферу в размере 1,1% ВВП. Планомерное развитие рынка позволит создать 32 тыс. новых рабочих мест в индустрии big data и поднять индекс качества жизни на 0,7%.
Мнение чиновников
Представители власти, присутствовавшие на форуме, признали: сейчас отрасли не хватает правил игры, единых для всех участников. «Нам, как законодателям, предстоит вместе с отраслью, государством и обществом дать четкие определения существующим сегодня явлениям, — заявил депутат Госдумы Александр Хинштейн. — Нам надо договориться, что такое обезличенные данные, обогащение данных, большие массивы данных. Только определив понятийный аппарат, мы сможем двинуться дальше в сторону изменения законодательства».
В качестве положительного примера Хинштейн привел Кодекс этики использования данных, принятый в 2019 году. Документ создали по инициативе Ассоциации больших данных вместе с Институтом развития интернета (ИРИ). «Опыт этого кодекса может лечь в основу законодательных инициатив», — уверен депутат.
По мнению председателя комитета Совета Федерации по экономической политике Константина Долгова, каждое решение игроки рынка big data должны «перекладывать на повседневный язык нашей страны и ее граждан». Цифровое развитие в регионах он назвал неравномерным и выделил необходимость «объяснять преимущества IT-решений и делать их доступными». В качестве примера желаемого вектора развития Долгов назвал государственно-частные партнерства в сфере big data.
Наиболее радикальную точку зрения высказал министр цифрового развития, связи и массовых коммуникаций Максут Шадаев. Если несколько лет назад данные было принято называть новой нефтью, то сегодня министерство оценивает ситуацию с другой стороны. «Последняя наша рефлексия заключается в том, что накопление данных — это огромные риски. Даже внутри государственной системы надо находить определенный баланс», — считает Шадаев. Министр призвал все государственные структуры провести ревизию накопленных баз данных: «Наша позиция заключается в том, что многие данные надо убирать из оперативного контура».
Второй технологической задачей на ближайшее время Шадаев назвал взаимное обогащение баз данных — правда, опять с упором на защиту от чрезмерного распространения сведений. «В полный рост встает вопрос создания единого технологического решения, единой системы хеширования, чтобы при объединении различных баз данных не создавать дополнительный риск утечки персональных данных», — заявил министр.
Практический подход бизнеса
В ходе круглого стола «Ключевые направления развития цифровой экономики» бизнес представил собственные методы и принципы работы с данными. Руководитель стратегического комитета АБД и управляющий директор департамента управления данными Сбербанка Мария Поликанова отметила, что данные являются активом, который может дать социальный и экономический эффект, в связи с этим данные являются национальной ценностью и требуют к себе соответствующего отношения. Поэтому стратегия развития рынка big data направлена на достижение трех целей: создание качественной среды для бизнеса, поддержку технологической независимости и повышения качества жизни граждан.
Как будет устроен российский сегмент big data к концу 2024 года
- Государство будет уделять много внимания отрасли больших данных и IT.
- Компании начнут обмениваться данными и запускать новые продукты и сервисы.
- Общество лучше подготовится к работе с данными: люди поймут, какую ценность можно извлечь из big data.
- Технологии смогут развиваться на российской базе опережающими темпами.
- Законодательство позволит обмениваться данными для развития экономики.
Прогноз Ассоциации больших данных
Мария Поликанова отметила, что финансовый сектор, телекоммуникации, медиа и технологии, а также ретейл являются лидерами по темпам развития big data. По ее словам, эти отрасли находятся уже на этапе масштабирования своих data-решений, а нефтегазовый, горнодобывающий, агропромышленный сектора и девелопмент находятся на стадии внедрения технологий работы с данными. Поликанова заметила, что финансовый сектор является не только флагманом цифровизации, но и одним из самых креативных, который находит новые возможности для внедрения решений big data.
Мария Поликанова:
«Раньше банки применяли данные для скоринга клиента — оценки, вернет он кредит или нет. Теперь банки наращивают виды и объемы данных, улучшают точность моделей и уже умеют предсказывать ранний дефолт заемщика еще до его возникновения».
Промышленный сектор в дискуссии представил Владимир Дождев, директор департамента цифровых технологий Министерства промышленности и торговли. Он рассказал, что спрос на решения big data в промышленности растет, как и объем инвестиций в разработку. Проекты, связанные с большими данными, — больше не удел отраслевых лидеров, а распространенное явление. «Мы видим кейсы, когда промышленные компании осваивают новые рынки благодаря данным», — уточнил Дождев. В качестве примера он привел автопроизводителей, которые занимают рынок телеметрии и сервисные рынки.
По словам представителя Минпромторга, в промышленности сейчас собирают 3–4% данных из общего объема доступных сведений. А из собранных только 5% данных нужны и востребованы в существующих бизнес-моделях. По словам Дождева, потенциал для проектов с big data в промышленности огромен: заказчики ищут продукты, среди которых особо востребованы рекомендательные системы на основе больших данных, машинное зрение и цифровые двойники виртуальных испытаний.
Директор центра big data «МТС» Виктор Кантор предложил такой взгляд на рынок, в котором большие данные существуют не только как самостоятельный бизнес или способ оптимизировать процессы, но и как движущая сила для запуска новых направлений. В «МТС» технологии big data применяют в четырех вертикалях: телеком, финтех, реклама и медиа. Повторяющиеся задачи в разных вертикалях компания перевела на общие «двигатели», сформировав четыре технологические платформы: «умное» ценообразование, рекомендательные системы, скоринг и геоаналитика.
«Эти платформы для нас стали инструментами развития новых продуктов, потому что в них заложены продуктовые паттерны», — заявил Кантор. «Умное» ценообразование решает задачу уберизации. Рекомендательные системы позволяют работать с большими каталогами, скоринги — применять решения по противодействию мошенничеству, в геоаналитике — оптимизировать логистику.
Big data на практике
Рекомендательные системы дают реальные продуктовые эффекты. Чтобы это доказать, в «МТС» провели эксперимент и на две недели отказались от алгоритмов: одну из полок рекомендаций на основе машинного обучения в онлайн-кинотеатре Kion заменили на ручные подборки. Падение было заметным. Если полка с машинным обучением обеспечивает около 400 тыс. часов смотрения в месяц, то в ручном режиме та же полка генерирует лишь 290 тыс. часов.
Руководитель центра аналитических продуктов VK Predict Роман Стятюгин рассказал об опыте компании в разработке продуктов на основе big data для других отраслей. Одной из областей для их применения назвал сферу строительства. Стятюгин представил кейс с ИИ-сервисом для застройщиков — «Девелопер». Искусственный интеллект помогает определить оптимальный класс жилья для выбранной локации, подобрать наиболее эффективную квартирографию, рассчитать стоимость квартиры на всех этапах строительства и обеспечить максимальную выручку и равномерную продажу недвижимости.
В механике этого решения — ансамбль моделей, которые определяют, сколько квартир, какого размера и с каким количеством комнат должно быть в жилом комплексе. Для этого алгоритмы учитывают исторические данные спроса, цен и предложений застройщиков в выбранной локации, а также анализируют данные о привлекательности и инфраструктуре района. В итоге застройщик получает точность прогнозирования стоимости квартир около 92%.
Роман Стятюгин:
«Чтобы раскрывать ценность данных для других индустрий, игрокам рынка нужно доводить ИИ-решения до коробочного продукта, который решает поставленные задачи. Бизнесу неважно, что под капотом, важно, чтобы был результат».
Big data применяют и в более консервативных отраслях. Это доказал генеральный директор платформы управления агробизнесом «Агросигнал» Владимир Коршунов. Он объяснил, как растениеводство теряет деньги без использования данных. В пример спикер привел обработку поля химическим препаратом при нарушении температурного режима: из-за неправильной температуры препарат не подействовал, что привело к потере большой части урожая и убыткам в размере десятков миллионов рублей с одного поля.
Сбор информации, обогащение данных и экспертные модели в сельском хозяйстве способны снижать риски и затраты бизнеса. По оценке Коршунова, цифровые системы приводят к увеличению рентабельности до 25% и росту производительности работ до двух раз. Анализ процессов сокращает простои и позволяет быстро реагировать на риски, что повышает урожайность на 15%.
О том, как продвинутая аналитика встраивается в бизнес-процесс в торговле, рассказал Данила Наумов, директор по данным «М.Видео-Эльдорадо». Компания использует речевую аналитику и машинное зрение, чтобы взаимодействовать с клиентами. Например, речевые решения помогают общаться с клиентами в чат-боте, а видеоаналитика в магазинах — замечать одинокого покупателя и сообщать о нем ответственному менеджеру.
Неожиданное применение цифровые инструменты нашли в перевозке электроники. «Коллеги из логистики заметили, что контейнеры приезжают полупустыми. Попросили нас составить алгоритм по оптимальному наполнению контейнеров и фур. Мы взяли требования, как товары можно размещать, что на что ставить, и предложили модель», — рассказал Наумов. Теперь цифровое решение формирует инструкцию для комплектовщиков, и те собирают контейнеры эффективнее.
Выступления представителей бизнеса подтвердили, что big data и машинное обучение применимы не только в компаниях, непосредственно связанных с разработкой цифровых решений. Отрасли нуждаются в продвинутых инструментах для улучшения своей работы, и big data проекты способны удовлетворить их запросы.
Данные и люди
Еще одной значимой темой, которую обсудили на форуме, стало будущее data-обработки. По мнению директора по управлению и анализу данных QIWI Юлии Богачевой, в ближайшее время в мире появится новый пласт данных, которые эксперт назвала Bio data. Это сведения о том, как функционирует организм человека.
Юлия Богачева:
«Уже сейчас многие носят «умные» часы, фитнес-трекеры, которые собирают данные о том, какое у нас давление, пульс. Скорее всего, в ближайшее время будут устройства, которые будут собирать информацию об уровне холестерина, содержании различных веществ в крови и другие параметры. Тема актуальная, потому что сейчас большое внимание уделяется повышению качества жизни, развивается превентивная медицина».
Представитель QIWI отдельно подняла вопросы, касающиеся сбора, хранения и обработки Bio data, а также рисков, с которыми этот процесс сопряжен. По словам Богачевой, информация об организме человека может стать помощником на ранней диагностике серьезных заболеваний, будет подсказывать, какой диеты придерживаться и какие пищевые добавки принимать. При этом особое значение имеет защита таких данных и предупреждение утечек.
«Наверное, нет человека, который не получил бы звонок от «службы безопасности» какого-то крупного банка или в последнее время — «майора милиции или ФСБ». Представьте себе, что в эту базу добавится еще информация о том, какими болезнями вы можете заболеть или болеете», — предостерегла Богачева. Одним из путей решения эксперт считает наполнение кейсами «Белой книги» — свода практик в сфере добросовестного использования данных, входящего в кодекс АБД. По мнению Богачевой, кейсы о Bio data и их применении пора включать в этот свод.
Russian Data Forum станет ежегодным мероприятием, на котором будут собираться представители госструктур и крупнейших компаний. Следующий форум запланирован на весну 2024 года.