Как дипфейки меняют науку о данных
Ежедневно во всем мире генерируется примерно 2,5 квинтиллиона байт информации. Она создается при каждом клике, просмотре страниц, а также при использовании онлайн-сервисов и соцсетей. Разработчикам все сложнее защищать такой объем данных от злоумышленников
Согласно исследованию IDC и Hitachi, 78% предприятий признают, что объем анализируемой информации увеличился минимум на 10%. Наука о данных в ближайшие годы будет трансформироваться, считает технический директор аналитического портала Exploding Topics Джош Ховарт. Он называет семь главных тенденций, которые определят развитие отрасли в ближайшие годы.
1. Начинается борьба с дипфейками
Запросы в поисковиках о дипфейках (подмена фото-, аудио- и видеоматериалов, созданная с помощью нейросетей, — Forbes Club) выросли за последние пять лет на 900%. Для создания таких реалистичных материалов используют искусственный интеллект. Это могут быть измененные изображения, видео или аудиозаписи. Мошенники применяют их не только для различных обманов, но и для дискредитации бизнесменов и политиков. Журналисты портала ContentDetector.AI провели опрос и выяснили, что 43% респондентов по всему миру признают, что не смогли бы отличить реальное видео от дипфейка.
Правительства внедряют законы и регулируют соцсети для борьбы с этим явлением. Также ИТ-компании разрабатывают технологии для идентификации дипфейков.
2. Python становится лидером
Python — востребованный язык программирования для анализа данных. Удобство в обучении и множество библиотек делают его отличным выбором для новичков. Количество вакансий, требующих Python, стремительно растет: с января 2022 по май 2023 года опубликовано 603 тыс. таких вакансий на DevJobsScanner, что составляет 20% от всех объявлений с указанием языка программирования.
В настоящее время по данным фирмы RedMonk он занимает третье место по популярности среди языков программирования. Первые два места достались JavaScript и Java. Автор статьи прогнозирует, что в период с 2024 по 2027 Python может стать лидером.
3. ИИ предоставляет комплексные решения
С ростом объемов данных компании сталкиваются с необходимостью эффективной обработки и анализа информации. В науке о данных все больше нужны эффективные инструменты, например, генерирующие визуализацию, собирающие статистику и создающие отчеты автоматически.
Примером такого инструмента является Dataiku. Он работает на базе искусственного интеллекта и помогает компаниям, обрабатывать большие объемы данных и создавать модели машинного обучения. Сервис предлагает единое решение, которое охватывает всю область науки о данных. Такой подход позволяет компаниям автоматизировать управление данными.
4. Компаниям требуется больше аналитиков
В 2020-х годах наука о данных и методы машинного обучения, вероятно, не будут такими автоматизированными, как ожидалось, считает эксперт. Существует множество программ для анализа данных, но специалисты все равно вынуждены вручную упорядочивать информацию перед применением алгоритмов машинного обучения. Это происходит из-за того, что данные часто не обладают необходимой структурой.
За последние пять лет количество запросов «Аналитик данных» выросло на 265%.Компании ищут экспертов, способных разбираться в больших объемах данных и выявлять закономерности. Спрос на эту профессию растет еще и потому, что объем данных по всему миру увеличится с 45 до 175 петабайт к 2025 году.
5. Увеличивается интерес к защите личных данных
Каждый месяц растет интерес людей к защите своей персональной информации. Исследование CIGI-Ipsos показало, что после различных утечек более половины потребителей стали активнее интересоваться конфиденциальностью данных.
Крупные платформы столкнулись с негативной реакцией пользователей на сбор данных, что вынудило их разрабатывать подробные правила по использованию данных. Эта глобальная тенденция к усилению защиты данных создает вызовы для доступа к большим объемам информации. Компании и аналитики должны строго соблюдать законодательство, а это, в свою очередь, может затруднить будущие исследования в области науки о данных, связанные со сбором и использованием информации о потребителях.
6. Разработчики ИИ сражаются с состязательным обучением
Состязательное машинное обучение — это инструмент, который позволяет злоумышленнику использовать данные, чтобы вызвать ошибку системы. По сути, это форма оптической иллюзии, разработанная для машин. Например, на одежде с состязательным дизайном узоры и надписи создают эффект иллюзии и сбивают с толку системы распознавания лиц.
Такая одежда может предотвратить автоматическое отслеживание по видеокамерам. Однако из-за того, что инструмент становится доступным для широкой общественности, это становится препятствием в работе специалистов по обработке данных. Им будет необходимо учить модели отличать такие хитрости от реальной информации.