• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Ученые представили новый метод для работы с несбалансированными данными

Ученые представили новый метод для работы с несбалансированными данными

© iStock

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.

Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.

Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях,  когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).

Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.

Андрей Савченко

«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.

Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.

Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.

Вам также может быть интересно:

В Вышке рассчитали экономический эффект от внедрения технологий ИИ в России

Институт статистических исследований и экономики знаний НИУ ВШЭ оценил потенциальный экономический эффект от внедрения и использования технологий искусственного интеллекта в отраслях российской экономики до 2035 года. Эксперты также предположили, каким должен быть объем ресурсов, которые потребуются организациям для освоения данного класса технологий.

Мегасайенс, ИИ и суперкомпьютеры: Вышка расширяет сотрудничество с ОИЯИ

Специалисты по компьютерным технологиям НИУ ВШЭ и Объединенного института ядерных исследований (ОИЯИ) обсудили сотрудничество и совместные проекты на встрече в Лаборатории информационных технологий им. М.Г. Мещерякова (ЛИТ). Со стороны ВШЭ в дискуссии участвовали заведующий Лабораторией вычислительной физики МИЭМ Лев Щур и сотрудники Научно-учебной лаборатории методов анализа больших данных факультета компьютерных наук Денис Деркач и Федор Ратников.

Искусственный интеллект предсказал поведение квантовых систем

Ученые ВШЭ совместно с коллегами из Университета Южной Калифорнии разработали алгоритм, который быстро и точно предсказывает поведение квантовых систем — от квантовых компьютеров до солнечных батарей. С его помощью удалось смоделировать процессы в полупроводнике MoS₂ и выяснить, что на движение заряженных частиц влияет не только количество дефектов, но и их расположение. Эти дефекты могут замедлять или ускорять перенос заряда, создавая эффекты, которые раньше было сложно учесть при применении стандартных методов. Исследование опубликовано в журнале The Proceedings of the National Academy of Sciences (PNAS).

Вышка запускает курс повышения квалификации по ИИ в образовании

Факультет компьютерных наук НИУ ВШЭ запускает курс повышения квалификации по искусственному интеллекту в образовании. Программа предназначена для педагогов, преподавателей, методистов, планирующих интегрировать технологии ИИ в учебный процесс, а также для управленческих команд образовательных учреждений, заинтересованных в улучшении образовательных процессов через внедрение ИИ.

«Многие хотят создавать продукты на базе ИИ и стать конкурентоспособнее»

В 2024 году на магистерскую онлайн-программу «Искусственный интеллект», реализуемую факультетом компьютерных наук ВШЭ, поступило рекордное количество первокурсников — более 300. Откуда такой высокий интерес к ИИ, как строится обучение и какими новыми компетенциями будут обладать выпускники программы, рассказала ее академический руководитель Елена Кантонистова.

ВШЭ и «Яндекс Образование» разработали бесплатный онлайн-учебник по математике для анализа данных

Эксперты из Центра непрерывного образования ФКН ВШЭ, магистратуры «Искусственный интеллект» и «Яндекс Образования» разработали и опубликовали бесплатный хендбук по математике для анализа данных. Это седьмое онлайн-издание из серии цифровых учебников, посвященных конкретным IT-направлениям для самостоятельного изучения.

Динамику ESG в мире обсудили на международной конференции по вопросам устойчивого развития в Вышке

Участники форума «ESG Corporate Dynamics: the Challenges for Emerging Capital Markets» обсудили использование ИИ в сфере устойчивого развития, влияние климатической уязвимости на привлечение институциональных инвесторов, тренды ESG-политики в Южной Корее и Китае, разработку интегральной ESG-модели для оценки вероятности дефолта компаний и многие другие вопросы. В работе конференции, организованной факультетом экономических наук ВШЭ, приняли участие более 20 ученых из ведущих университетов Китая, Египта, Малайзии и других стран.

Исследователи из ВШЭ разработали Python-библиотеку для анализа данных движений глаз

Исследовательская группа из Высшей школы экономики разработала Python-библиотеку EyeFeatures, предназначенную для анализа и моделирования данных движений глаз. Инструмент призван облегчить работу ученых и разработчиков, предоставляя им возможность эффективно обрабатывать сложные данные и строить предсказательные модели.

Достижения Вышки в сфере ИИ представили на AIJ

На площадке международной конференции AI Journey состоялась сессия под руководством вице-премьера Дмитрия Чернышенко, посвященная достижениям российских исследовательских центров в области искусственного интеллекта. Руководитель Центра ИИ ВШЭ Алексей Масютин представил ключевые разработки исследователей центра.

Фантастика vs реальность: ВШЭ и Евразийский НОЦ обучили преподавателей Башкортостана работе с ИИ

В начале ноября в Уфе состоялось обучение по программе повышения квалификации «Искусственный интеллект и его применение в научных исследованиях» для преподавателей и ученых Республики Башкортостан. Организаторами программы выступили Центр непрерывного образования ФКН НИУ ВШЭ и Евразийский научно-образовательный центр. Обучение было реализовано в сетевой форме по трем направлениям: гуманитарному, естественно-научному и техническому.