Skip to content

Latest commit

 

History

History
665 lines (605 loc) · 121 KB

problem_list.md

File metadata and controls

665 lines (605 loc) · 121 KB

Список задач по курсу Моя первая научная статья, весна 2024

Задача 125

  • Название: Изучение влияния гиперпараметров на точность алгоритма агрегирования экспертных прогнозов с переменным числом экспертов
  • Задача: Рассматривается прогнозирование локально стационарных временных рядов в режиме онлайн при помощи алгоритма на базе Fixed Share. Данный подход предполагает теоретико-игровую постановку. Задача заключается в изучении влияния гиперпараметров на качество работы алгоритма в зависимости от свойств временного ряда.
  • Данные: Модельные и синтетические временные ряды.
  • Литература:
    • В.В. Вьюгин. Математические основы машинного обучения и прогнозирования, 2022, Изд.3-е, МЦНМО, 400с. (глава 4, в частности разделы 4.7, 4.8)
    • M. Herbster, M. Warmuth. Tracking the best expert. Machine Learning, 32(2) 151--178, 1998.
    • O. Bousquet, M. Warmuth. Tracking a small set of experts by mixing past posteriors. Journal of Machine Learning Research. 3:363--396, 2002.
  • Базовый алгоритм: Метод агрегирования прогнозов Fixed Share, метод смешивания апостериорных распределений Mixing Past Posteriors
  • **Решение: ** Предлагается написать генератор моделирующий (или синтезирующий) временные ряды с заданными свойствами: количеством промежутков локальной стационарности, частотой переключения и т.д. На полученных данных поставить ряд экспериментов в с различными гиперпараметрами алгоритма. Сделать вывод об их влиянии.
  • Авторы: В.В. Вьюгин, Р. Д. Зухба
  • Консультант: А.В. Зухба

Задача 118 (renew for 2024)

  • Название Непрерывное время при построении нейроинтерфейса BCI
  • Задача: В задачах декодирования сигнала данные представляются как многомерные временные ряды. При решении задач используется дискретное представление времени. Однако недавние работы по нейронным обыкновенным дифференциальным уравнениям иллюстрируют возможность работать со скрытым состоянием рекуррентных нейронных сетей, как с решениями дифференциальных уравнений. Это позволяет рассматривать временные ряды как непрерывные по времени.
  • Данные: Для классификации:
    • датасет P300, по которому писали статью c Алиной
    • похожий на него по формату записей датасет DEAPdataset.
    • найти современный датасет, спросить в U.Grenoble-Alpes
  • Литература: Neural CDE
  • Базовой алгоритм: Алгоритм Алины Самохиной, S4, S5, D4 (порождающий)
  • Решение: Использование вариаций NeurODE для аппроксимации исходного сигнала. Сравнительный анализ существующих подходов к применению дифференциальных уравнений для классификации EEG. (Энкодер-тензорное разложение, декодер NeuroCDE)
  • Новизна: предлагается способ построения непрервыного представления сигнала. Работа с функциональным пространством сигнала, а не его дискретным представлением. Использование параметров полученной функции в качестве признакового пространства результирующей модели. Основная задача - построить обращаемый поток и указать оптимальные размерности на каждом слое нейросети.
  • Авторы: Алина Самохина,

Задача 159

  • Название: Восстановление функциональных групп головного мозга с помощью графовых диффузных моделей
  • Описание проблемы: Решается задача построения модели анализа активности головного мозга, учитывающей пространственную структуру сигнала. Данные об активности мозга представлены в виде многомерных временных рядов, считываемых электродами, расположенными на голове испытуемого одним из универсальных стандартов размещения. Из-за отсутствия регулярного определения окрестности на сферической поверхности мозга классические сверточные нейронные сети не могут быть эффективно применены для учета пространственной информации. Предлагается использовать графовое представление сигнала, что позволит выявить более сложные взаимосвязи различных областей активности в пространстве и провести нейробиологическую интерпретацию функциональных связей мозга.
  • Данные: Юлия Березуцкая, код загрузки у четвертого курса
    • Berezutskaya J., et al Open multimodal iEEG-fMRI dataset from naturalistic stimulation with a short audiovisual film // Sci Data 9, 91, 2022.
    • [Код предшественников](https://github.com/intsystems/
  • Литература Магистерская работа Наталии Вареник
  • Базовый алгоритм: Graph Neural Diffusion: https://github.com/twitter-research/graph-neural-pde
  • Новизна: Построить карту функциональных групп с изменением во времени в зависимости от внешнего воздействия (видео Пеппи)
  • Авторы: Святослав Панченко

Задача 159 (отложена на 2025-2026 в связи с тем, что нет разработанных методов решения этой задачи)

  • Название: Прогнозирование деформаций и напряжений в биологических тканях и органах
  • Описание проблемы: Требуется выбрать модель аппроксимации поля поле деформаций и напряжений в материале под разными условиями. Целью исследования является разработка модели и метода, которые по имеющимся ограниченным экспериментальным данным достоверно восстанавливает поля в материале.
  • Данные: Измерения деформаций и напряжений, полученные с помощью сенсоров. Данные будут представлены в виде тензора, где каждый элемент соответствует определенному измерению деформации или напряжения в конкретном месте и времени.
  • Литература
    • https://arxiv.org/abs/2302.06594
    • Что было опубликовано после этой работы вместе со словами Physics-informed learning + tensor analysis
  • Авторы:

Задача 157

  • Название: Приближение временных рядов стохастическими дифференциальными уравнениями (вставить мотивацию)
  • Описание проблемы: Требуется построить прогноз набора временных рядов (с высокой ковариацией), вплоть до редсказания аномалий (аномалия означает отказ от прогнозирования, она не относится ни к детерминированой, ни к стохастической составляющей). Требуется декомпозировать реализзцию случайного процесса (временного ряда) и восстановить модель случайного процесса (со сносом, скачками). Требуется выбать адекватную порождабщую нейросеть, указать способ прореживания числа слоёв и снижения их размерности.
  • Данные: Выборка: набор фазовых траекторий, реализаций с.п. (было: Т х Т - временной диапазон х З - значение, которое случ. величина принимала в это время). Требуется построить прогноз. Критерий – минимум свертки мсв с функцией ошибки, адекватной гипотезе порождения данных, или построенной под прикладную задачу.
  • Литература
  • Базовый алгоритм:
  • Новизна:
  • Авторы: Эдуард Владимиров, Иван Папай

Задача 158 (индустриальная)

  • Описание проблемы:
    • Ранжирование риск-сигналов о признаках развития неправомерной торговой стратегии на финансовом рынке. Задача выявления ранних признаков аномального поведения участника торгов [Данные: набор агрегатов, построенных на обезличенных данных торгов].
    • Классификация субъектов ПНИИИМР, ПОД/ФТ, … . Выявление аномального поведения субъектов, классификация, кластеризация стратегий или профилей финансового поведения [Данные: набор агрегатов, построенных на обезличенных данных торгов].
  • Данные: ВАЖНО! Требуется найти или синтезировать открытые данные
  • Авторы: Андрей Сергеевич Инякин

Задача 157 (индустриальная)

  • Описание проблемы:
    • Использование (дообучение, «компрессия» / дистиляция, прунинг, квантизация) SOTA LLM/GAN (генеративных моделей) для формирования последовательности тестовых сценариев (тест-кейсов) по заданному набору функциональных требований [Данные: реестр требований, тест-кейсы].
    • Использование (дообучение, «компрессия» / дистиляция, прунинг, квантизация) SOTA LLM/GAN для формирования и актуализации реестра «атомарных» и непротиворечивых функциональных / нефункциональных требований к программной Системе на основе набора функциональных, технических заданий и иных документов [Данные: реестр требований, реестр ФЗ, реестр ТЗ].
  • Данные: ВАЖНО! Требуется найти или синтезировать открытые данные
  • Авторы: Андрей Сергеевич Инякин

Задача 156

  • Название: Optimal Gradient Methods with Relative Inexactness
  • Описание проблемы: A description of your problem, its motivation and goals. An optimization-style problem statement is welcome Задача: построить оптимальный метод оптимизации первого порядка с помощью градиентов, зашумлённых относительным шумом. Для этого мы будем использовать технику Programming Performance Estimate, которая позволяет строить такого рода алгоритмы через анализ численного решения задачи Полуопределённого программирования. Необходимые знания: 1) Понимать, что такое выпуклые функции, и как работаю градиентные методы для поиска их минимумов 2) Опыт Python с numpy Ожидаемые результаты: Доказанные теоремы сходимости для предложенного методы и экспериментальное подтверждение результатов, публикация в журнал уровня Q1,Q2. Комментарий от автора: Конечно, тема не самая простая и результаты не факты, что будут, но я готов уверить, что будет релевантный опыт написание введения, анализа работ и теории для статьи, постановки и презентации экспериментов и представления научной ценности. Вся необходимая помощь по материалу будет предоставлена.
  • Данные: Synthetic data
  • Литература Рарерs with 1-2) Основная статья, продолжения первой части которой мы будем писать https://arxiv.org/abs/2310.00506 3) Введение в PEP https://francisbach.com/computer-aided-analyses/
  • Базовый алгоритм: https://github.com/Jhomanik/InterRel
  • Авторы: Корнилов Никита

Задача 154

  • Название: Декодирования сигналов головного мозга в аудиоданные
  • Описание проблемы: Декодирования сигналов головного мозга в аудиоданные (чтение мыслей) на выбор из двух математических постановок:
  1. Classification problem in a match-mismatch paradigm: the task of the model is to determine which of the input stimulus segments of audio corresponds to the EEG https://exporl.github.io/auditory-eeg-challenge-2024/task1/description/
  2. Regression problem: to reconstruct the mel spectrogram from the EEG https://exporl.github.io/auditory-eeg-challenge-2024/task2/description/
  • Данные: Датасет был собран на базе Лёвенского университета - https://rdr.kuleuven.be/dataset.xhtml?persistentId=doi:10.48804/K3VSND Для сбора датаесета были приглашены 85 человек без проблем со слухом и нервной системой, носители бельгийского голландского языка. Измерения производились в звуконепроницаемой лаборатории с помощью высокоточных приборов для снятия ЭЭГ с 64 электродами. Частота дискретезации даных 8192 Гц. Каждому учатнику предлагалось послушать отрывок подкаста или аудиокниги (случайно) длиной до 15 минут. Всего имеем 668 пар ЭЭГ-стимул (прослушанный отрывок) общей продолжительностью 9431 минута
  • Литература
    1. Pre-LN FFT: Baseline решение с использованием иной архитектуры обработки аудио https://arxiv.org/pdf/2305.06806.pdf (код https://github.com/jkyunnng/HappyQuokka_system_for_EEG_Challenge)
    2. Линейные модели, FCCN (2022) - https://www.researchgate.net/publication/361380348_Robust_decoding_of_the_speech_envelope_from_EEG_recordings_through_deep_neural_networks
    3. VLAAI (2023, Nature) https://www.nature.com/articles/s41598-022-27332-2
    4. Decoding speech perception from non-invasive brain recordings (2023) https://arxiv.org/pdf/2208.12266.pdf
  • Базовый алгоритм: Описание baseline решения предоставлено на сайте соревнования: https://exporl.github.io/auditory-eeg-challenge-2024/task2/description/
  • Новизна: Попробовать современные методы получения эмбеддингов аудиоданных для улучшения бейзлайн решения (например wav2vec, fastspeech2). Цель: показать, что модели, учитывающие законы физики/мира (как например fastspeech2) улучшают качество декодирования сигналов головного мозга в аудиоданные
  • Авторы: Павел Северилов [email protected]

Задача 117

  • Название: Поиск зависимостей биомеханических системах и (Метод Convergence Cross-Mpping, теорема Такенса)
  • Задача: При прогнозировании сложноорганизованных временных рядов, зависящих от экзогенных факторов и имеющих множественную периодичность, требуется решить задачу выявления связанных пар рядов. Предполагается, что добавление этих рядов в модель повышает качество прогноза. В данной работе для обнаружения связей между временными рядами предлагается использовать метод сходящегося перекрестного отображения. При таком подходе два временных ряда связаны, если существуют их траекторные подпространства, проекции на которые связаны. В свою очередь, проекции рядов на траекторные подпространства связаны, если окрестность фазовой траектории одного ряда отображается в окрестность фазовой траектории другого ряда. Ставится задача отыскания траекторных подпространств, обнаруживающих связь рядов. Анализ зависимости между показаниями датчиков и восприятиям внешнего мира человеком. Требуется проверить гипотезу зависимости между данными, а также предложить метод апроксимации показаний FMRI по прослушиваемому звуковому ряду.
  • Литература
    • Все, что написал Сугихара в Science и в Nature (спросить коллекцию)
    • Усманова К.Р., Стрижов В.В. Обнаружение зависимостей во временных рядах в задачах построения прогностических моделей // Системы и средства информатики, 2019, 29(2)
    • Neural CDE
  • Данные: Видео, его разметка и ECoG, EEG, движение, глаз из работы Nature, Березуцкая, люди смотрят фильм
    • Berezutskaya J., et al Open multimodal iEEG-fMRI dataset from naturalistic stimulation with a short audiovisual film // Sci Data 9, 91, 2022.
    • [Код предшественников](https://github.com/intsystems/
  • Решение
    • Базовое в работе Карины
    • Наше построить Neural ODE для обеих сигналов и решить, относятся ли обе модели к одной динамической системе. Требуется построить модель зависимости показания датчиков FMRI и звуковому сопровождению, который в этот момент прослушивает человек.
  • Авторы: Денис Тихонов, Даниил Дорин

Задача 153

  • Название: Погружение временных рядов с высокой волатильностью в метрическое пространство
  • Описание проблемы: Решается задача выбора оптимального порфеля финансовых инструментов по результатам прогноза наборов временных рядов. Проблема при постановке задачи выбора заключается в том, что оценка ковариационной матрицы пар временных рядов не имеет требуемых статистических свойств (устойчивость, состоятельность, несмещенность). Предлагается выполнить сравнительный анализ различных методов вычисления парных расстояний между временными рядами.
  • Данные:
  • Литература
    • Multi-Period Trading via Convex Optimization by Stephen Boyd Enzo Busseti
    • диссертация А.А. Адуенко
  • Базовый алгоритм: Задача квадратичного программирования с расстоянием между временными рядами в виде ковариационной матрицы из книги Бойда. Прогностическая модель произвольна, начиная с линейной регрессии.
  • Новизна: Задача выбора метрики между сильно зашумленными временными рядами является открытой. Функицю выбора предлагается строить исходя из Бойдовского критерия, против свертки прогноза с функцией доходности.
  • Авторы: Яковлев

Задача 152

  • Название: Метрическое прогнозирование временных рядов с высокой ковариацией
  • Описание проблемы: Решается задача прогнозирования наборов временных рядов. Каждый ряд имеет высокую дисперсию, ряды имеют высокую ковариацию. Такие свойства рядов наблюдаются в сигналах головного мозга и в ценах биржевых активов. Предлагается построить пространство парных растояний (метрическую конфигурацию временных рядов), выполнить прогноз в пространстве парных расстояний, и вернуть прогноз в исходное пространство, используя метод многомерного шкалирования.
  • Данные:
  • Литература
  • Базовый алгоритм: Базовый прогноз выполнятется методами Singular Spectrum Analysis, LSTM+attention, Transformer
  • Новизна: Предлагаемое решение использует 1) Римановы модели но не для классификации, а для арегрессии, 2) Римановы генеративные диффузные модели.
  • Авторы: Яковлев

Задача 150

Задача 149

Задача 148

  • Название: Средневзвешенная когерентность как мера интерпретируемости тематических моделей
  • Описание проблемы: Тематическое моделирование широко используется в социо-гуманитарных исследованиях для понимания тематической структуры больших текстовых коллекций. Типичный сценарий предполагает, что пользователь сам разделяет найденные моделью темы на "хорошие" (интерпретируемые) и "плохие". Для упрощения этой работы можно использовать ряд автоматически вычисляемых критериев качества, один из которых — когерентность (мера "согласованности" слов темы). Однако проблема когерентности в том, что при её вычислении игнорируется бòльшая часть текста, что делает оценку качества темы по когерентности ненадёжной. Задача в том, чтобы проверить новый способ вычисления когерентности, обобщающий классический подход, но при этом учитывающий распределение темы во всём тексте.
  • Данные: В качестве данных подойдёт любая коллекция текстов на естественном языке, про которую известна тематическая структура (сколько примерно тем, сколько документов по разным темам). Например, можно взять коллекцию статей с ПостНауки, новостей Lenta, дамп Википедии, посты с Хабрахабра, 20 Newsgroups, Reuters.
  • Литература
  • Базовый алгоритм: Когерентность Ньюмана по топ словам, внутритекстовая когерентность
  • Новизна: Использование библиотек тематического моделирование BigARTM и TopicNet. Разработка нового способа вычисления когерентности тем. Предложение и реализация методики измерения интерпретируемости тем (чтобы проверить "адекватность" новой когерентности: в самом ли деле для заведомо хороших тем она показывает качество выше, чем для плохих тем).
  • Авторы: Василий Алексеев, Константин Воронцов

Задача 147

  • Название: Нижние оценки для min max задач с разной размерностью блоков переменных (Проект 1.)
  • Описание проблемы: Для задач малоразмерной выпуклой оптимизации нижние оценки получаются с помощью сопротивляющегося оракула https://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf (3 Methods with linear convergence, II, но начать лучше прямо с самого первого раздела Lecture 1 - на одномерном случае все попонятнее). В то время как для задач большой размерности - c помощью “худшей в мире функции” - см., например, указания к упражнения 1.3 и 2.1 пособия МЦНМО https://opt.mipt.ru/posobie.pdf В работе https://arxiv.org/pdf/2010.02280.pdf, исследуются задачи min max, в которых одна из групп min переменных имеет небольшую размерность, а другая группа, напротив, большую. Получены верхние оценки. Интересно было бы попробовать получить нижние оценки, путем комбинации двух конструкций. Кажется, что в математическом плане пример построения нижней оценки будет содержать новые интересные идеи. В развитие этого проекта интересно было бы подумать и о нижних оценках для min min задач, в которых по одной из групп переменных (негладких) имеется малая размерность. Верхние оценки имеются в работах https://arxiv.org/pdf/2102.00584.pdf и https://arxiv.org/pdf/2103.00434.pdf
  • Авторы: Александр Владимирович Гасников

Задача 146

  • Название: Слайдинг с редукцией дисперсии (Проект 2.)
  • Описание проблемы: Направление градиентного слайдинга стало популярно в последнее время. Активно в этом направлении работает Джордж Лан https://arxiv.org/pdf/1406.0919.pdf https://arxiv.org/pdf/1609.04905.pdf https://arxiv.org/pdf/2111.00996.pdf Некоторые результаты по слайдингу есть и у нас https://arxiv.org/pdf/1906.03620.pdf https://arxiv.org/pdf/2002.02706.pdf https://arxiv.org/pdf/2103.09344.pdf https://arxiv.org/pdf/2205.15136.pdf https://arxiv.org/pdf/2307.12946.pdf стали появляться и статьи других коллективов https://arxiv.org/pdf/2201.01169.pdf. Однако, полноценного слайдинга для задач вида f(x) + g(x), где g(x) имеет структуру суммы и для g(x) используется инкрементальный оракул (рандомизация суммы m слагаемых) не известно. Все что известно, описано тут https://arxiv.org/pdf/1912.11632.pdf Задача заключается в обосновании оценки числа вызовов градиента f \tilde{O}(\sqrt{L_f/\mu}), и инкрементального оракула (градиентов слагаемых) g \tilde{O}(m+\sqrt{mL_{g}/\mu}). В общем случае такая оценка не получена до сих пор. P.S. Были надежды на редукцию дисперсии с importance sampling с правильным выбором вероятностей, но пока они не оправдались…
  • Авторы: Александр Владимирович Гасников

Задача 145 (индустриальная)

  • Название: Создание персонализированных генераций изображений
  • Описание проблемы: Генеративные модели добились высокого качества генераций в общем домене. Однако, когда возникает запрос на генерацию специфичного объекта, в нашем случае человека, то модель не может сгенерировать человека с необходимой точностью и передать его идентичность. В этой задаче вам предлагается предложить решение, которое будет способно генерировать изображения заданного человека в различных варияциях в высоком разрешении.
  • Данные: CelebA (датасет изображений знаменитостей в высоком разрешении)
  • Литература:
  • Базовой алгоритм: Базовый алгоритм состоит в обучении метода IP-Adapter[1] на модели Stable Diffusion [3].
  • Новизна: Индустриальная
  • Авторы: Андрей Филатов
  • Контакт: TG: @anvilarth

Задача 144

  • Название: Многократное обучение в рекомендательных системах
  • Описание проблемы: Метрики качества рекомендательных систем P@k, NDCG, MRR и пр. обычно учитывают, насколько хорошие рекомендации были даны для рассматриваемого пользователя, при этом текущее и долгосрочное влияние применяемых алгоритмов на окружающую аудиторию потребителей и ассортимент товаров не учитывается. Предлагается рассмотреть рекомендательную систему, в которой товары W и потребители C меняются со временем, как процесс многократного машинного обучения. Пусть заданы начальные плотности распределений признаков f_0(с) и f_0(w) на X = C U W. Рассмотрим динамическую систему вида f_{t+1}(x) = D_t(f_t)(x) с оператором эволюции D_t [4], где переход к шагу t+1 состоит в формировании рекомендации потребителю (c, z) ~ f(c) алгоритмом товара w = h(c, f(c), f(w)), заключением сделки потребителем с вероятностью ~ u(c,w,z), обновлении f(c), f(w) и h(…) по истории предложений и сделок. В частности выяснить 1) При каких условиях в такой системе при t к бесконечности возникает вырождение аудитории, ассортимента или распределения сделок, и как зависит такое вырождение от алгоритма обучения и вида рекомендательной модели? 2) Предложить такой обучаемый рекомендательный алгоритм, который улучшает любую из стандартных метрик без вырождения C и G при t к бесконечности, или доказать, что это невозможно.
  • Данные: Для инициализации используем синтетические данные, созданные по аналогии со статьей [1] или MovieLens 100K Dataset по аналогии со статьей [2]
  • Литература
    • [1] Debiasing the Human-Recommender System Feedback Loop in Collaborative Filtering
    • [2] Breaking Feedback Loops in Recommender Systems with Causal Inference
    • [3] Positive feedback loops lead to concept drift in machine learning systems
    • [4] Задача 119, Моя первая научная статья 2023
    • [5] Python LibMF
  • Базовый алгоритм: Исходный код - доработанная версия кода из [3] при решении [4], базовые алгоритмы рекомендаций - TopPop, Random, Oracle, SGD MF [5]
  • Новизна: Предлагается исследовать свойства оператора D в зависимости от возможных предположений и ограничений, и применить ранее полученные в [4] результаты в предлагаемой постановке. Затем для простых моделей рекомендаций провести вычислительный эксперимент с симуляцией работы системы во времени с использованием базового кода для сравнения теоретических результатов по вопросам 1)-2) с фактическими наблюдениями.
  • Авторы: консультант - Веприков А.С., эксперт - Хританков А.С.

Задача 143 (индустриальная)

  • Название: Интерпретируемая иерархическая кластеризация объектов
  • Описание проблемы: Требуется на обучающей выборке физических лиц (ФЛ) с меткой принадлежности классу построить такую иерархическую кластеризацию данных, что для каждого кластера можно наиболее полно интерпретировать причину его попадания в конкретный кластер.
  • Данные: Для исследования предлагается использовать данные из соревнования Kaggle по классификации мошенников в автостраховании на основе их признакового описания. https://www.kaggle.com/datasets/khusheekapoor/vehicle-insurance-fraud-detection?resource=download
  • Литература
  • Базовый алгоритм: Базовый алгоритм решения задачи состоит в применении методов из пакетов sklearn, umap языка Python. Интерпретируемым алгоритмом классификации является дерево решений (sklearn.tree.DecisionTree).
  • Новизна: Индустриальная задача
  • Авторы: Старожилец Всеволод Михайлович

Задача 142 (индустриальная)

  • ** Название: Классификация товаров по ОКПД2 кодам.
  • Описание проблемы: Требуется по краткому текстовому описанию товара классифицировать товар по кодам ОКПД2 классификатора. Предполагается исследование зависимости точности и полноты классификации от рассматриваемой глубины ОКПД2 классификатора (например, для двух первых чисел классификатора задача практически тривиальна).
  • Данные: Около 40% данных госзакупок из открытых источников за 2022 год. https://drive.google.com/file/d/1bg1wdpsxv797dB8RBWaq8JLp_qQp_uc0/view?usp=drive_link
  • Литература Рарерs with 1) the formulation of the problem, 2) baseline and new results, 3) fast introduction https://www.kaggle.com/competitions/ndsc-beginner/overview
  • Базовый алгоритм: Построение текстовых эмбеддингов каким-либо открытым переобученным пакетом. Например, spaCy (у него есть русский язык). Далее решается задача классификации.
  • Новизна: Индустриальная задача
  • Авторы: Старожилец Всеволод Михайлович

Задача 140

  • Название: Адаптация архитектуры модели глубокого обучения с контролем эксплуатационных характеристик
  • Задача: рассматривается задача адаптация структуры обученной модели глубокого обучения для ограниченных вычислителньых ресурсов. Предполагается, что полученная архитектура (или несколько архитектур) должны работать эффективно на нескольких типах вычислительных серверов (например, на разных моделях GPU или различных мобильных устройствах). Требуется предложить метод поиска модели, позволяющий контролировать её сложность учетом целевых эксплуатационных характеристик.
  • Данные: MNIST, CIFAR
  • Литература:
  • Базовый алгоритм: FBNet и случайный поиск подструктуры модели
  • Решение: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(FBNet) с контролем сложности параметров при помощи гиперсети. Гиперсеть - это модель, порождающая структуру модели в зависимости от входных параметров. В качестве параметров гиперсети предлагается использовать нормированное время работы базовых операций на целевых вычислительных ресурсах. Таким образом, полученная модель позволит адаптировать архитектуру модели для произвольного устройства. Новизна: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
  • Авторы: Константин Яковлев, Олег Бахтеев

=Проекты пятикурсников и назначенные проекты=

Задача 160 (Алексей Ребриков)

  • Название: Ускоренные методы нулевого порядка с одноточечным фидбэком
  • Задача: Обычно для целевых функций в задачах оптимизации мы можем считать градиенты и даже информацию более высоких порядков. Но также существуют приложения, в которых подсчет градиента или затруднен или вообще невозможен. В таких приложениях на помощь приходят безградиентные методы. Довольно натуральной идеей в данном случае является аппроксимация градиента через конечные разности (https://arxiv.org/pdf/2211.13566.pdf): $\nabla f_\gamma(x, e) = \frac{f(x + \gamma e) - f(x - \gamma e)}{2 \gamma} e.$ Более того, в более близких для практики приложениях мы имеем доступ к зашумленной версии функции. Это порождает дополнительные проблемы. В более простом с точки зрения теоретического анализа, но менее приближенным к реальности случае можно рассматривать так называемый two-point feedback: $\nabla f_\gamma(x, \xi, e) = \frac{f(x + \gamma e, \xi) - f(x - \gamma e, \xi)}{2 \gamma} e.$ Ключевая особенность – одна и та же случайность в обеих точках. Более сложный и неприятный случай – one-point feedback: $\nabla f_\gamma(x, \xi^+, \xi^-, e) = \frac{f(x + \gamma e, \xi^+) - f(x - \gamma e, \xi^-)}{2 \gamma} e,$ который и будет рассматриваться в работе.
  • Данные: 1) Датасет mushroom 2) Квадратичная задача
  • Литература: Randomized gradient-free methods in convex optimization (https://arxiv.org/pdf/2211.13566.pdf) AN ACCELERATED METHOD FOR DERIVATIVE-FREE SMOOTH STOCHASTIC CONVEX OPTIMIZATION (https://arxiv.org/pdf/1802.09022.pdf)
  • Базовой алгоритм: Результаты для two-point feedback (https://arxiv.org/pdf/1802.09022.pdf)
  • Решение: В данной работе предлагается разработать и проанализировать сходимость ускоренный безградиентные методы для выпуклой гладкой стохастической задачи минимизации. В частности предлагается адаптировать (или оттолкнуться в качестве стартовой точки) для этого уже существующие результаты в случае two-point feedback (https://arxiv.org/pdf/1802.09022.pdf).
  • Авторы: Консультант - Александр Богданов, эксперт - Александр Безносиков

Задача 161 (Фанис)

Задача 162 (Проект 5-ого курса, Марат Хусаинов)

  • Название: Адаптивные методы генерации с использованием диффузионных моделей
  • Задача: Дана многомерная функция распределения p(x) = f(x) / Z. Задача состоит как в вычислении нормализационной константы — Z, так и в получении объектов из распределения p(x).
  • Данные: В качестве целевого распределения могут быть взяты многомерная гауссова смесь, Funnel, Manywell и др.
  • Литература: https://arxiv.org/pdf/2302.13834.pdf https://arxiv.org/pdf/2310.02679.pdf https://arxiv.org/pdf/2208.01893.pdf
  • Базовой алгоритм: https://github.com/lollcat/fab-torch
  • Решение: The idea of the proposed solution and methods for conducting the research. Ways of visualizing data and error analysis
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
  • Авторы: Сергей Самсонов

Задача 163 (Проект пятого курса, Баир Михайлов)

  • Название: Undersampled MRI reconstruction
  • Задача: Magnetic Resonance Imaging (MRI) examination times can vary from fifteen minutes to one hour, which is inconvenient for both the doctor and the patient. Additionally, human motion during the scan can significantly decrease the quality of the images. Undersampled MRI allows for fewer measurements in Fourier-space, thereby reducing the scan time by 4-8 times. However, in this approach, some information is lost according to the Nyquist-Shannon sampling theorem. The main hypothesis of this study is the possibility of using general information from the scan space through machine learning to mitigate this problem. An optimization-style problem statement can be seen in Supplementary.
  • Данные: fastMRI, a large-scale dataset of both raw MRI measurements and clinical MRI images. https://fastmri.med.nyu.edu/
  • Литература:
    1. fastMRI: An Open Dataset and Benchmarks for Accelerated MRI - formulation of the problem, dataset (https://arxiv.org/abs/1811.08839)
    2. Fill the K-Space and Refine the Image: Prompting for Dynamic and Multi-Contrast MRI Reconstruction - SOTA (https://arxiv.org/abs/2309.13839)
    3. An Adaptive Intelligence Algorithm for Undersampled Knee MRI Reconstruction - top submission of the original competition (https://arxiv.org/abs/2004.07339)
    4. Deep Cardiac MRI Reconstruction with ADMM - top submission from other competition (https://arxiv.org/abs/2310.06628)
    5. A review and experimental evaluation of deep learning methods for MRI reconstruction - introduction to the problem (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9202830/)
  • Базовой алгоритм: A link to the code of the baseline algorithm. It shows the state of the art and will be compared with the proposed solution https://github.com/hellopipu/PromptMR
  • Решение: My idea is to potentially develop a solution without several cascade steps like PromptMR to spend less time on each prediction, also it is possible to experiment with filter patterns. Additionally in the original SOTA paper there is no experiments with real radiologists, authors only measure PSNR, SSIM and NMSE and don't consider the opinion of the specialists and it is entirely possible to make a direct comparison between visualizations with and without undersampling to measure the drop in quality if any.
  • Авторы: Expert: Dmitry Dylov Consultant: Artem Razumov Me: Bair Mikhailov

Задача 155

  • Название: Identification of the relationship between labels using an algorithm based on one's own attention for the classification problem with multiple labels, justifying the connection with Hawkes processes.
  • Задача: A description of your problem, its motivation and goals. An optimization-style problem statement is welcome Most of the available user information can be represented as a sequence of events with timestamps. Each event is assigned a set of categorical labels, the future structure of which is of great interest. This is a temporal sets prediction problem for sequential data. Modern approaches focus on the transformation architecture for sequential data, introducing independent attention to the elements in the sequence. In this case, we take into account the temporal interactions of events, but lose information about the interdependencies of labels. Motivated by this disadvantage, we propose to use the mechanism of independent attention to the marks preceding the predicted step. Since our approach is a network of attention to labels, we call it a LANET. We also justify this aggregation method, it affects the intensity of the event positively, assuming that the intensity is represented by the basic Hawkes process.
  • Данные: Based on the dataset data, we will compare the state of the art solutions in this area with our solution in this problem statement. https://www.kaggle.com/c/competitive-data-science-predict-future-sales/data https://www.kaggle.com/c/python-and-analyze-data-final-project/data
  • Литература:
    • 1-2 Predicting Temporal Sets with Deep Neural Networks, Predicting Temporal Sets with Simplified Fully Connected Networks
    • 3 Transformer Hawkes Process, The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process - introduction to idea with process Hawkes
  • Базовой алгоритм: https://github.com/yule-BUAA/SFCNTSP https://github.com/yule-BUAA/DNNTSP The state of the art methods for temporal sets prediction
  • Решение: Most of the transformer-related models used for temporal sets prediction use self-attention computation between consecutive input timestamps representations. The LANET instead uses the self-attention between label representations. So, it has the input that consists of K vectors. Below, we describe how to aggregate a sequence of size τ to K vectors via an Embedding layer. Then we define the Self-attention layer. To get the predictions, we apply a Prediction layer. Also, to justify such aggregation by labels, instead of time dependence, we introduce the concept of Cox processes, which describe the probability of an event at a given time through the integral of the intensity function. And we can show that such aggregation can either not worsen it, or make a positive contribution to probability. LANET will train with the cross-entropy loss adapted for the multi-label task through independent consideration of each label score. Comparison tables with basic approaches will be carried out, as well as visualization of quality changes from selected parameters, visualization of attention for analyzing the relationship of label representations, as well as tables comparing the effect of vector representations on the result of the model.
  • Авторы: Consultant - Andrey Grabovoy Expert - Alexey Zaytsev Author of research - Galina Boeva

Задача 1XX (Who are the problem owners?)

  • Название: Support strategies for advanced Post-Training Quantization
  • Задача: Advanced PTQ methods do not require a lot of computing resources, demonstrate high quality and work quickly. Modern approaches tend to be consistent and optimize the model block-by-block or layer-by-layer. However, these approaches have several fundamental problems. The first of these is the poor correlation of reconstruction losses, which are used for optimization, with target losses. This leads to a decrease in quality, especially for models with a sharp loss landscape. In sequential approaches, the optimization of the following blocks or layers is based on the optimization of all previous blocks or layers. Because of this design, the second problem is an incorrectly set optimization task for the last blocks or layers in the network.
  • Данные: Cifar-10, ImageNet
  • Литература: https://arxiv.org/abs/2203.05740, https://arxiv.org/abs/2312.07950
  • Базовой алгоритм: https://github.com/wimh966/QDrop
  • Решение: Theoretical justification of mentioned problems, generalization and ablation study of basic solutions and their modification.
  • Авторы:

Задача 164 (проект пятого курса, Парвиз Каримов)

Задача 165 (проект пятого курса, Дмитрий Протасов)

Задача 166

Задача 167

  • Название: Прогнозирования временных рядов социальных трендов и общественных интересов с высокой волатильностью
  • Описание проблемы: Анализ и прогноз трендов в медиапространстве является важной задачей для различных сфер, таких как маркетинг, медиапроизводство, связи с общественностью, инновационные исследования и разработки. Эта задача является сложной из-за волатильности и неустойчивости социальных тенденций и общественных интересов. Цель предлагаемого исследования - изучить подходы к решению задачи и разработать базовый алгоритм, способный предсказать, о чем будут говорить люди, в конкретный исторический период в будущем на горизонте нескольких месяцев. Проблема заключается не только в высокой размерности и неустойчивости тематического пространства, но и в необходимости выделения тематик релевантных для конкретных сообществ на высоком уровне обобщения: спорт, политика, бизнес, технологии и др. так и на низком уровне: профессиональные сообщества вокруг конкретной технологии или целевая аудитория определенного сегмента рынка.
  • Данные: Будут изучены общедоступные сообщения на платформах социальных сетей, таких как Twitter, за несколько лет. Затем набор данных преобразуется во временные ряды тематических кластеров с помощью тематического моделирования. Кластеры формируются с учетом значимости событий, рассчитанной по позиции новостной темы в топе. Наборы данных для справки: Twitter trending tweets, Youtube trending video dataset.
  • Литература:
    1. Taylor, S. J., & Letham, B. (2018). Forecasting at scale. The American Statistician, 72(1), 37–45. 2. Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint arXiv:1908.10084. 3. Motrenko, A., & Strijov, V. (2014). Extracting fundamental periods to segment biomedical signals.
  • Базовой алгоритм: ARIMA и Exponential Smoothing
  • Решение: Для решения данной задачи предлагается снизить волатильность домена путем построения пространства кластеров интересов. Прогноз осуществляется в этом пространстве, чтобы определить сезонность и жизненные циклы тем и предсказать их динамику в будущих периодах. В данной статье сравниваются методы кластеризации социальных трендов, а также алгоритмы их предсказания. Помимо этого, приводится оценка качества прогноза.
  • Новизна: Новизна работы заключается в уникальном сочетании методов прогнозирования временных рядов и кластеризации трендов. Это позволяет применить научный подход к задаче, которая в силу высокой размерности ранее в зависела от человеческой интуиции и традиционного выявления тенденций. Этот подход может дать как прикладное ( внести вклад в область прогнозирования интересов аудитории ), так и научное значение ( перенеся алгоритм на домен трендов научных статей )
  • Авторы: Задворнов Егор

Problem template (EN)

Problem 101

  • Title: Title
  • Problem: Problem description
  • Data: Data description
  • Reference: Links to the literature
  • Baseline: baseline description
  • Proposed solution: description of the idea to implement in the project
  • Novelty: why the task is good and what does it bring to science? (for editorial board and reviewers)
  • Authors: supervisors, consultants, experts

Шаблон задачи (RU)

Задача 101

  • Название: Название, под которым статья подается в журнал.
  • Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
  • Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
  • Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
  • Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
  • Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
  • Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).