- Название: Изучение влияния гиперпараметров на точность алгоритма агрегирования экспертных прогнозов с переменным числом экспертов
- Задача: Рассматривается прогнозирование локально стационарных временных рядов в режиме онлайн при помощи алгоритма на базе Fixed Share. Данный подход предполагает теоретико-игровую постановку. Задача заключается в изучении влияния гиперпараметров на качество работы алгоритма в зависимости от свойств временного ряда.
- Данные: Модельные и синтетические временные ряды.
- Литература:
- В.В. Вьюгин. Математические основы машинного обучения и прогнозирования, 2022, Изд.3-е, МЦНМО, 400с. (глава 4, в частности разделы 4.7, 4.8)
- M. Herbster, M. Warmuth. Tracking the best expert. Machine Learning, 32(2) 151--178, 1998.
- O. Bousquet, M. Warmuth. Tracking a small set of experts by mixing past posteriors. Journal of Machine Learning Research. 3:363--396, 2002.
- Базовый алгоритм: Метод агрегирования прогнозов Fixed Share, метод смешивания апостериорных распределений Mixing Past Posteriors
- **Решение: ** Предлагается написать генератор моделирующий (или синтезирующий) временные ряды с заданными свойствами: количеством промежутков локальной стационарности, частотой переключения и т.д. На полученных данных поставить ряд экспериментов в с различными гиперпараметрами алгоритма. Сделать вывод об их влиянии.
- Авторы: В.В. Вьюгин, Р. Д. Зухба
- Консультант: А.В. Зухба
- Название Непрерывное время при построении нейроинтерфейса BCI
- Задача: В задачах декодирования сигнала данные представляются как многомерные временные ряды. При решении задач используется дискретное представление времени. Однако недавние работы по нейронным обыкновенным дифференциальным уравнениям иллюстрируют возможность работать со скрытым состоянием рекуррентных нейронных сетей, как с решениями дифференциальных уравнений. Это позволяет рассматривать временные ряды как непрерывные по времени.
- Данные: Для классификации:
- датасет P300, по которому писали статью c Алиной
- похожий на него по формату записей датасет DEAPdataset.
- найти современный датасет, спросить в U.Grenoble-Alpes
- Литература: Neural CDE
- Базовой алгоритм: Алгоритм Алины Самохиной, S4, S5, D4 (порождающий)
- Решение: Использование вариаций NeurODE для аппроксимации исходного сигнала. Сравнительный анализ существующих подходов к применению дифференциальных уравнений для классификации EEG. (Энкодер-тензорное разложение, декодер NeuroCDE)
- Новизна: предлагается способ построения непрервыного представления сигнала. Работа с функциональным пространством сигнала, а не его дискретным представлением. Использование параметров полученной функции в качестве признакового пространства результирующей модели. Основная задача - построить обращаемый поток и указать оптимальные размерности на каждом слое нейросети.
- Авторы: Алина Самохина,
- Название: Восстановление функциональных групп головного мозга с помощью графовых диффузных моделей
- Описание проблемы: Решается задача построения модели анализа активности головного мозга, учитывающей пространственную структуру сигнала. Данные об активности мозга представлены в виде многомерных временных рядов, считываемых электродами, расположенными на голове испытуемого одним из универсальных стандартов размещения. Из-за отсутствия регулярного определения окрестности на сферической поверхности мозга классические сверточные нейронные сети не могут быть эффективно применены для учета пространственной информации. Предлагается использовать графовое представление сигнала, что позволит выявить более сложные взаимосвязи различных областей активности в пространстве и провести нейробиологическую интерпретацию функциональных связей мозга.
- Данные: Юлия Березуцкая, код загрузки у четвертого курса
- Berezutskaya J., et al Open multimodal iEEG-fMRI dataset from naturalistic stimulation with a short audiovisual film // Sci Data 9, 91, 2022.
- [Код предшественников](https://github.com/intsystems/
- Литература Магистерская работа Наталии Вареник
- Базовый алгоритм: Graph Neural Diffusion: https://github.com/twitter-research/graph-neural-pde
- Новизна: Построить карту функциональных групп с изменением во времени в зависимости от внешнего воздействия (видео Пеппи)
- Авторы: Святослав Панченко
- Название: Прогнозирование деформаций и напряжений в биологических тканях и органах
- Описание проблемы: Требуется выбрать модель аппроксимации поля поле деформаций и напряжений в материале под разными условиями. Целью исследования является разработка модели и метода, которые по имеющимся ограниченным экспериментальным данным достоверно восстанавливает поля в материале.
- Данные: Измерения деформаций и напряжений, полученные с помощью сенсоров. Данные будут представлены в виде тензора, где каждый элемент соответствует определенному измерению деформации или напряжения в конкретном месте и времени.
- Литература
- https://arxiv.org/abs/2302.06594
- Что было опубликовано после этой работы вместе со словами Physics-informed learning + tensor analysis
- Авторы:
- Название: Приближение временных рядов стохастическими дифференциальными уравнениями (вставить мотивацию)
- Описание проблемы: Требуется построить прогноз набора временных рядов (с высокой ковариацией), вплоть до редсказания аномалий (аномалия означает отказ от прогнозирования, она не относится ни к детерминированой, ни к стохастической составляющей). Требуется декомпозировать реализзцию случайного процесса (временного ряда) и восстановить модель случайного процесса (со сносом, скачками). Требуется выбать адекватную порождабщую нейросеть, указать способ прореживания числа слоёв и снижения их размерности.
- Данные: Выборка: набор фазовых траекторий, реализаций с.п. (было: Т х Т - временной диапазон х З - значение, которое случ. величина принимала в это время). Требуется построить прогноз. Критерий – минимум свертки мсв с функцией ошибки, адекватной гипотезе порождения данных, или построенной под прикладную задачу.
- EEG PyRiemann https://pyriemann.readthedocs.io
- LOBSTER Trades Quotes and Prices https://lobsterdata.com/tradesquotesandprices
- Литература
- про Neural SDE: SDE as a GAN, signature kernel scores, gradients
- обсудить da Prato–Debussche trick (возмущения решений посредством порождающих моделей)
- Базовый алгоритм:
- Новизна:
- Авторы: Эдуард Владимиров, Иван Папай
- Описание проблемы:
- Ранжирование риск-сигналов о признаках развития неправомерной торговой стратегии на финансовом рынке. Задача выявления ранних признаков аномального поведения участника торгов [Данные: набор агрегатов, построенных на обезличенных данных торгов].
- Классификация субъектов ПНИИИМР, ПОД/ФТ, … . Выявление аномального поведения субъектов, классификация, кластеризация стратегий или профилей финансового поведения [Данные: набор агрегатов, построенных на обезличенных данных торгов].
- Данные: ВАЖНО! Требуется найти или синтезировать открытые данные
- Авторы: Андрей Сергеевич Инякин
- Описание проблемы:
- Использование (дообучение, «компрессия» / дистиляция, прунинг, квантизация) SOTA LLM/GAN (генеративных моделей) для формирования последовательности тестовых сценариев (тест-кейсов) по заданному набору функциональных требований [Данные: реестр требований, тест-кейсы].
- Использование (дообучение, «компрессия» / дистиляция, прунинг, квантизация) SOTA LLM/GAN для формирования и актуализации реестра «атомарных» и непротиворечивых функциональных / нефункциональных требований к программной Системе на основе набора функциональных, технических заданий и иных документов [Данные: реестр требований, реестр ФЗ, реестр ТЗ].
- Данные: ВАЖНО! Требуется найти или синтезировать открытые данные
- Авторы: Андрей Сергеевич Инякин
- Название: Optimal Gradient Methods with Relative Inexactness
- Описание проблемы: A description of your problem, its motivation and goals. An optimization-style problem statement is welcome Задача: построить оптимальный метод оптимизации первого порядка с помощью градиентов, зашумлённых относительным шумом. Для этого мы будем использовать технику Programming Performance Estimate, которая позволяет строить такого рода алгоритмы через анализ численного решения задачи Полуопределённого программирования. Необходимые знания: 1) Понимать, что такое выпуклые функции, и как работаю градиентные методы для поиска их минимумов 2) Опыт Python с numpy Ожидаемые результаты: Доказанные теоремы сходимости для предложенного методы и экспериментальное подтверждение результатов, публикация в журнал уровня Q1,Q2. Комментарий от автора: Конечно, тема не самая простая и результаты не факты, что будут, но я готов уверить, что будет релевантный опыт написание введения, анализа работ и теории для статьи, постановки и презентации экспериментов и представления научной ценности. Вся необходимая помощь по материалу будет предоставлена.
- Данные: Synthetic data
- Литература Рарерs with 1-2) Основная статья, продолжения первой части которой мы будем писать https://arxiv.org/abs/2310.00506 3) Введение в PEP https://francisbach.com/computer-aided-analyses/
- Базовый алгоритм: https://github.com/Jhomanik/InterRel
- Авторы: Корнилов Никита
- Название: Декодирования сигналов головного мозга в аудиоданные
- Описание проблемы: Декодирования сигналов головного мозга в аудиоданные (чтение мыслей) на выбор из двух математических постановок:
- Classification problem in a match-mismatch paradigm: the task of the model is to determine which of the input stimulus segments of audio corresponds to the EEG https://exporl.github.io/auditory-eeg-challenge-2024/task1/description/
- Regression problem: to reconstruct the mel spectrogram from the EEG https://exporl.github.io/auditory-eeg-challenge-2024/task2/description/
- Данные: Датасет был собран на базе Лёвенского университета - https://rdr.kuleuven.be/dataset.xhtml?persistentId=doi:10.48804/K3VSND Для сбора датаесета были приглашены 85 человек без проблем со слухом и нервной системой, носители бельгийского голландского языка. Измерения производились в звуконепроницаемой лаборатории с помощью высокоточных приборов для снятия ЭЭГ с 64 электродами. Частота дискретезации даных 8192 Гц. Каждому учатнику предлагалось послушать отрывок подкаста или аудиокниги (случайно) длиной до 15 минут. Всего имеем 668 пар ЭЭГ-стимул (прослушанный отрывок) общей продолжительностью 9431 минута
- Литература
- Pre-LN FFT: Baseline решение с использованием иной архитектуры обработки аудио https://arxiv.org/pdf/2305.06806.pdf (код https://github.com/jkyunnng/HappyQuokka_system_for_EEG_Challenge)
- Линейные модели, FCCN (2022) - https://www.researchgate.net/publication/361380348_Robust_decoding_of_the_speech_envelope_from_EEG_recordings_through_deep_neural_networks
- VLAAI (2023, Nature) https://www.nature.com/articles/s41598-022-27332-2
- Decoding speech perception from non-invasive brain recordings (2023) https://arxiv.org/pdf/2208.12266.pdf
- Базовый алгоритм: Описание baseline решения предоставлено на сайте соревнования: https://exporl.github.io/auditory-eeg-challenge-2024/task2/description/
- Новизна: Попробовать современные методы получения эмбеддингов аудиоданных для улучшения бейзлайн решения (например wav2vec, fastspeech2). Цель: показать, что модели, учитывающие законы физики/мира (как например fastspeech2) улучшают качество декодирования сигналов головного мозга в аудиоданные
- Авторы: Павел Северилов [email protected]
- Название: Поиск зависимостей биомеханических системах и (Метод Convergence Cross-Mpping, теорема Такенса)
- Задача: При прогнозировании сложноорганизованных временных рядов, зависящих от экзогенных факторов и имеющих множественную периодичность, требуется решить задачу выявления связанных пар рядов. Предполагается, что добавление этих рядов в модель повышает качество прогноза. В данной работе для обнаружения связей между временными рядами предлагается использовать метод сходящегося перекрестного отображения. При таком подходе два временных ряда связаны, если существуют их траекторные подпространства, проекции на которые связаны. В свою очередь, проекции рядов на траекторные подпространства связаны, если окрестность фазовой траектории одного ряда отображается в окрестность фазовой траектории другого ряда. Ставится задача отыскания траекторных подпространств, обнаруживающих связь рядов. Анализ зависимости между показаниями датчиков и восприятиям внешнего мира человеком. Требуется проверить гипотезу зависимости между данными, а также предложить метод апроксимации показаний FMRI по прослушиваемому звуковому ряду.
- Литература
- Все, что написал Сугихара в Science и в Nature (спросить коллекцию)
- Усманова К.Р., Стрижов В.В. Обнаружение зависимостей во временных рядах в задачах построения прогностических моделей // Системы и средства информатики, 2019, 29(2)
- Neural CDE
- Данные: Видео, его разметка и ECoG, EEG, движение, глаз из работы Nature, Березуцкая, люди смотрят фильм
- Berezutskaya J., et al Open multimodal iEEG-fMRI dataset from naturalistic stimulation with a short audiovisual film // Sci Data 9, 91, 2022.
- [Код предшественников](https://github.com/intsystems/
- Решение
- Базовое в работе Карины
- Наше построить Neural ODE для обеих сигналов и решить, относятся ли обе модели к одной динамической системе. Требуется построить модель зависимости показания датчиков FMRI и звуковому сопровождению, который в этот момент прослушивает человек.
- Авторы: Денис Тихонов, Даниил Дорин
- Название: Погружение временных рядов с высокой волатильностью в метрическое пространство
- Описание проблемы: Решается задача выбора оптимального порфеля финансовых инструментов по результатам прогноза наборов временных рядов. Проблема при постановке задачи выбора заключается в том, что оценка ковариационной матрицы пар временных рядов не имеет требуемых статистических свойств (устойчивость, состоятельность, несмещенность). Предлагается выполнить сравнительный анализ различных методов вычисления парных расстояний между временными рядами.
- Данные:
- Финансовые ряды https://www.cambridge.org/core/books/trades-quotes-and-prices/029A71078EE4C41C0D5D4574211AB1B5
- Trades Quotes and Prices https://lobsterdata.com/tradesquotesandprices
- Литература
- Multi-Period Trading via Convex Optimization by Stephen Boyd Enzo Busseti
- диссертация А.А. Адуенко
- Базовый алгоритм: Задача квадратичного программирования с расстоянием между временными рядами в виде ковариационной матрицы из книги Бойда. Прогностическая модель произвольна, начиная с линейной регрессии.
- Новизна: Задача выбора метрики между сильно зашумленными временными рядами является открытой. Функицю выбора предлагается строить исходя из Бойдовского критерия, против свертки прогноза с функцией доходности.
- Авторы: Яковлев
- Название: Метрическое прогнозирование временных рядов с высокой ковариацией
- Описание проблемы: Решается задача прогнозирования наборов временных рядов. Каждый ряд имеет высокую дисперсию, ряды имеют высокую ковариацию. Такие свойства рядов наблюдаются в сигналах головного мозга и в ценах биржевых активов. Предлагается построить пространство парных растояний (метрическую конфигурацию временных рядов), выполнить прогноз в пространстве парных расстояний, и вернуть прогноз в исходное пространство, используя метод многомерного шкалирования.
- Данные:
- EEG, Данные удобные для загрузки https://pyriemann.readthedocs.io/en/latest/auto_examples/ERP/plot_classify_EEG_tangentspace.html#sphx-glr-auto-examples-erp-plot-classify-eeg-tangentspace-py
- Финансовые ряды https://www.cambridge.org/core/books/trades-quotes-and-prices/029A71078EE4C41C0D5D4574211AB1B5
- Trades Quotes and Prices https://lobsterdata.com/tradesquotesandprices
- Литература
- Singular Spectrum Analysis
- https://pyriemann.readthedocs.io/en/latest/index.html
- Multidimensional scaling
- Базовый алгоритм: Базовый прогноз выполнятется методами Singular Spectrum Analysis, LSTM+attention, Transformer
- Новизна: Предлагаемое решение использует 1) Римановы модели но не для классификации, а для арегрессии, 2) Римановы генеративные диффузные модели.
- Авторы: Яковлев
- Название: Tree-width Driven SDP for The Max-Cut Problem
- Описание проблемы: The Max Cut problem is computationally intractable (NP hard) over general graphs; however, for trees and graphs with small tree-width it is easy to solve exactly in polynomial time. Furthermore, the SDP or Lovász-Schrijver relaxations allows to approximate the Max-Cut value over general graphs. The contribution is to combine both the tree-width and relaxation approaches to improve (empirically) the Max-Cut approximation quality.
- Данные:
- [1] Texas Data Repository https://dataverse.tdl.org/dataset.xhtml?persistentId=doi:10.18738/T8/VLTIVC
- [2] Biq Mac Library https://biqmac.aau.at/biqmaclib.html
- Литература
- [1] Intro and Problem setup: https://medium.com/toshiba-sbm/benchmarking-the-max-cut-problem-on-the-simulated-bifurcation-machine-e26e1127c0b0
- [2] The Lovasz-Schrijver https://home.ttic.edu/~madhurt/Papers/ls.pdf
- [3] The SDP https://ocw.mit.edu/courses/15-084j-nonlinear-programming-spring-2004/a632b565602fd2eb3be574c537eea095_lec23_semidef_opt.pdf
- [4] Treewidth https://www.cs.cmu.edu/~odonnell/toolkit13/lecture17.pdf
- Базовый алгоритм: (a) The SDP/Semi-Definite Programming relaxation (b) The Lovasz Schrijver relaxation
- Новизна:
(c) find a matrix k-diagonal C dominating (in a spectral sence) the laplacian of the initial graph. Use the treewidth max-cut over a "dominating" graph
(d*) Use graph sparsification [5] to create a nice approximation to the initial graph, but having lower number of edges and treewidth
- [5] A nice course of 3 lectures on Graph sparsification: https://simons.berkeley.edu/graph-sparsification
- Авторы: Alex Bulkin
- Название: The Optimal Binning Problem: A Statistical ViewPoint
- Описание проблемы: The Optimal Binning problem is the optimal discretization of a variable into bins given a discrete or continuous numeric target. Given a dataset of N samples in [0,1] we are looking for a binning on M bins maximizing the weight-of-evidence metric [1]. The latter metric allows to understand the predictive power of an independent variable. Weight-of-evidence helps to understand if a particular class of an independent variable has a higher distribution of good or bad. Our problem is for a sufficiently large N and constant M to find such an optimal binning. [1] https://medium.com/mlearning-ai/weight-of-evidence-woe-and-information-value-iv-how-to-use-it-in-eda-and-model-building-3b3b98efe0e8
- Данные: the baseline experiment over simulated datasets or any of the Kaggle datasets would be ok
- Литература
- [0] http://www.c4st.org/images/hesa-2015/submissions/Weight-of-Evidence-A-Review-of-Concept-and-Methods-E.pdf
- [1] https://medium.com/mlearning-ai/weight-of-evidence-woe-and-information-value-iv-how-to-use-it-in-eda-and-model-building-3b3b98efe0e8
- [2] https://arxiv.org/pdf/2001.08025.pdf
- [3] https://iopscience.iop.org/article/10.1088/0266-5611/18/4/201/meta
- Базовый алгоритм: The baseline algorithms are (a) CART and similar techniques (b) convex relaxation
- Новизна: quantile splitting of the inverse transform to the empirical distribution; probably with some a-posteriori empirical tuning
- Авторы: Alex Bulkin
- Название: Средневзвешенная когерентность как мера интерпретируемости тематических моделей
- Описание проблемы: Тематическое моделирование широко используется в социо-гуманитарных исследованиях для понимания тематической структуры больших текстовых коллекций. Типичный сценарий предполагает, что пользователь сам разделяет найденные моделью темы на "хорошие" (интерпретируемые) и "плохие". Для упрощения этой работы можно использовать ряд автоматически вычисляемых критериев качества, один из которых — когерентность (мера "согласованности" слов темы). Однако проблема когерентности в том, что при её вычислении игнорируется бòльшая часть текста, что делает оценку качества темы по когерентности ненадёжной. Задача в том, чтобы проверить новый способ вычисления когерентности, обобщающий классический подход, но при этом учитывающий распределение темы во всём тексте.
- Данные: В качестве данных подойдёт любая коллекция текстов на естественном языке, про которую известна тематическая структура (сколько примерно тем, сколько документов по разным темам). Например, можно взять коллекцию статей с ПостНауки, новостей Lenta, дамп Википедии, посты с Хабрахабра, 20 Newsgroups, Reuters.
- Литература
- Воронцов К. В. "Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM" (https://web.archive.org/web/20230520153443/http://machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf)
- Воронцов К. В. "Оценивание качества тематических моделей" (из курса лекций "Вероятностные тематические модели"; https://web.archive.org/web/20230811052505/http://www.machinelearning.ru/wiki/images/a/a7/Voron23ptm-quality.pdf
- Alekseev V. A., Bulatov V. G., Vorontsov K. V. Intra-text coherence as a measure of topic models' interpretability //Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. – 2018. – С. 1-13 (https://www.dialog-21.ru/media/4281/alekseevva.pdf)
- Newman D. et al. Automatic evaluation of topic coherence //Human language technologies: The 2010 annual conference of the North American chapter of the association for computational linguistics. – 2010. – С. 100-108. (https://aclanthology.org/N10-1012.pdf)
- Базовый алгоритм: Когерентность Ньюмана по топ словам, внутритекстовая когерентность
- Новизна: Использование библиотек тематического моделирование BigARTM и TopicNet. Разработка нового способа вычисления когерентности тем. Предложение и реализация методики измерения интерпретируемости тем (чтобы проверить "адекватность" новой когерентности: в самом ли деле для заведомо хороших тем она показывает качество выше, чем для плохих тем).
- Авторы: Василий Алексеев, Константин Воронцов
- Название: Нижние оценки для min max задач с разной размерностью блоков переменных (Проект 1.)
- Описание проблемы: Для задач малоразмерной выпуклой оптимизации нижние оценки получаются с помощью сопротивляющегося оракула https://www2.isye.gatech.edu/~nemirovs/Lect_EMCO.pdf (3 Methods with linear convergence, II, но начать лучше прямо с самого первого раздела Lecture 1 - на одномерном случае все попонятнее). В то время как для задач большой размерности - c помощью “худшей в мире функции” - см., например, указания к упражнения 1.3 и 2.1 пособия МЦНМО https://opt.mipt.ru/posobie.pdf В работе https://arxiv.org/pdf/2010.02280.pdf, исследуются задачи min max, в которых одна из групп min переменных имеет небольшую размерность, а другая группа, напротив, большую. Получены верхние оценки. Интересно было бы попробовать получить нижние оценки, путем комбинации двух конструкций. Кажется, что в математическом плане пример построения нижней оценки будет содержать новые интересные идеи. В развитие этого проекта интересно было бы подумать и о нижних оценках для min min задач, в которых по одной из групп переменных (негладких) имеется малая размерность. Верхние оценки имеются в работах https://arxiv.org/pdf/2102.00584.pdf и https://arxiv.org/pdf/2103.00434.pdf
- Авторы: Александр Владимирович Гасников
- Название: Слайдинг с редукцией дисперсии (Проект 2.)
- Описание проблемы: Направление градиентного слайдинга стало популярно в последнее время. Активно в этом направлении работает Джордж Лан https://arxiv.org/pdf/1406.0919.pdf https://arxiv.org/pdf/1609.04905.pdf https://arxiv.org/pdf/2111.00996.pdf Некоторые результаты по слайдингу есть и у нас https://arxiv.org/pdf/1906.03620.pdf https://arxiv.org/pdf/2002.02706.pdf https://arxiv.org/pdf/2103.09344.pdf https://arxiv.org/pdf/2205.15136.pdf https://arxiv.org/pdf/2307.12946.pdf стали появляться и статьи других коллективов https://arxiv.org/pdf/2201.01169.pdf. Однако, полноценного слайдинга для задач вида f(x) + g(x), где g(x) имеет структуру суммы и для g(x) используется инкрементальный оракул (рандомизация суммы m слагаемых) не известно. Все что известно, описано тут https://arxiv.org/pdf/1912.11632.pdf Задача заключается в обосновании оценки числа вызовов градиента f \tilde{O}(\sqrt{L_f/\mu}), и инкрементального оракула (градиентов слагаемых) g \tilde{O}(m+\sqrt{mL_{g}/\mu}). В общем случае такая оценка не получена до сих пор. P.S. Были надежды на редукцию дисперсии с importance sampling с правильным выбором вероятностей, но пока они не оправдались…
- Авторы: Александр Владимирович Гасников
- Название: Создание персонализированных генераций изображений
- Описание проблемы: Генеративные модели добились высокого качества генераций в общем домене. Однако, когда возникает запрос на генерацию специфичного объекта, в нашем случае человека, то модель не может сгенерировать человека с необходимой точностью и передать его идентичность. В этой задаче вам предлагается предложить решение, которое будет способно генерировать изображения заданного человека в различных варияциях в высоком разрешении.
- Данные: CelebA (датасет изображений знаменитостей в высоком разрешении)
- Литература:
- Базовой алгоритм: Базовый алгоритм состоит в обучении метода IP-Adapter[1] на модели Stable Diffusion [3].
- Новизна: Индустриальная
- Авторы: Андрей Филатов
- Контакт: TG: @anvilarth
- Название: Многократное обучение в рекомендательных системах
- Описание проблемы: Метрики качества рекомендательных систем P@k, NDCG, MRR и пр. обычно учитывают, насколько хорошие рекомендации были даны для рассматриваемого пользователя, при этом текущее и долгосрочное влияние применяемых алгоритмов на окружающую аудиторию потребителей и ассортимент товаров не учитывается. Предлагается рассмотреть рекомендательную систему, в которой товары W и потребители C меняются со временем, как процесс многократного машинного обучения. Пусть заданы начальные плотности распределений признаков f_0(с) и f_0(w) на X = C U W. Рассмотрим динамическую систему вида f_{t+1}(x) = D_t(f_t)(x) с оператором эволюции D_t [4], где переход к шагу t+1 состоит в формировании рекомендации потребителю (c, z) ~ f(c) алгоритмом товара w = h(c, f(c), f(w)), заключением сделки потребителем с вероятностью ~ u(c,w,z), обновлении f(c), f(w) и h(…) по истории предложений и сделок. В частности выяснить 1) При каких условиях в такой системе при t к бесконечности возникает вырождение аудитории, ассортимента или распределения сделок, и как зависит такое вырождение от алгоритма обучения и вида рекомендательной модели? 2) Предложить такой обучаемый рекомендательный алгоритм, который улучшает любую из стандартных метрик без вырождения C и G при t к бесконечности, или доказать, что это невозможно.
- Данные: Для инициализации используем синтетические данные, созданные по аналогии со статьей [1] или MovieLens 100K Dataset по аналогии со статьей [2]
- Литература
- [1] Debiasing the Human-Recommender System Feedback Loop in Collaborative Filtering
- [2] Breaking Feedback Loops in Recommender Systems with Causal Inference
- [3] Positive feedback loops lead to concept drift in machine learning systems
- [4] Задача 119, Моя первая научная статья 2023
- [5] Python LibMF
- Базовый алгоритм: Исходный код - доработанная версия кода из [3] при решении [4], базовые алгоритмы рекомендаций - TopPop, Random, Oracle, SGD MF [5]
- Новизна: Предлагается исследовать свойства оператора D в зависимости от возможных предположений и ограничений, и применить ранее полученные в [4] результаты в предлагаемой постановке. Затем для простых моделей рекомендаций провести вычислительный эксперимент с симуляцией работы системы во времени с использованием базового кода для сравнения теоретических результатов по вопросам 1)-2) с фактическими наблюдениями.
- Авторы: консультант - Веприков А.С., эксперт - Хританков А.С.
- Название: Интерпретируемая иерархическая кластеризация объектов
- Описание проблемы: Требуется на обучающей выборке физических лиц (ФЛ) с меткой принадлежности классу построить такую иерархическую кластеризацию данных, что для каждого кластера можно наиболее полно интерпретировать причину его попадания в конкретный кластер.
- Данные: Для исследования предлагается использовать данные из соревнования Kaggle по классификации мошенников в автостраховании на основе их признакового описания. https://www.kaggle.com/datasets/khusheekapoor/vehicle-insurance-fraud-detection?resource=download
- Литература
- Базовый алгоритм: Базовый алгоритм решения задачи состоит в применении методов из пакетов sklearn, umap языка Python. Интерпретируемым алгоритмом классификации является дерево решений (sklearn.tree.DecisionTree).
- Новизна: Индустриальная задача
- Авторы: Старожилец Всеволод Михайлович
- ** Название: Классификация товаров по ОКПД2 кодам.
- Описание проблемы: Требуется по краткому текстовому описанию товара классифицировать товар по кодам ОКПД2 классификатора. Предполагается исследование зависимости точности и полноты классификации от рассматриваемой глубины ОКПД2 классификатора (например, для двух первых чисел классификатора задача практически тривиальна).
- Данные: Около 40% данных госзакупок из открытых источников за 2022 год. https://drive.google.com/file/d/1bg1wdpsxv797dB8RBWaq8JLp_qQp_uc0/view?usp=drive_link
- Литература Рарерs with 1) the formulation of the problem, 2) baseline and new results, 3) fast introduction https://www.kaggle.com/competitions/ndsc-beginner/overview
- Базовый алгоритм: Построение текстовых эмбеддингов каким-либо открытым переобученным пакетом. Например, spaCy (у него есть русский язык). Далее решается задача классификации.
- Новизна: Индустриальная задача
- Авторы: Старожилец Всеволод Михайлович
- Название: Адаптация архитектуры модели глубокого обучения с контролем эксплуатационных характеристик
- Задача: рассматривается задача адаптация структуры обученной модели глубокого обучения для ограниченных вычислителньых ресурсов. Предполагается, что полученная архитектура (или несколько архитектур) должны работать эффективно на нескольких типах вычислительных серверов (например, на разных моделях GPU или различных мобильных устройствах). Требуется предложить метод поиска модели, позволяющий контролировать её сложность учетом целевых эксплуатационных характеристик.
- Данные: MNIST, CIFAR
- Литература:
- Yakovlev K. D. et al. Neural Architecture Search with Structure Complexity Control //Recent Trends in Analysis of Images, Social Networks and Texts: 10th International Conference, AIST 2021, Tbilisi, Georgia, December 16–18, 2021, Revised Selected Papers. – Cham : Springer International Publishing, 2022. – С. 207-219.
- FBNet: выбор архитектуры модели с учетом целевых характеристик
- Базовый алгоритм: FBNet и случайный поиск подструктуры модели
- Решение: Предлагаемый метод заключается в использовании дифференцируемого алгоритма поиска архитектуры нейросети(FBNet) с контролем сложности параметров при помощи гиперсети. Гиперсеть - это модель, порождающая структуру модели в зависимости от входных параметров. В качестве параметров гиперсети предлагается использовать нормированное время работы базовых операций на целевых вычислительных ресурсах. Таким образом, полученная модель позволит адаптировать архитектуру модели для произвольного устройства. Новизна: предложенный метод позволяет контролировать сложность модели, в процессе поиска архитектуры без дополнительных эвристик.
- Авторы: Константин Яковлев, Олег Бахтеев
=Проекты пятикурсников и назначенные проекты=
- Название: Ускоренные методы нулевого порядка с одноточечным фидбэком
-
Задача: Обычно для целевых функций в задачах оптимизации мы можем считать градиенты и даже информацию более высоких порядков. Но также существуют приложения, в которых подсчет градиента или затруднен или вообще невозможен. В таких приложениях на помощь приходят безградиентные методы. Довольно натуральной идеей в данном случае является аппроксимация градиента через конечные разности (https://arxiv.org/pdf/2211.13566.pdf):
$\nabla f_\gamma(x, e) = \frac{f(x + \gamma e) - f(x - \gamma e)}{2 \gamma} e.$ Более того, в более близких для практики приложениях мы имеем доступ к зашумленной версии функции. Это порождает дополнительные проблемы. В более простом с точки зрения теоретического анализа, но менее приближенным к реальности случае можно рассматривать так называемый two-point feedback:$\nabla f_\gamma(x, \xi, e) = \frac{f(x + \gamma e, \xi) - f(x - \gamma e, \xi)}{2 \gamma} e.$ Ключевая особенность – одна и та же случайность в обеих точках. Более сложный и неприятный случай – one-point feedback:$\nabla f_\gamma(x, \xi^+, \xi^-, e) = \frac{f(x + \gamma e, \xi^+) - f(x - \gamma e, \xi^-)}{2 \gamma} e,$ который и будет рассматриваться в работе. - Данные: 1) Датасет mushroom 2) Квадратичная задача
- Литература: Randomized gradient-free methods in convex optimization (https://arxiv.org/pdf/2211.13566.pdf) AN ACCELERATED METHOD FOR DERIVATIVE-FREE SMOOTH STOCHASTIC CONVEX OPTIMIZATION (https://arxiv.org/pdf/1802.09022.pdf)
- Базовой алгоритм: Результаты для two-point feedback (https://arxiv.org/pdf/1802.09022.pdf)
- Решение: В данной работе предлагается разработать и проанализировать сходимость ускоренный безградиентные методы для выпуклой гладкой стохастической задачи минимизации. В частности предлагается адаптировать (или оттолкнуться в качестве стартовой точки) для этого уже существующие результаты в случае two-point feedback (https://arxiv.org/pdf/1802.09022.pdf).
- Авторы: Консультант - Александр Богданов, эксперт - Александр Безносиков
- Название: Методы малоранговых разложений в распределенном и федеративном обучении
- Задача: Подходы распределенного и федеративного обучения становятся все более популярными в обучении современных SOTA моделей машинного обучения. При этом на первый план выходит вопрос организации эффективных коммуникаций, так как процесс передачи информации занимает слишком много времени даже в случае кластерных вычислений. Из-за этого может теряться смысл в распределении/распараллеливании процесса обучения. Одной из ключевой техник борьбы с коммуникационными затратами является использование сжатий передаваемой информации. На данный момент в литературе предлагаются различные техники сжатия (https://arxiv.org/abs/2002.12410, https://arxiv.org/abs/1610.02132, https://arxiv.org/abs/1905.10988), но потенциал в этом вопросе явно не исчерпан. В частности, довольно большой потенциал кроется в малоранговых разложениях (https://gregorygundersen.com/blog/2019/01/17/randomized-svd/). В рамках проекта предлагается сконструировать операторы сжатия на основе данных разложений и встроить в методы распределенной оптимизации (https://arxiv.org/abs/2106.05203).
- Данные: LibSVM https://www.csie.ntu.edu.tw/~cjlin/libsvm/ CIFAR 10 https://www.cs.toronto.edu/~kriz/cifar.html В экспериментах предлагается суммулировать на одном устройстве распределенное обучение 1) логистической регресии на датасетах из LibSVM, 2) ResNet18 на CIFAR 10
- Литература: https://arxiv.org/abs/2002.12410, https://arxiv.org/abs/1610.02132, https://arxiv.org/abs/1905.10988 https://gregorygundersen.com/blog/2019/01/17/randomized-svd/ https://arxiv.org/abs/2106.05203
- Базовой алгоритм: https://arxiv.org/abs/2106.05203 + https://arxiv.org/abs/2002.12410 или https://arxiv.org/abs/1905.13727
- Решение: В рамках проекта предлагается сконструировать операторы сжатия на основе малоранговых разложений (https://gregorygundersen.com/blog/2019/01/17/randomized-svd/) и встроить в методы современные методы распределенной оптимизации (https://arxiv.org/abs/2106.05203).
- Авторы: Безносиков А.Н., Зыль А.В.
- Название: Адаптивные методы генерации с использованием диффузионных моделей
- Задача: Дана многомерная функция распределения p(x) = f(x) / Z. Задача состоит как в вычислении нормализационной константы — Z, так и в получении объектов из распределения p(x).
- Данные: В качестве целевого распределения могут быть взяты многомерная гауссова смесь, Funnel, Manywell и др.
- Литература: https://arxiv.org/pdf/2302.13834.pdf https://arxiv.org/pdf/2310.02679.pdf https://arxiv.org/pdf/2208.01893.pdf
- Базовой алгоритм: https://github.com/lollcat/fab-torch
- Решение: The idea of the proposed solution and methods for conducting the research. Ways of visualizing data and error analysis
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: Сергей Самсонов
- Название: Undersampled MRI reconstruction
- Задача: Magnetic Resonance Imaging (MRI) examination times can vary from fifteen minutes to one hour, which is inconvenient for both the doctor and the patient. Additionally, human motion during the scan can significantly decrease the quality of the images. Undersampled MRI allows for fewer measurements in Fourier-space, thereby reducing the scan time by 4-8 times. However, in this approach, some information is lost according to the Nyquist-Shannon sampling theorem. The main hypothesis of this study is the possibility of using general information from the scan space through machine learning to mitigate this problem. An optimization-style problem statement can be seen in Supplementary.
- Данные: fastMRI, a large-scale dataset of both raw MRI measurements and clinical MRI images. https://fastmri.med.nyu.edu/
- Литература:
- fastMRI: An Open Dataset and Benchmarks for Accelerated MRI - formulation of the problem, dataset (https://arxiv.org/abs/1811.08839)
- Fill the K-Space and Refine the Image: Prompting for Dynamic and Multi-Contrast MRI Reconstruction - SOTA (https://arxiv.org/abs/2309.13839)
- An Adaptive Intelligence Algorithm for Undersampled Knee MRI Reconstruction - top submission of the original competition (https://arxiv.org/abs/2004.07339)
- Deep Cardiac MRI Reconstruction with ADMM - top submission from other competition (https://arxiv.org/abs/2310.06628)
- A review and experimental evaluation of deep learning methods for MRI reconstruction - introduction to the problem (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9202830/)
- Базовой алгоритм: A link to the code of the baseline algorithm. It shows the state of the art and will be compared with the proposed solution https://github.com/hellopipu/PromptMR
- Решение: My idea is to potentially develop a solution without several cascade steps like PromptMR to spend less time on each prediction, also it is possible to experiment with filter patterns. Additionally in the original SOTA paper there is no experiments with real radiologists, authors only measure PSNR, SSIM and NMSE and don't consider the opinion of the specialists and it is entirely possible to make a direct comparison between visualizations with and without undersampling to measure the drop in quality if any.
- Авторы: Expert: Dmitry Dylov Consultant: Artem Razumov Me: Bair Mikhailov
- Название: Identification of the relationship between labels using an algorithm based on one's own attention for the classification problem with multiple labels, justifying the connection with Hawkes processes.
- Задача: A description of your problem, its motivation and goals. An optimization-style problem statement is welcome Most of the available user information can be represented as a sequence of events with timestamps. Each event is assigned a set of categorical labels, the future structure of which is of great interest. This is a temporal sets prediction problem for sequential data. Modern approaches focus on the transformation architecture for sequential data, introducing independent attention to the elements in the sequence. In this case, we take into account the temporal interactions of events, but lose information about the interdependencies of labels. Motivated by this disadvantage, we propose to use the mechanism of independent attention to the marks preceding the predicted step. Since our approach is a network of attention to labels, we call it a LANET. We also justify this aggregation method, it affects the intensity of the event positively, assuming that the intensity is represented by the basic Hawkes process.
- Данные: Based on the dataset data, we will compare the state of the art solutions in this area with our solution in this problem statement. https://www.kaggle.com/c/competitive-data-science-predict-future-sales/data https://www.kaggle.com/c/python-and-analyze-data-final-project/data
- Литература:
- 1-2 Predicting Temporal Sets with Deep Neural Networks, Predicting Temporal Sets with Simplified Fully Connected Networks
- 3 Transformer Hawkes Process, The Neural Hawkes Process: A Neurally Self-Modulating Multivariate Point Process - introduction to idea with process Hawkes
- Базовой алгоритм: https://github.com/yule-BUAA/SFCNTSP https://github.com/yule-BUAA/DNNTSP The state of the art methods for temporal sets prediction
- Решение: Most of the transformer-related models used for temporal sets prediction use self-attention computation between consecutive input timestamps representations. The LANET instead uses the self-attention between label representations. So, it has the input that consists of K vectors. Below, we describe how to aggregate a sequence of size τ to K vectors via an Embedding layer. Then we define the Self-attention layer. To get the predictions, we apply a Prediction layer. Also, to justify such aggregation by labels, instead of time dependence, we introduce the concept of Cox processes, which describe the probability of an event at a given time through the integral of the intensity function. And we can show that such aggregation can either not worsen it, or make a positive contribution to probability. LANET will train with the cross-entropy loss adapted for the multi-label task through independent consideration of each label score. Comparison tables with basic approaches will be carried out, as well as visualization of quality changes from selected parameters, visualization of attention for analyzing the relationship of label representations, as well as tables comparing the effect of vector representations on the result of the model.
- Авторы: Consultant - Andrey Grabovoy Expert - Alexey Zaytsev Author of research - Galina Boeva
- Название: Support strategies for advanced Post-Training Quantization
- Задача: Advanced PTQ methods do not require a lot of computing resources, demonstrate high quality and work quickly. Modern approaches tend to be consistent and optimize the model block-by-block or layer-by-layer. However, these approaches have several fundamental problems. The first of these is the poor correlation of reconstruction losses, which are used for optimization, with target losses. This leads to a decrease in quality, especially for models with a sharp loss landscape. In sequential approaches, the optimization of the following blocks or layers is based on the optimization of all previous blocks or layers. Because of this design, the second problem is an incorrectly set optimization task for the last blocks or layers in the network.
- Данные: Cifar-10, ImageNet
- Литература: https://arxiv.org/abs/2203.05740, https://arxiv.org/abs/2312.07950
- Базовой алгоритм: https://github.com/wimh966/QDrop
- Решение: Theoretical justification of mentioned problems, generalization and ablation study of basic solutions and their modification.
- Авторы:
- Название: Методы составления эмбеддингов коллекций
-
Задача: Пусть дан датасет $\mathfrak{G} = {(x_i, y_i)}{i = 1}^{n}$, $x_i \in X$, $y_i \in {1, ..., K}$. Составим из этих точек данных множества: $$G{j, k} = {x_i | (x_i, y_i) \in \mathfrak{G} \wedge y_i = k \forall i } : \forall j_1, j_2 G_{j_1, k} \cap G_{j_2, k} = \emptyset$$ю Задача состоит в том, чтобы сопоставить каждой коллекции
$G_{j, k}$ эмбеддинг$f_{\theta}(G_{j, k})$ , представляющий собой информативное векторное представление$G_{j, k}$ . - Данные: Omniglot (https://github.com/brendenlake/omniglot), Face datasets (https://www.robots.ox.ac.uk/~vgg/data/vgg_face2/, http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)
- Литература: https://arxiv.org/pdf/1206.5538.pdf, https://arxiv.org/pdf/2207.06167v1.pdf, https://arxiv.org/pdf/2005.10497v2.pdf
- Базовой алгоритм: Taking instance-level trained pre-trained model & using centroid as group embedding (https://arxiv.org/pdf/1908.05257v1.pdf, https://github.com/tiangeluo/fsl-global)
- Решение: Смешивание эмбеддингов уровня инстансов с эмбеддингами уровня коллекций при обучении: https://arxiv.org/pdf/2207.06167v1.pdf Определение принадлежности к коллекции с учётом неравномерности распределения датасета по ним: https://arxiv.org/pdf/2005.10497v2.pdf Получить некоторые теоретические результаты относительно качества эмбеддингов коллекций (напр. Теорема 1 из https://github.com/intsystems/Karimov_2023_NIR/blob/master/paper/paper.pdf).
- Авторы: Roman Isachenko
- Название: Automatic Music Transcription
- Задача: Automatic music transcription (AMT) remains an important but challenging task in music information retrieval, hampered by limited MIDI datasets and the poor quality of existing models. This research aims to improve transcription accuracy by using specialized models to extract distinct musical features such as chord progressions, tonality, rhythm, and instrument types. To address the scarcity of MIDI datasets, we propose the use of synthetic data to augment training resources. This approach offers a new way to potentially enrich AMT models and advance the field.
- Данные: https://github.com/KinWaiCheuk/AudioLoader/tree/master (MAPS, Maestro, MusicNet)
- Литература:
- MT3 (sota 2022): https://arxiv.org/pdf/2111.03017.pdf
- Splitter: https://arxiv.org/pdf/2305.07489.pdf
- Basic Pitch (lightweight model, good detection for one instrument, fast intro): https://arxiv.org/pdf/2203.09893.pdf
- Synthetic data: https://arxiv.org/pdf/2312.10402.pdf
- Базовой алгоритм: Solution1: https://github.com/magenta/mt3/tree/main (sota 2022), Solutions2: https://github.com/vpavlenko/study-music/blob/main/parts/transcription.d
- Решение: The idea of the proposed solution and methods for conducting the research. Ways of visualizing data and error analysisю Extracting individual musical characteristics (chord-progression, tonality, bpm, instrument), and using synthetic datasets for data augmentation. Authors: Матвеев, Протасов
- Название: Machine learning methods for functional brain mapping
- Задача: Segmentation of functional areas of fMRI brain scans (article with problem statement)
-
Данные: Dataset: Human Connectome Project: ≈ 1200 healthy subjects with both resting-state and task fMRI data; 4D (3D time-dependent data)
$1.5 \times 10^6$ -dimensional MRI-measurements received per a few seconds -
Литература:
- Accurate predictions of individual differences in task-evoked brain activity from resting-state fMRI using a sparse ensemble learner 2. Predicting individual task contrasts from resting ‐state functional connectivity 3. Task-free MRI Predicts Individual Differences in Brain Activity During Task Performance 4. Semiblind Spatial ICA of fMRI Using Spatial Constraints
- Базовой алгоритм: Method 1, Method 2
- Решение: The proposed solution is a machine learning algorithm developed based on existing techniques.
- Название: Прогнозирования временных рядов социальных трендов и общественных интересов с высокой волатильностью
- Описание проблемы: Анализ и прогноз трендов в медиапространстве является важной задачей для различных сфер, таких как маркетинг, медиапроизводство, связи с общественностью, инновационные исследования и разработки. Эта задача является сложной из-за волатильности и неустойчивости социальных тенденций и общественных интересов. Цель предлагаемого исследования - изучить подходы к решению задачи и разработать базовый алгоритм, способный предсказать, о чем будут говорить люди, в конкретный исторический период в будущем на горизонте нескольких месяцев. Проблема заключается не только в высокой размерности и неустойчивости тематического пространства, но и в необходимости выделения тематик релевантных для конкретных сообществ на высоком уровне обобщения: спорт, политика, бизнес, технологии и др. так и на низком уровне: профессиональные сообщества вокруг конкретной технологии или целевая аудитория определенного сегмента рынка.
- Данные: Будут изучены общедоступные сообщения на платформах социальных сетей, таких как Twitter, за несколько лет. Затем набор данных преобразуется во временные ряды тематических кластеров с помощью тематического моделирования. Кластеры формируются с учетом значимости событий, рассчитанной по позиции новостной темы в топе. Наборы данных для справки: Twitter trending tweets, Youtube trending video dataset.
- Литература:
- Taylor, S. J., & Letham, B. (2018). Forecasting at scale. The American Statistician, 72(1), 37–45. 2. Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint arXiv:1908.10084. 3. Motrenko, A., & Strijov, V. (2014). Extracting fundamental periods to segment biomedical signals.
- Базовой алгоритм: ARIMA и Exponential Smoothing
- Решение: Для решения данной задачи предлагается снизить волатильность домена путем построения пространства кластеров интересов. Прогноз осуществляется в этом пространстве, чтобы определить сезонность и жизненные циклы тем и предсказать их динамику в будущих периодах. В данной статье сравниваются методы кластеризации социальных трендов, а также алгоритмы их предсказания. Помимо этого, приводится оценка качества прогноза.
- Новизна: Новизна работы заключается в уникальном сочетании методов прогнозирования временных рядов и кластеризации трендов. Это позволяет применить научный подход к задаче, которая в силу высокой размерности ранее в зависела от человеческой интуиции и традиционного выявления тенденций. Этот подход может дать как прикладное ( внести вклад в область прогнозирования интересов аудитории ), так и научное значение ( перенеся алгоритм на домен трендов научных статей )
- Авторы: Задворнов Егор
- Title: Title
- Problem: Problem description
- Data: Data description
- Reference: Links to the literature
- Baseline: baseline description
- Proposed solution: description of the idea to implement in the project
- Novelty: why the task is good and what does it bring to science? (for editorial board and reviewers)
- Authors: supervisors, consultants, experts
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).