24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна.
Подробности случившегося. Мы призываем всех неравнодушных
помочь нам с восстановлением утраченного контента!
В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.
А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.
KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда.
KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется.
Авторы KAN доказали, что ему требуется во много раз меньше нейронов, чтобы достичь точности MLP. Также KAN гораздо лучше генерализует данные и лучше справляется с аппроксимацией сложных математических функций (мы увидели это на примерах), у него, можно сказать, "технический склад ума". В статье исследователи также показали, как KAN помогает решать дифференциальные уравнения и (пере)открывает законы физики и математики.
Единственный минус: из-за обучаемых активаций тренится все это дело в разы дольше, чем MLP. Но это не точно, так как исследователи пока даже не пытались провести оптимизацию скорости обучения.
Возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров. Эпоха AGI теперь становится куда ближе.
Тут подробнее простыми словами: https://datasecrets.ru/articles/9
Ссылка на препринт: https://arxiv.org/abs/2404.19756
Код тут: https://github.com/KindXiaoming/pykan