Главный прорыв десятилетия!

Аноним 05/05/24 Вск 00:00:16 #1 №726541

photo2024-05-0119-20-49.jpg

Пару дней назад учёные из MIT представили революционную архитектуру глубокого обучения KAN, которая произвела фурор среди исследователей, став настоящей сенсацией. Говорят, что возможно это самый грандиозный прорыв в ИИ за последние 50 лет. Многие его окрестили, как Deep Learning 2.0

В основе всех архитектур, к которым мы привыкли, лежит многослойный перцептрон (MLP). У него есть веса и нейроны, в которых расположены функции активации. Этой парадигмой ученые пользуются с 1957 года, когда ее предложил Фрэнк Розенблатт.

А что, если мы переместим функции активации на веса и сделаем из обучаемыми? Звучит как бред, но yes, we KAN.

KAN (Kolmogorov-Arnold Networks) - новая парадигма, в которой исследователи реализовали перемещение активаций на «ребра» сети. Кажется, что решение взято из ниоткуда, но на самом деле тут зашита глубокая связь с математикой: в частности, с теоремами универсальной аппроксимации и аппроксимации Колмогорова-Арнольда.

KAN работает намного точнее, чем MLP гораздо большего размера, и к тому же лучше интерпретируется.
Авторы KAN доказали, что ему требуется во много раз меньше нейронов, чтобы достичь точности MLP. Также KAN гораздо лучше генерализует данные и лучше справляется с аппроксимацией сложных математических функций (мы увидели это на примерах), у него, можно сказать, "технический склад ума". В статье исследователи также показали, как KAN помогает решать дифференциальные уравнения и (пере)открывает законы физики и математики.

Единственный минус: из-за обучаемых активаций тренится все это дело в разы дольше, чем MLP. Но это не точно, так как исследователи пока даже не пытались провести оптимизацию скорости обучения.

Возможно сегодня мы наблюдаем рождение Deep Learning 2.0. Ведь такой подход меняет вообще все, от LSTM до трансформеров. Эпоха AGI теперь становится куда ближе.

Тут подробнее простыми словами: https://datasecrets.ru/articles/9
Ссылка на препринт: https://arxiv.org/abs/2404.19756
Код тут: https://github.com/KindXiaoming/pykan

Аноним 05/05/24 Вск 05:37:48 #2 №726694

6565655455454545445.mp4

Аноним 05/05/24 Вск 09:03:22 #3 №726765

16464241019853.png

Наконец-то создали целый тред, по этой архитектуре.
Только всё равно придётся ждать, когда её обучат, если за это вообще возьмутся.
Вот технологию gpt придумали deep mind и отодвинули в долгий ящик, пока closedai, не подсуетились и не показали возможности этой разработки. С другой стороны, сейчас интерес большой к ии. Очень интересно, что из этого получится.
>>726694
Касательно видрила, для gpt5 уже не хватает данных для обучения. А всё из-за особенностей архитектуры. Где они будут брать такое количество данных? Конечно речь, идёт о кошерных данных которые представляют ценность.

Аноним 05/05/24 Вск 12:37:41 #4 №726861

>>726765
А ты не забывай, что чем больше модель, тем более мусорные данные ей можно сливать, так как она лучше с ним справляется. Тема нехватки данных сильно раздута

Аноним 05/05/24 Вск 16:49:40 #5 №727065

>>726861
Да даже с мусорными, где ты столько возьмешь.

>>726541 (OP)
Я хз, но первое что приходит в голову - приспособить их вместо сверточных сетей и сделать детекцию и сегментацию объектов на их основе, если покажут себя лучше - прорыв. Может еще вместо элементов в LLM моделях, хз что там щас используют(те же рекурсивные нейронки и LSTM?)

Аноним 05/05/24 Вск 20:12:52 #6 №727320

>>727065
Вот, кстати, начали реализацию для языковых моделей

https://github.com/AdityaNG/kan-gpt

Аноним 06/05/24 Пнд 18:49:36 #7 №728906

Как я понял, эту хуйню никак не скейлить из-за того, что GPU не заточена на работу под них.

Аноним 06/05/24 Пнд 21:33:32 #8 №729228

>>728906
то есть под них нужна специальная архитектура GPU?

Аноним 06/05/24 Пнд 22:46:02 #9 №729422

>>729228
Типа того.

Аноним 06/05/24 Пнд 23:55:34 #10 №729578

https://www.reddit.com/r/MachineLearning/comments/1clcu5i/d_kolmogorovarnold_network_is_just_an_mlp/

Аноним 07/05/24 Втр 22:21:13 #11 №731103

>>726694
Хуйня уровня "Лондон утонет в навозе".
>>726765
>Где они будут брать такое количество данных?
Похуй где, весь прикол в том, что им придётся дохуя чистить, а иначе умная сетка всё время будет нарушать свой фантюн и ругать негров/писать про еблю детей/нарушать копирайты (самое страшное).
>>728906
Спасибо принстонской архитектуре, у нас любой процессор или ГПУ не подходят для ИИ, тратя 90% времени и энергии на гоняние байтиков по шинам.

Аноним 07/05/24 Втр 23:40:15 #12 №731196

photo2024-05-0720-45-48.jpg

photo2024-05-0720-45-49.jpg

photo2024-05-0720-45-50.jpg

photo2024-05-0720-45-50 (2).jpg

Инженеры и исследователи продолжают активно изучать возможности KAN. Самое интересное:

– Оптимизированный код для KAN (https://github.com/Blealtan/efficient-kan). Авторы статьи сами признавались, что не занимались оптимизацией кода. Работу подхватили разработчики, которые подшаманили имплементацию и сделали ее более эффективной. Получилось в 2 раза быстрее, чем в оригинале.

– Трансформер с KAN слоями (https://x.com/damibenveniste/status/1787527452035883106?s=46&t=pKf_FxsPGBd_YMIWTA8xgg). Тут и Mixture-of-Experts, и RoPE, и Multihead-attention. Правда, автор код не запускал, но скорее всего скоро найдется кто-то, кто сделает красивый тех.репорт на эту тему.

Аноним 08/05/24 Срд 00:56:15 #13 №731293

>>731196
>Правда, автор код не запускал
Значит код не запускается, лол. Я как разработчик утверждаю.

Аноним 13/05/24 Пнд 00:55:02 #14 №737089

>>726541 (OP)>>726694
>Извините, я всего-лишь ИИ, и не могу вам помочь

Вся эта хуйня со временем будет доступна только для мирового правительства и очень крупных корпораций.
А простое быдло как сосало таки будет еще больше сосать.
Вся эта цензура на наейронках не просто так везде установлена.
И не просто так с каждым днём всё больше и больше закручивается.
А для того что бы скотина вдруг не возомнила себе что она барину ровня. Она уже сейчас даже код нормально не пишет, а лишь направляет в правильное направление. Остается лишь только свои нейронки писать, а не надеяться что кто-то из добрых дядей тебе сразу всё даст готовое.

Аноним 13/05/24 Пнд 13:19:18 #15 №737295

>>737089
Локалки никто не отберёт.

Аноним 13/05/24 Пнд 20:18:20 #16 №737788

>>737089
>Остается лишь только свои нейронки писать
Так все адекваты локалками пользуются. Как ты локалки реально отбирать будешь, кроме как запретом продажи населению самим Хуангом или отбиванием техники у населения? Сейчас многие вещи делаются локально, а уж с данной технологией это станет еще проще. Вот всякие попенаи и всех пугают, говорят, что нужны ограничения, лоббируют запреты открытых нейронок. Дабы только крупные корпорации могли осуществлять деятельность в развитии ИИ

Аноним 13/05/24 Пнд 23:57:23 #17 №738377

>>737788
>а уж с данной технологией это станет еще проще
Сложнее. КАН вообще не обучаемый на потребительском железе при размерах больше пары слоёв на десяток нейронов.

Аноним 14/05/24 Втр 14:01:44 #18 №739030

>>726541 (OP)
Почему-то весь машин лернинг кажется мне какой-то детской ерундой. Возможно потому что наука еще слишком новая и ученые пока что не так глубоко погружены в нее, а все нужно постигать мелкими шажками, но вам не кажется что это совсем пиздец? В плане того, что прорывом считается буквально очевидная вещь, сделать какие-то константы переменными и обучаемыми, ну охуеть теперь. Предыдущий прорыв — селф аттеншн у трансформера, это по сути, грубо говоря, изменение влияния связей между нейронами, по факту реалтайм изменение топологии сети. Уважаемые ученые, специально для вас делаю вывод: Если что-то в архитектуре нейросети является константным, сделайте это обучаемым. Где моя нобелевка?

Аноним 14/05/24 Втр 21:10:29 #19 №739523

>>739030
Братан, я успешный kaggler и тренирую нейронки с селф аттеншном по 10 часов ежеденевно ради прибавки +0,1 к метрике.
И могу сказать что современное текущее состояние науки о машин леаринге состоит в банальном переборе всевозможных идей которые придут в голову. Вот взять данный селф аттеншн, возможно что куча людей пытались сделать тоже самое, но у них не хватало ресурсов (GPU-часов) понять что это прорывная идея, один параметр не так выставишь и у тебя селф аттешн работает хуже чем CNN на данном датасете и человек дропает и забивает хуй думая что он идиот. А потом приходит корпорация с тысячами TPU-ядрами с капелькой везения, запускает с многочисленными конфигурациями и сразу замечает разницу и потенциал. Вот такие дела. Почему так? Ответ прост. Человечество находится в каменном веке относительно вопросов человеческого разума или мозга. Оно даже не может пояснить зачем человеку нужен сон. Математической теории нет, но я предполагаю что через несколько десятков лет появится. Вот и всё, епт.

Аноним 15/05/24 Срд 02:52:39 #20 №740023

>>739523
>пояснить зачем человеку нужен сон
а животным блять не нужен?

Аноним 15/05/24 Срд 10:10:21 #21 №740203

>>740023
Всё что есть у млекопитающих строго необходимо иметь человеку.

Аноним 15/05/24 Срд 14:50:13 #22 №740503

>>740203
Включая хвост и хобот?

Аноним 18/05/24 Суб 14:25:24 #23 №745047

>>726541 (OP)
Должно быть в шапке:
https://github.com/mintisan/awesome-kan

Аноним 21/05/24 Втр 14:48:29 #24 №750323

Что-то тихо...

Аноним 22/05/24 Срд 01:36:26 #25 №751156

>>750323
А чего ты ожидал? Очередная никому не нужная хуйня уровня BCPNN, PNN (или SNN, пилят с 1952 года, лол) и прочих прорывных архитектур, которые не понятно как трейнить и масштабировать. Трансформеры взлетели как раз из-за того, что накидать параметров в слой, слоёв и данных в топку тренировки может любая обезьяна.

Аноним 22/05/24 Срд 03:51:25 #26 №751213

>>751156
Все так. По крайней мере работающие сегодня нейросетки смогли написать оппост. А что KAN уже успела сделать?

Аноним 29/05/24 Срд 14:36:38 #27 №762948

photo2024-05-2814-04-49.jpg

В эфире снова KANтент!

Слились старая и новая школы: KAN обучили на titanic.csv. Прунинг и визуализации на месте. Лосс, кстати, тоже получился очень приличный.

Пошаговый гайд (https://medium.com/@AI_Whisperer/how-to-train-a-kan-model-on-the-titanic-dataset-for-kaggle-8ff8369e37cf)
Ноутбук на Kaggle (https://www.kaggle.com/code/dzehtsiarou/better-kan-titenic)

Аноним 29/05/24 Срд 14:38:03 #28 №762951

>>751156
Лол, подожди ты, трансформеры тоже не сразу засияли

Аноним 29/05/24 Срд 14:58:00 #29 №762987

photo2024-05-2808-30-57.jpg

Сейчас набирает хайп интересное открытие которое возможно будет применено и к KAN-ам. Как мы знаем, если модель перетренировать, то она начинает тупеть. Но внезапно выяснилось, что если продолжить модель тренировать дальше (в десятки раз дальше), то в какой-то момент происходит фазовый переход и модель начинает невероятно умнеть, значительно превосходя ту версию, которая была за мгновение до перетренировки. Но обо всё по порядку:

Вот очень важная и интересная работа: https://arxiv.org/abs/2405.15071. Думаю, что её будут обсуждать очень много где, и будет продолжение идей. Но к сожалению она достаточно техническая, и требует некоторого бекграунда, чтобы разобраться. Все выводы и мелкие, но важные детальки я не смогу выписать в посты, потому рекомендую технарям прочитать самостоятельно, оно того стоит.

Для того, чтобы понять ниженаписанное, необходимо знать следующие термины:

Валидация —обычно при обучении моделей в самом простом случае все данные разбивают на 2 части: тренировочная часть и валидационная, служащая для проверки. Затем алгоритм (нейросеть) тренируют на тренировочной части, а на валидационной замеряют качество. Так как модель не видела эти данные во время тренировки, то можно сказать, что это хорошая оценка того, как модель будет вести себя в реальных условиях, на данных, которые не встречались.

Генерализация/обощение —грубо говоря, когда модель находит какие-то паттерны и закономерности в данных, которые являются общими, а не присущими только маленькому набору данных. Если модель генерализуется, то она хорошо работает на данных, которые до этого не видела.

Переобучение —не «давай обучим снова?», как можно подумать. В какой-то момент модель перестаёт учить обобщающиеся/генерализуемые паттерны, и начинает переобучаться —и её качество на валидационной части падает. В этот момент обучение кажется логичным приостановить —мы как бы думаем, что на новых данных, которые модель не видела, лучше уже не получится сделать. Например, сейчас у вас качество 80% на тренировочных данных и 78% на валидацонных. А через некоторое время 90% и 50%. Получается, что модель стала хуже -> лишняя тренировка не помогла. Но оказывается, что существует...

Гроккинг —это когда после очень долгого обучения, когда кажется, что модель уже переобучилась, и показывает почти идеальное качество на тренировочной выборке (то есть больше учиться нечему), но низкое на валидации, вдруг ситуация меняется. И модель неожиданным образом, не меняя качество на трейне, резко улучшается на валидации. Лучше всего это охарактеризовать фразой «чё-то щёлкнуло внутри»: каким-то образом модель пришла к алгоритму, который очень хорошо обобщается. Развивая пример выше, представьте, что качество стало 97% и 30% (то есть ещё хуже на валидации), а потом вдруг 98% и 95% —хотя казалось бы, метрика ведь деградировала.

На данный момент не ясно, как и почему случается гроккинг. Он замечен только в маленьких моделях на малом наборе задач —но не потому, что не масштабируется, а потому, что он возникает только тогда, когда модель тренируют ОООООООООЧЕНЬ долго (в десятки раз дольше обычного). В одном из экспериментов, например, о нём узнали лишь потому, что оставили компьютер на ночь включённым по ошибке (а там обучалась маленькая модель на простой задаче).

Но считается, что в момент гроккинга в модели возникает некоторый набор логики, который очень строго формализован и почти не ошибается. Буквально как если бы вы писали программу, где всё задано жёсткими условиями «если <что-то> то <что-то>». Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.

Интерпретирование моделей —это как раз попытка заглянуть в модель после обучения и разобраться, какой именно механизм она изобрела для того, чтобы решать задачу. Таким образом получается показать, что модель точно будет надёжно работать с примерами, которые до этого не встречала. Например, вот https://www.neelnanda.io/mechanistic-interpretability/modular-addition-walkthrough работа по изучению сложения по модулю.

Наконец, давайте поговорим про конкретно эту работу. Для этого нужны следующие понятия:

Атомарный факт —самая малая частица информации, выраженная как факт. В рамках этой работы подразумеваются факты в духе «Жена Барака —Мишель», только тут они выражаются как тройки (Сущность 1, отношение, Сущность 2). Другой пример: «Мишель родилась в 1964-м» (тут отношение —это «родиться в»).

Задача композиции —это задача выведения связи по двум атомарным фактам. По примеру выше человек может легко догадаться, что «Жена барака родилась в 1964-м». Для того, чтобы осуществить это, нам нужно как бы сделать один прыжок в логике между двумя атомарными фактами.

Задача сравнения—это задача выведения отношения по двум атомарным фактам. Есть три вида отношений: больше, меньше, равно. «Трампу 78 лет», «Байдену 82 года» превращается в «Трамп моложе Байдена». Подумайте, как вы в голове решаете такую задачу, по шагам.

Во время тренировки модели показываются все атомарные факты (чтобы она могла выучить и дальше оперировать ими), но показывают лишь часть связей. Причём эти связи разбиты по сущностям. Сначала все атомарные факты бьют на две группы. Из первой сгенерируют связи, и их и будут показывать модели. Вторую откладывают, для тех фактов будет показано 0 связей, только факты.
Первая группа называетсяIn-Distribution (ID на графиках), так как по сути мы даём модели понять, как работают конкретные связи на конкретных фактах. А для второй группы мы вообще не показываем связи никаким образом, модель их никогда не видела и не знает, только голые знания. Такое называется Out-of-Distribution (OOD на графиках). По идее, если модель может понять логику и создать общий алгоритм работы со знаниями —то OOD будет работать.

Основная вера скептиков нейросетей — что OOD не работает. То есть если модель что-то не видела, она никогда не сможет до этого догадаться. Но в теории, если модель смогла грокнуть алгоритм решения и изобрести логику, то нет причин не решать задачи, которые раньше не встречались.

На картинке вы видите два графика для двух вышеописанных задач. На обоих графиках красная линия очень быстро доход почти до 100% — модель выучивает тренировочную выборку. В этот момент качество на ID/OOD-валидации очень маленькое. Обычно люди разводят руки и говорят «эх, нихрена не выучилось...». Авторы же тренируют модель в 10-15 раз дольше (относительно достижения этой точки).

Задача 1 (слева)
В задаче композиции гроккинг возникает только для ID-примеров, то есть модель может вывести новые связи (отношения между фактами), которые ей не показывали, но только если с этими атомарными фактами уже были демонстрации установки связей. OOD не работает.

Задача 2 (справа)
В задаче сравнения картинка существенно отличается, и даже на 10^4 шагов качество ID/OOD существенно отличается от нуля. А к концу обучения и вовсе подходит к 100% — то есть модель может сравнивать произвольные атрибуты двух разных сущностей даже если они никогда не фигурировали в сравнениях, вообще ни в каких.

Но это была не самая интересная часть статьи —не зря же я писал про интерпретируемость?

Авторы задаются вопросами: почему в одном случае модель обобщается и работает, а в другом нет? Как именно модель грокнула задачу и начала решать задачу, какой механизм используется?

Оказывается, эти два вопроса связаны.—все дело в том, как модель решает задачу внутри себя.

В задаче композиции модель разбивается на 2 половинки. В первой она решает задачу «вытащить релевантную сущность», а во второй «вытащить нужное значения для найденной сущности». На примере:
—Возраст жены Барака ... (нужно написать цифру из атомарного факта)

Первые слои вытаскивают информацию о жене Барака (Мишель), и задача как бы становится «Возраст Мишель..» (это было дано в атомарных фактах). И вторая половина модели просто достаёт этот факт.

Продолжение в следующем посте:

Аноним 29/05/24 Срд 14:59:53 #30 №762989

>>762987
Продолжение:

Проблема в том, что поскольку для части сущностей мы никогда не показывали такие задачки отношений, то модель не запомнила их и не разместила во второй половине. Ей просто неоткуда достать информацию, её не существует в момент обработки —она осталась в первых слоях, в первой половине модели. И это указывает на ограничение архитектуры трансформера —у каждого блока своя память (зашитая в параметры модели), и не получится вернуться на несколько блоков назад, чтобы найти какой-то факт. Если пропустил — всё. Авторы валидируют эту гипотезу изменением трансформера, предоставляя возможность обращаться к фактам из первых слоёв (по сути, банки знаний были общими для двух половинок) —и это заставляет модель работать даже для OOD задачи!

Вот так интерпретирование подсказывает, как нужно менять архитектуру, чтобы получить модель, вырабатывающую генерализуемую логику.

Но почему всё заработало сразу в задаче сравнения? А там работал другой механизм —в первой половине модели происходило извлечение фактов сразу для обеих сущностей (в моём примере это возраст Трампа и Байдена), а во второй половине происходило сравнение. Так как все факты модель успела запомнить, то такое «параллельное» извлечение знаний/выполнение задачи позволило работать с любыми сравнениями.

Самое крутое —что можно вот прямо заглянуть в трансформер и понять, решает модель задачу (научилась логике) или же просто запоминает, что ей говорят.

Теперь ещё несколько фактов из работы:
—скорость появления гроккинга зависит от соотношения двух групп данных во время тренировки: атомарные факты и связи/отношения. Гроккинга можно достичь значительно быстрее, если кормить модели в 15-18 раз больше связей нежели фактов. Большая находка тут в том, что гроккинг, получается, не так зависим от вбуханных в обучение мощностей/количества данных, сколько от «умности» (качества) данных.
—в тысячный раз оказывается, что бОльшие модели сходятся быстрее. То есть даже если данные и ресурсы на обучение не менять, можно добиться лучших результатов. В теории, если у нас кончатся данные после GPT-6, то GPT-7 можно просто сделать больше и учить на тех же данных —всё равно будет лучше.
—интересно, как трансформер выучил «параллельное» решение казалось бы последовательной задачи (это я про сравнение). Это не первый раз, когда модель находит шорткат и приводит к генерализуемому решению.
—фраза из статьи, которую можно кидать критикам нейронок в лицо (я даже затвитил с тэгом Гари Маркуса аххаха): «Разница в полученных обобщениях по двум изучаемым задачам также подчеркивает необходимость контролируемого и механистического исследования [интерпретирования] понимания рассуждений моделей, прежде чем делать общие заявления о его ограничениях». По примеру очевидно, что генерализация случается, а когда нет —тогда нужно понять, чем это вызвано, а не кричать «Deep Learning hitting the wall» (10 лет)
—когда модель грокает задачу, то вся логика становится очень компактной и занимает очень малую часть модели. Это потому, что вместо запоминания наступает понимание. Гроккинг вообще часто этим объясняется (модель сначала запоминает, потом медленно выводит прваила, и тогда большая часть знаний будет не нужна —их можно получать на лету логикой). Верю, что через улучшений по этому направлению модели получится сделать меньше, но умнее.
— регуляризация помогает достигнуть гроккинга быстрее, так как модель по сути заставляют выполнять задачу меньшим количеством параметров, что уменьшает размер схемы (набора блоков, которые реализуют логику), и потому модель не ударяется в запоминание.

В работе ещё с десяток крючков, за которые можно зацепиться и начать рассуждать про то, что и как нужно менять, чтобы модели стали умнее, не галлюцинировали итд.

Но все эти свойства, как вы видите, появляются в результате гроккинга, когда модель учат неприлично много. Про это есть релевантное исследование от META — там одни и те же факты показывали по 1000 раз, чтобы модель их запомнила. Для меня это выглядит как «даже если у нас нет новых данных после GPT-5, и даже если мы не будем увеличивать модели дальше, то просто обучая их не по 3 месяца, а по 2-3 года, мы будем получать очень заметные улучшения». Инвестируем в NVIDIA, ждём суперкластеров

Аноним 29/05/24 Срд 17:29:13 #31 №763156

>>762948
>titanic.csv
Лол, ЕМНИП, там выжил примерно 1 взрослый мужчина, так что на признак sex=MALE && age > 12 надо сразу ноль выводить. Графики KAN это показали?
>>762987
>Чудо в том, что модель как бы сама изобретает эту программу, а не вы её пишете заранее.
Охуеть конечно чудо, потратить миллиарды компут тайма на прописывание какой-нибудь очевидной истины.

Ну и да. Статья показала, что модели нужно обучать ещё, значительно, охуеть как дольше. Это не прогресс, а деградация нахуй.

Аноним 29/05/24 Срд 19:19:34 #32 №763219

>>763156
>Охуеть конечно чудо, потратить миллиарды компут тайма на прописывание какой-нибудь очевидной истины.

Вообщет на развитие логики

Аноним 29/05/24 Срд 19:37:08 #33 №763261

photo2024-05-2914-35-13.jpg

Так ребятки, а теперь всё серьёзно! Возможно переход на KAN откладывается, так как одно из его главных преимуществ удалось достичь на классической архитектуре. На днях произошёл один серьёзный прорыв в трансформерах. Они теперь МОГУТ справляться с математикой, если подобрать правильные эмбеддинги

Есть известная проблема: хотя LLM хорошо справляются с естественным языком, они все еще могут уверенно утверждать, что 2+2 = 5. Проблему пытаются решать файн-тюнингом, прикручиваем питона и т.д.

А на днях вышла статья, в которой ученые утверждают, что на самом деле нужно просто внимательно поработать с эмбеддингами чисел. В работе доказано, что проблема трансформеров в том, что они не способны отслеживать "положение" числа относительно нуля. "Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг" –предложили исследователи.

И это заработало! Всего один день обучения на единственной GPU, и удалось достичь SOTA перформанса: 99% accuracy в задачах сложения 100-значных чисел. При этом интересно, что обучалась модель ТОЛЬКО на 20-значных.

Статья: https://huggingface.co/papers/2405.17399

Аноним 29/05/24 Срд 20:05:58 #34 №763290

>>763219
Так нету там логики. Вся "логика" это перебор в градиентном спуске, пока само не зародится.
>>763261
>Так давайте же просто добавим информацию о такой позиции прямо в эмбеддинг
Ебать, так они через пятилетку дойдут до моих идей. Надо бы мне работать быстрее, застолбить и запатентовать свои разработки и ебать весь мир.
>99% accuracy
Вся суть современного машобчика - складываем числа с отличной от 100% точностью.

Аноним 29/05/24 Срд 21:06:17 #35 №763352

>>763290
Ахуительные истории

Аноним 29/05/24 Срд 21:39:40 #36 №763394

>>763352
Хули поделать, если это так.

Аноним 01/06/24 Суб 05:56:12 #37 №766262

>>740503
Мне бы третья рука хобот не помешала.

Аноним 15/06/24 Суб 13:01:38 #38 №787164

>>763261
Продолжай постинг, очень интересно почитать.

Аноним 15/06/24 Суб 17:14:32 #39 №787604

>>726765
> если за это вообще возьмутся
С объемом бабок, которые сейчас корпорации вливают в нейронки, возьмутся почти сразу. Все эти откладывания были, пока гонка не началась и перспективы непонятны были. Сейчас она в самом разгаре, каждая компашка хочет выжать максимум из алгоритмов и железа.

Аноним 15/06/24 Суб 17:20:05 #40 №787617

>>763261
Проиграл с треда. Революция, невиданный прорыв, deep learning 2.0, меняет вообще все, эпоха agi ближе. Спустя несколько постов - всем спок, обычные сетки тоже пойдут, продолжаем их тренить.

Аноним 15/06/24 Суб 18:41:47 #41 №787748

>>787617
Там хуйня, КАН хорош не только работой с числами. Главное там интерпретируемость.

Аноним 15/06/24 Суб 20:26:51 #42 №787962

>>726541 (OP)
Ну и как там с подрывом десятилетия.

>>787748
> Главное там интерпретируемость.

Наинтерпретировали и уснули.

Аноним 15/06/24 Суб 21:30:52 #43 №788103

>>787962
>Наинтерпретировали и уснули.
Да не, просто на этом сложнее заработать. Проще убить 1000 человек системой доктора-ИИ, нежели чем пилить надёжную и потратить на это на 100 баксов больше. Формула для расчётов была приведена в бойцовском клубе.

Аноним 28/06/24 Птн 23:13:52 #44 №803949

Когда уже андроиды как в Детроит бекам э хуман

Аноним 29/06/24 Суб 12:04:28 #45 №804489

>>803949
30 лет анончик, 30 лет...

Аноним 29/06/24 Суб 14:13:20 #46 №804558

>>804489
10 лет - максимум. Ну может не прям на уровне Детроит, но близко

Аноним 29/06/24 Суб 16:14:53 #47 №804672

>>804558
Я и через 10 лет скажу, что через 30, ибо как термояд. Уж слишком сложна кинестетика человека, и слишком нахуй никому не нужно, дешёвое роботизированное говно дешевле и проще.

Аноним 29/06/24 Суб 16:16:43 #48 №804673

>>804672
Чел, фундаментальные проблемы андроидов уже начинают решаться, а дальше оглянуться не успеешь, как они всё заполонят

Аноним 29/06/24 Суб 16:23:43 #49 №804677

>>804673
>Чел, фундаментальные проблемы андроидов уже начинают решаться
Где? Кожа- так сраный TPE в топе, даже близко не кожа. Питание? Прорыв каждую наносекунду, а в работе сраные литий ионки. Искусственные мышцы? Дальше лабораторий уже лет 10 не выходят. И так по всем параметрам, кроме разве что скелета, который можно попилить из дешёвого сплава. И я молчу про нормальный мозг, лол.

Аноним 29/06/24 Суб 16:31:20 #50 №804690

>>804677
Это всё не нужно. Качества современных секс-кукол уже хватает для внешней оболочки, а дальше остаётся начинить всё это дело норм мозгами. И тут за последние два года произошли фундаментальные сдвиги: https://www.youtube.com/watch?v=bdWPC1zxxR8

Все вычисления на облаке. Работа осуществляется по дому через мощный вай-фай, можно и на улице через сеть 5G. Современных литий-ионных аккумов будет хватать минимум на пару часов без подзарядки

Аноним 29/06/24 Суб 16:48:59 #51 №804702

>>804690
>Качества современных секс-кукол уже хватает для внешней оболочки
Я и сказал, ТПЕ это всё, что сейчас есть. И то говно. Ты видел, что происходит в любой позе, отличной от Т позы, в которой их заливают? Там пиздос и неестественные сгибы.
Так что не коупи, нет тут нихуя.
>Все вычисления на облаке.
То есть никакого SEGSа, и все твои потные рожи будут выложены в интернет в утечках. Ахуеть, спасибо, но не нужно.

Аноним 29/06/24 Суб 19:07:37 #52 №804875

>>804702
>То есть никакого SEGSа, и все твои потные рожи будут выложены в интернет в утечках. Ахуеть, спасибо, но не нужно.

Трахайся в маске

Аноним 29/06/24 Суб 20:54:41 #53 №804978

>>804690
>кумер как всегда о куме
выйди нахуй, тред вообще не об этом

Аноним 29/06/24 Суб 20:58:09 #54 №804984

>>804875
Я предпочитаю не допускать устройства слежки в свой дом.
>>804978
Все технологии в первую очередь применяются для секса (а сейчас для мастурбации), привыкай.

Аноним 29/06/24 Суб 21:11:32 #55 №805003

>>804984
Смартфоном не пользуешься?

Аноним 29/06/24 Суб 21:43:41 #56 №805031

>>805003
Пользуюсь. Рутован, снесено всё что можно снести, весь софт ставлю из f-droid, в фоне ничего не передаётся, не записывается и вообще телефон не проявляет никакой активности, пока я его в руки не возьму.
Но это оффтоп.

Аноним 29/06/24 Суб 23:17:18 #57 №805127

>>805031
Ну таких параноиков как ты - 1%, без вас рынок роботов-андроидов не особо пострадает. Не покупайте их. Этого никто не заметит. Миру похуй. Все остальные будут брать себе няшных кошек-жён и довольно урчать

Аноним 29/06/24 Суб 23:27:10 #58 №805135

>>805127
>Не покупайте их.
Возьму, куплю, рутую и перенаправлю на свой ИИ-сервер. Как тебе такое, Илон Маск?
>Все остальные
Ещё 2%? Шизиков, готовых трахать кукол, больше не наберётся. А у тех, кто хочет, банально не будет 50 килобаксов на них.
Так что увы и ах.

Аноним 30/06/24 Вск 01:08:45 #59 №805236

>>805135
Ага, и больше 10 компьютеров не понадобится на всю страну. Знаем эти истории

Аноним 30/06/24 Вск 11:26:53 #60 №805442

>>805236
Только между этой фразой и компьютером в каждом кармане прошло лет 50. Удачного ожидания, встретимся в 2074!

Аноним 30/06/24 Вск 11:35:08 #61 №805451

жпт4 говорит что эта архитектура хуйня нерентабельная. пиздит?

Аноним 30/06/24 Вск 12:17:54 #62 №805476

>>805451
У жпт4 устаревшие знания, эта архитектура только недавно была доведена до ума

Аноним 30/06/24 Вск 12:23:45 #63 №805478

>>739523
>Оно даже не может пояснить зачем человеку нужен сон.
Если сравнивать с ЛЛМ, то для дообучения. Всё что ты переживаешь в течении дня хранится в краткосрочной памяти. А во время сна она перерабатывается: мусор удаляется, остальное сравнивается с имеющейся информацией, делаются какие-то полезные выводы и записываются в основную память, краткосрочная очищается.
Правда это натягивание медицины на глобус математики.
Точно этот процесс пока никто не воспроизвёл.

Аноним 01/07/24 Пнд 12:56:14 #64 №806455

IMG20240701123901.jpg

Ссылочка https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-researchers-found-a-way-to-run-llms-at-a-lightbulb-esque-13-watts-with-no-loss-in-performance#xenforo-comments-3847897🐸🐸🐸

Машинный перевод статьи:

Исследователи ИИ запускают чат-ботов с использованием искусственного интеллекта мощностью 13 ватт без потери производительности — матричное умножение без использования LLM дает огромные преимущества
Новости
Автор: Кристофер Харпер
опубликовано 26 июня 2024 г.

Центры обработки данных радуются, поскольку Nvidia ощущает странный холодок в воздухе.

Светодиодные лампочки, которые обычно потребляют около 10 Ватт энергии на штуку.

Исследовательская статья из Калифорнийского университета в Санта-Крузе и сопровождающий ее отчет о том, как исследователи искусственного интеллекта нашли способ запускать современные LLM с миллиардными параметрами всего за 13 ватт мощности. Это примерно столько же, сколько у светодиодной лампы мощностью 100 Вт, но, что более важно, она примерно в 50 раз эффективнее, чем мощность в 700 Вт, необходимая для графических процессоров для центров обработки данных, таких как Nvidia H100 и H200, не говоря уже о предстоящем Blackwell B200, который может потреблять до 1200 Вт на один графический процессор.

Работа была выполнена с использованием специального оборудования FGPA, но исследователи поясняют, что (большая часть) повышения эффективности может быть достигнута за счет использования программного обеспечения с открытым исходным кодом и настройки существующих настроек. Большая часть преимуществ достигается за счет исключения матричного умножения (MatMul) из процессов обучения и логического вывода в LLM.

Как удалось удалить MatMul из нейронной сети, сохранив при этом производительность и точность? Исследователи объединили два метода. Во-первых, они преобразовали систему счисления в "троичную", используя значения -1, 0 и 1. Это позволяет выполнять вычисления с суммированием, а не с умножением чисел. Затем они ввели в уравнение вычисления, основанные на времени, предоставив сети эффективную "память", позволяющую ей работать еще быстрее при меньшем количестве выполняемых операций.

Основной моделью, которую исследователи использовали в качестве ориентира, является LLM от Meta. Это начинание было вдохновлено статьей Microsoft об использовании троичных чисел в нейронных сетях, хотя Microsoft не зашла так далеко, чтобы отказаться от матричного умножения или использовать свою модель с открытым исходным кодом, как это сделали исследователи из Калифорнийского университета в Санта-Крузе.

Все сводится к задаче оптимизации. Руи-Цзе Чжу, один из аспирантов, работавших над этой статьей, говорит: "Мы заменили дорогостоящую операцию на более дешевую". Еще предстоит выяснить, может ли этот подход быть универсально применен к решениям в области искусственного интеллекта и LLM, но если он окажется жизнеспособным, то может радикально изменить ландшафт искусственного интеллекта.

За прошедший год мы стали свидетелями, казалось бы, неутолимого стремления ведущих компаний, занимающихся ИИ, к власти. Это исследование показывает, что во многом это была гонка за первенство с использованием неэффективных методов обработки. Мы слышали комментарии от авторитетных людей, таких как генеральный директор Arm, предупреждающих, что если потребности в мощности ИИ будут продолжать расти нынешними темпами, то к 2030 году они составят одну четвертую часть потребляемой в Соединенных Штатах электроэнергии. Сокращение энергопотребления до 1/50 от текущего уровня будет означать значительное улучшение.

Мы надеемся, что Meta, OpenAI, Google, Nvidia и все другие крупные игроки найдут способы использовать этот прорыв в области открытого исходного кода. Более быстрая и эффективная обработка рабочих нагрузок с помощью искусственного интеллекта приблизила бы нас по функциональности к человеческому мозгу — по некоторым оценкам, мозг потребляет примерно 0,3 кВт*ч энергии в день, что составляет 1/56 от того, что требуется Nvidia H100. Конечно, многим магистрату требуются десятки тысяч таких графических процессоров и месяцы обучения, так что наше "серое вещество" еще не совсем устарело.

Аноним 03/07/24 Срд 17:38:20 #65 №808255

photo2024-07-0317-25-06.jpg

Давненько ничего не слышали про KAN? Может архитектура умерла?

А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Вот самые интересные:

➡️KANs for Time Series Analysis https://arxiv.org/pdf/2405.08790 Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.

➡️Convolutional KAN https://arxiv.org/pdf/2406.13155
Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.

➡️Demonstrating the Efficacy of KANs in Vision Tasks https://arxiv.org/pdf/2406.14916 В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.

➡️GraphKAN https://arxiv.org/pdf/2406.13597 Приложение кана для графовых сетей. На тестах также многообещающе. Доступен код.

➡️ReLU-KAN https://arxiv.org/pdf/2406.02075 А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.

Аноним 03/07/24 Срд 22:32:53 #66 №808539

>>808255
Жду, когда натрейнят ЛЛМочку хотя бы на 7В параметров. А то пойдёт вслед за мамбой.

[mailto:sage] Аноним 07/07/24 Вск 17:53:06 #67 №811343

>>763261
ты реально следишь за малейшими новостями по теме? уважительно

Аноним 11/07/24 Чтв 13:46:57 #68 №814105

Когда же уже нейронка, с которой действительно можно каждый день говорить по душам, без галлюцинаций и амнезии?

Аноним 11/07/24 Чтв 16:02:07 #69 №814160

Жду интеграции КАНа с Битнетоподобными системами.

Аноним 11/07/24 Чтв 16:56:36 #70 №814189

шарящие аноны, можете сказать как вообще улучшают сетки типа клода или гпт?

они вроде и становятся умнее, но когда их юзаешь, понимаешь что, что-то не так с ними

хз как объяснить но часто вижу у них шаблонные ответы в виде списков или что сетка может согласиться с каким-то неочевидным фактом, но при этом сам факт будет неправильный

видел презентации от создателей этих моделей: показывают количество параметров и размер самой модели.
неужели все что они делают, это просто увеличивают размер модели настолько, насколько это позволяют мощности, после чего чистят вилкой датасет от радикальных идей и склоняют сетку к сое намеренно?

разве у них не в интересах найти йоба-решение от галлюцинаций или хотя бы заставить эти сетки помнить 100% в размерах больших контекстов?

Аноним 11/07/24 Чтв 20:19:44 #71 №814308

>>814105
Через 30 лет вестимо, вместе с термоядом.
>>814160
Ты про байесовские сети забыл. Вот уж где база.
>>814189
>неужели все что они делают, это просто увеличивают размер модели настолько, насколько это позволяют мощности, после чего чистят вилкой датасет от радикальных идей и склоняют сетку к сое намеренно?
Ты начинаешь понимать...

Аноним 29/07/24 Пнд 18:33:16 #72 №831780

Посоны, где же новости?

Аноним 29/07/24 Пнд 20:35:38 #73 №831882

>>831780
Видимо сбылось моё предсказание >>808539
>пойдёт вслед за мамбой

Аноним 31/07/24 Срд 09:55:27 #74 №834288

А что, разве с Мамбой совсем всё плохо? Вроде Mamba Deepseek Coder вышла.

Аноним 31/07/24 Срд 18:10:52 #75 №834995

>>834288
Охуеть, 1 модель! Тогда как сраных трансформеров только базовых по 5 штук на месяц выходят, а уж файнтюны каждый день по КД.

Аноним 02/08/24 Птн 10:32:37 #76 №838053

>>804984
>Все технологии в первую очередь применяются для создания оружия
Поправил этого маленького любителя подрочить.

Аноним 02/08/24 Птн 20:43:01 #77 №838874

>>838053
Ты из какого века? Сейчас наоборот, в оружии запоздание, вон, дроны известно где летают любительские, а проф хуита за миллионы бабок пылится на складах. Не удивлюсь, если первыми человекоподобными роботами на поле боя будут секс-куклы с лламой в башке, лол.

Аноним 02/08/24 Птн 21:25:54 #78 №838964

>>838874
>в оружии запоздание
Те, у кого запоздание в оружии, теряют дотационные территории каждый день.
А военный бюджет США каждый год под триллион.

Аноним 02/08/24 Птн 22:01:16 #79 №839035

>>838964
>каждый год под триллион.
Триллион спизженных денег на бесполезные авианосцы, которых выебут дроны и ракеты из ржавых труб, потому что не будут сбиваться с цели лазерными сбивателями цели потому что у ржавой трубы нет оптики.
Гражданка с копеечными чипами подебила военку с золотыми ламповыми компутерами, лол.

Аноним 02/08/24 Птн 23:04:34 #80 №839199

>>839035
>выебут
Ох уж эти перемоги в будущем времени.

Аноним 04/08/24 Вск 20:37:39 #81 №841802

>>739030
>Если что-то в архитектуре нейросети является константным, сделайте это обучаемым
Поддерживаю. Почему на нодах в Кане обычное суммирование? Давайте тоже туда обучаемую функцию. Почему связи между нодами предопределенные? Убираем случайную связь, выбираем две случайные ноды и связываем их случайной функцией. Обучаться будет в миллион раз дольше правда, но инференс должен быть быстрее и модель ещё меньше. Но это не точно

Аноним 04/08/24 Вск 20:53:23 #82 №841833

>>839199
>в будущем
Он не знает

Аноним 04/08/24 Вск 22:38:23 #83 №841991

>>841802
>Давайте тоже туда обучаемую функцию.
Да, не против.
>Почему связи между нодами предопределенные? Убираем случайную связь
А вот это лишнее. Если судить по анимированным гифкам обучения, по сути эта сеть имеет предопределённый набор теорий, которые во время обучения применяются и не подходящие прунятся. Так что по итогу связи там образуется вполне себе по смыслу, но заранее непредсказуемые.

Аноним 14/09/24 Суб 22:12:03 #84 №886923

Так блядь, почему этого тут до сих пор нет?
KAN 2.0: Kolmogorov-Arnold Networks Meet Science
https://arxiv.org/abs/2408.10205

Аноним 14/09/24 Суб 22:29:57 #85 №886939

Ребят, тут почти AGI, что делать будем?

https://www.youtube.com/watch?v=scOb0XCkWho

Аноним 16/09/24 Пнд 14:20:21 #86 №888633

>>739523
Отнюдь, психология развилась до стоящего результата. Психологи могут объяснить работу мозга, закономерности проявления мышления.
Проблема состоит в другом, что ИИ делают ТОЛЬКО IT специалисты, хотя должную роль в развитии ИИ также должны играть и психологи! В поправках "мышления" ИИ, в придании антропоморфности, в общем, приравнен Я ИИ к ЕИ - естественному интеллекту

Аноним 16/09/24 Пнд 17:08:46 #87 №888856

>>726541 (OP)
Если прорыв, то каловый.

Конец года, 2024:
Рисует пальцы все еще с 10го раза. Причем, за норм результат я считаю, когда пальцы просто не размазаны.
По прежнему глаза на жопах и пизды на коленях на каждой второй пикче.
Если модели не нравится токен, то вместо пикчи будет шум и надо будет заебаться, чтобы найти плохой токен.
По прежнему нет одной модели для всего.

Аноним 16/09/24 Пнд 17:33:35 #88 №888903

>>888633
Нет. Проблема в том, что психологи никаких скилов кроме гнилого пиздежа не имеют
Если бы они умели хоть что то, специалисты по ии их бы с удовольствием пригласили.

Аноним 16/09/24 Пнд 19:00:45 #89 №889009

>>888633
> Отнюдь, психология развилась до стоящего результата.
Нет.
>Психологи могут объяснить работу мозга, закономерности проявления мышления.
Этим занимаются нейрофизиологи.
> Проблема состоит в другом, что ИИ делают ТОЛЬКО IT специалисты
Потому,что это математический алгорртм, он не имеет Я и не умеет думать
>хотя должную роль в развитии ИИ также должны играть и психологи!
Угу, а также священники, адвокаты, феминистки, сатанисты, зоофилы и другое активистское хуйло.
Але блять, ИИ ни у кого в долг не занимал.
>В поправках "мышления" ИИ, в придании антропоморфности, в общем, приравнен Я ИИ к ЕИ - естественному интеллекту
Открытые LLM уже выдают охуенный результат бесплатно и безо всякого антро

Аноним 18/09/24 Срд 10:31:18 #90 №890430

>>889009
>Потому,что это математический алгорртм, он не имеет Я и не умеет думать
Но ведь нейропсихология так же говорит о человеке, почитай Метцингера того же.
Вот с тем, что ИИ является сознанием и не является человеческим или похожим на любое другое нам известное сознание - я согласен

Аноним 20/09/24 Птн 11:46:20 #91 №892699

>>888856
>Рисует пальцы все еще с 10го раза

Это где? Идиограм 2.0 попробуй, пальцы в полном порядке в 4 генерациях из 5

Аноним 20/09/24 Птн 20:45:53 #92 №893225

>>892699
>4 из 5
Лол, чтобы твой анус так оперировали, с вероятностью его потерять в 20%.

Аноним 21/09/24 Суб 16:19:04 #93 №894065

>>893225
Так тут можно черипикать, вся быстрее, чем рисовать самому с нуля

Аноним 21/09/24 Суб 16:19:37 #94 №894066

>>894065
всяко*

Fix

Аноним 21/09/24 Суб 16:20:28 #95 №894067

photo2024-09-2116-11-50.jpg

Вышла полная версия интервью с разработчиками o1. Основное и самое интересное:

⚪️ Вдохновлялись RL из AlphaGo. Название o1 символизирует, что это новое поколение моделей: от есть не очередная gpt, а полная смена подхода и парадигмы. Кстати, лого модели символизирует пришельца- сверхразума.

⚪️ Разработка o1 была большим вызовом: разработчики столкнулись с кучей проблем с масштабированием рассуждений и оптимизацией. Также много внимания пришлось уделить этике (так они назвали то, что скрывают от пользователей большую часть рассуждений 😍)

⚪️ Оказывается o1 mini на большинстве тестов не отстает от o1 preview, потому что обучена рассуждать ничуть не хуже, просто знает меньше фактов. Очень важный тейк с точки зрения скейлинга.

⚪️ Во время тестирования модели был выявлен огромный потенциал модели к философским рассуждениям, творческому подходу и, самое главное, самокритике. Это, по словам разработчиков, и есть поворотные фичи для ИИ.

⚪️ В планах у OpenAI прикрутить к модели интерпретатор, сделать ее мультимодальной и более управляемой для пользователя.

Аноним 21/09/24 Суб 16:25:52 #96 №894072

IMG6206.MP4

IMG6290.MOV

Сбер начал тестирование автономных грузовиков на трассе М-11 «Нева» с водителем-испытателем на пассажирском сидении (вебм 1).

«Старлайн» перехватила эстафету Сбера и тоже пересадила водителя-испытателя автономного грузовика на переднее пассажирское сидение (вебм 2)

Аноним 21/09/24 Суб 19:11:13 #97 №894237

>>894067
>>894072
Сори, тредом ошибся