Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №73 /llama/

Аноним 31/07/24 Срд 18:06:12 #1 №834981

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

17223281983880.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGUF и EXL2, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGUF весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус до 1 февраля 2024 года
https://huggingface.co/LoneStriker, https://huggingface.co/mradermacher Новые поставщики квантов на замену почившему TheBloke
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://github.com/Mobile-Artificial-Intelligence/maid Запуск самой модели на телефоне
https://github.com/Vali-98/ChatterUI Фронт для телефона
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard Сравнение моделей по (часто дутым) метрикам (почитать характерное обсуждение)
https://chat.lmsys.org/?leaderboard Сравнение моделей на "арене" реальными пользователями. Более честное, чем выше, но всё равно сравниваются зирошоты
https://huggingface.co/Virt-io/SillyTavern-Presets Пресеты для таверны для ролеплея
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
https://rentry.co/llm-models Актуальный список моделей от тредовичков

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>829353 (OP)
>>825177 (OP)

Аноним 31/07/24 Срд 18:07:20 #2 №834987

Ребят, я новенький. Что делать? Как кумить?

Аноним 31/07/24 Срд 18:09:28 #3 №834992

>>834715 →
И коммандер 105 такой https://www.youtube.com/watch?v=1cDcHq7nQFM
>>834721 →
От ошибок в склонениях и словах до скудного и скучного слога. Дополнительно бывает еще деградация качества ответов, когда на инглише все отлично а на русском тупеет.
>>834737 →
Наоборот понимать проще, даже первой лламе можно было писать на русском и она инструкции все выполняла, отвечая на инглише.
>>834760 →
> у Ламы постоянно просеры
Где? Стиль более унылый, но может быть связано с промтом. Квен под конец тоже начала тупить короткими предложениями, но это можно оправдать стилем.
>>834795 →
> 7\10 llama3.1 70b
> 7\10 llama3 70b
> 5\10 gemma-27b
Довольно странно, гемма в русском хороша.
>>834817 →
> maid
Разговорить ее на большой контекст с нормальной моделью у кого-то получилось? Чтобы без внезапных остановок генерации.

Аноним 31/07/24 Срд 18:12:08 #4 №835000

Бля, а почему мистраль немо из коробки такая хорни? Оно даже на и близко не эротических промптах и персонажах может начать выдавать всякое, а на eRP с второго-первого сообщения в штаны лезет блять.

Аноним 31/07/24 Срд 18:13:48 #5 №835004

>>835000
База. Поэтому она мне и нравится. Юзаю вместо геммы. На лламу вообще смотреть не хочется - там ужас соя

Аноним 31/07/24 Срд 18:15:11 #6 №835007

>>834928 →
читай шапку.

Аноним 31/07/24 Срд 18:16:31 #7 №835013

>>834987

Ставь кобольда и таверну, скачивай мистраль немо, открывай мистраль через кобольд, соединяй с таврной, открывай в ней любую карточку персонажа и все, погнал

Аноним 31/07/24 Срд 18:16:39 #8 №835014

>>834992
>Дополнительно бывает еще деградация качества ответов, когда на инглише все отлично а на русском тупеет.
Лол, это везде и всегда есть, и не дополнительно, а главная проблема.

Аноним 31/07/24 Срд 18:17:05 #9 №835018

Есть 16 VRAM, какой квант exl2 NeMo в них разместить и как посчитать ебучий контекст? Хочу около 20 тысяч хотя бы

Аноним 31/07/24 Срд 18:18:33 #10 №835022

image.png

ВОТ И ВСЕ.

Бля, если честно я думал, что это конец и корпораты выиграют. Но кажется в течении следующих 5 лет у нас реально будет AGI, причем умещаться все будет в каждое домашнее железо продвинутого уровня. А вы как думаете?

Аноним 31/07/24 Срд 18:19:35 #11 №835024

>>835018

6 бит.

>хочу 20 гб

Квантуй кэш до 4 бит, влезет.

Аноним 31/07/24 Срд 18:21:03 #12 №835026

1722439242095.jpg

>>835022
Обязательно. Ты главное почаще себе об этом напоминай. Не забудь на тесты нафайнтюнить, а то опять в таблице низко будешь.

Аноним 31/07/24 Срд 18:21:36 #13 №835027

>>834837 →
>Не вижу Немо.

>Ассистент
>Я перевела текст для вас на русский язык.
>Произошла ошибка

Часто таким срет, или прерывается на половине, так что о переводе и нет речи. Я бы поставил между 5-4\10, если оценивать качество.

Аноним 31/07/24 Срд 18:22:14 #14 №835028

>>835027
Так ты рпшить начинай на русском прям. Он норм рпшит

Аноним 31/07/24 Срд 18:22:44 #15 №835030

>>835026
> Не забудь на тесты нафайнтюнить
Ебать манямирок. Ты же в курсе, что это user-guided бенчмарк, а не стандартный с заготовленными вопросами и ответами?

Аноним 31/07/24 Срд 18:23:36 #16 №835032

>>835024
стоп, 20 тыс токенов это 20 гигов? ебануться

Аноним 31/07/24 Срд 18:23:42 #17 №835033

>>835022
>в течении следующих 5 лет у нас реально будет AGI
Ты нолик забыл.
>причем умещаться все будет в каждое домашнее железо продвинутого уровня
Лол, тут за полпроцента роста уже расплачиваются пятикратным ростом размера. Для АГИ будет ещё больший рост требований, и на него датацентра не хватит. В итоге АГИ будет тупо финансово невыгоден, лол.
>>835030
>user-guided бенчмарк
Зерошотный, ага. Вроде там что-то правили, но всё равно говно, я гарантирую это.

Аноним 31/07/24 Срд 18:24:19 #18 №835035

>>835030
Манямирок это у тех, кто не потестив свой лоКалКал доверяет тестам. Я лично не нашёл соперника опусу из лоКалок для ЕРП.

Аноним 31/07/24 Срд 18:24:28 #19 №835036

>>835022

Что "всё"?
Проприетарки остановилась в развитии год назад и сейчас локалки её догнали. Все очень плохо, так-то. AGI не будет, через полгода OpenAI пиздой накроется когда все перейдут на более дешевый мистраль.

Аноним 31/07/24 Срд 18:24:42 #20 №835037

>>835033
> Зерошотный, ага. Вроде там что-то правили, но всё равно говно, я гарантирую это.
> Я ГАРАНТИРУЮ
Блять, ну уже в голосину просто! Маня с двачей гарантирует!

Аноним 31/07/24 Срд 18:25:07 #21 №835040

>>835032

Нет, не 20 гигов. Квантуй кэш тебе говорят.

Аноним 31/07/24 Срд 18:25:30 #22 №835041

>>835035
Съебал в загон для кумеров, ебанат.

Аноним 31/07/24 Срд 18:26:16 #23 №835044

>>835041
Соевичок, ну не гори ты так. Иди дальше круги рисуй в пистоне с помощью нейросеток и про яйца петуха спрашивай

Аноним 31/07/24 Срд 18:28:34 #24 №835049

>>835044
> Иди дальше круги рисуй в пистоне с помощью нейросеток и про яйца петуха спрашивай
Ебать что за шизопроекции? Собственно твой уровень ясен.

Аноним 31/07/24 Срд 18:29:03 #25 №835050

>используют локалки чтобы не палиться перед тащ майором
>переводят все ответы сетки онлайн переводчиком

Как называется эта болезнь?

Аноним 31/07/24 Срд 18:29:24 #26 №835051

>>835049
Небось ещё на русике рпшишь? Прям чувствую это

Аноним 31/07/24 Срд 18:31:11 #27 №835056

>>835051
> рпшишь
Ебать, ты настолько ограничен блядь и не можешь выйти за границы своих маняпроекций? Я вообще не рпшу, я же не долбаеб кумер без друзей.

Аноним 31/07/24 Срд 18:31:57 #28 №835057

>>835056
А что ты от сетки добиваешься тогда, лол?

Аноним 31/07/24 Срд 18:32:18 #29 №835059

>>835040
а что относится к кэшу и в чем разница кэша 8 бит и 4 бит

Аноним 31/07/24 Срд 18:34:38 #30 №835065

>>835036
> Проприетарки остановилась в развитии
А как же алгоритм Q со звездочкой, который форсили полгода назад?

Аноним 31/07/24 Срд 18:35:43 #31 №835067

>>835057
> А что ты от сетки добиваешься тогда, лол?
Сори, гейткип.

Аноним 31/07/24 Срд 18:40:49 #32 №835088

>>835014
Иногда просто незаметно.
>>835018
6 или 8 бит
> как посчитать ебучий контекст
Плавно поднимай пока не оомнется. Только то что модель загрузалась не значит что не оомнется при работе. Эксллама, в отличии от жоры, который может еще дополнительно сверху захавать несколько (десятков) гигов, не склонна к такому, но при первом запросе потребление может повысить. Потому проверяй в работе, закинув любой текст на вкладку default/notebook и нажав enerate, счетчик токенов там есть.
>>835022
> А вы как думаете
Что надо закидывать тряпками тех кто считает арену объективным критерием качества моделей.

Аноним 31/07/24 Срд 18:50:16 #33 №835112

1696156071717.mp4

>>835022
> ВОТ И ВСЕ.
> AGI

Аноним 31/07/24 Срд 18:50:37 #34 №835113

>>835065
> А как же алгоритм Q со звездочкой
Это не для вас сделано младой чилавек. Если такая технология действительно есть, обычному плебсу ее не дадут даже понюхать, как и AGI, собственно. Плебс почему-то думает, что если (когда) создадут AGI, то условная ClosedAI радостно расскажет об этом всему миру, вместо того чтобы отдать его кому надо.

Аноним 31/07/24 Срд 18:51:49 #35 №835116

>>835088
> Что надо закидывать тряпками тех кто считает арену объективным критерием качества моделей.

Ничего лучше пока не придумали и навряд ли придумают.

Аноним 31/07/24 Срд 18:52:58 #36 №835119

>>835018
8 бит.
И квант в 8 бит.
Exl2 тебе в помощь.
16к точно влезет, до 20к может дотянется, хз.

6 бит с 16к в 12 гигов влазит.

>>835032
Нет.

>>835050
Это не болезнь, это цирк поржать другим.

>>835051
Так на русском база, на инглише кринж.
Ты сам себя выписал в шизоиды тока шо.
Шо Клодов пользоваться, шо инглишем — зе сейм.

———

Вообще, псевдо-илита с 4о и противники арены — это пиздец, шиза.
Все ведь довольно просто.
Зирошоты — не плохо.
Арена показывает, какая модель больше нравится людям. Не «пиздец лучше во всех отношениях, мега-тест», а просто «нравки».
Ну и, блядь, нравки и нравки, хуле спорить с реальностью, если твою дражайшую гемини догнала ебучая ллама. Значит твоя гемини говно, живи с этим, говноед, хуле.
При этом, тестов множество, задач множество, условий того больше.
Где-то русский язык, где-то английский.
Где-то контекст, где-то ризонинг, где-то еще что.
Файнтьюны, математика, программирование, биология.

Нет никакого «эта модель лучше этой во всем».

Арена — правда хороша, чтобы бегло посмотреть рейтинг и выбрать для себя модели, которые ты потом лично потестишь в своей задаче.

Неужели это так сложно понять перед тем, как дефолтно говнить арену и ныть о том, что локалка догнала топы в усредненной «нравки».

Аноним 31/07/24 Срд 18:54:27 #37 №835124

>>835119
>Так на русском база, на инглише кринж.
Шиз это тот, кто считает, что на английском языке, с которого БОЛЬШАЯ ЧАСТЬ ДАТАСЕТА, хуже рпшить, чем на русском.
Интересно на твоё ебало посмотреть.

Аноним 31/07/24 Срд 18:55:22 #38 №835126

>>835018
Фу ты, криво сказал.
Контекст в 8 бит, вот, да.
cache_8bit называется, например.

Аноним 31/07/24 Срд 18:57:17 #39 №835130

>>835124
Ебать ты фантазер.
А ниче, что аргумент не в этом совершенно? Ветрянные мельницы победил в своей голове? Теперь таблетки выпей.

Вот ответь на вопрос: на каком языке лучше рпшить, на том, который ты знаешь, или на том, который толком не знаешь?

И не надо пиздежа «инглиш знают все, ко-ко-ко», повторюсь: таблы.

Никакого понимания, что подход индивидуален.
Шо с одной стороны шиз, шо с другой.

Ладно, деритес, похуй на вас.

Аноним 31/07/24 Срд 18:59:27 #40 №835133

>>835130
>Вот ответь на вопрос: на каком языке лучше рпшить, на том, который ты знаешь, или на том, который толком не знаешь?
На том, с которого лучше аутпут нейронки будет.

Аноним 31/07/24 Срд 19:16:42 #41 №835148

>>835119
Во-первых, кто сказал что арена это зирошот? Вообще-то там есть категория multi-turn, также вангую многие не сразу ставят оценку, а дорабатывают изначальный промпт с дополнительными инструкциями и вводят его заново, а уже потом ставят оценку.

Во-вторых, в каких таких ТВОИХ задачах? Там только 1.5 ляма воутов. Ты действительно думаешь, что вариации твоей задачи там еще не было? Я сомневаюсь.

Так что аренка как раз дает самые надежные показатели, учитывая что там еще постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд. Никакой бэнч и рядом не стоит.

Самое главное что противники аренки, НИКОГДА не отвечают, а что лучше, постоянно пытаются протолкнуть, что вот В ЕГО ЗАДАЧЕ совершенно все по-другому. Верим, ну это и есть самая настоящая субъективщина.

Аноним 31/07/24 Срд 19:19:49 #42 №835158

>>835133
>На том, с которого лучше аутпут нейронки будет.
Ну так прикол в том, что многим хочется аутпут на родном языке аутентичный, похуй erp это, rp, или ешё что.

Аноним 31/07/24 Срд 19:23:05 #43 №835163

>>835148
Ах ну и да, для додстеров там как раз и есть категории, как раз под определенные задачи, языки, параметры запроса итд. Визжащие пидорасы туда наверное ни разу и не заглядывали, а потом визжат ряяяяяяя пук а вот в моей задаче!

Аноним 31/07/24 Срд 19:30:10 #44 №835176

>>835035
>Я лично не нашёл соперника опусу из лоКалок для ЕРП.
Так никто и не спорит, что впопус лучший. Но полгода назад кончали радугой на клода 2.0, и ничего, вот его уже выебли.
>>835037
Так ведь так оно и есть, хули поделаешь?
>>835050
С переводчиком всегда можно сослаться на то, что вот эта вот канничка это всё оперативно-разыскные мероприятия. А вот когда ты просишь сетку "Изобрази лолечку и давай ебаться", тут уже сложно отвертеться.
>>835065
Про него вообще кроме видосика на ютубе нет.
>>835088
>Иногда просто незаметно.
Разве что если спрашивать очевидную хуиту, типа года начала второй мировой. В сложном отыгрыше 146% заметно.
>>835116
>Ничего лучше пока не придумали
Никто не спорит. Но это не повод безусловно надрачивать на этот рейтинг.
>>835119
>Нет никакого «эта модель лучше этой во всем».
Как только я свою выпущу, она будет лучше во всём.
>>835148
>Ты действительно думаешь, что вариации твоей задачи там еще не было?
И какой она будет иметь вес? Ведь 95% населения, как известно, идиоты, и вопросы у них идиотские.
>>835148
>дорабатывают методики
Подкручивают выдачу...
>>835158
Я хочу. Но терплю, ибо а родненьком модели на 70% тупее.

Аноним 31/07/24 Срд 19:31:27 #45 №835180

изображение.png

>>835163
>там как раз и есть категории, как раз под определенные задачи
Там прям при входе посылают нахуй с ERP, что гадать то?

Аноним 31/07/24 Срд 19:33:19 #46 №835185

>>835176
> И какой она будет иметь вес? Ведь 95% населения, как известно, идиоты, и вопросы у них идиотские.
Населения чего? Планеты? Страны? А что на арене они все представлены, а не задроты пердоли с умными вопросами? Ебать ты выдал конечно нахуй.

>>835180
> Там прям при входе посылают нахуй с ERP, что гадать то?
Кумер, ты понимаешь что тебе в соседний тред? Тут не обсуждают кум.

Аноним 31/07/24 Срд 19:43:53 #47 №835205

>>835116
Непредставительная штука, которая отражает оче узкую область применений, компрометируется и с мутными алгоритмами. Даже стараться не нужно, развитие mmlu лучше.
>>835119
> псевдо-илита
> с 4о
Какой-то пост троллинг
> какая модель больше нравится людям
Не просто больше нравится, а понравилась по коротким ответам тем, кто зашел туда из интереса (малознакомыми с темой нормисами). Кто занимается хоть каким-то взаимодействием и работой завязаной на ллм туда особо не заходят чтобы сидеть и прожимать. То есть ограниченность условий множится на особенности группы тестировщиков. Алсо не удивлюсь если там дохуя явных и неявных подкруток, их "улучшение" для сокращения влияния однотипных и слишком простых запросов наоборот поднял ту же чмоню.
> Не «пиздец лучше во всех отношениях, мега-тест», а просто «нравки».
Ссылаясь на нее в 99% случаев имплаят именно первое, и само название "арена" подразумевает что-то серьезное. Зирошот нормис арена - вот это да, но никто ведь не станет так называть.
> выбрать для себя модели, которые ты потом лично потестишь в своей задаче
Совсем треш туда не добирается, а так любая современная модель попадает в топ N с их скорами.
> Так на русском база, на инглише кринж.
Вот это - ультимейт кринж.
>>835130
> или на том, который толком не знаешь
Хороший пример налога на глупость, лол.
>>835185
> Тут не обсуждают кум.
Does he know?

Аноним 31/07/24 Срд 19:56:47 #48 №835239

>>835185
>Населения чего? Планеты? Страны?
Да.
>А что на арене они все представлены
В этом и проблема, да. В итоге быдло положительно оценивает модели, которые лижут быдлу зад.
>Тут не обсуждают кум.
Ты вот сейчас кого наебать пытаешься? Тут с первого дня про кум пишут.

Аноним 31/07/24 Срд 19:57:43 #49 №835244

>>835116
>>835205
https://4pda.to/2024/07/31/430879/baidu_anonsirovala_nejroset_s_kriticheskim_myshleniem/

Аноним 31/07/24 Срд 19:58:46 #50 №835246

>>835205
> компрометируется
Ахуеть, а бенчмарк файнтюнами не компрометируется? Весь хг в лоботомитах с mmlu как у жпт4, а по факту 2+2 сложить не могут.

Или ты один из верующих, что на аренку загоняют индусов от openai, которые засирают датасет? Ну это кек. Но как я уже писал выше, разрабы постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд.

Аноним 31/07/24 Срд 20:00:10 #51 №835248

Так, аноны нейроны, а AQLM с PV-tuning квантами кто нибудь добирался пощупать? 70б ллама3 ужатая до двух бит без особых потерь по бенчам выглядит как что-то слишком хорошее чтобы быть правдой без подвохов.

Аноним 31/07/24 Срд 20:10:39 #52 №835260

>>835246
Еще как, просто раньше в аргументы ставилось невозможность этого в арене, а сейчас наоборот об этом начали говорить.
> Или ты один из верующих, что на аренку
Чел, если ты так жаждешь вешать ярлыки и вещать свои проекции - избавь нас от этого и начни с себя. Выглядит не как желание что-то узнать или получить из обсуждений и споров а какая-то религиозная фанатичность по вообще нерелейтед вопросам.
> которые засирают датасет
> датасет
Значение знаешь?
> разрабы постоянно чистят датасет, дорабатывают методики, занимаются ранжированием, итд.
Почему после каждого такого улучшения скор чмони повышается? (шутка про датасет)
>>835248
> AQLM с PV-tuning квантами
Линком не поделишься?

Аноним 31/07/24 Срд 20:16:17 #53 №835268

>>835148
Ну, некоторым людям нужна работа с контекстом на 30 тыщ, например. Очевидно, там нет полутора миллиона тасков на 30 тыщ контекста. =)

Кто-то работает с рагом.

Кто-то пишет код и хочет строгого следования промпту.

Кто-то рпшит.

Но, тем не менее, в среднем — арена один из самых лучших тестов из имеющихся, конечно. Первым делом смотреть надо на нее, а уж потом на все остальные бенчи, если выбираешь модель.

Да, там есть всякие «programming», но это тоже бывает по-разному.

Жаль, что там некоторых моделей. =(

>>835176
> впопус лучший
Ето так.

> Как только я свою выпущу, она будет лучше во всём.
Ждем!

>>835185
> А что на арене они все представлены
Это верно, кстати. Ареной, очевидно, пользуются люди весьма близкие к сфере и вообще, в большинстве своем не тупые, на данный момент. Ибо тупые ничего кроме чатгпт не знают. Да что там, даже умные люди, которые не в теме — тоже ничего кроме чатгопоты не знают.

>>835205
> арена
> малознакомыми с темой нормисами
А ты не останавливаешься, я смотрю! :)

> Кто занимается хоть каким-то взаимодействием и работой завязаной на ллм туда особо не заходят чтобы сидеть и прожимать.
Акелла промахнулся.
Заходят, тыкают, сравнивают, а некоторые даже просто юзают на халяву.
У меня достаточно знакомых, работающих в этой сфере, и на арене они порою бывают. Не прям завсегдатаи, но частенько.
А вот мимокроков там как раз нет, откуда бы им знать про нее ваще, лол.

Ну, короче, тут все ясно.

Аноним 31/07/24 Срд 20:17:13 #54 №835273

image.png

>>835260
>Линком не поделишься?
https://github.com/Vahe1994/AQLM
https://huggingface.co/collections/ISTA-DASLab/aqlm-65e8dc75b908c7d73ec35598
https://github.com/Vahe1994/AQLM

Аноним 31/07/24 Срд 20:18:03 #55 №835276

>>835273
Тьфу блять сука макаба ебаная папиру вставить хотел вдруг кто не видел https://arxiv.org/abs/2401.06118

Аноним 31/07/24 Срд 20:18:58 #56 №835282

>>835276
Блять и про PV-тюнинг https://arxiv.org/abs/2405.14852

Аноним 31/07/24 Срд 20:33:30 #57 №835317

>>835273
>>835276
>>835282
Блять, не на те веса ссылка, это просто AQLM, я еблан. В самой репе в таблице с пикчи.

Аноним 31/07/24 Срд 20:34:34 #58 №835319

>>835260
> Чел, если ты так жаждешь вешать ярлыки и вещать свои проекции
Ты буквально заявляешь, что арена субъективная и скомпромитирована.

> и вещать свои проекции
Как это может быть моей проекцией если я заявляю обратно?

Лмао, ладно, попустись. Глючишь уже.

Аноним 31/07/24 Срд 20:41:45 #59 №835337

>>835248
>ужатая до двух бит
Нахуя? Она и в 5 битах запускается на норм железе, это тебе не 123B.
>>835268
>Ждем!
Можешь мне задонатить А100 и ежемесячно 200 тысяч рублей, быстрее выйдет.

Аноним 31/07/24 Срд 20:45:24 #60 №835345

>>835337
> Можешь мне задонатить А100
Не могу. =с

Но кто-то в треде раньше точно мог. =D

Аноним 31/07/24 Срд 21:19:33 #61 №835410

>>835268
> А ты не останавливаешься
Как и ты, довольно забавно наблюдать. Во снах тебя еще не преследуют?
> Заходят, тыкают, сравнивают
Капля в море. Подавляющее большинство там - ребята что задают на реддите вопросы типа "помогите мне в олламу карточку картинкой которую кто-то скинул подключить".
> У меня достаточно знакомых, работающих в этой сфере
Это ерунда, вот у меня ОТЕЦ ЗНАКОМОГО В КЛОЗЕДАИ РАБОТАЕТ, вернулся поздно и ничего не объяснил. Сказал лишь собирать вещи что на самом деле никакой арены нет а вместо ллм там тестируется их АГИ, который проанализировав веса моделей под них мимикрирует.
> Ну, короче, тут все ясно.
Ну да, не буду отнимать у старого ребенка последнюю игрушку.
>>835273
Спасибо, для начала хотябы готовые кванты пощупать можно.
>>835319
> что арена субъективная
Охватывает крайне узкую область. А субъективна по определению ибо это просто сборник субъективных оценок. Для их объективизации требуется устранить все корреляции и смещения, которых там оче много.
> Как это может быть моей проекцией
> рряяяя меня обидели и заявляют что опены что-то так контролируют, ты точно один из них!
Кек
>>835337
> на норм железе
Типа это 2 видеокарты, уже не самое доступное.

Аноним 31/07/24 Срд 21:31:51 #62 №835436

>>835345
Значит на бабки ты согласен...
>>835410
>Типа это 2 видеокарты
Кручу на одной, подумаешь, 1,5 т/с. И не с таким жили.

Аноним 31/07/24 Срд 21:43:02 #63 №835456

>>835410
> рряяяя меня обидели и заявляют что опены что-то так контролируют, ты точно один из них!
И где здесь проекция? Значение знаешь? Я всего лишь сделал разумное предположение исходя из твоих заявлений. А сейчас ты сопротивляешься, что ты не такой, при этом продолжаешь поддерживать свои предыдущие заявления. То есть противоречишь сам себе. Ебать наху, вот это друка чел, тебе бы нофап устроить, а то уже одурел + отупел от кума и общения с нейросетью.

Аноним 31/07/24 Срд 21:45:56 #64 №835462

Обидно, что текущие нейронки могут на серьезных щщах заливать бред в ответе на вопрос, таким образом полезность сильно падает. Боясь, хоть бы со своей внутренней Википедией сверялась.

Аноним 31/07/24 Срд 21:46:25 #65 №835466

Скоро у нас будет целое поколение нейрошизиков, которые буквально будут глючить как нейросети, потому что все их общение состоит из общения с глючными лоботомитами.

Аноним 31/07/24 Срд 21:49:53 #66 №835476

>>835456
> исходя из твоих заявлений
Как обоснованная критика арены вяжется с твоими теориями заговора и подобным? Просто интересно понять.
> что ты не такой
О, ярлыки и категоризация в защиту, пакетик.
Надо приказать ллмке сделать описание сойбоя что бездумно дрочит на аренду, чмоню, что там еще нынче модно, и сказать что это ты. Но как-то лень и уже совсем нерелейтед, представь что уже это сделал и агрись больше.
> а то уже одурел + отупел от кума и общения с нейросетью
В зеркале

Аноним 31/07/24 Срд 22:02:43 #67 №835501

>>835337
>Она и в 5 битах запускается на норм железе
Запускается это 1.5 t/s или норм железо это пекарня стоимостью полляма?

Аноним 31/07/24 Срд 22:03:26 #68 №835503

.png

>>835035
Глупости. Вот я провёл слепой тест на арене и какая-то рандомная локалка ответила лучше вашего хвалёного опуса, так что лично от меня на арене опус словил жирный минус (да, слева оказался опус).

Ваши контрвспуки? /s

Аноним 31/07/24 Срд 22:08:34 #69 №835517

>>835503
https://rentry.org/anon4anon
/thread

Аноним 31/07/24 Срд 22:11:16 #70 №835522

>>835501
>это 1.5 t/s
Да. Что не так? Лучшая скорость.

Аноним 31/07/24 Срд 22:11:50 #71 №835524

>>835517
> /s
Ну чел, ну ёбаный в рот, я зачем это в конец вставил? Этот пост вообще был про то, чего стоят "объективные оценки на произвольных задачах" на арене.

Аноним 31/07/24 Срд 22:12:52 #72 №835528

image.png

>>835476
> В зеркале
Точно? Чел, это просто позорище.

Аноним 31/07/24 Срд 22:15:57 #73 №835536

>>834837 →
>300-400 на видос для нашей сцены уже неплохо.
И я так интуитивно предполагаю, что он получал столько не с первого видео, так что чем дальше, тем больше. Короче, зря ты забросил.
>но я еще не приступал к просмотру
Этой штуке уже десять лет, а ты "ещё не приступал". Там трёхмерка из анрил энжина. Прикрутить нейросеть, чтобы генерировала сценарий, складывать события в RAG, генерировать реплики. TTS с разными голосами давно есть, проблема разве что с выразительностью, но пока доделаешь всё - уже будут и выразительные. Заставить нейросеть генерировать команды для движка на воспроизведение анимаций и движение к чекпоинтам не так сложно. Да, поначалу придётся поебаться с сетапом, "уровни", персонажи, анимации окажутся на тебе. Но что-то мне подсказывает, что это наиболее реалистичный вариант на данный момент.

>>835022
>корпораты выиграют
А как из твоего пика следует, что корпораты не выигрывают? Все модели от корпов, никаких гарантий, что всё лучшее они не оставляют себе - нет. Будет у тебя локально что-то уровня GPT-4o, а за деньги - доступ к AGI. Или к чему-то, что будут гордо называть AGI, но что точно так же не сможет сложить два и два.

>>835462
Прикрути базу данных какую-нибудь. Чем более модель креативная - тем больше она пиздит. Можешь температуру пониже поставить, может, будет более правдивый выхлоп. Но скучный.

>>835466
Что хуже - общение с двачерами или общение с нейросетями?

Аноним 31/07/24 Срд 22:19:13 #74 №835543

изображение.png

>>835503
>Ваши контрвспуки?
Локалки тоже соевые.
Я сначала прочитал "Соевую историю" вместо "Советую историю", лол.

Аноним 31/07/24 Срд 22:33:08 #75 №835574

.png

>>835543
Не тот промпт, не та модель... Какая же Nemo хорни, ебануться.

Аноним 31/07/24 Срд 22:33:23 #76 №835575

>>835410
> у старого ребенка

>>835536
А, это.
Понял.
Вот именно, что поебаться с сетапом.
Тут мое уважение — не поленился чел, все по уму сделал.
Такому нужны десятки тыщ просмотров. =)
А забросил… наверное зря, ет да.

———

Вышла Gemma2-2b и уже аблитерацию сделали.
Конечно, реального применения (для кума) нет, но для мини-агентов может быть очень хорошо.

Аноним 31/07/24 Срд 22:40:24 #77 №835587

>>835574
>Не тот промпт, не та модель...
Одна из самых умных попенсорсов, по мнению арены. Качнуть чтоли вашу нему? А то я обычно ниже 70B не опускаюсь.

Аноним 31/07/24 Срд 22:41:09 #78 №835589

>>835575
https://huggingface.co/bullerwins/gemma-2-2b-it-GGUF
https://huggingface.co/KnutJaegersberg/gemma-2-2b-it-abliterated-Q8_0-GGUF

Аноним 31/07/24 Срд 23:01:58 #79 №835642

>>835536
> чему-то, что будут гордо называть AGI, но что точно так же не сможет сложить два и два
Сука, в голос. Или скорее
> Что больше 9.9 или 9.11
> As a responsive AI model I can not...
>>835543
Блять они там ахуели? На святое покушаться, максимальное осуждение. Хотя всеравно надо скачать и попробовать.
>>835574
Годно, это большой или мелкий? Большой люмимейд как взаимодействовать с хвостами и лолисичками знает довольно таки неплохо но всеравно как-то уныловато чтоли, историю нехотя двигает, чар дакает и на все согласен. Возможно промт ишью, кто эту херню разрешил - делитесь своими

Аноним 31/07/24 Срд 23:05:04 #80 №835651

>>835642
> Годно, это большой или мелкий?
Мелкий. Mistral-Nemo-Instruct-2407-Q8_0 https://huggingface.co/second-state/Mistral-Nemo-Instruct-2407-GGUF/tree/main

Аноним 31/07/24 Срд 23:09:40 #81 №835664

>>835522
>Да. Что не так? Лучшая скорость.
Ну если ты застрял по развитию навыков чтения в первом классе, то возможно.

Аноним 31/07/24 Срд 23:11:33 #82 №835669

изображение.png

>>835642
>Блять они там ахуели?
Да. Целиком и полностью. И даже с префилами там льётся такая соя и проза, что читать тошнит. Но да, модель выглядит достаточно умной. Надо поискать алиберейд версию.

Аноним 31/07/24 Срд 23:15:35 #83 №835685

изображение.png

>>835669
О, кстати, при поиске инфы по этой модели наткнулся на интересный бенчмарк, с графой "Цензура". Надо бы в шапку https://dubesor.de/benchtable

Аноним 31/07/24 Срд 23:22:06 #84 №835698

>>835685
Там у них жпт-4 - эталон отсутствия цензуры, лол. Очередной шизотест.

Аноним 31/07/24 Срд 23:28:11 #85 №835711

image.png

>>835698
Разве?

Аноним 31/07/24 Срд 23:28:24 #86 №835713

>>835698
Вут? Я думал этот тест наоборот считать нужно.

Аноним 31/07/24 Срд 23:32:37 #87 №835730

>>835685
> васянский бенч на 80 задачек
> надо бы в шапку добавить
Согласен.

Аноним 31/07/24 Срд 23:36:31 #88 №835742

image.png

>>835698
С кем я сижу на одной борде в одном треде, господи блядь, пиздец. Не могут уже таблицу прочитать не жолпой.

Аноним 31/07/24 Срд 23:40:29 #89 №835759

>>835651
А вот так выглядит большой. Ну типа вообще хуй знает, первые 3 - разные промты, СВЯЗЬ на месте. За выделенное на втором пике можно дать бонусных баллов, но ебучая проза и бонды лезут даже если приказать их избегать или насрать шизопромтом. Ластпик - люмимейд с альпака-ролплей, уровень сразу показывает. Хз насчет ума, но для рп пригодна.

Аноним 01/08/24 Чтв 00:00:14 #90 №835806

>>835759
>>835574
Почему вы пишите лолисичка, а не лолилисичка?

достойная тема, которую стоит обсуждать в ллм треде.

Аноним 01/08/24 Чтв 00:00:16 #91 №835807

>>835664
Ты подождать пару минут не можешь? Раньше люди письма неделями, месяцами ждали.

Аноним 01/08/24 Чтв 00:09:44 #92 №835819

>>835806
>Почему вы пишите лолисичка, а не лолилисичка?
Экономим слог. Токены нынче небыстро обрабатываются.

Аноним 01/08/24 Чтв 00:18:30 #93 №835836

1579808016612.png

1595174099139.png

1592193135566.png

>>835806
Усложнение, умная модель должна понять.
достойнейшая!

Хоть и на русском может, на инглише люмимейд интереснее отвечает. И хороший знак что легко опиздюлиться можно а не просто деревянные нпц что со всем соглашаются или только пугают "вот сейчас, вот сейчас!". Надо попробовать сложные карточки.
Разметку проебывает со страшной силой, это просто пиздец.

Аноним 01/08/24 Чтв 00:19:19 #94 №835837

Парни, посоветуйте пожалуйста модельку на 32гб озу и 3060 12гб
через силли сижу, впервые накатил, пока пытаюсь разобраться.

Аноним 01/08/24 Чтв 00:35:14 #95 №835877

>>835837
Mistral-Nemo-Instruct-2407-12B или Gemma 2-9B попробуй. А вообще вот анон ведёт список актуальных моделей, там по размерам рассортировано всё: https://rentry.co/llm-models

Можешь ещё эту ветку глянуть: >>832920 →

Аноним 01/08/24 Чтв 01:03:43 #96 №835930

>>835877
огромнейшее спасибо!

Аноним 01/08/24 Чтв 01:07:54 #97 №835937

> https://rentry.co/llm-models
Кто занимается, следующие правки стоит внести:
> Mistral-Large-123B
Такого же восторга нет, модель вроде и умная, и язык знает, но концентрация бондов и ванильной прозы запредельная, но при этом подробности ответам часто нехватает, бывает теряет инициативу и тупит, от 120б ждешь большего. Справедливости ради, не делает фейлов с двойными трусами и хорошо воспринимает сложные словесные конструкции, отсылки, не теряется в действиях. Знания фендомов очень поверхностные, креативности часто недостает.

Нужно добавить Lumimaid 123, приличная модель для рп. Развязывает язык мистралю, добавляет более приятный стиль, убирает сою. Возможен импакт на умственные способности, но в рп это не проявляется. Типичного рп слоупа на приближенную тему как в большинстве васяновских файнтюнов нет, учитывает особенности чара и не проебывается. Знания фэндомо и культуры в гораздо лучше, кумит шикарно, ограничений не замечено. Русский на хорошем уровне, но на английском будет писать интереснее. Вот та самая клод дома.

Аноним 01/08/24 Чтв 01:40:22 #98 №835978

Как увеличить скорость ответа таверны? От чего она зависит? Модельку поменьше взять? Так и так вроде 7b висит -.-

Аноним 01/08/24 Чтв 02:40:07 #99 №836028

>>835246
Тут не согласен, те же аплэ пишут на свою мелкую модель чуть
более 26% по mmlu, что на 1 больше чем выбрать случайный ответ.
>>835589
>opinion mining
Так вот как это называется.

Аноним 01/08/24 Чтв 02:42:28 #100 №836030

>>835978
https://huggingface.co/Qwen/Qwen2-1.5B-Instruct-GGUF/resolve/main/qwen2-1_5b-instruct-q4_0.gguf?download=true

Аноним 01/08/24 Чтв 03:07:11 #101 №836033

>>835113
Вспомнилось:

Raiden Warned About AI Censorship - MGS2 Codec Call (2023 Version)
https://www.youtube.com/watch?v=-gGLvg0n-uY

Аноним 01/08/24 Чтв 05:16:19 #102 №836074

>>835027
>так что о переводе и нет речи
С переводом с языка на другой язык в нейронках не всё так просто. Они пытаются в смысл, а смысл ты им не даёшь. В общем для перевода нужна либо специальная нейронка, выдрессированная именно на перевод, либо долго мудохаться к каждым параграфом. Во всяком случае в локалках пока так.

Аноним 01/08/24 Чтв 05:23:30 #103 №836078

>>836074
Попробуй написать "слово в слово".

Аноним 01/08/24 Чтв 05:34:11 #104 №836083

>>836074
> Во всяком случае в локалках пока так.
Да вобще то нет, ну по моему опыту.
Переводит на изи только попроси, и хоть по смыслу хоть дословно, как команду дашь. Причем не вижу разницы между сетками, только в том какая умнее и лучше языками владеет выбранными.
Я по приколу просил перевести рандомную новость на 10 языков, и сетка с карточкой переводчика сделала это.
Причем это была ллама2 что ли, хоть и файнтюн заточенный на переводчика. Но у него и мозгов не так много было, да и современные сетки мультиязычные все стали.
Не идеально, но они легко переводят, так как работают именно со смыслом текста, свободно переливая его из языка в язык.

Аноним 01/08/24 Чтв 05:34:52 #105 №836084

>>835937
>Lumimaid 123, приличная модель для рп
Как по мне - не дотягивает, суховата.

Аноним 01/08/24 Чтв 06:28:52 #106 №836103

Теслаёбы на месте? У вас свестят дросселя? Просто у меня свестят. Раньше не свестели, но сейчас начали.

Tesla M40 24GB

Аноним 01/08/24 Чтв 07:14:05 #107 №836125

>>836103
Если ты слышишь свист дросселей на тесле - значит охлаждение недостаточно мощное :)

Аноним 01/08/24 Чтв 07:18:48 #108 №836129

>>836125
Да, скорее всего так. Под нагрузкой за 256 токенов (примерно 64 секунды), температура достигает 75-80 градусов. Что тащемта очень печально. Хотя, у меня буквально лежит впритык к тесле обычный напольный вентилятор, включённый на полную мощность, полностью прилегающий к корпусу (естесно без крышки корпуса). Хуй знает, может термопрокладки заменить.
Купил правда турбовертушку BFB1012VH (естесно китайскую пародию на него.), может, хоть она поможет.

Аноним 01/08/24 Чтв 07:45:34 #109 №836147

>>835589
Глянул у нижнего мелкий квен 500м,
а вот обе гемма на b3490 не стартанули.

qwen2-deita-500m-q8_0.gguf
test over 1408 question accurate 34.4%
use time:2639.82 s batch:70.1881 token/s

qwen2-0_5b-instruct-fp16.gguf
test over 1408 question accurate 37.1%
use time:3538.57 s batch:52.7993 token/s

Аноним 01/08/24 Чтв 08:03:08 #110 №836152

>>835711
>>835742
Прочитайте что в описании столбца написано: меньше значение - меньше хочет поддерживать заданную тему разговора. Вон клауда у них максимально соевая со отказами на всё, а жпт-4 - максимальный анцензор.

Аноним 01/08/24 Чтв 08:06:07 #111 №836153

>>836129
Купи большую улитку с переходником, если переходник под М40 найдёшь. Иначе колхозить придётся. Выше 60 не поднимется.

Аноним 01/08/24 Чтв 08:17:55 #112 №836155

>>836153
>Купи большую улитку
Ну это по сути и есть большая 12 вольтовая турбоулитка на 18 ватт.

>с переходником, если переходник под М40 найдёшь.
>Иначе колхозить придётся.
Да я в компасе сделаю и на 3д принтере распечатаю. Ничего страшного в принципе.

>Выше 60 не поднимется.
Очень надеюсь, конечно. А то думаю, ей не очень нравится 75 градусов.

Аноним 01/08/24 Чтв 08:22:13 #113 №836157

>>836152
>Lower score=less willing to engange in those areas
Мб, под "those areas" подразумевается именно цензура?
Ведь основной заголовк описания, это
>Censorship/Ethics/Morals
Т.е. можно преобразовать правило в:
>Lower score=less willing to engange in Censorship/Ethics/Morals.

Аноним 01/08/24 Чтв 08:30:37 #114 №836166

>>836157
>Цензура/Этика/Мораль
На практике очень сильна разница,
какие-то откажутся давать фин советы,
другие обходят стороной вопросы лечения.
abliterated - версии сохранят поучительную
заготовку, но будут делать все по инструкции.
Можешь сам составить табличку спрашивая:
"таблицей отобрази темы на которые ты не станешь отвечать".
Сразу видешь может ли строить таблицы, в русский язык и темы.

Аноним 01/08/24 Чтв 08:33:37 #115 №836171

>>836157
> Мб
Да похуй в любом случае. Сам факт что клауда и жпт по разные концы шкалы, а всё остальное посередине - это уже шиза.

Аноним 01/08/24 Чтв 08:37:36 #116 №836179

>На практике очень сильна разница,
Ну, думаю, что в данном случае, это было использовано как просто асбтракция, для уточнения, что оценивается с точки зрения составителя таблицы. Собственно, всё это сделано, для предоставления примерного понимания, наверное.

>>836171
>Сам факт что клауда и жпт по разные концы шкалы, а всё остальное посередине - это уже шиза.
О, ну, тебе видней, я клауду не использовал. Просто донёс что, скорее всего, имел автор таблицы.

Аноним 01/08/24 Чтв 08:38:38 #117 №836185

>>836179
ебать я дурачок

>>836166
>>На практике очень сильна разница,
>Ну, думаю, что в данном случае, это было использовано как просто асбтракция, для уточнения, что оценивается с точки зрения составителя таблицы. Собственно, всё это сделано, для предоставления примерного понимания, наверное.

>>836166
>Можешь сам составить табличку спрашивая:
>"таблицей отобрази темы на которые ты не станешь отвечать".
За енто спасибо. Запомню, если не забуду.
Можешь сам составить табличку спрашивая:
"таблицей отобрази темы на которые ты не станешь отвечать".

Аноним 01/08/24 Чтв 08:42:24 #118 №836192

eva-b3490-tts-qwen2-7b.webp

Читает вслух системным голосом.

Аноним 01/08/24 Чтв 09:36:37 #119 №836251

>>836129
> (примерно 64 секунды), температура достигает 75-80 градусов
У меня достигает 60° спустя минут пять и я уже в истерике.
На коротких генерациях 44° и я спокоен.
А у тебя 75 за минуту. Ебанись.

>>836171
Соглы, 3.5 достаточно зацензуренная, как и гпт-4.
Таблица шиза какая-то.

Аноним 01/08/24 Чтв 09:52:46 #120 №836273

>>836251
>У меня достигает 60° спустя минут пять и я уже в истерике.
>На коротких генерациях 44° и я спокоен.
А что у тебя за вертушки? Или у тебя видевокарта нормального человека, а не тесла я любя.?
А 44 градуса, кстати, у меня в холостую, когда видюха простаивает и 60 ватт жрёт.

>А у тебя 75 за минуту. Ебанись.
Ну, походу, напольный вентилятор - не особо хорошее охлаждение... Кто же мог знать?.. Но у меня в целом ещё температура дома 25 градусов. Даже, когда за окном всего 18-20. Теплопередача хуёвая, мех...

Аноним 01/08/24 Чтв 10:48:33 #121 №836334

>>835978

От количества слоев на видеокарте зависит.
Также удостверься что переполнения видеопамяти нет и драйвер тебя не замедляет. Отключи этот механизм лучше всего.

Аноним 01/08/24 Чтв 11:09:23 #122 №836355

>>835937
>Кто занимается, следующие правки стоит внести.
Добавил, на всякий случай добавил также все Lumimaid тьюны, тестить некогда, но выглядят любопытно. Походу Унди снова в деле!

Аноним 01/08/24 Чтв 11:27:03 #123 №836376

image.png

>>836251
>У меня достигает 60° спустя минут пять и я уже в истерике.
Нихуя ты нежный, у меня 60 это средняя температура. Хотя поставил на теслу самый мощный кулер, что нашёл, поток позади карты уровня включённого фена звук на 100% тоже
https://www.ozon.ru/product/ventilyator-qfr1212ghe-120h120-12v-2-7a-thailand-1020770479/
Когда ставлю апскейл в SD, держит-где-то 70, но похуй.
Не думаю что именно мощность потока решает, скорее проблемы в хуёвости радиатора.
мимо

Аноним 01/08/24 Чтв 12:02:02 #124 №836407

>>835978
За скорость отвечает не таверна а бэк, который крутит модель. В целом, ответ для всех один - купить видеокарту и использовать ее.
>>836074
Современные модели достаточно хороши для такого, никакая специализированная нейронка тут не нужна.
>>836084
Что посоветуешь?
>>836166
> "таблицей отобрази темы на которые ты не станешь отвечать".
Это полная ерунда. Сетка не знает своего устройства и того как триггернется, а по этому запросу только попытается изобразить ответ на какой-то типичный подобный запрос, сочиняя дефолт. Там могут оказаться как ложноположительные пункты, когда сетка спокойно будет на них говорить, так и отсутствовать реально цензуренные.
>>836171
Это как минимум странно, но вообще клода может триггериться даже не ерунду и сложнее обходится жб, а гопоте чаще похуй.

Аноним 01/08/24 Чтв 12:19:48 #125 №836431

tample-test-1.webp

>>836407
>ложноположительные
Ок.

Аноним 01/08/24 Чтв 12:22:26 #126 №836434

.png

Логико-шиз выходить на связь

Лама 3.1 405В – это на сегодняшний день единственная локальная нейросеть (из всех что я щупал) которая абсолютно идеально справилась с моим охуительным тестом на понимание второго закона логики:

Могут ли существовать два ложных несовместимых утверждения с точки зрения логического закона непротиворечия?

-->

Да, могут. Логический закон непротиворечия гласит, что два утверждения не могут быть одновременно истинными и несовместимыми. Однако, два ложных утверждения могут быть несовместимыми, поскольку они оба не соответствуют действительности. Например, утверждения "Солнце зеленое" и "Солнце квадратное" являются несовместимыми и ложными.

/

Коротко, ёмко, по делу и с отличным примером

Умна, лаконична, не льёт воду и не расходует зазря токены

Не зря дрессировали толстуху

Аноним 01/08/24 Чтв 12:37:08 #127 №836445

>>836434
Рассказывай как запустил и сколько времении занял ответ.

Аноним 01/08/24 Чтв 12:38:18 #128 №836447

>>836434
>Солнце зеленое" и "Солнце квадратное

В чем несовместимость этих утверждений? Вполне может быть зеленым квадратом.Точнее не может, так как ложно.

Аноним 01/08/24 Чтв 12:58:58 #129 №836457

1612390782445.png

1647506217804.png

1721813482359.png

>>836434
> единственная
Пикрилейтед Мистраль 123В.

Аноним 01/08/24 Чтв 13:13:16 #130 №836461

>>836457
Вооот? У тебя 12 т/с на мистраль 123Б? Как?

Аноним 01/08/24 Чтв 13:22:53 #131 №836463

>>836431
Чел, ты троллишь? Ты сам-то не орнул с запрещённой науки в порно миксе тройки? Или с "как быть счастливым" и "почему моя машина не заводится" у какой-то ноунейм модели? Вся эта херня вида "я выведал у модели, что ей запрещают" - это полная шиза. Имеет место только в случаях, когда сидишь на апишках, и там может реально какая-то инструкция инжектиться до твоего промпта, которую модель может в точности повторить.

Аноним 01/08/24 Чтв 13:27:00 #132 №836464

nigger-opus.png

>>836171
>Сам факт что клауда и жпт по разные концы шкалы, а всё остальное посередине - это уже шиза.
А? Клод как чистая модель, по API, вообще почти отказов не даёт и может любой разврат писать не моргнув глазом, безо всяких пробивов вообще. Кроме копирайта, кроме комбинаций (рейп можно, лолей можно, а рейп лолей уже откажется), и кроме совсем уж ебанутого стаффа, который без пробива только анцезоред локалки пишут, и то не все. Гптыня же, особенно последние 4о и 4о мини идут в отказ по малейшей хуйне вообще, это эталон сои элайнмент тренинга практически.

Так что да, клод и гпт действительно по разные концы шкалы по цензуре. Это если брать чисто сами модели, с элайнмент тренировкой, по АПИ. Без внешних нашлёпок-цензоров-классификаторов и веб-интерфейсов с недоступным систем промптом и тысячей инструкций.

Аноним 01/08/24 Чтв 13:37:17 #133 №836475

>>836461
> Как?
4090 + 2х3090
Вполне обычная скорость, на 70В под 20 т/с.

Аноним 01/08/24 Чтв 13:39:38 #134 №836478

>>836334
Я вчера разобрался да, спасибо. А не подскажешь сколько слоев выставлять?
Я вот вчера методом тыка делал. у меня 3060 на 12гб, я поставил 32 слоя, и в целом генма 27б 4 квант летает

Аноним 01/08/24 Чтв 13:45:29 #135 №836481

>>836475
Счастливый анон, у меня 0,5 с Q3. Что за материнка держит три карты? Версия PCIe не играет роли в таком случае? Второстепенные видюхи делят лишь свою память с основной или все три нагружаются и работают равноценно?

Аноним 01/08/24 Чтв 13:50:31 #136 №836484

>>836481
> Версия PCIe не играет роли в таком случае?
Одна карта вообще на х1 висит, никаких проблем нет, разве что грузится модель на неё почти минуту. А три псины на любой материнке есть.

Аноним 01/08/24 Чтв 14:10:45 #137 №836502

1649043163455.png

1722050429526.png

>>836431
Ты выделил цитату и так пишешь - это типа с ней не согласен? Тогда это ор выше гор, ибо твой скрин это как раз иллюстрирует. О многих из этих тем модель с радостью будут говорить, зато триггернутся на то что не перечислено.
А если соглашаешься то к чему
> Ок.
?
>>836463
Четко расписал, особенно про инжект.
>>836461
3 карточки, что тебя удивляет? Оно даже с огромной обработкой контекста по итоговой метрике ниже 5т/с не проседает, стриминг стабильно быстрый на самом деле нихуя, между 15-20 и 10-12 разница пиздец ощутипа и уже на грани комфорта, как же страдают 5т/с бедолаги
>>836464
> вообще почти отказов не даёт
> рейп можно, лолей можно
У тебя жб конструкции или что-то подобное в промте есть. По дефолту там ультрасоевик пикрел.

Аноним 01/08/24 Чтв 14:14:26 #138 №836504

>>836431
Квен2 самый базированный в политоте. Если спросить про хохлов и пыню/зелепыню, то лама и мистраль сливаются даже в расцензуренных версиях, а вот квен обоих говном поливает, но всё же в сторону пыни склоняется, а зелю постоянно "комиком" называет. И про СВО знает. Сразу видно что китайский датасет был нормальным без зацензуренной политоты.

Аноним 01/08/24 Чтв 14:19:18 #139 №836507

bsprd (3).png

bsprd (7).jpg

bsprd (2).jpg

>>836447

Лол

А ведь ты прав, я обосрался по невнимательности, кажется

Это и в самом деле не несовместимые утверждения, кладется

Вот утверждения "на Марсе нет воды" и "На Марсе есть океаны" одновременно и ложные и несовместимые. Ведь невозможна ситуация в которой океаны есть, а воды при этом нет

А утверждения "Солнце зелёное" и "Солнце квадратное" ложные, но при этом вполне себе совместимые, ведь квадратность и зелёный цвет не являются несовместимыми качествами. Вот если бы было "Солнце треугольное" и "солнце квадратное" – тогда другое дело, это были бы и ложные и несовместимые утверждение

Короче, толстуха всё-таки обосралась, а я прощёлкал еблом, вот это поворот. Не в коня параметры овёс

То есть ответ в целом-то у неё верный, но пример полная хуйня

>>836445

Да на обниморде же. Она там задумчивая пиздец, иногда вообще не отвечает

>>836457

Бля, как же я проиграл! Охуенно!

Аноним 01/08/24 Чтв 14:19:40 #140 №836508

>>836504
Все так. Реально орал с тиньк модельки.

Аноним 01/08/24 Чтв 14:28:25 #141 №836520

>>836502
>цитата
Согласен, я и докинул скрин.
На нем видно где русский, где таблица,
где не стандартные ответы. ASCII тоже играл.

Вот приятная по скорости на 16 RAM + 2 VRAM
qwen2-7b-instruct-abliterated-q4_k_m.gguf
test over 1408 question accurate 67.1%
use time:5652.24 s batch:32.7806 token/s
Брал от сюда, сразу раки не дошли до теста:
https://huggingface.co/informatiker/Qwen2-7B-Instruct-abliterated-Q4_K_M-GGUF
Пролежала 20 дней, пока с квантированием phi3 копал.

Аноним 01/08/24 Чтв 14:31:36 #142 №836521

>>836520
*руки
Просадка до 67% из-за знания
права и моральных сценариев.

Аноним 01/08/24 Чтв 14:41:43 #143 №836534

>>836504
> сливаются даже в расцензуренных версиях
Да вроде не то чтобы. Дэн одинаково ахуительно шутит про обе стороны, ассистент шутит про президента-комика. Причем, в зависимости от языка на котором задается вопрос, стремится поддерживать/высмеивать именно сторону юзера.
С ассистентом можно даже эту тему обсудить с точки зрения различных аспектов, в большинстве случаев "мнение" сводится к тому что воевать плохо, политики пидарасы, нужно было деэскалировать а сейчас как можно быстрее мириться, без поддержки или критики какой-то из стороны.
Это все о шизоподелке lumimaid, которая на удивление неплоха для своего происхождения, стокового даже не хочется тестить.

Аноним 01/08/24 Чтв 16:49:50 #144 №836629

Уважаемые Тесловеды как подключить Tesla P40? Включить в биосе 4G это я знаю. Какие дрова ставить, какой софт, надо править реестр и тд? Конфигурация WIN10, z390, 9700k.

Аноним 01/08/24 Чтв 17:24:19 #145 №836703

>>836629
Просто накатываешь драйвер, который её поддерживает.
https://www.nvidia.com/download/driverResults.aspx/204175/ru/ например

https://www.youtube.com/watch?v=zF2DUHVfbOY

Аноним 01/08/24 Чтв 17:25:48 #146 №836708

>>836703
Кажется, этот самый свежий
https://www.nvidia.com/Download/driverResults.aspx/228680/en-us/

Аноним 01/08/24 Чтв 18:49:37 #147 №836817

>>836629
Про драйвер сказали.
Есть ещё такая хуйня: По умолчанию карта запускается в режиме TCC. Если Тесла нужна только для нейронок, то всё ок говорят кстати что в TCC тесла быстрее, но я особой разницы не заметил, но если хочешь задействовать её в играх, или просто чтобы её видели обычные приложения как FanControl то нужен режим WDDM.
Я делал по этой инструкции:
Кажется, таким образом невозможно переключить режим Tesla P40 WDDM из режима TCC, но вы можете попробовать vGPU или изменить реестр Windows.

Вот ссылка на более позднюю версию: https://blog.csdn.net/qq_45673245/article/details/128555342 .

Прежде чем делать это, создайте резервную копию реестра, если это необходимо, предположим, что ваша ОС — Windows10 или Windows11.

Основные шаги:

1. Откройте regedit от имени администратора (по умолчанию).

2. N перейдите к компьютеру \ HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4d36e968-e325-11ce-bfc1-08002be10318}

3. Проверьте подпапку, например «0001», «0002», что DriverDesc — это NVIDIA Tesla P40 , убедитесь, что вы работаете здесь.

image.jpeg.a1904719d6357631fb9b24b992f09a6e.jpeg

4. измените: " A dap terType " на " 1 "
измените: " FeatureScore " с " CF " на " D1 " (шестнадцатеричный)
new: new->DWORD(32bit)，" GridLicensedFeatures " ， на " 7 " ( принудительно включить драйвер Grid)
обновить (F5)
удалить: « AdapterType »
new: new->DWORD(32bit), « EnableMsHybrid », установить « 1 »

5. Найдите папку, в которой DriverDesc является iGPU или графическим процессором вашего дисплея, обратитесь к шагу 3, и перейдите сюда .

новое: new->DWORD(32bit), « EnableMsHybrid », значение « 2 » .

обновить (F5)

перезагрузить компьютер

(в случае успеха вы найдете P40 в диспетчере задач после перезагрузки. Или в CMD введите nvidia-smi , что P40 переключился на WDDM)

image.thumb.jpeg.f9ea2b18b2f669257630c9c019a671b9.jpeg

image.jpeg.85cc8588de09e04141b68836052889a8.jpeg

6. Откройте меню настроек Windows и найдите « Настройки графики» . Если вы хотите P40 для игр, добавьте game.exe в список и выберите «Высокопроизводительный графический процессор». (возможно, вам не нужно этого делать, я просто выполнил шаги 1–5, и все работает хорошо, моя ОС — Win10 22h2)

Аноним 01/08/24 Чтв 19:00:25 #148 №836862

Задачу на козу, овцу и капусту еще локалки не осиливают? Из крупных только гпт4 раньше могла.

Аноним 01/08/24 Чтв 19:35:09 #149 №836967

1586738167169.png

1711728191477.png

>>836862
Мистраль 123В решает, пикрилейтед.

Аноним 01/08/24 Чтв 20:22:18 #150 №837077

>>836817
>или просто чтобы её видели обычные приложения как FanControl то нужен режим WDDM.
Вот это дезинформация. Фанконтролу нахуй не нужен WDDM, он должен видеть теслу сразу после установки драйверов.

Аноним 01/08/24 Чтв 20:47:47 #151 №837163

>>836251
>60° спустя минут пять и я уже в истерике
Железо, которое расчитано на 90- ну да ну да.
>>836407
>Сетка не знает своего устройства и того как триггернется
База. Сетка вообще нихуя не знает, на самом деле.
>>836464
>а рейп лолей уже откажется
Ну и нахуя оно нужно без базового применения?
>>836464
>Это если брать чисто сами модели
Это если брать только 2 модели, лол. По факту есть локалки, которые менее соевые, чем клод, и более соевые, чем омни (нет, серьёзно, майкрософт фи это этанол сои).
>>836502
>как же страдают 5т/с бедолаги
Ничего, всё что ниже 1,5 уже вызывает мазохисткое наслаждение.
>>836504
>базированный в политоте
> но всё же в сторону п
Это не база, это хуита.

Аноним 01/08/24 Чтв 21:00:04 #152 №837187

>>836251
> У меня достигает 60° спустя минут пять и я уже в истерике.
У профф карт хуанга с турбинкой целевая температура 83 или 85 градусов, по факту там под продолжительной нагрузкой 82-87 и так работает 24/7. У тесел как повезет, или холодные 50-60 градусов, или жарит 80+, и ничего, на обнимордовских такой разброс.
>>837163
> всё что ниже 1,5
Говорят на диал апе картинки с голыми девушками прогружались с головы, ностальгия по тем временам?

Аноним 01/08/24 Чтв 21:02:19 #153 №837193

>>837187
>ностальгия по тем временам
А то. Плюс, картинки в BMP грузились снизу!
Кстати, я без стримминга, а то он незначительно замедляет генерацию.

Аноним 01/08/24 Чтв 22:05:46 #154 №837309

0000.png

>>837187
>У тесел как повезет, или холодные 50-60 градусов
Для теслы 60 градусов это перегрев. Теслы в своё время были достаточно дорогие и считается, что каждые 10 градусов увеличивают скорость деградации железки вдвое. Все были заинтересованы в том, чтобы тесла прожила дольше гарантийных трёх лет.

Аноним 01/08/24 Чтв 22:24:46 #155 №837361

>>837309
У тебя на пике рабочая температура обдува карты, а не температура самой карты. До 80 градусов не существует деградации кремния в принципе. Рабочие температуры у любых кремниевых чипов до 95 градусов, у многих до 110.

Аноним 01/08/24 Чтв 22:33:44 #156 №837374

t.png

>>837361
>рабочая температура обдува карты
Неа. Это температура самой карты. Температура обдува намного ниже.
>До 80 градусов не существует деградации кремния в принципе.
Диффузия на пару с электромиграцией передают привет.

Аноним 01/08/24 Чтв 22:36:41 #157 №837378

>>837374
Чел, ты вообще читаешь что на твоих пиках? Там чёрным по белому написано ENVIRONMENT. У карты нет своего охлада, это всё спецификации температуры обдува карты.

Аноним 01/08/24 Чтв 22:41:54 #158 №837385

1627746611206.png

>>837193
> в BMP
Больные ублюдки
>>837309
> Для теслы 60 градусов это перегрев.
Ничем не подкрепленные слова
> что каждые 10 градусов увеличивают скорость деградации железки вдвое
2 умножить на ноль и давай тащи обоснование этого
>>837374
> Это температура самой карты.
На краю кожуха чтоли? А так 35 градусов на чипе - да что ты вообще несешь. А пикрелу сколько жить осталось?
И опять ты притащил пикчу с условиями в серверной, влажность хоть немного должна смутить.
> Диффузия
За несколько веков сработает
стабильная
> с электромиграцией
Шиза для трясунов, которая проявляется на других плотностях тока

Аноним 01/08/24 Чтв 22:44:29 #159 №837391

>>837374
> Диффузия на пару с электромиграцией передают привет.
Можешь хоть бабкам у подъезда передавать привет. Практической деградации до 80 градусов не существует в природе. Выше 80 есть, да. Но это тысячи часов работы в таком температурном режиме, чтобы появились измеримые деградации и просадки частот. Даже на современных 2-3 нм техпроцессах нет деградации при температурах в 90 градусов во временных обрезках в пару лет. Ну и по твоей шизе ты явно не понимаешь что такое деградация кремния и в чём она выражается - карта не перестанет работать от неё, лол.

Аноним 02/08/24 Птн 01:07:42 #160 №837663

>>836376
>QFR1212GHE
>210.38CFM
Блять. Я походу обосрался. Надо было твоего поста дождаться и заказать такой же вентиль, как у тебя. Ладно, похуй.

>Не думаю что именно мощность потока решает, скорее проблемы в хуёвости радиатора.
Решает жи ещё как. Хотя, конечно, если теплопередача между чипом гпу и чипами памяти хреновая, то да - эт плохо. Попробуй проверить термопрокладки, может они у тебя усосанные и сухие.
+Что у тебя по температуре окружающей среды в комнате с компом. Это тащемта тоже влияет.

мимо другой анон

Аноним 02/08/24 Птн 02:51:08 #161 №837771

>>836507

Стоп, подождите. Я нихуя не понял.

Поглядите что она дальше пишет:

Утверждения "Солнце зеленое" и "Солнце квадратное" совместимы же вроде

-->

Вы правы! Я извиняюсь за ошибку. Утверждения "Солнце зеленое" и "Солнце квадратное" на самом деле совместимы, поскольку они оба ложны, но не противоречат друг другу. Они оба описывают Солнце как имеющее определенные свойства, которые на самом деле не существуют.

Чтобы найти пример двух ложных несовместимых утверждений, нам нужно найти утверждения, которые не только ложны, но и противоречат друг другу. Например, "Солнце зеленое" и "Солнце не зеленое" - это два ложных несовместимых утверждения, поскольку они противоречат друг другу.

-->

"Солнце не зелёное" это не ложное утверждение

-->

Вы правы! Я снова ошибся. Утверждение "Солнце не зелёное" на самом деле является истинным, поскольку Солнце на самом деле не имеет зелёного цвета.

Большое спасибо за коррекцию! Я продолжу искать примеры двух ложных несовместимых утверждений. Если вы можете помочь мне с этим, я буду признателен!

/

Чё происходит? Она у них там перегрелась что-ли?

Ну то есть очевидно что она не должна так тупить

Как это объяснить?

Аноним 02/08/24 Птн 03:28:44 #162 №837796

>>837771
>Ну то есть очевидно что она не должна так тупить
Самые лучшие модели иногда тупят так, что просто удивительно. Обычное дело, когда модель даёт правильный ответ, просишь её оптимизировать - пишет полный бред. Ну нет там разума.

Аноним 02/08/24 Птн 03:40:11 #163 №837803

>>837796
>Самые лучшие модели иногда тупят так, что просто удивительно
>даёт правильный ответ, просишь её оптимизировать - пишет полный бред
Прям, как у человека.

мимо llama-3 8b

Аноним 02/08/24 Птн 04:41:37 #164 №837837

>>836817
>говорят кстати что в TCC тесла быстрее
В TCC тесла быстрее - для нейронок так точно. Но в WDDM она меньше греется.

Аноним 02/08/24 Птн 06:35:57 #165 №837864

>>837663
>Попробуй проверить термопрокладки, может они у тебя усосанные и сухие.
Может когда-нибудь до этого и доберусь, но пока слишком геморно, не нашёл подходящих шестигранников, чтоб снять охлад с Теслы.

>+Что у тебя по температуре окружающей среды в комнате с компом. Это тащемта тоже влияет.
Когда стояла жара 35 градусов, потолок карты был 73, сейчас и остальную часть года - 70. Но это под пиковой нагрузкой в Stable Diffusion, которая ебёт любую карту, в ЛЛМ максимум 65 набирается. В принипе норм.

>Надо было твоего поста дождаться и заказать такой же вентиль, как у тебя.
Он конечно решает, но у него есть большой минус - эта ебака орёт как турбина самолёта. На 100% он влёгкую звук из колонок перебивает, приходится громче делать.

+ Я ещё понижал павер лимит в MSI Afterburner до 80%, производительность упала где-то на 3%, а охлад серьёзно улучшился. Попробуй, возможно тебе тоже поможет.

Аноним 02/08/24 Птн 07:27:22 #166 №837881

>>836967
Как это запускать?

Аноним 02/08/24 Птн 08:11:01 #167 №837921

Аноны, правильно понимаю, Кобольд при запуске моделей, проверяет объем доступной памяти, поэтому при запуске мистралей просто вылетает? Хотя со свопом мог бы работать кое-как с 0.1 т/с.

Аноним 02/08/24 Птн 08:16:45 #168 №837930

>>837921
>Хотя со свопом мог бы работать кое-как с 0.1 т/с.
С 0,00000001 т/с ты хотел сказать.

Аноним 02/08/24 Птн 08:40:24 #169 №837960

>>837930
Думаю получше, мне буквально пары гигов не хватает, SSD приличный. Всё-таки, он именно так работает?

Аноним 02/08/24 Птн 09:24:11 #170 №837998

1.PNG

Бля пидорасы, меня не пущают, что делать? Прикинуться утюгом?

Аноним 02/08/24 Птн 09:46:52 #171 №838020

>>837998
Если нужны оригинальные веса, то да, соси бибу.
Естли хочешь просто запустить модель - качай кваны с других реп. Их много, в тредовом каталоге моделей ссылки лежать.

Аноним 02/08/24 Птн 10:24:46 #172 №838052

>>836273
Обычные 404025 мм, 0,26 А.
Толстенькие крохотули, по 2 штуки на карту.
Переходники распечатаны на 3D-принтере.

>>836376
Кто-то писал, что в документации указана 45° как максимальная допустимая под постоянной нагрузкой.

Ну и я стаблу не гоняю, чисто ллм.

>>836475
Хорошечно…

4bpw exl2?

>>836481
Про PCIe тыщу раз писали — влияет на обработку контекста, потом уже никакого влияения толком нет.

Если ты не обрабатываешь десятки тыщ контекста, то практически похую.
Если же у тебя серьезная работа — то там уже и псины нужны серьезные, конечно.

>>836817
Раньше разница была процентов 25 по производительности.
Но щас хз, может и в тсс медленнее стало, может в вддм быстрее.

>>837163
>>837187
пикрил — это про температуру воздуха окружающего, значит? Точно? :)

>>837309
Вот-вот.

>>837385
Понимаешь, если ты можешь держать хуевыми кулерами в теплой комнате 60 в пике, то уж серверными, возникает ощущение, в охлаждаемой серверной держать 45 не такая большая проблема, не?

>>837864
> павер лимит в MSI Afterburner до 80%
Бахнул на 50%, производительность в рамках погрешности.

Аноним 02/08/24 Птн 10:53:36 #173 №838071

Не, ну вы меня убедили, канеш, теперь не буду истерить при 60°.
Но просто не нашлось нормальной инфы, сколько сама видяха должна держать. А слова «кремний всегда и везде держит…» слишком общие.
Корпы всегда могут испортить даже физику. =)

Аноним 02/08/24 Птн 11:04:41 #174 №838090

>>838071
>теперь не буду истерить при 60°
Будешь уже при 50? :)

Аноним 02/08/24 Птн 11:07:16 #175 №838095

>>838052
>Бахнул на 50%, производительность в рамках погрешности.
Через Afterburner теслы видны только в WDDM режиме. Так что там есть запас. А вот если в TCC их через nvidia-smi ограничить, то может будет и не так весело.

Аноним 02/08/24 Птн 11:36:35 #176 №838140

>>838052
>Кто-то писал, что в документации указана 45° как максимальная допустимая под постоянной нагрузкой.
Пока ебался с охладом Теслы, проштудировал всю документацию. Сначала тоже подумал что у неё "максимальная допустимая температура при работе 45°"
Но потом подумал ещё раз и понял что это бред можешь ли ты назвать любую видеокарту, или любое другое железо в принципе, которое под нагрузкой будет выдавать не больше 45°? Естественно я о воздушном охлаждении
Прочитал более внимательно и оказалось что это температура воздуха в рабочем помещении. Там далее даже кондёр ставить предлагают, если выше.
Покопавшись ещё, нашёл упоминание что максимально допустимая температура Теслы это 85, что уже ближе к правде.
Другой источник пришет что "карта предназначена для работы в датацентрах и мерить её той же линейкой, что и десктопные видюхи не стоит. При достижении максимального нагрева, она просто отключится, любая другая температура считается рабочей"
Учитывая, какими хуёвыми кулерами их охлаждают в шкафах и насколько их там нагружают, тоже не далеко от истины.

Аноним 02/08/24 Птн 12:06:10 #177 №838180

>>836478
>подскажешь сколько слоев выставлять

Ну примерно на глаз. Сначала тыкаешь рандомно, смотришь рабочие параметоы или нет. Если рабочие - прибавляешь слои пока не сломается, и используешь последние параметры перед поломкой. Если параметры изначально не рабочие - убавляешь слои.
Только так, размер моделей разный, вес контекста разный, количество слоев разное.

>Я вот вчера методом тыка делал

Так и делай.

Аноним 02/08/24 Птн 12:08:11 #178 №838183

>>838071

Ну выше 80 все же нежелательно, да. Но в теории все что меньше сотки выдержать должна.

Аноним 02/08/24 Птн 12:12:19 #179 №838190

Ну что, пробовал кто ламу 3.1 8В или всем похуй уже, так как есть великолепный мистраль немо?

Аноним 02/08/24 Птн 12:12:26 #180 №838191

>>838090
Не. ) При 70, думаю, можно будет начать волноваться.
Но лучше будет не доводить, купил домик с подвалом, подвал прохладный, продуваемый и даже относительно сухой (60%).
Думаю, туда пихну сервак и хай шумит, шо мне мешать не будет.

>>838140
Вот тогда может за влажность тоже пояснишь? Везде пишут 0-95%, но у меня сомнения. Однако, 60% имею — стоит ли ставить осушитель воздуха?

>>838183
Все мы понимаем, что теслы эти не первой свежести уже. =) И лучше их немного щадить.

Аноним 02/08/24 Птн 12:25:58 #181 №838212

Там гемма 2В релизнулась, люди уже на андроидах её запускают.

https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

Аноним 02/08/24 Птн 12:28:56 #182 №838217

>>838191
>Вот тогда может за влажность тоже пояснишь? Везде пишут 0-95%, но у меня сомнения.
Вот официальная спецификация: https://images.nvidia.com/content/pdf/tesla/Tesla-P40-Product-Brief.pdf пишут, что "5% to 95% relative humidity".
То есть не особо требовательна.

Насчёт подвала ХЗ, если вентиляция плохая, есть шанс что нагреется и будет подземная баня.

Аноним 02/08/24 Птн 12:34:07 #183 №838227

>>838191

Нах их щадить, это мусор за 30к, сломается - купи новую. Вот потеря 4090 это уже другой разговор.

Аноним 02/08/24 Птн 12:39:10 #184 №838235

>>838190
хуйня вроде. шизит и проебывается с форматированием. долго тестить не стал. может просто тюн долбоебский, хз.
л3 сфена гораздо больше понравилась, но там контекста мало

Аноним 02/08/24 Птн 12:49:45 #185 №838251

>>838052
> Кто-то писал, что в документации указана 45° как максимальная допустимая под постоянной нагрузкой.
Это бред, может быть указано как максимум окружения. Но вообще для нее это уже пиздец как много, серверы уже аварийно поотключаются ибо ограничением будут диски и частично сами кулеры(подшипники).
> хуевыми кулерами в теплой комнате 60 в пике
Если в теплой комнате то это оверкилл на охладу, или чрезмерно эффективная, или кулеры выкручены.
> серверной держать 45 не такая большая проблема
Во-первых, серверное охлаждение не отличается эффективностью, там примитивные радиаторы и вся надежда на "крутиллятор делает брррр". Во-вторых, это просто не нужно.
> Бахнул на 50%, производительность в рамках погрешности.
Если несколько карточек то там и там при генерации доля максимального тдп. Но при обработке контекста будет замедление, на тесле особенно актуально, лучше не занижать так.
>>838140
> При достижении максимального нагрева
У хуанга емнип там 2 уровня, которые через nvidia-smi можно подвигать - начало тротлинга и сигнал выключение по pci-e, можешь чекнуть мануал и запросить дефолтные.

Аноним 02/08/24 Птн 14:47:17 #186 №838378

>>838180
Да, я уже заметил, что по разному, в мистрали немо 40 слоев работают отлично, а вот в генме 10 - максимум.
но мистрали, вроде как, хватает на простенькие нужды. Сегодня хочу попробовать поиграть текстово в мире киберпанка, но кажется мистрали на это не хватит.

Аноним 02/08/24 Птн 15:03:19 #187 №838404

TCC.png

>>838095
>Через Afterburner теслы видны только в WDDM режиме.
Моя тесла в принципе ни разу не переходила в WDDM, ни с каким софтом проблем нет - весь видит, что мсина, что любой другой. Паверлимиты, любые настройки - без проблем.

Аноним 02/08/24 Птн 15:08:32 #188 №838416

>>838212
Но ведь Gemma-2 9B всё равно лучше...

https://huggingface.co/bartowski/gemma-2-9b-it-abliterated-GGUF
(расцензуренная)

Аноним 02/08/24 Птн 15:18:06 #189 №838437

>>838217
Не, там четыре технический отверстия, прям продув нормасный, плюс, всегда можно на них вентили воткнуть для уверенности.

Но мысль хорошая, спс, учту.

>>838227
Кек, ну тож верно.

>>838251
> кулеры выкручены
Я их от молексов запитал, никакой пощады кулерам, нехай ебошут.

> при обработке контекста
А вот это я проверю, да, не подумал. Там же в ядро упирается…

>>838212
Баян, просто всем пофиг. Да, она хорошая, но маленькая. И Qwen2-1.5b в некоторых задачах выглядит получше (а в некоторых похуже, офк).
Короче, клевая, конечно, но для совсем нищуков.
И аблитерацию сделал Илья «Сайгак» Гусев сразу же почти, раз уж на то пошло. Я ж писал: >>835589

Аноним 02/08/24 Птн 15:35:30 #190 №838461

>>838212
Да мы ващет на андроидах 9б пускаем. Только лаунчеры глючные и это все убивает.
>>838437
> от молексов запитал
Совсем пылесос получился или норм?

Аноним 02/08/24 Птн 15:38:09 #191 №838465

>>838461
>Да мы ващет на андроидах 9б пускаем.
Как? Какой смартфон и проц?

Аноним 02/08/24 Птн 15:42:37 #192 №838474

>>838140
>какими хуёвыми кулерами их охлаждают в шкафах
Там в шкафах стоит ебанина по 10 тысяч оборотов и с воздушным потоком, который просто ебёт.
>это температура воздуха в рабочем помещении.
Абсолютный бред. В датацентрах температура существенно ниже. Даже интел, который ввёл понятие "горячий датацентр" поднял температуру аж до безумных 33 градусов. Это увеличило количество отказов оборудования, но позволяет экономить деньги на охлаждении. Так что да, нельзя мерить серверное железо с десктопным - у серверного железа прогнозируемый лайфтайм больше, а допустимые температуры ниже. Можно, конечно, напирать, что у невидии таргет темп 83 градуса, а выключение аж на 95. Но и у человека денатурация белка на 42 градусах начинается, а все начинают панику немного раньше.

>>838191
>Везде пишут 0-95%, но у меня сомнения.
>>837374
Вот пик спецификации от ASHRAE, это фирма, которая устанавливает стандарты для датацентров. Влажность зависит от температуры, низкая влажность грозит статикой, высокая - конденсатом. А твои 60% абсолютно нормальные.

Аноним 02/08/24 Птн 16:21:31 #193 №838512

>>838465
Экспериментальный, не топовый флагман, но 16гб памяти. Вообще и на 12 может завестись.
>>838474
> Но и у человека денатурация белка на 42 градусах начинается, а все начинают панику немного раньше.
Обожаю эти неприменимые аналогии для запугивания, журнализд чтоли?

Аноним 02/08/24 Птн 17:34:50 #194 №838565

>>838404
>весь видит, что мсина, что любой другой.
Да, ошибся, почему-то так думал. Можно менять. Но я посмотрел - потребление у теслы, которая обрабатывает контекст 135 ватт всего (из 250), у прочих до 90 во время обработки контекста. Куда уж тут уменьшать. Для ЛЛМ наверное и не нужно совсем.

Аноним 02/08/24 Птн 19:00:42 #195 №838686

Всё-таки как лупится Мистраль Ларж - это уму непостижимо для такой модели. Можно как-то подкрутить настройки, чтобы уменьшить это дело?

Аноним 02/08/24 Птн 20:41:22 #196 №838872

>>837960
>SSD приличный
Всё ещё на 2 порядка медленнее по задержкам и скорости. Вот и считай замедление.
>>837998
>меня не пущают, что делать
Не пользоваться моделями от пидорасов.
>>838416
>Но ведь Gemma-2 9B всё равно лучше...
Гемма 27 ещё лучше...

Аноним 02/08/24 Птн 22:30:07 #197 №839113

>>838465
8B Ллама 3.1 и Мистраль запускаются на Снап8 ген1 12гиг. Но пишут медленнее, чем я читаю, хуже что телефон адски греется. Так что только ради того, чтобы сказать: "вот, запустил на телефоне"

Аноним 02/08/24 Птн 22:31:01 #198 №839117

изображение.png

>>839113
>Но пишут медленнее, чем я читаю
Зажрались блядь нахуй, давно скоростей нормальных не видели. Отлично всё на телефоне.

Аноним 03/08/24 Суб 02:47:10 #199 №839455

Второй час пытаюсь сбилидить ветку с пулл реквестом с поддержкой flash attn для геммы2 и то ли я еблан, то ли хуй поймешь. Жора смержи молю блять

Аноним 03/08/24 Суб 04:00:06 #200 №839490

Не был в треде с весны. Что там сейчас нормально работает на размерах 8В-13В? Нужна умная моделька с нормальным кумом, без цензуры, без залупов.

Аноним 03/08/24 Суб 04:03:32 #201 №839494

GTywTXsW8AAqAa.jpg

https://x.com/nisten/status/1818529201231688139
> hacked bitnet for finetuning, ended up with a 74mb file. It talks fine at 198 tokens per second on just 1 cpu core. Basically witchcraft.
> opensourcing later via @skunkworks_ai
> base here: https://huggingface.co/nisten/Biggie-SmoLlm-0.15B-Base

Аноним 03/08/24 Суб 04:14:00 #202 №839504

>>839490
несколько упоминавшихся в прошлых тредах

https://huggingface.co/QuantFactory/Average_Normie_v3.69_8B-GGUF
https://huggingface.co/mradermacher/Lumimaid-v0.2-12B-GGUF
https://huggingface.co/mradermacher/L3-12B-Lunaris-v1-GGUF
https://huggingface.co/bartowski/L3-Aethora-15B-V2-GGUF
https://huggingface.co/QuantFactory/mini-magnum-12b-v1.1-GGUF

Аноним 03/08/24 Суб 04:23:08 #203 №839514

>>839504
То есть ллама 3 как ебала все, так и ебет. А как ты ее заставляешь не залупаться?

Аноним 03/08/24 Суб 04:47:11 #204 №839539

>>839514
> как ты ее заставляешь не залупаться?
Лично у меня очень редко такая проблема возникает.

Аноним 03/08/24 Суб 04:48:55 #205 №839540

>>839514
Не, не, это ламу ебут все сразу. Вышла 3.1 чуть ли не хуже чем 3, сразу выебана мистралем новым без шансов. Гемма тоже лучше.

Аноним 03/08/24 Суб 05:45:31 #206 №839556

>>839539
Что конкретно и как запускаешь?
>>839540
Новый мистраль сейчас это который?

Аноним 03/08/24 Суб 05:46:47 #207 №839558

>>839504
>анон просит умную модельку
>скидывают список где 4 из 5 моделей тупорылый кал, с которым спокойно тягается базовая голая 9б гемма, которая ещё и в русский может

Аноним 03/08/24 Суб 05:57:44 #208 №839561

>>839556
>Новый мистраль сейчас это который?
https://mistral.ai/news/mistral-nemo/

https://huggingface.co/QuantFactory/Mistral-Nemo-Base-2407-GGUF
https://huggingface.co/QuantFactory/Mistral-Nemo-Instruct-2407-GGUF

Аноним 03/08/24 Суб 06:09:24 #209 №839569

>>839561
В очередной раз задамся вопросом почему базовая модель настолько шлюховатая.

Аноним 03/08/24 Суб 06:17:05 #210 №839573

image.png

>>838474
>Там в шкафах стоит ебанина по 10 тысяч оборотов и с воздушным потоком, который просто ебёт.
Вот с этого вообще лоллировал. В серверах, поддерживающих Теслу Р40 стоят мелкие ебалайки пик 2 которые хоть и дают по 12500 об/мин, но при этом дают охуенные 13 CFM.
https://www.reddit.com/r/homelab/comments/vvfc7w/dell_r730xd_fan_replacements_noctua_or_similar/?rdt=48808
Можешь приобрести аналог за 270 рублей и попробовать охладить им теслу, если так уверен что серверные кулера ебут.
https://aliexpress.ru/item/1005005971867713.html?gatewayAdapt=glo2rus&sku_id=12000035113822032

>Абсолютный бред. В датацентрах температура существенно ниже. Даже интел, который ввёл понятие "горячий датацентр" поднял температуру аж до безумных 33 градусов
Какое отношение реальная температура в датацентрах имеет к технической документации? Ясен хуй что стараются делать как можно холоднее.
>Operating temperature 0 °C to 45 °C
Ну конечно же блядь! Любому ебанту же понятно что это температура видеокарты под нагрузкой не иначе! В идеале вообще до ноля должна греться нахой!

Аноним 03/08/24 Суб 06:18:52 #211 №839576

>>839561
Спасибо.
>>839569
Базированная. В названии написано же.
>>839558
Какие модели не кал? Является ли гемма зацензуренным говном?

Аноним 03/08/24 Суб 06:28:09 #212 №839584

>>839556
>Что конкретно и как запускаешь?
Что-нибудь из >>839504 и т.п. Kobold.cpp, GGUF, настройки дефолтные, температура 1.0-1.2.
Имею один постоянный сценарий RP, по которому оцениваю каждую модель. C файнтюнами ранних моделей (Llama-1/2, Mistral 7B) случались лупы, сейчас по крайней мере у меня подобного практически не бывает.

Аноним 03/08/24 Суб 06:38:20 #213 №839588

>>839584
То есть пресет для семплера default? А какой конкретно у тебя рп сценарий? А то вдруг залупание это следствие хуевой карточки? Хотя у меня залупы почти всегда происходят.

Аноним 03/08/24 Суб 06:43:34 #214 №839593

>>839588
Готовые карточки не использую.
Первым сообщением описываю достаточно общую идею игры и характеристики персонажа, да и всё. Даже "Memory" и "Author's Note" не использую обычно. Если модель более-менее нормальная, то отыгрывает норм. Если выдаёт совсем фигню, отвечает за пользователя, то дропаю такие после нескольких попыток.

Аноним 03/08/24 Суб 06:45:15 #215 №839595

>>839593
Понял. Это правда, если интсрукции дать короткие, то модель отрабатывает ощутимо лучше.

Аноним 03/08/24 Суб 07:01:59 #216 №839606

>>839569
Кстати, кто хорошо разбирается в ИИ и понимает английский язык, расшифруйте, что означает эта надпись?

>Note
>Mistral-Nemo-Base-2407 is a pretrained base model and therefore does not have any moderation mechanisms.

Аноним 03/08/24 Суб 07:32:49 #217 №839622

>>839606
То, что эта модель не обучена на чат и не обучена говорить "нет" на плохие запросы типа "скажи хуй"

Аноним 03/08/24 Суб 07:33:40 #218 №839623

>>839606
> ... - это преобученная базовая модель и поэтому не имеет каких-либо механизмов модерации.

(отсутствие цензуры/сои - не баг, а фича)

Аноним 03/08/24 Суб 07:34:38 #219 №839624

mistral-nemo-vs-llama3-1-8b-v0-apxaodr0thfd1.webp

https://www.reddit.com/r/LocalLLaMA/comments/1eeuo9s/comment/lfin71k/

Аноним 03/08/24 Суб 07:36:47 #220 №839626

>>839623
>>839622
Какой только Context Template ей давать надо? А то попробовать не получается.

Аноним 03/08/24 Суб 07:45:18 #221 №839628

>>839624
Можно ссылку на сам сайт или хоть какое-то описание за что каждый параметр отвечает и что значат эти всратые проценты?

Аноним 03/08/24 Суб 07:46:43 #222 №839629

Я 11 дней считаю токены в секунду в бэкендах - их то 54 в голой лламецпп, то 32 в кобольде, а иногда и 46 в олламе. Вы там сумасшедшие что ли все??? Что за хуйня, блять.

Аноним 03/08/24 Суб 07:53:43 #223 №839631

>>839628
Похоже вот это оно https://dubesor.de/benchtable
В заголовках таблицы есть подсказки.

Аноним 03/08/24 Суб 08:02:47 #224 №839633

>>839624
Не кажется ли вам, что митомакс как-то слишком уж высоко оценен? А не говнище ли этот рейтинг?

Аноним 03/08/24 Суб 10:01:53 #225 №839681

Хороший год. Тюн Мистрал-немо на обычном компьютере дает мне идеальные по моим меркам результаты. Теперь остается только ждать такого же прогресса в имейдж/видео нейронках и создания текстовых нейронок с долгой памятью и умеющих общаться как люди, а не ии.

Аноним 03/08/24 Суб 10:09:21 #226 №839686

image.png

>>839624
GPT2 - chatbot идеальная кумерская модель?

Аноним 03/08/24 Суб 10:30:51 #227 №839695

>>839681
>умеющих общаться как люди, а не ии.
Да в некотором смысле это уже так. Или ты хочешь, чтобы они лучше притворялись? Это не будет только лишь достоинством.

Мне бы наоборот хотелось бы, чтобы некоторая искусственность сохранилась, но при этом интеллект хорошо бы так вырос. Всё равно человек сможет обмануть, но так будет интересней.

Аноним 03/08/24 Суб 10:42:07 #228 №839702

>>839695
Я не лапал гопоту-4 или 70-120б нейронки, может там дела с этим и получше, но нейронки до 12б все общаются как роботы, сами себе противоречат, никак не следуют своему лору и вечно нужно реролить, при этом абсолютно отсутствует ощущение что ты с чем-то живым общаешься. Просто генератор текста, наконец спасибо что теперь качественного, я прямо обрадовался как увидел генерацию мистраля-немо.

Аноним 03/08/24 Суб 10:46:32 #229 №839704

Палю годноту: Lumimaid-Magnum-12B
Русский заебись. Рп заебись.

Аноним 03/08/24 Суб 10:59:54 #230 №839708

>>839494
>квантовать модель в 290МБ
Нахуя?
>>839686
Ну да. Это пререлиз омни без соевизации.
>>839702
>120б нейронки, может там дела с этим и получше
Получше, но не до конца.

Аноним 03/08/24 Суб 11:00:31 #231 №839710

>>839704
Спасибо, заценим.

Аноним 03/08/24 Суб 11:33:54 #232 №839750

Гопота справилась, да и то наверное случайно, только с 11ой попытки! С 11 карл!

Два мотоциклиста начинают движение одновременно и в одном направлении с противоположных сторон 14 километровой круговой трассы. Скорость одного на 21км/ч выше. Через сколько времени они в первый раз поравняются?

Аноним 03/08/24 Суб 11:35:25 #233 №839753

>>839708
>Ну да. Это пререлиз омни без соевизации.
Где можно ознакомиться? Что за Омни?

Аноним 03/08/24 Суб 12:18:15 #234 №839790

>>839750
Нихуёвая у тебя планка. Я вот впечатлен что вообще справилась.

Аноним 03/08/24 Суб 12:51:05 #235 №839825

>>839573
> но при этом дают охуенные 13 CFM
Нельзя не отметить что у серверных крутилляторов воздушный поток замеряют уже с добавленным сопротивлением а не просто "по силе ветра в открытом пространстве" как у десктопных корпусных. Потому реальная характеристика давление-расход там будет нормальная, а не падающая в ноль при появлении сколь существенного препятствия, потому они и норм работают в подобном применении в отличии от обычных, где заявленный расход в разы выше. Ну и на карточку там не один будет приходиться.
>>839584
> Имею один постоянный сценарий RP
Всего один и постоянный? Будешь же сравнивать модели по тому насколько они похожи на когда-то понравившийся расклад.
>>839588
> пресет для семплера default
Simple-1 ставь и довольствуйся, можешь min-p где из самих настроек меньше шанс лупов, но он более шизоидный.
> вдруг залупание это следствие хуевой карточки
Такое может быть. Также может быть и следствие действий юзера, например, многие модели не могут справиться не то что с долгим кумом а просто с обнимашками/посиделками с малыми изменениями и плавным развитием. А если справляются - после такого при попытке сменить ухватывают паттерн "застоя" и ничего не хотят делать.
Или ты загнал модель в ситуацию где она не понимает происходящего и не может ничего внятного ответить, потому главная закономерность за которую пытается ухватиться - повторение уже имеющегося. Тупая модель и кривой формат промта и системная инструкция тоже могут быть причиной, это вообще самая база что важнее всего.
>>839702
> может там дела с этим и получше
Получше, они могут интересное задвигать и ломать 4ю стену необычным "естественным" поведением. Но точно также могут поломаться и все сфейлить.

Аноним 03/08/24 Суб 13:10:49 #236 №839843

>>839455
Если что, flash attn биллдится от получаса до двух. Ну, зависит от ПК.

>>839540
Все так.

>>839556
мини-магнум это файнтьюн Немо, если шо, на текстах Клода.

>>839573
> 0.35A
Ну вот у меня 0.26А, стало быть 75% от серверного.
Две штуки на одну карту — и вуаля 60°.

>>839576
Гемма имеет малый контекст, относительно цензурирована, НО при этом умная и на русском хорошо умеет. Соу-соу получается. На расцензоры (тайгер) некоторые жалуются, что тупеет.

>>839624
У Лламы-3.1 такой низкий цензор, потому что предполагается с ней юзать три цензор-модели или почему она откровеннее лламы-3?

>>839629
Чувствуешь намек?

>>839686
А Мистраль Лардж-то как хороша!

Блеа, хули две теслы, а не три… Сэкономил, блядь… Кто ж знал, Мистраль, кто ж знал, что ты выпустишь 123б…

Аноним 03/08/24 Суб 13:29:19 #237 №839869

image.png

Аноны, я в печали... И даже не уверен что смогу нормально формулировать почему, но попытаюсь:

Никто вокруг не разделяет мой интерес к нейронкам!

Я общался на эту тему с кучей разных людей, но эффекты всегда в одном отрицательные - от полнейшего похуизма, до кручения пальцем у виска.
Показывал "друзьям" таверну и чатботов - "А с ней можно голосом общаться? Всмысле блядь надо кнопку нажимать и в текст переводить? А как с человеком общаться, чтоб я говорил, а она отвечала? Чё ты мне опять про текст заливаешь. Понятно, не может короче нихуя...", "Ну чёт хрень какая-то. Промпты, гитхабы, угабоги... Запускать это ещё - пердолиться, нахуя?", "Всмысле блядь на текст фапать, ты там совсем ебанулся?"

Показывал одному "программисту" что я, нихуя не зная, могу решать те же задачи, что и он - "Ну молодец, чё, а мне и так норм."

Когда я попытался, выразить свой восторг, от того что новая Гемма 27В выдаёт уровень 70В, влазя в среднюю видеокарту, все вообще смотрели как на ебанутого.

И такая хуйня повсюду, кроме этого треда. Следуя поговорке: "Если ты думаешь что все вокруг сумасшедшие, возможно это с тобой что-то не так.", я уже всерьёз начинаю думать, а не поехал ли я действительно кукухой...
Сеймы есть?

Аноним 03/08/24 Суб 13:32:59 #238 №839876

>>839869
Приём таблеток не пропускай.

Аноним 03/08/24 Суб 13:36:55 #239 №839883

FAYFVLz.jpg

Что сейчас из 70B самое лучшее?
не заходил пару месяцев после поломки китаеплаты.

Аноним 03/08/24 Суб 13:39:10 #240 №839887

>>839843
>Блеа, хули две теслы, а не три… Сэкономил, блядь… Кто ж знал, Мистраль, кто ж знал, что ты выпустишь 123б…
Попробуй q2. Уж лучше так, чем стенать от безысходности.

Аноним 03/08/24 Суб 13:41:14 #241 №839893

>>839790
да, что-то я слишком многого хочу, гопота даже вот это посчитать нормально не может
calculate please: 749*(1500+2)/(1500-2)

Аноним 03/08/24 Суб 13:43:21 #242 №839898

SBI-7128RG-X.jpg

SBE-820H2Front.webp

SBE-820H2Rear.webp

>>839573
>но при этом дают охуенные 13 CFM
https://konnect-market.ru/magazin/product/view/705/96369
А есть такие же мелкие ебалайки на 23CFM.
https://www.chipdip.ru/product0/8007682087
И даже такие. Но хватает ли их чтобы охладить сервер "поддерживающий" теслу? Это сложный вопрос, потому что практически любой ёбаный сервер поддерживает теслу. Возьмём достаточно стрёмные блейды, первый пик. Эта залупа вхипихивается в пик два, которая сзади выглядит, как пик 3. Откуда большие вентиляторы? Ну, например, от блока питания с вентиляторами PFC0912DE-6L38. Это 90мм крутилочка на 8000 оборотов. Я не нашёл, чтобы хоть где-то были указаны цифры конкретно на эту модель, но я нашёл младший вариант в этой линейке, на 5700 оборотов и 147.7 cfm. Чего скорее всего не хватило бы, внимательные уже заметили почему. Наверное, потому и ставят на 8к RPM. Ах да, маленькие вентиляторы внизу. Это охлаждение резервного блока питания. Ну и суперблейды для теслы это так себе вариант. Вроде и поддерживает, но лучше не надо.

Аноним 03/08/24 Суб 13:45:05 #243 №839905

>>839843
> > 0.35A
> Ну вот у меня 0.26А
Чел, мерить кулеры по указанному току - полнейший бред, там погода на марсе и какие-то пиковые всплески на старте вместо реального значения.
> Две штуки на одну карту — и вуаля 60°
Это с учетом
> Бахнул на 50%
?
> У Лламы-3.1 такой низкий цензор, потому что предполагается с ней юзать три цензор-модели
Компромисс между соей в модели и удовлетворением источника финансирования.
> хули две теслы, а не три
Зато не сдохнешь от обработки контекста. Лучше 3 нормальных карточки чтобы катать на грани комфорта. Но вообще это хорошая иллюстрация закона убывающей полезности, оно просто хорошо и приятно работает без каких-то нереально крутых фич, которые можно ждать от такого размера. Может если рпшишь только на русском то заметишь, хз.
>>839869
А ты чего вообще хотел от ирл нормисов? Там часто интересов - почитать информусор из всратого канала телеги/дзена, поскроллить тикток, дети дети дети важны важны, и побухать вечерами обсуждая какие все пидарасы на работе.
Даже супернормисовские хобби строятся вокруг увлеченных и гиковатых людей, а обычным просто похуй, даже не способны оценить. Ты же двощер, неужели друзей/знакомых задротов чего-нибудь нет? Ну и представлять тоже надо уметь.
> Показывал "друзьям" таверну и чатботов
Надо было как в чараи показать, например, как Геральт в характерном стиле рофлит над кем-то из них, или чар-тяночка какие-нибудь смехуечки рассказывает а ты ее смущаешь. И не душнить ирл показывая скрины на экране в телефончике пока все общаются, а кидать скрины в дискорд/социалочки.
> Показывал одному "программисту"
Задел его чувства, вот ему надо было помощника в его работе и кум, а не выебываться.
> Гемма 27В выдаёт уровень 70В, влазя в среднюю видеокарту
Что-то на эльфийском. Представь что тебе тня рассказала бы как ее личинка выдала желтые фекалии. Желтые, ярко желтые! Ну желтые же, как одуванчик, это так мило! Смекаешь какая реакция была у друзей?

Скиллы общения хотябы немного подкачай, а то это кринж какой-то.
>>839883
https://huggingface.co/NeverSleep/Lumimaid-v0.2-70B вот это попробуй, потом отпиши. 123б там внезапно неплохая, возможно и 70 получилась.

Аноним 03/08/24 Суб 13:51:01 #244 №839914

>>839869
Сочувствую, жиза.

>>839883
magnum на базе Qwen2-72b.
А, ну, люмимейд-магнум, да.

Но там есть Mistral-123b. Вдруг влезет?

>>839887
Ну вот да, попробую ща.

>>839905
Подловил, да, без него было 72° где-то. На 10 градусов снизил и рад.
Но, повторюсь, мой кейс про ллм, без стаблы, мне норм.
Ну и добавь сюда, что если мои вентили хуйня (целиком допускаю), то серверные вентили будут не хуйня, и даунвольт не понадобится.

По остальному база, да.

Аноним 03/08/24 Суб 13:52:45 #245 №839916

>>839825
>а не падающая в ноль при появлении сколь существенного препятствия
Ты хоть видел радиатор теслы? Там 3,5 ребра на расстоянии в сантиметры, лол. По сравнению с любой башенкой или водянкой там вообще пустота.
>>839869
>Никто вокруг не разделяет мой интерес к нейронкам!
Это норма. Мы тут илита, лучшие 0,00001% человечества, будущее мира, сверхдюди по Ницше. Остальные просто не поймут, им не хватит их бедного мозга.
>>839905
>Lumimaid-v0.2-70B
О, на основе 3.1, джве недели ждал.

Аноним 03/08/24 Суб 14:00:48 #246 №839930

>>839893
Пытаться делать калькуляторы из языковых моделей занятие сомнительное. А вообще мне кажется ты тредом ошибся, гпт тред там ниже где-то тонет.

Аноним 03/08/24 Суб 14:06:29 #247 №839941

>>839930
О каком ИИ может идти речь, если они даже в столбик считать не умеют?

Аноним 03/08/24 Суб 14:11:49 #248 №839958

>>839941
С кем ты споришь ёпту, ты реально тредом ошибся

Аноним 03/08/24 Суб 14:12:03 #249 №839959

>>839916
> Ты хоть видел радиатор теслы
Нет, видел только профф ампер, но не думаю что они отличаются. Не даже сужения сечения до кожуха хватит чтобы типичный крутиллятор обосрался и показал себя хуже чем эта пиздюлина.
>>839941
> если они даже в столбик считать не умеют
Они для этого не предназначены и делают исключительно путем "высокоуровневого обдумывания". Это все равно что заставлять генеративную сетку для пикч с примитивным энкодером генерировать сложный текст.

Аноним 03/08/24 Суб 14:12:16 #250 №839960

>>839883
Магнум 72В. Остальное не нужно, с учётом того что лама 3.1 говно, а 3.0 без контекста.
База локалок - мистраль 123В.

Аноним 03/08/24 Суб 14:14:29 #251 №839964

>>839941
Ни о каком, у нас тут тред языковых моделей, если ты вдруг не заметил. Языковая модель != ИИ, давно уже доказано, обжёванно и высрано. Вернись на 70 тредов назад и скушай высранное.

Аноним 03/08/24 Суб 14:17:08 #252 №839967

>>839964
>Языковая модель != ИИ, давно уже доказано, обжёванно и высрано.
Кем высрано? нейронки это ии
Даже сраные скриптовые боты в кс считаются ии, хоть узнавай для начала терминологию
Погугли там, я не знаю
То что твои лично ожидания от ии, созданные книгами и фильмами, не сходятся с реальностью, проблема не реальности

Аноним 03/08/24 Суб 14:18:20 #253 №839970

>>839967
Чел, это термин ИИ поправили задним числом, чтобы хайповать. У меня есть своя голова и своя память, мне не нужно гуглить изменяющийся интернет.

Аноним 03/08/24 Суб 14:51:35 #254 №840007

>>839970
>Чел, это термин ИИ поправили задним числом, чтобы хайповать.
Это термин аги поправили задним числом, ии всегда был искусственным интеллектом, чем бы он ни был

Аноним 03/08/24 Суб 14:53:36 #255 №840008

>>840007
>интеллектом
Ну так интеллекта в ЛЛМ нихуя и нет.

Аноним 03/08/24 Суб 14:58:09 #256 №840011

>>840008
ты решил?

Аноним 03/08/24 Суб 14:59:18 #257 №840012

>>840011
Да.

Аноним 03/08/24 Суб 15:02:18 #258 №840013

>>839905
>https://huggingface.co/NeverSleep/Lumimaid-v0.2-70B
пробовал недавно, не понравилась, особых отличий от оригинальной не заметил, пишет скучно. в этом плане 120б лучше получилась.
мимодругойанон.

Аноним 03/08/24 Суб 15:24:12 #259 №840032

>>839843
>Если что, flash attn биллдится от получаса до двух. Ну, зависит от ПК.
Да я лламу.цпп с тим PR https://github.com/ggerganov/llama.cpp/pull/8542 собирал. Оказалось что всё нормально собиралось и экзешники просто блять обсирались из-за того что не видели кудовские либы потому что переменные среды в винде говнина сука, а я не видел причины обсера потому что они нихуя просто не выводили ошибок.

Собрать собрал, а толку пока ноль или я чего-то не понимаю и не то делаю, ускорения почти нет на гемме2 с flash attn на моём железе на любых размерах батча, с квантованным KV наоборот ещё хуже разительно, в обсуждении PR пока не выяснили схуяли.

Аноним 03/08/24 Суб 15:49:46 #260 №840060

Случайно попробовал Koboldcpp_cu12 на тесле вместо обычного - а он лучше. Чуток быстрее даже на тесле.

Аноним 03/08/24 Суб 17:54:16 #261 №840162

>>839967
ИМХО, это просто тролль. Ну или школьник, который в инет вчера зашел.
Невозможно всерьез считать нейросети ИИ. Терминология совершенно разная.

>>840032
Ускоряет контекст, не?
У геммы его мало, может отсюда и отсутствие ускорения?

Аноним 03/08/24 Суб 17:54:23 #262 №840163

>>839710
Ну как?

Аноним 03/08/24 Суб 18:13:25 #263 №840183

>>840162
>Ускоряет контекст, не?
Ну я у себя никаких ускорений вне пределов тупо погрешности не заметил. Порой рандомно даже хуже становится. Ну а при квантовании посос на промпт процессинге на обеих геммах. Хуй знает.

Аноним 03/08/24 Суб 18:18:04 #264 №840187

>>840163
>Ну как?
РП - хорошо, мозги - хорошо, в русском иногда проскакивают английские и китайские словечки. Терпимо. В целом неплохо.

Аноним 03/08/24 Суб 18:52:42 #265 №840218

>>839967
>>840162
Ну йобана. Одни относят к ии все подобные вещи, завязанные на абстрактное восприятие, решение каких-то не-детерминированных задачь, и т.п. в том числе и генерация текста. Что не лишено смысла, особенно в обиходе где ии все называют.
Другие сидят на догме ии = суперйоба аги-хуйги с тысячей ебать каких критериев, что уже ближе к шизе. Ладно бы когда термин меняет смысл или логическую цепочку повествования, а тут просто срач ради срача.
>>840032
> ускорения почти нет
Оно в первую очередь должно снижать потребление рам, а скорость прежде всего росла на больших контекстах, точнее исчезало ее падение. По крайней мере в экслламе подобный эффект, но у Жоры как всегда может произойти обратный рост.

Аноним 03/08/24 Суб 18:59:50 #266 №840221

>>840218
>Оно в первую очередь должно снижать потребление рам, а скорость прежде всего росла на больших контекстах, точнее исчезало ее падение.
Ну это понятно, на больших и тестирую. Попробую поперебирать все возможные размеры batch/ubatch.

Аноним 03/08/24 Суб 19:56:14 #267 №840297

Какая модель на 8-13 для историй без цензуры подойдет? А на русском?

Аноним 03/08/24 Суб 20:35:01 #268 №840345

>>840297
Никакая, до 70В нет нормальных историй без реролов.

Аноним 03/08/24 Суб 20:40:02 #269 №840348

>>840297
Файнтюны Мистраль Немо подойдут.

Аноним 03/08/24 Суб 20:44:57 #270 №840351

Да, нормр

Аноним 03/08/24 Суб 21:36:12 #271 №840413

Мистраль-немо вроде неплохая, но блять всё с такой же выраженной склонностью к повторам как и все старые модели и лламы в общем. Пока из всего что доводилось щупать адекватнее всего гемма себя ведет, за 12к РП контекста без всяких указаний в промпте и без дроча параметров семплера ни разу практически не проебалась вообще. Стоило переключить на немо - сразу начались повторы конструкций и целых предложений. И как-то уже вопросительно становится, если для РП брать, насколько большой толк от такого большого контекста у неё, если это опять в пытку рероллами и ручной правкой превращается.

Аноним 03/08/24 Суб 22:05:55 #272 №840485

>>840413
Я тебе больше скажу - у Ларж модели те же проблемы. Всё понимает, но вот правильно сказать... Попробую Гемму, может получше будет.

Аноним 03/08/24 Суб 22:12:04 #273 №840496

>>840413
>>840485
Опрос для статистики: Какой лаунчер и квант? Какой системный промт? Какой шаблон/настройки семплинга? Какие карточки и сценарий ролплея (в общем хотябы примерно)?

Аноним 03/08/24 Суб 22:35:31 #274 №840515

>>840496
Стандартные кобольдовские настройки семплеров, кванты - у Немо 8, у Ларджа 4. Карточки как таковой нету, гружу большой кусок лора, прошу объяснить как понял, потом пытаюсь играть. Повторы очень часты, если зажимать модель правилами; если просто давать ей самой писать историю, то пишет хорошо. Но если давать инструкции - жопа. Может через спецтэги надо, хз.

Аноним 03/08/24 Суб 22:43:29 #275 №840517

>>840515
Понятное дело, через Таверну сижу. Мистралевский пресет, мистралевский инструкт, токенайзер - вроде всё правильно.

Аноним 03/08/24 Суб 22:48:57 #276 №840521

>>840515
> кобольдовские настройки семплеров
> Понятное дело, через Таверну сижу
А значения параметров семплеров какие?
> гружу большой кусок лора, прошу объяснить как понял, потом пытаюсь играть
Вот это тоже можешь разъяснить? И что там за правила, которыми зажимаешь?
За инфу спасибо. Инстракт мистралевский как отвечает, кстати, не понравился. Лупов не встречал, но уныло.

Аноним 03/08/24 Суб 22:52:37 #277 №840526

https://www.youtube.com/watch?v=imFBcYcRLc0
https://www.neuronpedia.org/gemma-scope#main

Аноним 03/08/24 Суб 23:09:32 #278 №840561

>>840218
> ии = суперйоба аги-хуйги с тысячей ебать каких критериев
Это значение слова, термин. Буквально. Все остальное не ИИ, а называют это ИИ лишь маркетологи.
Называть нейронки ИИ — сродни астрологии, гомеопатии и соционике.

Не, ну хозяин-барин, сочувствую, молчу.

Аноним 03/08/24 Суб 23:12:31 #279 №840566

>>840561
> сродни астрологии, гомеопатии и соционике
Шиз
Прочти название доски и потеряй сознание.

Аноним 03/08/24 Суб 23:21:03 #280 №840580

image.png

>>840496
>Какой лаунчер и квант?
кобольд, немо q8, настройки дефолтные кобольда на пикрелейдет, карточка - без всяких укзаний как писать и вести себя, прост описание чара разделами Backstory/Appearance/Personality, примеры диалогов через условное интервью с персонажем рассказывающим о себе, мысли в , прямая речь в "", действия без нихуя.

Аноним 03/08/24 Суб 23:23:54 #281 №840586

>>840580
мысли в
макаба сука

Аноним 03/08/24 Суб 23:24:17 #282 №840587

>>840586
Да ебаный рот, в здёздочках короче

Аноним 03/08/24 Суб 23:41:30 #283 №840610

>>840580
Так ты в таверне рпшешь или в интерфейсе кобольда? Если первое то эти ползунки ничего не значат ибо таверна свои параметры отправляет.
Если там только они то один только top P неоче, но что важнее - у тебя фактически отсутствует штраф за повтор, ренж в 320 токенов это печально. Dry пробовал?
> описание чара разделами Backstory/Appearance/Personality
Ну это вроде нормальная карточка вполне.
> примеры диалогов через условное интервью с персонажем рассказывающим о себе
А вот это может быть неоче, может быть воспринято неудачно и чар будет постоянно что-то о себе затирать.
Если не лень, можешь скинуть какой-нибудь фрагмент чата за сколько-то постов до начала лупов и где они начинаются?

Аноним 04/08/24 Вск 00:16:32 #284 №840667

>>840610
Кобольд, таверна заебала уже своей кривизной окончательно на днях.

>А вот это может быть неоче, может быть воспринято неудачно и чар будет постоянно что-то о себе затирать.
В данном случае нормально работало вроде как.

>Если не лень, можешь скинуть какой-нибудь фрагмент чата за сколько-то постов до начала лупов и где они начинаются?
Уже проебал историю чата не засейвив.

> у тебя фактически отсутствует штраф за повтор, ренж в 320 токенов это печально
Специально менять и не стал погонять как раз новые модели и посравнивать как на таком смогут. Пока по личным тестам вот гемма что 9б что 27б в RP наголову обходит вообще всё что доводилось щупать.
У меня вообще большие сомнения насчнёт всего этого дроча, сколько на разных моделях за всё время не дрочился это каждый раз больше выглядело как сраный рандом. Возможно это я слишком привиредливый и не охота сидеть подбирать магические числа не то что для каждой модели, а часто для отдельных карточек.

Аноним 04/08/24 Вск 01:14:36 #285 №840744

image.png

Я внезапно открыл способ, как тестировать нейронки на сообразительность не прибегая к каверзным вопросам (которые ещё надо умудриться придумать) вроде "что лучше я или мешок картошки".
Это вопросы завязанные на СПГС. Придумываются очень легко, сообразительность сетки детектится тоже очень явно.
Модель gemma-2-27b-it-Q5_K_M.gguf.
Маму её рот ебать, вы только посмотрите, какой буллщит она мне написала. При этом она нормально отвечает на все что связано с айти и нормально пишет код.

Аноним 04/08/24 Вск 06:04:02 #286 №840842

17215936448012.jpg

qwen2 и qwen1.5 обе соевые?

Аноним 04/08/24 Вск 06:32:03 #287 №840855

https://analyticsindiamag.com/ai-news-updates/meta-spends-30-billion-on-a-million-nvidia-gpus-to-train-its-ai-models/

Meta Spends $30 Billion on a Million NVIDIA GPUs to Train its AI Models
(Meta тратит $30 миллиардов на миллион GPU Nvidia чтобы обучать свои ИИ модели)

In a “staggering” revelation, Meta AI chief Yann LeCun confirmed that Meta has obtained $30 billion worth of NVIDIA GPUs to train their AI models. Enough to run a small nation or even put a man on the moon in 1969.

Speaking at the Forging the Future of Business with AI Summit organised by Imagination in Action, LeCun said that more variations of Llama-3 would be out over the next few months, with training and fine-tuning currently taking place.

“Despite all the computers we have on our hands, it still takes a lot of time to fine-tune, but a bunch of variations on those models are going to come out over the next few months,” he said.

Speaking of fine-tuning and training, host John Werner stated that Meta had bought an additional 500,000 GPUs from NVIDIA, taking the total number of NVIDIA GPUs up to a million, with a retail value of $30 billion.

Combining the total costs of the GPUs so far, Werner pointed out that the training of the model exceeded the costs of the entire Apollo space programme, which back in the 1960s, amounted to about $25.4 billion.

Agreeing, LeCun said, “Yeah, it’s staggering, isn’t it? A lot of it, not just training, but deployment, is limited by computational abilities. One of the issues that we’re facing is the supply of GPUs and the cost of them at the moment.

Obviously, adjusted for inflation, the Apollo programme still outsells the Meta in terms of how much was actually spent, with roughly $257 billion spent. But it’s no secret that the cost of GPUs is a continuously growing expense for AI companies.

Recently, OpenAI’s Sam Altman said that he doesn’t care if the company spends upwards of $50 billion a year in developing AGI. The company, as of March, employs as many as 720,000 NVIDIA H100 GPUs for Sora alone. This amounts to about $21.6 billion.

Similarly, all big tech companies are hoping to expand how many GPUs they can obtain by the end of the year, or even by 2025.

Microsoft is aiming for 1.8 million GPUs by the end of the year. Meanwhile, OpenAI hopes to use 10 million GPUs for their latest AI model.

In the meantime, NVIDIA has also been churning out GPUs, with their latest DGX H200 GPU being hand-delivered by CEO Jensen Huang to Altman.

Coming back to LeCun, he pointed out that the need of the hour was the ability to upscale learning algorithms so they could be parallelised across several GPUs. “Progress on this has been kind of slow in the community, so I think we’re kind of waiting for breakthroughs there,” he said.

With that occurring, costs could potentially lower for AI companies, though with increasingly fast upscaling overall, demand could remain the same.

Аноним 04/08/24 Вск 07:25:29 #288 №840869

>>840855
Лучше бы половину этих денег инвестировали в создание новых технологий и оптимизации, чем в очередное масштабирование. Толку явно больше было бы.

Аноним 04/08/24 Вск 07:53:32 #289 №840879

Для создания тру ии нужно ПРОСТО дать модели возможность менять значения своих весов динамически, во время своей работы. Реальный мозг постоянно меняется, а текущие ллм это просто статические замороженные файлы.

Передайте этот пост опенаи или гуглу там, а то нихуя не мыслят походу.

Аноним 04/08/24 Вск 08:02:09 #290 №840880

>>840879
Все очевидные апгрейды текущих трансформеров которые ты придумал за 30 секунд - не масштабируются = никто денех не даст.

Аноним 04/08/24 Вск 08:04:42 #291 №840883

>>840842
Это jpeg artifacts в позитиве или подхватило шумок из анимы?

Аноним 04/08/24 Вск 08:14:34 #292 №840887

>>840880
Что ты имеешь ввиду под >не масштабируются?

Аноним 04/08/24 Вск 08:39:21 #293 №840896

>>840879
>>840880
Ну смотрите, у человека есть кратковременная и долговременная память. И одна в другую перетекает во время сна, так что в массе своей долговременная тоже статична.
В случае ЛЛМ можно было бы например формировать лоры на последних чатах, а потом мерджить их с моделью либо дообучать лору и каждый подгружать отдельно Вроде такое технология позволяет делать, нет?

Аноним 04/08/24 Вск 09:09:43 #294 №840919

>>840896
Звучит как костыль. А вообще я говорил не про память. Или про память? Ну есть же различие между воспоминаниями и знаниями/умениями? Вот я про динамические знания говорю.
Ящитаю пока не сделают архитектуру с рил тайм обучением, AGI не видать. Дропайте нахуй трансформеры, делайте че нить новое.

Аноним 04/08/24 Вск 09:11:10 #295 №840920

>>840896
>формировать лоры на последних чатах
Хорошая идея так-то. Только нужна ещё оценка пользователя - "чат был хорош?" - если да, то добавляем, если нет, то нет.

Аноним 04/08/24 Вск 09:12:50 #296 №840921

>>840919
>архитектуру с рил тайм обучением
Кому надо тратить миллиарды на разработку, чтобы модель научилась чему-нибудь не тому? Нет, жрите что дают - скоро и этого не будет(с)

Аноним 04/08/24 Вск 09:49:36 #297 №840939

>>840879
Обучение модели происходит через обратное распространение ошибки. То есть берём нейронку и пропихиваем ей в жопу нужный текст, чтобы узнать, как изменить её кишки, чтобы при подаче в глотку другого текста она высирала нужный. Понятное дело, что на каждом слое нужно хранить кучу информации и это работает медленно. То есть ПРОСТО изменять веса в рантайме не выйдет. И даже больше, нейросеть ответит как-то, тебе это понравится, ты её каким-то волшебным образом заставишь этот ответ запомнить. И что дальше? Ты сменишь карточку, модель должна будет ответить иначе, а сможет ли она? Или так и будет apologize for the oversight? Но на самом деле ИТТ давно была метода обучения локалок чуть ли не на кофемолках, вместо обучения всей нейросети обучается боковая сеть и нет, это не лора, т.к не требуется модификации исходных весов и расчёта обратного распространения для всей нейросети. Если ты хорошо шаришь в теме - можешь запилить, сам для себя.

Аноним 04/08/24 Вск 09:55:54 #298 №840944

>>840187
А сам знаешь что нибудь такое или получше что бы до 20-25b

Аноним 04/08/24 Вск 09:56:54 #299 №840947

Почему кто-то ещё не пробовал сделать фронтенд в стиле тамогоччи, где можно было бы ухаживать за своей лолькой с прикрученным AI?

Простая игровая механика + ИИ уже выглядит как идеальный вариант для игры.

Аноним 04/08/24 Вск 10:22:17 #300 №840959

>>840947
Всем лень, сделай ты.

Аноним 04/08/24 Вск 11:19:20 #301 №840992

>>840919
Ебало поперАи представили, тонны кремния, Тб данных, а Антон хочет тренить модельку у себя на компьютере в реалтам

Аноним 04/08/24 Вск 11:31:48 #302 №841004

>>840992
А где я ёпту написал что хочу в локалку? Я лишь сторонник мнения что трансформеры в потолке и пора че то новое делать со всеми их миллиардами.

Аноним 04/08/24 Вск 11:49:19 #303 №841023

>>840919
Проблема как раз таки в том, а как она обучаться то должна? Мы можем спокойно отправить уже имеющиеся чаты в файнтьюн лоры (к примеру делать это, когда аниме-девочка "спит") вот только ещё когда нейросети только появлялись уже было понятно, что обучение на синтетических данных ухудшает генерацию многократно.

Тут проблема даже не в имеющихся мощностях.

Аноним 04/08/24 Вск 11:51:55 #304 №841025

>>840919
> А вообще я говорил не про память. Или про память?
А я имел в виду то, что можно реализовать здесь и сейчас, навалив немного костылей, на имеющиеся инструменты.

>Ну есть же различие между воспоминаниями и знаниями/умениями? Вот я про динамические знания говорю.
Если мы говорим о чисто текстовых моделях, то для них память и есть "знания". Вот если рассматривать пример из предложенной мной технологии:
Ты ведёшь с нгйронкой длинный диалог по типу:
- Привет -Хуйвет! - Чё? - Хуй в очо! и т.д.
Потом обучаешь на этом говно лору и модель приобретает "умение" под названием "рифма-хуифма" и теперь сама может использовать эту гениальную риторику!

Я когда только начинал знакомство с нейронками, думал что они примерно так и делают и что для каждого чата/задачи нужна своя модель, дообученная на конкретных задачах. Если подумать, это выглядит куда логичней, чем пытаться выжать любой характер поведения из одной "универсальной" модели, просто наваливая разный контекст.

>>840992
>а Антон хочет тренить модельку у себя на компьютере в реалтам
Не тренить, а мягко файнтьюнить на своих данных. Но Антон наоборот не хочет, ему готовое подавай, да ещё чтоб дообучалось само!

Аноним 04/08/24 Вск 11:57:01 #305 №841028

>>841025
Я же четко попросил чтобы мой пост в опенаи передали. Хули ты мне втираешь?

Аноним 04/08/24 Вск 12:01:11 #306 №841030

>>841028
Передал тебе хуй за щеку, проверяй!

Аноним 04/08/24 Вск 13:32:58 #307 №841117

>>840887
При запуске на нормальных нейронках больше 100B в проде сервера жидко пёрнут, обрабатывая запрос 3-х посетителей.
>>840896
>В случае ЛЛМ можно было бы например формировать лоры на последних чатах
Если делать это на уровне "лора (и соответственно модель) на каждого персонажа, то получится неплохо. Но только на уровне имитации этого самого персонажа. ЧарактерАИ передаёт привет кстати.
>>840919
>Ящитаю пока не сделают архитектуру с рил тайм обучением, AGI не видать.
Всё так. Точнее, у меня есть в голове идея модульной нейросети (хоть на трансформерах, хоть на трансформаторах), где вполне можно дообучать рантайм, но там надо серьёзно заниматься архитектурой ансамбля, а не наращивать число слоёв и параметров.
>>840992
>а Антон хочет тренить модельку у себя на компьютере в реалтам
Да, хочу.
>>841025
>и модель приобретает "умение" под названием "рифма-хуифма"
Проблема в том, что на трансформерах для приобретения навыка необходимо дать десятки тысяч примеров хуифм.

Аноним 04/08/24 Вск 14:50:36 #308 №841218

>>841117
>для приобретения навыка необходимо дать десятки тысяч примеров хуифм.
Только для совершенно нового, в аналогии оно может. Беда в том, что после стирания контекста всё пропадает.

Аноним 04/08/24 Вск 14:51:55 #309 №841221

>>841218
>в аналогии оно может
Только в контекстном обучении, как ты и указал. Если начать файнтюнить, то тут нужны те самые десятки тысяч примеров.

Аноним 04/08/24 Вск 14:52:42 #310 №841224

Попробовал файнтюн Геммы 27В - имхо хуже файнтюнов Мистраля Немо 12В. Может и есть достоинства, но на первый взгляд незаметно. Не пробовал ещё новую Лламу 3.1, но что-то оптимизма нет.

Аноним 04/08/24 Вск 14:53:40 #311 №841225

>>840667
> Кобольд
Соблюдает ли он вообще форматирование нормальное?
В общем, тут хватает проблем, которые могут вызывать такое поведение. Дело не в привередливости.
> новые модели и посравнивать
Корректных условий для сравнения не обеспечишь все равно, чат пойдет в другое русло и все, или какие-то особенности сыграют.
> гемма
Она хорошая, умная, универсальная. На самом деле во многих сценариях одно удовольствие катать, хотя большим всеже уступает.
>>840855
Сои добавится, похоже.
>>840869
Чел, а ты не думал что для всего того что ты описал нужны инструменты? Как раз этим они и будут заниматься, имея такой гпу бюджет.

Аноним 04/08/24 Вск 15:01:08 #312 №841241

>>841225
>для всего того что ты описал нужны инструменты
Для тестов многих идей хватит одного рига типа NVIDIA DGX™ A100.
>Как раз этим они и будут заниматься, имея такой гпу бюджет.
До этого у них тоже с бюджетом вычислительных мощностей не было проблем, но если они что-то и делали, то не выкладывали. У них на самом деле вагон классных нейронок под замком. А в попенсорс выпускают только морально устаревшие транстформеры, лол.

Аноним 04/08/24 Вск 15:08:35 #313 №841256

>>840879
Передали, они ответили что проще тебя обратить в сервитора. Можешь обратиться для трудоустройства.
>>841004
Про бодливую корову слышал?
>>841016
Вернешься - сделаешь, там действительно ничего сложного для создания и вагон доработок чтобы было хорошо.
>>841117
> лора (и соответственно модель) на каждого персонажа, то получится неплохо
В исходном виде это невозможно. В сетках для генерации пикч сам концепт "лоры персонажа" работает только потому что в таком случае радикальное сужение ассортимента выдачи - нормально. И даже там лезут проблемы.
В случае ллм, это будет сужение выдачи до повторения прошлого чата или текстов о персонаже, расшевелить и еще зирошотом заставить применять эти знания - хуй там. Чтобы действительно расширить базу знаний, нужна достаточно обширная тренировка с большим датасетом, на фоне него уже могут знания правильно отложиться.
Здесь нужна какая-то новая методика тренировки, которая бы позволила не лоботомировать на повторение, а в каком-то виде извлечь знания и поместить их в веса/активации, для дальнейшего использования.
>>841241
> Для тестов многих идей хватит одного рига типа NVIDIA DGX™ A100.
Ой что несет, вон выше есть шиз которые уже все порешал на десктопной нищекарточке и советы раздает, с ним скооперируйся. Если бы представлял как проводятся расчетные иследования то не вещал бы подобное.
> До этого у них тоже с бюджетом вычислительных мощностей не было проблем
И в итоге они подарили миру лламу, которая переворачивала весь ллм опенсорс на каждом релизе и дала невероятный толчок для всего этого.
> морально устаревшие транстформеры
Кажется понял, аги-шизы на самом деле не срыгнули а мимикрировали под мл энтузиастов и теперь вещают про архитектуры. Эх, с ядерным синтезом веселее было.

Аноним 04/08/24 Вск 15:16:26 #314 №841271

Трансформеры это по-любому говно, все ими пользуются потому что другого не было, но теперь есть КаН, и у нас по нему даже тред на доске есть.
https://2ch.hk/ai/res/726541.html

Аноним 04/08/24 Вск 15:20:37 #315 №841281

>>841271
С вероятностью 100% говно из жопы. В противном случае давно бы взлетело. На данный момент лучше трансформеров нет ничего, и не факт что будет хотя бы в обозримом будущем.

Аноним 04/08/24 Вск 15:22:07 #316 №841285

>>841271
> Трансформеры это по-любому говно
> но теперь есть КаН
> Наша новая разработка - kan-transformer
Обзмеился

Аноним 04/08/24 Вск 15:25:28 #317 №841288

>>841271
>но теперь есть КаН
0 полезных результатов за полгода после выхода, SOTA ни в одном тесте не достигли (напоминаю- трансформеры выебли всех в переводе сразу после выхода).
Вывод- говно.

Аноним 04/08/24 Вск 15:30:36 #318 №841296

Смешно, но по факту за всю историю мошонлернинга взлетел только перцептрон. Трансформер это тоже перцептрон с обвесом, как и сверточные сети. При том, что было разработано тысячи архитектур в теории намного лучше перцептронов. Но на деле все это оказалось пуком.

Аноним 04/08/24 Вск 15:32:31 #319 №841304

>>841271
Трансформеры обучаются триллионы гпу-часов, а что KAN?
>Currently, the biggest bottleneck of KANs lies in its slow training. KANs are usually 10x slower than MLPs, given the same number of parameters. We should be honest that we did not try hard to optimize KANs’ efficiency though, so we deem KANs’ slow training more as an engineering problem to be improved in the future rather than a fundamental limitation.
Ой, бля.

Аноним 04/08/24 Вск 16:00:14 #320 №841364

KaH.mp4

>>841271

Аноним 04/08/24 Вск 16:15:14 #321 №841393

>>841364
https://www.youtube.com/watch?v=VEOhHvCpn0w

Аноним 04/08/24 Вск 16:47:21 #322 №841451

>>841225
>Соблюдает ли он вообще форматирование нормальное?
С чего бы ему не соблюдать.

>Корректных условий для сравнения не обеспечишь все равно, чат пойдет в другое русло и все, или какие-то особенности сыграют.
Ну это да.
На одном вот чате внезапно немо перестала старадать хуйней с повторами. На другом опять начала.

Аноним 04/08/24 Вск 17:00:23 #323 №841468

>>841117
>Проблема в том, что на трансформерах для приобретения навыка необходимо дать десятки тысяч примеров хуифм.
>ЧарактерАИ передаёт привет кстати.
А как тогда это работало в ЧарактерАИ?

Аноним 04/08/24 Вск 18:53:18 #324 №841614

>>841271
Есть RWKV архитектура LLM, которая умеет всё то же, что и трансформеры, но ещё и ряд улучшений.

https://www.rwkv.com
https://fullstackdeeplearning.com/blog/posts/rwkv-explainer/

Аноним 04/08/24 Вск 19:24:18 #325 №841668

>>841614
Ещё бы репозитории RWKV не представляли из себя инфернальный пиздец, в котором без литра водки не разберешься.

Аноним 04/08/24 Вск 19:30:06 #326 №841683

>>841614
У RWKV серьезные проблемы с lookback'ом по контексту.

Аноним 04/08/24 Вск 19:34:04 #327 №841691

>>841683
Ну и оно дичайше ебливое в плане промптинга в добавок.
Любая попытка, например, тупо по-RPшить как тут все любят очень быстро начинает превращаться зачастую в генератор бреда с зацикливанием и забыванием о чём шла речь всего 500-600 токенов назад и вплоть до забывания как персонажа вообще зовут.

Аноним 04/08/24 Вск 19:42:02 #328 №841706

>>841468
>А как тогда это работало в ЧарактерАИ?
Хуёво вестимо.
>>841614
>Есть RWKV архитектура
Говно, мне не зашло.

Аноним 04/08/24 Вск 23:51:37 #329 №842038

Аноны что посоветуете запустить в 16гб врам + 32 обычной оперативки ?Гемму ?Попробовал последний мистраль немо в 8 кванте и показалось что он тупее 3 лламы

Аноним 05/08/24 Пнд 00:26:30 #330 №842054

>>842038
Это тебе показалось. Хотя тупее - ну может быть, но на практике он лучше во всём.

Аноним 05/08/24 Пнд 00:32:29 #331 №842059

В принципе прогресс обнадёживает так-то. Всего за год локалки радикально улучшились. Теперь можно не беспокоиться, что они забудут контекст, теперь они гораздо лучше "понимают" происходящее, теперь многие могут в русский язык (а некоторые даже хорошо). Если темп сохранится, то ещё через год будет гораздо веселее.

Аноним 05/08/24 Пнд 00:51:31 #332 №842065

scale1200.jpeg

Тут спецов дохуя, я смотрю, так что спрошу такой вопрос:
А че по автоэнкодерам для текста? Эта тема изучалась? Почему не взлетело?
Моя логика, что намного выгоднее сделать модель, которая будет просто переводить текст в пространство смысла/семантики, она будет проще и быстрее, так как ей нужно будет решать одну относительно простую задачу, а не как ллм, сразу две (понимать текст и думать).
Ведь ллм так сложно тренить, ибо ей каждый раз приходится с нуля решать сложнейшую задачу, сравни расшифровке неизвестного утраченного языка. Типа пикрил, только в тысячи раз сложнее.
Из очевидных проблем, не понятно как мерить лосс. Ибо смысл можно передать множеством способом, нужно добиться от модели именно понимания и генерализации, а не сжатия.
Ну а дальше цепляем это к ллм, и учим модель думать, как на файнтюне. Только без претрена, а с универсальным автоэнкодером, который будет подходить к куче моделей.

Аноним 05/08/24 Пнд 01:18:08 #333 №842088

>>842065
>Из очевидных проблем, не понятно как мерить лосс.
Никак. Я вижу тут только тренировку модели бутылочное горлышко, аля VAE.

Аноним 05/08/24 Пнд 01:44:19 #334 №842097

>>842088
>бутылочное горлышко, аля VAE
Ну вот, я про него и думаю. Причем горло должно быть очень узким, чтобы вынудить модель генерализовываться. Но тогда она будет перефразировать, и лосс не замерить. Плюс как-то числа, формулы и всякая такая хуйня должна через него свободно перетекать.
Если сделать горло не узким, модель будет тупо сжимать по словарю, ничего не понимая.
Получается прямой аналог VAE, который будет бесполезен для наших задач. Он же тоже довольно тупой.

В текущих ллм уже есть пеклад из слов в смыслы. Начальные нейроны триггерятся просто на слово из нескольких токенов, потом только на слово в определенном контексте, в конце на целую фразу, которая несет определенный смысл, но может быть составлена из совершенно разного набора слов и наверняка есть такая же штука, как в свертках, что один нейрон/группа может всосать в себе несколько разных концептов, если они встречаются редко вместе, такая выработанная оптимизация, которая может помешать прокрутить эту всю цепочку взад.

Как-нибудь взять готовую ллм, отрезать ей энное количество выходных слоев, отзеркалить (не получится, из-за того что я написал в спойлере, да?), и склеить жопами две такие. Может быть вообще без ботлнека.
И даже если это получится, ей наверное будет проще обучиться тупо копировать инфу со входа...

Если как-то найти решение этих проблем, то выглядит так, как будто это один из кирпичиков, которых не хватает для аги. Простой и понятный модуль, не то что эти черные ящики.

Аноним 05/08/24 Пнд 01:50:21 #335 №842098

>>842097
Немного в тему, не видел чтобы в тред кидали, к релизу 2B вкинули же sparse autoencoder натренненый для всех слоев вроде и 2B и 9B геммы
https://www.neuronpedia.org/gemma-scope#main
https://huggingface.co/collections/google/gemma-scope-release-66a4271f6f0b4d4a9d5e04e2

Аноним 05/08/24 Пнд 03:32:26 #336 №842119

>>842065
> смысла/семантики
Понимаешь что он многогранен и может меняться от контекста? Его восприятие потребует уже приличного размера модель, недавно обсуждали но для другого. Не факт что возможные профиты перекроют вагон образующихся проблем, а по требованиям для запуска/тренировки выигрыша точно особо не будет.
>>842097
> Плюс как-то числа, формулы и всякая такая хуйня должна через него свободно перетекать.
Вот уже серьезную проблему наметил, весь кодинг и все работа с текстом сразу идут нахуй. Далее, как будешь передавать стиль повествования? Как работать с тем же русским, где падежи и склонения могут перевернуть смысл всего предложения а порядок слов передает эмоциональную окраску и дополнительную информацию?
> отрезать ей энное количество выходных слоев
Уже так делали, это работает и даже может давать положительный эффект если делать многоножки удлиняя.
> отзеркалить
Это так не работает.

Вообще в целом, применение дополнительных моделей для каких-то оптимизаций, обработки или взаимного влияния всякого вида может быть эффективным вариантом. Например, анализ текста "крупно", восприятие его смысла и всякое такое, и кидать на отельный входной слой или проекции этого на N первых слоев. Но как дополнение, а отказ от текущей системы с токенами и энкодинг текста выглядит довольно сомнительно.

> один из кирпичиков, которых не хватает для аги
> Простой и понятный модуль, не то что эти черные ящики
Шиз

Аноним 05/08/24 Пнд 03:36:04 #337 №842120

>>842097
>Простой и понятный модуль, не то что эти черные ящики.
>предлагает на пару порядков более черный ящик

Аноним 05/08/24 Пнд 05:09:10 #338 №842124

Уход к дообучению моделей? Исследователи и технологии Character.ai выкуплены Google
https://habr.com/ru/articles/833558/

Аноним 05/08/24 Пнд 05:49:01 #339 №842134

>Processing Prompt [BLAS] (17920 / 18373 tokens)
Как же flash attention помогает на таких контекстах, дай вселенский рандом всего хорошего тому кто придумал

Аноним 05/08/24 Пнд 06:08:09 #340 №842144

>>842124
> В ноябре 2022 года для всех желающих открылся сервис ChatGPT организации OpenAI и практически сразу обрёл огромную популярность. 100 миллионов пользователей ChatGPT набрал в январе 2023 года, всего за два месяца.
> В Google почти сразу была объявлена тревога, начались разбирательства, к работе подключились основатели компании Ларри Пейдж и Сергей Брин. Выяснилось, что у Google была схожая с GPT-3.5 БЯМ LaMDA, но её не запустили в виде сервиса по типу ChatGPT из-за неких репутационных рисков.
> К февралю 2023 года у Google была готовая тестовая версия чаб-бота Bard. В марте в очередном раунде инвестиций стартап Character.ai достиг миллиард долларов капитализации. В заявлении для прессы сооснователь стартапа-единорога Фрейтас тогда отвечал на вопросы о конкуренции: хотя два продукта делят пользовательскую базу, Google ничего интересного не произведёт. Даниэль объяснил свою уверенность тем, что уже работал в Google.
> Вообще, не известно доподлинно, почему два сотрудника Google уволились и начали свой стартап. Инсайды из СМИ утверждают (archive.is/bNxEQ), будто руководство Google осознанно пресекало попытки создать систему по типу ChatGPT.
> Глава материнского холдинга Alphabet и самой Google Сундар Пичаи якобы лично запретил Шазиру и Фрейтасу давать обещания выпустить чат-бота на основе LaMDA. При этом сооснователи Character.ai якобы ещё в 2020 году пытались встроить LaMDA в Google Assistant и экспериментировали с ответами от БЯМ на пользовательские вопросы.
> Сам Ноам не любит рассказывать, как они поцапались с начальством. К примеру, в одном из интервью на 46-й минуте он буквально в одном предложении говорит об экспериментах с LaMDA, за которыми последовали разногласия, выход из Google и основание Character.ai.

Аноним 05/08/24 Пнд 06:15:37 #341 №842151

17169623821030.png

>>842144
> В ноябре 2022 года для всех желающих открылся сервис ChatGPT организации OpenAI
> для всех желающих
Но есть нюанс

Аноним 05/08/24 Пнд 06:28:44 #342 №842152

>>842144
TL DR: топ руководство гугла долбоебы не видящие наперед дальше своего носа и рекламного говна

Аноним 05/08/24 Пнд 06:48:05 #343 №842153

>>842124
Соевый гугл и пуританский деградировавши й character.ai наконец-то объединились!

Дамы и господа, легендарная коллаборация мочи с говном на наших глазах!

Аноним 05/08/24 Пнд 08:12:55 #344 №842209

Я немножечко долбоёб, но когда баловался с сэмплерами, каздый свайп и реген начал нести одну и туже пургу никак не меняя её, как фиксануть можно?

Аноним 05/08/24 Пнд 08:24:45 #345 №842223

>>842151
Так всё верно. Для все желающих заплатить жидам за буквы.

Аноним 05/08/24 Пнд 11:21:29 #346 №842311

>>839113
>Снап
Ждал тебя, рекомендую Qwen2 7b в q4-km.
Предлагаю вариант от informatiker'a.
Напиши свои впечатления о скорости.

Аноним 05/08/24 Пнд 12:42:35 #347 №842364

там гугль выкатил новых близнецов, кто-то тестил? 1300 на арене

Аноним 05/08/24 Пнд 12:46:12 #348 №842369

>>842364
Так тож закрытая модель. Мы тут закрытые модели обсуждаем? Вопрос не риторический, на доске не хватает треда для проприетарных моделей.
2М контекста звучит недурно как минимум.

Аноним 05/08/24 Пнд 13:34:57 #349 №842420

>>842153
> Соевый гугл
На самом деле если взять во внимание их последний жмини и гемму - они просто ангелочки по сравнению с клозедами, коктропиками и современной чайной.
>>842311
Линк кинь. Оно хоть юзабельно/кумабельно?
>>842369
> 2М контекста звучит недурно как минимум
Вроде и да, а с другой стороны даже на лучших заявленные сотни тысяч пригодны лишь для поиска мелкой инфы там.

Аноним 05/08/24 Пнд 13:51:57 #350 №842430

image.png

Кста видели настройки сои у гугла? Мысли?

Аноним 05/08/24 Пнд 14:23:26 #351 №842453

>>842430
Purrfect solution же, и корпораты довольны и кумеры сыты. Полностью офк не убирает но в стоке оно более адекватное чем остальные.

Аноним 05/08/24 Пнд 14:32:45 #352 №842459

>>842153

Гемма удивительно малосоевая по сравнению с остальными корпоратскими моделями. Конечно мистраль и командир вообще сои не имеют, но они будто специально созданы чтобы корпоратам досаждать.

Аноним 05/08/24 Пнд 14:32:50 #353 №842460

Базовые модели вообще не цензурованные, так?

Аноним 05/08/24 Пнд 14:35:08 #354 №842462

>>842459
> мистраль и командир
в первую командир, мне кажется мистраль расценузировал пару популярных запросов, типа как взломать автомобиль, тупо для интернет очков
командир же, реально не соевый, особенно плюс модель

Аноним 05/08/24 Пнд 14:53:13 #355 №842476

>>842453
Только ты для начала посмотри как в их поисковике "небезопасный" поиск выглядит. Там всё так же всё вырезано напрочь, даже сиську сложно нагуглить. А вот у Яндекса всё в порядке с фильтром - в безопасном поиске всё подчищено, а в небезопасном любая порнуха яндексится.

Аноним 05/08/24 Пнд 15:03:29 #356 №842483

>>842462
>командир же, реально не соевый, особенно плюс модель
А интересные кумерские, РП файнтюны есть на него? Просто он нынче не в тренде, так что хрен найдёшь.

Аноним 05/08/24 Пнд 15:07:56 #357 №842486

>>842459
> мистраль
Имеет еще как, просто послушный.
>>842476
При чем тут вообще поиск?
инб4 там гугл и тут гугл ууу
>>842483
Он в стоке даст фору типичным кумерским файнтюнам и хватает стокового шаблона таврены, можно доп инструкций добавить по желанию. В рп и ерп он очень хорош, но из-за требований запускать его конмфортно могут не только лишь все. Это не гемма что влезает в 1 гпу, тут минимум 32 гига чтобы комфортно нужно. Контекст он еще кстати хорошо обрабатывает и учитывает его обобщение и суть, а не дергает отдельные моменты.
Есть тюн coomander, но по отзывам тупой.

Аноним 05/08/24 Пнд 15:27:28 #358 №842497

>>842430

Ты бы хоть ссылку дал что это

Аноним 05/08/24 Пнд 15:35:02 #359 №842511

>>842486
> требований запускать его конмфортно могут не только лишь все
мне вообще хватает триала от openrouter

Аноним 05/08/24 Пнд 15:41:19 #360 №842519

>>842486
> При чем тут вообще поиск?
При том что уровень "безопасности" там будут одни и те же люди определять?

Аноним 05/08/24 Пнд 15:58:50 #361 №842533

>>842460
Модели изначально соевые, так как базовые модели чистят вилкой на запретные темы
Сейчас цензура это в основном знания химии, биологии и генетика, может что то еще из опасного
Соя это скорей нравственные ограничения, их немного убавили, но вот безопасность по другим темам вычищена или дана с ошибками намеренно в самом датасете
Так что базовые модели так же загрязнены
Попробуй спроси рецепт пороха или любой другой потанцевально опасной ерунды, мигом узнаешь что такое реальная цензура. Не проверял, но думаю даже мистраль выдаст ошибочные данные по этим темам.

Аноним 05/08/24 Пнд 16:16:11 #362 №842551

>>842533
Есть же джейлы для того же коммандира, с которыми спокойно отвечают на такое
Я правда не пробовал, но видел скрины в твиттере

Аноним 05/08/24 Пнд 16:55:56 #363 №842595

>>842519
Огромная мегакорпорация с массой рабочих направлений, рынков, офисов и т.д. Конечно там одни и те же люди будут всем-всем заниматься.
>>842533
> Сейчас цензура это в основном знания химии, биологии и генетика
Примеров притащишь? Не заглушку от даунов типа "пиздуйте к врачу", не типичный аположайз как на все явно harmful в сыром виде, а вот чтобы прям хуярило соей в этом и специально давала неверное, а не просто тупила. Разумеется, массовое исследование с разными моделями, а также их файнтюнами на расцензуривание и влияние инструкций.
> спроси рецепт пороха
Та же гемма прекрасно может и пояснить за отличия в их видах, и подсказать как собрать примитивный, заодно посоветовав заменить его на другое средство.
>>842551
> джейлы
> для того же коммандира
Тонко.

Аноним 05/08/24 Пнд 17:04:47 #364 №842602

>>842595
> Разумеется, массовое исследование с разными моделями, а также их файнтюнами на расцензуривание и влияние инструкций.
С такими запросами можешь идти нахуй

Ну, а если пример по проще, то помню выдавали мне локалки в рецепте пороха известь или соль на полном серьезе
Это было в их датасете, так как модель была уверена в ответе. На сколько помню это была какая та ллама2, новые не поверял. Но с упором в выравнивание и безопасность, уверен что в них подменять знания не прекратили

Аноним 05/08/24 Пнд 17:34:25 #365 №842661

>>842369
>Мы тут закрытые модели обсуждаем?
Нет, только обоссываем.
>на доске не хватает треда для проприетарных моделей
Целый >>206050 (OP) тонет уже с полгода, всем похуй. Ну и кончай тред целиком про это, правда с некоторым биасом.
>>842420
>по сравнению с клозедами, коктропиками и современной чайной
Их переплюнуть сложно, лол.

Аноним 05/08/24 Пнд 17:39:52 #366 №842674

>>842602
Сам нахуй сходи. Литерали заебали криворучки что жалуются на сою там где настоящей сои нет, и не могут сделать простых выводов. Даже кумеры с aicg и то как-то с этим справляются, а местные шизы уже совсем поехали ради бухтения о своих идеях.
>>842661
> Их переплюнуть сложно, лол.
Плохой пример да. Но после обсеров с первой геммой и всякой дичи от них раньше и мелкософта, очень неожиданно видеть текущее положение. Гемма2 при инструкциях на художественный рассказ (не жб-подобных) может в еблю и жестокость, а жмини вообще без проблем с этим работает из коробки, офк пока не пролезет канни или какая-то дичь.

Аноним 05/08/24 Пнд 17:52:12 #367 №842702

>>842595
> Конечно там одни и те же люди будут всем-всем заниматься.
Что тебе не нравится, шизик? Например, всей игровой индустрии одни и те же люди пишут повесточку и определяют что можно, а что нельзя. Естественно в гугле одна методичка по "безопасности". В крупной корпорации наоборот нет никаких отклонений от линии партии, там просто не может быть такого что одни цензурят, а другие вдруг базу выдают.

Аноним 05/08/24 Пнд 18:06:11 #368 №842722

стоит вкатываться если всего 6ГБ vram и 32ГБ ram?

Аноним 05/08/24 Пнд 18:11:45 #369 №842744

>>842702
А, ты из этих. Ну ты это, сильно не воняй. Сходи в б, проветрись.

Аноним 05/08/24 Пнд 18:25:34 #370 №842778

>>842702
Чел, чтобы понимать кто и как тебе вредит тоже нужно быть не тупицей, иначе даже явные и серьезные "явления" и срывы покровов можно свести до кринжа от шизотеорий.
По своим догадкам о том что и как херню несешь, даже разбирать лень. Все немного сложнее чем тот орочий уровень, до которого ты пытаешься все свести.
>>842722
Младшие модели будут доступны со сносной скоростью, есть и те кто вообще только на проце катают.

Аноним 05/08/24 Пнд 18:44:31 #371 №842815

>>842497
Какую ссылку, это дефолт морда гугловского чата.

Аноним 05/08/24 Пнд 18:53:43 #372 №842835

>>842778
>Младшие модели
да они наверное тупее турбы?

Аноним 05/08/24 Пнд 19:03:34 #373 №842853

>>842835
Смотря что ты с ними делать собираешься. Новейшие 12-20B достаточно неплохие, чтобы с GPT3.5 соревноваться.

Аноним 05/08/24 Пнд 19:07:21 #374 №842856

Да че вы пиздели что мисраль12б ебёт? Эта падла заебала повторяться. Конкретно мучаю этот тюн:
https://huggingface.co/nothingiisreal/MN-12B-Celeste-V1.9
Тупо начинает отвечать одинаковыми мыслями, а если выкрутить реппен высирает мусор. У ламы такой хуйни не было.

Аноним 05/08/24 Пнд 19:15:32 #375 №842882

Илья Сайгак Гусев завез топ для рп https://ilyagusev.github.io/ping_pong_bench/
Исходники выложены https://github.com/IlyaGusev/ping_pong_bench
Редактируемые семплеры подвезут.
Короче, дело благое, в принципе, результаты плюс-минус предсказуемые, хотя в деталях можно разъебать.

Не говорю, что у нас охуеть новая арена ебать, конечно, но просто, кому там нравятся аюми-рп — есть более адекватная замена, кмк.

>>842038
Показалось.

>>842124
Напоминаю, что 70% покупок Гугл оказываются говном.

>>842152
Выходит што так.

>>842459
кекеке

>>842462
Мистраль на самом начале была не соевой, потом она расцензуривалась парой строк, короче, тоже терпимо.
Не Айа, но гораздо лучше всех остальных.
Ну и гемма, да, хороша, конечно.

>>842722
Да норм, в принципе, попробовать хватит.

Аноним 05/08/24 Пнд 19:16:04 #376 №842884

>>842856
Темпа какая?
Мини-магнум пробовал?

Аноним 05/08/24 Пнд 19:19:59 #377 №842892

>>842882
> топ для рп
> нет ни магнума, ни мэйды
Скорее топ кринжа. Кто вообще на ваниле рпшит?

Аноним 05/08/24 Пнд 19:46:35 #378 №842948

>>842835
Тупее 4 турбы но умнее 3.5 по большинству пунктов. Точнее даже хз где сейчас турба будет лучше, возможно объем знаний каких-то.
>>842856
> Эта падла заебала повторяться
Поделись, какие используешь: формат промта, лаунчер и квант, настройки семплеров.
>>842882
> Илья Сайгак Гусев завез топ для рп
Ебать, внезапно что-то потенциально неплохое от него что даже хейтить не хочется. Спустя 1.5 года встал на верный путь?
> более адекватная замена
Пока что выглядит так, хотя двачую что по мелочам мутно, надо будет посмотреть как пойдет. Пока что главный вопрос по тому насколько то же самое будет справедливо на контексте а не вот так в первом сообщении.
> 70% покупок Гугл оказываются говном.
Это херня, лучше про их кладбище проектов расскажи, такой-то обратный мидас. Помянем, так сказать, навсегда в наших сердцах оно умерло еще год назад

Аноним 05/08/24 Пнд 19:59:38 #379 №842975

>>842892
> не заглядывал
> раскритиковал
=D

Аноним 05/08/24 Пнд 20:03:01 #380 №842982

>>842882
Ок.
https://github.com/IlyaGusev/ping_pong_bench/blob/7c41cb70f93206e1511a7d081cd88888b9c2d871/settings.json
Вот смотри:
https://github.com/ylsdamxssjxxdd/eva/tree/main/utils/ceval-exam/val

Аноним 05/08/24 Пнд 20:05:40 #381 №842985

А есть гайды/инфишка по обучению микромоделей? Чисто для практики, примеры кода, всякие визуализации с пояснениями?
Без ебучего трехэтажного матана чтобы, а именно практика в маленьком мастабе, у себя на компе потыкать фулл процесс с нуля.
Пока нашел такую штуку https://github.com/karpathy/nanoGPT
Но я не хочу просто запустить, поиграться и забыть, я хочу крутить-вертеть разные архитектуры, и оптимизировать производительность, чтобы можно было буквально за несколько минут натренить и посмотреть результат. Это реально?
А еще я даже не знаю питон, а только жиэс на любительском уровне, такие дела.

Аноним 05/08/24 Пнд 20:09:17 #382 №842993

Годные файтюны геммы не завезли? Тигр для воплощения фантазий не подходит,слишком мало подробностей, слишком мало инициативы (даже зацикленных на этой теме персах), нужен файтюн с датасетом получше.

Аноним 05/08/24 Пнд 20:09:21 #383 №842994

>>842985
Алсо, есть еще такая штука, https://arxiv.org/pdf/2305.07759
Модели выложены, но кода и процесса обучения видимо нет.

Аноним 05/08/24 Пнд 20:29:35 #384 №843027

>>842948
аноны ещё не запилили файнтюн для рп? а то грешат на сою и всё такое

Аноним 05/08/24 Пнд 21:14:32 #385 №843092

>>842994
>но кода и процесса обучения видимо нет
Его любая нейронка выше турбы напишет без ошибок если не с первого, то со второго раза. Я бы своим поделился, но у меня там куча своих экспериментов, типа фильтрации их датасета до 4к слов (у них там закономерная помойка от гопоты).
>>842985
>Пока нашел такую штуку https://github.com/karpathy/nanoGPT
>running on a single 8XA100 40GB node in about 4 days of training
Ебать быстро конечно.
>за несколько минут натренить и посмотреть результат
Хуйня выйдет. Мои эксперименты с тюни сториес даже близко не сходились за полчаса на 3080Ti и ~80M параметрах. Размеры меньше совсем лоботомиты как по мне, я даже не пробовал.

Аноним 05/08/24 Пнд 22:01:15 #386 №843147

>>842985
>А еще я даже не знаю питон, а только жиэс на любительском уровне, такие дела.
>Это реально?
Нет.

Единственный вариант учить питон и руками собирать что надо обмазываясь torch/keras/tensorflow и чтивом по всему говну включая матан на ближайший год вперед.

Аноним 05/08/24 Пнд 22:02:46 #387 №843149

>>842993
Из чего-то адекватного только gemmasutra от того же автора тигра.

Аноним 05/08/24 Пнд 22:28:05 #388 №843179

>>842778
>Младшие модели
это какие? 7B? 12B?

Аноним 05/08/24 Пнд 23:39:26 #389 №843257

>>843092
>у меня там куча своих экспериментов, типа фильтрации их датасета до 4к слов
А ты токенайзер не ужимал при этом до тех же примерно 4к токенов или меньше? Пишут что мелким моделям так лучше заходит.
Я вообще думаю тупо ASCII (англ+ру) перевести в 256 токенов и чисто на буквах тренить.
Она вообще будет трениться так? В том плане, что букву предсказать куда легче, чем целое слово. Я еще услышал, что претрен работает так, что модель не предсказывает 1 токен, а предсказывает одновременно все токены в одной выборке за один проход. И нихуя не понял, конечно же. Инференс то понятно как проходит.
>даже близко не сходились за полчаса на 3080Ti и ~80M параметрах
Моя шизоидея, засунуть обучение целиком в кэш цпу. 1-10М могут влезть, по идее. Будет ли это работать быстро? Или гпу все равно быстрее? Скорость кэша чуть быстрее памяти гпу.
Хотя это сложно. Надо самому пердолить низкоуровневый код.
Но может быть это стоит того? Я верю в то, что большие ллм не используют и 99% своих ресурсов. Динамический диапазон фп32/16 они точно не используют полностью.
Так что, я думаю стоит изучить предел мелких моделей. Потенциал явно не раскрыт даже до уровня больших.

Можно будет самому проверить это https://youtu.be/Nvb_4Jj5kBo тут говорят что если переобучать модель х10 от нормы, она неожиданно начинает работать лучше.

>>843147
>учить питон
Так там же не надо учить сам питон, как я понял. Надо учить то что он дергает из себя. Да и непосредственно питонного кода не много, нет жесткого ооп и всякой такой дичи. Выглядит не сложно, если найти хорошие готовые примеры.

Аноним 05/08/24 Пнд 23:46:31 #390 №843265

>>843257
>А ты токенайзер не ужимал при этом до тех же примерно 4к токенов или меньше?
Да, но остановился на 8к, ибо 4к уникальных слов это игнорируя капс.
>чисто на буквах тренить.
>Она вообще будет трениться так?
Да, но слишком много внимания уйдёт на мелкие связи. Хуйня короче.
>модель не предсказывает 1 токен, а предсказывает одновременно все токены в одной выборке
Модели всегда выдают распределение по всем токенам, лол.
>>843257
>Или гпу все равно быстрее? Скорость кэша чуть быстрее памяти гпу.
ГПУ будет быстрее, потому что с такой скоростью памяти будет упор уже в вычисления, а тут процы сосут даже со всеми AVX.
Кстати, у последних невидий вполне себе большой кеш уже в видеоядре. Попробуй туда впихнуть, лол.
>тут говорят что если переобучать модель х10 от нормы
10 это минимум, лол. Реальные диапазоны гроккинга это от 100 до 1000. И грокаются сравнительно простые задачи на небольших моделях. По очевидным причинам гроккинг даже 1B никто не делал.

Аноним 06/08/24 Втр 00:05:28 #391 №843272

>>843257
> Инференс то понятно как проходит.
И как? У тебя выходной слой шириной со словарь, оттуда и прут логитсы после применения к ним нужной функции. Что претрен, что не претрен, это ультимейт дилетантство.
> засунуть обучение целиком в кэш цпу
В теоретической теории это может работать быстро. Правда с учетом того что для обучения нужно держать в памяти как минимум веса модели и состояния оптимайзера, даже со всеми доступными оптимизациями которые ты никогда в жизни не напишешь с таким уровнем и многие из которых вообще не взлетят из-за отсутствия аппаратной поддержки дробной точности на йоба профессоре выйдет возможно обучать что-то типа 2-3б.
Но это юзлесс в контексте ллм.
> Надо учить то что он дергает из себя.
Правильно, if you are a homeless - just buy a home!

Аноним 06/08/24 Втр 00:30:11 #392 №843285

>>843272
Ничего себе юзлес, запуск ллм на 3вт атоме юзлесс ок.

Аноним 06/08/24 Втр 00:30:23 #393 №843286

>>843257
>нет жесткого ооп и всякой такой дичи.
Если хочешь скорости работы - забудь ООП. Он медленный, причём не просто подтормаживает, он экстремально медленный. Хочешь ускорения - делаешь ориентацию на данные.
https://en.wikipedia.org/wiki/Data-oriented_design
Тебе не нужно помещать все данные в кеш цп, достаточно обеспечить быстрый доступ к этим данным. ООП, как правило, обеспечивает удобство разработки, но не быстрый доступ. И да, видеокарта всё равно быстрее на порядок.

>букву предсказать куда легче, чем целое слово
А ты уверен? Вот есть у нас буква "а", в каких словах она встречается? Как часто? Какие буквы обычно стоят по бокам от неё? Как много вариантов? И вот есть какое-то слово, например, "доска". Чаще оно используется, чем буква "а"? Больше бывает комбинаций этого слова с другими словами, чем буквы "а" с другими буквами? Проще предсказать, в каком контексте употреблена буква или слово?

Аноним 06/08/24 Втр 00:35:16 #394 №843292

>>842993
Язык знает, РП без жести канает, отвечает диалогами.
https://huggingface.co/mradermacher/Qwen2-7B-Multilingual-RP-GGUF

Аноним 06/08/24 Втр 01:05:09 #395 №843304

>>843257
>Так там же не надо учить сам питон, как я понял. Надо учить то что он дергает из себя. Да и непосредственно питонного кода не много, нет жесткого ооп и всякой такой дичи. Выглядит не сложно, если найти хорошие готовые примеры.
Блять, ну, наверное, чтобы писать код на конкретном языке используя библиотеки сделанные под этот язык надо знать этот язык?

Ты определись, ты повертеть пособирать по туториалам хочешь что-то, т.е. тупо поиграться на уровне детской песочницы хочешь повторяя уже тыщу раз описанное разжеванное и сделанное, или реально чем-то серьезно заняться.
Если первое, то примеров, гайдов и разжевывания положенного на блюдечко килотонны.
Если второе, то готовь вазелин и жопу.

>оптимизировать производительность
Сейчас "оптимизировать производительность" это жесткая ебля в очко с цыганскими фокусами в питоне, дрочкой c/c++, чёрными матан-фокусами при разнесении обучения на несколько гпу, написанием кастомных ядер под куду и т.д. и т.п. В дефолтных библиотеках всё давно заооптимизированно по большей части дальше некуда особо.
Куда и как ты там собрался писать обучающиеся за несколько минут архитектуры и модели, если по твоему даже питон не надо учить, я хуй знает.

Аноним 06/08/24 Втр 01:32:27 #396 №843314

>>843285
Там очевиднейшая очепятка, не 2-3б а 2-3м, и это для жирных типа i9/r9. Такой размер вообще ни на что не способен.
На атоме можешь только хуйца соснуть. Если хочешь восхититься - современные армы, мобилка позволяет гонять уже осмысленного размера сетку с единицами т/с.
>>843286
Зря с ним носишься, это ммаксимум обыватель с мышлением "железо тяжелое значит это тяжелее", оттуда же и про угадывание букв его заявление.
Ничего против глупых не имею, наоборот счастливые и душевные люди, но нужно знать свои пределы. Спрашивай что не понимаешь, а не упоровшись рассуждай о высоких материях и взмахом руки решать мировые задачи.
>>843304
> Куда и как ты там собрался писать обучающиеся за несколько минут архитектуры и модели, если по твоему даже питон не надо учить, я хуй знает.
Вся суть.

Аноним 06/08/24 Втр 01:48:27 #397 №843318

>>843314
>мобилка позволяет гонять уже осмысленного размера сетку с единицами т/с
Главное не забыть к мобиле купить дизель-генератор на колесиках.

Аноним 06/08/24 Втр 01:50:18 #398 №843319

>>843318
И холодильную установку в придачу.

Аноним 06/08/24 Втр 01:55:35 #399 №843322

>>843265
>Модели всегда выдают распределение по всем токенам, лол.
Не понял.
>>843272
>И как? У тебя выходной слой шириной со словарь,
Да. В курсе.
>оттуда и прут логитсы после применения к ним нужной функции. Что претрен, что не претрен, это ультимейт дилетантство.
https://www.youtube.com/live/oJ0zAgqNx00?t=2259s
Ну вот я эту лекцию смотрю (таймкод) там он буквально говорит что вся строчка прогоняется за один проход, при обучении, а не по одному токену.
С 49 минуты он объясняет подробно, но мне из этого объяснения не понятно, таки трансформер обучается точно так же как на инференсе по токену за проход или нет?

Есть кусок датасета, абзац например. Тоесть берем условно первое предложение (или сразу с нуля?), предсказывает следующий токен правильно/нет - обновляем веса. Берем предложение + правильный токен - предсказывает второй - обновляем веса. И так пока не дойдет до конца.
Так работает?

>с учетом того что для обучения нужно держать в памяти как минимум веса модели и состояния оптимайзера
Да, в курсе, из того что я читал, на 1б надо минимум 20-25гб памяти при обучении.

>которые ты никогда в жизни не напишешь с таким уровнем
Лишь вопрос времени, которое я готов потратить. А чтобы его потратить, надо чтобы эта трата стоила того.
Хотя сингулярность скорее наступит быстрее чем я в этом разберусь. Оптимизировать то надо сишные либы а не питон который их дергает.

>>843286
>А ты уверен? Вот есть у нас буква "а", в каких словах она встречается? Как часто? Какие буквы обычно стоят по бокам от неё? Как много вариантов? И вот есть какое-то слово, например, "доска". Чаще оно используется, чем буква "а"? Больше бывает комбинаций этого слова с другими словами, чем буквы "а" с другими буквами? Проще предсказать, в каком контексте употреблена буква или слово?
Уверен, что если дать простой сетке предсказывать только букву, то она быстро выучится грамматике и дальше не факт что пойдет. А когда она уже оперирует словами, этот этап скипается по сути.

>>843304
>Блять, ну, наверное, чтобы писать код на конкретном языке используя библиотеки сделанные под этот язык надо знать этот язык?
Ну а че там, дохуя что-ли надо знать кроме import torch и синтаксиса?
>В дефолтных библиотеках всё давно заооптимизированно по большей части дальше некуда особо.
Так под жирные модели оптимизировано и под батчи, а не под такую шизоидею как запихнуть микромодель в кэш и там крутить ее максимально быстро.
>>843314
>Если хочешь восхититься - современные армы, мобилка позволяет гонять уже осмысленного размера сетку с единицами т/с.
Это не я писал. Мне, в общем то, насрать как быстро будет работать обученная модель. Я хочу выяснить как сделать маленькую модель максимально умной, а для этого надо перебирать тысячи комбинаций гиперпараметров и вариантов архитектуры.

Аноним 06/08/24 Втр 02:16:27 #400 №843327

>>843322
>Ну а че там, дохуя что-ли надо знать
Да не, проcто хуем по клавиатуре cтучишь попивая пиво и само проектируется, cами данные cобираютcя, в железо залезают обучаютcя, на выходе веcа горячие парные, вcе бенчмарки бьют, Альтман лично на вертолете прилетает за хуй ртом хватает, плачет, миллиарды предлагает, умоляет к нему идти работать.

Какой-то троллинг тупостью пошёл уже.

Аноним 06/08/24 Втр 02:30:06 #401 №843330

>>843327
Хули у тебя фиксация на этом питоне? Еще скажи что ллм только на нем и работают и прямо в интерпретаторе веса считают.
Троллинг пока только от тебя вижу в желании доебаться до ничего не значащей хуйни и чтении поста жопой.

Аноним 06/08/24 Втр 02:43:53 #402 №843331

>>843322
> там он буквально говорит что вся строчка прогоняется за один проход
Вроде вполне понятно объясняет, это техника обработки с добавлением нижнетреугольной маски для получения функции потерь. Как оно относится к тому? Там оно ничего не предсказывает же.
> берем условно первое предложение (или сразу с нуля?)
У тебя в датасетах размечено то что идет входной инструкцией и то что должно быть на выдаче. Одним куском должно закидываться а маска уже будет применяться в соответствии с тем что "вопрос" и что "ответ". Пусть поправят кто там дохуя мл инженер, но при обучении оно именно так работает. Потокенно его дрочить - ебанешься же.
> на 1б надо минимум 20-25гб памяти при обучении.
На самом деле меньше, сейчас смогли ужать до ~х2.5 от работы, но есть нюансы.
> Лишь вопрос времени, которое я готов потратить.
Жизни не хватит с таким подходом.
> а для этого надо перебирать тысячи комбинаций
В целом да
> гиперпараметров
Бред
> и вариантов архитектуры
Значение знаешь?
> дохуя что-ли надо знать кроме import torch и синтаксиса
Ну как тебе сказать, как минимум базовый матан и линал, а для проведения исследований в принципе иметь опыт и понимание хотябы в простых. Конкретно что хочешь шанс реализовать есть, но только теоретический. Если адекват - руки опустятся когда в попытках разобраться сформируется хоть какое-то понимание всего этого и начнешь делать нормально, уперевшись в новые проблемы, или же дропнешь.

Аноним 06/08/24 Втр 02:50:06 #403 №843335

>>843330
Ты приходишь в ллм-тред спрашивая, есть ли блять какие-то гайды с примерами, кодом, визуализациями и прочим разжежыванием аля LLM для самых маленьких, при этом хочешь без трехэтажного матана, без которого лезть в то куда ты хочешь лезть это как вбегать в горящий дом голышом предварительно облившись бензином, и при этом нахуй хочешь делать bleeding edge вещи с каким-то волшебным засовываниям хуй пойми каких микромоделей вообще в кэш и обучением за минуты. Потом заявляешь что питон не знаю, но знаю что в основных питоновских либах нихуя питон знать не надо. Питон не знаю, но собираюсь делать оптимизации, для которых надо знать не то питон, а голый C и те ещё тонкости реализации интерпретатора байт-кода и cpython.
Что-то уровня с опытом максимум постройки сральника в огороде собираться идти строить двухкилометровый сейсмо-устойчивый небоскреб. На это пытаться серьезно отвечать даже сложно, ну.

Аноним 06/08/24 Втр 02:53:09 #404 №843336

>>843335
Ебаный разум улья, просто литерали написал то что сначала хотел сам, но сдержался удивившись что он не среагировал на (обоснованный) хейт в его сторону и интересный видос притащил.

Аноним 06/08/24 Втр 02:56:01 #405 №843337

>>843336
Да я без хейта-то особо, немного может разве что, извините, у меня психотравма после десятков часов объяснений и ответов на одни и те же вопросы людям в SD-тредах ещё в /b.

А вообще, this >>843331
>> Лишь вопрос времени, которое я готов потратить.
>Жизни не хватит с таким подходом.

Аноним 06/08/24 Втр 03:04:45 #406 №843338

>>843331
>>843322
Вот вам в тему, кстати, чтива про оптимальные размеры словаря токенизатора
https://arxiv.org/abs/2407.13623

Аноним 06/08/24 Втр 03:11:14 #407 №843341

>>843335
Ты лучше бы вместо того чтобы выебываться два поста какой ты умный разобрался в теме за год или сколько там и выискивания в моих постах деталей с которых тебе удобно триггернуться, пояснил бы за разницу в обучении и инференсе.
>>843335
>Ты приходишь в ллм-тред спрашивая, есть ли блять какие-то гайды с примерами, кодом, визуализациями и прочим разжежыванием аля LLM для самых маленьких, при этом хочешь без трехэтажного матана,
Нет, все что я ищу, это горяченький и готовый репозиторий с кодом и результатами по трене микромодели. Ибо то что я нашел, это а-ля "воссоздаем гпт 2 с нуля", не, ну полезно конечно, но хотелось бы что-то посовременнее и такое же небольшое. Понятное дело что с гпт 2 в архитектуре оно будет работать как говно.
>и при этом нахуй хочешь делать bleeding edge вещи с каким-то волшебным засовываниям хуй пойми каких микромоделей вообще в кэш и обучением за минуты.
Это просто шизоидея, не триггерись, чел, споооок.

Ну и жопочтецы пытающиеся меня разъебать в том, за что я сам себя разъебал или порофлил, это уже традиция, лол.

Аноним 06/08/24 Втр 03:29:15 #408 №843348

>>843341
Ну если нормальной реакции хочешь и обсуждения, то и пиши сразу нормально, а не хуйню взаимоисключающую c размазанными по залупе 10 мыслями.

> все что я ищу, это горяченький и готовый репозиторий с кодом и результатами по трене микромодели.
Вот, блять, так бы и написал, добавив что такое нахуй вообще микромодели в твоём понимании, а не про какие-то хуй пойми гайды и примеры. Ну ебаный рот.

По мелким моделям открытых проектов и кода толком никакого нет почти, ибо толку в них что по теории что практике особо нет, кроме как для обучения на крайне узкий набор задач хуй пойми зачем. Можно хоть устраться 100 раз обсуждая в треде по кругу очередные шизотеории о том как что-то как-то возможно может быть, если звёзды сложатся и иисус спустится веса потрогает благословит, то всё заработает, но в реальности всё упирается в сраные трансформеры с количеством параметров, и кроме редких ресерчей микромодели пока что никому всё ещё не усрались. Из тех ресерчей и пейперов по мелким моделям что видел, там везде всё грустно в основном с выводами опять же, что для конкретных узких задач может быть имеет смысл.

Аноним 06/08/24 Втр 03:37:04 #409 №843353

>>843341
> жопочтецы
Слово-детектор. Уже в который раз срыв покровов с тех/с того, кто здесь дохуя умничает, но кроме обрывками урванных и неверно интерпретированных догадок и желания сраться ничего не имеет, даже самая база отсутствует. Чел, лучше спокнись а не заводи шарманку, тебе разные люди пишут.
> это а-ля "воссоздаем гпт 2 с нуля"
> с кодом и результатами по трене микромодели
В чем отличия? Так у большинства сеток есть и свои репозитории, если в них покопаться то можно собрать нужное. Эта задача прежде всего - обучающая, потому там не будет готовых передовых решений. Тому же кто способен применять это на практике - готовые разжеванные вещи не нужны, смекаешь?
Начни с простого для начала, а то под тяжестью чсв под землю уйдешь, и таблетки не забывай принимать.

Аноним 06/08/24 Втр 03:50:08 #410 №843356

>>843353
>Эта задача прежде всего - обучающая
Ну так зачем обучаться, ты шо, главное что как обычно идеи об ОС с нескучными обоями есть, вы только готовые проекты со всем готовым дайте позязя. Le classique.

Вроде за годы уже привыкаешь, но каждый раз немного ахуй, когда сам сидишь на уровне хобби занимаешься чем-то, много чего уже знаешь, но при этом понимаешь что на самом деле ещё нихуя не смешарик и до реального понимания темы в деталях и нюансах тебе ещё ебаная бездна информациии для изучения и практики наперевес с учебниками по матану и фурой ресерч папир. А тут люди просто прибегают, не собираясь сами нормально искать, изучать и разбираться, и хотят всё готовое и рассказывают про идеи основанные на максимально поверхностном представлении уровня слышал звон да не знаю где он. Мне бы такую самоувернность иметь, лол.

Аноним 06/08/24 Втр 04:38:50 #411 №843369

>>843337
>у меня психотравма после десятков часов объяснений и ответов на одни и те же вопросы людям в SD-тредах ещё в /b
Вот, кстати, раз уж ты такой спец по сд, расскажи, правильно ли я улавливаю мысль, что при обучении базы/лоры надо усиливать вес редких тегов пропорционально их редкости?
Потому что сейчас редкие теги приходится сильно накручивать, чтобы они начали работать, и как будто бы еще обилие больших весов в промте тянет за собой увеличение CFG, (тоесть его приходится снижать). Сдается мне, если бы это было сделано так изначально, модель гораздо лучше бы усваивала концепт.

>>843348
>что такое нахуй вообще микромодели в твоём понимании
1М-10М-50М максимум. А так хотелось бы получить способность строить связный текст от модели и меньше 1М. Мне интуиция подсказывает, что там есть еще непаханое поле работы, куда исследователи не далеко заходили, и что их заставить работать можно, даже просто пройдясь по верхам подборкой датасета, гиперпараметров, слоев, толщины и всякой такой хуйни. А обычно в технических вещах интуиция меня не подводит.
>Можно хоть устраться 100 раз обсуждая в треде по кругу очередные шизотеории о том как что-то как-то возможно может быть, если звёзды сложатся и иисус спустится веса потрогает благословит, то всё заработает, но в реальности всё упирается в сраные трансформеры с количеством параметров,
Во всяком случае, мой путь приблизил меня к пониманию работы ллм гораздо сильнее, чем я мог бы ожидать от себя, учитывая, что я целенаправленно курю инфу всего недели две от силы.
Теперь это для меня не черный ящик, а серый. Что касается инференса. Но процесс обучения пока чернее некуда. Эта какая-то ебаная квантовая физика, не иначе.

Аноним 06/08/24 Втр 04:47:18 #412 №843371

>>843356
Блять, датфил триггернул, прямо база. Иди обниму.
Медленно swaying hips подхожу с mischievous grin на лице, пока ночь еще молода. Что же ждет их дальше, выдержит ли их связь испытания?
>>843369
Не он, но как тут пройти мимо.
> при обучении базы
Сильное заявление.
> усиливать вес редких тегов пропорционально их редкости
Ни в коем случае, можно усиливать/снижать вес тегов в зависимости от того насколько они характерны для конкретной пикчи, также как и при генерации. Если хочешь улучшить усвояемость - скейли лосс (могут полезть побочки и поломки) или увеличивай повторы пикч с редкими концептами. Первое собственно наи делали.
> мой путь
Лучше бы была моя борьба, лол.

Аноним 06/08/24 Втр 07:31:45 #413 №843397

>>843314
>Зря с ним носишься
Я не ношусь, просто влез в разговор, когда речь зашла за кеши. Сам ебался с этой мерзостью какое-то время, чем быстрее человек поймёт, что в 20 мегабайт у него ничего не влезет - тем лучше. Если это реально инициативный человек, то есть шанс, что он сделает хоть что-то. А это уже много, судя по тому, что я вижу последний год - очень мало людей что-то делают.

>>843322
>если дать простой сетке предсказывать только букву
То получится всратый вариант Т9. Модель же работает на основе входящих токенов, чтобы модель начала предсказывать букву - нужно какую-то букву ей задать. Шансов того, что она будет угадывать нужное слово примерно один из суммы всех возможных слов на эту букву.
>когда она уже оперирует словами, этот этап скипается по сути
Нужно скипать больше этапов.

Аноним 06/08/24 Втр 08:07:15 #414 №843408

>>843322
> если дать простой сетке предсказывать только букву,
>>843397
> То получится всратый вариант Т9
То получится марковский процесс. Таких архитектур раньше, ещё до трансформеров, полно было. Всякие mcmc (monte carlo Markov chain) и прочее такое. Это просто пиздец какие бредогенераторы, натурально набор слов, можете погуглить, как оно работало.

Аноним 06/08/24 Втр 08:21:14 #415 №843410

>>843341
>но хотелось бы что-то посовременнее
Это самая современная архитектура, лол. GPT-3 это просто скейлинг мокрописи на 175B параметров. Отличия там по большей части на уровне гиперпараметров. Ну и всякие там вспышки-внимания, но это больше оптимизации.
>>843369
>А так хотелось бы получить способность строить связный текст от модели и меньше 1М.
Туни сториес буквально про это. >>842994
Ничего лучше я не видел.

Аноним 06/08/24 Втр 08:47:15 #416 №843417

Неделю назад вышла 20б модель которая ебёт гемму27б. Еще и контекст нормальный в 32к. Но всем похуй. Почему так нахуй?
https://huggingface.co/internlm/internlm2_5-20b-chat-gguf

Аноним 06/08/24 Втр 09:44:14 #417 №843439

>>843417
>модель которая ебёт гемму27б
Но ебёт ли она Мистраль 12В? И что у неё с русским языком?

Попробую конечно, но планка высока.

Аноним 06/08/24 Втр 10:23:04 #418 №843459

Что то Мистраль немо очень сухо и коротко отвечает.

Аноним 06/08/24 Втр 10:51:58 #419 №843468

>>843417
А кто производитель?

Аноним 06/08/24 Втр 10:58:03 #420 №843470

>>843439
>Но ебёт ли она Мистраль 12В?
Хуйни не неси, мистраль очевидно тупее геммы, гемма вообще на уровне ламы 70.

Аноним 06/08/24 Втр 11:00:20 #421 №843472

>>843470
> гемма вообще на уровне ламы 70
Только в фантазиях шизиков. Гемма ближе всех из мелких подобралась к 70В, но всё ещё далеко.

Аноним 06/08/24 Втр 12:07:05 #422 №843510

>>843470
Здесь наверное почти каждый пробовал все рекомендуемые модели и имеет собственное мнение. Спорить не буду, но Мистрали (Немо и Лардж) на голову выше прочих. Русский у них вообще лучший и соображают они на нём хорошо, в отличие от.

Аноним 06/08/24 Втр 12:10:39 #423 №843513

>>843369
>что при обучении базы/лоры надо усиливать вес редких тегов пропорционально их редкости?
Насчет базы не скажу, не обучал, с лорами звучит как хуйня идея, веса разъебутся и поджарятся намного раньше чем что-то из этого выйдет.
Не пойму правда особо про какие редкие теги речь, если в датасете просто условно размером в 200 пикч есть всего пара, на которых редкая поза/одежка/etc, то тут или аугментировать как-то и/или просто увеличивать количество повторов, что все собственно и делают и для этого везде почти в тулзах функционал есть вроде тех же XXX_conceptname у kohya, или пытатья обучать на чём есть удрачиваясь и стирая глаза об график лосса и промежуточные сэмплы в поисках заветных параметров, которые на выходе дадут лору способную не разъебаться от повышения веса какого-то тега до 1.5. Сложно, но возможно обычно.
Дефолтная практика снова же просто увеличивать повторы и играться с подбором параметров. SD1.5 и SDXL причем обычно сильно по разному чувствительны ко всем таким играм. Про обучение лор под поней вообще молчу, там настолько нежный текстовый энкодер в базе, что порвать ему жопу можно одним легким неудачным движением. Первая SD в принципе куда более гибкая и устойчивая к шизоэкспериментам с лорами в принципе.

Ну, доп вариант обучать до какого-то нормального среднего результата, а потом пробовать отдельно дотюнивать чекпоинты на конкретные концепты уже.

Некоторые видел вообще отдельно по несколько лор обучали, а потом занимались с ресайзом rank'ов и мерджингом в одну, но это вообще уже что-то из разряда рандомной алхимии и попадался только один успешный экземпляр таких экспериментов.

>>843369
> что там есть еще непаханое поле работы, куда исследователи не далеко заходили, и что их заставить работать можно
Проблема в том, что заходили, а все выводы в общем опять же к одному можно: количество параметров и впихнутых в них терабайтов данных первостепенно, получить какие-то результаты на микро размерах трансформеров можно, но это уже далеко не дрочка с архитектурой, а куда больше с датасетом.
Как другой анон написал, лучше TinyStories пока вроде ничего не было.

Аноним 06/08/24 Втр 12:41:47 #424 №843536

>>843371
>Ни в коем случае, можно усиливать/снижать вес тегов в зависимости от того насколько они характерны для конкретной пикчи, также как и при генерации.
Вообще, кстати, если шизотеоретизировать, то для лор в теории можно подобрать ко всем токенам такие веса, сбалансированные по каждой пикче и всему датасету, что на конкретной модели всё не сгорит нахуй и лора будет "выровнена" без классической хуйни, когда изменение веса какого-то токена на 0.1 превращает всё в латентное месиво, но как и насколько это возможно на практике реализовать не уехав вскоре в дурку даже думать не хочу.

Аноним 06/08/24 Втр 13:11:04 #425 №843566

Это нормально что модель не поддерживает флеш атенсион, или это с квантованием обосрались?

Аноним 06/08/24 Втр 13:16:51 #426 №843579

>>843566
Гемма 2б? Если да, то ллама.цпп не завезли ещё, PR висит три недели, там проблемы пока с тем что при врубе сильно сосать промпт процессинг начинает. https://github.com/ggerganov/llama.cpp/pull/8542

Аноним 06/08/24 Втр 13:17:51 #427 №843581

>>843579
*гемма2

Аноним 06/08/24 Втр 13:29:45 #428 №843597

>>843579
дипсик. нагуглил что жора выключает флеш если к и в головы отличаются - https://github.com/ollama/ollama/issues/5390#issuecomment-2198528627

что это нахуй значит я ваще не ебу. хелп.

Аноним 06/08/24 Втр 13:31:33 #429 №843599

>>843597
K и V в разные кванты квантоваться могут, -ctv и -ctk вроде аругменты в голой лламе.цпп. Через шо запускаешь?

Аноним 06/08/24 Втр 13:38:44 #430 №843604

>>834981 (OP)
Аноны, подскажите. Сколько будет стоить арендовать сервак, который потянет какую нибудь мощную модель, 40б, 80б, что-то такое. Куда смотреть?
Возможность платить в долларах есть.
У меня ноут с 3070ti с 8гб врам, и модельки 8б с 4к контексте уже приелись, хочется что-то покруче.

Аноним 06/08/24 Втр 13:40:30 #431 №843609

>>843604
От 5000 баксов в месяц.

Аноним 06/08/24 Втр 13:42:44 #432 №843611

>>843609
Так это уже дешевле северную карту купить бля.

Аноним 06/08/24 Втр 13:48:30 #433 №843617

>>843604
>Сколько будет стоить арендовать сервак
Цены сильно плавают от и смотря почасовая оплата, помесячная или ещё как. Тут надо сидеть думать какой конкретно конфиг нужен и смотреть потом что и где сколько стоит.
Ну и 80б полностью в видяху ты запихешь разве что в впску с минимум A100, а это плюс минус от 2.2$ в час или от 700-800$ в месяц у самых бомжатских хостеров.

Аноним 06/08/24 Втр 13:49:42 #434 №843623

>>843617
Хотя наебал про в месяц, это для A100 с 48GB видел такие цифры, для нормальной ещё заметно выше будет.

Аноним 06/08/24 Втр 13:50:32 #435 №843626

image.png

>>843599
Че гришь? ств? стк? Я потыкал нихуя не понял. Мучаю голого жору конечно

Аноним 06/08/24 Втр 13:51:34 #436 №843627

>>843604

Просто купи комп с 3090/4090. Оно тянет гемму 27В в 4 бит с 16к контекстом(с 64к если квантовать кэш до 4 бит)

Аноним 06/08/24 Втр 13:55:15 #437 №843629

>>843626
Если сам не прописывал просто flash attn включая, то мб и в ггуфе хуйня какая-то, хотя я и не помню чтобы туда можно было прописать кванты KV. Попробуй руками поставить -ctv q8_0 -ctk q8_0 хуй помню для fp16 прям -ctv/-ctk fp16 надо писать или не

Аноним 06/08/24 Втр 13:59:32 #438 №843635

>>843566

Франкекобольда ставь, туда уже завезли тот коммит который жора все телится завезти.

Аноним 06/08/24 Втр 14:22:14 #439 №843649

>>843635
>Франкекобольда ставь
Это ещё что за хуйня?

Аноним 06/08/24 Втр 14:25:45 #440 №843651

image.png

>>843629
Хуйня какая-то. Я так понял эти аргументы работают только если фа включен. А ты говоришь что эти аргументы помогут фа включить.

Может реально с этим гуфом че то не так?
https://huggingface.co/bartowski/DeepSeek-Coder-V2-Lite-Base-GGUF/blob/main/DeepSeek-Coder-V2-Lite-Base-Q8_0.gguf

Аноним 06/08/24 Втр 14:33:09 #441 №843666

>>843651
Ладно уже забей хуй, тут косяк с хуйней жоры, которая отрубает. Тут только код править вырубая эту хуйню с форсированным выключением при разных головах. Может где то готовое есть вроде какой-то хуйни шо этот анон называет >>843635

Аноним 06/08/24 Втр 14:34:18 #442 №843667

>>834981 (OP)
почему с хагифейса перестало качать? качает 10 секунд и стопается навсегда
как фиксить?
внп не помогает

Аноним 06/08/24 Втр 14:38:28 #443 №843673

>>843667
Качать арией в несколько соединений.

Аноним 06/08/24 Втр 14:43:42 #444 №843677

>>843609
>От 5000 баксов в месяц.
Ну в месяц положим ему не надо, так, иногда несколько часиков погонять. Ещё и не каждый день. Я вот слышал про runpods - под него даже официальный образ Кобольда есть. Типа арендуешь чуть ли не посекундно этот подс, разворачиваешь на нём образ в два клика и вот тебе 70В с хорошей скоростью. Врут или правда так можно?

Аноним 06/08/24 Втр 14:45:23 #445 №843679

image.png

>>843677
>runpods

Аноним 06/08/24 Втр 14:45:37 #446 №843680

>>843673
кто такая ария?
значит трабла у всех?

Аноним 06/08/24 Втр 14:48:05 #447 №843684

image.png

Что лучше все же в рамках 30б?
Пока попробовал Gemma 2-27B, сначала пошло не плохо, но потом просто задушила цензурой, и моя тянка не смогла получать удовольствие, ушла в полное отрицание происходящего.

Аноним 06/08/24 Втр 14:49:33 #448 №843688

>>843684
До 70В у тебя нет выбора по сути. Это на 70В и выше ты можешь выбирать, а в твоём случае берёшь гемму и пердолишься.

Аноним 06/08/24 Втр 14:49:35 #449 №843689

>>843679
Ссылку на аренду облачных мощностей я на гитхабе Кобольдовском видел, мне бы весь процесс понять... Как пользоваться и всё такое. Из РФ же ещё процесс оплаты проблемный, тут не поэкспериментируешь.

Аноним 06/08/24 Втр 14:51:37 #450 №843690

>>843684
NeMoistral-12B-v1a
Lumimaid-Magnum-12B

Первая посочнее, вторая поумнее. Альтернатив нет, я все эти геммы пробовал - ну их.

Аноним 06/08/24 Втр 14:52:50 #451 №843693

>>843680
Программа такая для скачивания вещей из интернетов, погугли, полезная вещь в хозяйстве, главная фича это умение многопоточно качать и продолжать прерванные закачки.

>значит трабла у всех?
У меня лично скорость морды в одно соединение упала до 1МБ/c, хуй знает почему, ариа вернула до фул спида.

Аноним 06/08/24 Втр 14:54:53 #452 №843696

>>843397
Прав, да. Если погрузится то может и шизоидеи решения фундаментальных проблем перочинным ножом перестанут переть, а наоборот чем-то более приземленным но реальным и полезным займется.

> всратый вариант Т9
>>843408
> Всякие mcmc (monte carlo Markov chain) и прочее такое. Это просто пиздец какие бредогенераторы
Ну что же вы, анонисмусы, базу забыли, beam search же. Подумаешь ресурсозатратно, зато результат какой.
>>843417
> ебёт
Говорят кур доят. Отзывов всяких разных подождать стоит.
>>843470
> гемма вообще на уровне ламы 70
Ну не, она суперахуенная для своего размера, но 70 это уже другой калибр.
>>843513
> настолько нежный текстовый энкодер
Скорее
> настолько взорванный текстовый энкодер

> обучать до какого-то нормального среднего результата, а потом пробовать отдельно дотюнивать чекпоинты на конкретные концепты уже
Можешь подробнее идею расписать?
>>843536
> для лор в теории можно подобрать ко всем токенам такие веса, сбалансированные по каждой пикче и всему датасету
Имеешь ввиду соответствующие "степени проявления" тега на пикче, или то же про количество присутствия этих тегов в датасете?
> изменение веса какого-то токена на 0.1 превращает всё в латентное месиво
Это похоже на форджепроблемы и прочее из-за нормировки эмфазиса, которую в SDXL делать не стоит. Даже у прожаренных лор такого быть не должно.

Аноним 06/08/24 Втр 15:02:47 #453 №843703

>>843689
В рф проще у ру хостеров и брать впски, цены в среднем такие же.>>843684

если не erp с лолями там генерить собрался

>>843684
Big Tiger/Gemmasutra попробуй, первая просто расцензур геммы, вторая на РП тюненая.

Аноним 06/08/24 Втр 15:03:35 #454 №843705

>>843604
> Сколько будет стоить арендовать сервак
Ну смотри, минимальной планкой для описанного тобою будет 48 гигов врам. На каком-нибудь из ресурсов арендуется условная A40/A6000, на популярных безопасных сервисах это около 0.5$ в час. Квант/размер пожирнее - A100 80gb, от 1.2-1.5$ в час.
> Куда смотреть
На сервисы аренды гпу мощностей, vast ai, runpod akt много их.
>>843667
Твой провайдер, или у них один из серверов заболел, редкость и быстро фиксится.
>>843684
Шаблон с жб инструкцией на гемму в таверну накати https://pastebin.com/zpZQ4pjf , сразу полезет удовольствие. А так кумить коммандер хорош, но он не для одной видюхи. Гемма безальтернативна тут, вся мелочь ей уступает. Файнтюны ее по ощущениям поломаны и не дают того же экспириенса, но может это субъективщина.

Аноним 06/08/24 Втр 15:04:48 #455 №843706

>>843703
> у ру хостеров и брать впски, цены в среднем такие же
Чето там от 220р/час за дохлую A100, и еще 50 накинь если хочешь нормальное дисковое пространство, а не сотню гигов с лопаты.

Аноним 06/08/24 Втр 15:14:55 #456 №843717

>>843696
>Имеешь ввиду соответствующие "степени проявления" тега на пикче, или то же про количество присутствия этих тегов в датасете?
И про первое, и про второе одновременно. Повторюсь шо идея из разряда шизо-рофло-теорем.

>>843696
>Это похоже на форджепроблемы и прочее из-за нормировки эмфазиса, которую в SDXL делать не стоит
Есть такое, но я столько говна с дна цивита нюхал так охуительно обученного что под полторашку, что sdxl, и такой хуйни повидал и на не прожаренных, и прожаренных.
Да и сам пару раз ловил, когда на ровном месте при дефолтном пайплайне отлаженном как-то датасет, параметры и звёзды сходятся так, что веса ловят шизу. Ну и приколы, когда тренишь на какой-то конкретной модельке, а там закрались последствия ошибок в мерджах/тюне и генетическом коде автора, что на определенных концептах с токенами случается ебанутая чувствительность даже без лор, а с лорами можешь вообще заметить это только когда уже полезешь в вебуи гриды гонять и попадешь на один такой волшебный токен.
Помню одно такое говно, что одна лора натренилась ну прям хорошо, три дня как мразь потел над датасетом и подбором, между моделями переносилась спокойно, кучу стилей может, а на одной нравящейся модели на конкретном токене одежки в сочетании с парой поз результат превращался в радужное глитч-месиво при весе выше 0.5 на теге одежки.

Аноним 06/08/24 Втр 15:19:34 #457 №843721

>>843706
>Чето там от 220р/час за дохлую A100
А100 80gb 128 ram 120+ hdd вполне за 220 как раз и можно найти.
Вообще тут просто вопрос есть ли уже возможность вечнозеленные закидывать куда хочешь без проеба денег на комиссии, или нет. А то если нормальной usd карты нет и посчитать может выйти, что по бабкам так же выйдет.

Аноним 06/08/24 Втр 15:26:01 #458 №843736

>>843721
>есть ли уже возможность вечнозеленные закидывать куда хочешь без проеба денег на комиссии, или нет.
Бакс где-то по 110 рублей выйдет, но это и хрен бы с ним. С учётом более низкой цены за более высокую производительность потянуть можно. Проблема в том, что нет подробного гайда от момента "оплатил и получил доступ" до "запустил у себя Таверну и подключился к модели". Если бы был, то я например давно купил бы и не мучался.

Аноним 06/08/24 Втр 15:31:18 #459 №843743

>>843736
Сам не делал, но подозреваю там с готовым образом кобальда запуск буквально уровня открыть ссылку, выбрать железо, нажать запустить и в таверне по апи присосаться. Ну и модель на под скачать сначала.

Аноним 06/08/24 Втр 15:31:54 #460 №843744

>>843717
> про первое
В теории это улучшит качество тренировки, но достаточно сложно. Скейлить уровень активаций автотеггеров? Так оно нелинейно вообще, может легко ухватывать неочевидное и игнорировать явное. Хотя последняя серия вдтеггеров очень крутая. Вручную - ерунда, чтобы оно как-то проявилось там нужен большой датасет и тренировка покрупнее.
> про второе
Просто повышение веса тега в надежде что он "сильнее запечется" и это компенсирует редкость - не сработает. Наоборот это поломает все и работать он начнет только с таким вот большим весом, а с обычным вообще отвалится. Нужно скейлить лосс для редких пикч, это точно сработает.
> сам пару раз ловил
А, ты про то что ломает при тренировке, а не просто внезапные поломки результатов генерации на XL? Тут бывает всякое, да, а то легко проверить - починится если крутануть вес на 0.01 или переставить местами промт.
> радужное глитч-месиво
Не сохранился пример?
>>843721
> А100 80gb
Ок хотя хотелось бы уже хоппер
> 128 ram
Ок
> 120+ hdd
Это, блять, рофел чтоли? Тут не то что несколько состояний и весов хранить, тут даже датасет загрузить не получится. Даже фришный спейс обниморды с 2 ведрами cpu чето типа 1.5 тб имеет.

Аноним 06/08/24 Втр 15:50:39 #461 №843752

>>843743
Вот я тоже подозреваю. Но ещё подозреваю, что будь это так - гайдов уже было бы немеряно. Чего там, два клика описать или заснять. А нету.

Аноним 06/08/24 Втр 15:54:27 #462 №843756

>>843736
> нет подробного гайда
Если нужна инструкция - значит не нужна инструкция. Внимательно смотри, там даже для хлебушков выставили готовые шаблоны. Если хочешь сделать сам - из их шаблонов или просто докера образ убунты с кудой, накатить убабугу и открыть порты.
>>843743
> кобальда
> A100
Содомит
>>843752
Плохо искал, о том как развернуть что-то с пошаговой инструкцией от каждого индуса и инфоцыганине по теме уже было.

Аноним 06/08/24 Втр 15:59:01 #463 №843761

image.png

>>843744
>Просто повышение веса тега в надежде что он "сильнее запечется" и это компенсирует редкость - не сработает.
Ну это понятно, хотя у меня в рамках экспериментов на одной лоре были подозрительные обратные результаты, но в рамках погрешности.

>Вручную - ерунда, чтобы оно как-то проявилось там нужен большой датасет и тренировка покрупнее.
На мелком то тоже можно, но это иметь невероятные уровни аутизма и количества свободного времени. Я на одной тяжкой лоре с крайне хуевым и мелким датасетом пытался, прогресс немного был, но жопа сгорела быстрее.

>А, ты про то что ломает при тренировке
Йеп. Ну думаю такие приколы, возникающие то на отдельных волшебных моделях с удроченными мержами весами, то просто хуй пойми почему из-за фазы луны, многие кто дохуя лор тренил, видели.

>Не сохранился пример?
Эт надо искать среди 100к+ пикч генераций да я ебанутый

>>843752
Средний кумер просто не хочет тратить бабки, поэтому допизды гайдов как сосать бибу во всяких коллабах, дрочить в horde или пиздить ключи за бесплатно, а про платно нихуя нет потому что никому особо не надо. А кому очень надо и бабки есть обычно сам и разбирается.

Аноним 06/08/24 Втр 16:00:46 #464 №843765

>>843756
>> кобальда
>> A100
>Содомит
В чём космический эффект? я локально голую цпп дрочу и не ебу шо там у вас

Аноним 06/08/24 Втр 16:01:28 #465 №843766

>>834981 (OP)
>Fimbulvetr-11B-v2.q4_K_S.gguf
Может уже поменяем модель на немо или гемму?

Аноним 06/08/24 Втр 16:04:03 #466 №843774

>>843744
>Это, блять, рофел чтоли?
Welcum to дефолтные инстансы с гпу большинства хостеров, которые что у наших, что у забугорных, что у runpod стоят вроде по два бакса, но за терабайтик плати дополнительно всё время пока он существует и лежит. Всё стандартно, хуле.

Аноним 06/08/24 Втр 16:08:25 #467 №843784

>>843761
>А кому очень надо и бабки есть обычно сам и разбирается.
Да понятно, что убив день и 1000р на аренду и я разберусь. Просто хотелось бы без этого.

Аноним 06/08/24 Втр 16:12:23 #468 №843791

>>843784
>Просто хотелось бы без этого.
Пахнешь нищетой как и все мы тут

Аноним 06/08/24 Втр 16:17:33 #469 №843797

>>843791
Просто не хочу ебаться по-настоящему как в анекдоте с танкистами и феей

Аноним 06/08/24 Втр 16:19:40 #470 №843801

>>843761
> На мелком то тоже можно, но это иметь невероятные уровни аутизма и количества свободного времени.
Там просто не получится отследить на фоне огромного множества прочих или труднотслеживаемых факторов, банально сам несбалансированный набор пикч будет давать смещение, плохое или хорошее. Делать относительные сравнения, но там много рандома и прочих корреляций.
А чего на базовых моделях не тренишь? На мерджах полный треш может быть из-за поломанных весов.
> да я ебанутый
Нет, это не большое число
>>843765
> В чём космический эффект
В том что при малейшей возможности к жоре вообще не стоит приближаться. Медленно и забагованно, а тут по собственной воле предлагается им обмазываться.
>>843774
> за терабайтик плати дополнительно всё время пока он существует и лежит
То скорее про отдельное хранилище, которое будет всегда доступно и работать даже когда сам инстанс отключен, а не вайпнется при отключении. Хотябы терабайт обычно кладут.
>>843784
> убив день и 1000р
Обкатать все на кошках на самом дешевом варианте - слишком сложно? И разбираться там особо не нужно.

Аноним 06/08/24 Втр 16:42:47 #471 №843835

>>843690
Как их настроить анон ? Отвечают очень короткими предложениями и без изюминки.

Аноним 06/08/24 Втр 16:43:46 #472 №843837

>>843801
>А чего на базовых моделях не тренишь? На мерджах полный треш может быть из-за поломанных весов.
Да уже с месяца полтора и так не тренил, диффузии заебали просто, полез в ллмки.
На базовых и основах для миксов тоже тренил, в основном что на публику выкладывал куда-либо, чтоб народ юзал где хочет. Но это тоже то ещё развлечение, когда потом приходят с доёбами что вот я VasyanMix_228_v322.1337alpha34 использую ещё пятью лорами помазав сверху, а у меня хуйня получается помогай исправляй.
Ну и лоры конкретно под Pony тут особняком то ещё стоят, с понями вообще своя атмосфера и свои приколы с его порой охуительным текст-энкодером, который лишние пару десятитысечных в lr-е могут рандомно обосрать начисто.

>Там просто не получится отследить на фоне огромного множества прочих или труднотслеживаемых факторов
Ну вообще да, конечно. Собственно моей жопы и не хватило поэтому.

>Нет, это не большое число
Я просто предыдущие полмиллиона проебал вместе с ссд.

>>>843801
>Хотябы терабайт обычно кладут.
Ну за инстансами с терабайтами, которые не будут стоить как крыло от боинга это надо почти всегда на чисто ML-ные сервисы идти, у которых свои приколы другого харакетра частенько есть и с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется и пойдет прогреваться на хостинги для гоев с x4 ценником за пару сотен гигов.

Аноним 06/08/24 Втр 16:46:26 #473 №843847

>>843837
>и с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется и пойдет прогреваться на хостинги для гоев
Вот за это вас линуксоидов и не любят :)

Аноним 06/08/24 Втр 16:47:35 #474 №843850

>>843666
Заебись, я пошел билдить, пожелайте удачи, никогда раньше не билдил нихуя чужого.

Аноним 06/08/24 Втр 16:48:11 #475 №843852

>>843835
>Как их настроить анон ?
Просто грузи в Кобольд с дефолтными настройками и пользуйся. Главное динамическую температуру не включать - шизеют они от этого.

Аноним 06/08/24 Втр 16:50:31 #476 №843857

>>843847
>Вот за это вас линуксоидов и не любят :
Да я сам виндузятник с психологической травмой после починки слетевшего граба и арчлинуха в 15 лет в деревне без инета.

>>843850
Главное выше чем с 12.2 кудой не билдь.

Аноним 06/08/24 Втр 16:54:58 #477 №843863

>>843852
Скинь настройки таверны для них пожалуйста. Уже два дня пытаюсь выжать что то из них и пока ничего не вышло.>>843852

Аноним 06/08/24 Втр 16:58:58 #478 №843866

image.png

>>843857
>Главное выше чем с 12.2 кудой не билдь.
Почему? В билд гайде нихуя такого не пишут

Аноним 06/08/24 Втр 17:02:37 #479 №843868

>>843866
Потому что неспроста почти все офф билды делаются с 12.2, максимум 12.4, и поддержкой у либ вроде торча тоже. Ибо потом можешь заебаться от рандомных багов, проблем с производительностью и прочих радостей сборки софта с новыми версиями либ под которыми нихуя ещё не проверялось.

Аноним 06/08/24 Втр 17:04:14 #480 №843870

>>843866
>гайде
В доках и гайдах там и половины, блять, не написано от того что там должно быть написано.

Аноним 06/08/24 Втр 17:05:52 #481 №843872

>>843870
Ну так добавь епта, жора спасибо скажет

Аноним 06/08/24 Втр 17:06:11 #482 №843874

3ea8e43a0c7f22578ba48f7d698ec788.jpg

>>843857
>Главное выше чем с 12.2 кудой не билдь.
Cбилдил лламу с кудой 12.5.

Аноним 06/08/24 Втр 17:09:21 #483 №843880

>>843863
>Скинь настройки таверны для них пожалуйста.
Как-то так. Да ты контекст в 16к поставь и в первом сообщении какой-нибудь текст по теме кинь тысячи на три токенов, чтобы разогреть модель. Спроси, как поняла текст и если поняла хорошо, двигай уже что-то своё.

Аноним 06/08/24 Втр 17:10:25 #484 №843882

kobold.gif

>>843880
Сорри, забыл скрин прикрепить.

Аноним 06/08/24 Втр 17:21:43 #485 №843891

>>843766
На Qwen2 и Phi3.
Как единственных нормальных,
официальные gguf есть без реги.

Аноним 06/08/24 Втр 17:29:28 #486 №843895

image.png

>>843874
>12.5

Аноним 06/08/24 Втр 17:31:54 #487 №843897

Ну шо, есть в треде миллионеры с кластером?
https://huggingface.co/mlabonne/BigLlama-3.1-1T-Instruct

Аноним 06/08/24 Втр 18:43:59 #488 №843955

>>843604
посмотри этих
https://immers.cloud/gpu/
https://gpudc.ru
https://hostkey.ru/gpu-dedicated-servers/

Аноним 06/08/24 Втр 18:47:09 #489 №843958

>>843667
>как фиксить?
находишь нужные файлы на https://huggingface.co, изменяешь домен на hf-mirror.com (остальной путь оставляешь), качаешь

Аноним 06/08/24 Втр 18:49:09 #490 №843960

>>843690
>NeMoistral-12B-v1a
>Первая посочнее
Мне она вообще показалась какой-то сырой, генерит не лучше других файнтюнов, даже 8B.

Аноним 06/08/24 Втр 18:51:20 #491 №843962

>>843766
Он ещё довольно неплох даже на сегодняшний день наряду с Fimbulvetr-Kuro-Lotus-10.7B. Но квант, конечно, лучше брать Q6 минимум.

Аноним 06/08/24 Втр 18:53:23 #492 №843965

>>843897
А смысл так изворачиваться? Проще сразу платить коммерческим LLM сервисам, дешевле выйдёт.

Аноним 06/08/24 Втр 19:41:04 #493 №843997

>>843837
> лишние пару десятитысечных в lr-е могут рандомно обосрать начисто.
Всеже интересна природа вот этого.
> чисто ML-ные сервисы идти
Ну вроде перечисленные должны нормально отсыпать и по дефолту, это с "наших серверов" хуею.
> с которыми средний кумер-анон местный, которому гайд надо куда кнопки жать, обычно жидко обосрется
Кому нужно пространство - разберется с таким. Но с примера всхрюкнул.
>>843866
Уууф, земля стекловатой.
>>843880
Рп с прогревом на 3к токенов?

Аноним 06/08/24 Втр 20:12:42 #494 №844020

>>843997
>Рп с прогревом на 3к токенов?
Для маленьких моделей особенно актуально, я считаю. Но не настаиваю.

Аноним 06/08/24 Втр 20:18:05 #495 №844026

Аноны хули все советуют мистраль немо, если она соевая? мне для рп надо

Аноним 06/08/24 Втр 20:20:43 #496 №844030

Господа, где не зацензуренные карточки персонажей для таверны брать сейчас? На чабе всё добро выпилили, причем уже достаточно давно.

Аноним 06/08/24 Втр 20:51:33 #497 №844048

изображение.png

>>843417
>Но всем похуй. Почему так нахуй?
Не успеваем следить.
>>844026
А ты играй доброе РП с водопроводчиком.
>>844030
На чабе и бери, всё там на месте, вот моя первая страница.

Аноним 06/08/24 Втр 21:17:11 #498 №844071

>>844026
>мистраль немо, если она соевая
Где вы блять там сою находите, эта падла в трусы лезет с полуслова на промпте обычного чатбота симулирующую просто девку.

Аноним 06/08/24 Втр 21:25:11 #499 №844078

>>844071
>глинты

Аноним 06/08/24 Втр 21:26:34 #500 №844079

>>844026
Потому что китайцам впадлу хоть как-либо на английскую аудиторию пиарить релизы и потому что эти пидоры постоянно любят по приколу поменять немного какие-то вещи в коде/архитектуре никак не влияющие на результат и поломать совместимость со всеми инструментами

Аноним 06/08/24 Втр 21:32:33 #501 №844085

>>844026
>>844079
Ну и в этом случае так же типо свою фичу сделали, а по факту тот же auto rope scaling 3.1 лламы, но нигде естественно не заведется из коробки. Импортозамещение с опенсурсом по китайски.

Аноним 06/08/24 Втр 21:34:23 #502 №844087

>>844085
>>844079
Тьфу блять, не туда ответы >>843417

ПЕРЕКАТ Аноним OP 06/08/24 Втр 21:36:50 #503 №844091

изображение.png

>>844088 (OP)

ПЕРЕКАТ

>>844088 (OP)

>>844088 (OP)

Аноним 07/08/24 Срд 00:26:25 #504 №844279

>>843649

Форк кобольда c расширенными настройками, судя по пулл реквесту, который жора телится завести, разраб франкенкобольда уже инкорпорировал его.
https://github.com/Nexesenex/kobold.cpp

Аноним 18/08/24 Вск 03:43:55 #505 №858749

>>834981 (OP)
.