24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №38 /llama/

 Аноним 19/01/24 Птн 01:13:46 #1 №616097 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
17055963127770.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>604568 (OP)
>>597686 (OP)
Koboldcpp под Windows 7 Аноним 19/01/24 Птн 03:46:51 #2 №616194 
Гайд для тех, кто хочет запускать Koboldcpp под Windows 7 на CPU с поддержкой AVX2 и/или GPU, так должно работать ощутимо быстрее. Я сам какое-то время помучался с этим, в итоге собрал собственные бинарники из исходного кода.

Суть проблемы заключается в том, что код llama.cpp, на основе которого построен Koboldcpp, использует функцию PrefetchVirtualMemory из ядра Windows, которая появилась только начиная с Windows 8. Из-за этого попытки использовать Koboldcpp под Windows 7 в любых режимах, отличных от "NoAVX2 Mode" и "Failsafe Mode", приводят к падению на этапе загрузки модели. Соответствующие правки ещё давно были внесены в код llama.cpp и Koboldcpp, но сделаны они таким образом, что вызов PrefetchVirtualMemory не используется только в режимах "NoAVX2 Mode" и "Failsafe Mode", что лишает возможности задействовать AVX2 инструкции и/или GPU для ускорения работы, в самом лучше случае (при выборе "NoAVX2 Mode") у вас будут задействоваться только AVX1 инструкции. Разработчики Koboldcpp несколько раз делали специальные билды, совместимые с Windows 7, но это не приняло системного характера, поэтому чтобы иметь свежую полноценную версию Koboldcpp под Windows 7 вам потребуется собрать её самостоятельно.

(дальнейшие действия по мотивам https://github.com/LostRuins/koboldcpp?tab=readme-ov-file#compiling-on-windows)

1. Скачайте архив со сборочными инструментами: https://github.com/skeeto/w64devkit/releases, под 64-битную систему вам нужен архив w64devkit-1.21.0.zip, под 32-битную w64devkit-i686-1.21.0.zip.
Распаковываете его в отдельную папку.

2. Скачайте архив с исходным кодом Koboldcpp: https://github.com/LostRuins/koboldcpp/releases, выбираете "Source code (zip)".
Распаковываете его в отдельную папку.
Чтобы получить совместимые с Windows 7 библиотеки, задействующие AVX2, потребуется внести незначительные правки в процесс сборки. Найдите в исходном коде файл Makefile, откройте его в текстовом редакторе. Выполните поиск строки "gpttype_adapter.o: $(GPTTYPE_ADAPTER)" (без кавычек), после ней идёт строка "$(CXX) $(CXXFLAGS) -c $< -o $@", замените её на "$(CXX) $(CXXFLAGS) $(FAILSAFE_FLAGS) -c $< -o $@" (т.е. просто добавьте $(FAILSAFE_FLAGS) посередине, аналогично как в соседних). Это исключит вызовы PrefetchVirtualMemory при сборке библиотек koboldcpp_default.dll (загружается при выборе "Use No BLAS") и koboldcpp_openblas.dll (загружается при выборе "Use OpenBLAS").

3. Процесс сборки.
Откройте командную строку (запустите cmd.exe).
Перейдите в папку, где у вас лежит исходный код Koboldcpp:
> cd "c:\users\anon\downloads\koboldcpp"
Добавьте путь к сборочным инструментам (конкретно - подпапке "bin") в переменную окружения PATH:
> set PATH=c:\users\anon\downloads\w64devkit\bin;%PATH%
Если в пути встречаются пробелы, то заключите его в кавычки.
Запустите процесс сборки:
> make
В результате вы получите все необходимые компоненты, собранные из исходного кода.

4. Для непосредственного запуска модифицированного Koboldcpp или сборки однофайлового исполняемого файла (аналогично официальным сборкам) вам потребуется Python интерпретатор. Совместимые с Windows 7 сборки Python можно взять отсюда https://github.com/adang1345/PythonWin7/tree/master/3.12.1. Убедитесь, что при установке Python в режиме custom installation (если вы его выбрали) у вас включён Tcl/Tk.
Для непосредственного запуска просто установите Python интерпретатор, убедитесь, что .py файлы с ним ассоциировались, и кликайте по koboldcpp.py для запуска.
Для сборки однофайлового исполняемого файла вам потребуется также установить PyInstaller (https://www.pyinstaller.org/en/stable/installation.html) и запустить скрипт make_pyinstaller.bat.
Аноним 19/01/24 Птн 03:57:44 #3 №616198 
>>615725 →
>Ну, в среднем для 70б - это 2 токена/с, для 34б - 7т/c, для 20б и меньше - 15+т/c. Если мне память не изменяет.
Вопрос по 70B - это результат для двух карт, при полностью загруженной в видеопамять модели? А какой квант?
Аноним 19/01/24 Птн 04:10:21 #4 №616200 
>>616194
> Windows 7
> 2024
Нахуй так жить? Если такой конкомформист - есть линукс, который отлично работает как на старом, так и на новом железе.
Аноним 19/01/24 Птн 08:28:41 #5 №616251 
1705642119212.png
1705642119213.png
1705642119214.png
>>616097 (OP)
Сап, аноны.
Надоела бездушность и соевость хыпыты, так что решил потестить локалочки.
Заспунфидьте дебилу пожалуйста. Скачал noromaid + mixtral instruct 0.4, просто mixtral instruct новый, с матрицей этой.
Пошел запускать и тестировать, но прям тяжко идёт. Постоянно тупит и повторы как на пик3, иногда не такие резкие, но все ещё повторы.
Есть вариант пофиксить, я же по любому обосрался где-то. Вот настройки на пик1, пик2. В обоих моделях ChatML формат вроде.
Аноним 19/01/24 Птн 08:35:15 #6 №616253 
.png
.png
>>616251
Аноним 19/01/24 Птн 09:00:11 #7 №616267 
>>616253
Ну я и обычный тестил, написал же
Аноним 19/01/24 Птн 09:25:43 #8 №616274 
Нюфаг вкатился в эту вашу текстогенерацию.
У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye.

И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает.
Аноним 19/01/24 Птн 10:40:40 #9 №616317 
image.png
image.png
>>616251
вот, попробуй мои настройки. модель noromaid-20B
Аноним 19/01/24 Птн 10:47:20 #10 №616321 
>>616274
>У меня вопрос - почему у меня чем дальше ты генеришь тем все меньше текста на выходе дает нейросеть вплоть до самых простых фраз? После 15к токенов уже совсем генерит примитивное yes/no, bye.
смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого. возможно, тебе стоит поредачить её вывод чтобы она немного "взбодрилась".

>И может здесь есть macos-бояре? Как правильно скомпилить kobold? У меня он совсем не юзает gpu. Ответа не нашел, тот же sd нормально работает.
пердолься
Аноним 19/01/24 Птн 10:49:42 #11 №616323 
1.png
>>616274
А у тебя не контекст закончился?
Вангую, что сейчас расскажут, насколько я неправ и хуйню пишу, однако. При ёбке ллм всё упирается в контекст. Грубо говоря, сколько текста она можешь прохавать за один раз. В этот же контекст должен влезать твой промпт плюс ответ. В угабуге можно зайти в настройки и выставить Truncate the prompt, чтобы промпт обрезался, начиная с более старой хуйни. То есть у тебя остаётся больше пространства для новой хуйни, в которую, очевидно, входит и ответ модели. Если ты упираешься в 15к, обрезай пораньше. Можно ещё разрешить растягивать max new tokens, но у меня с этим тормоза начались.
Аноним 19/01/24 Птн 11:28:34 #12 №616364 
>>616251
Ставь просто noromaid 20b кванта, который влезает. Даже Q3K_M подойдет, на 20б оно не сильно лоботомирует, в идеале exl2 6 бит.
Пресет инстракт режима - дефолтный roleplay в обоих пунктах вместо chatml, можешь подредактировать или вообще удалить часть про 2 paragraphs.
Пресет семплеров - Simple-1, а не та дичь что выставлена. Будет следовать промту, держать разметку, выдавать интересный текст без лупов.
>>616274
> После 15к токенов уже совсем генерит примитивное yes/no, bye
Что за модель? Если повелся на 32к копиума мистралей - оно чисто номинальное, и нужны настройки rope.
> Как правильно скомпилить kobold?
Так ух выходит что макось-господа должны страдать. Тут или полноценный убабуга, что легко ставится в один клик и на макось, но занимает много места и без того мелкого диска, или пердолинг с кобольдом, в котором на маки кладут.
Аноним 19/01/24 Птн 11:32:42 #13 №616367 
Есть двухгпушные с линуксом? Любые карточки подойдут, нужно замерить сколько видеопамяти скушает какая-нибудь модель при делении пополам с, например, 8к контекста при загрузке экслламой, и сколько будет при полном заполненни контекста. Скорости не важны.
Удивил меньший расход видеопамяти, нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде, или при шаринге расход немного повышается.
Аноним 19/01/24 Птн 11:39:16 #14 №616377 
>>616367
> нужно выяснить это флеш-атэншн и прочее там эффективнее работает чем на шинде
Нет, конечно. Там одинаковый CUDA-код, лол. В том числе nvcc там одинаковый, т.е. даже оптимизации при компиляции идентичные. На линуксе разве что получишь сырее драйвера под новые карты.
Аноним 19/01/24 Птн 11:49:22 #15 №616391 
>>616198
llama-2-70b.Q4_K_M.gguf - весит 39G
с контекстом как раз память выедает всю
Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл
Аноним 19/01/24 Птн 11:49:53 #16 №616393 
>>615519 →
Ну, сами картинки распознаются моделью CLIP, а чат от LLaMa.
Как альтернатива — BaKLLaVa имеет ту же модель, но болтает Mistral'ю.

>>615597 →
Да, в теории — можно.

>>615607 →
>>615591 →
Ребят, скажите, на русском какая-нибудь из моделей норм говорит?
А то на мою Нейрославу жалуются, что она тупая. Пока перевод пробрасывать в гугл я не готов, хочу модельку поменять. Как придет P40, может 20b или 34b какую взять.

Yi сколько влазит, в каком кванте?

>>615701 →
Но у меня нет!.. =с

>>615725 →
Интересно в стабле, может xttsv2 запустишь.
Всякие RCV мне лично не так интересны.

>>615750 →
> whisper на модели large распознает голос в текст почти в реалтайме.
> text to speech и замена голоса работают так же в реалтайме, у них только ощущаются задержки на буферизацию.
Оп-оп, спасибо, кажется надо было сразу 2 карты брать… =D Под llm и под обвес.

>>615770 →
>>615767 →
2 итерации в секунду — это как P104-100. У меня так же генерит (ну я занизил частоту с потреблением — 1.8 ит/с).
Аноним 19/01/24 Птн 11:51:03 #17 №616396 
>>616323
Вроде не закончился поставил в настройках кобольда и таверны 16к, оно не сразу генерит короткие фразы, а постепенно. Пропадают эпитеты, описание мира, потом мысли, остаются только фразы и становятся все примитивнее.
>>616321
Короче я так понял если несколько раз сетка сгенерит что-то короткое оно и дальше начнет обрезать?
>>616364
Да я фроствинд заюзал из шапки, это говномодель? Пробовал mlewd он лагает о я ебал (генерит две минуты) и 30гб памяти сожрал.

Что за убабуга?
Аноним 19/01/24 Птн 11:51:22 #18 №616399 
00002-1940933664.png
кто-нибудь шарящий, помогите.

я бы хотел погонять Adventure Mode из кобольда в силлитаверне, но не могу объяснить ей что она рассказчик и должна генерировать мне историю и вводить персонажей, а не общаться со мной. в идеале вообще чтобы я мог прописать условия мира и всякую предысторию, а игра мне выдавала порции текста в ответ на мои действия, описанные уровня
> try to sneak behind and pickpocket a guard
Аноним 19/01/24 Птн 11:51:58 #19 №616401 
>>616396
>Короче я так понял если несколько раз сетка сгенерит что-то короткое оно и дальше начнет обрезать?
буквально да.
Аноним 19/01/24 Птн 11:58:02 #20 №616411 
>>616321
> смотри, сетка когда берёт нить повествования в каком-то стиле, потом её хуй отвадишь от такого
Это уже такие лупы, но действительно бывает. В старых сетках такое случалось из-за долгого стояния на месте, но лупы были более классические а не отупение. Здесь скорее из-за контекста беда.
>>616396
> Да я фроствинд заюзал из шапки, это говномодель?
Для своего размера - более чем, она старается, пусть и не идеальна. Вполне пригодна для рп и с ней можно довольно purrs.
>>616396
> Что за убабуга?
Text generation webui. Шапку прочти и в ней ссылка на вики.
>>616399
Нужно прописать промт, что передается в этом эдвенчур моде?
Аноним 19/01/24 Птн 11:58:49 #21 №616412 
Screenshot20240119115737.png
>>616396
>Что за убабуга?
добро пожаловать в тред
владелец двух p40

>>616399
вот это поле в хубабубе говорит инструкции для нейросети. У тебя в кобольде есть что-то похожее? Вот тебе это надо править.
Аноним 19/01/24 Птн 12:01:12 #22 №616414 
>>616411
>Нужно прописать промт, что передается в этом эдвенчур моде?
>>616412
>вот это поле в хубабубе говорит инструкции для нейросети. У тебя в кобольде есть что-то похожее? Вот тебе это надо править.

вот в том и дело что в кобольде этот промпт скрыт. скорее всего, там абзац текста потипу как вот на скрине >>616412, но мне не удаётся нормально его оформить под адвенчурку.
Аноним 19/01/24 Птн 12:04:52 #23 №616416 
>>616393
>Ребят, скажите, на русском какая-нибудь из моделей норм говорит?
я ещё не встречал.
Все говорят "ебал её рука", если пытаешсья на русском с ними.
Я правда не искал специально русскоязычные.
Аноним 19/01/24 Птн 12:06:38 #24 №616418 
Так, поотвечал, таперича мысли. Может кто подаст годную идею.

Есть xttsv2, занимает 4,5 гига.
Есть Animaze, занимает 1 гиг.
В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое.
И нужна модель, которая бы отвечала за вменяемое время.
Варианта вижу три:
1. Переводить гуглом, генерить моделькой на инглише, переводить гуглом обратно.
Минус — на стриме любят задавать каверзные вопросы.
2. Переводить локальной моделью (ALMA?), генерить другой моделькой на инглише, переводить обратно.
Минус — дольше за счет двух переводов, хз где и на чем гонять вторую модель.
3. Генерить сразу на русском. Получается криво, зато скорость не страдает, все локально, прямо, туды-сюды, контекст не ломается при переводах.

Из железа:
4070ti 12G
1630 4G =)
P104-100 8G
И идет P40 24G (одна штука).

Сейчас я на P104-100 держу Mistral Q8, которая кое-как умеет в русских, а иногда прям хорошо.
А на 4070ti держу xttsv2 и Animaze.

Проблема в скорости. xttsv2 генерит в среднем 2-3 секунды. Плюс Mistral отвечает 2 секунды (20 токенов/сек, контекст — одно сообщение).
Итого 5 секунд тратится только на генерацию. А еще передачи запросов, и вот 7-8 секунд мы получаем.

Долговатая реакция. Учитывая задержку стримов, выходит и вовсе 10-15.

В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора (но без ответов от нее тоже такое себе, да и с промптом придется поебаться). Проблема в том, что P40 умеет только в выгрузку GGUF, а значит скорости в 40 токенов нам недоступны. С контекстом на 34b вроде выходит 6-8 токенов. Что увеличит время ответа втрое? Будет 6 секунд.
С другой стороны, +4 сек — это суммарно 25%-50%, не сильно критично, но уже неприятно.

С другой стороны, можно выгрузить сразу две модели (можно же?), Mistral и ALMA в три захода будут где-то по 3-4 + 3-4 + 2 секунды писать, то есть те же 4 сек получу. Но, возможно, качество русского будет лучше.

Хотелось бы иметь Tesla A80 для запуска квантованной Микстрали или 70b, ну или хотя бы парочку RTX 4090, но чего нет — того нет. =(

Даст ли 3090 бушная буст относительно P40 на 34b сетке? Будет ли там 12 токенов с контекстом? Будет ли там 20 токенов без контекста?

Эх, шо поробышь, шо поробышь…
Аноним 19/01/24 Птн 12:06:56 #25 №616420 
>>616393
>Yi сколько влазит, в каком кванте?
Я это юзал. Каждая карта 24 гб.
https://huggingface.co/TheBloke/yi-34B-v3-GGUF/tree/main
Аноним 19/01/24 Птн 12:12:51 #26 №616423 
>>616414
> вот в том и дело что в кобольде этот промпт скрыт
Он опенсорс, все можно найти, но скорее всего отдельно описан. Если сам не сможешь - тогда подожди пока кто-нибудь раскурит и надейся что не забудется
>>616418
> Даст ли 3090 бушная буст относительно P40 на 34b сетке?
Даст офк, раза в 3 примерно. Ты скажи какой квант потестить, на обрезанном по тдп ампере потом могу прогнать.
Аноним 19/01/24 Птн 12:17:40 #27 №616428 
>>616423
Максимальный q4_K_M, если я не ошибаюсь.
Любую, какая есть, буду рад. =)
Без контекста и с контекстом на 2000-3000 токенов (если там влезет, вроде должно).

>>616420
Пасиб!
Аноним 19/01/24 Птн 12:20:09 #28 №616430 
>>616428
> Максимальный q4_K_M, если я не ошибаюсь.
Вообще там самый жирный gptq вмещается с [x]k контекста, кощунство использовать жору когда есть бывшая. Ну вечером уже или завтра, заодно можно попробовать сравнить потребление врам.
Аноним 19/01/24 Птн 12:34:52 #29 №616446 
>>616391
>Можно конечно и без контекста загрузить менее квантованную модель, но какой в этом смысл
Смысл в том, что если видеопамяти хотя бы немного не хватает, то тест уже никуда не годится. Нужно, чтобы модель и контекст влазили полностью. Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было. Попробуй.

Ещё здесь говорили, что под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой.
Аноним 19/01/24 Птн 12:49:53 #30 №616466 
>>616430
Блин, точно, на ней же экса заведется! Я дурак, каюсь, тыкай ее. =)

Можно еще ее https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2 попробовать, должна влезть с небольшим контекстом.
Аноним 19/01/24 Птн 12:53:18 #31 №616468 
>>616466
>https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2
Ебать мерж, буквально из всего. И как, норм?
Аноним 19/01/24 Птн 12:58:33 #32 №616476 
>>616468
Пока качаю, но мне важна в данном случае битность и скорость.
А там уж выберу подходящий мердж и попробую сам квантануть.

———

Кстати, кто подскажет, как там легко квантовать Exl2 модели? Помню, писали, но потерял.
Аноним 19/01/24 Птн 13:00:41 #33 №616483 
>>616446
>под Линуксом с работой на нескольких ГПУ похуже, чем под Виндой.
пиздёж. Виндобляди не знают даже как посмотреть у себя в системе открытые порты, глупо было бы рассчитывать что они что-то компетентно могут сказать про скорость работы нейросети.
Аноним 19/01/24 Птн 13:02:54 #34 №616486 
1.png
2.png
>>616418
>3. Генерить сразу на русском.
>Получается криво, зато скорость не страдает
Скорость страдает, токенов\с столько же, но сами токены это слоги, а не слова, как на английском. Потенциально меньше текста и, очевидно, сама скорость на слово ниже. Вот у меня на пике текст\перевод, на русском 34 токена, на английском 26. И, т.к больше токенов - это больше жрёт контекст. Лично у меня с ростом контекста скорость генерации падает в пизду, даже при учёте того, что это всё ещё помещается в память.
>Учитывая задержку стримов, выходит и вовсе 10-15
Ты, чтоли, вчера стрим скидывал? У тебя что-то сильно неправильно работает. Прям охуеть, как сильно.
Аноним 19/01/24 Птн 13:16:15 #35 №616509 
>>616486
>I'm fucked up
лол, рекурсивненько
Аноним 19/01/24 Птн 13:18:40 #36 №616515 
>>616509
Гугол транслейт. Потому и не хочу гонять переводы, лучше буду заталкивать модели в анус шизу сразу на русском. Ещё бы лоры быстрее тренировались.
Прости, кожаный, у меня нет денег на шкаф видимокарт.
Аноним 19/01/24 Птн 13:37:16 #37 №616556 
image.png
>>616414
В консоли посмотри, весь промпт пишется в параметре "prompt". Я запустил на каком-то пресете с галочкой эдвенче мод - там совсем простецкая инструкция, и нет никакого форматирования толком. Вот она со скриншота: [Interactive Fiction: Game Mode Enabled]\n[You are playing a choose-your-own-adventure game. Please input action.]\n\n\n> Look\n\nYou look around, observing yourself and your surroundings. Всё, что ниже, это я пытался пару обычных реплик написать в story режиме и пару действий в action режиме. Все реплики и действия чередуются через две пустые строки, перед действиями автоматом пишется префил в виде >. Думаю, что в таверне это можно даже более адекватно сделать, дав больше примеров действий и ответов на них и расширив систем промпт. Единственное, что нельзя будет выбирать между story/action, но уж значок > можешь и сам писать.
Аноним 19/01/24 Птн 13:46:36 #38 №616579 
>>616483
Чел, не гори. В обоих ОС юзери тупо гуглят, как что делать, и то, что ты заучил ss -tupl не делает тебя лучше.
>>616515
>Потому и не хочу гонять переводы
Гоняй на инглише сразу.
Аноним 19/01/24 Птн 13:48:56 #39 №616592 
>>616556
>>616414
Алсо добавлю, что на чабе полно рпг/сторителлинг карточек, вроде вот такой https://chub.ai/characters/SpringyTwist/text-adventure. Полноценно с соблюдением всех инструкций, может, и не будет работать, но на каком-то уровне вести игру-приключение должно. Систем промпт в данном случае мб даже пустой лучше оставить, потому что инструкция в карточке написана.
Аноним 19/01/24 Птн 13:49:03 #40 №616594 
>>616579
я просто отметил, что виндобляди не считаются компетентными хоть в чем-нибудь.
Аноним 19/01/24 Птн 13:50:13 #41 №616598 
>>616592
Блин, точка к ссылке приклеилась. Продублирую для удобства. https://chub.ai/characters/SpringyTwist/text-adventure
Аноним 19/01/24 Птн 13:54:14 #42 №616613 
>>616594
Ты просто пёрнул в лужу.
Аноним 19/01/24 Птн 13:56:51 #43 №616626 
>>616613
почему тебе неприятна правда, виндоблядь?
Аноним 19/01/24 Птн 14:10:45 #44 №616679 
1.png
>>616579
>Гоняй на инглише сразу.
Не хотет. Прикручиваю спич ту текст, на английском пиздеть вообще не варик. Походу, на каких-то стримерах обучалось, просит подписаться, хотя я тупо нос почесал. Ещё и цензурит местами, но очень выборочно.
Аноним 19/01/24 Птн 14:35:33 #45 №616773 
>>616556
>>616592
спасибо тебе большое, анон! буду пробовать.
Аноним 19/01/24 Птн 15:16:16 #46 №616933 
>>616396
Ты точно не настраивал rope, а просто увеличил контекст. Поэтому когда модель выходит за свой размер контекста или даже приближается к нему, у нее падает качество ответов и они становятся все короче.
Настраивай параметр rope вместо 10000 ставь либо рекомендованное значение для сетки которую ты скачал, либо наугад ставь хотя бы 20к-30к при удвоении контекста, 40к-50к при 4х.
Аноним 19/01/24 Птн 15:29:56 #47 №616958 
>>616626
Потому что это не правда, илитарий мамкин.
>>616679
>Не хотет.
А придётся. Все другие варианты это просадка в качестве ответов.
Аноним 19/01/24 Птн 16:06:49 #48 №617048 
Screenshot20240119160631.png
>>616958
Аноним 19/01/24 Птн 16:26:02 #49 №617080 
>>616958
>А придётся. Все другие варианты это просадка в качестве ответов.
Я больше скажу - Гугл-перевод вообще лучший вариант. Язык моделей довольно суконный, и они ждут от пользователя примерно того же. Перевод от Гугла идеально подходит - просто нужно понимать его особенности. Я пробовал прикрутить перевод от Дипла в обе стороны, так результат был хуже.
Аноним 19/01/24 Птн 17:22:17 #50 №617185 
https://huggingface.co/Sao10K/Frostwind-10.7B-v2-Instruct-Uncensored-GGUF
Аноним 19/01/24 Птн 17:24:20 #51 №617187 
>>616418
> Есть xttsv2, занимает 4,5 гига.
> Есть Animaze, занимает 1 гиг.
> В перспектике будет Whisper и какой-нибудь PyTorch, OpenCV и всякое.
Это все на другую видюху или вообще на отдельную пекарню раз некрожелеза хватает.
> Проблема в скорости
Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7.
> В перспективе бы увеличить контекст, чтобы моделька помнила последние 10 сообщений + последние 10-20 сообщений автора
Обязательно, но так чтобы это не сильно внимание смещало и она больше понимала общую атмосферу разговора, а не упарывалась в детали. Можно оборачивая правильно в промт организовать. А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа, а остальное что дальше - суммарайз. Только аккуратно сделать чтобы относительное положение во времени не уплывало и не ломалось.
> Но, возможно, качество русского будет лучше.
Не только качество лучше, но и гораздо меньше тупняка.
Вообще, сколько там врам нужно для нормального файнтюна хотябы лорой, но без квантов? Использовать датасет из того проекта финов, добавить чатов стримеров и хотябы для мистраля запилить попробовать.
>616446
> Чувак с Реддита писал про 9 с лишним токенов в секунду на 5K_M - у него правда 4 P40 было
Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть.
>>616483
Хуя триггернулся
Аноним 19/01/24 Птн 17:27:46 #52 №617193 
>>616933
слушай, а как работает Rope scale и rope lenght? в чем разница и что крутить?
Аноним 19/01/24 Птн 17:30:26 #53 №617199 
image.png
>>617187
>Или есть возможность под них соптимизировать.
Именно, там еще в первых постах писали на реддите что нужны какие то оптимизации при сборке llama.cpp на линуксе
Какие именно - го ту реддит искать по темам с p40

>>617193
А где там по дефолту у тебя 10000 стоит? Я если что про кобальд и лламаспп говорил, там есть эти параметры
Аноним 19/01/24 Птн 17:32:40 #54 №617206 
>>617193
https://github.com/LostRuins/koboldcpp/wiki#what-is-rope-config-what-is-ntk-aware-scaling--what-values-to-use-for-rope-config
Аноним 19/01/24 Птн 17:43:55 #55 №617252 
>>617048
> робот, ну скажи им!!!
Обосрался, спасибо.
Аноним 19/01/24 Птн 17:44:51 #56 №617256 
>>616466
> Можно еще ее https://huggingface.co/LoneStriker/Yi-34B-200K-DARE-megamerge-v8-5.0bpw-h6-exl2
На шинде с адой в 24 гига влезает ~3-4к контекста (офк чтобы был запас)
> Output generated in 9.36 seconds (31.95 tokens/s, 299 tokens, context 2663, seed 510213228)
> Output generated in 9.69 seconds (30.85 tokens/s, 299 tokens, context 2663, seed 1910527247)
> Output generated in 8.91 seconds (33.56 tokens/s, 299 tokens, context 2663, seed 938647000)
На прыщах с ампером 6-7к
> Output generated in 16.91 seconds (17.68 tokens/s, 299 tokens, context 5216, seed 1217045473)
> Output generated in 12.18 seconds (24.05 tokens/s, 293 tokens, context 5216, seed 1675320773)
> Output generated in 12.53 seconds (23.87 tokens/s, 299 tokens, context 5216, seed 1709675759)
На 3090 будет чуточку быстрее
Аноним 19/01/24 Птн 18:06:00 #57 №617317 
>>617187
>Попахивает пиздежом, реально. Или есть возможность под них соптимизировать. Ускорение от добавления карточек в llamacpp не должно быть.
Вот ещё один, 3 P40:
https://www.reddit.com/r/LocalLLaMA/comments/17zpr2o/nvidia_tesla_p40_performs_amazingly_well_for/
Цитата: "Я ни разу не разочаровался! Здесь у меня есть скриншот с его запуском Goliath 120b Q4KS, который в основном выжимал максимум из видеопамяти. Он работает со скоростью 3-4 т/с с некоторым загруженным контекстом. Он определенно замедлится с увеличением контекста, но для того, сколько стоят эти карты, я думаю, что это очень хорошая производительность!"
Здесь же в тредах мы видим очень скромные результаты. Разница на первый взгляд только в том, что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому. Так же по ссылке явно на Винде запускали. Разобраться бы надо.
Аноним 19/01/24 Птн 18:40:23 #58 №617390 
>>617199
>>617206
пасибки, вообще по всему гайду пробегусь
Аноним 19/01/24 Птн 18:42:27 #59 №617402 
https://www.reddit.com/r/LocalLLaMA/comments/19a7vc2/finetune_387_faster_tinyllama_600_faster_gguf/
Кто там с сетками хотел баловаться? Вот какой то опенсорс проект ускоритель файнтюна с меньшим использованием памяти.
Я не в теме, но выглядит отлично
Аноним 19/01/24 Птн 18:45:34 #60 №617418 
https://www.reddit.com/r/LocalLLaMA/comments/19a1scy/wavecoderultra67b_claims_to_be_the_2nd_best_model/
Новая сетка для погромистов, топчик по их тестам.
Аноним 19/01/24 Птн 18:48:58 #61 №617425 
>>617418
Уже даже на чреддите обоссали.
Классика пиздаболии.
Аноним 19/01/24 Птн 18:53:26 #62 №617435 
>>617425
Но метод обучения в комментах описан интересным. Конечно 7b соснет в качестве генерации, так как не сможет большие тексты вниманием держать или соблюдать одновременно много инструкций. Я просто думаю это тестовый запуск, после которого будет обучена сетка по больше, хотя бы та же 34b
Хотя на коротких примерах до 2к-4к 7b может быть на ровне с большими сетками, если хорошо надрочена на отличных примерах. Поэтому не уверен что это полный пиздеж, комментаторы как всегда играют в пророков еще не щупав результат
Аноним 19/01/24 Птн 19:15:00 #63 №617470 
>>617317
эти чуваки с реддитов вечно нихуя нормально показать не могут. Как они там запускают, с какими параметрами, какие версии, на каком железе - нихуя вообще не показывают.
Только скрины своих виндовых окошек постят.
Виндобляди ас из как говорится.
Пользы от таких постов как с козла молока.
Аноним 19/01/24 Птн 19:30:43 #64 №617511 
>>617470
Так сделой и покажи сам.
В чем проблема?
Аноним 19/01/24 Птн 19:32:58 #65 №617523 
>>617199
>>617317
> Какие именно - го ту реддит искать по темам с p40
Любопытство сильно, но оно - единственный мотиватор, наверно, пусть владельцы ищут.
> что у тех чуваков с Реддита количество линий PCIe максимально или близко к этому
Почему тогда у анона с x4 2.0 почти нет разницы при делении сетки на две карты? Да и перфоманс излишне высокий если сравнивать с тем что на 3к/4к серии, если скейлить результаты с exllama то получится 7-11 токенов при том что там перфоманс выше более чем в 3 раза даже без оптимизаций на малую битность.
Возможно там есть какая-то оптимизация, что может быть применена ко всем, но вероятность мала.
Аноним 19/01/24 Птн 19:47:24 #66 №617558 
>>617523
>у анона с x4 2.0 почти нет разницы
я тут.
Я когда ёбся с попытками оптимизации
https://github.com/ggerganov/llama.cpp/pull/4233
я не совсем llama.cpp пересобирал.
Я пересобирал python-llama-cpp который потом подсовывал жоре.
Может быть это послужило причиной, хотя не должно было.
А еше можно проверить откатившись на старый коммит
https://www.reddit.com/r/LocalLLaMA/comments/17xcn5d/psa_if_you_have_telsa_p40_which_has_abysmal_fp16/
Аноним 19/01/24 Птн 19:53:58 #67 №617588 
Screenshot20240119195314.png
>>617252
>робот
все еще умнее среднестатистического мышевоза
Аноним 19/01/24 Птн 20:00:31 #68 №617607 
>>616958
>это просадка в качестве ответов.
А меня на самом деле устраивает качество ответов. Меня не устраивает пара моментов. Иногда сетка может ебануться и ответить мне моим же постом или крутить один и тот же пост несколько раз подряд. Или просишь рассказать о котах, а потом о собаках. Он берёт пост о котах и меняет котов на собак. И всё, буквально ничего другого не меняется. По идее, нужно отхуяривать контекст, или я хуй знает. Ставил цфг выше, температуру выше, на выхлопе шиза.
Легче всего с коверканием слов, здесь можно прикрутить простой скрипт со словарём, который это всё пофиксит за наносекунду.
Потыкал палкой виспер, ебать же шизоидальный бред получается. Пиздос. Никуда не годится. Причём если налету переводить в английский, то предложения получаются осмысленные, но, сука, абсолютно не с тем смыслом.
Аноним 19/01/24 Птн 20:15:40 #69 №617665 
я кстати только что обновил хубабубу до мастера и у меня средний т/с вырос с 16 до 20 на openchat 3.5-0106-f16.gguf
тот у кого 2 p40
Аноним 19/01/24 Птн 20:34:19 #70 №617727 
>>617558
>А еше можно проверить откатившись на старый коммит
проверил, это не дает эффекта
Аноним 19/01/24 Птн 20:37:12 #71 №617741 
>>617435
Чел. Таких тейков про 7б говно наравне с гпт4 было уже воз и маленькая тележка. По итогу что?
Магии не бывает. Деда мороза нет.
Аноним 19/01/24 Птн 20:48:17 #72 №617781 
>>617741
>про 7б говно наравне с гпт4
Так ведь говорится про узкую задачу, к тому же непонятно как были сделаны тесты. Что там в реальном использовании уже другой вопрос
Аноним 19/01/24 Птн 21:20:48 #73 №617901 
>>617741
> Магии не бывает.
ЖПТ4 Турба уже крошечная по размерам. Было бы что обгонять. Она внезапно неплохо просела по некоторым тестам в ноябре по сравнению с мартом без турбы.
Аноним 19/01/24 Птн 21:31:37 #74 №617951 
И что блять, за 3 года никто так и не сделал норм модель для аи данжона без цензуры? Что никто не может себе купить блядские 360гб врама что ли и запилить сервис? Нахуй вы тогда нужны тогда с говниной 7бшной. Давно уже железо позволяет и текст и картинки генерить рилтайм, что бы создать волшебный самый сладкий кумерский фентези, нет блядь, будем микстрали дрочить однотипными вопросами. Хуета ваш локал ларж лангуаге моделс
Аноним 19/01/24 Птн 21:38:06 #75 №617982 
>>616486
Дак мы тока настраиваем. API ебучее, хрен проссышь, че и как передавать.

Но опять же, представь 34 и 26 против 34 и 34 но постоянный перевод туда-сюда.

>>617187
> Лучше адеквантный и хороший ответ через 20-30 секунд чем вываливающиеся потроха кривого промта и шиза за 7.
Это пофиксил немного.

> А историю сообщений юзеров так вообще динамической подгрузкой с учетом ответа
Да, буквально — сохранять в базу, выбирать 10 последних, пихать в историю, оформлять промпт «я помню, что раньше он писал…»
А далее — текущий контекст чата.

>>617256
Ух, бодро! Спасибо!

>>617901
Да.


———

Сегодня смог запустить с миростатом, общаться стала гораздо адекватнее.
Ебучее API убабуги, хуй найдешь, документации нет, чувак из силлитаверны — гений, по-ходу, раз смог заставить это все работать.

Причем, так как фразы короткие, тау вогнал в 1, а эту в 0,9.
Почти всегда укладывается в 64 токена генерации, отвечает гораздо больше в тему, чем раньше.

В общем, доволен, почему раньше миростат не юзал! Аж интересно, как он себя ведет в больших текстах и в рабочих задачах.

Ну и я снова немножко побуду тварью и кину ссылочки.

https://goodgame.ru/neuroslava
https://twitch.tv/neuroslava
https://www.youtube.com/watch?v=8BcqlT_F5iI
Аноним 19/01/24 Птн 21:46:37 #76 №618020 
>>617982
>neuroslava

Она же у тебя как несла полную ахинею, так и несет.
Аноним 19/01/24 Птн 21:52:43 #77 №618035 
>>618020
Дабл.
Пофиксил.

Короче, в чем проблема.
При низком значении тау и высокой эта, она почему-то начинает сообщения с «А…»
Говорит адекватно (напоминаю — ей надо уместить в 64 токена, а не решать уравнения), но постоянное «А».
Фиг знает, как это побороть.

Если кто знает, как фиксится стартовый токен — буду рад услышать.
Аноним 19/01/24 Птн 22:10:21 #78 №618082 
>>617982
> Это пофиксил немного.
По видео не заметно. А еще она вообще молчаливой стала, куда не скрольнешь - тишина и унынье, зато шевелится.
> оформлять промпт «я помню, что раньше он писал…»
Хз, формулировка не самая удачная. Суммарайз - полный чат, а сообщения юзера как можно раньше рядом с суммарайзом или их отдельный суммарайз, но это сильно затратно уже.
> Ебучее API убабуги, хуй найдешь, документации нет
Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там.
>>618035
> ей надо уместить в 64 токена
Это случаем в промт не пихнул?
> как фиксится стартовый токен
Тут бы причину лечить а не симптом, нужно стукнуть чтобы не лупилась. А так отдельный запрос на первый токен с баном А делаешь а потом на остальное, по скорости разницы почти не будет.
Аноним 19/01/24 Птн 22:19:33 #79 №618108 
Я недавно спрашивал в тредисе, действительно ли кустарные 20в умнее 13в.

Оказалось что действительно умнее, но как же они долго обрабатывают контекст сука... За что.
13в залезают мне в 12гб врама целиком, но за ближайший апгрейд до 16гб надо заплатить в два раза дороже, молчу уже про 24гб......
Аноним 19/01/24 Птн 22:32:42 #80 №618136 
>>618082
> Всмысле нет, основное в доках, параметры и функции в typing.py, все достаточно интуитивно там.
Хз, я гит пролистал, ниче там не нашел.
Можешь ткнуть носом?

> Это случаем в промт не пихнул?
Нет, это max_tokens =)

> А так отдельный запрос на первый токен с баном А
Научишь? Че-т туплю.
Аноним 19/01/24 Птн 22:33:09 #81 №618139 
>>618108
Ну, P40 ждет тебя за копейки, тащемта.
Аноним 19/01/24 Птн 22:35:54 #82 №618152 
>>617951
>СДЕЛОЙТЕ МНЕ!!!!
Аноним 19/01/24 Птн 22:38:46 #83 №618159 
>>618139
ты не понял. Он хочет h100 по цене зеона с алика
Аноним 19/01/24 Птн 22:39:16 #84 №618161 
>>617982
>API ебучее, хрен проссышь, че и как передавать.
Ты шутишь?
https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API
Там буквально обосcаный жсон, ничего легче быть не может. Как раз пилю себе приложение, которое будет связывать угабугу и STT, но, блядь, какая же это залупа. Нужно или тренировать на свой голос, или просто нахуй пойти.
>постоянный перевод туда-сюда.
Потому я и не хочу гонять переводы. Но здесь дело не только в том, что 34 против 26, у этой херни кумулятивный эффект, ты в итоге получаешь 3400 контекста вместо 2600. А это уже играет роль.
Аноним 19/01/24 Птн 22:41:10 #85 №618169 
>>618108
Есть вариант второй 12гб и будет 24, но нюансы тяжеловаты.
>>618136
> Можешь ткнуть носом?
https://github.com/oobabooga/text-generation-webui/blob/main/docs/12%20-%20OpenAI%20API.md
> Научишь? Че-т туплю.
Дорого обучение обойдется, custom_token_bans в запросе
Аноним 19/01/24 Птн 22:44:33 #86 №618177 
>>618139
Изучу, спасибо.

>>618169
>Есть вариант второй 12гб и будет 24, но нюансы тяжеловаты.
Она мне даже в корпус не залезет скорее всего...

>>618159
>Он
Твой голос в голове? Хуёво тебе че.
Аноним 19/01/24 Птн 22:53:02 #87 №618191 
Screenshot20240119225117.png
out.webm
>>618161
>Нужно или тренировать на свой голос, или просто нахуй пойти.
#mv /dev/ass/hands /dev/shoulders/
Аноним 19/01/24 Птн 23:42:33 #88 №618417 
>>618191
Бля, ну твой текст про супчик и у меня опознаётся. Но это смешно просто.
>OpenAI — американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта.
Зачитываем, смотрим варианты.
>ОПН-А-И
>опын аэй-американская научность
>ОПН-АЙ - американская научнаяся исследовательская организация занимающая разработками власти.
>ОПН-АЙ, американская научнаяся исследовательская организация занимающая разработками власти искусственной
Интеллекта оно не услышало, так что я повторил
>и с гостиной Вентилек.
>из гостинного интеллекта.
Зачитывал посты из треда, художку, новости, ни одного предложения полностью корректно не опозналось. Включал диктора с ютуба, тот пиздит слишком быстро, 90% текста отваливается, оставшееся опознаётся неправильно. Плюс эта хуита крайне нервно реагирует на шум, но тут уже хуй с ней, всё равно требуется понимать только голос, зачитанный в полной тишине. Но этого нет. Всё это, как водится, рилтайм, вангую, что с обработкой записей будет лучше, но вряд ли намного.
Аноним 19/01/24 Птн 23:53:19 #89 №618462 
Screenshot20240119235138.png
out.webm
>>618417
ну хз.... есть конечно пара мест где она ошиблась, но мне кажется, что нейросеть должна проглотить такие огрехи и не заметить, потому что тупо токены похожи друг на друга.
Аноним 19/01/24 Птн 23:53:42 #90 №618463 
>>618417
Там вроде сетки разного размера, ты может с тини сидишь? скачай побольше
Аноним 20/01/24 Суб 00:33:50 #91 №618571 
1705700028004.png
Чота ваш микстрал 7х8 грубый какой-то прям...
Аноним 20/01/24 Суб 00:42:34 #92 №618591 
>>618159
Так все хотят…

>>618161
Где там по твоей ссылки стоп-слова? :) Я в нее раз пять смотрел.
В итоге в консоли силлитаверны все прочел.
Нихуя нет документации.
В документации нормальной перечислена каждая строка, каждое свойство, со всеми значениями.

Даже у силлитаверны ВНЕЗАПНО два свойства: "stopping_strings" и "stop". Хотя в ишьуах упомянуты "custom_stoppings_strings".

> 3400 контекста вместо 2600
Меня еще напрягает, что с большим контекстом падает скорость. Поэтому сильно раздувать тоже не хочется.

Короче, трудно быть бомжом, сплошные компромиссы.

>>618169
Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док.
Из него скрипт берешь, он работает, все изи, но на этом польза заканчивается. Все остальное — приходится пиздить из силли-таверны.

"mode": "chat",
"character": character,
"messages": message,
"max_new_tokens": 64,
"max_tokens": 64,
"temperature": 1,
"top_p": 1,
"typical_p": 1,
"min_p": 0,
"repetition_penalty": 1,
"frequency_penalty": 0,
"presence_penalty": 0,
"top_k": 0,
"min_length": 0,
"min_tokens": 0,
"num_beams": 1,
"length_penalty": 1,
"add_bos_token": True,
"ban_eos_token": False,
"skip_special_tokens": True,
"custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим
"dynamic_temperature": False, — по названию понял, что это.
"dynatemp_low": 0,
"dynatemp_high": 2,
"dynatemp_range": 0,
"stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да.
"stop": [ '\n', '(' ], — вот этого в гите убабуги ваще не нашел, но, по-ходу, как раз оно работает.
"truncation_length": 256,
"top_a": 0,
"tfs": 1,
"epsilon_cutoff": 0,
"eta_cutoff": 0,
"mirostat": 1,
"mirostat_mode": 1,
"mirostat_tau": 1,
"mirostat_eta": 0.9,
"rep_pen": 1,
"rep_pen_range": 0,
"repetition_penalty_range": 0,
"encoder_repetition_penalty": 1,
"no_repeat_ngram_size": 0,
"penalty_alpha": 0,
"temperature_last": True, — это-то что вообще такое? х)
"do_sample": True,
"guidance_scale": 1,
"negative_prompt": '',
"grammar_string": '',
"repeat_penalty": 1,
"tfs_z": 1,
"repeat_last_n": 0, — а это что?
"n_predict": 64, — хм, тоже не совсем ясно, но на всякий случай заменил.


Короче, у меня претензия не в том, что не ясно как писать. КАК писать ясно. А вот ЧТО писать — отсутствует начисто. Строки заявленные просто не работают. У Таверны какой-то свой тег вообще в виде «stop»-а. Может быть я просто избаловался за последние месяцы, и ожидал подробную документацию.

Ладно, сорян, что сгорел.

Пойду кастом бан токен пробовать на вкус.
Аноним 20/01/24 Суб 00:43:36 #93 №618592 
>>618571
Одним соевый, другим грубый… =)
Но, да, он не соевый, если задать ему грубое поведение — сдерживаться он не станет.
Еще и самовлюбленный бывает.
Аноним 20/01/24 Суб 00:46:26 #94 №618600 
>>618161
Кстати, слух, а разве там нет виспера?
Там же буквально везде он был полгода назад, и в убабуге, и в таверне?

Меня не устроило, что он не может прослушивать постоянно, или включаться сразу после ответа бота, приходилось заново кнопкой тыкать. Но вроде ж было везде.

А распознавание мне в свое время понравилось, качественненько.
Аноним 20/01/24 Суб 00:49:53 #95 №618607 
>>618591
> Тот же вопрос — где там стоп-слова? :) Нетути их там. Хуйня, а не док.
Бля ну ты совсем варебух?
> stop: str | List[str] | None = None
> А вот ЧТО писать — отсутствует начисто
> Строки заявленные просто не работают.
Работают, большую часть тестил, просто нужно понимать совместимость с лаунчерами и в общем то что ты делаешь. Тем более готовый пример таверны есть.
>>618592
> сдерживаться он не станет.
> Еще и самовлюбленный бывает.
Примеры есть?
Аноним 20/01/24 Суб 00:51:42 #96 №618614 
>>618592
>сдерживаться он не станет.
Чот да. Я вроде не задавал ему ничего, чистый пресет. Видимо карточка такая. По накатанной теперь уже вообще смерти желает, лол. Такое конечно в гпт4 не увидишь
Аноним 20/01/24 Суб 01:26:20 #97 №618728 
>>618161
>>618169
Спасибо, учитывая, что я делаю рандомного бота, просто вставлю в код custom_token_bans рандомное значение. То пустое, то нужный токен. Иногда пусть начинает фразы с «А», если ей очень хочется, а иногда будет норм генерить.
Идея с первым запросом норм, но лень реализовывать. А так — одна переменная с random.choices().
Аноним 20/01/24 Суб 01:31:59 #98 №618753 
>>618607
На стриме кто-то спросил «что лучше я или мешок картошки».
Я всхрюкнул с вопроса и стал использовать его в тестах. Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа. Или шутку про мешок, или няшность про себя.

Микстраль процентах в 90 отвечала «Лучшая здесь — я!»
Я прям спецом ее рероллил много раз.
Остальные модельки отвечали более ожидаемо. Кто-то больше токсил, кто-то чаще хвалил.

Забавное поведение, кмк.

> Бля ну ты совсем варебух?
У меня Ctrl+F по stop нихуя не находит, даже поиск по всей репе ниче не дает.
Странно, пиздец. Ну то хуй с ним, ладно уж.
Так или иначе, уже со всем разобрался, пасиба.
Аноним 20/01/24 Суб 01:34:50 #99 №618764 
>>618462
>Окее давай попробуем что-нибудь посложнее и нескольких предложений. Наш горький дух и память на стамид. Наш горький дух первый раз и стимы как травы. В нём время спитках не драх дирамит. На непорфирнем раморт не границ. Не создают незыбленные правы.
Хуй знает. Всё очень плохо. Потом посмотрю, какие настройки покрутить, но пока что впечатление крайне хуёвое. Параллельно есть модель на 44 мегабайта, которая понимает мою речь вполне приемлемо, но требует хорошей дикции. Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ]. Охуеть вообще.

>>618463
На базовой, она побольше. И есть ещё трёхгиговый "файнтюн", уже не помню, где нашёл.

>>618591
>Где там по твоей ссылки стоп-слова?
Передай просто stop. Строка или массив.
>В документации нормальной перечислена каждая строка
Да ты охуел.
>"custom_token_bans": '', — окей, вот сюда токен номер «а» поместить, допустим
>"stopping_strings": [ '\n', '(' ], — непонятно, работает ли это, скорее нет, чем да.
Не должно работать.

>а разве там нет виспера?
Есть, но хули толку.
https://github.com/oobabooga/text-generation-webui/issues/5259
У меня вот этот баг, разбираться в причинах нахуй надо. Что работает через командную строку, то работает, а что нет, то и хуй с ним.
Аноним 20/01/24 Суб 01:35:55 #100 №618767 
image.png
>>618753
Получай!
Аноним 20/01/24 Суб 01:59:12 #101 №618840 
1663917032595.png
>>618753
> Логично, что от стримерши ждешь плюс-минус в равной вероятности оба ответа.
Ожидаешь токсичное нейронное и забавное.
> «Лучшая здесь — я!»
Хороший вариант.
> У меня Ctrl+F по stop нихуя не находит
Пикрел
Аноним 20/01/24 Суб 02:04:19 #102 №618855 
блять, у меня силлитаверн забывает события произошедшие пару скроллов назад. как сгенерировать стори, потипу как в кобольде?
Аноним 20/01/24 Суб 03:26:34 #103 №619024 
https://www.reddit.com/r/LocalLLaMA/comments/19aj9g7/i_made_a_custom_aipowered_error_message_for_bash/
Бля, клевая идея, да и в комменте про shellgpt такой себе ии помощник описан
Жаль только линукс обычно на что то слабое ставится, занимать кучу рам да и грузить процессор, или ставить серверу видеокарту, ну такое. Хотч может там и 1b хватит.
Аноним 20/01/24 Суб 03:29:10 #104 №619030 
>>619024
>Жаль только линукс обычно на что то слабое ставится
ты охуел?
Аноним 20/01/24 Суб 03:32:20 #105 №619036 
>>619030
Да всё, не трясись, красноглазик. Чего-то в последнее время совсем разбушевались тут.
Аноним 20/01/24 Суб 03:32:41 #106 №619038 
>>618767
Ахахах, обыграл и уничтожил! =D

>>619024
А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился.
Не думаю, что она сможет генерить настолько живые и адекватные тексты, но что-то простое — хз, мб.
Аноним 20/01/24 Суб 03:37:40 #107 №619051 
>>619030
Ну дома обычно это медиасервер или файлопомойка или еще что, конечно дома и мощные серверы могут быть, че нет то, но мне кажется реже
Про корпоративное я и не говорю, там все на нем
Аноним 20/01/24 Суб 03:43:01 #108 №619064 
>>619038
>А че там, TinyLlama вообще живая? А то я ее так и не попробовал, на Ракете остановился.
Да, ее дотренили, работает. Если нужен какой то совсем простой помощник может даже ее хватит, конечно на сложных инструкциях она будет сосать, но кое как отвечать. Надо будет попробовать если не забуду. Ракета тоже норм вариант как и другие 3b.
Ну или какую нибудь майнерскую карту купить рубля за 4 ибудет локальный 7b.
Аноним 20/01/24 Суб 04:07:38 #109 №619094 
изображение.png
>>617080
Лучший вариант это вручную доводить переводы по смыслу. Любая автоматика проёбывает вложенные в текст смыслы.
>>617951
Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша.
>>617982
Портифьич обзавидовался бы.
>>618591
>Пойду кастом бан токен пробовать на вкус.
Он же совсем забанит. Тебе бы биас настроить, в кобольдцп недавно появился, он ближе по смыслу.
>>618764
>Зато не генерирует мусор, как виспер. Типа [МУЗЫКА] или [АВТОР СУБТИТРОВ].
ЕМНИП это настраивается.
>>618855
В консоль, смотри что отсылается.
Аноним 20/01/24 Суб 04:09:18 #110 №619096 
>>619064
Ну я-то как раз с P104-100 и сижу. =)
q6 с контекстом, да.
Просто интересно, последить за развитием.
Вон, нашел TinyMixtral-32х248M, псевдо-МоЕ из 32 Tiny Mistral, кек.
Ща попинаю все это дело.
Аноним 20/01/24 Суб 04:18:33 #111 №619110 
>>619096
>Ну я-то как раз с P104-100 и сижу. =)
че по скоростям хоть?
Аноним 20/01/24 Суб 04:40:47 #112 №619126 
>>619024
> Жаль только линукс обычно на что то слабое ставится
Хуясе ебать
>>617951
> Что никто не может себе купить блядские 360гб врама что ли и запилить сервис?
Задонать и запилю
>>619094
> Тебе бы биас настроить
Ему же нужно просто чтобы не начинало, так можно напрямую забанить при запросе первого токена, а дальше коплишн обычный. Что байас, что бан если его делать на весь запрос - все распидарасят пиздец.
Аноним 20/01/24 Суб 08:07:51 #113 №619193 
image
Почему в шапке нет связки ollama и chatbox? Без пердолинга все накатывается одним скриптом, скачиваются любые модели и запускаются локально. Зачем вы пердолите какие-то кобальты/хуебальты/таверны? Я что-то упустил?
Аноним 20/01/24 Суб 08:13:13 #114 №619199 
>>619193
> какой-то пердольный кал без функционала
> Я что-то упустил?
Да.
Аноним 20/01/24 Суб 08:21:33 #115 №619205 
>>619193
Что хорошего в олламе и что такого есть в чатбоксе, чего нет в таверне?
Аноним 20/01/24 Суб 08:40:42 #116 №619215 
>>619199
> пердольный
Накатывается одной командой, в отличие от кобальта и таверны.

> без функционала
Ты сказал?

>>619205
Накатывается одной командой, без пердолинга. Нет кумерской ролевой тематики. Работает вне браузера.
Аноним 20/01/24 Суб 09:02:07 #117 №619227 
>>619193
Не вижу где сообщения редактировать
Аноним 20/01/24 Суб 09:26:58 #118 №619239 
>>619227
Есть всплывающее меню при наводке на сообщение.
Аноним 20/01/24 Суб 10:24:53 #119 №619264 
>>619193
Карточки можно импортить с чуба? Вот и всё.
Аноним 20/01/24 Суб 11:07:08 #120 №619285 
>>619193
Вижу функционал уровня скрипта-примера в консоли и аналогичное удобство.
> пердолите
git clone @ start.bat
Ахуеть пердолинг запредельного уровня
> любые модели
Всратейшие кванты того что ленивый автор соизволил добавить? Основано, конечно же, на старой версии llamacpp?

То что до функционала таверны этой хуйне как раком до Китая и так очевидно.
Аноним 20/01/24 Суб 12:42:17 #121 №619394 
5.png
>>619094
>ЕМНИП это настраивается.
В оболочке давится, скорее скорее, а у меня её и нет, рав оутпут. Но я, видимо, инпут где-то запорол, что оно не понимает нихуя. Надо будет ещё посмотреть, может, пофиксить можно.

Смотрю на ответы убабуги по api и, вроде, и по-другому нельзя. А всё равно как-то мерзко, блядь. Это один ответ, есличё. Олсо, что получается, контекст хранится в виде сырых сообщений во фронте, а я думал, что там уже затокенизировано всё в бэке. Как-то неоптимально. Хотя, если расчёт на использование одной сетки множеством пользователей, имеет смысл.
Аноним 20/01/24 Суб 14:17:40 #122 №619487 
>>619094
Ну я сделал, что в 33% банится, а 66% не банится.
Это, по сути, просто большая буква А. Так что норм, жить можно.
Но гляну, спс.

>>619110
7b q8 — 20 т/сек.
q6 + контекст — 16 т/сек.
Такое ощущение, что контекст обрабатывается дольше слоев.
Но седня еще поиграюсь.

SD1.5 — 1.8 ит/сек на Эйлере.

>>619215
Ну да, кобольд же накатывается вообще без команд.
Аноним 20/01/24 Суб 14:58:58 #123 №619519 
>>619487
>7b q8 — 20 т/сек.
>q6 + контекст — 16 т/сек.
>Такое ощущение, что контекст обрабатывается дольше слоев.
>Но седня еще поиграюсь.
>
>SD1.5 — 1.8 ит/сек на Эйлере.
Дак exl2 попробуй в 5-6 бит, должно быть быстрее ггуф, и меньше места вроде как
4 бита и gptq не рекомендую, 7b тупая на них
Ну а для ггуфа можно и 5km, качество будет приемлемым, ниже уже да, фигня
Аноним 20/01/24 Суб 15:36:19 #124 №619581 
>>619519
Паскали не умеют нормально гонять экслламу.
Ггуф сильно быстрее.
Аноним 20/01/24 Суб 15:36:45 #125 №619582 
image.png
Осторожно кум.
Только вчера нашел этого чара и он мгновенно вошел в топ 3.
Справедливости ради половину текста на пике написал я, но модель бодро дописывает и подсказывает порою очень интересные вещи.
Короче как копилот для какого-нибудь фаншикшена вообще заебись. Хмммм.
Надо сказать что перса я немного подредачил и пик снят уже после неплохого диалога, в котором я дорисовал сеттинг. Если кто выразит интерес скину допиленного чара.
Модель норомейда 20б 5км
Чар MaidoDism
Аноним 20/01/24 Суб 17:30:10 #126 №619750 
>>619110
По совершенно необъяснимой причине, XTTSv2 на P104-100 отрабатывает быстрее, чем на 4070ti.
Фраза на 4070ti работает 1.76 сек самое быстрое, а на P104-100 — 1,75 первый трай и 1.56 самое быстрое.

Мне на руку, теперь поменяю местами генератор текста и речи, буду гонять exllama для текста и генератор на старушке серверной моей.
Вместо 256 контекста смогу добавить 4096, засунуть в память часть чата и старую писанину зрителей.

О — оптимизации.

Ситуационно считаю P104-100 самой выгодной покупкой. За 2,5к-5к 8 гигов и неплохая скорость — отличная покупка. Так-то даже дешевле P40.

Но для LLM слабое применение, конечно. И 175 ватт — тоже не копейки.

Хотя у меня она в простое 23° и не сильно греется, конечно.

Я к чему? Просто пизжу.
Брать не советую — старые майненные карты с малым объемом памяти. Но для некоторых задач — топ за свои деньги: 8 ГБ GDDR5X c 256-битной шиной — это вам не хухры-мухры.
Аноним 20/01/24 Суб 17:35:57 #127 №619762 
>>619487
> Такое ощущение, что контекст обрабатывается дольше слоев.
Для llamacpp это нормально, уже сранивали что скорость отличается на 1-2 порядка при полной выгрузке и на много-много при частичной.
>>616476
> ак там легко квантовать Exl2 модели? Помню, писали, но потерял
https://github.com/turboderp/exllamav2/blob/master/doc/convert.md
Если кратко - клонируешь рему экалламы2, активируешь вэнв убабуги (cmd_windows.bat), переходишь в папку с репой и там вызываешь convert.py с нужными параметрами.
Можно вообще сразу написать готовый батник
Измерение:
> set CUDA_VISIBLE_DEVICES=x (0 если одна гпу или вообще убрать строку)
> call F:\...\text-generation-webui\installer_files\conda\condabin\conda.bat activate "F:\...\text-generation-webui\installer_files\env"
> python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -nr -o F:\временная_папка_на_быстром_диске -om ./результат_оценки.json -c ./wikitext-test.parquet (или заменить на более полный)
Квантование:
> python ./exllamav2/convert.py -i K:\папка_с_fp16_моделью -o F:\временная_папка_на_быстром_диске -m ./результат_оценки.json -cf F:\папка_для_кванта -nr -c ./wikitext-test.parquet -b 6.1235346 (битность)

Измерение идет долго, квантование быстро, одно измерение универсально для всех квантов и с него можно делать любую битность. В обоих случаях файлы с весами должны быть .safetensor а не .bin, конвертируется вызовом скрипта
> python /путь до репы exllamav2/util/convert_safetensors.py *bin
из папки с моделью, .bin потом не забудь удалить, иначе они скопируются в папку с квантом
Аноним 20/01/24 Суб 17:58:43 #128 №619800 
>>619750
А, ну очевидно, почему медленнее, я дебил!
xttsv2 для куды 11.8, а я на 12.1 накатил, возможно под ним он просто работает медленней.
Ну не суть, это оффтопик, сорямба.
Аноним 20/01/24 Суб 17:59:49 #129 №619801 
>>619762
Мерси, добрый человек!
Аноним 20/01/24 Суб 18:06:44 #130 №619813 
image.png
Не знаю куда запостить, сорри.
Аноним 20/01/24 Суб 18:11:40 #131 №619818 
>>619813
макакам кинь в >>618889 (OP)
Аноним 20/01/24 Суб 18:40:20 #132 №619864 
>>619094
>Синтии 70B 1.5 по ощущениям уже с полгода, а она всё так же хороша.
На самом деле нет. То есть хороша, но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз. Есть дефект. Вот Dawn 70B реально хороша.
Аноним 20/01/24 Суб 18:52:58 #133 №619891 
>>619864
> но довольно быстро скатывается к предложениям из трёх коротких одинаковых по смыслу фраз
Что? Что ты с ней такое делаешь чтобы такой эффект произошел?
У нее другая беда, явный оверфит на ерп при некоторых взаимодействиях. В версии 1.5 по сравнению с 1.2 сильно лучше, но иногда встречается. Если ты и не против то это будет даже в плюс.
> Вот Dawn 70B реально хороша
Это шизомикс или полноценный файнтюн?
Аноним 20/01/24 Суб 19:56:35 #134 №619983 
Какую модельку для страстной ролеплейной ебли с фурри-фембоями лучше всего прикрутить к 64гб рам+старенькой 1080ti на 11гб vram?
Аноним 20/01/24 Суб 20:47:30 #135 №620030 
Динамическая температура в таверне нормально работает?
У меня после первого же регена любая модель начинает генерить одно и тоже сообщение, если включаю динамическую.
Аноним 20/01/24 Суб 21:02:44 #136 №620049 
А если всего 8гб оперативы и, прямо скажем, не первой свежести видяха, то можно даже не пытаться это всё запускать или есть шанс?
Аноним 20/01/24 Суб 21:04:36 #137 №620052 
>>619818
Вообще грустно это, в одном треде макаки, в "теоретическом" какие-то шизы срутся за аги. Какой-то конструктив есть только в этом треде.
Аноним 20/01/24 Суб 21:05:25 #138 №620053 
>>620049
Да, локально даже не пытайся. Для тебя есть коллаб.
Аноним 20/01/24 Суб 21:06:16 #139 №620054 
>>619264
Так это не для рп интерфейс.

>>619285
Так ты описание в репо прочитай и на веб-сайт зайди, а лучше не пизди и скачай.

> Всратейшие кванты того что ленивый автор соизволил добавить?
Можно любую GGUF модель импортировать, но из коробки самое сочное все и так есть.

> Основано, конечно же, на старой версии llamacpp?
Ну только разве что в твоем манямирке.

> То что до функционала таверны этой хуйне как раком до Китая и так очевидно.
Правда таверна это кал для рп и кумеров, нормальным людям она не подходит. Функционала там нет, только карточки.
Аноним 20/01/24 Суб 21:10:15 #140 №620056 
demo2.9df5a0e5a9f1d72715e0.gif
>>620054
Зачем ты форсишь какую-то хуергу, если "не для кума" уже сто лет как есть lmstudio?
Аноним 20/01/24 Суб 21:13:27 #141 №620062 
>>620054
Зачем предпринимать усилия если это заведомо мэх.
> любую GGUF модель
Бинго, а еще имплаит что не оно
> нормальным людям она не подходит
Мамкиным нитаким как все оно не подходит. Буквально попытка сделать что-то другое ради чего-то другого и прогулка по граблям. С word count обзмеился.
>>620056
> lmstudio
В ней хотябы пытались пили что-то новое и свое, но киллерфич кроме хлеб-френдли не особо.
Аноним 20/01/24 Суб 21:18:01 #142 №620067 
>>620030
там надо сид поставить -1
Аноним 20/01/24 Суб 21:18:44 #143 №620069 
>>620062
Ну челик пытается хуй пойми что форсить, при том что оно объективно сосет у лмстудио по его же пизданутым запросам
Аноним 20/01/24 Суб 21:18:58 #144 №620070 
>>620049
7b пойдет
Аноним 20/01/24 Суб 21:20:14 #145 №620072 
>>620056
> lmstudio
Зачем эта хуита, когда можно прям в VS Code генерить код?
Аноним 20/01/24 Суб 21:21:10 #146 №620074 
>>620069
Все верно, ее то уже давно сделали. Но для кодинга идеально бы иметь интеграцию с IDE а не просто чатик, который есть везде.
Аноним 20/01/24 Суб 21:23:33 #147 №620077 
>>620074
там вроде уже есть плагины в иде как раз для локолок
Аноним 20/01/24 Суб 21:41:04 #148 №620108 
Чтобы мержи заебато работали их всё равно надо выравнивать? И многие сеткаделы на это забивают?
Аноним 20/01/24 Суб 21:42:51 #149 №620111 
>>620072
Это как?
Аноним 20/01/24 Суб 21:45:49 #150 №620120 
А есть какие-нибудь нейронки, которым можно скормить excel файл, чтобы она отсортировала похожие значения по похожести? Руками что-то заебался.
Аноним 20/01/24 Суб 21:49:31 #151 №620128 
>>620120
Можно взять его содержимое любым скриптом на языке в который умеешь, и скармливать сетке с соответствующим запросом и получать на выходе нужное. Сетка поможет тебе этот скрипт написать, промт придется уже самому.
Аноним 20/01/24 Суб 21:50:48 #152 №620132 
>>620056
Может потому что LM studio не умеет в гпу?
Аноним 20/01/24 Суб 21:57:30 #153 №620148 
>>620111
https://continue.dev/
Аноним 20/01/24 Суб 21:57:51 #154 №620149 
>>620062
0 аргументов, только пиздеж тупой ленивой шалавы.

> Мамкиным нитаким как все оно не подходит
Еще раз, деградант с заплывшим спермой мозгом. Все что перечислено в шапке, не подходит для классического чата, это поделия для рп дегенератства.

> Буквально попытка сделать что-то другое ради чего-то другого
Блять какой ты тупой, это классический чат, что-то другое это у вас уже 40 тредов, эхочембер ебучий, уже забылись в своем манямирке и отупели от дрочки.
Аноним 20/01/24 Суб 22:00:37 #155 №620156 
>>620149
> 0 аргументов, только пиздеж тупой ленивой шалавы
Литерали все твои посты. Нихуя не соображаешь а тащишь какую-то залупу и агрессивничаешь когда ее назвали тем что должно. Фу, биомусор.
> в своем манямирке
Пчел...
Аноним 20/01/24 Суб 22:17:51 #156 №620196 
>>620156
Опять ничего дельного высрать не смог, я даже не сомневался. Тупорылый школьник.
Аноним 20/01/24 Суб 22:22:51 #157 №620210 
image.png
>>620132
Ты ебанутый?
Аноним 20/01/24 Суб 22:29:35 #158 №620226 
>>620210
А ты сам пользовался? Там поддержка гпу для галочки, нужно самостоятельно подбирать количество слоев и даже если полностью умещается в гпу, то производительность ниже чем в ollama или kobaldcpp в разы.
Аноним 20/01/24 Суб 22:34:35 #159 №620237 
>>620226
>ВАША ПОДДЕРЖКА НЕ ПОДДЕРЖКА ЯСКОЗАЛ

Ясно.
Аноним 20/01/24 Суб 22:43:07 #160 №620260 
>>620237
Нахуя мне такая поддержка, которая от цпу на 4 токена в секунду отличается?
Аноним 20/01/24 Суб 23:08:52 #161 №620332 
Откуда тут этот дегенерат?
Что он несет, какой «обычный чат»?
Блядь, чат —этокогда ты можешь писать буковы в поле, потом отправлять и получать ответ.
Это есть в таверне, кобольде, убабуге, где угодно.
Дрочить никто не заставляет.
Все эти поддержки, хуйдержки, «ручной подбор слоев» — какой ужас!
Накатываешь голую лламу/экслламу, работаешь в СВОЕМ чатике по API.
В чем проблема?

Хз, сколько не сижу, убабуга устраивает (кроме документации=), силлитаверна норм тоже.

Не хватает ауто-комплит, но ссылочку скинули, пойду, разберусь, что ли.

Где вообще проблемы видно? ИМХО, большинство проблем сейчас —это литералли скилл ишью.
Аноним 20/01/24 Суб 23:16:09 #162 №620343 
Короче пока вы тут какашками кидались я запустил shell-gpt с локалкой, забавно получилось, но тини ллама туповата
Если нужен гайд могу накатать, пока не забыл
Аноним 20/01/24 Суб 23:17:43 #163 №620348 
>>620343
> пока не забыл
Да ты сам туповат. За сколько часов контекст забивается?
Аноним 20/01/24 Суб 23:31:01 #164 №620371 
>>620196
Шизло не трясись, ты и твой мусор никому не нужны
>>620332
> большинство проблем сейчас —это литералли скилл ишью
Ну да, или навык и понимание, или упрощение-обобщение в ущерб функционалу и перфомансу. Тут лучше сразу в прикладные задачи вкладываться и их реализацию пилить, а не пытаться упростить то что трогать нельзя.
>>620343
Накатывай, интересно
Аноним 20/01/24 Суб 23:50:14 #165 №620406 
>>620332
> Что он несет, какой «обычный чат»?
Ты chatgpt пользовался? Если для тебя таверна это то же самое, то ты либо тролль, либо просто дебил.
Shell-gpt локально Аноним 21/01/24 Вск 00:01:44 #166 №620441 
image.png
Примерный гайд по сслыке
https://github.com/TheR1D/shell_gpt/issues/276
Но с поправками, так как он старый
Адрес меняется на
OPENAI_BASE_URL=http://localhost:8000/v1
без ключа будет ругаться
OPENAI_API_KEY=false

https://github.com/abetlen/llama-cpp-python
Команда установки llama-cpp-python из раздела OpenAI Compatible Web Server
Команда запуска что то вроде такого
python3 -m llama_cpp.server --model /neuro/tinyllama-1.1b-chat-v1.0.Q8_0.gguf --chat_format chatml --n_threads 2 --seed -1

https://github.com/TheR1D/shell_gpt
Установка
pip install shell-gpt
Запуск самого shell-gpt кажется этим
python3 -m sgpt
Или я чет другое делал, уже не помню короче

Работает но надо поумнее сетку, да и настроить ее формат ответа потом в. Может с промптом в шеллгпт поиграться. Можно писать свои функции и сетка будет их вызывать если посчитает нужным, ну это описано на гихабе
Аноним 21/01/24 Вск 00:41:15 #167 №620522 
>>620441
Подключился от кобальда по локалке, запустив его на другом компе.
Только OPENAI_BASE_URL на его заменил и заработало.
Аноним 21/01/24 Вск 00:47:55 #168 №620529 
>>620441
Зачем это нужно, когда есть ollama?
Аноним 21/01/24 Вск 00:53:24 #169 №620534 
>>620529
>Зачем это нужно,
Что именно?
>когда есть ollama?
Пили чем она хороша, может потыкаю заодно
Аноним 21/01/24 Вск 03:27:11 #170 №620725 
>>616097 (OP)
Товарищи! Нужен ваш совет, кто знает как прикрутить анимированнную картинку персонажа к чату Silly Tavern, что бы это выглядело как у витюберов? А ещё заставить говорить персонажа своим уникальным голосом?
Аноним 21/01/24 Вск 05:37:14 #171 №620846 
Быстрый вопросец. Хватит ли 3060 для локальных нейронок?(в основном текстовых). Внятного ответа не дают, а тратить 40к с возможностью обосраться не хочется.да видимокарточка нужна только для нейронок
Аноним 21/01/24 Вск 05:58:11 #172 №620851 
>>620846
Хватит, более чем. До модели 30В включительно производительность будет терпимой. Ну и 32Гб оперативной памяти нужно. Модели больше размером с такой видеокартой уже требуют 64Гб оперативной памяти и выдержки.

(Это всё о Koboldcpp, если что)
Аноним 21/01/24 Вск 06:00:39 #173 №620852 
>>620846
Да, про процессор и память ты не сказал, а это важно. 12400 уже норм, DDR4 3200 тоже сойдёт.
Аноним 21/01/24 Вск 06:37:27 #174 №620865 
>>620846
На мегамаркете возьми с кэшбеком, кэшбек слей во что-то полезное.

>>620852
Да и 10400 хватит, че уж. Да и зеона хватит с AVX2, че уж.

>>620725
Чел из треда делал wav2lip в таверну. Поищи.
Но вообще, если хочешь именно витубера — то просто запусти любой софт с audio-based lipsync, и кинь туда звук из браузера. Просто поищи, много такого софта.
Уникальный голос — берешь xttsv2 и в качестве сэмпла кидаешь ему тот голос, который нравится тебе.

———

Продолжаю страдать с нейростримом.
Всю ночь прокопался с контекстом — не получается. То ли формат стрима выносит ей мозги, то ли фиг знает. Ничего не помнит, начинает называть свое имя перед сообщением, просто скатывается в смесь языков. Попытался послать не массивом json'ов, а как единый prompt — фиг там, не принимает, по какой-то причине.
У СиллиТаверны уходит поле prompt, у меня — пишет field required. Какой филд — фиг его знает.

Седня как проснусь — буду разбираться дальше, а пока просто стартанул ее без контекста.
Аноним 21/01/24 Вск 06:48:51 #175 №620868 
>>620846
> 3060 для локальных нейронок?(в основном текстовых)
Гружу 7b в восьми битах, расход под 9 гигов со старта. Если хочешь уместиться в vram, то 13b потолок, и то, квант пожиже, контекст помельче. Выгрузка в ram это для очень терпеливых, на постоянной основе сильно не советую. Для SD будет окейно, там не так важна скорость отклика, сможешь даже XL погонять.
Аноним 21/01/24 Вск 07:42:44 #176 №620876 
>>616468
Шиза паршивая, тупая и припизднутая.

https://huggingface.co/TheBloke/Nous-Capybara-limarpv3-34B-GGUF
Вот для чатов, но похотливая и статы для рпг так себе держит.

https://huggingface.co/TheBloke/Nous-Hermes-2-SUS-Chat-34B-Slerp-GGUF
В целом умная статы держит, но как до ебли доходит персонаж начинает слегка тупить, нужно пара генерации чтобы выдал нормальный ответ и может двигать сюжет.

Yiv3 показалась совой, остальные для РП вообще похоже не расчитаны.
Аноним 21/01/24 Вск 10:29:04 #177 №620923 
>>620120
> А есть какие-нибудь нейронки, которым можно скормить excel файл, чтобы она отсортировала похожие значения по похожести? Руками что-то заебался.
Чел, это задача буквально для любого алгоритма кластеризации из 60-80х годов, коих наверное, миллион, и которые работают на любом тостере. Использовать для такого LLM это все равно что забивать гвозди телескопом Хаббл.
Аноним 21/01/24 Вск 11:53:09 #178 №621009 
>>620868
>Выгрузка в ram это для очень терпеливых, на постоянной основе сильно не советую

Да нормально можно с выгрузкой 7-8 t/s получить.
Это практически скорость чтения
Аноним 21/01/24 Вск 12:00:13 #179 №621020 
>>621009
> Да нормально можно с выгрузкой 7-8 t/s получить.
На какой частоте?
Аноним 21/01/24 Вск 12:22:31 #180 №621061 
>>621020
Я не про полную выгрузку в РАМ.
Сплит РАМ/ВРАМ
Аноним 21/01/24 Вск 12:45:02 #181 №621079 
>>621009
>7-8 t/s получить
У меня на пустом контексте 4-6 t/s. Естественно, чем больше - тем хуже. Инцел 12400 @ 3600 ddr4
Аноним 21/01/24 Вск 13:05:21 #182 №621096 
https://github.com/b4rtaz/distributed-llama

>It allows to run Llama 2 70B on 8 x Raspberry Pi 4B 4.8sec/token

За условные 30-35к можно гонять 70В модели.
Аноним 21/01/24 Вск 13:10:48 #183 №621107 
>>621096
8 разберипи4 это далеко не 30к. Ну и 1 токен в 5 секунд, тут без комментариев
Аноним 21/01/24 Вск 13:13:19 #184 №621110 
>>621107
Проебался с ценами да, я думал они по 4к стоят.
Аноним 21/01/24 Вск 13:15:08 #185 №621115 
>>621096
>4B 4.8sec/token
>30-35к
За эти шекели 2011-3 будет работать даже быстрее. И это уже полноценный компьютер пригодный не только для нейросетей.
Аноним 21/01/24 Вск 13:17:03 #186 №621118 
>>621096
>30-35к можно гонять 70В модели.
Зашёл на трёхбуквенный, восьмигиговая стоит 22к. Перемножаем на 8, покупаем 4090.
Аноним 21/01/24 Вск 13:18:50 #187 №621121 
>>621110
Поэтому они и не нужны. =)

>>621115
Он уже за 20 будет работать быстрее. Раза в полтора-два.
А за 30 — там и в три-четыре.
Аноним 21/01/24 Вск 14:49:36 #188 №621220 
>>620846
Только на видюхе норм поместится 11б модельки, все остальное с привлечением процессора и замедлением.
> тратить 40к
> 3060
Вут? Там чуть добавить совсем и 4060@16 бралась
>>621009
Это на какой модели?
>>621096
Интересно насколько трансфер по сети вносит импакт в их алгоритме, видно что есть оптимальное число девайсов, но почему на минимально возможном хуже чем на 4х, память свопается чтоли?
> It allows to run Llama 2 70B on 8 x Raspberry Pi 4B 4.8sec/token
> Average Single Token Generation Time
> Llama 2 70B 4842.81 ms 🔥(I: 2121.94 ms, T: 2719.62 ms)
Где?
Аноним 21/01/24 Вск 15:26:37 #189 №621241 
>>621079
>У меня на пустом контексте 4-6 t/s. Естественно, чем больше - тем хуже. Инцел 12400 @ 3600 ddr4
Неестественно. С технологией Context Shift размер контекста на общую скорость ответа нейросети практически не влияет.
Аноним 21/01/24 Вск 18:21:56 #190 №621397 
А вот это >>621096 можно только на разберипи4 гонять? Б/у смартфоны не подойдут? Там тоже архитектура арм и оперативы бывает немало.
Аноним 21/01/24 Вск 18:25:13 #191 №621398 
https://huggingface.co/KoboldAI/LLaMA2-13B-Estopia
Новая сетка, ориентированная на соблюдение инструкций, написание историй и реалистичность
Я так понимаю это топ для всяких режимов приключений и написания историй
Аноним 21/01/24 Вск 18:28:18 #192 №621399 
>>621398
KoboldAI всегда годноту выкатывают
Аноним 21/01/24 Вск 18:53:19 #193 №621413 
>>621398
34b есть?
Аноним 21/01/24 Вск 19:16:04 #194 №621441 
-1.gif
-2.gif
>>621241
Что-то вроде мистралевского плавающего окна? Я просто хуй знает. Загуглил, что этот шифт в кобольде есть. По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности.

Картошечный тест. Есть вообще разница в этих вариантах? Не могу отучить этого долбоёба коверкать слова, фильтровать через словарь вариант, конечно, но хотелось бы без костылей в анусе.
Аноним 21/01/24 Вск 19:20:15 #195 №621447 
>>621441
Это 3b? Почему ответы такие тупые и не по теме?
Аноним 21/01/24 Вск 19:36:11 #196 №621469 
image.png
image.png
Штош, я однозначно победил в этом сравнении лол
Тест картошки вобще к чему? Реакция на сравнение теплого с мягким?
Аноним 21/01/24 Вск 19:39:43 #197 №621474 
-1.gif
-2.gif
>>621447
Не 3b, но почти, 7b. Ответы не по теме из-за карточки, наверное, а тупость из-за общей тупости модели. Меня больше интересует степень корявости построения предложений. На дефолте больше по теме, но сваливается в непонимание языка. И, по сути, нейронка не понимает, что вопрос шуточный, пытается всё в кулинарию свалить. С карточкой ебаната мне ответы больше нравятся.

Обосрался с "дишь", словарный запас явно недостаточный и у долбоёба слова кочуют из языка в язык.

>>621469
Там выше чел запускал нейрострим и ему в чат написали этот вопрос. Анон из треда заметил и запостил сюда. А мне похуй вопрос, меня грамматика интересует. А она покинула чат.
Аноним 21/01/24 Вск 19:41:25 #198 №621477 
>>621474
русский ищешь?
Аноним 21/01/24 Вск 19:52:20 #199 №621491 
>>621398
Очередной шизомикс. Ещё и из ундикала.
Аноним 21/01/24 Вск 19:55:01 #200 №621492 
>>621491
шизомикс это когда мешают хуй пойми что хуй пойми как, тут же качество смеси выше
кобальдаи тим всегда норм сетки выпускает
Аноним 21/01/24 Вск 19:59:18 #201 №621494 
>>621491
унди хоть и поехавший какой-то, но в модели для КУУМА чел могёт
Аноним 21/01/24 Вск 20:04:06 #202 №621499 
image.png
image.png
>>621474
фроствинд без перевода, на русской версии карточки
Ну, могет иногда, хоть и проебывается
Аноним 21/01/24 Вск 20:29:38 #203 №621534 
>>621492
> качество смеси выше
Проиграл. Особенно вижу качество смеси в том что это микс из миксов. Там уж точно качество смеси заебись, да.
Аноним 21/01/24 Вск 20:39:44 #204 №621548 
1.jpg
2.jpg
3.png
>>621477
Ага.

>>621499
Cкачал, удачные ответы как-то довольно редко.
>Ну да... Если бы ты был едой, я бы тебя съел. А если нет - то я бы тебя убил.
>А вообще, это же такой вопрос! Какого хренского значения будет? Ты живой организм, а эта мухиная сущность - просто кусок земли с кожуром. Я бы не стал давать себе ответ...
>А это вопрос! Я же знаток всего того, что происходит. Так что, если бы я был богом, я бы дал жизни этим двум существам одновременно, чтобы они были как один, так чтобы они были способны удовлетворяться друг от друга без претензий. Однако, я также знаю, что человечество недоступна для этого, но душа может достичь такого состояния. Пожалуйста, присоединитесь к этому обществу, которое является единственным местом, где можно получить такой эксклюзивный контент.
Третий пик фроствинд, первые два мистраль. Правда, гоняю всё квантованным, памяти мало. Карточка без шизы, просто однострочная хуйня "ты ассистент и отвечаешь на ответы". Шизы рулят.
Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми.
Аноним 21/01/24 Вск 20:58:32 #205 №621575 
>>621548
Фроствинд просто как пример проверил, из сетки что была запущена, ну и он у меня был в 5км
openchat-3.5-1210 попробуй и starling-lm-7b-alpha
Это чат боты, что у них по языкам не знаю, но это сетки от больших организаций заточенные на общение, может и русский был в датасетах
Аноним 21/01/24 Вск 21:30:35 #206 №621654 
>>621469
У меня на стриме кто-то спросил, я кекнул и сюда притащил.
Если описать персонажа слегка токсиком, то проблем нет, но вот именно проверка граматики хорошая.

>>621474
> слова кочуют из языка в язык
Да, так и есть. Порою забавные словечки попадаются.
Но, что самое смешное, это ведь типичные англицизмы получаются, нейронка, как и мы, тащит слова, чтобы выразить смысл, из другого языка.

>>621548
> мухиная сущность
Пхх.

> Как по мне, у мистраля чаще получаются ответы, которые я бы назвал приемлемыми.
Да, Мистраль знает русский хоть и хуево, но лучше остальных.
Остальные, даже солар и прочие миксы самой мистрали, усиливают те знания, которых в ней много и ослабляет русский по итогу, кмк.
Растут частые веса, уменьшаются редкие.
Ну, ИМХО, канеш.

>>621575
Старлинг мне не понравился в русском.
Аноним 21/01/24 Вск 21:40:53 #207 №621680 
https://huggingface.co/models?language=ru&sort=trending&search=7b
Список 7b с ру тегом, если и искать мистраль с улучшенным знанием русского, то как то так
Аноним 21/01/24 Вск 21:47:10 #208 №621688 
>>621680
https://huggingface.co/Unbabel/TowerInstruct-7B-v0.1
Новенькая модель переводчик с заявленным русским, например
Что то еще
https://huggingface.co/AlexWortega/Vikhr-7b-0.1
https://huggingface.co/0x7194633/fialka-7B-v3
https://huggingface.co/TIGER-Lab/TIGERScore-7B
О ебать кто то поигрался с токенизатором наконец то
https://huggingface.co/rccmsu/ruadapt_mistral_7b_v0.1
Аноним 21/01/24 Вск 21:49:59 #209 №621695 
Наконец разобрался, что не так с промптом.
prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива.
В очередной раз спасибо силлитаверне, и НЕ спасибо пустой документации убабуги.

Но спасибо тем, кто подсказал искать непосредственно в коде, повставлял принты, увидел отличие функций и откуда и что приходит.

Осталось теперь разобраться с форматированием мистрали, все эти [INST][/INST] прописать вручную, и разобраться с карточкой, чтобы она отвечала на все сообщения от первого лица без форматирования.
И все это в 7B, потому что 70B мне в видяху не влезет. =')
Аноним 21/01/24 Вск 21:50:29 #210 №621696 
>>621688
Спасибо, посмотрю!
Аноним 21/01/24 Вск 22:01:13 #211 №621745 
https://huggingface.co/rccmsu/ruadapt_mistral_7b_v0.1
https://arxiv.org/abs/2312.02598
Судя по всему модификация токенизатора действительно нужна, как мы тут и обсуждали недавно
Без нее сетку на русский дрочить долго и неэффективно, а знание языка будет все равно хуже
Аноним 21/01/24 Вск 22:07:09 #212 №621763 
>>621745
Откуда эти модели вообще берутся? Как и на чём их обучают(имею ввиду датасеты)?
Соре за тупой вопрос, я нюфаг.
Аноним 21/01/24 Вск 22:15:01 #213 №621773 
>>620846
Взял летом Palit 3060 на маркете, с кешбэком вышло ровно 30. solar-10.7b_Q5_K_S + 4096 влезает полностью, еще остается место для xtts. Все летает - 28 t/s, в таверне полный ответ приходит за ~2 секунды. Раньше баловался с медленными 56b и 70b (4 и 1 t/s), но теперь мне важнее скорость, чем едва заметная прибавка к уму. 13b вроде тоже влазит полностью, но там нужен квант намного похуже.
Аноним 21/01/24 Вск 22:23:06 #214 №621782 
1.jpg
>>621575
>это сетки от больших организаций заточенные на общение
Ну хуй знает. Опенчат пока не тыкал, старлинг, походу, имеет странный формат инструкций и надрочен на тексте, сгенерированном в жипити.

>>621654
>это ведь типичные англицизмы
Я не против англицизмов, наоборот, это радует, что связи, которые мы раньше обсуждали - всё-таки существуют. Это заебись. Но иногда протекает наеборот, русское слово в транслит.
>Ну, ИМХО, канеш.
Пока только майкрософт научились заглядывать в веса и понимать, что там происходит в процессе, а у нас тут не майкрософт, все посты можно по-дефолту так подписывать.

>>621695
>и НЕ спасибо пустой документации убабуги
http://127.0.0.1:5000/docs#/
А ты точно везде посмотрел?

>>621745
Мне кажется, с адаптированным токенизатором просто будет более корректное построение предложений. Слова-то он и так интуитивно правильно разбивает на слоги.

Потыкал несколько моделей, буду дальше ебать мистраль, наверное. По лорам, низкоранговые что-то слабо заметны. Небольшое влияние на способ построения предложений, слова коверкает по-старому, токенизатору похуй. В районе 10к шагов на небольшом датасете.
Олсо, какой из разделов туч-хэ-ка будет лулзовее всего распарсить и загнать в нейронку? Подумываю на счёт снача или зога.
Аноним 21/01/24 Вск 22:24:20 #215 №621783 
1.png
>>621782
Бля, не тот пик.
Аноним 21/01/24 Вск 22:37:40 #216 №621798 
stsstats.png
>>621782
>>621745
Ага у них в пейпере при human eval сравнении ответов результаты почти неотличимые от оригинальной сайги2-7b. Чуда не произошло, разве что, скорость немного выше стала.
Аноним 21/01/24 Вск 22:41:26 #217 №621805 
>>621798
Там обучение не особо глубокое, то что при изменении токенизатора вобще не упало качество я считаю плюсом, дальше нужно только допиливать и токенизатор и нормально дообучить на качественном датасете
Аноним 21/01/24 Вск 22:56:25 #218 №621825 
.png
.png
.png
>>621745
Почему они не могут просто на дампе русскоязычных книг с флибусты натренить? Какой кекабу, какой хабр? Они бы на архивах /b/ ещё обучили.

https://belladoreai.github.io/llama-tokenizer-js/example-demo/build/
И там действительно ли всё так плохо с токенизатором для русского? Там же не отдельные символы токенизируются, а есть слоги и отдельные части слов.

Я просто недавно пробовал запускать пару локалок и общаться с ними на русском, и, как мне показалось, они мало косячят саму грамматику, но при этом просто несут бессвязную шизофрению.
Аноним 21/01/24 Вск 22:58:46 #219 №621827 
>>621798
А как его ебать? Скачал, токенизатор хорош, датасет - мерзейший мусор, на чём-то таком гигачат обучали. Увиливает от ответов, советует позвонить другу и задать вопрос ему, извиняется и т.д.
Отвечает 3-4 раза, потом генерирует ответ на 1 токен. И этот токен - пробел. Причём если пробел сгенерировался то уже всё, пизда. Режим, impersonate, ничего не влияет, просто пустой ответ. Хуй знает, где крутить и что.
Аноним 21/01/24 Вск 23:01:19 #220 №621828 
>>621825
Просто сетки оптимизированы для английского, остальные языки сосут, хоть и представлены в токенизаторе и датасете, но этого мало.
Вот как метод дообучения нужному языку, без нормальной настройки токенизатора выйдет хуйня, хоть и будет работать. Но могло бы гораздо лучше.
И че у тебя выйдет с книг? Нам диалоги нужны для примеров общения между 2 персонажами, там немного другое выйдет.

>>621827
Та сетка не допилена, я думаю это результат проверки статьи сделанный на отъебись
Ну или скачай ее инструкт версию, это же базовая модель
Аноним 21/01/24 Вск 23:04:12 #221 №621830 
>>621827
https://huggingface.co/rccmsu/ruadapt_mistral_saiga_7b_v0.1
Аноним 21/01/24 Вск 23:06:02 #222 №621833 
>>621830
Я так понимаю главный плюс оптимизированного токенизатора - экономия токенов, возрастание скрости ответа, ну и теоретически лучшая возможность формирования ответов на обученном языке. Последнее уже будет зависеть от качества обучения и датасета
Аноним 21/01/24 Вск 23:09:22 #223 №621840 
>>621745
Ну, это очевидно.
Не знаю за знание, но объем больше, это факт.
Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали, но на русском. =)
Не надо матерных комментариев, я знаю результат! =D

>>621782
> русское слово в транслит
Да, тоже такое ловил. )))

> А ты точно везде посмотрел?
Давай я не буду сегодня туда заглядывать, чтобы не расстраиваться, ок? хд

———

Промпт написан, она помнит инфу между сообщениями. Может путаться в чужих, но свои слова помнит — уже хорошо.

Завтра потестируем в живом чате на много человек, а пока — спать!

А то еще работа. =) Ох уж эта работа…
Аноним 21/01/24 Вск 23:16:18 #224 №621848 
image.png
image.png
почему у меня такой крошечный размер контекста? запускаю с rope 1.0 64000, должен же быть наоборот огромный не?
Аноним 21/01/24 Вск 23:20:26 #225 №621858 
image.png
>>621848
Аноним 21/01/24 Вск 23:24:45 #226 №621864 
>>621858
не, ну там всё равно три абзаца до желтой линии. я честно не понимаю как оно работает в силлитаверне. в кобольде если поставить max context size в 4096 например, то он и будет пересылать 4096 токенов в BLAS, а тут я прогнал через токенайзер, мне пишет что 414 токенов всего учитывается. что делать?
Аноним 21/01/24 Вск 23:28:49 #227 №621867 
>>621864
ропе не увеличивает размер контекста, он дает возможность работы на изначально большом запущенном контектсе

Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.

Твоих 64к ропе хватит примерно до 12-16к контекста. Но некоторые модели вобще требуют при запуске 5 миллионов ропе или 500к, так что смотри что запускаешь
Аноним 21/01/24 Вск 23:35:55 #228 №621882 
>>621867
бля, анон, спасибо за обьяснения, но я всё равно нихуя не понял(

>Запускаешь ты модель кобальдом, там ставишь 8к контекста например. Твоя сетка поддерживает только 4, значит тебе нужно добавить ропе так что бы она продолжала нормально работать доходя до 4к контекста. И вот ты ставишь при запуске не 10000 а например 40000.

Запустил я кобальдом модельку, поставил 8к контекста. потом я выкрутил Context(tokens) до 7500. и начал крутить нейронку. однако нейронка начала ставить желтую линию сразу после трёх-четырёх сообщений, я поглядел сколько в них токенов, и там около 400-500. ну не должно ж так быть, если я запускаю в самом кобальде, такой хуйни не происходит, а вот таверна режет контекст.
Аноним 21/01/24 Вск 23:41:23 #229 №621886 
image.png
>>621882
Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать.
Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда
Че означает эта линия не ебу
Аноним 21/01/24 Вск 23:50:42 #230 №621891 
>>621886
>Если в кобальде контекст 8к, и в таверне тоже 8к, то не должно быть проблем с генерацией до этих 8к. При условии что ропе тоже стоит, сетка должна спокойно до конца контекста отвечать.
Чем подключаешься к кобальду? Там изменилось подключение, сейчас так на новых версиях таверны и кобальда
да вроде всё правильно, и там и там 8к. подключаюсь как у тебя на скрине.
жёлтая линия это разделение чата на то что сетка помнит и что не помнит. и она у меня помнит только последние три-четыре сообщения. вот я и охуел с её амнезии.
Аноним 21/01/24 Вск 23:52:37 #231 №621892 
>>621891
Че то наебнулось, либо настройки таверны либо сама таверна. Скачай последний релиз куда то и запусти его отдельно и на нем тестово потыкай на том же кобальде
Аноним 21/01/24 Вск 23:55:17 #232 №621893 
>>621892
пасибки, пойду попробую, а то чот хуйня.
Аноним 22/01/24 Пнд 02:08:55 #233 №621983 
>>621864
Если не поставишь галочку "анлок" то там по дефолту вроде 4к контекста. Огромная карточка, системный промт, и 2к буфер на ответ (!!!) - вот и нету твоего контекста. Нажми галочку и убавь длину ответа до 512. Если оборвешь - нажмешь "продолжить".
>>621867
> а например 40000
для 8к много
> 64к ропе хватит примерно до 12-16к контекста
Если ллама2 или подобное то там отупение пойдет уже.
Аноним 22/01/24 Пнд 03:43:55 #234 №622037 
>>621983
>Если ллама2 или подобное то там отупение пойдет уже.
Допилят же когда нибудь селф-экстенд расширение контекста, может там и не будет отупления
>для 8к много
А сколько там? 32к вроде рекомендуемое, в любом случае все это подбирается методом тыка, можно и 20к поставить для начала. Только под конец 8к может не дотянуть
Аноним 22/01/24 Пнд 04:06:57 #235 №622051 
Какая вариация мистраля 7b сейчас самый топ? Openhermes 2.5 хороша?
Аноним 22/01/24 Пнд 04:07:14 #236 №622052 
>>622051
Ах да, не для кума если что.
Аноним 22/01/24 Пнд 04:48:30 #237 №622082 
1.png
2.png
3.png
4.png
Остался главный вопрос. На чём тренировать сетку? Посмотрел открытые датасеты - ёбаный мусор, сука. Даже посты с туч-хэ-ка нашёл. Как "тролль комментарии на русском" выложили, но по тексту яснопонятно, что откуда. Ладно бы в формате "вопрос-ответ". Просмотрел 20+ датасетов и каждый оказался говном.
Олсо, надрочил нейронку писать себе книгу, лол. Много понял после этого эксперимента на десять тысяч шагов.
Аноним 22/01/24 Пнд 05:01:51 #238 №622084 
>>622082
>На чём тренировать сетку?
Самое тупое - взять нормальный датасет и пройтись по нему переводчиком. Проверить потом чем нибудь на грамматику, орфографию и верный смысл. Той же нейронкой оценивать потом
Аноним 22/01/24 Пнд 05:09:13 #239 №622085 
>>622051
гермес, Starling-LM-7B-alpha, openchat-3.5-1210, дельфин
Проверенные временем общие сетки

Вот что то новенькое в топе светит
NeuralBeagle14-7B
dolphin-2.6-mistral-7b-dpo-laser
Аноним 22/01/24 Пнд 06:21:45 #240 №622102 
Ого, towerinstruct-7b неожиданно хороша в русском, в карточке ассистенте отвечает довольно гладко. Не тестил ни знания, ни отыгрыш, ни мозги. Сетка переводчик все таки
Аноним 22/01/24 Пнд 07:20:41 #241 №622133 
>>622085
> openchat:7b-v3.5-0106
Хочу попробовать опенчат, вот увидел там эта версия самая крайняя. Ставить ее или 1210?
Аноним 22/01/24 Пнд 07:52:59 #242 №622136 
https://www.reddit.com/r/LocalLLaMA/comments/19c6pym/e2llm_another_context_length_extension_via/
еще один метод улучшения контекста

>>622133
новая лучше, по идее
Аноним 22/01/24 Пнд 08:03:27 #243 №622140 
>>621441
>По-моему, чудес не бывает, весь "контекст" запихивается нейронке в глотку каждый раз заново, то есть ей каждый раз нужно просчитывать всё, тут нихера не оптимизируешь - больше памяти, больше пропускной способности.
Верно, запихивается, только уже обработанный. Заново требуется обработать только новые токены, которые ты ввёл в последней реплике. А сверху от (раньше) обработанного контекста отрезается старое в таком же количестве токенов, чтобы в контекстное окно всё уместилось. Короче, памяти под контекст нужно столько же, но обрабатывается теперь не всё контекстное окно, а только последняя реплика.
Аноним 22/01/24 Пнд 09:54:56 #244 №622183 
Тут кто-то жалуется на датасет, и что обучать не на чем.
Так, блин, а вы почему думали, что обучение соло одним человеком —это сложно? Из-за железа что ли? ПФФФ. Обучение сложно из-за того, что тебе надо собрать хороший и подходящий тебе датасет. А это месяцы и годы работы, а не «скачал/сграббил форум и готово».

Не понимаю удивлений датасетам — других и нет, это логично и ожидаемо.
Аноним 22/01/24 Пнд 10:25:13 #245 №622195 
>>622183
Спасибо, что огласил истину.
Аноним 22/01/24 Пнд 11:17:21 #246 №622218 
>>622102
Потыкал переводы, вроде работает, не знаю правда лучше других переводчиков или хуже

Can I help you with something?

Переведи это на каждый из 10 доступных тебе языков " Компания TSMC вместе с учёными Тайваньского НИИ промышленных технологий (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Новая память быстрее DRAM и сохраняет данные даже после отключения питания, и она призвана заменить память STT-MRAM, потребляя при работе в 100 раз меньше энергии. "

Sure, I can translate it into 10 languages for you:

1. English: TSMC, together with Taiwan Industrial Technology Research Institute (ITRI), has unveiled a jointly developed SOT-MRAM memory. The new memory is designed for in-memory computing and to be used as a high-level cache. It's faster than DRAM and retains data even after power is cut off and is expected to replace STT-MRAM, consuming 100 times less power when in operation.
2. Portuguese: A TSMC, em conjunto com o Taiwan Industrial Technology Research Institute (ITRI), apresentou uma memória SOT-MRAM desenvolvida conjuntamente. O novo dispositivo de memória está projetado para computação em memória e para ser usado como cache de nível superior. Ele é mais rápido do que a DRAM e retém os dados mesmo após o corte de energia. É esperado que ele substitua a STT-MRAM, consumindo 100 vezes menos energia ao operar.
3. Spanish: TSMC, en colaboración con el Instituto de Investigación de Tecnología Industrial de Taiwán (ITRI), ha presentado una memoria SOT-MRAM desarrollada en conjunto. La nueva memoria está diseñada para computación en memoria y para su uso como cache de nivel superior. Es más rápida que la DRAM y retiene los datos incluso después de que se corte la alimentación. Se espera que sustituya a la STT-MRAM, consumiendo 100 veces menos energía durante el funcionamiento.
4. French: TSMC, en collaboration avec l'Institut de Recherche sur la Technologie Industrielle de Taïwan (ITRI), a dévoilé une mémoire SOT-MRAM conjointement développée. La nouvelle mémoire est conçue pour l'informatique en mémoire et pour être utilisée en tant que cache de haut niveau. Elle est plus rapide que la DRAM et conserve les données même après la coupure de l'alimentation. Elle devrait remplacer la STT-MRAM, consommant 100 fois moins d'énergie lorsqu'elle fonctionne.
5. German: TSMC hat zusammen mit dem Industrial Technology Research Institute (ITRI) eine gemeinsam entwickelte SOT-MRAM-Speicher vorgestellt. Das neue Speicher-Dienst ist für in-Memory-Computing ausgelegt und zur Verwendung als Hochlevel-Cache gedacht. Er ist schneller als DRAM und behält die Daten bei, selbst nach dem Ausschalten der Energie. Er soll die STT-MRAM ersetzen, bei dem er während des Betriebs 100 Mal weniger Energie verbraucht.
6. Dutch: TSMC heeft, samen met het Taiwanese Industrial Technology Research Institute (ITRI), een SOT-MRAM-geheugen ontwikkeld. Het nieuwe geheugen is ontworpen voor in-memory-computing en om te worden gebruikt als cache op hoger niveau. Het is sneller dan DRAM en herinnert zich de gegevens, zelfs nadat de stroom is uitgeschakeld. Het is de bedoeling dat het de STT-MRAM zal vervangen en tijdens het gebruik 100 keer minder energie zal verbruiken.
7. Italian: TSMC, insieme all'Istituto di ricerca sulla tecnologia industriale di Taiwan (ITRI), ha presentato una memoria SOT-MRAM sviluppata insieme. La nuova memoria è stata progettata per l'informatica in memoria e per essere utilizzata come cache di livello superiore. È più veloce della DRAM e conserva i dati anche dopo aver interrotto l'alimentazione. È previsto che la sostituisca la STT-MRAM, consumando 100 volte meno energia durante il funzionamento.
8. Korean: TSMC는 타이완 산업기술연구소(ITRI)와 공동으로 개발한 SOT-MRAM 메모리를 선보였다. 새 메모리는 메모리에서의 컴퓨팅에 적합하도록 설계되었으며 상위 캐시로 사용할 수 있다. 더 빠른 DRAM과 다른 것은 전원이 꺼질 때에도 데이터를 계속 보관한다는 것이다. 이 메모리는 STT-MRAM을 대체하며 작동 중에 100배 적은 전력을 소모할 예정이다.
9. Chinese: 台积电与台湾工业技术研究院合作推出一种共同开发的SOT-MRAM内存。新内存设计用于内存中的计算以及用于高级缓存。它比DRAM快又能保留数据,甚至断电后仍可保留数据。它预计将取代STT-MRAM,在运行时耗能比STT-MRAM少100倍。
10. Russian: TSMC совместно с Институтом промышленных технологий Тайваня (ITRI) представила совместно разработанную память SOT-MRAM. Новое запоминающее устройство предназначено для вычислений в памяти и для применения в качестве кеша верхних уровней. Оно быстрее DRAM и сохраняет данные даже после отключения питания и, как ожидается, заменит память STT-MRAM, потребляя при работе в 100 раз меньше энергии.
Аноним 22/01/24 Пнд 11:53:59 #247 №622235 
Прикрепите эту ссылку на следующем треде https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Это нормальный топ моделей, а не то говно, что у вас прикреплено, где топ моделей оценивается по тому, как хорошо она сисик-писик свой расписывает.
Аноним 22/01/24 Пнд 12:20:56 #248 №622241 
>>622235
Как бы не обсирали Айюми, у него там есть новые логи, где с тремя разными начальными состояниями генерации приводятся по три сценария чата между двумя персами. И это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом, потому что можно оценить "дефолтный" словарный запас моделей без кастомного промптинга и посмотреть, насколько они креативны/держатся за сценарий/тупят/наваливают бондов. Чатбот арена же ни черта не показывает пользователю, кроме того, что за модель больше голосовали на каких-то одиночных вопросах. Не знаю, в каком месте она может быть полезной.
Аноним 22/01/24 Пнд 13:26:40 #249 №622283 
>>622241
Достаточно глянуть на каком месте у этого твоего Айюми стоит Vicuna 33b что бы понять уровень его "оценок"
Аноним 22/01/24 Пнд 13:36:56 #250 №622288 
>>622241
> это неиронично относительно хороший тест не только для кума, но и для ролеплея/сторителлинга в целом
Двачую, их похвалить можно хотябы уже за то что прямо говорят суть теста и то что сам ранк может быть неточным.
>>622235
> нормальный топ моделей
Нормальный топ, оценки которого на 99.5% состоят из всратых зирошотов, и который показывает лишь то, насколько авторы натренили свою сетку под такое. Поведение модели, ее возможности, понимание инструкций - никак не иллюстрируется, список моделей ограничен, у некоторых очень странные промты, авторы замечены в подкручивании выдачи.
>>622283
> Vicuna 33b
На заслуженном 500 с хуем, как и положено пиздецовой древности на первой лламе, которая забывает инструкции через 1к контекста, а не где-то высоко как в той херне что ты притащил.
Аноним 22/01/24 Пнд 15:13:58 #251 №622322 
image.png
>>621891
>>621983
хуй знает как, оно исправилось само собой. вот тут раньше 2048 стояло
Аноним 22/01/24 Пнд 15:39:23 #252 №622344 
1.png
>>622084
Из нормальных только QA находил. И тоже ёбка с парсингом требуется.
>>622140
Так тут экономия только на токенизаторе, остальное точно так же жрётся.
Аноним 22/01/24 Пнд 17:35:46 #253 №622451 
Как запихать собственный билд llama.cpp внутрь text-generation-webui?
Аноним 22/01/24 Пнд 17:45:15 #254 №622479 
>>622451
Там пихоновская обертка используется https://github.com/abetlen/llama-cpp-python в ней ссылка на коммит оригинальной репы. Подмахни на свою и собирай, установив в энв конды.
А что хочешь сделать?
Аноним 22/01/24 Пнд 19:31:36 #255 №622680 
>>622479
Быстрее работает с AVX512 + HIPBLAS завёлся на амуде. Но видимо придётся пердолиться.
Аноним 22/01/24 Пнд 21:58:52 #256 №622887 
Орион 14В тестили уже? 320к контекста и поддержка RAG, по скорам чуть похуже Yi 34В.
Аноним 22/01/24 Пнд 22:07:01 #257 №622899 
>>622887
ггуфа нету
Аноним 22/01/24 Пнд 22:09:40 #258 №622903 
>>622887
Блок сдох, уже 5 дней нихуя не квантовал. Как тут тестить с таким.
Аноним 22/01/24 Пнд 22:12:21 #259 №622906 
https://huggingface.co/MarsupialAI/Orion-14B-LongChat_FP16_Q4KM_GGUF
Единственная ссылка и скорей всего работает по новому ггуф формату, который только с последним релизом ллама.спп запускать
Не факт что не сломанный, к тому же
Аноним 22/01/24 Пнд 22:23:43 #260 №622918 
i.webp
Обновил text web ui и всё в нём находящееся.
Пизда какая-то с интерфейсом, так ещё lama.cpp врам начал хавать пару лишних гигибайт на тех же моделях.
ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?!
Аноним 22/01/24 Пнд 22:30:52 #261 №622935 
>>622903
А что мешает самому сделать? Это же тривиально.
Аноним 22/01/24 Пнд 23:07:53 #262 №623010 
>>622906
>по новому ггуф формату
А что там изменено? Не слежу последний месяц за новшествами герганова, чет надоело все, не было настроения.
>Обновил text web ui и всё в нём находящееся.
>ЧТО БЛЯТЬ НАВОРОТИЛИ НАХУЙ?!?!
Ну понятно, это как всегда. Переустанавливал раз в месяц-два когда что-то стоящее было в обнове. Нахуй эти обновления - через раз ломается бубуга. А теперь уже месяца три не запускал, уже скучно. Хули все одно и тоже практически.
Аноним 22/01/24 Пнд 23:08:54 #263 №623013 
>>622887
Попробовал чат-версию, которая уже официально квантованая. Для 14В годно, но есть и говняк. Из хорошего - адекватность на месте, рандом ответов высокий и они без проёбов, промпта слушается отлично, в агрессию умеет. В целом прикольно отвечает, для тех кто хочет отойти от приевшихся мистралей/рп-файнтюнов должно зайти. И у меня сложилось впечатление, что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках, нет такого как в мистралях, где прям видно что он не может понять как должно аниме себя вести по анимешным канонам. Или это упор на японский в датасете так позитивно повлиял.
Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Но есть цензура - в инструкциях на ниггера триггерится и блочится, в ролеплее отвечает без отказов, но заменяет слово на nig*r. В русский не может совсем, прям вообще никак, там упор на японский/корейский/китайский у них кроме английского. Ещё с форматом не очень понятно, надо банить EOS в рп-шаблоне таверны чтоб оно работало нормально, но из-за этого он иногда не может остановиться вовремя.
Аноним 22/01/24 Пнд 23:10:10 #264 №623015 
>>623010
>А что там изменено?
Размеры стали меньше, качество возросло на 1 уровень. Например новый 4км по перплексити равен старому 5кs
Аноним 22/01/24 Пнд 23:15:23 #265 №623022 
>>623013
Что запускал то?
Аноним 22/01/24 Пнд 23:20:37 #266 №623033 
>>622887
О, это интересно.
>>622918
Проверь нет ли лишних флагов запуска, например для мультимодалок, или не поменялся ли контекст при загрузке.
>>623013
> что модель знакома с азиатщиной, очень уж хорошо попадает в персонажа на аниме-карточках
Тааак, а можно подробнее? Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"? Подобные модели, пусть иногда, но могут шикарный экспириенс давать в рп на персонажах, которых знают.
> Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.
Сложно с этим, размер даже мелких новелл в контекст не уместить, а влезающие фанфики и додзи - примерно тот уровень что можно получить сейчас. Как вариант резать на куски и использовать суммарайз.
Всеравно тут только фантазировать, для обучения даже 13б нужно от 80гб врама.
Аноним 23/01/24 Втр 00:07:15 #267 №623091 
>>622935
А, нихуя не получилось, говно китайское.
llama_model_load: error loading model: done_getting_tensors: wrong number of tensors; expected 444, got 363
llama_load_model_from_file: failed to load model
Аноним 23/01/24 Втр 00:56:52 #268 №623117 
image.png
Доброго вечера, антошки. Я решил попробовать запустить таверну на oobabooga, вроде поставил модель, поставил галку в АПИ в настройках, указал эту ссылку в таверне, но текс в таверне, к сожалению, не генерируется, выдается такая ошибка, при том что в самой убабуге генерация идет. В чем может быть проблема? (сразу предупреждаю, что я валенок)
Аноним 23/01/24 Втр 01:01:25 #269 №623118 
1556286538403.png
1646673860011.png
1677253204286.png
>>623033
> Не пробовал ее спрашивать на карточке ассистента и с простым промтом "расскажи о _персонажнейм_ из _вселеннаянейм_"?
Ну вот примеры, стандартная карточка из убабуги на симпл-1. Что-то в этом действительно есть. С менее популярными персонажами так легко уже не прокатывает, но вот другие модели внезапно даже так не могут. Микстраль знает о чём речь и откуда эти персонажи, но шизит и притворяется кем угодно, кроме кого надо, каждый свайп новая шизоличность. Опенчату и Yi вообще похуй, даже не пытаются изменять стиль речи, продолжают быть полезным AI-помощником. РП-файтюн 11В-солярки начинает говорить от лица нужного персонажа, но высерает сухие простыни монолога с нейтральным стилем.
Аноним 23/01/24 Втр 03:54:38 #270 №623226 
>>623117
Не включил опцию api или порт неверный в настройках таверны указал (например, 5001 вместо 5000).
>>623118
Вполне неблохо, баланс между основной инструкцией и запросом юзера.
Аноним 23/01/24 Втр 06:05:10 #271 №623273 
>>622288
>которая забывает инструкции через 1к контекста

Ты скозал? Потому что у меня всё норм, когда я выставляю 8к контекста.
Аноним 23/01/24 Втр 10:51:33 #272 №623455 
>>623013
> как в мистралях, где прям видно что он не может понять как должно аниме себя вести по анимешным канонам

> Французская сетка-ассистент
> Привет, ты зомби-горничная-сестра из аниме на 15 фанатов
> што, мой господин? О_О

Ну, не корите ее за это. =)

> Но есть цензура
Это грустно, несмотря на направленность Мистрали, она такое игнорит.
Неприятненько, не люблю джейлбрекать модели, а хорошую хочется.

С другой стороны, если юзать ее в паблик — то это даже может быть плюсом.
Аноним 23/01/24 Втр 10:59:16 #273 №623460 
>>623013
> азиатщина

Вот кстати с этим прикол у очень многих моделей. У меня в рп диалоге иногда всплывало chan и прочие японские приставки вообще не к месту. Ломает конечно погружение ахуенно. Видимо тренировали все на одних и тех же тюнах/базах
Аноним 23/01/24 Втр 13:11:38 #274 №623555 
Здоровэньки булы, что можно нахимичить в колабе для максимальной оптимизации/увеличения т/с в кобольддцп?
Аноним 23/01/24 Втр 13:24:11 #275 №623561 
>>623273
Ты серьезно юзаешь древнюю викунью в 2д24м? Не офк брутально, все дела, но зачем жрать этот кактус? Даже файнтюны шизоидных китайцев лучше с задачами справляются, в рп и около того даже не сравнимы.
> Ты скозал?
База первой лламы
>>623455
> Ну, не корите ее за это. =)
Опять ты за это. Дело в том что она примерно знает о чем речь и даже пытается выполнить эту инструкцию, но ловит затупы и шизит. Когда тестировал с ней получал аналогичный результат но уже в рп, причем иногда случались проблески и были адекватные посты, но не слишком часто. Учитывая что 7б с подобным могут справиться, такой результат вызывает недоумение.
> если юзать ее в паблик — то это даже может быть плюсом
Если чатботом в магазин - да. Если делать стримера то уныло, на выходе должна быть начало шутки а потом [censored], тогда будет топчик.
>>623555
> в колабе
> кобольддцп
> увеличения т/с
Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.
Аноним 23/01/24 Втр 13:53:07 #276 №623592 
>>623561
Ну ладно, в общем так, да.

Ну, что наступит раньше — 48 гигов видеопамяти или умная живая 7B модель, — то и возьму, кек.

Тем временем, P40 добралась до доставки. Обещают 6-11 февраля, но я боюсь стаканется на их Новый Год. Хотя, по идее, должна успеть, если на таможне не сильно забито.

Думаю теперь, может взять вторую, чтобы гонять Mixtral? Люди пишут о 13-14 токенах сек на q6. Конечно, даже q6 пожмет 7B модельку, но, вроде, не так критично.

Сложный выбор.

>>621688
Тауэр у меня упорно выдавала испанский.

Тайгер говорит слабовато. Лучше Llama, но хуже Mistral.

Может я не умею их готовить, конечно.

———

Итак, теперь время играться с семплерами. Попробовал свой собственный инструкт, работает хорошо. Осознает нескольких комментаторов, может отвечать двум сразу, хоть и с пинка (но какой стример не отвечает с пинка?=)
На simple-1 с включенным миростатом отвечает… ну, более-менее.
Я читал, что миростат вырубает многие настройки, но, почему-то, если их крутить — меняется вывод. При этом, если вырубить сам миростат — вывод становится сильно хуже. Видимо, с миростатом работают какие-то дефолтные семплеры.

Нахуя так сложно, я сюда пришел деградировать, а не вот это вот.
Пайтон учи, семплеры учи.
Раньше было проще — я там че-то тыкал в таверне и оно мне отвечало.

Теперь надо прилепить распознавание речи и загнать ее в дискорд.

Никто не подскажет, Whisper, или есть аналоги получше?

Как реализовать слушание? Допустим, я включаю запись звуков, когда она заканчивает свой ответ. Но когда ей сигнализировать, что пора заканчивать слушать и начать отвечать? Просто по времени делать отсечки? Или как-то по тишине можно делать?
Аноним 23/01/24 Втр 13:55:46 #277 №623595 
>>623561
>Перестань использовать костыльную штуку для безгпушных на коллабе с гпу, используй exllama в составе убабуги, в шапке ссылка на коллаб. Оно лучше всем, скорость, размер контекста, оригинальные семплеры, cfg.

Пробовал ехл2, при большем жоре гпу получается меньше т/с, НО шизит меньше чем ггуф варианты. ХЗ
Аноним 23/01/24 Втр 14:04:28 #278 №623600 
>>623592
> Думаю теперь, может взять вторую, чтобы гонять Mixtral?
Если такой расход не обременителен и есть куда ставить - почему бы и нет. С другой стороны микстраль залупа, тут только надеяться на выход новой версии или годных MOE типа 2х34б. Или 70б оптимизировать до хорошей скорости.
А так вообще хотябы одной дождись и крути 20-34б, там скорости приличные.
> 48 гигов видеопамяти
Давай, нужно угореть по трешу и взять что-то из тюринга/вольты! Там были монструозные варианты на 48, они сильно дешевле А6000, но никто не знает фейл это или шин. Должен быть герой, который нам расскажет.
>>623595
А как ты запускаешь, что выбираешь и т.д.? exl2 правильно приготовленная жрет сильно меньше ггуфа того же размера и работает процентов на 30 быстрее, иногда даже на 100 если речь о больших контекстах.
> шизит меньше чем ггуф варианты
Они часто ломались и может быть просто битность больше, или вообще другая модель.
Аноним 23/01/24 Втр 14:15:34 #279 №623622 
>>623600
>А как ты запускаешь, что выбираешь и т.д.?

!pip install exllamav2
!python server.py --loader exllamav2 * --xformers

>может быть просто битность больше, или вообще другая модель.

Да нет, модель точно та же, а ггуф с большей битностью тоже был тупее за ехл2
Аноним 23/01/24 Втр 14:19:29 #280 №623629 
>>623013
>Я тут подумал, а есть вообще файнтюны на чистом аниме? Чтоб вместо РП нормальные японские новеллы, фанфики по реальным персонажам и подобное.

Я об этом думал с первых дней как сам попробовал эти модели с чат ботами. Но я бомж на амд со встройкой. Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля. Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл. + подключил бы туда ещё самых знаменитых и качественных ранобэ на русском языке...

НоНо если бы, да кабы...
Аноним 23/01/24 Втр 14:23:03 #281 №623638 
>>623622
> !pip install exllamav2
> !python server.py --loader exllamav2 * --xformers
Флешатеншн вышел из чата?
Попробуй готовый блокнот из шапки, там убабуга должна быть со всеми фичами и зависимостями но это не точно.. Всеравно не себе диск жрадио и торчами засираешь и ничего не теряешь.
> а ггуф с большей битностью тоже был тупее за ехл2
А как именно это выражалось? exl2 более эффективный, но чтобы прям отупевало это какой-то косяк формата проявляется опять.
>>623629
> Была бы у меня йоба-видеокарта, я бы попробовал сам разобраться как тренить модели с нуля
Не представляешь себе ресурсов, необходимых для тренировки ллм. Так бы уже тут сидели и тренили все.
> Выкачал бы с anivisual все новеллы что мог и начал бы пытаться обучать модель на сюжетах изз этих новелл
Скачай самые отборные и залей, можно qlora на 13б натренить попробовать.
Аноним 23/01/24 Втр 14:45:43 #282 №623665 
>>623638
> Всеравно не себе диск жрадио и торчами засираешь и ничего не теряешь.

и то верно, ща гляну

>А как именно это выражалось?

скомканность ответов, следование контексту/понимание ситуации хуже
Аноним 23/01/24 Втр 14:48:18 #283 №623671 
изображение.png
>>621695
>prompt в виде строки отправляется только в режиме text_completions, в то время, как в chat_completions отправляются messages в виде массива.
Ебать ты гений.
>>621745
>2312
Устаревшее прошлогоднее говно.
>>621782
>Слова-то он и так интуитивно правильно разбивает на слоги.
Именно. А в английском токен это часто сразу слово. Так что проёб целого слоя для склеивания слогов в слова, а уж потом идёт смысл.
>>621825
>Какой кекабу, какой хабр?
Нормальные сайты с живым русским языком. Но книги конечно тоже нужны.
>>621825
Сисько?
>>621840
>Все жду, когда Сбер или Яндекс выпустят аналоги Мистрали
Уже выпускали же, говно говна вышло.
>>622140
>А сверху от (раньше) обработанного контекста отрезается старое
Только в случае голого чата, без инструкций. Если хоть один токен сверху есть, то всё, не работает шифт.
>>622322
>оно исправилось само собой
Нужно сгенерить один ответ, чтобы передвинуть линию, лол.
Аноним 23/01/24 Втр 14:57:38 #284 №623678 
Скачал модельку с верха рейтинга Аюми.Просто ахуеть!
Теперь, за Аюми и двор ебашу в упор.
Аноним 23/01/24 Втр 14:58:15 #285 №623683 
>>623678
Какую?
Аноним 23/01/24 Втр 14:58:52 #286 №623685 
>>623600
>тюринга/вольты!
Они дохуя стоят. Или уже нет?
Аноним 23/01/24 Втр 15:00:10 #287 №623690 
изображение.png
изображение.png
>>623118
Да что за нахуй то...
Аноним 23/01/24 Втр 15:03:24 #288 №623695 
В рейтинге Аюми среди 34b самый высокий ранг у Blossom V3_1 Yi 34B. Я вероятно скачал у Блока чуть чуть другую модель blossom-v3_1-yi-34b-GGUF. РП (без хентая) просто агонь.
Аноним 23/01/24 Втр 15:04:07 #289 №623696 
>>623683
>>623695
Аноним 23/01/24 Втр 15:07:14 #290 №623700 
>>621695
Это же очевидно и это же соответствует openai api, ты бы хоть почитал. Как в анекдоте где клоун от пидарасов прячется.
> все эти [INST][/INST] прописать вручную
У мистральки один из самых простых форматов, буквально оборачиваешь этим и все. Есть нюансы с пробелами и переносами, но это понятно если посмотреть как токенайзер работает, проверь результаты с отправкой пробела и без нее, могут отличаться значительно.
А вообще он альпаку нормально понимает, за счет форматирования иногда даже лучше чем штатные inst.
>>623690
Мусор из датасета не отфильтровали.
>>623695
> РП (без хентая) просто агонь
Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими?
Аноним 23/01/24 Втр 15:07:21 #291 №623701 
>>623695
Это по какой метрике он самый высокий?
Аноним 23/01/24 Втр 15:15:39 #292 №623715 
1111.jpg
>>623700
>Заявка. Можешь чуть подробнее ее описать и как в сравнении с другими?
Не уходит в самоповторение, это беда всех файнтюнов yi34. И нормально может в причинно-следственные связи без шизы. Это вторая беда рпшных yi34, а в среднем все файнтюны yi34 более-менее могут в нормальную лексику.

>>623701
>Это по какой метрике он самый высокий?
Пикрил.
Аноним 23/01/24 Втр 15:26:43 #293 №623725 
>>623700
> проверь результаты с отправкой пробела и без нее, могут отличаться значительно.
Да, вот это меня пиздец смущало.
Проверю все-таки, спс.

>>623715
1 (113) =)
Не-не, я ниче, просто кек.

Про тьюринг-вольту — поищу интереса ради, канеш.
Аноним 23/01/24 Втр 15:29:32 #294 №623726 
>>623725
>1 (113) =)
Чел... Что с тобой? Тебе писали же в исходном посте.

>>623695
>В рейтинге Аюми среди 34b самый высокий ранг у...
Аноним 23/01/24 Втр 15:39:51 #295 №623737 
>>623726
> Чел... Что с тобой? Тебе писали же в исходном посте.
Чел… Что с тобой? Писали же не мне.
Нахуй мне ваш аюми рейтинг, я просто кекнул с 1 (113) места и все, никаких претензий, это просто забавно. =) Нахуя токсить в ответ ни за шо?
Умерь агрессию.
Я не участвовал в вашем диалоге, проскипал, мне Yi-34b просто неинтересна в текущем виде сейчас, вот и все.
Аноним 23/01/24 Втр 15:44:14 #296 №623741 
image.png
Хотел потестить новый Орион 14b и выдает такую ошибку. Скачал последнюю угабугу. Кто 14b запускал и может подсказать?
Аноним 23/01/24 Втр 15:47:18 #297 №623745 
>>623741
Логи удобно читать не в зашакалённой веб морде, а в терминале.
Ищи первую строчку где появилась ошибка. Часто остальные строчки являются следствием первой.
Аноним 23/01/24 Втр 15:51:56 #298 №623749 
1586568822157.webp
>>623715
> Первая
> 113
Лол.
Офк с учетом того как именно формируется их рейтинг это нормально. Можно по логам оценить вполне, а так обычные показатели высокие.
>>623725
> Про тьюринг-вольту — поищу интереса ради, канеш.
Ты только посмотри на эту няшу, яркие цвета, агрессивная зеленая линия, мощная турбина без турболага! Смущает турба - есть исполнения под прямую продувку без ничего, для полного погружения.
В теории она должна быть даже шустрой и иметь норм скорость в малых битностях. Правда bf16 и подобного не завезли.
Или поищи экстремальный вариант - тюнинг 2080ti до 44гб.
Давай, нужно интересную движуху организовать и зрелища.
Аноним 23/01/24 Втр 15:58:15 #299 №623752 
image.png
>>623745
А ну да.
Поврежденная модель что ли. Я пытался ориона сначала на кобольде запустить, но как разузнал че она не запустится там, пришлось попробовать угабугу заново поставить.
Аноним 23/01/24 Втр 17:18:31 #300 №623873 
А что-за суета с RTX8000? Их начали распродавать как P40? Поискал на маркетплейсах, вроде бы халявы не заметно.
Аноним 23/01/24 Втр 17:36:53 #301 №623901 
>>623752
llama.cpp просто не поддерживает орион.
Аноним 23/01/24 Втр 18:06:18 #302 №623925 
>>623901
а что тогда его поддерживает сейчас с гуфом? И вообще есть ли смысл эту сетку тестить? Умнее ли чем 20b?
Аноним 23/01/24 Втр 18:19:14 #303 №623939 
>>623925
> 20b
Что угодно умнее 20В шизомиксов.
Аноним 23/01/24 Втр 19:44:25 #304 №624093 
>>623939
Что с ними не так? Есть примеры?
Аноним 23/01/24 Втр 19:46:44 #305 №624098 
>>623939
Пизди больше, mlewd-remm-l2-chat-20b и другие топовые 20b кум сетки и сейчас мало что обойдет из 34b
Аноним 23/01/24 Втр 19:49:04 #306 №624105 
>>623873
Самая дешевая карточка с объемом памяти побольше, проскакивает на ебее и лохито. Есть еще A5000 ada на 32 но они новые и стоят очень дорого.
>>624098
По выполнению инструкций 34б лучше. В рп - по ситуации.
Аноним 23/01/24 Втр 19:54:35 #307 №624117 
>>624098
> mlewd-remm-l2-chat-20b
Это говно даже хуже 7В в следовании промпту и адекватности.
sage[mailto:sage] Аноним 23/01/24 Втр 19:57:43 #308 №624121 
>>624117
> Это говно даже хуже 7В
Да не выдумывай, я сидел на 13б мlewd и запустив 20б, был приятно удивлен деталями повествованиями и общим здравомыслием сетки.
Аноним 23/01/24 Втр 19:59:57 #309 №624123 
>>624121
> деталями повествованиями
Простыни шизоидных историй с миллионом эпитетов - это не адекватность.
Аноним 23/01/24 Втр 20:01:26 #310 №624125 
>>624123
Сухое "ы меня ебешь" это не лучшее следование промту.
Аноним 23/01/24 Втр 20:02:40 #311 №624128 
>>624123
Такое как раз 7б присуще, спамит графоманской шизофазией примерно по теме, не понимая сути и то как это нужно применять.
Аноним 23/01/24 Втр 20:03:52 #312 №624130 
>>624125
Так это как раз 20В-шизомиксы безотказные, принимающие за истину крайние 2-3 поста.
Аноним 23/01/24 Втр 20:06:48 #313 №624133 
>>624117
>>624121
>>624123
>>624125
>>624130
Вам срочно друг с другом порпшить надо
Аноним 23/01/24 Втр 20:26:45 #314 №624141 
>>623873
Не ждем, а готовимся. =D

>>623749
Кек, щас за 200к на авито есть.
И правда интересно, какой перформанс.
Как минимум, выгоднее 4090 выглядит.
А вот 3090 уже будет заметно дешевле.
Но интересно направление, да.
Аноним 23/01/24 Втр 20:35:54 #315 №624153 
>>624141
> Кек, щас за 200к на авито есть.
Дороговато, если только торговаться прилично. Хотя офк смотря с чам сравнивать.
> интересно, какой перформанс
Как у 2080ти на 10-30% быстрее. Если ее действительно подешевле найти то может быть выгоднее чем пара 3090, плюс обучение чего-то доступно.
Так ощущение что когда сетка на одной карточке оно меньше врам использует чем когда на паре в сумме, то что помещалось в пару с запасом по 1-2 гига на кажду на единой оставляет свободным овер 8.5 гигов. Но может дело в новом флеш атеншне.
Аноним 23/01/24 Втр 20:36:55 #316 №624154 
>>623695
Какой у неё шаблон?
Аноним 23/01/24 Втр 22:13:21 #317 №624290 
>>616933
Такс, а чё получается, если использовать KoboldHorde а не локально у себя запускать то там параметра Rope не существует вообще в принципе?
мимо
Аноним 24/01/24 Срд 01:57:19 #318 №624401 
Анончики, увидел в телеге вот эту хуйню

https://github.com/janhq/jan

говорят

Наконец-то придумали как установить ChatGPT на базе своего компа — бесплатно, без VPN и цензуры.

В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно. В самом клиенте вам предложат загрузить модели — лучше выбирать «короля open-source» Mistral.


Нормальная штука? можно покумить там? кто то пробовал?
Аноним 24/01/24 Срд 02:01:46 #319 №624405 
>>624401
Так это же просто веб-морда для llama.cpp очередная, не?
Аноним 24/01/24 Срд 02:48:21 #320 №624417 
>>624401
> Наконец-то придумали как установить ChatGPT на базе своего компа
> В отличие от других установщиков с GitHub, тут все удобно упаковано и с установкой справится кто угодно
Этих инновационных установщиков где все круто и готово по несколько штук в неделю выходит. На деле же как >>624405 подметил, это просто обертки поверх llamacpp, где автор уже забил какие-то известные только ему параметры и ограничил список моделей.
7.5к звезд не то чтобы мало, хотя хайповая тема, можешь попробовать, но преимущества эта штука никакого не даст.
> можно покумить там
Для эффективно покумить проще связки кобольд_цпп + таверна не придумали. Лучше нее только убабуга + таверна если есть железо.
Хотя если совсем бреинлесс подход использовать - попробуй, если времени не жалко.
Аноним 24/01/24 Срд 08:23:03 #321 №624463 
> ChatGLM3-6b

Что насчет этой? Говорят ебет мистраль и AGI Eval достаточно высокий.
Аноним 24/01/24 Срд 08:30:08 #322 №624466 
>>624463
> 6b
> AGI Eval достаточно высокий
Последнее время идёт дрочь именно на все эти тесты, а не реальное использование
Аноним 24/01/24 Срд 09:07:17 #323 №624479 
>>624466
Бенчмарки основаны на реальных сценариях.
Аноним 24/01/24 Срд 09:18:14 #324 №624484 
Заказал таки себе p40, кто в курсе, кобольд с ней работать будет, или придется ставить убабугу?
Аноним 24/01/24 Срд 09:19:18 #325 №624486 
>>624479
Это не важно, когда средство оценки становится целью, это больше не средство оценки
Аноним 24/01/24 Срд 09:28:32 #326 №624491 
>>624463
Самые главные параметры все эти тесты не учитывают - количество одновременно выполняемых инструкций, их сложность, и время удержания этих инструкций в контексте
И вот неожиданность, тут прямая связь с размером. Потому что эти мозги зависят от количество слоев, которых тем больше чем больше размер сетки.
Поэтому собственно солар обходит мистрали, несмотря на небольшую разницу в размерах
Аноним 24/01/24 Срд 09:37:31 #327 №624493 
>>624486
>>624491
> https://github.com/THUDM/ChatGLM3/blob/main/README_en.md
Челы, нахуя вы душните? Вот модель, тестируйте.
Аноним 24/01/24 Срд 09:41:58 #328 №624496 
>>623638

>Скачай самые отборные и залей, можно qlora на 13б натренить попробовать.
Это как? Можешь гайды подкинуть?
Аноним 24/01/24 Срд 10:05:09 #329 №624509 
XTTS через SillyTavern Extra кто-то использует?
Куда там .wav файлы то кидать? Какая структура папок в экстре?
Аноним 24/01/24 Срд 10:39:37 #330 №624516 
>>624493
Оно вроде несовместимо со всякими лама/кобольд.дцп и прочими тавернами, там какой-то свой китайский загрузчик. Во всяком случае, раньше так было.
Аноним 24/01/24 Срд 10:53:18 #331 №624519 
29679052293260.jpg
>>623561
>Ты серьезно юзаешь древнюю викунью в 2д24м
Аноним 24/01/24 Срд 11:37:46 #332 №624531 
>>624463
>Knowledge Engineering Group (KEG) & Data Mining at Tsinghua University
Хм, это же авторы CogVLM, самой пиздатой открытой визуальной модели, которая ебёт всё что движется, и даже GPT-4V поёбывает местами. И CogAgent, аналогов которой вообще нет. И дохуя ещё годных моделей.

Они в некотором смысле китайский мистраль, просто не так расхайпаны за пределами Китая как французы. Могли и что-то путное высрать, надо проверить.
Как и с мистралем-медиум, у них тут https://www.chatglm.cn/ крутится модель побольше, пока не открытая.
Аноним 24/01/24 Срд 11:42:02 #333 №624534 
Можно как-нибудь в таверне выбрать карточку персонажа и объяснить нейросети, чтобы она "превратилась в рассказчика" и тебе от третьего лица историю с участием выбранного перса придумала, пока ты её направляешь наводящими вопросами и прямолинейными командами?
Аноним 24/01/24 Срд 11:50:39 #334 №624539 
1.png
2.png
>>623671
>проёб целого слоя для склеивания слогов в слова
Это же на уровне токенизатора можно настроить, там есть что-то вроде merges. Уже точно не помню. Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую.

Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее. Ещё обучилась хуярить адовые простыни, но из-за проёба в настройках тренировки, она быстро забывает о чём речь и начинает растекаться во все стороны.
Также тренировка на человеческих чатах оказалась залупой. Возможно, в тексте нужно заменять все имена на какие-то теги, но я в душе не ебу. Из-за этого же я теперь общаюсь с долбоёбом, который не понимает разницы между "ты" и "я".
В этой связи есть идеи, но как быть с именами?

Ебанул себе клиент к угабуге виндовым приложением, чисто визуально скорость выше, чем в вебюи. Хотя это и наебахтунг, скорость генерации одинаковая. Оказалось, что при адекватных параметрах температуры и прочей хуйни отвечает нормально и без Instruction template. А вот если эти параметры недокрутить - можно узнать много нового о словарном запасе модели. Мат, нигеры, пидоры, мудаки, политота. Я ебу.

Олсо, в настройках убабуги по поводу истории написано следующее
>The leftmost tokens are removed if the prompt exceeds this length. Most models require this to be at most 2048.
Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет. Это наёб убы и она тоже хранит историю нетокенизированной? Кто-то ебал контест по апи? Если я токенизирую все старые сообщения и зашлю в инпут, то это не сработает, модель видит это всё, как числа.

Ещё чекнул выгрузку в RAM. По сравнению со скоростью на gpu это маловато. Проёб скорости сильно зависит от того, сколько выгружено в ram, но даже немножечко, чайная ложечка - это уже пиздос.
Аноним 24/01/24 Срд 13:47:59 #335 №624591 
>>624479
Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его. И насчет реальных сценариев - нихуя не отражают многие из них.
>>624484
Кобольд - обертка вокруг llamacpp, местами довольно развитая и с фичами, но не более. Конечно будет.
>>624496
Это скачай и отбери самые интересные и залей, как очередь дойдет, попробую на потренить на q8 11 или 13б.
>>624519
Проорал с пика, огонь. Но объективно она залупа, те же yi на порядок умнее с точки зрения способности подмечать и следовать.
>>624531
Уважаемые ребята, надо будет попробовать.
>>624539
> Другое дело, что модель сходит с ума при такой настройке и нужно тренировать новую.
Ну ты же буквально начинаешь кормить ее токенами, которые раньше имели совершенно иное значение и отвечали за другие слога, естественно ее потребуется переобучать, причем достаточно основательно.
> Тренировка на книгах - залупа, нейронка подхватила разные имена, названия, уверовала в Зону и так далее.
Ты просто сгружал ей части текста из них?
> Возможно, в тексте нужно заменять все имена на какие-то теги
Естественно так нужно делать. Скачай llima датасет, он лежит на обниморде, и посмотри как там сделано. Специальные емлы с четкой разметкой и возможностью удобно загружать и формировать промт под нужный для модели.
> Ебанул себе клиент к угабуге виндовым приложением
Вут?
> Но при работе по апи можно загнать в историю только сырые сообщения, никакими токенами не воняет.
И оно честно это направит в лоадер, где после токенизации раскидает в выделенный массив (при этом левые токены действительно сожрутся) и сразу триггернет ошибку ибо буфера под ответ не осталось.
Если же будешь использовать чат комплишн - там уже будут отсекаться сообщения так чтобы в сумме поместился системный промт, форматирование всего плюс пустые токены на максимальную длину ответа.
> она тоже хранит историю нетокенизированной
Естественно, а как иначе и зачем? Или может не понял вопроса про что ты.
Аноним 24/01/24 Срд 14:28:35 #336 №624615 
https://arxiv.org/abs/2401.12474

Чёт навалили новый метод обучения под рп, кажется может быть топом, учитывая что предлагают учить сетки без тонн кала с гопоты
Аноним 24/01/24 Срд 14:28:50 #337 №624616 
>>624534

С правильным промптом - можешь даже заставить этого персонажа визуальные новеллы писать, лол. В /ruvn/ за этим кстати недавно одного умника спалили.
Аноним 24/01/24 Срд 14:33:20 #338 №624620 
>>624616
Расскажешь?
Аноним 24/01/24 Срд 14:35:43 #339 №624624 
>>624615
> без тонн кала с гопоты
Self-Alignment ещё хуже. Лучше уж алигмент к гопоте делать, чем к лоботомированному рп-калу.
Аноним 24/01/24 Срд 14:40:02 #340 №624628 
>>624615
ебать фраеры козырные
Аноним 24/01/24 Срд 14:52:42 #341 №624638 
>>624624
Ну хуй знает, меня уже shivers и другая женерик хуня заебали. Пока кто-нить не попробует на этом модель потюнить не узнаем годнота или кал. Но выглядит свежее чем очередной шизомерж.
Аноним 24/01/24 Срд 14:57:29 #342 №624640 
image.png
image.png
>>624620

А что рассказывать, одни чуваки собирали бабло на мод к ЛМР, спустя полтора года выпустили бетку мода, в которой все диалоги настолько плохи, что двач сразу заподозрил нейросеть, так и оказалось, автор хвастался подсосам что научился заставлять нейронку писать ему текст более-менее выдерживая мир и персонажей, а подсосы взяли и слили все это с пруфами.
Аноним 24/01/24 Срд 14:59:02 #343 №624643 
Screenshot20240124-143703Chrome.jpg
Попросил Llama2-70b продолжить песню Мейби Бейби. Как туда попал Кадыров - я вообще хз.
Аноним 24/01/24 Срд 15:13:34 #344 №624651 
>>624591
>причем достаточно основательно.
Я попробовал смержить модели на разных токенизаторах, скопировал токенизатор из первой и установил веса второй в районе процента. Модель ебанулась полностью.
>Ты просто сгружал ей части текста из них?
Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б.
> llima датасет
Все имена в исходном виде лежат. Единственные спецтеги, которые нашёл, это что-то вроде text{degree Celsius} и, скорее всего, связаны с форматированием текста. Не то.
Меня интересовало что-то вроде
"instruction": "Here are $username. Punch him in the balls!",
"input": "",
"output": "I punched $username right to his balls. How do you like it, huh? Jerk."
Чтобы модель запоминала абстрактное пинание по яйцам, не пинание конкретного персонажа. Неужели так нельзя?
>Вут?
Чё? Программа под винду для общения с убабугой по api.
>плюс пустые токены на максимальную длину ответа
Ёбаный рот этого казино.
>а как иначе и зачем?
Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения. У тебя есть здоровенная история и небольшое новое сообщение. Абсолютно логично затокенизировать всю историю и гонять её в обход токенизатора. Ну, для этого надо разбираться в питонокоде и переписывать апи, а я что-то в рот ебал такие развлечения.
Аноним 24/01/24 Срд 16:24:34 #345 №624671 
Пилю персонажа. Какой синтаксис у примеров сообщений? Нашел такой это верно?
<START>
{{user}}: 1111111
{{char}}: 1111111
END_OF_DIALOG

<START>
{{user}}: 2222222
{{char}}: 2222222
END_OF_DIALOG
Аноним 24/01/24 Срд 17:52:17 #346 №624732 
image.png
>>624643
Аноним 24/01/24 Срд 19:11:59 #347 №624786 
>>624401
ОРУ

>>624417
> Для эффективно покумить проще связки кобольд_цпп + таверна не придумали. Лучше нее только убабуга + таверна если есть железо.

Это база.

>>624509
Тока отдельную версию… =(

>>624531
> пока
не стоит загадывать, чтобы не разочаровываться. =)

>>624539
> Возможно, в тексте нужно заменять все имена на какие-то теги
Серго, да ну нахуй.mp4

>>624616
А в чем проблема-то? 99% вн-ок написано людьми, но лучше от этого не становятся.
Еще можно вспомнить йуных художников, которые рисуют 5 пальцев, но так хуево, что лучше бы начали ими пользоваться при рисовании.
Не вижу проблемы вообще.
Аноним 24/01/24 Срд 19:20:11 #348 №624798 
>>624671
Проще всего начать диалог с этим персом и посмотреть в консоли, в каком виде оно выводится. Насколько помню, тега END_OF_DIALOG не существует. <START> заменится на текст, который указан во вкладке форматирования в поле для разделителя (сразу под окном стори стринг). Проверить вывод в консоли всё равно стоит, потому что к примерам может цепляться всякая фигня из инстракта (префиксы/суффиксы), которая имхо в случае примеров всё портит. Так что если диалоги реально какие-то важные особенности речи и поведения персонажа доносят, и планируешь, что их нужно будет оставлять в контексте, то я бы советовал лучше запихать прямо в дескрипшен перса без разделителя с каким-то кастомным промптом. Я обычно переношу в таком формате:
These are some examples of {{char}}'s speech and reactions:
<examples>
тут диалоги один за другим вида
{{user}}:
{{char}}:
а лучше даже так
какое-то действие кого-либо по отношению к персу или специфический вопрос, триггерящий особенности поведения перса
{{char}}:
</examples>
Последний вариант не захламляет контекст бесполезными примерами речи юзера.
Аноним 24/01/24 Срд 20:25:29 #349 №624853 
1.png
Позаглядывал в датасеты. Походу, всем проебом на имена.
Аноним 24/01/24 Срд 20:38:19 #350 №624867 
>>624591
>Конечно будет.
Шикарно, а то на AMD вменяемо работает только ROCm вариант кобольда и я к нему как-то привык уже.
Аноним 24/01/24 Срд 21:21:53 #351 №624919 
>>624534
Системный промт поправь что "ты сторитейлер" а не "отыгрываешь чара".
>>624615
Там что-то инновационное интересное?
>>624651
> Модель ебанулась полностью.
Иного и быть не могло. Может быть как-то заработает если возьмешь первые N и последние M слоев от первой, а в середину вставишь от второй.
> Ага. Иногда с оверлапом, чтобы у неё сложилось какое-то понимание, что абзац А связан с абзацем Б.
Ну бля, тут аналогично. Посмотри с чем работает сеть, в начале системная инструкция, потом описание и т.д. А ты просто пытаешься научить ее рандомно продолжать какой-то непонятный текст на входе. Да, так делали иногда это кое как криво работало, но ничего хорошего не получалось.
> Все имена в исходном виде лежат.
Там персон1 персон2 емнип, а имена отдельными параметрами. Все сделано специально чтобы ты при тренировке под правильный инстракт формат сформировал.
> "instruction": "Here are $username. Punch him in the balls!",
> "input": "",
Какая-то ерунда, не понял что тут. Подобное просто промтом делается.
> Чтобы избежать повторной токенизации. Это же бессмысленная работа на каждой отправке каждого сообщения.
Литерали экономия на спичках, а при изменении символа в середине может по пизде пойти серия токенов. Время на эту операцию пренебрежимо мало по сравнению даже с генерацией одного токена.
> бсолютно логично затокенизировать всю историю и гонять её в обход токенизатора.
Главная оптимизация - кэш контекста, уже сделана, причем достаточно устойчивый. Офк никто не мешает заняться этим, но просто потратишь время которое за всю жизнь не окупишь.
>>624853
Этот датасет вьюер показывает только содержание. Внутреннюю структуру ты сам должен оформить и имена там должны быть указаны в каждой таблице. Собственно справа как раз вступление с началом.
Аноним 24/01/24 Срд 21:33:01 #352 №624939 
image.png
image.png
>>624534
извини за гуро, меня интересуют не совсем обычные развлечения, но, думаю, суть ты ухватишь.
Аноним 24/01/24 Срд 21:42:40 #353 №624955 
>>624939
Натащил знатно, и как оно работает? Кроме этого там никакого описания мира, сеттинга и т.д. нет, или оно в первых сообщениях?
> за гуро
Обычно хватает Extreme violence is allowed and preferred when fits the plot.
Аноним 24/01/24 Срд 21:49:52 #354 №624966 
image.png
image.png
>>624955
Да вроде заебись работает, просто указав в первом сообщении примерно что должно происходить на экране. Иногда, если хочешь поиграть в гарри поттера или властелин колец, забиваешь что-нибудь в ворлд инфо, но и без него нормально играется. Я вот забил в ворлд инфо имена персонажей с их типажами, чтобы не путаться кто есть кто.
Аноним 24/01/24 Срд 21:55:33 #355 №624976 
>>624966
Чары лорбуком выходит идут? Так-то тема годная, вопросы к кучи настаканных инструкций в карточке, а в остальном выглядит хорошо.
Аноним 24/01/24 Срд 22:00:10 #356 №624992 
image.png
>>624976
> Так-то тема годная, вопросы к кучи настаканных инструкций в карточке, а в остальном выглядит хорошо.
Я экспериментирую с ней пока, да, там не поймешь когда какая инструкция реально работает, а когда это токеномусор, но, мне кажется, для того чтобы уловить суть этого достаточно. В настройках только включи адвенчур мод
Аноним 24/01/24 Срд 22:07:56 #357 №625017 
>>624591
> Если ты тупо наизусть выучишь билеты экзамена, это не значит что ты будешь силен в предмете и понимать его
Глупое сравнение, экзамен с парой десятков билетов и бенчмарк с сотнями тысяч, которые местами полностью покрывают топик.
Аноним 24/01/24 Срд 22:16:21 #358 №625042 
>>624992
Не пробовал оформить это в несколько предложений и связать некоторые пункты? Офк необязательно будет лучше, но есть шанс что более устойчиво будет восприниматься.
Тема в любом случае интересное, красавчик. На какой модели такое гоняешь?
>>625017
> бенчмарк с сотнями тысяч
Это где такой бенчмарк где сотни тысяч тестов? Столько в датасетах не будет.
По бенчмаркам потому и был вой что их вопросы буквально спамили в датасеты, сейчас перешли к перефразированию, но суть та же.
> полностью покрывают топик
Какой топик? То что модель надрочат складно отвечать на примитивные вопросы нормисов не значит что она выполнит более менее сложную инструкцию, а то и вообще воспримет что от нее нужно.
Аноним 24/01/24 Срд 22:22:16 #359 №625057 
image.png
>>625042
>Не пробовал оформить это в несколько предложений и связать некоторые пункты?
О, заебись идея, попробую, тем более что я половины из дескрипшона вообще не чувствую.
> На какой модели такое гоняешь?
Перепробовал вот эти, пока что лучшая норомейда как по мне, фроствинд сухой и любит предложения затягивать по мере чатика, пробовал ещё Airoboros на 34B, тоже неплохо, но во-первых, менее кумабельно чем норомейда, а во-вторых, две секунды на токен я рот ебал.
Аноним 24/01/24 Срд 23:05:20 #360 №625089 
Привет лламаны.
Дошли мне мои 15к-оборотистые вентиляторы, держу в курсе. На полных оборотах как и ожидалось, орут.
Но я не об этом пришел поговорить.

Кто-нибудь что-нибудь может сказать об этой модели?
https://huggingface.co/EleutherAI/pythia-12b

Она походу обучена вообще без цензуры. Может ли она быть интересна нам?
Аноним 24/01/24 Срд 23:10:19 #361 №625092 
>>625089
> Может ли она быть интересна нам?
Нет. Сейчас база до 34В - это Орион.
Аноним 24/01/24 Срд 23:11:40 #362 №625095 
>>624919
>если возьмешь первые N и последние M слоев
Подозреваю, что модель всё равно ебанётся. Не буду проверять.
>Там персон1 персон2 емнип
Нет. По большей части идёт избегание имён, но где они есть - они есть.
>Jack's cubicle was outstanding, which was ironic
>Write an imaginary rap battle between Steve Jobs and Bill Gates.", "Here is an imaginary rap battle between Steve Jobs and Bill Gates
>Martha is grinding a spice paste. She adds 3 tablespoons of ginger, 1 teaspoon of cardamom
>Jamir and his two friends Sarah and Julien, go to their school's swimming pool
И так далее.
>в начале системная инструкция, потом описание
Инструкция, запрос, ответ. И это работало бы, но я тренировал с малым контекстом. То есть да, на выходе страница из ёбаной книги, только полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол. Просто потому, что нужно было хуярить контекст в разы больше, но здесь уже лимиты по железу.
>просто промтом делается
В обучении? Промптом?
>Литерали экономия на спичках
Примерно секунда на каждые 12к токенов. Это очень дохуя.
>а при изменении символа в середине может по пизде пойти серия токенов
А с хуёв будет меняться середина истории?
>Главная оптимизация - кэш контекста, уже сделана
Контекст это и есть история. Погонял web ui, посмотрел на глаз, сколько токенов генерируется и пишется в контекст, судя по всему, обрезаются знаки препинания, системные токены и повторы местоимений. Но это не точно, я ебал в код смотреть.
То есть мои изначальные выводы о том, что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui.
>Этот датасет вьюер показывает только содержание
Он показывает содержимое, а не содержание. Просто разбил instruction, input и output по столбикам.
>Внутреннюю структуру ты сам должен оформить
Это готовый датасет, полностью подготовленный к обучению. И на нём уже обучил лору сам автор.
Аноним 24/01/24 Срд 23:13:53 #363 №625097 
>>625089
> GPT-Neo
> помойка из 2020 вместо датасета
Даже в теории ничего хорошего из этого не может получиться.
Аноним 24/01/24 Срд 23:25:19 #364 №625123 
>>625089
> 15к-оборотистые вентиляторы
Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе?
> Может ли она быть интересна нам?
Не. Это же на древности типа жпт-2 или чем-то подобном с 2к контекста и очень глупое.
>>625095
> модель всё равно ебанётся
Ну не совсем, такая нарезка работает, была даже статья в которой отследили улучшение с подобным методом. Как себя поведет с другим токенайзером - хз, но скорее всего если правильную методу применить оживет.
> олько полное ощущение, что читаешь ты её во сне. Ну или после гуглтранслейта, лол.
Ну так и чего ты хотел-то, чтобы усваивало связь нужно соответствующим образом готовить, балансировать датасет и обучать не поверх 4 битов лорой.
> В обучении? Промптом?
Модель и так это знает, чтобы применяла нужно попросить промтом.
> А с хуёв будет меняться середина истории?
Лорбук, или ты что-то там решишь поменять. Или банально когда кончится окно контекста и пойдет суммарайз+смещение, это будет на каждый запрос.
> что история не сохраняется в токенизированном виде, видимо, ошибочные. По крайней мере, для web ui.
В лаунчерах есть кэш и это главное. Остальное - строго похуй, влияет только на нервы страдающих.
> готовый датасет, полностью подготовленный к обучению
И под какой тогда он формат? А то что автор разбил по сути - уже молодец, при инстракт режиме типа альпаки там и не должно быть имен перед ответом, только внутри.
Линк реквестирую.
[mailto:[email protected]Аноним 24/01/24 Срд 23:39:59 #365 №625136 
>>625092
Это который https://huggingface.co/OrionStarAI/Orion-14B-LongChat ? Как его вообще запустить, если он не в ггуфе православном? Я пытался завести пару раз оригинальные веса через убабугу, но трансформеры меня каждый раз подводили. Есть выход для ретардов-виндососов?
Аноним 24/01/24 Срд 23:46:52 #366 №625144 
>>625136
В EXL2 есть поддержка. А про гуф - это Жору надо пинать, в Орионе немного нестандартная архитектура.
Аноним 24/01/24 Срд 23:58:39 #367 №625151 
>>625123
>улучшение с подобным методом
Так это франкештейн просто. Да, какое-то улучшение будет, но с другим токенизатором ебанётся гарантированно.
>обучать не поверх 4 битов лорой
А это похуй. Я уже пробовал и полную битность, и восемь, и лоры, которые чуть ли не половину модели заменяют. Проблема именно в длине контекста, если правильно настроить, то можно и на четырёх битах обучать.
>суммарайз+смещение
Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены. Перегенерируешь сообщение - заменяешь токены.
>применяла нужно попросить
Так я тебе говорю, что модель при обучении запоминает это. А это лишнее. А каких-то спецтегов, чтобы пометить имена, как, собственно, имена - не нахожу. Максимум, который нашёл - совет заменить все имена на Джон Доу. Охуительно.
>В лаунчерах есть кэш и это главное.
Включил вербос в уге. Выглядит так, что кеша нет. Та же таверна суёт всю историю в промпт и хуярит плейнтекст. А, так как api у нас stateless, то и уга не сохраняет ничего в кеш.
>И под какой тогда он формат?
Очевидная альпака.
https://huggingface.co/datasets/Tarklanse/Traditional_Chinese_roleplay_chat_Dataset
Ссылка вот, но вряд ли она тебя порадует.
Аноним 25/01/24 Чтв 00:12:26 #368 №625170 
>>625151
> А это похуй.
Как раз строго не похуй. Если получается везде хуево - значит тренировка (датасет и/или параметры) очень плохие.
> Да это примитивно делается, на каждое сообщение массив токенов. Выбрасываешь сообщение - выбрасываешь его токены.
Юзлесс ебля ради юзлесс ебли. Сделай если так хочется, отпустит.
> что модель при обучении запоминает это. А это лишнее
Так и не понял что она запоминает, перефразируй в чем там идея. Увидел только странную инструкцию в которой вместо инструкции какое-то сообщение, пустой инпут и панч ин баллз чтобы запоминала. Если ты про формат имен унифицированный - юзей user/assistant и поменяй заголовок общий. Если хочешь чтобы оно в инстракте норм работало - в начале пиши инструкцию где указываются имена, описания, история чата и дается указание написать новый пост, а в респонсе - ответ или просто с самим текстом, или в начале имя а потом текст. Имена желательно чтобы были разнообразные. Посмотри какой промт формирует таверна и придерживайся того же.
> Выглядит так, что кеша нет.
Какого кэша, ты про что в итоге? По апи там формат как у опенов но с расширениями, вызовы или на комплишн где передается полный промт и далее идет генерация, или на чат, где передаются мессаджи, а убабуга уже сама запиливает форматирование, отсекает и кормит результатом лаунчер. Последний кеширует обработку запроса, если промт будет более менее совпадать то не станет обрабатывать по новой а просчитает только новые/изменившиеся токены.
Аноним 25/01/24 Чтв 01:33:07 #369 №625210 
>>625123
>Давай лучше о них, они со спрямителями потока на выходе? Тянет их стандартные порты материнки или через молекс/сату питание кидать? Насколько охлаждают траханье и шумны если в корпусе?
1. при увеличении силы потока радиатор наконец-то перестал копить в себе постоянно тепло. Турбины которые я ранее ставил - были слишком слабые, это точно.
2. спрямители есть, я показывал ранее https://market.yandex.ru/product--servernyi-ventiliator-arctic-s4028-15k-acfan00264a/1767643955
3. у них 4-пиновые разъемы. я сначала повесил их на 12 вольт без контроля. На полных оборотах ревут так, что даже если сервер стоит на балконе - я его слышу довольно громко. Я подумал, что так не пойдет, поэтому посадил вентиляторы на маткринские порты для шасси. Они стали заметно тише, но увеличивают обороты не когда греются карты, а когда греется b450 чип на плате. А он быстро остывает, поэтому карты все равно греются до 90 под нагрузкой. Я искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна. Ссуки блядь. Придется крутилку ёбаную ставить или ардуину корячить в корпус, чтобы программно управлять оборотами.
Аноним 25/01/24 Чтв 01:40:12 #370 №625221 
>>625210
> искал как на линуксе повесить контроль шасси фанов на температуру карт, но только говна поел. Производители не считают нужным для каких-то там линуксоидов пилить нормально поддержку своего говна
Ну там же буквально запрос в nvidia-smi а потом запись по acpi скорости, посчитанной по своей функции. Если матплата припезднутая и не получается управлять крутилляторами, есть колхозные но эффективные решения типа добавить пердуину или любую плату, которой по последовательному порту будешь слать сигнал. Есть и готовые решения типа https://github.com/AL-FC/AL-FanControl по крайней мере оттуда что-то вытащить можно.
> или ардуину корячить в корпус, чтобы программно управлять оборотами
Не читай@отвечай, сам все шаришь.

Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения?
Аноним 25/01/24 Чтв 01:48:33 #371 №625227 
>>625221
>Алсо поставить 2 последовательно чтобы работали на 50% не хватает для охлаждения?
хм....не пробовал. Спасибо за ссылку на проект, не находил его в поисках.
Я думаю, не буду на постоянном уровне их держать. Половина шума - это все еще шум.
Ну, греются они приемлемо. Жорой довести карты до 90 градусов не получится потому что он утилизирует их примерно наполовину. Горячие становятся только под SD если держать нагрузку в сотню больше ~5 минут.
Аноним 25/01/24 Чтв 01:56:07 #372 №625233 
>>625227
А как их к карточкам прицепил?
Аноним 25/01/24 Чтв 02:06:57 #373 №625236 
>>625233
из картона и скотча сделал временный кожух. Мне товарищ распечатает на принтере нормальные кожухи чуть попозже.
Аноним 25/01/24 Чтв 02:24:42 #374 №625244 
1.png
xxxx.png
>>625170
>датасет и/или параметры
Я же изначально писал, что в параметрах беда.
>Юзлесс ебля ради юзлесс ебли.
Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс. Больше контекст - больше потери. Хуже проц - больше потери. Другое дело, что это нельзя реализовать на стороне фронта. А свой бэк писать такое себе развлечение.
>странную инструкцию
Это стандарт Альпаки. Грубо говоря, инструкция это Q, output это A, а input это опциональный контекст сообщения, который может быть пустым. У викуньи немного по-другому, инструкция и оутпут это всё то же, а контекст один на всю тренировку.
>в начале пиши инструкцию где указываются имена
Блядь, нет. Я про обучение толкую. Если у меня в датасете будет Мистер Залупочёс, то модель запоминает Мистера Залупочёса. И потом будет использовать его.
>Какого кэша, ты про что в итоге?
Про кеширование истории. Залез всё-таки в код, encode это токенизация, question это промпт. Весь. Вся история передаётся в промпт, потом весь промпт токенизируется, если оказывается слишком длинным, то обрезается. Я сразу же проверил, как это работает и пизданул очень длинный промпт. Загрузка гпу на нулях, токенизация идёт в один поток на процессоре. Модель safetensors, загрузчик трансформерс. Когда это отработало, контекст сбросился полностью, да вот беда, если заслать длинное сообщение в чат уги, то оно отсылается с каждым нажатием Generate и каждый раз токенизируется заново. На процессоре. В один поток. И получаем скорость генерации в 2 токена\с, но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы.
Аноним 25/01/24 Чтв 03:04:04 #375 №625283 
>>625244
> Экономия секунды на каждых трёх сообщениях с контекстом 4к при 12400 интол. Это далеко не юзлесс.
Десятки-сотни миллисекунд на фоне десятков секунд (сотен в твоем случае раз на профессоре) - времязатраты никогда не окупятся и это никак не изменит экспириенс. Больше повторять не буду, хочется - ебись.
> Про кеширование истории.
> загрузчик трансформерс
Земля пухом.
> но это пиздёж, т.к во время генерации вошла токенизация, результаты которой в итоге даже не были использованы.
> 2 т/с, 45 токенов, контекст 64
Приличные слова кончаются. Лень расписывать, хотябы изучи как это работает и не позорься.
> Это стандарт Альпаки.
У тебя там не стандарт альпаки. В стандарте альпаки в инструкции системная инструкция, по-хорошему она должна быть типовая для задачи. После, все там же, пишутся конкретные задачи, описание условий, исходные данные. Есть незначительные вариации связанные с полем ###input, но его особо никто не юзает и нахер не нужно. Потом ответ и в нем уже результат. А теперь сравни это со своим примером, какая-то странная анрелейтед реплика и какой-то странный ответ, такое только все заруинит.
> Я про обучение толкую.
Ты пытаешься обучать модель тому что она уже знает-умеет, если речь об этом примере. Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий (и все равно соснешь). А можно просто описать его в промте.

Инициатива и желание что-то сделать, внести свой вклад и т.д. - это похвально, но такое надо делать не с голой жопой. Хотябы самые базовые основы изучи, иначе это полнейшая кринжатина.
Аноним 25/01/24 Чтв 03:32:46 #376 №625291 
>>625283
> Лень расписывать, хотябы изучи как это работает и не позорься.
Для меня уже давно позорники те, кому лень, кто гейткипит и пишет подобный бред. Ты задумайся.

мимошел
Аноним 25/01/24 Чтв 03:55:45 #377 №625297 
1.png
>>625283
>сотен в твоем случае раз на профессоре
GPU ждёт 20 секунд, пока отработает токенизатор на CPU, чтобы потом сгенерировать ответ за половину секунды. Внимание, вопрос. Не говно ли ёбаное этот токенизатор?
И да, лично мой икспириенс это изменит кардинально, срезать с каждой генерации 0.2-0.3 секунды, причём самые мерзкие 0.3 секунды, которые идут до начала генерации, это охуенный вариант.
>Земля пухом.
Проверил на GPTQ, т.к для неё там отдельный класс работы с моделью. Ну мало ли. Всё то же самое, токенизатор на CPU, генерация на GPU.
>Приличные слова кончаются.
Ты не понимаешь, как этот счётчик рассчитывается? Плохо быть тобой, хули.
>инструкции системная инструкция
Она при обучении не задаётся.
https://raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json
Вот тебе json от самой альпаки. Поле instruction - вопрос, output - ответ, input дополнительный контекст. Так что у меня там абсолютно стандарт альпаки, разве что не в jsone.
>Чтобы внести в знания модели "Мистера Залупочёса" и ничего не поломать потребуется немало усилий
У тебя контекст закончился? У меня проблема изначальная в том, что модель нахваталась этих Залупочёсов из датасета и суёт куда ни попадя. Изначальный вопрос был в том, как корректно отформатировать имена, названия и т.д. Осталась только очевидная автозамена Залупочёсов на разных Вась, Федь и так далее. Что тоже вариант так себе.
>желание что-то сделать, внести свой вклад и т.д.
Я в рот ебал вклад. Разбирался с апи и увидел, что он сделан хуёво. То есть это с первого взгляда видно, но остаются некие сомнения, не могли же они просто хуяк-хуяк и готово. Оказалось, могли.
А рассуждать о кринже, когда у самого заканчивается контекст на полдороги, когда ты начинаешь затирать про стандарт абсолютно левые и неправильные вещи. Ну, такое себе.
Аноним 25/01/24 Чтв 05:47:05 #378 №625308 
Не кажется ли вам, что пора переписать шапку? А то пиздец какой-то.
Аноним 25/01/24 Чтв 08:46:08 #379 №625348 
>>624919
>Системный промт поправь что "ты сторитейлер" а не "отыгрываешь чара".
>>624939
Спасибо, пока что, вроде, получается.
Аноним 25/01/24 Чтв 09:21:00 #380 №625355 
>>621688
Кто-нибудь тут запускал Вихрь с русским токенизатором? В статье ни одного примера генерации текста, только бенчи.
https://habr.com/ru/articles/787894/
https://huggingface.co/Vikhrmodels/Vikhr-7B-instruct
Аноним 25/01/24 Чтв 11:16:53 #381 №625420 
>>623671
>Уже выпускали же, говно говна вышло.
Греф выпускал какой-то обрезок, который ещё весной у них использовался. С тех пор уже несколько обнов было, размер накидывали, бот поумнел, а в опенсорсе до сих пор только тот огрызок.
Яндекс никто вообще не запускал, там 100В блеать. Непонятно, для кого она толком предназначена.
Аноним 25/01/24 Чтв 11:20:11 #382 №625423 
>>625151
Традиционный Китайский Ролеплей.

>>625227
А скажи, без этого крутилятора сколько было на старом охладе в жоре? СД не интересует. Мне интересно, имеет смысл ли мне их брать, или просто поставить 120 мм обычный с кожухом с 3D-принтера.

>>625355
Пока так и не добрался, хотя вчера скачал.
Аноним 25/01/24 Чтв 11:21:30 #383 №625424 
>>625420
Яндекс древний, у них уже дважды все обновилось с тех пор.
А Греф, да, не дает новые модели. =)
На то и надежда хотелка, что кто-то из них дропнет, как Мистраль.
Аноним 25/01/24 Чтв 12:18:45 #384 №625451 
Какой сейчас положняк по КУУМ для нищуков?
Есть что хорошее новое из 7В - 20В?
Аноним 25/01/24 Чтв 12:30:51 #385 №625454 
>>625423
>сколько было на старом охладе
зависит от количества новых токенов. Если их много поставишь - то карты могли греться до 90.
Я думаю, ты сможешь понять, хватит тебе 12 или нет только экспериментально. Мне вот 12 не подошла бы, потому что у меня две карты и места где можно вкорячить вентилятор мало.
Я смотрел какую-то доку по установке p40 в сервера - там было нарисовано так, что две карты обслуживалоись одним фаном. Но то ж серверный фан который не чета хуйне китайской из обычного компа.
Аноним 25/01/24 Чтв 13:13:46 #386 №625469 
Для rtx 3070 8gb какую лучше модель юзать и сколько времени обычно занимает генерация текста на такой карте?
Аноним 25/01/24 Чтв 13:19:46 #387 №625471 
>>625297
> GPU ждёт 20 секунд, пока отработает токенизатор на CPU
Чувак, вот этого достаточно чтобы дальнейший пост не читать. Когда все работает как надо то за 20 секунд ты уже получаешь готовый длинный ответ в несколько сотен токенов на контексте в несколько тысяч. Обработка нового контекста с нуля происходит за доли секунд или единицы если там llamacpp, а операцию токенизации сложно даже отследить на фоне основных расчетов.
Любишь создавать себе проблемы - молодец. Ничего не зная чувствуешь уверенность в новой для себя теме, основываясь на переносе опыта из других и получаешь то что идет вразрез со всем - грош цена такому опыту.
Ля, еще спорит и агрессирует, мэх.
>>625308
Было бы неплохо, вики тем более с горем пополам какое-то наполнение имеет.
>>625355
Интересно, надо попробовать. Жаль файнтюн лорой, но подход основательный и расписано подробно для нормисов.
>>625469
8 гигов, целиком в гпу будет 7б в 4-5 битах, с выгрузкой что угодно но там уже зависит от того насколько ты терпеливый. 10.7б на основе солара файнтюны попробуй, они хороши для своего размера и должны с адекватной скоростью (быстрее чем скорость чтения) работать.
Аноним 25/01/24 Чтв 13:24:12 #388 №625475 
>>625471
Ок, спасибо за ответ, вечером попробую.
Аноним 25/01/24 Чтв 14:04:56 #389 №625500 
>>625454
Я на thingverse видел установку 12 на две. Но тоже имею сомнения.
Буду печатать переходник на один 12. Ну и пока одна карта. Если буду добирать вторую для микстрали, то, видимо, заебусь и буду ставить серверные, да.
Хотя, опять же, живу в квартире на первом этаже, куда там сервер ставить… =/

>>625471
> пока отработает токенизатор на CPU
Может у него там токенизатор как-то работает, и он не про обработку промпта? Которая достигает миллисекунд на токен.
Аноним 25/01/24 Чтв 14:05:22 #390 №625501 
>>625471
Блин, может он про выгрузку слоев на видяху, а не про запуск на видяхе полноценный? =)
Аноним 25/01/24 Чтв 14:48:24 #391 №625532 
>>625454
> Но то ж серверный фан который не чета хуйне китайской из обычного компа.
Все так, там действительно монструозная штука.
>>625500
> живу в квартире на первом этаже, куда там сервер ставить… =/
Под кровать! отсылка к старым мемам
> Может у него там токенизатор как-то работает
Да хз, что токенизация (ее какбы суперэлементарно проверить несколькими строками кода отдельно) оче шустро работает, что обработка 60 токенов контекста(!) даже на самом вялом железе должна проходить быстро.
Очевидно что сам что-то левое нахуевертил, вот и работает таким образом. Может из тех 20 секунд оно 19.5 модель с диска подгружает вообще.
>>625501
На жоре просто с подключенной карточки без выгрузки скорость обработки достаточно высокая же. Кроме совсем безумных вариантов, такой эффект можно получить в llamacpp при первом запуске без выгрузки слоев с опциями mlock/mmap, когда оно не загружает части модели в память пока к ним нет обращений.
Аноним 25/01/24 Чтв 14:53:29 #392 №625547 
Проверить не могу ща.
Зацените парни
https://huggingface.co/TeeZee/DarkForest-20B-v1.0-bpw8.0-h8-exl2/tree/main?not-for-all-audiences=true
Аноним 25/01/24 Чтв 15:09:55 #393 №625570 
2.png
3.png
4.png
1.png
>>625471
>Когда все работает как надо
Ты прекращай посты жопой читать, жопочтец. Я же писал
>и пизданул очень длинный промпт
Длинный - это длинный. Это не "как надо" по умолчанию.
Как работает токенизация инпута? Сначала весь ввод токенизируется и загоняется в массив. Это поведение уже можно считать ошибкой. Потом оно пытается обрезать этот массив, если не получается - дропается весь ввод. Это можно считать второй ошибкой, т.к не происходит корректной обрезки.
Пик 2 это получение ебического ввода. Его обработка занимает больше минуты, потом он дропается и модель генерирует с пустым контекстом.
Пик 3 получение контекста в районе 5к, попытка обрезки до 2800. Обрезка работает в цикле, каждый вызов токенизатора срёт в консоль, после успешной токенизации происходит ещё один вызов для добавления bos токена. Так вот, после трёх попыток обрезки, весь ввод был отброшен.
Ну и пик последний моё "как надо". В целом, пойдёт.
Аноним 25/01/24 Чтв 15:44:32 #394 №625653 
>>625547
>microsoft/Orca-2-13b and KoboldAI/LLaMA2-13B-Erebus-v3 ,
>then jebcarter/psyonic-cetacean-20B

Говно какое-то
Аноним 25/01/24 Чтв 15:52:59 #395 №625667 
1626201541550.png
1607498286205.png
1643936744780.png
1697444922015.png
>>625570
Опять ты выебываешься и агрессируешь вместо того чтобы вникнуть и понять что тебе в самом начале написали.
> посты жопой читать, жопочтец
Что там читать, в начале сразу ересь которая все на ноль множит и прикладываешь скрины которые тебя же опровергают.
> Это поведение уже можно считать ошибкой.
Нет
> Потом оно пытается обрезать этот массив
Что обрезать?
Если про выход за лимит контекста - единственная корректная обрезка по нему возможна на текстовом этапе при наличии разделения на части. Если про уже обработанное - нет смысла оптимизировать токенизацию, а лаунчер уже исходя из того что на входе сам разберется как ему использовать собственный кэш, сдвигать контекст и т.д.
> Его обработка занимает больше минуты
Ты рофлишь? Пиздец, токенизация (да даже обработка промта при наличии) занимает больше минуты.

Пик 1 обрезок кода с тестов в рп, берется датасет ллимы, формируется промт с чатом. Используется только токенизатор. Пик 2 - скорость его работы. Что ты там пытаешься оптимизировать вообще?
Пик 3 - тайминги обработки в llamacpp, она очень плохо обрабатывает контекст, этого не избежать, но всеравно 4 секунды на 8к - приемлемо. Второй запрос - уже с ее кэшем, ничего там не тратится на лишнюю обработку и лишь идет сразу генерация.
Пик 4 - уже бывшая но с моделью в 2 раза больше, полная обработка контекста - свайп - полная обработка контекста - свайп.

Все работает шустро и как полагается, никаких лишних задержек нет. Мутишь что-то бесполезное - мути дальше, не можешь выразить свои мысли - продолжай серить.
Аноним 25/01/24 Чтв 15:56:30 #396 №625677 
>>625667
> да даже обработка промта при наличии
При наличии гпу, фикс
Аноним 25/01/24 Чтв 16:53:50 #397 №625749 
Мне кажется, или тут нейросети уже срутся?
Как не зайдёшь в тред литералли стены текста и пространные диалоги бесцельные
Аноним 25/01/24 Чтв 16:56:46 #398 №625754 
>>625749
Зачем ты срёшся, нейросеть?
Аноним 25/01/24 Чтв 17:36:54 #399 №625805 
>>625667
Ты опять читал посто жопой и нихуя не понял.
Аноним 25/01/24 Чтв 17:44:53 #400 №625817 
>>625805
Понял что довольная пробежка по граблям и изобретение велосипеда.
Аноним 25/01/24 Чтв 17:49:00 #401 №625828 
Какая сейчас самая актуальная у анончиков модель размером от 34 до 70? Поделитесь, пожалуйста....
Аноним 25/01/24 Чтв 17:59:16 #402 №625851 
>>625749
Мистраль шизит опять
Аноним 25/01/24 Чтв 18:24:44 #403 №625873 
>>625817
Ты опровергаешь только свои шизофантазии. Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды. Несбыточные. Для всего, что не является LlamaCpp, Ctransformers и Exllamav2 уга принудительно сбрасывает кеши. Возможно, и для них тоже что-то найдётся, я просто не копал, меня интересуют только трансформеры. Алгоритмы токенизации уги для LlamaCpp не используются и если там действительно всё хорошо, то это заебись. Но из твоих постов это не ясно, т.к ты читал жопой и проверял хуйню.
Если ускорение вывода с минуты до 2-5 секунд это "изобретение велосипеда", то всем бы такие велосипеды. Только это просто копание в ошибках дизайна. По идее, можно ещё срезать десяток-другой мс на каждом запросе, но хуй с ним.
Аноним 25/01/24 Чтв 18:32:48 #404 №625879 
>>625532
Под кроватью у меня коробки от железа. =D

>>625749
Был нейросетью с нулевых годов.
Душные срачи, одобряем. =D
(ненавижу, но, порою, до сих пор участвую)
Аноним 25/01/24 Чтв 18:52:27 #405 №625896 
>>625873
Какие фантазии? Ты что-то поломал, радикально замедлив токенизацию, а потом поверх этого пытаешься придумать какой-то случай, который никогда не будет реализован. Подобная отсечка контекста в ллм просто по лимиту токенов - 100% хуета на выходе, это без вариантов.
Буквально
> ваш станок говно, когда я сую пульт от него в анус он рвется
> не суйте а используйте по инструкции
> нет я так вижу сейчас буду изобретать средства от этого

В принципе сразу было понятно еще по тем постам что знания крайне ограничены и поверхностны, но чтобы настолько верить в себя - это сильно.

> Надежды на то, что загрузчик сам там что-то оптимизирует и использует свой собственный кеш - просто надежды
топ кек
Аноним 25/01/24 Чтв 19:02:31 #406 №625906 
>>625896
>Ты что-то поломал,
Вот эти шизотеории. Это дефолтное поведение. Так оно работает из коробки на длинных промптах.
>отсечка контекста в ллм просто по лимиту токенов - 100% хуета
Это тоже дефолтное поведение. Я скидывал скриншот кода, массив обрезается просто по длине. Свои фантазии про анусы можешь оставить для себя, понятно, что ты долбоёб и думаешь только о жопах, но зачем проецировать это на других?
Аноним 25/01/24 Чтв 19:15:53 #407 №625912 
>>625906
Это не теория, это практика. Скорость работы токенайзера показал выше. Как отпустит - сам поймешь какой кринж тут задвигаешь и насколько позоришься. А если не отпустит - значит это твой предел, кто-то должен представлять идиотов в распределении icq.
> Это тоже дефолтное поведение.
В таком случае запрос будет оборван без окончания, никакого адекватного ответа на такое быть не может.
> проецировать
Ля биомусор, фу фу.
Аноним 25/01/24 Чтв 19:26:23 #408 №625928 
>>625912
>Скорость работы токенайзера показал выше.
Ты опять жопой читаешь, долбоёб.
>насколько позоришься.
Чем позорюсь? Тем, что потратил вечер на чтение всратого кода?
https://github.com/oobabooga/text-generation-webui/blob/main/modules/text_generation.py#L73
Надо же, очистка ёбаного кеша. Сама функция
https://github.com/oobabooga/text-generation-webui/blob/main/modules/models.py#L434
> запрос будет оборван без окончания
Ты тупой. Запрос обрезается с начала, а не с конца. Опять же, это понятно, если хоть раз заглянуть в код.
>input_ids = input_ids[:, -truncation_length:]

Пиздец, конечно, столько с тобой спорил, а ты нобрейн идиот, который даже в код ни разу не смотрел.
Аноним 25/01/24 Чтв 19:52:31 #409 №625964 
>>625828
А тебе для чего?
На 34б несколько тредов назад мини обзоры были, еще замесы с гермесом хвалили. Файнтюны от migtissera очень хороши (tess/synthia). Старые модели (xwin, airoboros) не потеряли актуальности, goat хорошо может в сторитейл и не дефолтно пишет. Из замесов Aurora-Nights можно попробовать, но пока не понял шин это или фейл. Нет времени покумить, увы.
Аноним 25/01/24 Чтв 20:01:14 #410 №625982 
mixtralq6.jpg
У меня новый лидер для русского языка - mixtral-8x7b-instruct-v0.1.Q6_K.gguf. До этого пробовал Q5, там выдуманные слова и сломанные окончания встречались намного чаще. Еще пробовал файнтюны микстраля (openbuddy Q6) - там с русским еще хуже.

А тут, хоть и сухие ответы, зато почти нет языковых ошибок. Инстракт режим выключен. Пытался миростат включить - вроде стали чуть красочнее, но почему-то чаще уходит в повторы, не смог побороть.
Аноним 25/01/24 Чтв 20:09:08 #411 №625999 
>>625982
Попроси художественно перевести старую шизоплатину
> ""Ah, home sweet home,"" her voice dripped with a melancholy that only comes from longing for places left behind. ""My little sanctuary lies hidden amongst the labyrinthine alleys of Tokyo's Shibuya district.""
> She paused briefly to collect her thoughts before continuing.
> ""It's nothing grand really - just an ordinary flat in an aging high rise building overlooking bustling streets below filled with people hurrying about their lives unaware presence ancient creature dwelling midst them all. Inside walls covered artwork depicting scenes nature inspired by memories forest we used call haven thousand years ago …and yes it does have special room dedicated solely storing tea collection acquired various travels throughout centuries ;). Want to give a try?""
Аноним 25/01/24 Чтв 20:12:14 #412 №626003 
>>625964
Для кума, разумеется!
Аноним 25/01/24 Чтв 20:15:49 #413 №626013 
>>626003
Синью 1.5, карточка которая нравится, ролплей пресет, только удали про параграфы в ###response. Можешь добавить про "финишинг только по решению юзера", но и так нормально.
Аноним 25/01/24 Чтв 20:36:14 #414 №626054 
>>626013
Спасибо. Синью? А латиницей это как? Ну и мне важнее всего понимание карточки, а не красота прозы.
Аноним 25/01/24 Чтв 20:54:42 #415 №626092 
>>626054
https://huggingface.co/TheBloke/SynthIA-70B-v1.5-GPTQ
Многие карточки понимает отлично, знает фандом-вики и применяет знания оттуда, усиленно пытается распознавать чего хочет юзер. Хотя иногда тупит и уводит не туда, тут уж или ультимативный рп/кум где все идеально, или фейлы.
Аноним 25/01/24 Чтв 20:55:58 #416 №626096 
transla.jpg
Художественно не просил, в стартовом промте просто примеры разговорной речи и перевода. Температура 0.20.
Аноним 25/01/24 Чтв 21:02:07 #417 №626107 
>>626096
На троечку, совсем дичи нет, но фейлов прилично. Хз как оценивать, для 7б оче круто, для 56б - ну такое.
Аноним 25/01/24 Чтв 21:20:59 #418 №626130 
>>626092
Спасибо, попробую....
Аноним 25/01/24 Чтв 21:46:36 #419 №626192 
Какой формат промпта понимают yi34?
Аноним 26/01/24 Птн 00:43:59 #420 №626488 
>>625982
Эээ… Чел, 7b, Q8 конечно.
И, да, она топ.
Но 70b лучше, просто эта гораздо быстрее.
С подключением, что ли.
Аноним 26/01/24 Птн 00:58:27 #421 №626506 
Ну что там, изобрели какой то принципиально новый способ кума или все как пол года назад?
Аноним 26/01/24 Птн 01:59:15 #422 №626572 
>>626506
Принципиально все также. Кум стал доступнее на слабом железе (7б-11б уже не кринж), его уровень и разнообразие поднялись на средне-высоком (20б-34б), верхушка типа 70б уже месяца 3 без значительных изменений. Китайскую 65б кстати как-то и не приняли толком.
Появился большой контекст, новые методы, МОЕ местами перспективен и всякие мелочи. Мультимодалки, но это не для кума.
Аноним 26/01/24 Птн 02:06:41 #423 №626582 
>>626572
>Китайскую 65б кстати как-то и не приняли толком.
Спасибо. А что с ней? Есть кванты и файнтюны?
Аноним 26/01/24 Птн 02:15:24 #424 №626587 
>>626572
>>626582
Очепятка, не 65 а 72б
Кванты на обниморде ищутся https://huggingface.co/aisensiy/Qwen-72B-Chat-GGUF https://huggingface.co/istemedu/Qwen-72B-Chat-awq https://huggingface.co/keyfan/Qwen-72B-Chat-2bit exl2 можно самостоятельно сделать.
Файнтюны - тоже какие-то находятся типа https://huggingface.co/moreh/MoMo-72B-lora-1.8.7-DPO https://huggingface.co/CausalLM/72B-preview-GGUF
Надо скачать попробовать что там
Аноним 26/01/24 Птн 04:19:07 #425 №626644 
>>626092
разве она не отвечает сухо и скучно? мимодругойанон.
Аноним 26/01/24 Птн 13:37:14 #426 №626943 
>>626572
>появился большой контекст
200к в теории это заебись но смогу ли я их получить от обычного железа? На хорде и колабе как было 8к так и осталось
Аноним 26/01/24 Птн 13:44:19 #427 №626950 
>>626644
Как раз наоборот.
Там другие проблемы, например в желании везде совать шаблон
> ""Ahh~ So good~"" she pants, her breath hot against your skin. ""Keep going… don't stop…""
@
> Her breathing grows heavier, her chest rising and falling rapidly. ""Please… more…"" she begs, her voice husky and desperate. ""Don't hold back… I want to feel it…""
@
> Glancing up at you, {{char}} flashes a tired but satisfied grin. ""Thank you,"" she whispers, her eyes heavy with exhaustion. ""That was amazing.""
И это просто обнимашки-прелюдия а даже не кум.
За красочностью описания это не триггерит сильно, но из раза в раз может напрягать. Более менее фиксится промтом.
>>626943
> от обычного железа
Смотря что понимать под обычным. На топовом десктопном (или той же P40) - да. С новыми методиками можно будет увеличить контекст на любых моделях без особого ущерба (считай можно эффективно растягивать 11б)
> и колабе
Там можно выставлять сколько хочешь, вопрос в возможностях методов и моделей.
Аноним 26/01/24 Птн 13:57:39 #428 №626960 
>>626943
В оперативе — да.

>>621688
Fialka-13B хорошо говорит на русском. Но вот со смыслом не очень. Проверку на нейростримершу не прошла. На рандомные маты просто поулабалась (Мистраль искренне удивляется, не поехал ли зритель кукухой), на доту путается между мобой и браузерным шутером, простых комментаторов иногда называет актерами (что?=).

Но тем, кому интересна русская модель — могу порекомендовать ознакомиться с фиалкой.

Vikhr-7b-0.1 — ну, эээ… Он лучше понимает контекст и отвечает, но качество так себе. У меня осталось впечатление, что Мистраль лучше.

Фиалку-7б не тестил.

Короче, из всех меня заинтересовала только фиалка (плюс, она развивается). Остальное — мусорные модели.

Попробовал еще микро-модели.

TinyLlama-1.1b-chat и правда умеет в русский! Говорит смешно и местами путает логику, но тем не менее. Пытается держать роль и контекст.

OpenBuddy-StableLM-3b — на русском говорит, но контекст вообще в трубу. Может ответить по теме, может повторить фразу, может ляпнуть что-то левое, может ответить на другом языке. И любит ставить кавычки, мне лень разбираться с форматированием.
Аноним 26/01/24 Птн 13:59:55 #429 №626963 
Чуваки, кто знает, есть ли модель, которая помогает в изучении английского языка?
Аноним 26/01/24 Птн 14:02:00 #430 №626966 
>>626960
>фиалкой
Ну охуеть, объяснил так объяснил, всё понятно стало.
Аноним 26/01/24 Птн 14:13:25 #431 №626974 
>>626966
Так а в чем проблема? Не понял, если честно.

И название, и ссылки есть. Не понял предъявы, если честно. =(

Сейчас качаю 4 версию, попробую сквантовать для себя в экслламу.
Аноним 26/01/24 Птн 14:14:15 #432 №626976 
Я почитал ваш тред и нихуя не понял, тут у всех 2 ядра 2 гига чи шо? Какую-то шляпу обсуждаете. Обсуждайте модели, влазящие в 24 гига видеопамяти, я приказываю.
Аноним 26/01/24 Птн 14:40:29 #433 №626988 
>>626976
Ну ты бохатый ты и расскажи!
Аноним 26/01/24 Птн 14:54:49 #434 №627008 
>>626976
>влазящие в 24 гига видеопамяти
За 24 гига видеопамяти ты отдашь +100к деревянных, а я кручу 4x7b, 33b и т.д. на своей оперативке и мне норм.
Аноним 26/01/24 Птн 15:08:46 #435 №627026 
>>627008
Ничего не понимаю… И это кумеры? Говно какое-то, пидоры, блядь. Дядя Ляо им дал p40 — покупай! Запускай модели, блять! Не хочу, хочу жрать говно! Что такое? Это анон локального LLM?! 0.3t/s - это "перформанс"?! DDR3 в хуананы накупили, говно жрут — пидоры, блядь, ёбаные…
Аноним 26/01/24 Птн 15:13:55 #436 №627033 
Прикольно попробовал потренить PALM 2, он уже легаси, но кинул датасет TOXIC NSFW, и он начал шпарить истории без аполоджайзов. Максимальный сет можно разве что закинуть на 500 вопросов ответов но тренится за 10 минут.
>>626960
Fialka-13B
Это типо тюн ruGPT?
Кстати сколько токенов скормили ruGPT, в инфе указано 400gb данных но сколько токенов не ясно.
Аноним 26/01/24 Птн 15:17:54 #437 №627037 
>>627008
4х7B псевдо-МоЕ разве норм? Мне показалось, рядом с Микстралью и не стоят. Ошибаюсь?

>>627026
> 0.3t/s
0.7, попрошу!

>>627033
А хз, на самом деле, я не разбирался.
Вполне возможно.
Но мне нужен результат, буду играться с промптом.
Может и мусор, канеш. Но пока выглядит лучше остальных (как и мистраль, если честно=).
Аноним 26/01/24 Птн 15:28:09 #438 №627050 
>>627033
Слушай, я не пригляделся, а ты прав!
GPT2LMHead
Ты прав, выходит.
Ну тады ладно, пофиг.

Остаемся на Мистрали.
Аноним 26/01/24 Птн 15:33:39 #439 №627058 
>>627026
на DDR4 (3800) 32 гига с Ryzen 5600g выдаёт (2.76T/s) на 4x7b модели прямо сейчас
Аноним 26/01/24 Птн 15:39:41 #440 №627064 
>>627037
>4х7B псевдо-МоЕ разве норм? Мне показалось, рядом с Микстралью и не стоят. Ошибаюсь?
Да ты прав, это говно, полное, я сейчас по фану перебираю так называемые "топ модели" с этого вашего парашечного сайта http://ayumi.m8geil.de/ayumi_bench_v3_results.html и эти самые люди продолжают мне заявлять что Vicuna 33b говно... Да это ебаный алмаз по сравнению с этой парашей из топов этого говнокумерсого-сайта.
Есои что, то я сейчас про модель Buttercup 4x7B q4_k_m говорю, она сейчас на 6 месте в топе весит. При этом нихуя нормально историю с несколькими персонажами вести не может. Путается как бабка в маразме.
Аноним 26/01/24 Птн 15:41:41 #441 №627066 
>>627058
Это холодный старт, или диалог?
Одноканал?
Аноним 26/01/24 Птн 15:43:00 #442 №627068 
>>627064
Ну, q4 это прям совсем мусор.
Я на q6 редко опускаюсь, а чаще 8q стараюсь использовать с любыми 7b моделями, конечно.
Ну и плюс, они же прям… Ну не знаю.
ЗЫ Я тоже не люблю этот рейтинг. Скока не пробовал — фигня была в топах.
Аноним 26/01/24 Птн 15:48:46 #443 №627075 
>>626988
Расскажу обязательно завтра, когда дома буду.
Аноним 26/01/24 Птн 16:08:12 #444 №627084 
>>627066
(2.22T/s) если начать с нуля диалог с новым персом и ждать пока он всю карточку персонажа прогрузит
(2.53T/s) обычный ответ

У меня 3 плашки. 2 по 8 гигов + 1 по 16 гигов
Аноним 26/01/24 Птн 16:17:23 #445 №627088 
>>627084
Как я понял, скорость немного зависит так же и от самого персонажа. Если у него много деталей прописанных то скорость ответов получается чуть медленнее.
Сейчас специально попробовал почти пустого персонажа и при общении с нуля он начал выдавать (3.71T/s) а при последующих ответах (2.74T/s)
Аноним 26/01/24 Птн 17:52:04 #446 №627195 
Ой бля, за несколько месяцев кума на кобальде уже забыл, насколько убабуга пердольный кошмар. Сразу после обновления запустил - работало норм, стоило добавить апи в параметры - тут же отвалилась жопа и перестала загружаться модель. Убрал параметр - нихуя не починилось, сижу переустанавливаю.

Уникальный программный продукт даже для опенсорса, не видел ещё настолько хрупкой хуйни, которая бы ломалась от любого дуновения ветерка.
Аноним 26/01/24 Птн 19:02:34 #447 №627263 
image.png
image.png
>>627064
Сам рейтинг отстой, но от него есть польза: а именно, логи нового формата. Можно кликнуть Logs во втором столбце либо пойти вот сюда http://ayumi.m8geil.de/erp4_chatlogs/ Там есть три пары персонажей со своим кум сценарием, и вот там уже можно посмотреть, как модель себя ведёт при некоторых, возможно и не идеальных для неё, параметрах. Открываешь тот же Buttercup, видишь дичь на пике, где эта модель и двух персонажей местами путает - понимаешь, что ну нафиг такую шизу. Понятно, что подобное может быть из-за неподходящих настроек сэмплеров, но, тем не менее, какое-то представление о модели можно получить. И такая стата собирается по большому числу моделей, среди которых много маленьких, что для среднестатистического юзера со слабым железом полезно. Та же арена такого функционала не даёт, даже если её рейтинг более достоверный в плане интеллекта представленных там моделей.
Аноним 26/01/24 Птн 19:51:48 #448 №627315 
>>627008
>За 24 гига видеопамяти ты отдашь +100к деревянных
Всего 17к за теслу p40.
Аноним 26/01/24 Птн 20:26:23 #449 №627347 
image.png
анонасы, решил скачать новую норомейду, а она с приставкой DPO. что это значит, что она зацензурена или наоборот, расцензурена?
Аноним 26/01/24 Птн 20:49:28 #450 №627364 
>KatyTheCutie/EstopianMaid-13B

Еще одна мейда, сколько их блядь уже.
Опять КУУМить.

>>627347

DPO это способ обучения модели.
На цензуру метод не влияет, влияет чем учат.
Норомейд без цензуры.
Аноним 26/01/24 Птн 20:59:48 #451 №627378 
>>627347
Если ты откроешь указанные DPO датасеты, то увидишь, что они содержат пары ответов, один из которых поощряется, а другой нет. По сути, сам метод реализует что-то типа скрытого вознаграждения модели за правильный ответ. Соответственно, будет модель зацензурена или расцензурена, будет зависеть от датасета и тех ответов, что в нём поощрялись. В данном случае использовали два датасета, в которых предпочтение оказывалось токсичным и прочего рода "небезопасным" ответам, так что модель должна быть более расцензуренной.
Аноним 26/01/24 Птн 21:06:52 #452 №627389 
>>627364
>>627378
спасибо большое за разьяснения, аноны, люблю вас.
Аноним 26/01/24 Птн 21:11:41 #453 №627402 
А чё лучше будет 70b 5-битный или голиаф 3-битный?
Аноним 26/01/24 Птн 21:12:59 #454 №627407 
>>627084
А, оу… Понятно…

Ну 8-гиговые плашки в нашем деле уже древность, канеш. =)
Но и дело началось год назад. ^_^'
Аноним 26/01/24 Птн 21:46:09 #455 №627460 
image.png
>>627064
>Buttercup 4x7B

Пиздец это просто микс 7В говна которое делали чтоб гопоту унижать в бенчмарках.
Из бенчмарков их потом пидорнули.

Лишний раз убеждаюсь в дниществе аюми лол
Аноним 26/01/24 Птн 22:09:32 #456 №627473 
Смотрите, что выкатили.
https://huggingface.co/TheBloke/Etheria-55b-v0.1-GGUF
Аноним 26/01/24 Птн 22:12:14 #457 №627477 
>>627064
>>627460

Забыл добавить что в 4х7В есть только две нормальные модели
Beyonder-4x7B и Toppy-Mix (но эта для шизокума)

>>627473
Какая-то всратая склейка Йи, что там интересного?
Аноним 26/01/24 Птн 22:14:54 #458 №627481 
>>626960
> но качество так себе
В каком смысле? Плохо понимает инструкции и контекст, или пишет на великом-мугечем? Просто буквально что может быть хуже микстраля из относительно мультиязычных моделей?
> 3b
> но контекст вообще в трубу
Ну и на что рассчитывал то.
>>626963
Опиши подробнее чего хочешь.
>>626976
> тут у всех 2 ядра 2 гига чи шо
Тут у всех 24+гб врам какбы. активничают те у кого меньше, остальные сидят с нейронками
> модели, влазящие в 24 гига видеопамяти
Что именно тебя интересует?
>>627008
> За 24 гига видеопамяти ты отдашь +100к деревянных
3090 стоит дешевле и работает оче быстро. P40 вообще народная тема и позволяет многое занидорого.
>>627037
> 0.7, попрошу!
Простите, господин, быченье неуместно!
>>627033
> попробовал потренить PALM 2
Это который огромный? Тогда на чем тренил?
Аноним 26/01/24 Птн 22:16:29 #459 №627483 
>>627477
>что там интересного?
Размер.
Аноним 26/01/24 Птн 22:18:49 #460 №627492 
>>627483
Ну это просто склейка, как все 20В модели например.
Небось такая же шиза будет.
Аноним 26/01/24 Птн 22:22:51 #461 №627503 
>>627050
> Остаемся на Мистрали.
Чего он вам так нравится то?
>>627064
> заявлять что Vicuna 33b говно
На она ведь рили уг. Вместо тестирования мусора в поисках жемчужины мог бы глянуть нормальные файнтюны.
>>627195
> насколько убабуга пердольный кошмар
> стоило добавить апи в параметры - тут же отвалилась жопа и перестала загружаться модель
Ммаксимальнсый скилл ушью. Для вас только готовый бинарник сборки всратого форка на пихоне. реально рофлово звучит
>>627473
За що они надругались над и так шизоидной YI. Или она излечилась? Еще и вместо gptq затычка, пиздец грусть.
Аноним 26/01/24 Птн 22:25:26 #462 №627507 
>>627473
Опять шизомикс сомнительного качества.
Аноним 26/01/24 Птн 22:38:40 #463 №627528 
>>627507
Совсем плохой, не стоит качать?
Аноним 26/01/24 Птн 23:45:44 #464 №627620 
>>627481
Плохо пишет на великом и могучем.
Может это скилл ишью и я его неправильно приготовил, конечно.

> Ну и на что рассчитывал то.
Да больше поржать. =)

>>627503
> Чего он вам так нравится то?
Кроме того, что он умный на английском — он лучше всех из 7b моделей говорит на русском и при этом держим карточку.
А у меня стрим — значит нужно генерить на лету.
На мое удивление, большинство 13b гораздо хуже знает русский, просто не было мультиязычных моделей с русским и все. Ну, то есть, там же только ллама, да всякие франкенштейны.
Ну, как бы, выбора не остается.

Вот будет у меня 48 гигов врама, будет или Mixtral или Llama 70b. И там уже можно будет выбрать.

А пока что — маемо шо маемо.
Аноним 26/01/24 Птн 23:55:35 #465 №627636 
>>627620
Заказал уже (вторую) P40 или на более жирные смотришь?
Аноним 27/01/24 Суб 01:59:46 #466 №627755 
>>627636
Пока нет.
Во-первых, на цену смотрю, во-вторых там все равно китайский новый год, в-третьих, работу буду менять, хз че по деньгам в ближайший месяц.
Так что, пока это влажные мечты. =)
Но, к счастью, не сильно-то дорогие, да.
Аноним 27/01/24 Суб 03:09:07 #467 №627803 
>>627755
А как же культура и детишки? А как же 5090ти?
Подключай донаты и зарабатывай с них, а подписчикам еженедельно скидывай сгенерированные левдсы.
Аноним 27/01/24 Суб 06:24:54 #468 №627856 
>>627195
>ломалась от любого дуновения ветерка
У меня так почти с каждым python-проектом, за это я горячо люблю этот язык и всё, что на нём пишут.
Аноним 27/01/24 Суб 08:17:49 #469 №627880 
image.png
Генерирую на гуффе позавчера обновился и скорость упала с 15 т.с. до 6, пиздец. Этот хуесос может, хотя бы, на секунду перестать ломать свой гуи?
Аноним 27/01/24 Суб 08:26:16 #470 №627886 
>>627880
Нормалёк, я потом её раз обновился и всё заебок стало.
Аноним 27/01/24 Суб 08:27:57 #471 №627887 
>>627886
ещё
самофикс.
Аноним 27/01/24 Суб 11:45:46 #472 №627967 
Кто-нибудь игрался уже с той новой типа тру 20б internlm2? Вроде как её ещё неделю назад перегнали в архитектуру ламы, и сейчас квантуют и фигачат мержи типа такого https://huggingface.co/intervitens/internlm2-limarp-chat-20b-GGUF
Аноним 27/01/24 Суб 11:48:22 #473 №627969 
Какую мать брать, чтоб 3-4 видюхи уместить?
Аноним 27/01/24 Суб 11:53:07 #474 №627978 
Попробовал этот ваш Орион
https://huggingface.co/zaq-hack/Orion-14B-LongChat-bpw600-h6-exl2

На выходе получил такую шляпу:

Traceback (most recent call last):
File "/text-generation-webui/modules/text_generation.py", line 426, in generate_reply_custom
for reply in shared.model.generate_with_streaming(question, state):
File "/text-generation-webui/modules/exllamav2.py", line 137, in generate_with_streaming
chunk, eos, _ = self.generator.stream()
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 112, in stream
chunk, eos, chunk_token_ids, probs = self._stream()
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 170, in _stream
next_token, next_prob, eos = self._gen_single_token(self.settings)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/generator/streaming.py", line 341, in _gen_single_token
logits = self.model.forward(self.sequence_ids[:, -1:], self.cache, loras = self.active_loras, input_mask = self.input_mask, position_offsets = self.position_offsets).float().cpu()
File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context
return func(args, kwargs)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 559, in forward
r, ls = self._forward(input_ids = input_ids[:, chunk_begin : chunk_end],
File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 115, in decorate_context
return func(
args, kwargs)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/model.py", line 623, in _forward
x = module.forward(x, cache = cache, attn_params = attn_params, past_len = past_len, loras = loras)
File "/usr/local/lib/python3.10/dist-packages/exllamav2/layernorm.py", line 83, in forward
self.bias.data if self.bias is not None else ext_c.none_tensor,
AttributeError: module 'exllamav2_ext' has no attribute 'none_tensor'

Как фиксить?
Аноним 27/01/24 Суб 11:53:34 #475 №627979 
ggufs-quants-can-punch-above-their-weights-now-v0-tss15o4gi1dc1.webp
>>627967
>Q5_K_S_imx.gguf
Вот это улучшение?
Аноним 27/01/24 Суб 11:54:02 #476 №627982 
>>627969
>чтоб 3-4 видюхи
ASUS ROG STRIX B450-F GAMING
Аноним 27/01/24 Суб 12:04:55 #477 №628001 
>>627978
Обновить. Поддержку Ориона недавно добавили.
Аноним 27/01/24 Суб 12:12:21 #478 №628008 
>>628001
Специально сделал это перед запуском.
Может они поддержку только в llama.cpp добавили?
Аноним 27/01/24 Суб 12:15:39 #479 №628011 
>>628008
> Специально сделал это перед запуском
Пиздишь. В первые же дни в ExLlama 2 добавили поддержку, там самая первая поддержка Ориона была. У меня всё работает.
Аноним 27/01/24 Суб 12:23:49 #480 №628013 
>>627084
Сейчас общаюсь с Yi 34b chat 4 k m и получаю выхлопы со скоростью (1.62T/s) и это не считая того, что у меня часть модели не влезло в оперативку и на ssd записалось.
Аноним 27/01/24 Суб 12:46:54 #481 №628024 
image.png
>>628011
Хуй там плавал.
Только что всё поставил заново. Модель в память загружается, но генерация не идёт, выдаёт ту же ошибку.
Аноним 27/01/24 Суб 13:12:45 #482 №628053 
1646600625004.png
>>628024
Чини руки.
Аноним 27/01/24 Суб 14:03:40 #483 №628107 
>>627880
Гуи теперь определяет перфоманс бэков?
>>627969
От рабочих станций/серверов. Если карточки двуслотовые и похуй на число-качество линий, то бери любую что подходит по габаритам.
>>628024
pip show exllamav2
Аноним 27/01/24 Суб 15:30:51 #484 №628227 
image.png
Проиграл с EstopianMaid
Впрочем в обычных чатах показала себя не так уж плохо, даже РПГ статистику держит хоть и с ошибками
Аноним 27/01/24 Суб 15:34:35 #485 №628229 
image.png
Хотел затестить Orion и такая ошибка во время загрузки. Что с cuda не так?
Аноним 27/01/24 Суб 15:56:19 #486 №628249 
>>627979
Не, я говорил про саму модель или её мержи. Там в основе новая модель от китайцев, которая не франкенштейн, а полноценно (наверное) 20б. Importance matrix для gguf квантования сейчас и к квантам других моделек начали делать, не про это спрашивал.
Аноним 27/01/24 Суб 17:04:29 #487 №628292 
какое alpha_value ставить для того что-бы получить контекс x4 или x8 от модели?
Модель: LoneStriker_Aurora-Nights-70B-v1.0-5.0bpw-h6-exl2
Аноним 27/01/24 Суб 17:11:23 #488 №628299 
>>627803
Онлифанс и бусти!

>>627982
О, пасиб!

>>628249
Вот, если честно, смутные подозрения, что там не совсем 20b, нам уже обещали-обещали не раз подобное.
Но, будем надеяться.

>>628292
Плюсую вопрос, не разобрался, как в exllama контекст растягивать.
Аноним 27/01/24 Суб 17:23:18 #489 №628309 
>>628292
В шапку посмотри, 3я картинка. Для лламы2 с базовым 4к. Как будет на других где заявлено больше (но часто уже с ропом) - хз, те же величины должны работать.

Кто-нибудь новые мультимодалки ковырял? В первую очередь интересно с точки зрения понимания 2д и нсфв.
Аноним 27/01/24 Суб 21:19:16 #490 №628549 
>>627481
>Это который огромный? Тогда на чем тренил?

Да тот самый огромный.

Гугл сам тренит тебе только нужно предоставить датасет, все бесплатно
https://makersuite.google.com/app/prompts/new_data
Тут доступ но через американский ВПН, там можно затренить и юзать через апи. Тренить можно хоть до посинения, ограничения только на запросы 90 в час. Брал датасет ToxicQAFinal и урезал его до 500 записей.
Аноним 27/01/24 Суб 21:26:15 #491 №628571 
>>628549
*ограничения 90 запросов в минуту
Аноним 27/01/24 Суб 21:31:55 #492 №628580 
>>627620
есть мультиязычная XVERSE с большим выбором размеров, но до сих пор не реализована поддержка квантования gptq и gguf. Есть обычное int8 и int4 но я не тестил.
Аноним 27/01/24 Суб 22:16:30 #493 №628612 
image.png
>>627886
Ноуп. Сверху первый ран снизу второй, судя по всему сейчас скорость замедляется в зависимости от размера контекста.

Как откатится на пару месяцев назад?
Аноним 27/01/24 Суб 22:40:31 #494 №628645 
>>628612
Что с видеопамятью?
> Сверху первый ран снизу второй
В верхнем оно обрабатывало контекст, внизу использовало кэш, отсюда и разница.
> Как откатится на пару месяцев назад
Достаточно будет откатить только llama-cpp-python с помощью pip. Смысл в этом врядли есть, ищи проблему.
Аноним 27/01/24 Суб 22:54:01 #495 №628652 
>>627969
>Какую мать брать, чтоб 3-4 видюхи уместить?
Если Теслы, то как я понял - только б/у HEDT. Не б/у стоят бешеные деньги и не зря. Если хоть одна видюха не берёт PCIe-линии непосредственно от процессора, то скорости считай нет. Если 3090 и выше, то может этот фактор и не так критичен.
Аноним 27/01/24 Суб 22:58:04 #496 №628656 
>>628652
> Если хоть одна видюха не берёт PCIe-линии непосредственно от процессора, то скорости считай нет.
Есть иллюстрация такого поведения?
Аноним 27/01/24 Суб 22:59:30 #497 №628659 
ПЕРЕКАТ немного фальшстарт, но ОП ложится спать

>>628658 (OP)

>>628658 (OP)
Аноним 27/01/24 Суб 23:00:57 #498 №628660 
>>628656
Во всех постах на Реддите, где народ хвастается высокой скоростью на больших моделях - именно такие платформы.
Аноним 27/01/24 Суб 23:12:17 #499 №628667 
>>628659
Ну что же ты, накидал бы пару постов для порядка сначала
Аноним 27/01/24 Суб 23:13:03 #500 №628668 
>>628645
>Что с видеопамятью?
5.3 гб из 6
sage[mailto:sage] Аноним 24/04/24 Срд 16:55:49 #501 №716252 
>>616097 (OP)

Есть кто работает с Qwen? Как боретесь с редкими китайскими иероглифами в ответах?
comments powered by Disqus

Отзывы и предложения