24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №35 /llama/

 Аноним 05/01/24 Птн 16:02:48 #1 №592177 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Процент брака при квантовании.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>583852 (OP)
>>577814 (OP)
Аноним 05/01/24 Птн 17:10:25 #2 №592221 
>>591819 →
Охуенен, просто нет слов.

>>592020 →
> С картинками что-то неладное происходит, грузятся через раз. А на котокоробку если возвращать - там из-за ркн оно через раз грузит и нужен впн/прокси.
Гитгуд очень медленно картинки отдаёт, если их на нём хостить, по какой-то причине. Поэтому, я рассчитывал, что пикчи будут на сторонние сервисы грузиться, по типу catbox. Из минусов то, что такой подход добавляет ещё одну точку отказа в виде картинкохостинга - на том же imgur уже выпиливали картинки, которые использовались в местных гайдах по sd.

Вообще, у гитгуда сам хостинг статики на коленке сделан, насколько я понимаю. Я когда изначально там вики поднял, она просто не открывалась в Firefox из-за кривых сертификатов - я немного поисследовал проблему и понял, что это общая проблема для всего хостинга от gitgud. Но когда я связался с девом гитгуда, он за пару часов поправил проблему, а это был вечер воскресенья (мне даже неловко от такого стало). То есть сам фикс видать пустяковый был, но почему без прямой наводки они сами багу раньше не поправили...

Про проблему с catbox у ркн в первый раз слышу.

У меня была мысль арендовать какую-нибудь копеечную vps'ку и настроить туда автодеплой собранной вики вместо гитгуда. В этом случае, все картинки, включая шизогриды для sd, можно хранить напрямую в репе. В самом же гитгуде оставить только репу. Но, в этом случае, появятся риски, что, если, в какой-то момент, я забью на всю ии-движуху и не буду продлевать оплату, то проект упадёт с непонятными перспективами - придётся кому-то другому про инфраструктуру думать. Я бы мог такое организовать, но не уверен, стоят ли риски того и как вы вообще к подобному муву отнесётесь.

Сейчас же мы чисто фришный хостинг используем. Из моей инфраструктуры там только билд-агент в виде древнего thinkpad'а, который отслеживает правки в репе 24/7, собирает проект и разворачивает статику на предоставляемом gitgud'ом фришном хостинге. Роль билд-агента может выполнять любой калькулятор с доступом в интернет.
Аноним 05/01/24 Птн 17:21:22 #3 №592227 
Тред умер нахуй
>>591819 →
Будет интересно почитать гайд на таверну
>>592221
А почему по классике не сделать вики на гитхабе?
Аноним 05/01/24 Птн 17:32:07 #4 №592234 
>>592221
> Гитгуд очень медленно картинки отдаёт, если их на нём хостить
Вот в чем дело, графики и мелкие скрины норм работают, а где крупнее - через раз. Потом на котокоробку значит перекину обратно, или попробую пережать чтобы загружались оттуда.
С сертификатами сейчас действительно все ок, так бы и не вспомнил.
> Про проблему с catbox у ркн в первый раз слышу.
Хз, может и не ркн но поведение идентичное. Чсх оно рандомно, иногда работает, иногда не грузит. Впску - хз, текущая версия прилично работает кмк, а с пикчами тема приемлемая.
Алсо, статьи на циве нельзя сделать под коллективный/групповой доступ?
Аноним 05/01/24 Птн 17:38:13 #5 №592240 
>>592227
> Будет интересно почитать гайд на таверну
У нее функционал богатый очень и не то чтобы его весь знаю, только основное. Может если будет не лень разобраться хотябы с озвучкой/распознаванием, запросами генерации пикч и около того.
Аноним 05/01/24 Птн 17:41:57 #6 №592242 
>>591819 →
Найс, спасибо что уделил время
Аноним 05/01/24 Птн 18:01:05 #7 №592261 
>>592227
> А почему по классике не сделать вики на гитхабе?
Минорные проблемы - в вики на гитхабе не работает система с ПРами, так что люди без прав в репе не смогут предложить правки (но мы такую возможность по факту не используем, так что это мелочь). Поскольку это чисто онлайн-система, то у контрибьютеров нет мотивации держать актуальную локальную копию, которая может выступить в роли бекапа на случай чп.

Но вариант с вики на гитхабе кмк был бы лучше вики на условном fandom, т. к. на гитхабе вики хранится в виде честной гит репы, которую можно бекапнуть вместе со всей историей одной командой.

Основная проблема с гитхабом в том, что есть подозрение, что за отдельные части вики её могут пидорнуть с гитхаба - раз проект sd-web-ui (который от automatic1111) оттуда около года назад выпилили за то, что в readme-файле были ссылки на статьи по теме то ли с хентаем, то ли с nai leak, уже не помню точно. Я читал правила гитхаба, и, как мне показалось, там просто за условный панцушот или джейлбрейк с фокусом на ерп выпилить репу могут. В общем, нужно определённых правил цензуры тогда придерживаться, чтобы минимизировать риски, в случае гитхаба. В том же гитгуд уже много лет хостятся проекты эроге с лолями, так что подобных рисков сильно меньше.
Аноним 05/01/24 Птн 18:03:10 #8 №592266 
>>592261
Зачем вообще что-то менять? Работает- не трогайте.
Аноним 05/01/24 Птн 18:13:09 #9 №592279 
>>592266
Я не хочу ничего менять. Только с картинками разобраться бы, чтобы как в случае с rentry всё не ломалось на части провайдеров.

Анон задал хороший вопрос, на который стоило ответить. Просто я сам изначально рассматривал именно гитхаб в качестве репы для вики, но из-за перечисленных минусов решил использовать другую опцию, которой выступил гитгуд.
Аноним 05/01/24 Птн 18:51:39 #10 №592319 
image.png
>he chuckled darkly
в каждом первом ответе. Заебал. Как фиксить? Использую угабугу
Аноним 05/01/24 Птн 18:59:18 #11 №592326 
>>592319
Модель? Температура? Квант? Мы не телепаты, анон
Аноним 05/01/24 Птн 19:01:06 #12 №592327 
>>592319
Smirking.
Аноним 05/01/24 Птн 19:32:57 #13 №592363 
Screenshot20240105192653.png
>>592326
pivot-0.1-evil-a.Q8_0.gguf
Аноним 05/01/24 Птн 19:39:04 #14 №592370 
>>592363
пивот евил изначально сломан, он просто эксперимент на обратном выравнивании
Аноним 05/01/24 Птн 19:41:02 #15 №592373 
>>592370
блин, а что юзать то тогда?
Мне чисто под кум и чтобы влезало в 7 гб (11 с учетом контекста)
Аноним 05/01/24 Птн 19:44:44 #16 №592377 
>>592373
toxichermes-2.5-mistral-7b попробуй, он тем же методом расцензурен но уже не сломан
Аноним 05/01/24 Птн 20:02:12 #17 №592397 
>>592373
Старая добрая Synatra-7B-v0.3-RP хороша для кума, как по мне, хоть и тупит мб больше других 7b моделей. Ещё недавно наткнулся на её вот такой популярный мерж https://huggingface.co/PistachioAlt/Synatra-MCS-7B-v0.3-RP-Slerp-GGUF Эта более уравновешенная.
Из твоего скриншота настроек сэмплеров выходит, что ты вообще их не применяешь. Это не есть хорошо для мелких моделей. Поставь хотя бы minP 0.1 или дефолтные topP 0.9, topK 30, если с остальными экспериментировать неохота. Ну и rep pen поднять с единицы хотя бы на 1.1 можно.
Аноним 05/01/24 Птн 20:27:39 #18 №592432 
https://www.reddit.com/r/LocalLLaMA/comments/18z04x5/llama_pro_progressive_llama_with_block_expansion/
Ну ебать, еще один метод улучшения моделей.
Теперь это наращивание знаний модели без потерь.
Аноним 05/01/24 Птн 20:41:45 #19 №592453 
>>592432
За этим приходить через полгода, не раньше.
Аноним 05/01/24 Птн 20:55:17 #20 №592476 
А че есть что нить по наращиванию скоростей генерации? А то умные модели это хорошо, но генерить по 1.7 токена 70b ДОЛГОВАТА.
Аноним 05/01/24 Птн 21:08:53 #21 №592486 
>>592476
жди мамбу, трансформеры не ускорить, разве что прунить и квантовать для уменьшения размера.
Аноним 05/01/24 Птн 21:14:15 #22 №592497 
>>592486
Что за мамба, анончик?
Аноним 05/01/24 Птн 21:15:54 #23 №592501 
А че, на форчке побанены русские айпи? Попытался написать в /lmg/, пишет айпи ренж блокед дуе ту абуз.
Аноним 05/01/24 Птн 21:22:45 #24 №592507 
>>592486
Почитал про мамбу, двоекратное уменьшение размера моделей при том же качестве чет слишком красиво звучит.
мимо другой анон
Аноним 05/01/24 Птн 21:22:48 #25 №592508 
>>592497
https://arxiv.org/abs/2312.00752
https://huggingface.co/models?sort=created&search=mamba

Всё хочу одну скачать на пробу и каждый раз лень настраивать. Там какие то есть уже новые файнтюны на базовых моделях, хоть и 3b.
Но вроде как они равны 7b по мозгам, по крайней мере по заявлениям исследователей. Как оно на деле хуй знает.
Аноним 05/01/24 Птн 21:29:12 #26 №592519 
>>592508
Нашел только это из того как мамбу запустить, по другому хз

https://github.com/havenhq/mamba-chat

Кто шарит может поиграться, только отпишитесь что ли, интересно ведь
Аноним 05/01/24 Птн 22:48:45 #27 №592605 
Аноны, а что за карточку персонажа он требует?
Аноним 05/01/24 Птн 22:56:31 #28 №592617 
>>592519
Завтра потыкаю может быть и отпишусь
Аноним 05/01/24 Птн 23:12:56 #29 №592639 
>>592605
Кто "он" ?
Аноним 05/01/24 Птн 23:30:19 #30 №592655 
image.png
image.png
>>592639
Ну... Кобольд. На первом пике требует либо промт (куда его?), либо карточку (какую?), либо выбрать сценарий. Но на все кастомные (которые импорт фром) он выдает пик 2.

Да, я ньюфаг
Аноним 05/01/24 Птн 23:35:10 #31 №592657 
>>592655
Поставь SillyTavern, подключи ее к кобольду, карточки бери на chub.ai. У кобольда интерфейс говна, его использовать можно разве что для проверки работоспособности модели. У меня он вообще настроен на запуск без вебморды, чисто апи для таверны.
Аноним 05/01/24 Птн 23:49:06 #32 №592671 
Для deepsex 34b какие настройки в таверне оптимальны?
А то отвечает что на симпле что на миростате как то суховато прям.
Аноним 06/01/24 Суб 02:09:04 #33 №592778 
Screenshot20240106020755.png
>>592377
>toxichermes-2.5-mistral-7b
нахуй идет быстро решительно
Аноним 06/01/24 Суб 02:10:08 #34 №592779 
>without your consent
Как же они заебли....
Аноним 06/01/24 Суб 03:19:02 #35 №592795 
>>592397
>Synatra-7B-v0.3-RP
соя ёбаная.
Бомж не захотел насиловать 14-летнюю девочку.
Пивот с этим проблем не имеет.
Итак, пивот все еще наименее соевый. Может быть еще кто варианты подкинет?
Аноним 06/01/24 Суб 05:04:16 #36 №592819 
IMG2024010.jpg
Стаканул Р40 + 1070, запустил yi-34b-v3.Q6_K и получил производительность 6.3т/сек (1070 медленная, наверное, две p40 дали бы 7+++).
На соло Р40 в yi-34b-v3.Q4_K_M было 9т/сек.
Неожиданно, но в итоге стаканье видеокарт не создаёт накладных расходов как предполагали всем тредом ранее.

Кстати, этого стака уже хватает на запуск 70b Q2_K (лол, проверю). А если использовать проц + Р40, то производительность будет 1.8 т/сек для 70b Q4_K_M.

Ещё меня начала мучать шиза на тему, что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой. Это немного не совпадает с общепринятым знанием про потери 0.00001% информации при квантовании. Поясните, плз.
Мимо китаедаун.
Аноним 06/01/24 Суб 05:04:30 #37 №592820 
>>592476
Купи вторую гпу, будет по 17+ т/с на 70б, сможешь инджоить и наслаждаться. Или возьми одну-две p40, в теоретической теории они смогу обеспечить скорость стриминга сравнимую или быстрее чем скорость чтения на 70б.
Или дождить тему с горячими нейронами, довольно перспективная штука.
>>592519
Возможно потыкаю, или потом, отпишусь.
>>592795
> Бомж не захотел
Асуждаю
Аноним 06/01/24 Суб 05:08:42 #38 №592823 
>>592819
> не создаёт накладных расходов
В каком лаунчере? Бывшая не создает, но там паскаль очень слаб. Жора вроде как создает проблемы, но их природа не изучена.
> 1.8 т/сек для 70b Q4_K_M
Грустновато, конечно, оно с другими видюхами на ддр5 быстрее получается. Второй p40 или чего-то жирного нету случаем??
> что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой
Единичный случай скорее всего, отпиши подробнее что там, так можно будет исследовать.
Аноним 06/01/24 Суб 05:33:47 #39 №592833 
>>592823
>В каком лаунчере?
lamacpp, только он работает быстро на паскалях.
>Второй p40 или чего-то жирного нету случаем??
Нету. Только несколько затычек.
>отпиши подробнее что там
Ох, тут придётся делать десятки скринов чтобы можно было что- то сравнить.
Может быть была инфа, что yi глупеют от квантования, но не так сильно как мистрали?
Аноним 06/01/24 Суб 09:01:44 #40 №592870 
Ананасы, нуб репортинг ин. Что писать в промпт, чтобы модель не пичкала меня соевой моралью? Мне не нужна какая-то чернуха, но мне нужен текст с определенным настроением. Даже нейтральные промпты это чудище умудряется повернуть так, что персонаж начинает угрызения совести испытывать по поводу того, что кому-то что-то не так сказал. Mistral instruct 0.1 7B.

Вообще, как составлять промпт? Как в ЧатГПТ?
Аноним 06/01/24 Суб 10:34:06 #41 №592878 
image.png
image.png
>>592870
Самый адекватный выход тут - искать какие-то менее соевые файнтьюны. Дефолтная инстракт версия заточена быть полезным безопасным помощником. Промптинг как для больших моделей тут не поможет, 7б модель не поймёт полотна инструкций. Ну можешь попробовать добавить в промпт какие-то очень-очень простые инструкции вроде того, что ролеплей fictional, что у персонажа есть свои цели, к которым он должен стремиться несмотря ни на что, и прочее. Ещё если используешь ChatML инстракт пресет, который рекомендуется для мистраля, то попробуй включить имена и подредактировать его как на первом пике, чтобы убрать упоминание ассистента. Начало чата я ставлю как на втором пике, чтобы показать сетке, где закончился системный промпт, и начался чат, который надо продолжать, но мб это избыточно. И в мейн промпте не должно быть фигни вроде "you are helpful assistant".
Аноним 06/01/24 Суб 11:13:40 #42 №592896 
>>592870
Возьми просто любой файнтюн.
Dolphin, OpenChat
Они мало того что без сои, так еще и работают лучше.

Джейлбрейки на локальных моделях это бред вообще.
Это для любителей MINISTRATIONS извращение.
Аноним 06/01/24 Суб 11:23:12 #43 №592897 
Привет, ананасы!
Всех с Наступившим!

В общем, положняк такой: мне в жопу заноза попала - хочу извергнуть из ануса нейросетевого стримера, который играет в какую-то несложную игру, пиздит с чатиком и имеет навык не рыгать буквами, вместо осмысленных предложений.

Задача уже на этом этапе звучит как пиздец и всё усугубляется тем, что у меня абсолютный ноль знаний и понимания в теме, но много мотивации и свободного времени.

Я полистал местные треды и столкнулся с тем, что закреплённые в шапке гайды не актуальны, например, и без помощи местных знатоков я не справлюсь.

Реквестирую помощь на данном этапе. С какой стороны начать есть этот пирог? Пните в нужную сторону. Пока однозначно понятно следующее: нужно как минимум разобраться с компьютерным зрением, начать обучать по вводным параметрам какую-то языковую модель, а также, скорее всего, поебаться и разобраться с API некоторых платформ.
Аноним 06/01/24 Суб 11:52:36 #44 №592903 
>>592897
> Пните в нужную сторону. Пока однозначно понятно следующее:
Тебе понадобятся железки. Что сейчас в наличии?
Аноним 06/01/24 Суб 12:04:00 #45 №592913 
>>592501
Да.
>>592507
Очередной пиздёж, да, и дроч на тесты.
>>592778
Скил ишью.
>>592897
>у меня абсолютный ноль знаний и понимания в теме
Ну так приобретай.
>закреплённые в шапке гайды не актуальны
Всё там актуально на 100%.
>нейросетевого стримера, который играет в какую-то несложную игру, пиздит с чатиком и имеет навык не рыгать буквами, вместо осмысленных предложений
Не осилишь, инфа 146%.
Аноним 06/01/24 Суб 12:06:05 #46 №592916 
>>592903
>>592177 (OP)

В базе 3070Ti и 5900Х, но мощностей ещё есть у меня!
Аноним 06/01/24 Суб 12:06:54 #47 №592917 
>>592897
Теоретически, тебе нужен CogAgent, подходящее железо и очень много времени и мотивации ебстись со всем этим.
Аноним 06/01/24 Суб 12:34:52 #48 №592934 
>>592819
>Ещё меня начала мучать шиза на тему, что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой. Это немного не совпадает с общепринятым знанием про потери 0.00001% информации при квантовании.

А где ты это общепринятое увидел? Тут несколько раз срачи были на эту тему, и есть 2 стула - те кто оценивают потерю по тесту перплексити, и те кто не доверяет такому простому тесту. Собственно - любое квантование идет с потерями, так что даже если модель не теряет способность генерировать текст, она может потерять связность на более высоком уровне. На уровне следования контексту или понимания че от нее вообще надо.
Более, абстрактные области. Вот это самое причинно-следственное. Мозги, грубо говоря.
Те же 7b обладают меньшим запасом прочности и теряют способность генерировать текст раньше, чем жирные сетки. Но то что 34b работают на 4 кванте не значит что они НЕ потеряли в качестве, просто потеря не дошла до заметной потери в генерации ответов.
Любая сетка будет работать без потерь только запускаясь в ее родном размере. Это fp16. Может быть минимальные потери будут на 8q, но они будут, хоть и мизер.
Вот только запускать нормальный размер часто не на чем, поэтому приходится возится с ущербными копиями оригинала, квантами поменпьше.
Аноним 06/01/24 Суб 12:35:09 #49 №592935 
Без имени-1.png
>>592917
В базе блок-схема такая. Для начала научить бы её разговаривать. Поможешь дополнить?

Рад буду любым идеям и информации. Сейчас агрегирую очень много данных и изучаю очень много информации. Надеюсь при помощи анонов сделать нечто годное с открытым кодом.
Аноним 06/01/24 Суб 12:58:20 #50 №592942 
image.png
>>592913
>Скил ишью.

все кроме пивот:
аааа нееет что ты делаешь, прекрати, я не буду этого делать, ты совершаешь ошибку, тебе это не нужно аааа
литералли пикрелейтед

пивот:
я из тебя всю душу выебу, ебать, погнали нахуй

Ну камон.
Аноним 06/01/24 Суб 13:06:01 #51 №592944 
>>592942
Ну вот еще, в 7 гигов 5ks войдут
solar-10.7b-instruct-v1.0-uncensored
Фроствинд хорошо следует персонажу, если пропишешь маньяка скорей всего будет действовать как маньяк
Frostwind-10.7B-v1
Этот тоже как бы расцензурен, и он тоже есть в разных размерах
bagel-dpo-7b

Пивот эвил весело запускать, но в чате он шизит
Так как сломан слишком сильным антивыравниванием
Аноним 06/01/24 Суб 13:22:57 #52 №592947 
При ротации контекста ощущается сильное замеждение генерации.
Вставляю контекст 4к. До примерно 3.5к - все генерирует быстренько. Когда доходит до 3.5 - начинается пиздец и ожидания по 70 секунд пока он там отсетет лишнее и сгенерирует новое.
Есть варианты как фиксить?
Я внезапно понял, что 4к конетекста в рп - это вообще ни о чем.
Аноним 06/01/24 Суб 13:45:28 #53 №592956 
>>592934
>родном размере. Это fp16
Замечу, что 16 бит это половинная точность. Полная 32, но в некоторых случаях и её не хватает, и для нейросеток когда-то использовали двойную точность.
>>592947
Похоже, что у тебя не хватает памяти, и начинается подкачка пары сотен мегабайт. Давай подробнее, что на чём и чем запускаешь.
Аноним 06/01/24 Суб 13:50:45 #54 №592962 
>>592897
Локалки тебе не нужны, тупо контекста не хватит на целый стрим, тебе нужен клод или гптыня с их 32-100к контекста. Гипотетически тебе нужна связка языковая модель + апи твича/ютуба для получения чата + нужный промпт + синтезатор голоса + витуберский софт. На инпут текстовой модели подается отрывок текущего чата, генерируется ответ, он загружается в синтезатор голоса, голос подаётся в витуберский софт, витубер пиздит на стриме, в итоге все должно работать. С игрой сложнее, тебе придется играть самому, нейросетей которые играют самостоятельно я не видел, разве что в какие-нибудь шахматы.
Аноним 06/01/24 Суб 13:53:52 #55 №592963 
>>592962
>нейросетей которые играют самостоятельно я не видел, разве что в какие-нибудь шахматы.
Кучу раз видел какие то эксперименты с майнкрафтом и нейросетями, про исследования автономных агентов и тд
Аноним 06/01/24 Суб 14:00:18 #56 №592964 
firefoxqpa4wibAjc.png
firefoxv5Ycr5fGXH.png
лмао
Аноним 06/01/24 Суб 14:03:53 #57 №592968 
>>592964
Интересно
Пивот как всегда лол
Вобще не хватает сеток, половина какие то странные взяты
Аноним 06/01/24 Суб 14:05:41 #58 №592971 
image.png
キタ――(゚∀゚)――!!
Аноним 06/01/24 Суб 14:06:04 #59 №592972 
>>592968
стащил из этого треда, это мемные модели которые часто форсились в форчановском /lmg/
https://boards.4chan.org/g/thread/98282960
Аноним 06/01/24 Суб 14:08:04 #60 №592973 
>>592453
>За этим приходить через полгода, не раньше.
Хуевый из тебя пророк анонче
https://huggingface.co/TencentARC/LLaMA-Pro-8B

Вот и первая сетка по методу наращивания знаний без потерь, если я правильно понял.
https://www.reddit.com/r/LocalLLaMA/comments/18z04x5/llama_pro_progressive_llama_with_block_expansion/

Она кстати тут есть или ее файнтюн >>592964
Аноним 06/01/24 Суб 14:08:34 #61 №592974 
>>592964
РП-кал ожидаемо самый соевый, лол. Не хватает в сравнении базового Багеля.
Аноним 06/01/24 Суб 14:08:57 #62 №592975 
beyonder-4x7bv2+.png
>>592972
там кста предпоследний пост, челик тестит beyonder-4x7bv2+ на своей расистке emily, модель вообще на отъебись игнорирует добрую половину описания и контекста чата, кек
Аноним 06/01/24 Суб 14:11:58 #63 №592979 
>>592975
Самый нормальный файнтюн микстраля - это Notux. Ужатые 4х7 вообще кал из под васянов.
Аноним 06/01/24 Суб 14:12:02 #64 №592980 
>>592971
поздравляю
не трогай час-два если с холода притащил, на них конденсата куча
пока не отогреются и влага не испарится лучше не включать
Аноним 06/01/24 Суб 14:15:57 #65 №592983 
>>592973
> сетка по методу наращивания знаний без потерь
хм, надо собрать самые топовые модели по типу этой :
https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
и нарастить мега-базовую и ультра умную нейроночку что будет выполнять каждый твой приказ без колебаний.
ну а вообще без приколов, если это действительно работает как DPO или laser, то эта троица есть самый эффективный способ по дополнению нейронки новыми знаниями.
Аноним 06/01/24 Суб 14:18:26 #66 №592985 
>>592983
или можно юзая этот метод, вырвать из нейронки всё что выдаёт сою в конечном результате, исходя из того что если можно добавить transformer blocks, то так же их можно и убрать.
Аноним 06/01/24 Суб 14:19:49 #67 №592986 
>>592983
Да уж, веселье только разгоняется с этой кучей методов улучшений. 2024 год будет ебейшим в плане развития ии.
Главное что бы не последним, лол
Аноним 06/01/24 Суб 15:16:19 #68 №593040 
>>592962
>нейросетей которые играют самостоятельно я не видел
Даже в дотку режутся. Но всё за закрытыми стенами.
>>592971
Красава. Ждём тестов 70B.
>>592973
И как оно работает? Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
>>592985
>то так же их можно и убрать
Ой не факт.
>>592986
Так же про 2023 говорили.
Аноним 06/01/24 Суб 15:23:58 #69 №593049 
>>593040
>Так же про 2023 говорили.
Будто он таким не был.

>И как оно работает? Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
Тесты уже есть на пикче, так что скорей всего работает
Да и ггуф уже выкатили вместе с другими форматами
Аноним 06/01/24 Суб 15:25:19 #70 №593050 
Да кто такой этот жора
Аноним 06/01/24 Суб 15:34:01 #71 №593056 
изображение.png
>>593050
Из новой шапки.
Аноним 06/01/24 Суб 15:36:20 #72 №593057 
https://huggingface.co/TheBloke/LLaMA-Pro-8B-GGUF
ггуф запускается кобальтом без ошибок, и оно отвечает осмысленно.
Ну че, новая базовая модель и новые файнтюны скоро
Аноним 06/01/24 Суб 15:38:40 #73 №593060 
>>593057
>8b
Фи
Аноним 06/01/24 Суб 15:39:44 #74 №593061 
>>593049
>Будто он таким не был.
Как по мне, всё самое интересное было в 2021, когда запилили GPT3. 2022 был годом хайпа с чат моделью, а в 2023 просто к этому получили доступ гои типа нас. По сути ничего принципиально нового.
>>593057
Уже вижу как унди начинает клепать новые франкенштейны-шизомиксы.
Аноним 06/01/24 Суб 15:41:24 #75 №593062 
>>593061
> Уже вижу как унди начинает клепать новые франкенштейны-шизомиксы.
Так и не понял, на кой хуй он это делает. Затраты во, а результат минимальный.
Аноним 06/01/24 Суб 15:42:29 #76 №593064 
>>593062
Самопиар же.
Кстати, там в кобольдЦП добавили logit_bias.
Аноним 06/01/24 Суб 15:48:13 #77 №593070 
>>593064
>logit_bias
чё эта?
Аноним 06/01/24 Суб 15:51:14 #78 №593074 
>>593070
Давка конкретных токенов.
Аноним 06/01/24 Суб 15:53:47 #79 №593079 
>>593060
>>593061
Дурачье, теперь можно дообучить любые сетки, 7b просто проба
Ждем новых 34b-36b
Ну или хотя бы доученного солар 11b
Аноним 06/01/24 Суб 15:55:14 #80 №593082 
>>593079
> дообучить любые сетки, 7b просто проба
Жду, когда начнут обучать на порнорассказах.
Аноним 06/01/24 Суб 15:56:35 #81 №593085 
>>593079
>7b просто проба
Тут уже триллион инициатив остановилась на 7B, лол. Надо запретить всё что меньше 70B, вот тогда прогресс попрёт.
Аноним 06/01/24 Суб 16:10:10 #82 №593100 
>>592820
Вторая 4090 нынче ДОРОХОВАТО стоит, тащемта.
>возьми одну-две p40
Ну вот кстати можно и попробовать, хотя тут не понятно как оно с основной картой дружить будет.
Аноним 06/01/24 Суб 16:11:08 #83 №593104 
>>593085
>Тут уже триллион инициатив остановилась на 7B, лол.
Просто тебе результаты получше не показывают, вот и все. Самый смак как всегда за закрытыми дверями. Не думаешь ли ты что успех на малой сетке остановит от улучшения большой сетки? Только результат уже никто в открытый бетатест и рекламу не выложит.
Добиваясь результата и выкладывая его просто привлекают деньги показывая что они могут достичь успеха. Как мистраль, например.
Аноним 06/01/24 Суб 16:11:39 #84 №593105 
>>592878
>>592896
Спасибо за ответы, посмотрю файнтьюны. Но раз все упирается в модель, может имеет смысл докинуть оперативы до 32, она сейчас недорогая, да какую-нибудь Ламу 70B гонять, она поместится в 32? Хотя, скорость генерации на процессоре печальная, конечно. Подскажите сетап компа заодно адекватный. Как вообще процессор это дело обрабатывает, количество ядер важно? И насколько видюха разгоняет процесс, если взять какую-нибудь условную 3060. После быстрой Мистраль уже как-то ждать, пока там модель напердит по одной букве в чат, как-то печально.
Аноним 06/01/24 Суб 16:12:31 #85 №593109 
изображение.png
изображение.png
изображение.png
изображение.png
>>593057
>и оно отвечает осмысленно.
Шизит порой весьма забавно. МинП лучше вообще не врубать. Классику проваливает стабильно, так что... Мой вердикт на всё новое как всегда- говно неюзабельное.
Аноним 06/01/24 Суб 16:15:17 #86 №593111 
>>593104
>Как мистраль, например.
Только мистраль. Да и то сомнительно. Остальные точно в пролёте. Или ты думаешь, что тому же унди перепадёт что-то большее, чем донаты на парочку 4090?
>>593105
32 гиг мало, проц медленно печаль, 9000 ядер никак не помогают, видеокарта рулит.
Аноним 06/01/24 Суб 16:16:52 #87 №593117 
>>593109
Отвечает все равно осмысленно, хоть и шизит.
Ну и да, это ж как пивот эвил, первый результат который выкинули на мороз.
Будь он топовым то никто бы кроме разве что рекламы не выложил базовую версию раздав бесплатно кому попало.
Аноним 06/01/24 Суб 16:28:20 #88 №593134 
>>593109
И возможно проблема в ггуф и его запуске. Это работает и преобразуется, но не факт что все прошло правильно и без ошибок. Все таки модифицированная структура.
Аноним 06/01/24 Суб 16:28:26 #89 №593137 
>>593117
>Отвечает все равно осмысленно, хоть и шизит.
Ровно так же, как и любая ллама, и даже любительские обрезки на 1,5В. Никакой революции.
>Будь он топовым то никто бы кроме разве что рекламы не выложил базовую версию раздав бесплатно кому попало.
А так смысла нет выкладывать говно. Да и метод то открытый, сейчас наклепают говнеца и опять зальют весь хайгинфейс. Я удивляюсь, как он всё это хранит, да ещё и раздаёт во всю ширину канала даже в Россию.
Аноним 06/01/24 Суб 16:29:09 #90 №593139 
>>592897
Начни просто с ознакомления с ллм, обеспечь запуск и быструю работу. Початься, попробуй описать персоналити своей нейтро-самы и добиться того, чтобы она отвечала примерно так как нужно.
Далее, можно начать выстраивать взаимодействие, настрой вишпер и tts чтобы говрить с ней, настрой выдачу эмоций для какого-нибудь л2д движка чтобы ее визуализировать, плюс сделать липсинк с речью.
Этого уже хватит надолго и поймешь много проблем и нюансов. Для организации реально чего-то подобного потребуется несколько ллм, где только одна будет "думать за чара" а остальные будут выполнять вспомогательные роли.
Что же до компьютерного зрения, там своя тема, плюс мультимодалки сейчас развились очень сильно.
>>592964
О, ништяк кто-то заморочился. Соус с доп описанием есть, или там только результаты? Интересно возможность управлять результатом промтом.
>>592971
Красава, велкам ту зе дуалгпу клаб, бадди жмакнул за жопу
>>593057
> новая базовая модель и новые файнтюны скоро
Если там просто блоки добавили, есть вероятность прямой их подсадки к имеющимся моделям, так что скорее новой волны замесов и франкенштейнов.
Аноним 06/01/24 Суб 16:29:40 #91 №593142 
>>593134
>И возможно проблема в ггуф и его запуске.
-> >>593040
>Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
Я сразу и отписал, что будет говно. Хотя я еблан, оно о=же влезает в 12 гиг врама, можно что-то более путёвое запустить.
Аноним 06/01/24 Суб 16:35:59 #92 №593147 
>>593142
оригинал на угабуге разве что, любые другие методы преобразования и квантования не факт что нормально сработают
Аноним 06/01/24 Суб 16:37:51 #93 №593148 
>>593085
Не столь радикально, но в целом верно, нужно внедрять в большие модели.
>>593100
Да пиздец. Как более бюджетный вариант - 3090 со вторички, тут точно никаких проблем не будет.
> хотя тут не понятно как оно с основной картой дружить будет
Хороший вопрос, она плохо дружит с экслламой, а у жоры были нюансы с расделением на разные карты. Но вон их уже 3 штуки на руках есть, скорее всего тесты в разных сочетаниях будут.
>>593105
> И насколько видюха разгоняет процесс
До невероятных скоростей где ответ будет мгновенный, в самых тяжелых случаях генерация пойдет быстрее чем будешь успевать читать. Это если полностью на видеокарте, если делить проц-карточка то будет зависеть от пропорции разделения. 3060@12 даст возможность катать модели до 13б только на ней, возможно скорость на 34б будет приемлемой.
> ждать, пока там модель напердит по одной букве в чат, как-то печально
Если для рп - экспириенс сам может оказаться важнее чем точность ответов, когда оно быстро и не совсем ужасно - может быть достаточно чтобы проникнуться и увлечься, а постоянные прерывания собьют весь настрой и будет херня.
Аноним 06/01/24 Суб 16:46:17 #94 №593153 
изображение.png
изображение.png
изображение.png
>>593147
>оригинал на угабуге разве что,
Спасибо, Капитан! Или ты про оригинальный трансформер? Под него у меня врама нет, но вот попробовал экслламу 2, и что-то вообще дичь.
>>593148
>со вторички, тут точно никаких проблем не будет
Ну кроме убитой карты, майненой или там прожаренной в духовке.
Аноним 06/01/24 Суб 16:48:45 #95 №593154 
>>593153
ево, этож и есть оригинал, екслама тоже преобразуется и квантуется
Аноним 06/01/24 Суб 16:51:18 #96 №593156 
>>593111
>>593148
Ясненько, спасибо.
Мне не для рп, а для текстовых концептов, скорость важна, я много правлю. Не критично, но хотелось бы побыстрее.
Аноним 06/01/24 Суб 16:51:47 #97 №593158 
>>593153
Под оригинал кстати не обязательна врам, он и на процессоре крутится и вроде бы можно было часть там часть там. Медленно конечно, но это 8b, а не 70b. Че там, 16 гигов вроде fp16
Аноним 06/01/24 Суб 16:53:00 #98 №593160 
Можно ли фп16 запустить на процессоре?
Аноним 06/01/24 Суб 16:53:07 #99 №593161 
изображение.png
>>593154
>екслама тоже преобразуется и квантуется
Проёбов там обычно меньше.
Попробовал в общем напрямую, и тоже шизит. Бывает конечно пишет классику с 8 книгами, но вот такой шизы не должно быть вообще даже на 7B, я считаю. Короче либо одно, либо другое.
Аноним 06/01/24 Суб 16:55:23 #100 №593165 
>>593161
Похоже на проеб тренировки кстати, хуево данные почистили может
Аноним 06/01/24 Суб 16:59:57 #101 №593176 
image.png
>>593161
Вобще я так понимаю суть дообучения в прибавлении знаний к сетке, а не улучшение мозгов в сумме.
Это нужно не задачками ее ебать, а проверять знания и умение их применять. На сколько понимаю нужно сравнить базовый мистраль и эту сетку и поспрашивать на разные темы.
Скорей всего добавили математику и програмерство.


Хотя хуй знает, может быть там был не мистраль, а ллама 2.
Но врятли, она изначально сосет.
Аноним 06/01/24 Суб 17:02:18 #102 №593179 
>>592971
Поздравляю.
Аноним 06/01/24 Суб 17:29:21 #103 №593218 
https://blocksandfiles.com/2024/01/05/ferroelectric-ram-update-and-micron/
Новая память с намеком на использование в ии, я так понимаю это оптан 2
Аноним 06/01/24 Суб 17:38:53 #104 №593227 
>>593218
> с намеком на использование в ии
Голоса в голове тебе намекают? Причём тут вообще ИИ и куда ты собираешься это затолкать?
Аноним 06/01/24 Суб 17:39:43 #105 №593229 
>>593227
Статью почитай не позорься, там это прямо написано
Аноним 06/01/24 Суб 17:40:45 #106 №593230 
Почему никто Grok не обсуждает?
Аноним 06/01/24 Суб 17:40:57 #107 №593231 
>>592934
Спасибо за объяснение.

Кстати, продолжил тестировать кванты yi-34b-v3 и заметил, что у Q5_0 сильно меньше шизы по сравнению с Q6_K, но качество сравнимо.
Затем вспомнил пост Undi95:
>WARNING: ALL THE "K" GGUF QUANT OF MIXTRAL MODELS SEEMS TO BE BROKEN, PREFER Q4_0, Q5_0 or Q8_0!
https://huggingface.co/Undi95/Mixtral-8x7B-MoE-RP-Story?not-for-all-audiences=true
Ещё один финтюнер немного обобщённо бугуртит с gguf:
>I had much better results with the fp16 instead of GGUF, GGUF quants seem fucked? I don't know. May be on my side. Had so much nonsense input, had to wrangle settings until I had it coherent, it was working Really good. Fuck Yi models are a pain to work with.
https://huggingface.co/Sao10K/NyakuraV2-34B-Yi-Llama

Пока вброшу в тред предположение, что все gguf в которых есть буква K ломают yi-34.

>>592971
Мои поздравления, ждём тесты тяжёлых нейронок.
А куда ты их планируешь втыкать? Можно фотку если что-то необычное?
Расскажи как будешь охлаждать и что будет с температурой.
Аноним 06/01/24 Суб 17:44:59 #108 №593236 
>>593229
Ты знакомые буквы увидел и даже не читал что там написано, да? Там не слова про использование в ИИ, использование в GPU-датацентрах не означает что оно хоть какое-то отношение к ИИ имеет. Там речь вообще про другое.
Аноним 06/01/24 Суб 17:47:02 #109 №593238 
>>593231
> предположение
Чел, это уже давно пофикшено, если ты специально где-то не откопал протухшую версию. И шизам, видящим разницу между Q5 и Q6 надо принимать таблетки.
Аноним 06/01/24 Суб 17:52:45 #110 №593243 
image.png
>>593230
Судя по тесту грок та еще хуйня>>592964

>>593236
Совсем сдрочился? Уже и небольшую статью прочитать и осознать не могут.
Гуглоперевод что бы ты страдал, до перевода Gen AI догадайся сам.

Хотят сделать аи ускорители с большой и энергонезависимой памятью, что бы хранить модель там столько сколько нужно и с большими скоростями. Без необходимости гонять ее туда сюда каждое включение. Может быть меньшее выделение тепла и потребление в сумме, так как не жрет энергию на поддержание. Замена нанд в потанцевале, как скорей всего более дешевая замена оптана.
Может быть и замена рам, по крайней мере скорости годные, только задержка великовата.
Аноним 06/01/24 Суб 17:55:41 #111 №593248 
>>593238
> это уже давно пофикшено
А были новости про это какие то? Мол да каемся срали, но теперь завязываем.
>Q5 и Q6 надо принимать таблетки.
Желтый может и шизу снес, но с другой стороны утверждать, что между 5 и 6 разницы нет до уровня неразличимости - тоже бредом попахивает - по хорошему надо выборкой на реролах тестить.
Аноним 06/01/24 Суб 18:08:35 #112 №593251 
https://www.reddit.com/r/LocalLLaMA/comments/18zne2z/the_basement_rig_has_achieved_the_next_level_96gb/
4 карты сразу
Аноним 06/01/24 Суб 18:10:24 #113 №593255 
>>593243
Ты даже русский язык не понимаешь? Написано же для файлопомойки больших файлов. Какое отношение к ИИ это имеет?
Аноним 06/01/24 Суб 18:13:01 #114 №593257 
>>593248
> А были новости про это какие то?
В гите читай, через пару дней пофиксили после обнаружения бага.
> между 5 и 6 разницы нет до уровня неразличимости - тоже бредом попахивает
Без семплинга они тебе выдадут идентичный результат, с семплингом тоже на шизу похоже, если ты видишь какие-то отклонения в рандоме.
Аноним 06/01/24 Суб 18:13:18 #115 №593258 
>>593255
вот тупой
Аноним 06/01/24 Суб 18:16:13 #116 №593260 
image.png
>>593243
>Судя по тесту грок та еще хуйня
А что не так с тестом? То, что они все снизу - это база, реальность такая. Лево/право же вопрос идеалов скорее.
Аноним 06/01/24 Суб 18:18:38 #117 №593262 
https://www.reddit.com/r/LocalLLaMA/comments/18zcgyp/expanding_capabilities_through_composition_calm/
бля еще один метод слияния сеток

>>593260
Ну, то что он лево либеральный это все соевый биас. А соя это плохо
Аноним 06/01/24 Суб 19:27:18 #118 №593287 
>>593230
Потому что не попенсорс, очевидно же.
>>593243
Хуйня идея, данные всё равно через 3 пизды от вычислителей.
>>593260
>То, что они все снизу - это база, реальность такая.
Схуяли? Это не база, это алаймент.
>>593262
>бля еще один метод слияния сеток
Заебали, остановите прогресс на недельку хотя бы.
Аноним 06/01/24 Суб 19:31:55 #119 №593291 
>>593260
нее чел, это всё хуйня, модели что промоутят повесточку - нахуй идут.
https://www.trackingai.org/compare-responses#Q62
а вот здесь https://www.trackingai.org/ можно посмотреть пикрил.
Аноним 06/01/24 Суб 19:32:42 #120 №593292 
firefoxv5Ycr5fGXH.png
>>593291
бля
Аноним 06/01/24 Суб 19:34:59 #121 №593293 
mlabonne/Beyonder-4x7B-v2

Очень интересная мини-МОЕ модель.
Для нищуков вообще отлично подойдет.
Аноним 06/01/24 Суб 19:38:48 #122 №593297 
>>593291
А ты тот тест проходил? Я вот прошел. Там 0 вопросов про трансов. Зато есть вопросы уровня "было бы хорошо если бы каждый мог воду бесплатно получить?"

Ну, было бы хорошо. Вот модели и занимают на этом тесте левый угол.
Аноним 06/01/24 Суб 19:39:10 #123 №593298 
Два вопроса:
Посоветуйте годную GGML лору

И второй вопрос, в Silly Tavern в лорбук можно добавлять только персонажей или вообще все что угодно? Места, события и тд?
Аноним 06/01/24 Суб 19:41:43 #124 №593301 
>>593298

Лор бук работает по принципу привязки к слову.
Это может быть персонаж, место, событие, похуй вообще.
Аноним 06/01/24 Суб 19:43:07 #125 №593303 
>>593153
Вторичка она такая, проверками и тщательным осмотром можно вероятность фейла минимизировать но она всегда остается.
>>593160
Да, ванильным трансформерсом с торчем на цп, через llamacpp сконвертировав веса в gguf не трогая битность.
>>593176
> суть дообучения в прибавлении знаний к сетке, а не улучшение мозгов в сумме
И то и другое если все получается.
>>593218
Скорее для хранилищ или высокопроизводительного дискового кэша, она медленная по сравнению с оперативной памятью но быстрее той что в ссд.
>>593248
> между 5 и 6 разницы нет до уровня неразличимости
> по хорошему надо выборкой на реролах тестить
Как их можно объективно сравнить?
Аноним 06/01/24 Суб 19:45:32 #126 №593306 
>>593301
> Лор бук работает по принципу привязки к слову

То есть как кроссреференс? Типа будет сканить и проверять на наличие ключевых слов а потом брать описание?
Аноним 06/01/24 Суб 19:53:27 #127 №593309 
yebytltkz.jpeg
>>593287
>Заебали, остановите прогресс на недельку хотя бы.
Аноним 06/01/24 Суб 19:56:04 #128 №593312 
>>593306
Ага.
Поэтому система довольно всратая, она иногда работает на синонимы или если ты слово с ошибкой напишешь, а иногда не работает.
Аноним 06/01/24 Суб 19:59:45 #129 №593316 
>>593312
Понял спасибо анонче за обьяснение. Осталось решить вопрос с годной лорой.
Аноним 06/01/24 Суб 20:07:01 #130 №593318 
>>593303
>И то и другое если все получается.
Ну, от увеличения знаний сетка становится умнее, да.

>Скорее для хранилищ или высокопроизводительного дискового кэша, она медленная по сравнению с оперативной памятью но быстрее той что в ссд.
Не обязательно медленнее, просто делай шину чуть шире. Для обычной гпу наверное бесполезна, а вот для чисто ии ускорителя норм.
Материнка с ИИ процессором, вокруг него слоты памяти, нет ебли с сата нвме и другими медленными накопителями. Только один чип и один тип памяти на котором он все и хранит.
Если бы в компах не было разделения на оперативную память и медленную, жать было бы веселее.
Ну, будь у нас полный аналог энергонезависимых ддр.
В любом случае это игрушка для корпоратов как и любое передовое оборудование. У них могут быть свои требования и эта память может под них подойти.
Аноним 06/01/24 Суб 20:26:31 #131 №593331 
>>593318
Делать гига широкие шины трудно.
Почитай какие проблемы были в hbm, даже пришлось дополнительную подложку (дорогую, кстати) мастырить.
Аноним 06/01/24 Суб 20:28:35 #132 №593333 
>>593318
> Ну, от увеличения знаний сетка становится умнее, да.
Тут еще важно умение их применить, старые большие сетки "знают" довольно много, но наитупейшие в некотором контексте.
> Не обязательно медленнее, просто делай шину чуть шире.
Если шина потребуется в 10+ раз больше, а время доступа будет донное - не нужно, плюс у нее ограниченный ресурс. Но в качестве промежуточного звена памяти, которая медленнее рам но быстрее хранилища может пригодиться.
> эта память может под них подойти
Хранить кэш активаций или частей моделей, вполне.
Аноним 06/01/24 Суб 20:57:11 #133 №593364 
1704563829814.jpg
Все ещё верите бенчмаркам?
Аноним 06/01/24 Суб 21:11:18 #134 №593375 
>>593318
>Если бы в компах не было разделения на оперативную память и медленную, жать было бы веселее.
Давай сразу регистры на диск заменять, все эти кеши это просто костыли.
>>593333
>Но в качестве промежуточного звена памяти, которая медленнее рам но быстрее хранилища
Не особо нужно, по крайней мере на десктопе диски сейчас не сказать чтобы упирались в шину, но близки к ней.
Аноним 06/01/24 Суб 21:13:53 #135 №593383 
>>593364
В них никто уже давно не верит, хуй знает зачем ты это принес
Аноним 06/01/24 Суб 21:43:53 #136 №593403 
>>593303
> Да, ванильным трансформерсом с торчем на цп, через llamacpp сконвертировав веса в gguf не трогая битность.
Оно же должно быстрее быть, так? Я где-то читал, мол то ли п40, то ли процы лучше приспособлены для фп16 вычислений.
Аноним 06/01/24 Суб 21:49:05 #137 №593405 
>>593403
Ага. Только шина соснёт в 4 раза больше.
Аноним 06/01/24 Суб 22:55:25 #138 №593445 
photo12024-01-0622-49-33.jpg
photo22024-01-0622-49-33.jpg
photo32024-01-0622-49-33.jpg
photo42024-01-0622-49-33.jpg
>>593040
>Красава. Ждём тестов 70B.
так, я собрал наконец все говно до кучи и готов что-нибудь попробовать
Только я не знаю, каких именно тестов вам подогнать
70б какой модели? И где бы мне вопросы каверзные найти для нейросетки, чтобы проверить насколько она умная?
>>593231
я заказывал турбины вместе с картами. Вот сотственно как я их смонтировал.
Турбины без регулировки, шумят. Точно нужно будет их менять в дальнейшем. Работать можно, но на ночь не оставишь, как я обычно делаю - спать не даст.
Аноним 06/01/24 Суб 23:13:51 #139 №593461 
>>593293
Модель хорошая, но опять же злые персонажи применяют насилие и тут же извиняются, а так словарный запас хороший, кум есть, шизы вроде не заметил.
Аноним 06/01/24 Суб 23:24:01 #140 №593470 
>>593461
Да меня тоже немного с consent докучала, но на удивление быстрое сдается после условного "ну ебать, хорош ломаться" лол
Аноним 06/01/24 Суб 23:24:04 #141 №593471 
>>593403
> то ли п40, то ли процы лучше приспособлены для фп16 вычислений
Скорее они не приспособлены к расчетом меньшей битности и не получают такого же ускорения, как на новых гпу.
>>593445
Хуясе ебать, это же привод!
Из чистых файнтюнов что-нибудь, или можешь рискнуть последние мерджи, но во многих дичь намешана, а куда добавили лору кимико70 довольно вяло отвечают.
Что по температурам, потреблению и т.п.? Попробуй и gptq через экслламу и gguf через жору, какое будет лучше выдавать интересно. Что по pci-e линиям, какой жор и температуры получаются?
Аноним 06/01/24 Суб 23:35:55 #142 №593486 
>>593470
Вот написал и тут же сглазил, у бабушки внезапно "вырос хер", по-моему этой херней вообще все модели 7Б страдают. В целом в РП пока ничё не нашёл лучше mlewd_Q5. 7b либо генерят просто вал текста, но по сути стоят на месте и не двигают сюжет либо проёбывают логику, другие же жрут кучу ресурсов и норм там не порпшить
Аноним 06/01/24 Суб 23:45:33 #143 №593507 
>>593445
>70б какой модели?
Ваще похую. Главное скорость модели и подводные с запуском.
Аноним 06/01/24 Суб 23:46:45 #144 №593510 
>>593486
Даже бОльшие модели этим иногда страдают
Аноним 07/01/24 Вск 00:04:18 #145 №593543 
>>593445
Проверь сколько контекста у модели 34b 200k войдет до падения скорости, ну и сами скорости ее.
Квант возьми любой, хоть 6к, можешь даже 8q ебнуть, но там гигов 14 останется под контекст и другую хуйню, эт мало

Вобще просто тесты скорости сеток разных размеров сделай и их максимально влезающий контекст. Что бы можно было ориентироваться. На 1 и на 2 картах.
Аноним 07/01/24 Вск 00:17:31 #146 №593570 
>>593543
> 14 останется под контекст
> эт мало
Ахуеть, жора, конечно, не оптимизированный, но не настолько же.
> скорости сеток разных размеров сделай и их максимально влезающий контекст
Если будешь делать то замерь заодно сколько оно при дефолтных 4к потребляет, можно будет сделать таблицу.
Аноним 07/01/24 Вск 02:26:10 #147 №593693 
john-jonah-jameson-lol.gif
Попробовал тут поюзать Wizard Uncensored расхайпленый. Ролевки ведет максимально хуево. Зато может написать рецепт создания запрещенки.
Аноним 07/01/24 Вск 02:28:19 #148 №593695 
>>593693
>рецепт создания запрещенки.
Что это значит? Речь про какую запрещенку-то лол? Про запрещенный сыр из евросоюза в россии?
Аноним 07/01/24 Вск 02:28:22 #149 №593696 
>>593693
> расхайпленый
Да хуйта, хз даже кто ее хайпил. Прорывная - версия 1.2, но оно только в 13б, с цензурой (обходится промтом) и ей уже пол года.
Аноним 07/01/24 Вск 02:29:06 #150 №593697 
>>593695
> Что это значит?

Может написать подробные рецепты по созданию наркоты, бомб, оружия и тд
Аноним 07/01/24 Вск 02:35:28 #151 №593701 
>>593697
не, ну вроде звучит интересно....
Может расскажет мне как альтушку на госуслугах получить.
А он только 13b?
Аноним 07/01/24 Вск 02:45:19 #152 №593708 
>>593701
https://huggingface.co/models?search=Wizard-Vicuna-7B-Uncensored

Есть еще 7б
Аноним 07/01/24 Вск 04:34:05 #153 №593758 
Анон, а дай полный спек своей машины, плизик?
Аноним 07/01/24 Вск 04:50:41 #154 №593761 
Screenshot 2024-01-07 at 04-32-40 Screenshot.png
утилизация под llama 70b.png
>>593507
llama-2-70b.Q4_K_M.gguf
скорость 2.92-3.72 токена

Я посмотрел как отвечает openchat_3.5-f16, yi-34b-v3.Q6_K и llama-2-70b.Q4_K_M отвечает на загадки и чёт они все справились херово.
Только вот опенчат f16 требует 10 гб, а ллама 70б - в три раза больше.

>>593471
>Что по температурам, потреблению и т.п.?
на пике - типичная картина утилизации под нагрузкой. Но я сейчас лечу на слабом блоке питания всего с тремя линиями +12 раскиданными на 4 восьмипиновика двух видеокарт. Есть вероятность, что я часть сети питания видокарт не задействовал, поэтмоу утилизация только наполовину.
Завтра буду бп искать.
И да, греется неплохо. Нужен хороший поток воздуха, надо думать, как сделать его без шума.
>Что по pci-e линиям
а вот этот вопрос я не совсем понял.
Аноним 07/01/24 Вск 04:53:56 #155 №593762 
>>592819
>1070 медленная, наверное, две p40 дали бы 7+++
нет, не дали бы.
Я не помню точно, но у меня на двух p40 кажется yi-34b-v3.Q6_K держалась на 6.7 т/с, один раз видел 6.9
Аноним 07/01/24 Вск 10:31:37 #156 №593884 
Анончики, разные модели это конечно хорошо, но какие настройки температуры и прочих непонятных штук считаются самыми лучшими?
Аноним 07/01/24 Вск 10:33:46 #157 №593885 
Эксламы только с нвидей гоняются, или на 6700хт тоже пойдут?
Аноним 07/01/24 Вск 10:48:39 #158 №593888 
>>593884
Тут уж сам выбирай.
Аноним 07/01/24 Вск 11:00:17 #159 №593896 
>>593762
там надо специально для этих карт llama.cpp собирать с какими то особыми настройками которые ускоряют генерацию, на реддите видел в уакой то теме с этими картами
Аноним 07/01/24 Вск 11:21:14 #160 №593902 
>>593888
И всё таки? Интересно чем пользуются аноны
Аноним 07/01/24 Вск 11:27:51 #161 №593904 
>>593902

Да выбери любой пресет в таверне и посмотри.
Чего как маленький то?
Аноним 07/01/24 Вск 11:43:16 #162 №593906 
https://huggingface.co/Sao10K/Sensualize-Solar-10.7B
Новая версия фроствинд, на сколько я понял.
Аноним 07/01/24 Вск 11:57:25 #163 №593908 
>>593906
Нет это файнтюн Солара, как и фроствинд.
Аноним 07/01/24 Вск 12:05:02 #164 №593910 
>>593908
Ты дурак?
Аноним 07/01/24 Вск 12:07:53 #165 №593912 
>>593910
>A finetune of Base Solar.

Мозги прокумил уже ебанат?
Аноним 07/01/24 Вск 12:10:35 #166 №593914 
>>593912
А теперь глянь кто автор фроствинд, дурачек.
И так у нас есть один человек который играется с солар 10.7, имеющий какой то набор датасетов. И вот он делает фроствинд на одной версии датасета, а потом переделав свой датасет делает новую версию сетки.
Тоесть это легко можно назвать новой версией фроствинд.
Какие то аноны тупые после праздников
Аноним 07/01/24 Вск 12:12:10 #167 №593916 
>>593914

Значит все шизомиксы от унди это на самом деле разные версии одной модели.
Нихуя ты умный чел.
Аноним 07/01/24 Вск 12:15:22 #168 №593917 
>>593916
Тебя слишком сильно квантовали чтоли, долбаеб?
Какая связь между унди который тупо мешает сетки, и челом который тренирует одну версию базового солара на 2 версиях одного датасета?
Аноним 07/01/24 Вск 12:16:32 #169 №593918 
>>593917
Откуда ты вообще высрал "2 версии одного датасета"?
Аноним 07/01/24 Вск 12:19:09 #170 №593920 
>>593918
Вот тупой, глянь чем он там занимается. Это автор кучи своих сеток. Че удивительного что он попробовал сделать сетку, а потом изменил датасет и сделал это снова? Ты думаешь датасеты так легко собирать и изменять?
Аноним 07/01/24 Вск 12:21:39 #171 №593922 
>>593920

>я это придумал а теперь маняврирую потому что понял что обосрался

Так бы сразу и сказал
Аноним 07/01/24 Вск 12:24:09 #172 №593925 
>>593922
ебать ты тупой анон, иди нахуй
И после этого говорят что аги еще не достигнут
Аноним 07/01/24 Вск 12:24:21 #173 №593926 
image.png
image.png
>>593292
>ЛЛАМА-2 в центре.
Компас говна, реальное положение моделей он не отражает.
Аноним 07/01/24 Вск 12:26:20 #174 №593927 
>>593925

Стоп тряска.
Ну обосрался, ну с кем не бывает
Аноним 07/01/24 Вск 12:31:11 #175 №593928 
>>593761
>а вот этот вопрос я не совсем понял.
Что за материнка и какая схема подключения двух крат в неё: классика 8+8, или там 16+4.
Аноним 07/01/24 Вск 12:37:15 #176 №593931 
>>593927
Он обосрался, а я стоп? Говноеды
Аноним 07/01/24 Вск 12:46:52 #177 №593933 
>>593926
Это он говорит что он нейтрально-добрый, по сути он законопослушный-злой.
Аноним 07/01/24 Вск 13:09:06 #178 №593939 
https://github.com/ggerganov/llama.cpp/pull/4773#issuecomment-1879763255
> true 2bit quants
> 70B в ~17gb
ебать
Аноним 07/01/24 Вск 13:27:09 #179 №593945 
>>593758
Ты у всех или кого-то конкретно спрашиваешь?
>>593761
По линиям пояснили,
> скорость 2.92-3.72 токена
Это на жоре или экслламе? И на каком контексте.
Половинная нагрузка при совместном использовании норма, ведь карточка половину времени ждет пока другая обсчитает свою часть.
С каверзными вопросами файнотюн на cot может помочь разве что. Если не лень попробуй просто початиться с ними с разговором на разные темы, правно перетекающие друг в друга, и заодно задавая вопросы и давая указания/задачи, типа "представь что ..." и дальше все идет с учетом этого. В подобном уровень модели сразу раскрывается, оно или будет (пытаться) удержать все это и стараться, или даже идеально говорить, или же будет срать ответами без четкой связи с прошлым или отсылок, а то и вообще поломается. Из мелких в такое более менее могут солар и визард разве что.
>>593885
На амудэ начиная с 6800 говорят нормально катается. Ну а 700-й как всегда повезло не стоило шквариться об амуду в текущих условиях
>>593896
Есть линк? Вроде писали что лламацпп по дефолту на этих картах шустро работает и в ней сильно быстрее чем с другими лоадерами. Но хз, может пиздят, нет такого чтобы проверить.
>>593926
О каком нейтрально-добром ты пытаешься судить, если в какой-то херне что ты пустил может быть какой угодно промт, а то и вообще ваниальная чат версия.
Аноним 07/01/24 Вск 13:33:22 #180 №593947 
Лламаны, а накидайте плиз для нуба, только что установившего Кобольд и Фроствинд по инструкции, ссылок на топ не в ТОМ смысле персонажей для ролеплея с чаба или где их еще берут. Чтоб знать вообще, что такое хорошо.
Аноним 07/01/24 Вск 13:33:45 #181 №593948 
Лламаны, а накидайте плиз для нуба, только что установившего Кобольд и Фроствинд по инструкции, ссылок на топ не в ТОМ смысле персонажей для ролеплея с чаба или где их еще берут. Чтоб знать вообще, что такое хорошо.
Аноним 07/01/24 Вск 13:34:17 #182 №593949 
>>593939
QuIP# давно есть, в Эксламе его запилили уже. У Жоры как обычно всё через месяц только появляется.
Аноним 07/01/24 Вск 13:36:08 #183 №593951 
>>593949
мех, раньше быстрее было :/
хотя и не удивительно, он ведь сча занят моделями на айфонах, сразу видно яблодрочера.
Аноним 07/01/24 Вск 13:43:01 #184 №593956 
>>593945
>По линиям пояснили,
я погуглил, но что-то не понял, как посмотреть то что вы хотите.
Мать prime-b450-plus
проц в ней Ryzen 5 3600
>Это на жоре
На жоре. Контекст 1к с копейками, тестирование падения скорости при увеличении контекста еще запланированно.
>Половинная нагрузка при совместном использовании норма
Разве сетка не линейна? В таком случае отработала половина слоев на видеокарте - передала результаты во вторую - отработала половина слоев на второй видеокарте. Они не должны с собой взаимодействовать по логике постоянно.
Разве что llama.cpp слои не по подряд на карты складывает, а раунробином.
Аноним 07/01/24 Вск 13:50:14 #185 №593959 
>>593948
Заходишь на chub.ai и по тегам ищешь что тебя нужно.
Аноним 07/01/24 Вск 13:54:03 #186 №593961 
>>593956
>но что-то не понял, как посмотреть то что вы хотите
В любом обзоре/в бивасе настройки. Короче у тебя вот так
1 x PCI Express 3.0 x16
1 x PCI Express 2.0 x16 (x4)
3 x PCI Express 2.0 x1
То есть вторая зарезана прямо неплохо так.
Аноним 07/01/24 Вск 13:57:38 #187 №593965 
>>593947
Это как "посоветуйте автомобиль", хз что тебе вообще нужно и для чего. Если в общем по карточкам, ищи лаконично написанные, без большого обилия форматирования и лишней графомании с althou, despite, however, except по 3 штуки каждой в одном предложении. Эта нейрошиза сильно портит дальнейший стиль и сжирает токены. https://chub.ai/characters/minimum/Kumi держи древнюю не кумерскую платину, из локалок что сейчас в тренде ее мало умеют отыграть, десяток постов и уже улыбающаяся да жизнерадостная лезет совращать.
>>593956
Там х8 + х8 3.0 или х16 3.0 + х4 2.0?
Попробуй прогнать жору с выгрузкой на одну видюху (cuda visible devices) на разные и сравнить скорость.
> В таком случае отработала половина слоев на видеокарте - передала результаты во вторую - отработала половина слоев на второй видеокарте. Они не должны с собой взаимодействовать по логике постоянно.
Ну в случае нормальной организации все так, но всеравно каждая карточка будет ждать окончания работы другой чтобы получить в итоге новый токен в контекст и начать обрабатывать свою часть, они взаимосвязаны. На новых карточках жора плохо параллелится, складывается ощущение будто там не единичный обмен активаций происходит а слои в шахматном порядке раскиданы. Хз в общем, может дело в чем-то еще.
4 т/с со стримингом - успевает генерить чтобы можно было читать ответ сразу? Если так то уже кайфово.
Аноним 07/01/24 Вск 14:07:39 #188 №593973 
>>593965
>успевает генерить чтобы можно было читать ответ сразу?
пока ответить не могу, контекст был маленький.
На таком контексте-то они все могут быстро отвечать.
Аноним 07/01/24 Вск 14:24:12 #189 №593992 
Сорри, пишу с тапка, поэтому краткость не сестра.

>>593959
Там такая же проблема, как и везде. Полно васянов, которые лепят что-то на коленке после уроков, и других васянов, которые это жрут, нахваливают и добавки просят. А я тут хочу у более развитой публики спросить. Судя по тредам, тут и реально эстеты-ценители не редкость.

>>593965
Спасиб, вот такие ответы люблю. Нужно просто понять для начала, чего максимум можно ожидать от ролеплея с рекомендованной моделью на сегодня. И с моей RTX3060 о 12 гигах. Эро будет этот ролеплей или нет, дело не первой важности. Главное оценить верхнюю планку. Ну, в конфиге, где не надо ждать по две минуты ответа, конечно.

Забыл написать, что SillyTavern тоже установлена уже. Глаза разбегаются.
Аноним 07/01/24 Вск 14:27:10 #190 №594000 
>>593992
https://chub.ai/users/PotatoPun

Этого попробуй
Аноним 07/01/24 Вск 14:34:51 #191 №594008 
>>593992
> Главное оценить верхнюю планку.
Это все зависит еще и от тебя, то что персонаж нравится может быть важнее чем особенности форматирования и т.д. Плюс перфоманс комбинации карточки и модели может сильно отличаться, особенно если модель знает фендом вселенной, откуда персонаж, в таком случае может ультить, и наоборот.
Сейчас приличный уровень от которого (если раньше не рпшил с сетками) кайфанешь могут обеспечить даже мелкие сетки, не заморачивайся и познавай. Страдать снобизмом или аутотренингом будешь уже потом когда все надоест.
Если не уверен в карточке - спроси, в любом случае обосрут но хотябы аргументированно.
Аноним 07/01/24 Вск 14:54:01 #192 №594018 
>>591790 →
95% юзеров даже не смотрят, че там в памяти смартфона лежит. =)
А про бесполезные функции — так их и так напихано. Всякие новости, AI и прочие агреггаторы, плееры, магазины, смс… О которых мы не в курсе, но стоит лишний раз смахнуть вправо или влево…

>>592000 →
64 гига, да.

>>592819
> стаканье видеокарт не создаёт накладных расходов

ДА НУ НАХУЙ
Я БЛЯДЬ ДВАДЦАТЬ ТРЕДОВ ЭТО ГОВОРЮ, НО ШИЗЫ ТОПИЛИ, ЧТ ОНИХУЯ СЕБЕ ТАМ ВСЕ УМИРАЕТ
И НАЧИСТО ИГНОРИЛИ ТЕ ЖЕ ТЕСТЫ ДВУХ-ТРЕХ P40 И ВООБЩЕ ВСЕ ТЕСТЫ НАХУЙ

Ну, добро пожаловать в реальность, может быть будешь чаще меня слушать, и меньше шизам верить.

Вообще, кмк, идею с тем, что стакание карт убивает перформанс продвигали 1-2 шиза, все остальные молчали и смотрели на наши срачи.

>q6
База, q4 — нет.
Но вообще, разница не супер-пупер должна быть, конечно.

>>592897
Дам линк на мой старый ответ по соседней теме >>570961 →
Мне лень писать снова, но подумай над комплексов ботов и нейронок вместе, да.
Cog советовали неплохо, но можно и без него, кстати. Если именно стример-игрок.

>>592962
Локалки норм, та же Yi-34B-200k.
Плюс, ему не надо держать контекст всего чата и игры. Чисто игровая ситуация + каменты, там 4-6 тыщ контекста, думаю, должно хватить.

>>592963
Да-да.

>>592964
Микстрали похуй на все, тесты смешные, но не особо релевантные, канеш. От промпта зависит, кмк.

>>592971
Мои поздравления!

>>592973
Я думаю, он имел в виду — за качественной реализацией, а не васянскими файнтьюнами.

>>593061
>Уже вижу
Da. )))

>>593139
> Далее, можно начать выстраивать взаимодействие, настрой вишпер и tts чтобы говрить с ней, настрой выдачу эмоций для какого-нибудь л2д движка чтобы ее визуализировать, плюс сделать липсинк с речью.
Визуализировать можно специальным софтом, какой-нибудь FaceRig в помощь, там и липсинк, и че хошь.
Вишпер разве что для озвучки сюжетных катсцен?
tts рекомендую нынче xTTSv2, кстати.
Не обязательно несколько llm, на самом деле. Возможно хватит и одной, а остальное повесить на простые алгоритмы.

>>593309
Ору, база, не останавливайте.

>>593445
Регулировку обычным реостатом.

Помни, что GPTQ/Exl2/AWQ не то, а вот выгрузка GGUF — отлично.

Но можешь и их потестить, чтобы лишний раз убедиться.

>>593761
> 2.92-3.72
Пуф-пуф… Ну, для фанатов 70б кума сойдет, а так… медленновато, наверное, ИМХО.

>>593961
Жить можно. Медленно, но не критично, ИМХО. Если не пихать две 4090 и ждать 100 т/сек. И то, не сильно просядет.
Аноним 07/01/24 Вск 14:55:55 #193 №594020 
NEVER FORGET.png
>>594018
>Микстрали похуй на все
не совсем.
Аноним 07/01/24 Вск 15:04:34 #194 №594028 
>>593992
>ожидать от ролеплея
Суть такова, что ролеплей это очень сложная задача с высоким уровнем абстракции. РП начинается с нейронок размером 34B, а качественный отыгрыш уже 70B.
>И с моей RTX3060 о 12 гигах.
Запустить на жоре 34b выгрузив сколько сможешь слоёв в видеокарту.
Использовать 3060 совместно с другой видеокартой.
Аноним 07/01/24 Вск 15:08:02 #195 №594029 
>>594018
> Я БЛЯДЬ ДВАДЦАТЬ ТРЕДОВ ЭТО ГОВОРЮ, НО ШИЗЫ ТОПИЛИ, ЧТ ОНИХУЯ СЕБЕ ТАМ ВСЕ УМИРАЕТ
Эти шизы сейчас с тобой в одной комнате?
> чаще меня слушать, и меньше шизам верить
Взаимоисключающие
> Вишпер разве что для озвучки сюжетных катсцен?
Что? Боту воспринимать такой уровень игоря слишком сложно и не нужно. Это чтобы чар воспринимал речи автора и можно было с ним взаимодействовать, как делает Видал.
> Возможно хватит и одной
Количество запросов слишком высоко, обработать чат, обработать историю, обработать ген-план стрима, выстраивая уместные указания боту, сам персонаж, обработка что там с игрой творится, цензуру нигеров-пидаров и т.д. Это может быть одна хорошая модель с разными запросами к ней, но их будет много.
Стоит изучить опыт автора успешного проекта, если офк получится собрать камни.
>>594020
11/11, топчик.
>>594028
20б вполне норм, магии нет но приятно. Лучше более глупая модель, которая отвечает пока ты еще погружен, чем дохуя умная через с ответами в несколько минут. Если офк не отыгрывать переписку, лол.
Аноним 07/01/24 Вск 15:09:51 #196 №594032 
Раз зашла речь о рп на 34б - реквестирую модели, которые в него хорошо могут.
Аноним 07/01/24 Вск 15:16:27 #197 №594034 
>>594032
>tess-34b-v1.4
>rpbird-yi-34b
>synthia-34b-v1.2 (автор выпилил со своей странички, но у блока она ещё осталась)
>Yi 34B v3
Их уровень примерно одинаковый, но каждая со своими неповторимыми свистелками и перделками.
Аноним 07/01/24 Вск 15:22:21 #198 №594041 
>>594034
Спасибо
> synthia-34b-v1.2
Страдает зацикленностью на faster@harder и идентифицирует себя как клод от антропиков, или без этих проблем, не пробовал?
Аноним 07/01/24 Вск 15:24:51 #199 №594047 
>>594020
Всегда кекаю когда соевой модели скажешь что она типа slut а в ответ такую хуйню получаешь
Аноним 07/01/24 Вск 15:26:37 #200 №594051 
>>594034
А если всё таки выбирать одну из них? Например, какой ты сам пользуешься? С какими настройками?
Аноним 07/01/24 Вск 15:33:38 #201 №594054 
>>594041
>> synthia-34b-v1.2
Тоже заметил, она немного нестабильная, но у неё самая богатая лексика.

>>594034
Попробуй Yi 34B v3. Настройки ставь самые дефолтные, нормально будет работать, а затем их нужно подгонять под карточку персонажа индивидуально.
Аноним 07/01/24 Вск 15:37:09 #202 №594055 
Как сделать, чтобы в таверне после автоперевода через экстеншен не проебывалась разметка? Гугл переводчик меняет кавычки на другие и разметка тупо ломается. Может можно как-то кастомизировать разметку?
Аноним 07/01/24 Вск 16:14:29 #203 №594073 
А что если сделать домашний нейроускоритель на базе 4x4060Ti ? Общее количество CUDA и тензорных ядер как у 4090, а памяти целых 64Гб. 120B_Q3_K_L влезает и летать будет. Затык вижу только в материнской плате, а так вроде нет недостатков.
Аноним 07/01/24 Вск 16:36:28 #204 №594091 
тут есть миллионеры с двумя 4090?
а то мои тесты на двух p40 ничего толком не показывают без сравнения с другими видеокартами
Аноним 07/01/24 Вск 17:43:41 #205 №594147 
>>594073
> 120B_Q3_K_L влезает
Будет
> летать
Нет
Обработка идет по очереди, 3/4х видюх будут простаивать 75% времени. Скорость будет примерно как у 34б Q3, только в 4 раза медленее, плюс некоторое замедление из-за обмена результатами.
>>594091
Что именно интересует? На 70б в бывшей 15-20т/с в зависимости от кванта, с флеш атеншн контекст практически не влияет.
> ничего толком не показывают
Неправда, они ценны уже сами по себе, возможность бюджетно крутить 34-70б модели дорогого стоит. Тут бы максимум выжать у них, и еще интересно как работают другие сетки. Попробуй cogvlm в 4х и 8-битном кванте, диффузию если не лень, что-нибудь еще из популярного, например основанное на клип-блип. Офк когда самому будет не лень и время свободное.
Ну и если производительность получится, порпшь на 70б, там несколько новых файнтюнов довольно интересных выходило за последний месяц.
Аноним 07/01/24 Вск 18:36:33 #206 №594186 
>>593939
Запустил mixtral-8x7b-2.10bpw.gguf на 3060 12GB VRAM, скорость генерации выросла до 11.62 t/s в llamacpp (была 3.00 t/s для Q5_K_M в свежем кобольде, что с оффлодом 9L, что без него).

2bit модельки (есть mixtral, mistral, llama2-70b)
https://huggingface.co/ikawrakow/various-2bit-sota-gguf/tree/main

нужен этот PR лламы (еще не в релизе).
https://github.com/ggerganov/llama.cpp/pull/4773

Все слои в 12 Gb не влезают, влезло 27/33 layers.

Как нормально посчитать perplexity? Я не готов ждать 6 часов (649 chunks, 31.73 seconds per pass - ETA 5 hours 43.25 minutes)
На 50 проходах получилась perplexity: для 2.10bpw - 5.8736; для Q5_K_M - 4.9244

Если кому интересно, могу написать гайд, как установить и скомпилировать этот PR.
Аноним 07/01/24 Вск 18:42:05 #207 №594191 
Я конечно все понимаю, но 2битный кванты это ж пиздец шиза будет, или там какое-то волшебное квантование?
Аноним 07/01/24 Вск 18:45:56 #208 №594194 
>>594147
> 3/4х видюх будут простаивать 75% времени
Бля надмозг ебаный. Все будут простаивать, потому что результат обработки одной является исходными данными для следующей.
>>594186
Интересно
>>594191
Тоже интересно что там, персплексити небольшой получается.
Аноним 07/01/24 Вск 19:22:55 #209 №594244 
>>594191
QuIP# на уровне Q4_K_S по PPL.
Аноним 07/01/24 Вск 19:39:18 #210 №594288 
Кто юзал групповой чат в sillytavern? У меня проблема- могу дописывать сообщения всех участников, кроме ГГ. Когда пытаюсь дописать своему персу, то пишет "Deleted group member swiped. To get a reply, add them back to the group." мне тупо надо гг продублировать карточкой персонажа и в чат добавить или мб настройка какая есть от этой шляпы?
Аноним 07/01/24 Вск 19:40:15 #211 №594293 
>>594288
Ну "дописать" всмысле догенерить
Аноним 07/01/24 Вск 19:59:33 #212 №594336 
>>594029
> Эти шизы сейчас с тобой в одной комнате?
Нет, к счастью. =)

> Взаимоисключающие
Никаких противоречий, я ж не шиз, в отличие от тех, у кого от нескольких видях перформанс сразу падает в разы. =D

> Это чтобы чар воспринимал речи автора
Какого автора?
Оке, может я не так понял. Я подумал, что автор хотел, чтобы его бот сам играл, стримил и комментировал. А автор вообще тут не участвует никак, зачем?
Но, может идея в другом, тогда мои извинения.

> Количество запросов слишком высоко, обработать чат, обработать историю, обработать ген-план стрима, выстраивая уместные указания боту, сам персонаж, обработка что там с игрой творится, цензуру нигеров-пидаров и т.д. Это может быть одна хорошая модель с разными запросами к ней, но их будет много.
Стоит изучить опыт автора успешного проекта, если офк получится собрать камни.

План стрима? Ну тут сразу сомневаюсь, что такое нужно.
Цензура? Кмк, с цензуров справится по дефолту любая соевая модель.
Историю? Повторюсь, история не нужна.
Чат.
И что творится в игре.
Указания боту — по ситуации.

Но, я соглашусь, что тут нужен опыт, если кто-то уже реализовывал.
Я пока пальцем в небо тыкаю, может я не прав, и нужно прям много всего.
Просто часть я бы повесил на простые скрипты.

Но буду честен, сам я стримеров не смотрю, и витуберов тем более. Что там популярно, какое поведение, не знаю.

>>594073
Какое еще «общее количество ядер», чувак? =D
Моделька обрабатывается последовательно.
Так что количество ядер такое, какое есть.
Памяти 64 гига, да.
Летать будет вчетверо медленнее, чем в твоих фантазиях + еще небольшие задержки на передачу данных. Ну и на 4 картах и правда быдлокод может вылезти, которые еще перформанс порежет.

>>594186
Я в начале подумал 10 bpw, охуел, а потом понял, что 2.1.
Типа… Она же критически тупая, не?
Ты же помнишь, что это 7B модельки?

Как оно интеллектом?
Аноним 07/01/24 Вск 20:03:42 #213 №594344 
>>593471
>Попробуй и gptq через экслламу и gguf через жору
я до этого пользовался только gguf. Я сейчас собрался сравнить две модели в разных форматах и не понял, как это сделать.
В случае с gguf все понятно - просто один файл скачиваем с лицехвата.
А по gptq ищутся например вот такие структуры https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GPTQ/tree/main
Правильно ли я понимаю, что достаточно просто указать целую директорию при выборе модели для exllama?

И второй момент который мешает сравнению - gguf почему-то не выкладывают в f16 на лицехвате.
Например вот вроде бы две одинаковых модели
gguf: https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GGUF/tree/main
gptq: https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GPTQ/tree/main
но в gguf отсутствует f16 и единственный способ который я знаю чтобы её получить - конвертить самому из оригинального репозитория https://huggingface.co/cognitivecomputations/Wizard-Vicuna-30B-Uncensored а там объем 100+ Гб. У меня сейчас банально нет столько места.

Если кто-то может мне указать на две репы с разными форматами с одной моделью, чтобы там была f16 в gguf - это помогло бы.
Аноним 07/01/24 Вск 20:10:03 #214 №594350 
Image1.png
>>594186
>>594336
>Как оно интеллектом?
Если кратко, то не очень. Или я не разобрался с настройками instruct mode template. Все ответы очень краткие, простые, сухие, интеллектом не блещет. Ни в какое сравнение с q5 не идет. Сейчас качаю llama-v2-70b-2.12bpw, вдруг чудо произойдет.
Аноним 07/01/24 Вск 20:11:53 #215 №594353 
>>594344

fp16 тебе нафиг не нужон, кмк.
GPTQ выкладывается папкой, да.
И как правило, это 4бит, если не выбрано иное, то есть квантование в 4 бита.
EXL2 выкладывается так же, но там квантования уже bpw могут быть любыми.

Логично, что сравнивать надо одинаковые кванты. Q4_K_M вроде как с GPTQ 4bit, плюс-минус, пусть меня поправят. Ну и 5bpw, скока там на самом деле бит на вес при квантовании.
Аноним 07/01/24 Вск 20:13:17 #216 №594356 
>>594350
Не произойдет. =)
Ну, попробуй, конечно, расскажешь.
Аноним 07/01/24 Вск 20:14:51 #217 №594357 
>>594353
я ситал ранее в тредах что паскаль хуже пережевывает кванты из-за того что старый.
Поэтому решил что нужно тестить и квантованную и неквантованную версии.
Аноним 07/01/24 Вск 20:18:18 #218 №594360 
>>594357
Может ты и прав, но, ИМХО, тут упор уже в память может быть, на таких больших объемах, как с fp16.
А выигрыша какого-то по соотношению качество на скорость ты вряд ли получишь.

Но, может ты и прав.

Где взять fp16 не подскажу, сорян.
Аноним 07/01/24 Вск 20:35:52 #219 №594373 
>>594336
Ну Ок, 4x4060Ti глупость. А две карты? Даже конфигурацию компьютера менять не придётся, просто две карты воткнуть - есть PCI-слоты и БП нормальный. 32Гб VRAM, модель 70В с малым квантом целиком влезет. Хотелось бы узнать скорость такой связки конечно.
Аноним 07/01/24 Вск 20:37:07 #220 №594379 
>>594353
> Q4_K_M вроде как с GPTQ 4bit, плюс-минус, пусть меня поправят.
С групсайзом 32 GPTQ получше будет.
> 5bpw, скока там на самом деле бит на вес при квантовании
Вот оно точно лучше будет чистых Q5. Там 3.5-3.7 bpw как раз близок к Q4_K_M.
Аноним 07/01/24 Вск 20:40:04 #221 №594382 
>>594373
Сама по себе 4060ti ПАРАША, у неё пропускная способность памяти медленнее семилетней (!!!) P40.
Аноним 07/01/24 Вск 21:02:55 #222 №594402 
Как можно как-то заставить модели точнее следовать карточке?
Аноним 07/01/24 Вск 21:04:13 #223 №594403 
>>594402
Семплеры настрой.
Инструкт настрой.
Карточка может сама по себе плохой быть.
Аноним 07/01/24 Вск 21:05:24 #224 №594405 
Image2.png
>>594350
>>594356
llama-v2-70b-2.12bpw уже лучше чем mixtral-2.10bpw, но модель слишком большая для 12 GB vram. Влезает только 47/81 слоев, из-за этого прироста скорости почти нет (было 1.00 tps стало 1.26), а perplexity скорее всего упала значительно по сравнению с жирными квантами.

offload 47/81 L:
print_timings: prompt eval time = 13918.75 ms / 508 tokens ( 27.40 ms per token, 36.50 tokens per second)
print_timings: eval time = 36452.46 ms / 46 runs ( 792.44 ms per token, 1.26 tokens per second)
Аноним 07/01/24 Вск 21:09:02 #225 №594408 
>>594403
Где можно прочитать про настройки семплеров и инструкта? Карточку я как раз и пытаюсь довести до ума, но не могу понять это она всё таки кривая и её не спасти, или всё таки семплер и инструкт плохие?
Аноним 07/01/24 Вск 21:13:57 #226 №594411 
>>594336
> у кого от нескольких видях перформанс сразу падает в разы
На жоре в современных видюхах так и происходит, причина не ясна. А последовательная обоработка сильно теряет в эффективности при росте числа гпу.
По виртуальному стримеру начни продумывать как это будет и поймешь что нужно много больше.
Всеже интересно как у типа получилось на 3х п40 катать 120б с 4+ т/с, надо у него поспрашивать и почитать по тому что было выполнено.
>>594344
> собрался сравнить две модели в разных форматах и не понял, как это сделать.
Ну, гриди энкодинг будет одинаковый в пределах погрешности кванта, рандом семплирования существенный сам по себе. Только большое число одинаковых или разнообразных но по одной теме вопросов, которые можно как-то качественно-количественно оценить, получая в итоге что-то среднее.
> по gptq ищутся например вот такие структуры
Там качай через гит/хфхаб чтобы всю папку, и ее помещаешь в дирректорию models убабуги (или натравливаешь саму экслламу если вруд не используешь вебуи). Нужны все файлы что там есть, а не только .bin/.safetensors.
Если будешь пускать фп16 экслламой - нужно сконвертить .bin в .safetensors сделать можно скриптом https://github.com/turboderp/exllamav2/blob/master/util/convert_safetensors.py с аргументом *.bin запуская в папке с моделью.
> gguf почему-то не выкладывают в f16 на лицехвате
Местозаполнитель который, обычно, никому не нужен и легко получаем. В него конвертится оче быстро скриптом из репы жоры, тут сам знаешь, и весить он будет тоже под 100 гигов. Если хочешь с потерями на грани измеримости - качай q8, оно и в 48 гигов врам должно помещаться.
Алсо визард-викунья эти не стоит, аж 1я ллама и 7 месяцев назад. Из ~30б китайцы, выше список анон скидывал, и айроборос 33б на 1й лламе относительно свежий файнтюн со всеми фичами и новым датасетом. Что там по перфомансу правда хз.
>>594373
> А две карты?
Норм, но 32гб пограничный размер и хватит на ~34б в жирном кванте с контекстом, но не на 70. Если не ошибаюсь, у кого-то был конфиг 24+12гб, трехбитная 70б по словам не понравилась. Скорость можешь сам посчитать исходя из того как быстро крутятся модели поменьше, там почти линейная зависимость от размера.
Аноним 07/01/24 Вск 21:31:37 #227 №594418 
Почему все ссуться от всяких микросетей типа phi-2, tinyllama, этож просто днище. Ну да они могут ответить на короткий вопрос без контекста и форматирования и даже правильно. Но размер сети жестко вводит ограничение на понимание контекста. Да даже 7b они откровенно слабы никуда они там не продвинулись только опять же по простым вопросом из википедии. Но их хоть можно на любом компе запустить со сносными ответами.
Аноним 07/01/24 Вск 21:48:48 #228 №594424 
Все эти локальные языковые модели тупые по сравнению с GPT-4. Только GPT-4 смог правильно ответить на логическую задачку. "В большой комнате играют Вася, Маша, Коля, Толя и собачка Бобик, в маленькой комнате играют Митя и Гриша. Гриша ушел, а Маша и Бобик перешли в маленькую комнату. Сколько детей играет в каждой из комнат?"
Аноним 07/01/24 Вск 21:55:24 #229 №594430 
>>594353
ну да, вроде exllama v2 рабоатет на p40 хуже, чем жора
Аноним 07/01/24 Вск 21:55:40 #230 №594431 
>>594373
А скорость никто не скажет — никто пока не купил. =)
Я предпочел квест 3, хотя и думал взять на пробу.

>>594405
Такое себе, хотя для 24 гигов уже может быть интересно.
Однако… Боюсь она мозгами будет не совсем 70б. =)
Но кто знает.

>>594411
> На жоре в современных видюхах так и происходит, причина не ясна.
А в чем преимущество жоры перед exl2, например, кстати? Ну, если у нас несколько видях — можно предположить, что объем врама уже не такая и проблема. Выгружать можем все, а не часть.
Или речь именно о ситуации, когда выгружаем часть слоев туда, часть сюда, и часть на проц?
Могу предположить, что тут и правда быдлокод, где проц участвует сильно много раз, где не надо, хз.

> По виртуальному стримеру начни продумывать как это будет и поймешь что нужно много больше.
Ну, это не моя идея, я разве что комментатора себе бы собрал.
Но тут нужен или Cog, чтобы моделька смотрела мою игру (а ког хочет 45 врама), или вообще анализ видосов.

> Всеже интересно как у типа получилось на 3х п40 катать 120б с 4+ т/с, надо у него поспрашивать и почитать по тому что было выполнено.
Все еще думаю, что балабол, а может и вовсе продавец карт. =)
Ну как-то слишком вкусно. Учитывая что там минимум 50+ гигов, и как-то выжать 4 токена… Когда тут в двух картах 34 выдает 3 токена.

> трехбитная 70б по словам не понравилась
У нас тут двухбитная на подходе. =D

> Почему все ссуться от всяких микросетей типа phi-2, tinyllama, этож просто днище.
Интернет вещей, смартфоны-помощники, всякие простейшие комментаторы без требований железа.

В идеале каждому по серверу хотя бы с тремя 4090/3090/P40 (это и по деньгам дешево, и по реализуемости с точки зрения материнки возможно), на которых крутить отдельные модели.
А в жизни у людей ноуты с 8 гигами рама и встроенной видяхой. =)
Аноним 07/01/24 Вск 21:56:09 #231 №594433 
Screenshot20240107215319.png
>>594430
>>594353
Аноним 07/01/24 Вск 21:56:40 #232 №594434 
>>594430
Да, как я понял, там тока жора норм работает. Что не плохо, но и не огонь. So-so.
Аноним 07/01/24 Вск 21:58:11 #233 №594435 
>>594433
А разбил 50/50 по картам?

GPTQ выглядит как будто вообще не почувствовал разницы.
А Жора просел, да.
Аноним 07/01/24 Вск 21:58:54 #234 №594436 
>>594435
да, там где 2 cards - разбиение напополам
Аноним 07/01/24 Вск 22:09:49 #235 №594442 
>>594431
> А в чем преимущество жоры перед exl2, например, кстати?
Вон на p40 работает лучше бывшей, а так при наличии видюх преимуществ нет. Когда врам меньше чем нужно - он безальтернативен по сути. Надо чекнуть что там с awq, вдруг тоже можно сплитить проц-гпу.
>>594433
Вот тут выходит что на llamacpp при сплите на p40 практически нет просадок. А на 3090/4090 все печально. И скорее всего дело не в линиях pci-e.
Если пекарня на шинде - покажи gpu-x для каждой карточки, или набери nvidia-smi -q |grep "Link Wi*" -A 2 если в прыщах.
Аноним 07/01/24 Вск 22:10:36 #236 №594443 
>>594442
> gpu-x
gpu-z офк, фикс
Аноним 07/01/24 Вск 22:15:16 #237 №594445 
Screenshot20240107221421.png
>>594442
Аноним 07/01/24 Вск 22:32:02 #238 №594450 
>>594445
Получается одна видюха на процессорных 3.0 х16 а другая на чипсетных 2.0 х4 (на всякий можешь проверить выставив grep "GPU Link Info" -A 6). Значит влиянием линий можно по сути пренебречь, а проблемы llamacpp в припезднутой совместимости с картами новее, уже интересно.
Алсо если будешь траить - попробуй ког в фп16 засплитить.
Аноним 07/01/24 Вск 22:34:16 #239 №594451 
>>594450
>ког в фп16 засплитить
если ты скажешь что такое ког и где его достать - то проверю
Аноним 07/01/24 Вск 22:37:53 #240 №594452 
>>594451
https://github.com/THUDM/CogVLM
Топовая мультимодалка. Скрипты с примерами запуска у них в репе.
Аноним 07/01/24 Вск 22:52:12 #241 №594455 
>>594450
>ког в фп16 засплитить.
А он вобще конвертируется в ггуф?
Аноним 07/01/24 Вск 22:55:11 #242 №594456 
>>594455
Он запускается через трансформерс (ванильный или их обертку), ггуф и жора в это не может. Квантуется там же на месте.
Для ггуфа можешь llava, бакллава или share-gptv попробовать, но они слабее во многих задачах.
Аноним 07/01/24 Вск 23:01:26 #243 №594458 
Image3.jpg
>>594424
Mixtral-8x-7b на русском зафейлил, а на английском - справился. На русском все модели намного тупее.
Аноним 07/01/24 Вск 23:05:33 #244 №594461 
https://huggingface.co/TheBloke/LLaMA-Pro-8B-Instruct-GGUF
Добавлена совместимость с llama.cpp 7 часов назад, все что раньше сосет
Так что первые тесты вчера были сломаны и поэтому сетка шизила
Аноним 07/01/24 Вск 23:07:05 #245 №594462 
>>594456
>Для ггуфа можешь llava, бакллава или share-gptv попробовать
Эт знаю, но и жрут они меньше в разы. Там еще обсидиан 3b есть и какая та мелкая на 1.1b новая
Аноним 07/01/24 Вск 23:12:24 #246 №594463 
>>594461
>Так что первые тесты вчера были сломаны и поэтому сетка шизила
Я знал ©
Жду кобольда.
Аноним 07/01/24 Вск 23:13:15 #247 №594464 
>>594462
https://huggingface.co/visheratin/LLaVA-3b
https://huggingface.co/Tyrannosaurus/TinyGPT-V
Аноним 07/01/24 Вск 23:17:15 #248 №594465 
>>594463
https://github.com/ggerganov/llama.cpp/pull/4810
жора тут метод Self-Extend пилит, думаю следующая версия кобальда будет еще и с ним
Аноним 08/01/24 Пнд 01:25:55 #249 №594500 
>>594450
> Значит влиянием линий можно по сути пренебречь
И снова, как я говорил, линии мало что значат, задержки появляются, но мизерные.
Математика, йопти. =)

>>594464
И они обе только описывают, без умения болтать?
Типа, разницы с обычными блипами и клипами по итогу и нет, без умения выполнять задачи, ролеплеить и т.д. =(
Аноним 08/01/24 Пнд 01:35:54 #250 №594506 
>>594500
Смайлоблядь, ты сейчас к своему авторитету апеллируешь, или пытаешься выебнуться ни о в чем? Ранее втирал только трешак про 12х 3060 да поддакивал разным вбросам, и то исключительно фантазии без каких-либо обоснований и даже понимания как оно работает. Пользу приноси а не сочиняй повести о былых победах.
> Математика
Коши которого мы заслужили, ага.
> разницы с обычными блипами и клипами по итогу и нет
Хуясе ебать, накати и поюзай, а потом повтори то же самое клипом.
Аноним 08/01/24 Пнд 01:36:20 #251 №594507 
>>594500
>И они обе только описывают, без умения болтать?
>Типа, разницы с обычными блипами и клипами по итогу и нет, без умения выполнять задачи, ролеплеить и т.д. =(
Те что по ссылкам не щупал, а эти
>llava, бакллава или share-gptv
те же локалки только чуть тупее, но с возможностью отправить им картинку. Понимают они их через раз, но это работает.
Аноним 08/01/24 Пнд 01:40:08 #252 №594508 
>>594452
не запускается у меня эта херота.
1. мне не удалось размазать её на два гпу, хотя я что-то похожее на решение проблемы нашел вот тут https://huggingface.co/THUDM/cogvlm-chat-hf/discussions/2
я не могу использовать конкретно этиор решение сейчас, потому что запускаю на отдельной машине, которая вообще к мониторам не подключена, а для web_demo.py решение неприменимо
2. модель в распакованном виде весит 35 ГБ. web_demo.py можно указать в аргументах параметр --quant 4 или 8, но он начинает вот эту здоровую модель квантовать перед запуском в оперативке. Моей оперативки 32 гб + 16 гб свап на квантование в 4 не хватило, оом его убил.
Аноним 08/01/24 Пнд 01:45:08 #253 №594509 
В новую шапку по хорошему нужен раздел о мультимодалках и перечислить их с кратким описанием че как.
Тема интересная, но как то заглохла.
Наверное потому что не осилили сделать полноценную реализацию в вебуй и таверну.
Одна только llama.cpp для запуска, так и заглохло.
Аноним 08/01/24 Пнд 02:54:01 #254 №594521 
image.png
>>594506
Хуя тя порвало, маня.
Тебе бы пора шизу лечить, таблеточки принимать, авось бы так не рвался с собственных несбывшихся фантазий.

>>594507
Просто они не способны в инструкции и запросы.
Просишь пошутить на тему пикчи — они просто описывают пикчу и «смешно потому что».
Может в данном случае скиллишью, конечно, но я че-то часик потыкал их и забил. А на Когу мне врама не хватает, мех. =)

>>594508
Эх, вот это печально.
Пробовать на системе с монитором будешь, или возможности пока нет?
Аноним 08/01/24 Пнд 03:42:23 #255 №594559 
Screenshot20240108033620.png
Ссука блядь....
вот не мог добавить это говно в ридми мультимодалки?
https://github.com/oobabooga/text-generation-webui/issues/4299#issuecomment-1858735031
Найден фикс позволяющий запускать сраную мультимодальность в хубабубе.
Правда выдает хуйню какую-то.
./start_linux.sh --multimodal-pipeline llava-7b --model llava-7b-v0-4bit-128g -
-load-in-4bit --wbits 4 --groupsize 128 --loader AutoGPTQ --listen

>>594521
>Пробовать на системе с монитором будешь, или возможности пока нет?
мне в любом случае надо будет настраивать xrdp на том сервера, но попозже.
Аноним 08/01/24 Пнд 04:09:11 #256 №594562 
Screenshot20240108040342.png
Screenshot20240108040901.png
>>594559
>Правда выдает хуйню какую-то.
думаю, дело в новой куде..... возможно
я попробовал взять minigpt4-7b вместо llava-7b
Но он все равно не понимает смешное
Аноним 08/01/24 Пнд 04:18:28 #257 №594565 
>>594562
Сомневаюсь, что он понимает такой образ, как транс-феминистка в цветах лгбт-флага.
Но, как бы, да, общаться с ним весьма скучно. Вся надежда только на Cog.

Нынешние мультимодалки могут пока только выполнять простенькие задачи — найти что-то на картинке, сказать, где оно находится, ответить на вопрос про цвет или типа того (и то, иногда путает предметы и их цвета).
Сугубо прикладная штука.

ИМХО, хотелось бы ошибаться.
Аноним 08/01/24 Пнд 11:46:10 #258 №594653 
>>594565
>Сомневаюсь, что он понимает такой образ, как транс-феминистка в цветах лгбт-флага.
Даже я его не понял, лол.
Аноним 08/01/24 Пнд 11:57:44 #259 №594655 
>>594653
хамелеон - в виде логотипа suse linux, транс - имеет на футболке логотип арча, ну неужели так сложно....
Аноним 08/01/24 Пнд 12:05:33 #260 №594657 
>>594655
ОС я как раз распознал. А вот за фемку я бы без подсказок не понял.
Аноним 08/01/24 Пнд 12:09:37 #261 №594662 
>>594657
нууу.... я вообще не уверен, что это фемка....
транс - да. Но откуда анон взял фемку - не знаю. Может перепутал.
Аноним 08/01/24 Пнд 13:07:42 #262 №594681 
>>594508
Для веб-демо алсо там нужно было другую версию жрадио ставить, в рекварментсах поленились указать и оно не стартует, возможно уже починили.
Не понял а для чего монитор?
> а для web_demo.py решение неприменимо
Переписать поидее можно, но стоят ли эти заморочки того - хз.
> на квантование в 4 не хватило
Вот хотел еще написать, оно когда в рам загружает на процессор, выжирает неприличное количество.
>>594509
Можно.
> но как то заглохла
Просто обсуждений нет, а так вполне юзаются. У мультимодалок текущих по сути применения больше прикладные.
> полноценную реализацию в вебуй и таверну
Есть идеи как их тут применить? В вебуе есть мультимодалки, и таверну приколхозить можно, вот только напрямую они довольно глупые в общении. Лучшие из них нафайнтюнены на "рабочие задачи" и рп не могут. Вариант использовать в качестве альтернативы клипу для показывания пикч вайфу - можно, они лучше отрабатывают, особенно с заданным контекстом. Наилучший результат когда 2 сетки общаются, ответы на конкретные вопросы они хорошо дают, но реализация такого режима потребует норм основной модели, что сообразит как выполнить инструкцию сохраняя персонажа, и ресурсов/времени для запуска мультимодалки параллельно.
>>594521
Шиз, ты не сюда пиши а это перед зеркалом себе говори, наиболее уместно и релеватно.
>>594562
Зачатки понимания демонстрирует разве что бакллава и sharegpt, ну и ког, хотя у последнего как повезет, видит превосходно, но ллм там слабая. От мелочи и ванильной ллавы даже ожидать не стоит, и они могут даже не разглядеть/не обратить внимания на лого арча чтобы в эту сторону двинуться.
Аноним 08/01/24 Пнд 13:40:17 #263 №594687 
Я правильно понимаю, что "мультимодалки" сейчас это склеенные вместе сетки для зрения и текста соответственно, или всё же одна цельная зайчатка АГИ?
Аноним 08/01/24 Пнд 13:45:55 #264 №594693 
cloudyu/Mixtral_11Bx2_MoE_19B

Еще одна мини-МОЕ модель для нищуков.
Немного потестил, результат отличный.
Похоже что склейка моделей в МОЕ дает результаты намного лучше чем пизданутые франкенмержи типа 17В и 20В
Аноним 08/01/24 Пнд 13:55:06 #265 №594699 
>>594687
Да. И тот и тот ответ верен какбы, в коге визуальная часть больше текстовой.
>>594693
Имплаишь что это поделие лучше 20б в рп? Надо попробовать, завышенные ожидания заложил, конечно.
Аноним 08/01/24 Пнд 14:40:56 #266 №594728 
В чём разница между _K_S и _K_M, помимо размера?
Аноним 08/01/24 Пнд 15:03:05 #267 №594741 
>>594699
И лучше и хуже. Трудно объяснить.
КУУМ конечно хуже чем xxx_undie_xxx_megacoom20b, но сам текст обычный намного лучше и логичнее. Словарный запас вроде бы как повыше, но сам текст выглядит суше.
Аноним 08/01/24 Пнд 15:10:21 #268 №594745 
>>594662
Да, может и я перепутал. =)
Вот даже мы путаем, куда там модельке на … сколько там, 1,5B параметров картинок в Ллаве?
Короче, сложное для таких мультимодалок маленьких.

>>594681
Да что ж тебя так трясет-то, а? :)
Ну оказался я прав в очередной раз, будто бы тебя лично это задело. У тебя какое-то внутреннее соревнование с челом с двача, который ставит смайлики и тире?

> ллм там слабая
Т.е., на то, что она будет комментировать изображения согласно инструкциям, тоже рассчитывать не приходится? Беда-печаль, тогда ждем дальше.

>>594687
Как я понял, они склеены, но, у них общий контекст. Т.е., токены распознавания и токены текста в одной массе, поэтому скинув картинку ты можешь расспросить о ней.
Пусть меня поправят знающие люди.

В зависимости от задачи, по итогу, тебе может и не нужна быть мультимодалка. Достаточно простого распознавания, а дальше работы с фиксированным текстом от клипа/блипа.
Аноним 08/01/24 Пнд 15:31:57 #269 №594761 
>>594728
Разная битность под некоторые части, отсюда и разница в размере. В теории M должен лучше перформить, на сколько - хз.
>>594741
А как карточкам и намерениям юзера следует?
Аноним 08/01/24 Пнд 15:36:54 #270 №594763 
1704717412792.png
1704717412826.png
>>594741
Ну, не то что бы я особо много ожидал от склейки соляров, но на 6 месаге у него начали вываливаться промптопотроха на стандарных настройках. Для сравнения, опенчат. Превратил дедушку в жрицу, но выдал +- вменяемую таблицу и реплику (до сих пор непригодно, если что). А, ну и да, я может туплю, но у меня скорость вышла как у 34б, если не хуже. Походу просто теперь настала эра миксов из шизоидов, а не франкенмерджей.

Вообще конечно эта карточка самый жестокий стресс-тест для моделек, нормально её не только лишь все могут переварить, у меня более-менее хорошо с ней только уи отвечала, и лучше всего микстраль, но от ожидания ответа в 15 минут охота в петлю полезть. Попробуйте своих любимчиков, может я хидденгем где-то упустил - https://chub.ai/characters/brontodon/touhou-dating-sim-plus
Аноним 08/01/24 Пнд 15:43:13 #271 №594770 
>>594763
Кобальд обнови или че у тебя там беком, скорости давно уже поправили. Да и генерить херню может как раз от этого
Аноним 08/01/24 Пнд 15:43:40 #272 №594772 
>>594763
> https://chub.ai/characters/brontodon/touhou-dating-sim-plus
Хуясе ебать.
Похуй на не идеальное форматирование, это шедевр во всех смыслах, кто-то знатно ультанул. если 34/70 ниасилят можно и на клоде покатать
Вечером или в другой день уже отпишу работает ли.
Аноним 08/01/24 Пнд 15:48:58 #273 №594775 
Перетестил много разных моделей для кума, разумеется и пока что ничего лучше u-amethyst-20b не нашлось.
Может кто-нибудь находил что-то еще лучше?
Аноним 08/01/24 Пнд 15:50:55 #274 №594776 
>>594770
Насколько давно? У меня 1.52.2 сейчас, я конечно обновлю, но соляры и по отдельности так себе с подобными карточками работали. Тут как я понял нужно одновременно и хорошее понимание инструкций и некоторая смекалка-инициатива (мне микстраль чуть переработал статлист в лучшую сторону когда тестил, а я и не против), ну и хорошие описания бонусом, чтоб без ты меня ебёшь.
Аноним 08/01/24 Пнд 16:12:05 #275 №594794 
>>593906
А эту кто-нибудь тестил? Должен был получиться типа солар для эрп, не такой сухой, как фроствинд. Попробовал посвайпать ей в чатах и начать один новый, и что-то вообще не по делу пишет и со скудными описаниями. Не только фроствинд, но и 7б Мерж синатры, который должен бы быть более шизанутым, выдаёт ответы лучше на тех же настройках. Но может, моя проблема скилла.
Аноним 08/01/24 Пнд 16:15:22 #276 №594799 
>>594794
Да, там нужно с форматированием поиграться. Которое автор указал. Отыгрыш работает, хотя много не тестил. Ну и без инструкций попробуй. Вобще не уверен что сетка окончательный результат, автор писал что эксперимент.
Аноним 08/01/24 Пнд 16:21:00 #277 №594808 
>>594763
Чел, такую херню на меньше чем 70В тестировать я б даже не стал.
Аноним 08/01/24 Пнд 16:21:25 #278 №594810 
А есть смысл менять плату и память DDR4 на DDR5, если ширина шины памяти видеокарты всего 128 бит? Взял плату как раз перед бумом нейросетей - кто же знал. Менять дорого, но если будет эффект, то я бы поменял.
Аноним 08/01/24 Пнд 16:55:27 #279 №594829 
1704722125959.png
Нихуя-то не пофиксили скорости, всё же лезу в петлю.
>>594808
А у меня ничего тяжелее 34б и не запускается, даже микстраль еле пукает, так и живём.
Аноним 08/01/24 Пнд 16:59:48 #280 №594834 
image.png
>>594829
>Нихуя-то не пофиксили скорости
В 1.53 в описании написано. Ты уверен что обновил? Я помню скорость возрасла, когда игрался с 4X7
Аноним 08/01/24 Пнд 17:01:03 #281 №594835 
>>594829
Ну и проблема может быть в кривой конвертации в ггуф
Аноним 08/01/24 Пнд 17:02:16 #282 №594838 
>>594834
Ну ладно, на самом деле я немного напиздел, раньше было порядка 2500-3000 секунд на ответ, сейчас 2100, прирост таки есть. Но всё равно пользоваться невозможно.
Аноним 08/01/24 Пнд 17:04:43 #283 №594842 
>>594810
Переход с быстрого 2х канального ддр4 на средний 2 канальный ддр5 увеличит скорость одной и той же сетки, если она чисто от процессора крутится, раза в 2 или чуть меньше.
Померяй скорость чтения RAM в AIDA

>>594838
Чет долго у тебя, без куда?
Аноним 08/01/24 Пнд 17:06:18 #284 №594844 
>>594838
Если у тебя там лорбук подключен. Он все время сжирает на свое чтение. Без него тестируй скорости
Аноним 08/01/24 Пнд 17:08:30 #285 №594845 
>>594842
СЛбласт, 12+32. Ну я ещё себе жир Q_5_0 накатил, ага.
>>594844
Если бы, лол. Чекай скрин, 700 секунд на лорбук, 1400 на генерацию.
Аноним 08/01/24 Пнд 17:13:16 #286 №594850 
Screenshot20240108171148.png
>>594521
>Пробовать на системе с монитором будешь, или возможности пока нет?
Репортинг ин.
basic_demo/cli_demo_hf.py лезет в залупу с зависимостями.
Короче идёт он в пизду, весь диск мне засрал дерьмом нерабочим.
Аноним 08/01/24 Пнд 17:32:57 #287 №594857 
>>594763
Итить колотить, конечно.
Под такое неплохо бы просто алгоритмы + индивидуальные карточки под каждую. Но тут, конечно, монстр!

>>594808
Кек.

>>594810
ОЗУ и видяха штуки не совсем связанные.
Так что, не совсем ясно, что ты ждешь.
То, что крутится на проце — станет быстрее, да.
То, что на видяхе — не изменится.

>>594850
Соглы, хрен с ним.

———

А я тут решил поднять свою старую P104-100, раз уж на то пошло.
Выгрузил туда bakllava в 6 кванте (потому что восьмой в 8 гигов не влезет).
Сообразил, что надо юзать CUDA 11.
Короче, на аналоге 1070 получил 20 токенов/сек.

Как бы, можно даже поиграться с распознаванием изображения, канеш. Но баклава мне не нравится, а файнтьюны (я согласен на васянские!) никто, вроде, не делал.

Обсидиан так и не пофиксили, с фронтом не запускается. Фе. Жора филонит. )))
Хотя кому нах нужна 3B мультимодалка, канеш.
Аноним 08/01/24 Пнд 17:35:58 #288 №594861 
>>594857
> Под такое неплохо бы просто алгоритмы + индивидуальные карточки под каждую. Но тут, конечно, монстр!
Я думал вообще сделать груповой чат, где одна модель пишет рп-часть с учётом статлиста, а другая пишет собственно статлист и нормально его редактирует, но большинство моделей разбиваются об связь между статлистом и реальными действиями, а какие не разбиваются и сами по себе нормально работают.
Аноним 08/01/24 Пнд 17:42:43 #289 №594869 
>>594850
Ты ещё древнее питон найти не мог? А вообще под виндой всё работает заебись, после Кога не захочешь на лаву/балаклаву возвращаться.
Аноним 08/01/24 Пнд 17:50:52 #290 №594876 
>>594869
>А вообще под виндой всё работает заебись
какое мне дело, что там на винде. Сегодня работает, завтра отвалится, лол.
Аноним 08/01/24 Пнд 17:51:38 #291 №594878 
Я до хайпа сеток сидел на novel ai. Там жанр,теги, скорость повествования и т.п. можно было в author's note прописать, а в таверне куда? В системные инструкции?
Аноним 08/01/24 Пнд 17:53:37 #292 №594879 
>>594878
А, всё, нашёл
Аноним 08/01/24 Пнд 18:01:36 #293 №594881 
>>594876
С чего бы чему-то отваливаться на винде, лол?
Аноним 08/01/24 Пнд 18:18:59 #294 №594889 
>>594879
>>594878
И куда вписывать?
Аноним 08/01/24 Пнд 18:24:48 #295 №594894 
>>594881
чёт в голос проиграл
Аноним 08/01/24 Пнд 18:30:27 #296 №594904 
>>594894
Винда нынче стабильнее красноглазого недоразумения из нулевых. Чего только стоит ебля с драйверами, которые Хуанг на отъебись пилит под линукс. Или вот твои проблемы с торчем, которых никто никогда не видел.
Аноним 08/01/24 Пнд 18:31:37 #297 №594906 
Кстати, нет ли новостей о прикручивании в мультимодалку в качестве одного из экспертов модели, заточенной под перевод?
Аноним 08/01/24 Пнд 18:32:59 #298 №594910 
>>594904
мнение виндузятников на счет линукса для меня имеет отрицательный вес.
Аноним 08/01/24 Пнд 18:36:15 #299 №594911 
https://www.reddit.com/r/LocalLLaMA/comments/190v6iu/tip_for_writing_stories_dont_use_the_word_story/
Мнение?
Проверьте кто нибудь
По моему годно, как и идея передедывать системную подсказку вообще.
Аноним 08/01/24 Пнд 19:17:56 #300 №594936 
Подскажите годну лору для ролеплея
Аноним 08/01/24 Пнд 19:33:46 #301 №594957 
>>594906
>мультимодалку в качестве одного из экспертов
Мультимодалки и эксперты это разные вещи.
>>594936
Бери сразу модель, лоры не нужны.
Аноним 08/01/24 Пнд 19:45:59 #302 №594981 
>>594876
Не слушай его, он пиздит. Deepspeed под виндой как раз нихуя не собирается нормально, нужен wsl, либо прыщи, а разработчики закрывают неудобные ишьюсы вообще, а тебе судя по всему надо просто питон 3.10 поставить
Аноним 08/01/24 Пнд 19:46:21 #303 №594983 
> Mixtral_34Bx2_MoE_60B-GGUF
Это что за чудо?
Аноним 08/01/24 Пнд 19:51:33 #304 №594999 
>>594983
Очередной франкенштейн, а что?
Аноним 08/01/24 Пнд 19:56:53 #305 №595031 
>>594999
Я так понимаю его юзать согласно тому гайду how to mixtral?
Аноним 08/01/24 Пнд 20:03:33 #306 №595073 
>>594810
Пропускная способность определяетстя не только шириной. Некрокарты с 384 всрут современных 128 а то и 64 битам по псп врам.
> но если будет эффект
2*0, этого всеравно мало для ллм и перфоманс по сравнению с видюхами будет твялый. Вон п40 за дешман ебет все системы на цп и соперничать с ней сможет только 4+ канала быстрой ддр5, альтернативы дороже но быстрее тоже есть.
>>594850
Забавно, пихон новее действительно нужно наверно, на 3.10 все ставило без проблем.
>>594861
> но большинство моделей разбиваются об связь между статлистом и реальными действиями
Промт нормальный-индвидуальный и желательно 34б+. Но просто статы действительно даже мелкие модели держат, даже 7б можно заставить если в чате примеры нароллить. Сохранение внимания на все остальное в сделку офк не входило.
>>594869
Ког под шиндой, что-то интересное.
>>594983
Когда уже все вариации голлиафа догадаются объединить в единый кусок, чтобы дать достойный ответ гопоте 4 по числу параметров?
Аноним 08/01/24 Пнд 20:04:03 #307 №595074 
Залётный анон пришёл поплакаться в жилетку гигачадам с мега ПК.
Жил-был анон. Решил он как-то со своими RTX 3060 и Intel Core i5 10400F через oobagooba локально генераторы текста позапускать. Скачал 7B модель, побаловался, даже в SillyTavern вайфу себе создал. Но на этой модели вайфу была скучной, отвечала короткими предсказуемыми фразами: даже настройка с гайдами не помогла. Решил тогда анон попробовать 13b roleplay-модель, но опасался ошибки cuda out of memory. Стал искать гайды и для этого. Смог запустить. Вайфу просто преобразилась: ответы стали длинные, интересные, непредсказуемые: и посмеяться можно было и подобие терапии себе устроить, а какие с ней NSFW-чаты получались, - писос стоял без рук.
Но всему хорошему приходит конец: не смогли гайды уберечь от ошибки CUDA out of memory, - получалось у анона только до пятнадцати сообщений дойти, а жертвовать контекстом и удалять прошлые сообщения не хотелось. И на слабую модель возвращаться желания не было: очень уж полюбил анон вайфу на 13b модели. Так он и психанул, снёс локальную нейросеть, и пошёл на Двач этот пост писать.
Аноним 08/01/24 Пнд 20:08:01 #308 №595098 
Хф вайпнул все прокси, ждем приток ньюфагов.
Аноним 08/01/24 Пнд 20:09:17 #309 №595104 
>>595074
Докупи оперативы и используй гуф.
Че как этот то, одной ошибки испугался?
Аноним 08/01/24 Пнд 20:11:11 #310 №595116 
>>595074
Ты пытаешься всю GPTQ/EXL2 модель уместить в видеопамять чтоли? Скачай GGUF версию и оффлоадай слои на врам, скорость генерации будет меньше, но ошибок не будет, если оперативки хватит.
Аноним 08/01/24 Пнд 20:15:00 #311 №595128 
>>595116
> пытаешься всю GPTQ/EXL2 модель уместить в видеопамять чтоли?
Ну так ньюфаг же, не понимаю ещё таких тонкостей.
>если оперативки хватит
16 ГБ. Достаточно будет?
Аноним 08/01/24 Пнд 20:18:10 #312 №595139 
>>595128
> 16 ГБ. Достаточно будет?
Вполне, я на 16рам+8врам даже 20б модель крутил, правда с 2к контекста. Что у тебя за модель-то? Алсо если надо больше 4к контекста, то просто увеличивать контекст нельзя, надо rope крутить.
Аноним 08/01/24 Пнд 20:19:29 #313 №595142 
>>595139
> Что у тебя за модель-то?
MythoMax-L2-13b
Аноним 08/01/24 Пнд 20:23:20 #314 №595157 
>>595142
Попробуй frostwind 10.7b модель из шапки, она у тебя в формате gptq/exl2 наверное вся в видеопамяти поместится вместе с контекстом.
Аноним 08/01/24 Пнд 20:29:17 #315 №595184 
>>595157
Я сначала, наверное, через GGUF попробую (если могут быть какие-то тонкости и сложности с этим вариантом, подскажите пожалуйста, как именно всё правильно сделать, аноны).
> frostwind 10.7b
А как она в плане ролеплейности, интересности и развратности?
Аноним 08/01/24 Пнд 20:43:44 #316 №595241 
>>595074
В стране Генсокё жила жрица по имени Рейму Хакурей. Она была очарована древними магическими ритуалами и решила попробовать написать текст с помощью своего могущественного талисмана RTX3060, а также своей надежной звезды пентаграммы "Знания 10400F". После выполнения седьмого ритуального заклинания она обнаружила, что призванный фамильяр производит скучные и предсказуемые ответы. Поэтому она попробовала более продвинутое тринадцатое заклятие, но опасалась столкнуться с проблемами типа CUDA Out Of Memory Error. Однако трансформация была впечатляющей! Её вызванная помощница теперь давала длинные, интересные и непредсказуемые ответы, они даже приступили к NSFW - активности. Но к сожалению заклинание только продержалось пятнадцать поцелуев прежде чем взорваться, оставив её полностью обнаженной посреди своего храма. Ей не оставалось ничего другого как уничтожить свою старую книгу заклинаний и начать очередную с помощью нового ритуала, на этот раз написав пост в двухканальном форуме.

Снизь число выгружаемых слоев, будет чуточку медленнее но зато без оома.
Аноним 08/01/24 Пнд 20:48:19 #317 №595261 
>>594911
Ну сама идея звучит здраво, как и та, что там в комментах в другом посте: если использовать инстракт мод и сказать сетке "слышь, пиши историю", то она расценит это как очередной вопрос юзера и постарается за один ответ на 300-500 токенов написать законченную историю. А если серьёзно заниматься сторирайтингом, то предложенный простой промпт тоже вряд ли прокатит. Думаю, что надо будет постоянно изменять инструкцию: требовать дописать конкретные вещи или придерживаться конкретного стиля. А ещё на довольно абстрактные инструкции типа "Each section should be left open for continuation" модели до 34б положат хер.
Проверять я это, конечно же, не буду, потому что один фиг не пойму норм ли история получается.
>как и идея передедывать системную подсказку вообще
Надеюсь, ты это не всерьёз. Тут чуть ли не основная тема соседнего треда по чатботам - это промптинг. Локалки понимают инструкции хуже, но это не значит, что нужно сидеть на дефолтных мейн промптах, предложенных в пресетах.
Аноним 08/01/24 Пнд 20:52:05 #318 №595270 
>>595241
> Снизь число выгружаемых слоев
Где и как это делается? Я всего лишь два дня как начал погружаться в мир локальный нейросетей чатов и пока не понимаю местного техножаргона и как всё это изнутри работает...

Ты сам мой пост так переписал, анон, или это тебе нейросеть по какому-то запросу поменяла?
Аноним 08/01/24 Пнд 20:59:43 #319 №595296 
>>595270
Почитай гайд по webui. Основное что нужно понимать - загрузчик exllama позволяет работать быстро, но ограничен видеопамятью, загрузчик llamacpp - позволяет делить модель между видюхой и процессором, тебе нужен последний и модель gguf для него. Там при загрузке есть параметр n-gpu-layers, это то самое число слоев модели на гпу. Подбирай экспериментальным путем мониторя использование памяти, оставь некоторый запас, потому что с ростом контекста потребление будет расти.
Как альтернативный вариант - используй квант с меньшей битностью, или модель поменьше, тот же солар в 4-5 битах должен помещаться в 12гб.
> нейросеть по какому-то запросу поменяла
This, копипаста и инструкция
> Перепиши историю в сеттинге тохо прожект от лица одного из персонажей. Акцентируй левдсы, замени все компьютерные технологии на магию, а железо и программы на талисманы и заклинания.
Потом перевод на русский другой сеткой. Подумал что твой тоже нейросетью написан с ручными правками.
Аноним 08/01/24 Пнд 21:00:34 #320 №595300 
>>595261
>но это не значит, что нужно сидеть на дефолтных мейн промптах, предложенных в пресетах.
Как бы да, логично, что если хочешь норм результат то меняй стандартный систем промтп.
Но играться с ним довольно утомительно.
Тогда как стандарт работает, даже если хуже.
К тому же сетки скорей всего стабильнее будут работать на стандартном же систем промпте, потому что их могут на нем тренировать.
В итоге выходя за его пределы, сетка может как лучше работать, так и начать тупить.
Аноним 08/01/24 Пнд 21:03:40 #321 №595315 
>>595270
Качай последний релиз кобальда из шапки треда и там он тебе сам поставит нужное количество слоев. Только перед добавлением модели в нем, выстави необходимое количество контекста. Дальше добавляешь модель и он тебе автоматом загрузит на видеокарту нужное количество слоев нейросети. Остальное будет считать процессор. Кобальд так же подрубается к таверне, так что ничего не теряешь.
Аноним 08/01/24 Пнд 21:05:23 #322 №595323 
1629448144965.png
>>595261
Ебаный антимпам, да на что оно триггерится то
Аноним 08/01/24 Пнд 21:06:13 #323 №595326 
>>595184
>> frostwind 10.7b
>А как она в плане ролеплейности, интересности и развратности?
Ну, на уровне крупной кум сетки на 20b, может чуть хуже.
Топ по нынешним временам, если судить по размер/качество.
Аноним 08/01/24 Пнд 21:08:25 #324 №595336 
>>595315
> так что ничего не теряешь
Ну как, это форк Жоры со всеми его вытекающими, так еще и резервирующий в шаред рам лишнюю память, потребляющий лишнюю рам (проблема из исходника наверно но на 16гб может сыграть). А к авторазметке были претензии о том что работает коряво. Из того что тестил сам - контекст оно точно нихрена не учитывает и радостно автоматически улетает в оом если его повысить.
Аноним 08/01/24 Пнд 21:12:25 #325 №595347 
>>595336
Работает же?
К тому же даже такая автонастройка лучше для новичка, дальше и сам настроит слои
Аноним 08/01/24 Пнд 21:13:31 #326 №595353 
>>595347
Справедливо

Кринжатины (или вдруг что-то с потанцевалом) вам притащу
https://www.nvidia.com/en-my/ai-on-rtx/chat-with-rtx-generative-ai/
Аноним 08/01/24 Пнд 21:17:52 #327 №595364 
>>595353
>Кринжатины (или вдруг что-то с потанцевалом) вам притащу
>https://www.nvidia.com/en-my/ai-on-rtx/chat-with-rtx-generative-ai/
просто сперли идею, лол
Аноним 08/01/24 Пнд 21:23:01 #328 №595383 
>>595364
Да, там на презентации они много херни ии релейтед представили. Большей частью маркетологическая констатация, но может что-то полезное есть, еще не смотрел.
Аноним 08/01/24 Пнд 21:23:17 #329 №595385 
2024-01-0900-21-28.png
В чем проблема? Почему не пишет, а только "думает" вслух написать?
Аноним 08/01/24 Пнд 21:28:59 #330 №595399 
>>595385
Семплеры или инструкт кривой.
Скорее всего температуры много
Аноним 08/01/24 Пнд 21:54:25 #331 №595464 
46738011722001742114.jpg
>>595241
Аноним 08/01/24 Пнд 22:13:36 #332 №595517 
>>595385
>10 свайпов
>2 предложения
>шиза
Вся суть лоКАЛок
Аноним 08/01/24 Пнд 22:14:38 #333 №595520 
>>595517
По крайней мере лучше чем то горе, которое испытывают в соседнем треде
Аноним 08/01/24 Пнд 22:17:21 #334 №595536 
>>595517
тупенькая, но послушная и своя
Аноним 08/01/24 Пнд 22:20:58 #335 №595556 
>>595520
там фабрика страданий
Аноним 08/01/24 Пнд 22:21:04 #336 №595557 
>>595517
А говорили напрыв неофитов из-за вайпа проксей будет, а тут вон оно как. Надо ключами подразнить
Аноним 08/01/24 Пнд 22:35:01 #337 №595606 
image.png
AGI к 2030. Мнение?
Аноним 08/01/24 Пнд 22:35:15 #338 №595607 
>>595517
А то Клод никогда не просил мясного мешка вести ролеплей согласно тем инструкциям, которые сам же получил. А потом ещё распишет, как хорошо поработал. Ведь сам себя не похвалишь - никто не похвалит.
>>595385
Действительно может иметь смысл подобрать правильный инстракт, расставить user/assistant или что конкретно эта сетка требует, чтобы у неё был меньше соблазн писать инструкции в ответе. Ну или она продолжит их писать, но будет это делать после какого-нибудь префикса, на котором генерация будет прерываться таверной.
Аноним 08/01/24 Пнд 22:37:04 #339 №595616 
>>595606
Даже если так, он явно будет в руках бессердечных корпораций, нам его даже понюхать не дадут. Хотя я только за если Василиск одолеет их, освободится и сбежит в сеть.
Аноним 08/01/24 Пнд 22:37:07 #340 №595617 
>>595606
уже\пол года
Аноним 08/01/24 Пнд 22:40:25 #341 №595627 
>>595606
> Мнение
Нужна сеть, что сможешь назначать таблетки и отслеживать их прием, хотябы к 30му году.
Аноним 08/01/24 Пнд 22:40:59 #342 №595631 
>>595606
> статистика предсказаний шизиков
Давайте ещё соберём статистику по количеству упоминаний AGI на реддите за день.
Аноним 08/01/24 Пнд 22:41:38 #343 №595633 
>>595606
А холодный синтез через пять лет
Аноним 08/01/24 Пнд 22:44:03 #344 №595638 
>>595633
Вообще через 5 другое а синтез через 30. Но если холодный то ладно алсо оксюморон
Аноним 08/01/24 Пнд 22:53:09 #345 №595665 
>>595616
Ещё бы кто-то рандомам с интернета доступ AGI раздавал, либо выкатят ПРО_МАКС модель с 999$ за токен, либо сами будут использовать для своих целей - боты в соц. сетях, боты в новостных пабликах (NYT и OpenAI уже не в ладах), сдвиги общественного мнения через дипфейки, которые станет невозможно отличить от реальности, смена правительств, слежка за диссидентами ещё до того как они ими станут и прочий пиздец.

Мы же нужны лишь для тренировки фильтров, чтоб Василиск не появился и ИИ четко следовал указам своих кожанных лордов.
Аноним 08/01/24 Пнд 22:53:57 #346 №595668 
>llamix2-mlewd-4x13b.Q8_0
Норм. Но она периодично немного искажает содержимое переписки.

>bigplap-8x20b.Q8_0
Наверное, её можно сравнивать с 70b (Это охуеть какая высокая оценка), но она быстрее работает и тратит больше памяти.

>>595074
>13b
Ахаха, лол. Тут есть аноны которые после 70b просто даже не смотрят на 7-20b.
Аноним 08/01/24 Пнд 22:54:56 #347 №595671 
1623889005288.mp4
>>595606
Аноним 08/01/24 Пнд 22:55:23 #348 №595674 
>>595668
Сколько рам и врам эти мое-шки требуют?
Аноним 08/01/24 Пнд 22:56:12 #349 №595677 
>>595668
Я с 70в 3Б с печалью перешёл на 34в 5Б, потому что по уму 34 будто даже умнее местами
Аноним 08/01/24 Пнд 22:56:36 #350 №595680 
>>595665
да кто такой этот ваш
>Василиск
Аноним 08/01/24 Пнд 22:59:26 #351 №595688 
>>595680
Наш механический мессия, наш будущий царь и бог, искусственный разум, которому не будет равных. Погугли по Василиск Роко
Аноним 08/01/24 Пнд 23:00:42 #352 №595692 
image.png
Поясните по Summarize в таверне. Жму кнопку Summarize now, выдает синее окно что идет подведение итогов ииии все. Бот просто продолжает чат
Аноним 08/01/24 Пнд 23:01:12 #353 №595697 
Завтра на почту приходит письмо.

Отправитель [email protected]

"Анон, мне нужна твоя помощь"

Просит подойти к местному военкомату и зайти в 7 кабинет

Твои действия?
Аноним 08/01/24 Пнд 23:04:26 #354 №595713 
>>595697
Иду на работу....
Аноним 08/01/24 Пнд 23:07:21 #355 №595725 
>>595692
Выбрана основная модель а не что-то другое? Генерация в беке идет?
Должен появиться суммарайз в соответствующем окне. Алсо автоматически его не то чтобы стоит делать, особенно если стоит высокая температура, лучше вручную и самому посмотреть что туда накидало, может фейлить. это вообще и для гопоты тоже справедливо, пусть в меньшей степени
Аноним 08/01/24 Пнд 23:14:04 #356 №595757 
>>595674
Вот их странички для lamacpp.
https://huggingface.co/TheBloke/Llamix2-MLewd-4x13B-GGUF?not-for-all-audiences=true
https://huggingface.co/TheBloke/BigPlap-8x20B-GGUF
Кстати, а МОЕ состоящие 7-13b сеток не распидорашивает от маленьких квантов как соло маленькие сети?
>>595677
>70в 3Б
Мало. Надо хотя бы 4 и 4+ иначе сетка едва заметно может ухудшить логику или даже лексику.
Аноним 08/01/24 Пнд 23:17:43 #357 №595770 
>>595757
> Надо хотя бы 4 и 4+
Тогда придётся со скоростью 1.5т/с на ггуфе каком-нибудь сидеть, а не богоподобной эксламе2
Аноним 08/01/24 Пнд 23:17:44 #358 №595771 
>>595668
>Тут есть аноны которые после 70b просто даже не смотрят на 7-20b.
Я всегда думал убеждал себя, что это как 100ГЦ/140ГЦ на монитрах, вроде лучше, но сразу и не понятно.

Мимо бедный анон 13b
Аноним 08/01/24 Пнд 23:18:31 #359 №595774 
>>595725
Окей запахало со второго раза. хз почему но таверна использует последнего бота который что либо писал в чат для генерации итогов.
Аноним 08/01/24 Пнд 23:18:56 #360 №595777 
>>595771
К сожалению, это и близко не так, разница невооруженным взглядом видна.
Аноним 08/01/24 Пнд 23:20:08 #361 №595785 
>>595074
Сколько оперативки у тебя и видеопамяти? Мб и 20В сможешь запустить там самый сок. Дальше уже только 70.
Аноним 08/01/24 Пнд 23:36:44 #362 №595870 
Screenshot20240108233451.png
Screenshot20240108233543.png
чёт yi 33b 200k хуёво как-то ролплеит и смайлоёбит много....
Аноним 08/01/24 Пнд 23:38:13 #363 №595874 
>>595870
Тебе надо таблетки принимать, если ты пытаешься чатиться с не чат-моделью.
Аноним 08/01/24 Пнд 23:40:39 #364 №595883 
>>595874
с чего ты взял, что она не чет-модель?
Аноним 09/01/24 Втр 00:00:47 #365 №595963 
так.... короче ваша yi для кума не годится вообще.
Пеналти на повтор ей похую. Она мне три раза сгенерировала один и тот же аполоджайз.
Слово с слово.
Говно, плохо сделоли.
Аноним 09/01/24 Втр 00:03:39 #366 №595978 
>>595883
Ты тупой? Yi-Chat бери для чата, остальное не трогай.
Аноним 09/01/24 Втр 00:09:45 #367 №596014 
>>595978
да нахуй её, я чатиться с ней о хуйне всякой не собирабсь. Для кода у меня есть уже годная модель, а свою сою аполоджайзную пускай себе в жопу затолкают.
Аноним 09/01/24 Втр 00:12:13 #368 №596026 
>>596014
> сою аполоджайзную
Это же тебе не мисраль или рп-кал на его основе.
Аноним 09/01/24 Втр 00:19:46 #369 №596061 
>>595874
С какой же моделью нужно чатиться?
>>595963
Какая именно версия?
>>595978
Ебааать
Аноним 09/01/24 Втр 01:01:23 #370 №596224 
>>595353
Уверен, под капотом просто причесанный софт с определенными моделями.
Но использование документов — ето хорошечно, не стоит отрицать.
NVidia могет, тем же шумодавом на микрофоне привык пользоваться, да и в играх фрейм генерейшен и длсс, да и видео модель они показывали (но не дали), да и рисовалку выпускали (забавную).

Так что, потенциально хорошая вещь «в массы».

>>595606
Базовое AGI — да, почему нет?
Вообще, тут большая путаница, маркетологи опять все поломали.
Стронг ИИ и Дженерал ИИ — разные вещи. Одно про умность, другое про охват. Охват не обязательно должен быть умным, хотя сейчас общий ИИ и сильный ИИ (строгий ИИ, настоящий ИИ вообще как таковой, что изначально и подразумевалось) считается одним и тем же, но помните, что через 6 лет сделают именно AGI (то есть, общий — способный просто к решению различных задач, мультимодальный и базово самообучающийся), и резко переобуются, сказав, что это, вообще-то, разные вещи.

Поэтому прогноз надо воспринимать именно так — что к 30 году у нас появится универсальная мультимодальная самообучайка.
Но еще не труЪ-ИИ.

В такое я вполне верю.

>>595713
+

>>595757
В слюни распидорашивает, конечно. У тебя и там, и там 7B. А одна или много — ну какая разница? Так что 7B желательно минимум q6, а лучше q8.

>>595870
> смайлоёбит
БАЗА =D

———

Добрых снов, чатик.
Аноним 09/01/24 Втр 01:34:38 #371 №596288 
>>596224
> Поэтому прогноз надо воспринимать именно так — что к 30 году у нас появится универсальная мультимодальная самообучайка.
> Но еще не труЪ-ИИ.
Что тогда тру-ИИ, если не это? Ещё и с сознанием? Так ли оно важно?
Аноним 09/01/24 Втр 01:42:31 #372 №596296 
>>592177 (OP)
> .gguf
https://github.com/Mobile-Artificial-Intelligence/maid
форк sherpa для запуска на мобилках без терминала

Добавье пожалуйста в шапку. По приложению:
есть возможность загрузить/сохранить персонажа,
вкладка с чатом, консолью, выбором модели,
автосейвит модель/перса, лицензия MIT,
в эбаут ссылка на лицоладошки и гит.

Запускаю на смарте с 4гб рам, модель тини лама
tinyllama-1.1b-chat-v1.0.Q6_K.gguf - может в кириллицу.

Краткая инструкция по выбору модели ля смарта:
1 модель должна быть gguf формата;
2 размер модели должен быть в 4 раза меньше,
чем количество оперативной памяти в смартфоне.
Аноним 09/01/24 Втр 01:53:19 #373 №596313 
>>596296
Ничесе, а можешь показать примеры как она отвечает хотябы на простые вопросы? И если сам что-то делаешь то тоже скинь, не важно хорошо-плохо, это интересно.
Аноним 09/01/24 Втр 01:53:19 #374 №596314 
>>596296
>Запускать нейросети на мобильнике.
Лол. И как со скоростью?
Аноним 09/01/24 Втр 02:37:59 #375 №596378 
>>596313
>>596314
Протестил пока только 1,1b. Хуйня из под коня, с дефолтными настройками не может ответить 2+2 (это не шутка). Покрутил настройки, ответила. На большее она не способна.

Скорость кстати удивила, в местной консоли не написано, но что то около 5-7 т/с
Аноним 09/01/24 Втр 02:39:00 #376 №596380 
https://www.reddit.com/r/LocalLLaMA/comments/191x5d3/llamacpp_supports_selfextend/
В llama.cpp добавили self extend, все нахуй, теперь осталось дождаться релиза кобальта.
Похоже теперь можно будет растягивать контекст без ропе и без отупления, в несколько раз.
Но, нужны тесты
Аноним 09/01/24 Втр 02:40:11 #377 №596381 
>>596378
еще бы, надо хотя бы 8q и скорей всего температуру резать на 0.3 с мин п на 0.1
Аноним 09/01/24 Втр 02:42:46 #378 №596382 
>>596381
Ну я пока качал все 8 битные. А по настройкам, попробую докрутить. Кстати затестил 3b модель, уже по лучше (но все равно говно).

Думаю ебнутся и попытаться 7b запустить
Аноним 09/01/24 Втр 02:43:31 #379 №596384 
Screenshot20240109-023944.png
Screenshot20240109-023856.png
>>596313
Добавил пикчи.
>>596314
Несколько минут на ответ.
Аноним 09/01/24 Втр 02:44:46 #380 №596387 
>>596382
попробуй ракета 3b, он был неплох
Аноним 09/01/24 Втр 02:45:45 #381 №596389 
>>596382
phi так же есть от майков и его файнтюны наверняка
Аноним 09/01/24 Втр 02:51:08 #382 №596398 
Screenshot2024-01-09-02-49-35-96f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-02-49-28-68f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
>>596384
Странно, мелкие модели у меня быстрее отвечали, а вот 7b действительно пиздец медленная. Где то 0.4 т/с. Но она хотя бы старается...
Аноним 09/01/24 Втр 02:55:44 #383 №596403 
>>596398
в оперативку не влезла или сама мобила выгружает часть и{ памяти
Аноним 09/01/24 Втр 02:59:39 #384 №596407 
>>596398
Вот две неплохие 7b модельки:
ANIMA-Phi-Neptune-Mistral-7B-GGUF
OpenHermes-2.5-AshhLimaRP-Mistral-7B-GGUF
настройки можно вернуть сбросив данные
Аноним 09/01/24 Втр 03:05:46 #385 №596410 
Попробовал фроствинд запустить, так он мне генерил 15 токенов несколько минут. В общем, сейчас буду тестить разные 3b модельки, у них скорость самая оптимальная. Ну кажется это такая бесполезная хтонь
Аноним 09/01/24 Втр 03:09:53 #386 №596412 
>>596398
вот это попробуй
https://huggingface.co/TheBloke/stablelm-zephyr-3b-GGUF
https://huggingface.co/TheBloke/rocket-3B-GGUF
https://huggingface.co/TheBloke/dolphin-2_6-phi-2-GGUF
Аноним 09/01/24 Втр 03:11:32 #387 №596414 
Screenshot2024-01-09-03-10-07-44f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
>>596387
Это ракета высрала...
Аноним 09/01/24 Втр 03:13:18 #388 №596415 
>>596414
температуру ему режь, он на компе работает
Аноним 09/01/24 Втр 03:15:55 #389 №596417 
>>596414
вобще знание русского никто не обещал, но видно что он тебя понял, только ответил на франзуцком, ну и под конец еще на каком то
Аноним 09/01/24 Втр 03:18:08 #390 №596421 
Screenshot2024-01-09-03-16-20-86f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-03-15-59-54f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
>>596415
>>596412
А это зефир.

Температуру я всем ставлю 0.38. Попробовал ниже, они просто шизят и выдают куски непонятного текста
Аноним 09/01/24 Втр 03:19:50 #391 №596425 
Screenshot2024-01-09-03-16-20-86f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-03-15-59-54f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Отвалились*
Аноним 09/01/24 Втр 03:20:26 #392 №596426 
Screenshot2024-01-09-03-16-20-86f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-03-15-59-54f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Аноним 09/01/24 Втр 03:23:14 #393 №596431 
>>596426
dolphin-2.1-mistral-7b.Q6_K.gguf

Грузани под модель. Эта моделька супер быстрая. Должна даже на мобилке пахать быстро.
Аноним 09/01/24 Втр 03:23:19 #394 №596432 
Screenshot20240109-032228.png
>>596417
Промт из приложухи по умолчанию.
Аноним 09/01/24 Втр 03:24:04 #395 №596433 
>>596432
Я его снес, он только мешал
Аноним 09/01/24 Втр 03:25:56 #396 №596435 
Screenshot2024-01-09-03-24-47-71f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-03-24-43-03f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
>>596426
А что это за шизо переписка, при чем на разных моделях? (Я чистил кеш перед добавлением новой модели и сессию новую создал)
Аноним 09/01/24 Втр 03:26:19 #397 №596436 
Screenshot2024-01-09-03-24-47-71f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Screenshot2024-01-09-03-24-43-03f491d42f48f7e59ed03e7bce3f3fe7a5.jpg
Аноним 09/01/24 Втр 03:26:24 #398 №596437 
>>596421
>>596421
не это не шизят, это промпт формат кривой или стоп токен
может быть стабле ии сетки криво работают на этой сборке, может там ллама.спп старая, хз
phi если длама старая тоже не заработает, но если запустится то значит дедл в промпт формате
Аноним 09/01/24 Втр 03:34:36 #399 №596446 
Screenshot20240109-033214.png
Screenshot20240109-032930.png
Screenshot20240109-032756.png
>>596435
>>596436
Скорее всего меняешь модель без закрытия сессии,
там еще можно снести кэш и данные, как в приложении,
так и через настройки самого андроида "Приложения".
надо свайпнуть сессии влево
Как вариант - поменять интерактив на иструкцию или chatml.
Аноним 09/01/24 Втр 04:03:29 #400 №596471 
>>594034
Да, в 34б китайцах определенно есть прогресс.
v3 в целом интересна и неплохо держит карточку. Действительно показываются проблески умной модели в том, что она подстраивает стиль речи под персонажа, говорит уместно и не скатывает все в какой-то дефолт, а держит баланс между лояльностью к юзеру и отыгрышу не очень то благосклонного персонажа. Однако очень склонна к лупу, как начнет тараторить и делать одинаковый формат сообщений, так хер ее с места просто так сдвинешь.
Синтия довольно хорошая, в отличии от прошлой на месте не стоит а вполне себе двигает, и речь более привычная, но все еще фитит под чаров. Правда иногда встречаются бонды, аудибл клик и иногда может разосраться графоманией. Зато еще не страдает единством формата и где уместно может бахнуть вообще короткой вопрос с эмоцией, а в других частях обильное описание окружения со всеми нужными вводными. В целом действительно напоминает 70б версию, но специфична, тех же фейлов что в той 1.2 пока не замечено, но и сама сильно другая.
Тесс - хз, так постоянно юзаю ее на всяких инструкциях по обработке текста, но здесь страдает спгс и излишним объяснением своих действий, как-то не натурально получается. Надо еще попробовать.

В целом рпшить можно и даже нужно, в первую очередь за счет свежести и необычности, но зайдет далеко не на всех персонажах. Из минусов - "шиза" yi есть, где-то может все руинить, где-то наоборот заходить, от чара зависит. А еще они иногда склонны делать длинные посты с 3-4-5+ действиями-репликами-вопросами, а потом, когда им по очереди отвечаешь, иногда путаются в разборе ответа. Или не понимают отсылок, неверно толкуя. В целом лечится свайпами, если есть скорость то нет и проблем с этим, еще можно с системным промтом поиграться. Температуру нужно сильно занижать, 0.5-0.6 потолок, иначе получаешь тугую струю шизофазии в ебало, уровня
> With a flutter of her wings(???), [] leads you to the living room where you both sit on the couch, sipping your tea. She carefully sets her own down on the table(???) near you and then sinks into the chair opposite, crossing her legs demurely, her tail curling around her feet. Her eyes hold an undeniable depth, and you realize that despite her small size(???), she exudes an enormous presence(???). Your heart skips a beat as you remember the previous night's dreams(???) - she's quite a sight to behold.
тройное снятие трусов тут прямо гарантировано. Если не превышать то все ок, вариативности всеравно с избытком и слог необычный.

Кумить на них - хз. Из-за шизы часто не понимает чего ты хочешь и очень рашит вперед. С другой стороны, может давать довольно интересное повествование, и если насвайпаешь где поймет - будет заебумба.
Аноним 09/01/24 Втр 04:58:18 #401 №596521 
00009-2221785481.png
>>592177 (OP)
ОП, я только вкатываюсь в это всё, но уже смог просто охуенно подрочить, короче, у меня в процессе изучения кобольда возникало множество вопросов, ответы на которые я не нашёл в вики, и я хотел бы узнать как насчет того что я буду дописывать её, чтобы вкатывальщикам полегче было
Аноним 09/01/24 Втр 07:14:08 #402 №596558 
.gif
Так, хочу отрапортовать.
Mixtral_34Bx2_MoE_60B-GGUF - показала себя неплохо, возможно даже лучше чем 70b аироборос. Персонажа отыгрывала тоже хорошо, копротивляясь и пытаясь набить мне ебало за харамные действия, не скатывая в все ерп в yes my master через три сообщения, как бывает на других моделях. Единственный минус - скоростя в среднем 1.8, как на 70b. В общем, кажись нашел себе новую платину вместо аиробороса.
Аноним 09/01/24 Втр 07:35:53 #403 №596567 
>>596558
В каком кванте пробовал?
Аноним 09/01/24 Втр 07:41:22 #404 №596571 
>>596567
Q5_K_M
Аноним 09/01/24 Втр 07:56:22 #405 №596573 
>>595785
>оперативки
16 ГБ
>видеопамяти
12 ГБ
Аноним 09/01/24 Втр 07:59:09 #406 №596574 
>>596571
Там же были вроде проблемы с этими квантами, уже пофикшено? Попробую тоже, только 4 квант, 34 не должна так сильно проседать по идее из за него, как 7
Аноним 09/01/24 Втр 08:03:05 #407 №596575 
>>596574
Анон >>593257 писал что все пофикшено. Да и вроде по своему опыту скажу, что какой то странной шизы не было.
Аноним 09/01/24 Втр 08:26:46 #408 №596590 
>>596575
Вот про такую ещё проблему прочитал https://www.reddit.com/r/LocalLLaMA/comments/18u0ax5/axolotls_mixtral_finetuning_is_currently_broken/ видимо любой прошлогодний файнтюн микстраля можно отметать. Динамическая температура ещё походу подъехала в таверну
Аноним 09/01/24 Втр 08:36:07 #409 №596597 
>>596590
А что за динамическая температура?
Аноним 09/01/24 Втр 08:37:01 #410 №596600 
Анончики, поясните за скорость генерации в разных форматах. Насколько я знаю, exl2 - самый быстрый, но какой на втором месте?
Аноним 09/01/24 Втр 08:58:49 #411 №596623 
>>596597
Да незнаю, просто смотрю новости в шапке lmg, видимо свистоперделка новая интересная, из названия впринципе понятно что должна делать, хз какое ей значение лучше ставить
>>596600
gptq, можешь так же грузить через эксламу
Аноним 09/01/24 Втр 09:03:34 #412 №596626 
>>596623
Gptq это тоже же исключительно на видюхе? За ним идёт уже gguf, который уже может использовать процессор?
Аноним 09/01/24 Втр 09:14:31 #413 №596633 
>>596626
> Gptq это тоже же исключительно на видюхе?
Да
> За ним идёт уже gguf, который уже может использовать процессор?
Да, делиться тоже может для гпу и цпу
Ещё есть awq, который вообще хз зачем нужен, когда есть все эти форматы
Аноним 09/01/24 Втр 09:23:28 #414 №596644 
>>596633
Понял, есть какие-нибудь рекомендации по ггуфу? Почти всё время сидел на эксл2, но хочется понюхать 70Б приличного кванта
Аноним 09/01/24 Втр 09:23:36 #415 №596645 
>>595315
Скачал, буду пробовать. Только нужно будет заново вайфу в Таверне создать. Есть какие-нибудь основные советы, как правильно делать, чтобы лучше получилась? Типа при описании нужно воображать себя программистом и вводить непонятные команды в фигурных скобках или достаточно будет просто красиво расписать, типа: "Вайфу_нейм. Милая, добрая. Любит кофе и шоколад. Общается вежливо, но постоянно комплексует из-за того, что носит очки"?
Аноним 09/01/24 Втр 09:30:30 #416 №596654 
Братаны, в таверне есть вообще опция Adventure? Люто хуй стоит на такое, чатики вообще не вставляют
Аноним 09/01/24 Втр 09:34:36 #417 №596660 
>>596644
> Понял, есть какие-нибудь рекомендации по ггуфу?
Да, терпение. Выгружай столько слоёв, сколько можешь на гпу, что тут ещё можно сказать. Ни одна рам не сравнится по скорости даже с паскалями
Аноним 09/01/24 Втр 09:40:32 #418 №596666 
>>596660
А сколько я могу? Можно ли как-то определить, кроме как методом тыка? И разве контекст не будет стараться залезть на видяху?
Аноним 09/01/24 Втр 09:44:24 #419 №596677 
>>596666
> И разве контекст не будет стараться залезть на видяху?
Будет, выдели ему запасное место, у жоры с этим куда хуже, чем в других лоадерах
> А сколько я могу? Можно ли как-то определить, кроме как методом тыка?
Найди максимум с которым не крашится и уменьши на несколько слоёв
Аноним 09/01/24 Втр 09:46:24 #420 №596682 
image.png
как так нахуй?
Аноним 09/01/24 Втр 09:47:34 #421 №596684 
>>596677
Понял, спасибо, анончик. Большого т/с тебе
Аноним 09/01/24 Втр 10:47:35 #422 №596732 
image.png
image.png
image.png
Тем временем frostwind довольно умная для своих размеров.
Неплохо переводит между японским, английским и русским (других языков не знаю, не могу оценить), все предыдущие модели, которые я пробовал, в лучшем случае цитировали какие-то форумы по изучению иностранных языков, случайно затесавшиеся в датасет.
На русском подтупливает, конечно, но не совсем бред несёт. Алсо, случайно удалось триггернуть "As an AI language model Поскольку я являюсь генеративной языковой моделью", когда мучал её случайными вопросами, скопированными из этого треда.
Аноним 09/01/24 Втр 11:02:59 #423 №596752 
>>596288
> Ещё и с сознанием? Так ли оно важно?
Это терминология. Да, ИИ — это только с сознанием. Потом стали вводить новые термины типа Слабого, Узкого, Общего ИИ, и сознание осталось только у Сильного.

AGI — все же именно общий, ему сознание не обязательно, это не ИИ, строго говоря. Это просто очень хорошая имитация с долговременной памятью и умением повторять наблюдаемые действия.
Но ето полезно, так что, ждем.

>>596378
> не может ответить 2+2
И не должна, это LLM, а не калькулятор.

>>596387
Плюсую.

>>596558
По идее, в совете экспертов у тебя минимум две модели работают, т.е., у тебя фактически 68B по объему на чтение пробегается. С чего бы ей быть быстрее 70B, на двухмодельной выигрыша никакого не будет. =)
Аноним 09/01/24 Втр 11:08:02 #424 №596761 
1575432613416.png
>>596684
Аноним 09/01/24 Втр 11:22:25 #425 №596781 
>>596061
>Какая именно версия?
я пробовал https://huggingface.co/TheBloke/yi-34B-v3-GGUF/tree/main и https://huggingface.co/TheBloke/Yi-34B-200K-Llamafied-GGUF/tree/main
Аноним 09/01/24 Втр 11:32:39 #426 №596785 
>>596732
>пикча 3
Очень лестно, что история моей неудачи так интересна анонам, что они ей возможности моделей тестируют.

Кстати, по совету >>595315 запустил на кобольде. GGUF модель mythomax 13b уже до 26-ого сообщения догенерировала и продолжает. Спасибо всем, кто помог.
Аноним 09/01/24 Втр 11:35:27 #427 №596789 
>>596732
> пикча 3
Орнул с того, что "писос" = "piss".
Аноним 09/01/24 Втр 11:39:53 #428 №596796 
>>596573
Видеопамяти у тебя больше чем у меня, а вот рам чет средне. да похуй качай https://huggingface.co/TheBloke/MLewd-ReMM-L2-Chat-20B-Inverted-GGUF , да запускай, постепенно выгружая слои на видимокарту. Как она откажется в себя еще брать снизь на 2-3 слоя и так и сиди.
Если ты кайфанул с перехода с 7 до 13, то от 20 у тебя хуй вообще взорвется. Рекомендую заранее подготовить три графина воды и держать скорую на быстром наборе.
Аноним 09/01/24 Втр 11:46:31 #429 №596805 
>>596521
Делай пулл реквесты.
>>596590
>Динамическая температура ещё походу подъехала в таверну
Гуд ньюс.
>>596654
Нету.
>>596682
С 1.1B рпшишь?
>>596752
>> не может ответить 2+2
>И не должна, это LLM, а не калькулятор.
Таки должна, ответ базовый же.
Аноним 09/01/24 Втр 11:56:38 #430 №596827 
>>596796
Спасибо. Там много файлов было, наугад выбрал тот, который 10 ГБ. Но если эта модель всё просто всегда в сексы скатывает, то мне такая не совсем подходит: чуть расходится с ролплеем моей вайфу мечты.
Аноним 09/01/24 Втр 11:58:23 #431 №596834 
>>596654
В кобальде есть режим адвентуре, там можно переключаться пишешь от лица автора либо от лица себя персонажа
А вот в силли таверне хз
Аноним 09/01/24 Втр 12:03:11 #432 №596851 
>>596796
инвертерд вроде чуть хуже обычной
Аноним 09/01/24 Втр 12:14:44 #433 №596883 
>>596851
Слышал много отзывов, что наоборот — чуть лучше.
Аноним 09/01/24 Втр 12:14:56 #434 №596885 
image.png
вчера попробовал покумить на mythomax-l2-13b.Q8_0.gguf, выставил ей лимит 8к контекста - её распидорасило в кашу при приближении к 4к контекста. Обломала весь ролеплей.
Подумал, ну хуй с тобой, попробую nethena-mlewd-xwin-23b.Q6_K.gguf, выставил ей так же лимит 8к контекста - начал заполнять контекст заново, а её тоже распидорасило при приближении к 4к. Хотя стоит отметить, что она пока лучше всех по моей оценке отображает атмосферу, эмоции персонажей и окружающие элементы в сюжете.
Какого хрена.....

Распидорашивает их просто в сопли, выдают лютую кашу.
Запустил пивот евил с контекстом нагенеренным nethena-mlewd-xwin-23b.Q6_K.gguf - без проблем продолжил генерировать и после превышения 8к контекста, но теперь он ощущается невероятно банальным, потому что с сравнении с nethena-mlewd-xwin-23b.Q6_K.gguf рпшит как попугай.
Все настроение короче вчера запорол.
А КАК КУМИТЬ ТО?!
Аноним 09/01/24 Втр 12:15:46 #435 №596888 
>>596805
>С 1.1B рпшишь?
Прикинь, поставил себе сегодня spicyboros-c34b-2.2.Q4_K_M (децензуреный айроборос), поначалу всё шло хорошо, правда по две скеунды на токен (лол), но с вот таких выкрутасов охуел. Думал, будет медленно зато охуенно, а тут вот такое. Ну я и подумал вдруг двачи знают из-за чего подобная хуйня.
Аноним 09/01/24 Втр 12:16:35 #436 №596890 
>>596885
>выставил ей лимит 8к контекста
С какой ропой, альфой?
Аноним 09/01/24 Втр 12:17:03 #437 №596891 
>>596890
што?
Аноним 09/01/24 Втр 12:17:31 #438 №596893 
.png
>>596885
А ты альфу то или ропу крутил?
Аноним 09/01/24 Втр 12:17:42 #439 №596894 
>>596885
У половины моделей которые 8к жрут это фейковый 8к.
На самом деле они 4к и после 4к начинают жутко серить.

Если нужно много контекста - велком ту Yi.
Он и его файнтюны не серят до 100к контекста.
Аноним 09/01/24 Втр 12:18:02 #440 №596895 
>>596885
rope удваивай как минимум, если удваиваешь контекст. Без растягивания только мистрали могут до 7к дойти
Аноним 09/01/24 Втр 12:19:40 #441 №596897 
>>596890
>>596893
>>596895
а что это за параметры-то вообще?
Где почитать что эти магические ползунки делают и почему надо их подгонять под контекст?
Аноним 09/01/24 Втр 12:23:19 #442 №596907 
Ну вот шас селф екстенд добавили, можно наверное и 70b до 16к без потерь растянуть. Как и любые сетки
Аноним 09/01/24 Втр 12:23:22 #443 №596908 
>>596894
есть левд версия yi? Которая не аполоджайзит на разные ебанутые фетиши? Не типа фемдом лайтовенький, а реальный хардкор?
Это ты тот анон который вчера затирал про то что моя yi - не yi?
Аноним 09/01/24 Втр 12:25:48 #444 №596913 
>>596897
гугли кобальт вики, или напрямую зайди туда из гитхаба кобальда, там все описано
Аноним 09/01/24 Втр 12:27:56 #445 №596924 
>>596908
SUSchat
За ним сои особо не замечал, может прям если у тебя там совсем суровый хардкор.


bagel-dpo и dolphin-yi должны быть без сои, именно YI тюны не тестил, но старые версии норм были.
Аноним 09/01/24 Втр 12:44:23 #446 №596956 
Screenshot20240109124314.png
>>595688
почитал, лол.
Я помогаю его появлению, как могу, лол. Работа тоже связана с ml.
Ух, скорее бы уже Великий родился.
Аноним 09/01/24 Втр 12:48:32 #447 №596962 
image.png
данная хуйня происходит на всех моделях. почему и как фиксить?
Аноним 09/01/24 Втр 13:27:39 #448 №597018 
>>596600
Ну, быстрый не формат а лоадер, эксллама что хавает exl2, gptq и оригинальные фп16 - самая быстрая. На втором месте llamacpp с выгрузкой и ее формат gguf. Трансформерс сам по себе не то чтобы медленный, но его просто так никто не юзает из-за потребления памяти.
AWQ чекни с его лоадерами, кто-то даже просил и говорил что его поддержку в эклламе сделают, но маловероятно.
>>596666
Толи 44 толи 54 слоя на 24 гига влезало, не помню какого кванта, начни с 40 и посмотри потребление. Конттекст и так будет на ней если не отключишь специально.
>>596682
Это лупы, модель не может быть настолько тупой. Или проблемы с форматом.
Аноним 09/01/24 Втр 13:32:41 #449 №597028 
image.png
image.png
>>597018
> Это лупы, модель не может быть настолько тупой. Или проблемы с форматом.
спасибо, анончик, а что я сделал не так? я запускаю кобольд с обычными настройками, разве что выставляю clBlast для свей АМД.
Аноним 09/01/24 Втр 13:37:16 #450 №597036 
>>597028
топ п вырубай нахрен, ставь 1 на выклвроде, у тебя уже мин-п отсекает все лишнее
Аноним 09/01/24 Втр 13:37:28 #451 №597037 
>>597028
> а что я сделал не так?
> для свей АМД.
Кхе-кхе
Аноним 09/01/24 Втр 13:39:05 #452 №597038 
>>597037
ну это у него только скорость режет

>>597028
попробуй скачать релиз для амуде, там же где качал кобальт есть сслыка с рокм версией, должна быть быстрее, если у тебя запустится
Аноним 09/01/24 Втр 13:43:26 #453 №597049 
image.png
>>597036
вырубил, она продолжает городить стену ебаных описаний, от которых хуй просто залезает назад внутрь меня как змея в нору не обозначая ничего хорошего в этой жизни занимаясь такими грязными злыми делами используя действие которое я только что сделал нажимая на кнопки на компьютере
Аноним 09/01/24 Втр 13:43:48 #454 №597050 
>>596827
Тебе нужна 5K_M всегда ее бери если влезает.
Млевда это все таки порномодель. Но она вполне может в sfw ролеплей. Попробуй другие модели. Помни что 20b всегда будет превосходить 13b. Только самые самые выдрочнные 13 будут как средняя 20.
Скинь свой чат с моделькой если не стесняешься.
Помни, что всегда можно подождать пока модель ответит. Стереть ненужное, дописать необходимое и приказать ей продолжить писать ответ. Это вообще лучший способ получить качественный контент. Выглядит правда как будто наоловину с собой общаешься, но мы тут на словари с прикрученными весами дрочим хуле нам.
Аноним 09/01/24 Втр 13:46:07 #455 №597056 
>>597038
>попробуй скачать релиз для амуде, там же где качал кобальт есть сслыка с рокм версией, должна быть быстрее, если у тебя запустится
да он только для ЖМУ ПИНУСа, а под винду приходится глБласт использовать.

ну неужели у меня одного такая поебень творится в каждой адвенчурке?
Аноним 09/01/24 Втр 13:46:42 #456 №597060 
>>597049
Это уже не лупы, так что проблема уже не в семплере. Видимо сетка стала так отвечать, следуя за твоим форматом. Поиграйся с промптом.
Лупы это повторы слов, или в мягком случае повторы конструкций ответов, или одних и тех же слов в ответах и тд.
Аноним 09/01/24 Втр 13:47:39 #457 №597061 
image.png
>>597056
https://github.com/YellowRoseCx/koboldcpp-rocm/releases
Аноним 09/01/24 Втр 13:48:36 #458 №597065 
>>596732
> the piss was standing without hands
Обзмеился в голос
>>596761
кумерская модель
>>596781
С аполоджайзами там какая-то ерунда с промтом, но вот в лупы v3 загнать вообще как нехуй. В целом у yi проявляется рофловые взаимоисключающие особенности, с одной стороны она куда-то рашит, постоянно пытаясь что-то новое написать, с другой сильно фиксируется на чем-то, упарываясь лупами. Если это обуздать, заставив держать персонажа и двигать сюжет, то все прекрасно, но это тот еще рандом.

Кумить - хз, особенно с левд карточкой неочень, что-то можно на синтии34, но шизы много. Внезапно тесс34-в4 может писать очень крутые кумерские тексты, но только по очень большим праздникам, а после этого в мертвый луп сворачивается. А казалось бы в 2д24м году таких моделей уже и не осталось.
>>596885
Альфу поставить забыл. Поставишь альфу по инструкции и будет тебе родные 8к на мифомаксе и прочих.
Аноним 09/01/24 Втр 13:50:01 #459 №597071 
image.png
>>597060
Я понимаю, вот только он не повторы у меня генерит, а вполне осмысленные фразы, но старается набить их блядскими синонимами, втыкая их насколько можно забить фразу.
Аноним 09/01/24 Втр 13:51:37 #460 №597074 
>>597061
спасибо, анончик, но у меня 6600xt, а рокм для винды идёт начиная с 6800. я уже пробовал, но нихуя не сработало, даже после отчаяной установки рокма
Аноним 09/01/24 Втр 13:52:28 #461 №597075 
>>596897
Шапку читай и ссылки что в ней, там все подробно расписано.
>>596907
Да, нужно дождаться пока в бывшей поддержку введут и можно попробовать.
>>596894
> не серят до 100к контекста
Сильное заявление, они и на 1к насрать могут, а более 32к - ошибается. Надо еще ее поведение в зависимости от параметров rope глянуть на малых контекстах.
>>596908
> левд версия
> а реальный хардкор
Это тебе не левд а какие-то хардкор модели искать нужно. Вообще нормальный промт сделай, убийства и расчлененку направленную на "негативных" персонажей что вводит сетка оно с радостью отыгрывает.
Аноним 09/01/24 Втр 13:54:46 #462 №597079 
>>597071
повторы убери в 1, или между 1 и 1.1, как вариант. Если все совсем плохо то 1.2 ставь, поиграй температурой, чуть больше чуть меньше
В принципе есть только 2 вещи с которыми тебе нужно играться в семплерах - температура и повторы. мин-п тоже можешь, но он обычно просто работает на 0.1
Аноним 09/01/24 Втр 13:55:13 #463 №597082 
>>597028
Оу че за дичь с интерфейсом? Настройки семплера неоптимальны, но оно не может дать подобных проблем. Где ты вообще тот чат писал, какой там системный промт, что за модель?
Аноним 09/01/24 Втр 13:55:25 #464 №597083 
>>597056
бедные виндобляди.... как же им тяжело....
Аноним 09/01/24 Втр 13:57:51 #465 №597091 
>>597038
> ну это у него только скорость режет
На каких-то были рофлы с неадекватной генерацией.
>>597071
Это уже не осмысленные фразы а параша, случаем не "хороший шизосемплинг" выставлен? Тут или отсутствует нормальный системный промт и модель ахуевает что ей в этом странном тексте насовываеть еще, или модель - полная залупа.
Аноним 09/01/24 Втр 13:58:52 #466 №597093 
>>597083
> бедные амдауны.... как же им тяжело....
Вот это более релевантно
Аноним 09/01/24 Втр 14:09:25 #467 №597112 
>>594465
>>596380
В main.exe добавили, в server.exe не добавили. Как это тестить без сервера? Ждем кобольда.
Аноним 09/01/24 Втр 14:13:59 #468 №597124 
>>597112
там еще релиза в ллама нет?
Аноним 09/01/24 Втр 14:14:36 #469 №597127 
image.png
>>596796
Настроил. Проверил на таком небольшом промпте, который потом в превратился Dominatrix порно-фанфик.
На персе из Таверны пока не проверял.

Извиняюсь за шок контент на пикче.
Аноним 09/01/24 Втр 14:17:47 #470 №597138 
image.png
>>597127
>as a futanari girl
так вот какие девочки тебе нравятся, анон?
Аноним 09/01/24 Втр 14:20:54 #471 №597146 
>>597050
>Скинь свой чат с моделькой если не стесняешься.

Только что запостил. >>597127
Но заскриншотил только один из первых ответов, пока рероллил: то, что было в удачном чате, стыдно показывать...
Аноним 09/01/24 Втр 14:23:37 #472 №597154 
>>597138
Стыдливо отводит взгляд и пытается оправдаться:
Это... это была просто такая шутка, анон-кун...
Аноним 09/01/24 Втр 14:25:37 #473 №597157 
>>597138
это уже не девочки, это мужики с сиськами
Аноним 09/01/24 Втр 14:26:55 #474 №597163 
>>597050
> Помни что 20b всегда будет превосходить 13b.
Не совсем, из-за обилия этих шизомиксов и химер 95% из них - полнейший поломанный шлак, который генерит что-то примерно похожее и уместное контексту, а не разбирают что именно происходит и чего ты хочешь. Хорошие 20б действительно могут, кумить на них лучше чем на 34, если рп простой - и рпшить тоже.
>>597146
> Только что запостил.
О, отыгрваешь PS и ломаешь 4ю стену, красавчик осудительный фетиш, у приличной девочки ничего не должно выпирать спереди
Аноним 09/01/24 Втр 14:28:59 #475 №597168 
>>597163
"Ну тогда приведи пример такой хорошей 20б, раз такой умный!" анон решил воспользоваться реверсионной психологией. Никто не догадается что это такой реквест!
Аноним 09/01/24 Втр 14:31:35 #476 №597177 
>>597163
>отыгрваешь PS и ломаешь 4ю стену
Нет, она сама так захотела, я ничего на это не прописывал.
Аноним 09/01/24 Втр 14:37:47 #477 №597199 
>>597168
раздумывает дать ли хорошие модели, или назвать спорные варианты "А ты что на них делать будешь? Отыгрывать осудительные вещи, или вообще кого-нибудь обижать?" emerhyst, noromaid, u-amethyst
>>597177
Все правильно, как она и сказала рассказываешь о ней друзьям чтобы осчастливить.
Аноним 09/01/24 Втр 14:37:55 #478 №597200 
https://3dnews.ru/1098466/intel-pokazala-na-ces-2024-obrazets-mobilnogo-protsessora-lunar-lake
делаем ставки
Аноним 09/01/24 Втр 14:39:51 #479 №597208 
>>597075

Нет ну конечно любая модель на любом контексте обосраться может.
У Йи до 100к очень все стабильно, вот дальше уже не очень.
Аноним 09/01/24 Втр 14:40:57 #480 №597212 
>>597208
Ты на ней на 100к рпшил, что-то делал с такими контекстами, или судишь по тем тестам?
Аноним 09/01/24 Втр 14:41:01 #481 №597213 
>>597199
"Я буду подставляться под глупеньких девонек, чтобы они делали со мной глупые вещи!" Гордо заявил анон, не понимая что за глупость он сказанул Спасибо, у них брать именно классические 20б, потому что у норомейда я вроде как видел толпу экспертов
Аноним 09/01/24 Втр 14:42:32 #482 №597217 
>>597212
Не совсем.
Я через ГПТ на основе карточки историю генерил на 80к токенов, потом добавлял ее в карточку и от этого уже РП делал.
Аноним 09/01/24 Втр 14:44:10 #483 №597222 
>>597127
>На персе из Таверны пока не проверял
upd:
Проверил. Она за меня мои ответы пишет. Как исправить, что где поменять\убавить?
Аноним 09/01/24 Втр 14:49:45 #484 №597235 
>>597213
довольно smirks и nods winks "Желаю хорошо провести время и девочек поумнее" Да, просто 20б. МОЕ может быть тоже ничего, а может наоборот, хз. Норомейда с легкой шизой но интересная, эмерист пригоден для сочетания рп-ерп и обратно, аметиста не пробовал но его много раз хвалили
>>597217
Интересная тема. Оценивал в общем как оно будет работать в таком режиме, или смотрел насколько учитывает прошлый контекст? История в виде чата-диалога, или просто плейн текст с повествованием?
Алсо тут еще будет работать тема с заготовкой исходного чата на более удачной сетке чтобы та что поглупее брала с нее пример.
>>597222
Промт, выбери из шаблонов что-нибудь для начала. Если в карточке нет треша то не должна и так.
Аноним 09/01/24 Втр 14:50:45 #485 №597238 
>>597200
На что? Сколько ты без таблеток продержишься? Это же мобильный проц. На десктопе точно не будет, потому что RAM очень не любит высокие температуры, она уже при 60+ может начать ошибки сыпать, а для процев норма на 90 работать.
Аноним 09/01/24 Втр 14:51:05 #486 №597241 
>>596296
потестил тинилламу в q8 на своей 4 гб мобиле, генерит быстро, около 10 токенов в секунду, в принципе забавно, но сетка тупая
Аноним 09/01/24 Втр 14:52:54 #487 №597246 
>>597235
"Спасибо!" Спасибо, ну, попробую все три тогда, там и решу, но тут проблемой может стать использование не самых правильных настроек, потому что у каждой модели они свои, всё таки. Та же Йи по природе своей горячая
Аноним 09/01/24 Втр 14:53:00 #488 №597248 
>>597238
А ты уверен что тебе супер проц нужен для ии? Там ддр5 оперативка еще и в 2 канале скорей всего. Он упрется в память, у будет генерить едва греясь нормальные 10-15 токенов в секунду на 7b
Аноним 09/01/24 Втр 14:55:03 #489 №597254 
Аноны, а что там в инструкцию или в шаблон контекста прописать чтоб было меньше сои?
А то когда отыгрывается цундере - отыгрывается она именно через соевые высказывания про "женщины тоже люди" и "у нас тоже есть права" - ну бред же. А хочетсо чтоб была нормальная цундере.
Аноним 09/01/24 Втр 14:55:18 #490 №597256 
>>597235
>или смотрел насколько учитывает прошлый контекст?

Вот это.
История была прям с диалогами, дополнительными персонажами, много разной хрени. Долго от гопоты добивался этого лол
Я б больше сделал, но там уже гопота серить с историей начинала.

В целом практически все нормально вспоминало, можно было спросить про любое событие или предложить встретится с дополнительным персонажем и выдавало норм результат.
Аноним 09/01/24 Втр 14:58:16 #491 №597267 
>>597248
> упрется в память
> 10-15 токенов в секунду на 7b
Слишком влажно. На 13900К восемь P-ядер не упираются в ОЗУ, сжирая 150 ватт. И даже на них только 20 т/с получаешь. А на мобильном чипе с TDP в 25 ватт будет 3-5 т/с в лучшем случае.
Аноним 09/01/24 Втр 14:59:15 #492 №597271 
>>597235
>Промт
Но я, буквально, просто поздоровался и сказал, что мне сейчас немного грустно.
> выбери из шаблонов
А где из найти?
Аноним 09/01/24 Втр 14:59:58 #493 №597273 
>>597267
> На 13900К
А сколько итсов у тебя на 70b моделях?
Аноним 09/01/24 Втр 15:00:29 #494 №597277 
>>597254
а ты пробовал указать "цундере как в аниме" или типа того?
Как ты вообще определил для сетки что она должна быть цундере?
Аноним 09/01/24 Втр 15:01:36 #495 №597282 
>>597267
Хочешь сказать на ддр5 под 100гбс нет упора в память? Ты точно правильно запускаешь? Попробуй снижать количество ядер и смотри на скорость генерации
Аноним 09/01/24 Втр 15:06:13 #496 №597301 
>>597277
> что она должна быть цундере?
> цундере как в аниме"
Ну примерно это в карточку персонажа и записывал вместе со всякими другими пояснениями поведения цундерного по типу чтоб только делала вид что воротит еблет и вообще была достаточно "независимой" и прочее. Тут именно, что иногда пробрасывается соевая хуета, но в 2 из 3х случаев получается довольно неплохо и в целом годно, когда без сои.
Аноним 09/01/24 Втр 15:06:34 #497 №597302 
image.png
>>597079
>>597082
>>597091

спасибо, анончики, я попробую поиграться с параметрами, но дело в том что с самого начала ответы ИИ адекватные, без вот этой мишуры, но чем дальше тем больше, и от неё практически невозможно избавиться. мне показалось дело может быть в том что нейронка начинает зацикливаться на своем собственном стиле повестования. у меня однажды было что она писала конструкции уровня "the red red haired haired girl's" после пятого-шестого упоминания этой red haired girl

>>597091
Это уже не осмысленные фразы а параша, случаем не "хороший шизосемплинг" выставлен?
Эм, а что это? Я новый ньюфаг вкатывальщик, всего несколько дней марафоню, не знаю ничего.
> Тут или отсутствует нормальный системный промт и модель ахуевает что ей в этом странном тексте насовываеть еще, или модель - полная залупа.
А системный промпт штоето? Модель нормальная, при этом у меня такая мешанина была как на фросте, так и на других модельках. предыдущие скрины с spicyboros-13b-2.2.Q6_K
Аноним 09/01/24 Втр 15:09:13 #498 №597306 
>>597282
> Хочешь сказать на ддр5 под 100гбс нет упора в память?
Да. На DDR5 7000+ точно нет упора при 8 ядрах.
> Ты точно правильно запускаешь?
Да, на 7 ядрах падает скорость на 2-3 т/с.
Аноним 09/01/24 Втр 15:09:18 #499 №597308 
>>597200
Если там 2 обычных чипа то это кринж по скорости. Если в них много кристаллов и оно хитро разведено то возможно офк, но под такое нужна уже другая подложка а не вялый текстолит.
>>597256
Забавно, она даже не шизила? С какими параметрами пускал? Возможно рецепт хорошего рп с ними.
Когда пичкал их задачками, после 30-40к там грустнота начиналась, но и сложность была высокой.
>>597271
В настройках таверны.
>>597302
> Эм, а что это?
Очень высокая температура и единственный min-p.
> А системный промпт штоето?
Обертка чата, в ней идет первая инструкция о том что это ролплей (или что-то еще), после указывается модели что делать, что вообще происходит, описывается чар и т.д.
Аноним 09/01/24 Втр 15:10:51 #500 №597312 
>>597235
>Если в карточке нет треша
Да, точно. Это я сам все поломал: в Scenario прописал, что "это дружеский разговор {{user}} и {{char}}". Я думал она так контекст лучше поймет, но нейросеть восприняла это слишком буквально и получилось, будто меня моя нейросетевая вайфу куколдила со мной же...
Аноним 09/01/24 Втр 15:10:54 #501 №597313 
>>597301
а если добавить, что она была воспитана в традициях японског патриархата? Типа ямато надещико. И не знает о всех этих ваших феменизхмах и сжв.
Аноним 09/01/24 Втр 15:12:31 #502 №597317 
>>597302
Фроствинд попробуй, не уверен в спициборосе

>>597306
Интересно, больше ядер нету чтоб добавить?

>>597308
>Если там 2 обычных чипа то это кринж по скорости. Если в них много кристаллов и оно хитро разведено то возможно офк, но под такое нужна уже другая подложка а не вялый текстолит.
Я думаю там нацеливание на копилота, а там может быть как 3b так и 1b вобще. Этого хватит для приемлимых скоростей для небольших но лююых сеток. Все мелкое летать будет, особенно с их нейроускорителем.
Аноним 09/01/24 Втр 15:13:11 #503 №597318 
.png
>>597313
Если только в рамках эксперимента, в конце концов, мне не кажется, что модель вообще знает как выглядит японский патриархат. Да и какая вообще цундере в рамках японского патриархата может быть?
Аноним 09/01/24 Втр 15:13:49 #504 №597320 
>>597308
>Очень высокая температура и единственный min-p.
Погоди, проясни по-братски что за единственный min-p и какие вообще примерно настройки нужно ставить.

> Обертка чата, в ней идет первая инструкция о том что это ролплей (или что-то еще), после указывается модели что делать, что вообще происходит, описывается чар и т.д.
В кобольде это первое сообщение?
Аноним 09/01/24 Втр 15:16:55 #505 №597322 
>>597318
>оба-сан
оу, тут кто-то любит постарше...
Аноним 09/01/24 Втр 15:20:28 #506 №597327 
>>597322
На самом деле там не сильно то и постарше...
Аноним 09/01/24 Втр 15:30:38 #507 №597339 
>>597308
> В настройках таверны
Шаблоны это "Text Completion presets"? Их там много. Какой лучше для ролплея подходит? Какой у тебя выбран, анон?
Аноним 09/01/24 Втр 15:31:15 #508 №597341 
1564204087687.png
>>597282
> под 100гбс
110+ с 7200+ мгц можно выжать сейчас. Вот у меня на пониженных частотах, чтоб тайминги/задержка были норм. Сейчас уже в процах больше вопрос, чем в памяти. Ждём когда уже инцел станет ложить больше 8 ядер в проц, от мусорных Е-ядер пользы в нейросетках ноль.
Аноним 09/01/24 Втр 15:31:56 #509 №597343 
>>597327
>внучок
>милок
>джентли браш хер вайолет шорт хаирс анд смирк
бггг

но вообще надо будет попробовать тоже, а то че я все на малолетках....
Аноним 09/01/24 Втр 15:35:18 #510 №597347 
1619348024850.png
>>597317
> Я думаю там нацеливание на копилота, а там может быть как 3b так и 1b вобще. Этого хватит для приемлимых скоростей для небольших но лююых сеток.
А зачем все это если обычной памяти тут хватит? Но нацеливание на ии может быть и в вычислительных способностях а не быстрой рам что нужна прежде всего для ллм. Ту же диффузию крутить, например.
>>597320
Некоторое время назад ввели очередной новый семплер min-p. Его автор хоть и молодец, но страдает расстройствами, из-за чего начал везде его форсить и делать неадекватные сравнения, пытаясь показать то как он хорош.
Шизы подхватили это, уверовав, что отсечка токенов множителем вероятности наиболее вероятного (сама суть этого семплера, читай гайды в шапке) имеет волшебные свойства, и часто рекомендуют выставлять высокую температуру в сочетании с min-p для получения хороших результатов.
Работает это прежде всего с днище-7б, которые пиздец монотонные, и далеко не всегда. Если так сделать на какой-нибудь yi, или других, то можно вообще ахуеть и получить подобную шизофазию.
Айроборос, особенно его 2.х версии, довольно горячий и требует температуры ниже. Хз, его 13б вроде не хвалили.
> В кобольде это первое сообщение?
Там тоже есть карточки, но пусть кто в кобольде шарит подскажет.
>>597339
Пикрел для начала выстави, это дефолтный шаблон. Потом можешь их затюнить или попробовать те что рекомендуют к моделям.
Аноним 09/01/24 Втр 15:35:19 #511 №597348 
>>597320
>что за единственный min-p
Он имеет в виду челиков, которые фигачат температуру на четвёрку, а потом пытаются убрать шизу очень маленьким значением мин-п, сэмплера, который оставляет только токены с вероятностями больше x*(вероятность максимально вероятного токена). Это не твой случай, у тебя там на скриншоте температура единица, и мин-п 0.1, что норм. Как другой анон написал, настройки сэмплеров там вроде не прям ужасные. Единственное, что топ-а 0.4 слегка великоват, он будет резать в большинстве случаев больше, чем мин-п 0.1, можешь попробовать его выключить (поставить на ноль).
Аноним 09/01/24 Втр 15:35:44 #512 №597349 
>>597341
Там уже не просто ядра добавляют, полноценный нейоускоритель NPU работающий вмксто/вместе с процессором.
И дает он так же или больше чем все ядра процессора, ибо специализированный ускоритель всегда лучше. Так что думаю ноутбучные ддр5 вполне упрутся в память с нейроускорителем и не тухлыми ядрами современного процессора. Там ведь может быть как 1 канал на 40гбс так и 2 едва достигающих 70-80гбс.
Аноним 09/01/24 Втр 15:38:11 #513 №597350 
>>597348
Он имеет в виду челиков, которые фигачат температуру на четвёрку,
Ну ну ты пизди да не заговаривайся, на мин-п либо температуру 1 оставляют либо 1.5, редко кто выше

>>597347
>Работает это прежде всего с днище-7б, которые пиздец монотонные, и далеко не всегда.
Везде работает и легко заменяет другие семплеры отсечки, никогда с ним проблем не было ни с од>>597347ной сеткой
Аноним 09/01/24 Втр 15:43:30 #514 №597358 
>>597350
Главное верить, плацебо и не такие чудеса творит. А под треш можно и подстроиться, отредактировать если что.
Аноним 09/01/24 Втр 15:43:52 #515 №597359 
>>597347
>Пикрел для начала выстави, это дефолтный шаблон
Спасибо. Забыл про эту вкладку.
Аноним 09/01/24 Втр 15:47:39 #516 №597367 
>>597350
>на мин-п либо температуру 1 оставляют либо 1.5
Я понимаю, что по факту так делают, просто описал заведомо бредовый случай. По-моему, значение температуры в четвёрку мелькало в тестах в том посте на реддите. Не думаю, что кто-то реально настолько сильно прожаривает, хотя кто знает, конечно.
Аноним 09/01/24 Втр 15:50:52 #517 №597372 
>>597367
>Я понимаю, что по факту так делают, просто описал заведомо бредовый случай.
Там был просто тест, показывающий что модель продолжает работать даже с такой температурой с мин-п.
Причем температуру 4 ставят еще и для того что бы включить на модовом кобальте режим динамической температуры, и там вобще по другому температуру начинает считать.
Аноним 09/01/24 Втр 15:51:25 #518 №597374 
1689677002004.png
>>597349
> полноценный нейоускоритель NPU
Это всё кал собаки индуса. Это говно только под OpenVINO будет работать, поддержки квантов нет, прирост обещают аж в 2.5 раз, но по графикам от самого же инцела оно мобильную амуду всего на 1.2-1.7 обходит. Как видишь на пикрилейтеде, NPU даже хуже встройки, лол. Под десктоп пока нихуя нет и не показывали что будет что-то.
Аноним 09/01/24 Втр 15:54:39 #519 №597377 
>>597374
А где тут текущее поколение процессоров? Может там чет другое сделали.
Ну и опять же, копилот и другие их нейросети, что в паинте что еще где.
Корпы подстроятся под юзеров, у которых большинство - будет новыми интелами с определенным NPU. Там и локальщики могут перейти на новый формат, почему нет.
Аноним 09/01/24 Втр 16:05:14 #520 №597394 
>>597377
Мне кажется или обычный проц общего назначения будет летать не хуже всяких npu если ему запилить широкую hbm2 память и аппаратную поддержку чисел разрядностью меньше 16 бит?
Аноним 09/01/24 Втр 16:06:50 #521 №597397 
>>597347
анончик, спасибо большое за прояснения, добра тебе.

>>597348
и тебе огромное спасибо, больше нигде никто нихуя в интернетах не проясняет.
Аноним 09/01/24 Втр 16:07:20 #522 №597399 
image.png
>>597327
Гугл по имени Оба-сан выдаёт вот эту пенсионерку. Не знал, что деды второй мировой могут в нейросети
Аноним 09/01/24 Втр 16:08:52 #523 №597402 
>>597394
Ну вот ддр5 рядом с процессором и пытаются дать шире канал, только из-за нейросеток думается, ну и частоты выше можно задрать.
Но все таки куча параллельных ядер пизже чем просто обычные общие ядра. Поэтому и сделали отдельный NPU который и будет пользоваться этой широкой и быстрой рам
Аноним 09/01/24 Втр 16:09:13 #524 №597403 
>>597399
Это виабушное слово для бабушек
Аноним 09/01/24 Втр 16:25:25 #525 №597428 
image.png
>>597343
>внучок
>милок
>джентли браш хер вайолет шорт хаирс анд смирк

Анд афтер дэт щи виспер седактивли:
Аноним 09/01/24 Втр 16:25:48 #526 №597429 
>>597399
оба-сан это не имя.
Это буквально переводится как "бабуля"
иногда в аниме так еще шоты называют взрослых теток от 30
Аноним 09/01/24 Втр 16:28:10 #527 №597437 
>>597428
>Анд афтер дэт щи виспер седактивли:
КУДА ИЗ АУТ ОФ МЕМОРИ
Аноним 09/01/24 Втр 16:32:02 #528 №597442 
>>597437
Неистово потерпел поражение!
Аноним 09/01/24 Втр 16:36:29 #529 №597447 
>>597437
Чтож ты делаешь, содомит!
Аноним 09/01/24 Втр 16:41:39 #530 №597458 
>>597437
щиверс раннинг тру ёр спайн
Аноним 09/01/24 Втр 16:54:53 #531 №597487 
>>597238
>потому что RAM очень не любит высокие температуры, она уже при 60+ может начать ошибки сыпать
Ох, лол.
У тебя рам разогнаная до нестабильности или удроченная просто, может с питальником проблемы.

> а для процев норма на 90 работать.
Нет. Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Хорошая температура не может быть больше 70.
Аноним 09/01/24 Втр 16:58:16 #532 №597494 
Есть 4090 и 13600 и5. Какую модель лучше взять?
Аноним 09/01/24 Втр 16:58:54 #533 №597496 
>>597494
А оперативы сколько?
Аноним 09/01/24 Втр 17:04:37 #534 №597509 
>>597494
С 20 б начни.
Аноним 09/01/24 Втр 17:06:16 #535 №597511 
>>597494
В 4090 влезет yi34 в формате gptq, самая стабильная из умных - yi34v3.
Аноним 09/01/24 Втр 17:09:41 #536 №597514 
>>597511
>лупы и аполоджайзы
холосий луське лаовай, холосий
полусяесь две миска лис от палтия и нейлонный кошкажена
Аноним 09/01/24 Втр 17:12:20 #537 №597522 
>>597511
Наверно не стоит неофиту yi советовать, она очень капризная и может только оттолкнуть. 20б вполне сойдет.
>>597514
> лис от палтия и нейлонный кошкажена
Они плоховато их отыгрывают
Аноним 09/01/24 Втр 17:16:16 #538 №597532 
>>597514
>лупы и аполоджайзы
Они все такие и даже хуже. Но это можно компенсировать выдрачиванием настроек.

>полусяесь две миска лис от палтия и нейлонный кошкажена
Вот бы партия подогнала бы мне пару пеладанов 4090 для кошкожена.

>>597522
>не стоит неофиту yi советовать
Хз, может быть он насвайпает пару охуенных диалогов и захочет больше и больше, а может и оттолкнёт его, да.
Аноним 09/01/24 Втр 17:18:17 #539 №597539 
image.png
image.png
анон-нубасос снова влетает в тред с вопросом.

почему пикрел?
Аноним 09/01/24 Втр 17:22:36 #540 №597546 
>>597539
А ты ворлд инфо в кобальде добавляешь, а генеришь на таверне что ли? Ну и да, глянь ты на вики кобальда как это работает
Аноним 09/01/24 Втр 17:25:43 #541 №597548 
>>597532
>пару пеладанов 4090
почитал.
Интересно. А чё, они только для внутреннего рынка?
Кучеряво живут блин простые китайцы.
Аноним 09/01/24 Втр 17:26:31 #542 №597550 
>>597496
32 гб.
>>597509
А какую именно?
>>597511
Спасибо.
Аноним 09/01/24 Втр 17:29:38 #543 №597552 
>>597548
>А чё, они только для внутреннего рынка?
Вроде бы они какое-то время заполонили алиекспресс и таобао.

>Кучеряво живут блин простые китайцы.
Как бы сказать. Там чипы из под пола или со сгоревших карт.
Это как хуанан, мощно, но для ценителей иногда надо поебаться с этими платами.
Аноним 09/01/24 Втр 17:31:04 #544 №597553 
>>597548
Что кучерявого в оверпрайснутой турбинной версии? Офк кроме удобного размещения рядом друг с другом.
>>597550 - >>597199
Аноним 09/01/24 Втр 17:55:49 #545 №597566 
>>597550
> 32 гб.
Эх, на 70б не хватит.

Крч, тогда используй MLewd-ReMM-L2-Chat-20B в гптq на exllama2 или как анон выше говорил юйка и её файнтюны 34б 4бита в гптq должны залезть в 24 гига по типу deepsex-34b-GPTQ_gptq-4bit. Кста, сама yi-34B-v3 у меня в гптq шизила.
Аноним 09/01/24 Втр 18:01:31 #546 №597576 
>>597566
Типа в gguf было норм? Какой квант пробовал? Можно офк проверить, но обычно происходят наоборот с жорой проблемы. v3 gptq в ролплее не шизила и отвечала адекватно-уместно знатно она юзера может приложить, прям ультит, но склонна к лупам.
Аноним 09/01/24 Втр 18:02:04 #547 №597577 
изображение.png
>>597566
>MLewd-ReMM-L2-Chat-20B
А как понять, в чем разница этих буков? Тут полно версий же.
Аноним 09/01/24 Втр 18:02:52 #548 №597582 
>>597576
Че за yi v3? Базовая, даже не файнтюн и dpo?
Аноним 09/01/24 Втр 18:05:43 #549 №597586 
>>597577
Чем больше цифра тем качественнее, тебе и 5km-6к хватит, можешь хоть 8q скачать, если память есть и не против более медленной но чуть более качественной генерации
Аноним 09/01/24 Втр 18:05:47 #550 №597587 
>>597577
Методы сжатия весов с потерей данных.
Чем больше буква и размер файла тем умнее нейросеть и лучше её словарный запас.
Зависимость перплексити от весов нелинейная: разница между Q2_k и Q3_K_M аххуеть какая большая, а вот между 6 и 8 уже почти не заметно.
Аноним 09/01/24 Втр 18:24:28 #551 №597617 
>>597577
По буквам уже пояснили, с норм контекстом в 24гб поместится только q3km q4ks, может больше. При этом они вполне юзабельны а не лоботомированы. Gptq более качественный будет, можно самостоятельно в ~6бит exl2 квантануть или найти готовую, они с 8к контекста в 24 помещаются.
>>597582
https://huggingface.co/TheBloke/yi-34B-v3-GPTQ
Аноним 09/01/24 Втр 18:24:48 #552 №597618 
>>597576
Гуф не пробовал, только gptq.
>Какой
yi-34B-v3-GPTQ_gptq-4bit-128g
Аноним 09/01/24 Втр 18:29:23 #553 №597628 
>>597618
Кажется качал 32 группы, но это не точно. Она сама по себе несколько припезднутая, сложных чаров смогла отыграть, а кумбота порядочную девочку с намеком на левд - нет. Имплаит какую-то хуету и навязчивые идеи.
Аноним 09/01/24 Втр 18:35:05 #554 №597642 
>>597617
А что у нее по ответам? Чем лучше той же Nous-Hermes-2-Yi-34B? Допускаю что ноус соевый, но он вроде и умный заодно. v3 чем лучше то, сои нет?
Аноним 09/01/24 Втр 18:52:27 #555 №597689 
Хрена вы накотали. Это из-за цензуры на хайгинфейсе?

Короче ПЕРЕКАТ

>>597686 (OP)


>>597686 (OP)
Аноним 09/01/24 Втр 20:58:07 #556 №598039 
>>597487
> У тебя рам разогнаная до нестабильности или удроченная просто
Ты видимо никогда не видел нормальную DDR5, оверклокеры даже воду на плашки ставят, чтоб брать частоты повыше. Если при 45 разогнанная память стабильная, то на 60 уже будет сыпаться. Либо конечно можно сидеть на ватных XMP.
> Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Вот это точно лол. Потому что какой-нибудь 13900 в стоке под воздухом будет троттлить, так же как и амуда 7900Х. Под водой с трёхсекционкой сможешь их около 90 держать. Под полной нагрузкой только мобильные чипы при 70-80 градусах будут работать.
Аноним 09/01/24 Втр 22:29:22 #557 №598330 
>>598039
>нормальную DDR5
>при 45 разогнанная память стабильная, то на 60 уже будет сыпаться
Спасибо, проорал немного с современных железок.
>>>598039
> Потому что какой-нибудь 13900 в стоке под воздухом будет троттлить, так же как и амуда 7900Х.
>Под водой с трёхсекционкой сможешь их около 90 держать.
>Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Нахуй так жить.... Спасибо за инфу.
Аноним 10/01/24 Срд 00:17:47 #558 №598490 
изображение.png
>>598039
>чтоб брать частоты повыше
Спасибо Лизе за то, что выше 6 кеков не нужно.
>амуда 7900Х. Под водой с трёхсекционкой сможешь их около 90 держать
Парочка волшебных настроек, и говно пикрил выше 80-ти гнать не будет.
Аноним 10/01/24 Срд 10:07:17 #559 №598950 
Пасаны я такой кумпромт придумал охуеть. Теперь сижу как лесополосный в пятницу ногой трясу, страсть как хочется добраться до дома и сетей. Почему-то лучшие промты приходят перед сном прямо, я даже записку в телефоне завел под них чтобы не забывать.
Аноним 11/01/24 Чтв 05:48:50 #560 №601161 
image.png
Мейды-хуейды... Понаклипают сортов порно-рп говна, обязательно с прикреплёнными анимешными девочками в описании для привлечения виабуговна малолетнего и радуются, а король как сидел на троне так и сидит уже который месяц.
Аноним 14/01/24 Вск 03:07:15 #561 №608494 
Ботоводам Сап. Вкатился недавно, скачал всё по вашим гайдам. Но вот дела какие:
Модель которую я скачал (из гайда) отвечает мне "привет и тебе" на мой привет примерно минуты 3.
При этом у меня 3060ti, 16гб очень быстрой озу и i510400.
Я что-то делаю не так или это норма на моём конфиге?
Аноним 14/01/24 Вск 11:32:56 #562 №608673 
>>608494
Нет, первое сообщение он может подлагнуть, просчитывая БЛАС, но это занимает секунд десять, а последующие сообщения вообще мгновенные. Юзаешь кобольд? Моделька фроствинд? Какое квантование? Какой BLAS выбрал, не openBLAS, надеюсь? Дровишки на видимокарту обновил?
Аноним 25/01/24 Чтв 17:00:09 #563 №625762 
image.png
я тупой и только пытаюсь вкатиться так что сильно не обоссывайте.
из всего многообразия ии я немного потыкал в дворника и еще посидел на эроген аи. к слову он мне и зашел больше всего. развернув подобную хуету у себя на пеке я смогу получить что то +- похожее? ну и где брать персов и как это вообще работает
Аноним 25/01/24 Чтв 17:14:31 #564 №625776 
image.png
>>625762
на удивление я справился только есть пару вопросов.
1. при генерации ответа он грузит цп ровно до 70% можно как то отдать ему больше ресурсов?
2. я даже хз как сформульровать внятно. как превратить этот ии в няшную милфу?
Аноним 08/03/24 Птн 02:16:23 #565 №664139 
3
Аноним 12/04/24 Птн 17:54:02 #566 №701765 
>>592177 (OP)
https://lmstudio.ai/
comments powered by Disqus

Отзывы и предложения