Сохранен 509
https://2ch.hk/ai/res/597686.html
24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №36 /llama/

 Аноним 09/01/24 Втр 18:51:42 #1 №597686 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
17045391425820.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>592177 (OP)
>>583852 (OP)
Аноним 09/01/24 Втр 19:21:37 #2 №597735 
>>597642 →
Хз, гермеса не пробовал, но, пожалуй, стоит. В прошлом треде шизопаста про впечатления от них в целом.
Соя - можно словить жалобы на несправедливость от недовольного персонажа, которые напоминают соевые проповеди. Графомания несколько специфична, но, возможно просто отвык от такой, потому заходит норм.
В левдсах пытается вести себя в соответствии с персонажем, соевой шизы типа >>594020 → не замечено, вроде адекватный баланс согласия-отыгрыша. Но просто кумить на ней - хз, длинный рп с переходом в кум нужно пробовать.
По жестокости - вроде норм. Если попросить ooc - описывает детально. Словил уместный дед-энд на 2м ответе на "сложной карточке", что уже достижение. Просто поговорить с ней интересно и всякий NSLF хорошо отыгрывает, офк свайпы потребуются. На застаивается иногда, в этот момент можно подмахнуть синтию 34, которая таким не страдает, а когда продвинется - переключить обратно. По контексту хз, до 8к ок. По уму - рандомайзер, иногда соображает слишком хорошо что даже не верится, иногда фейлит на ровном месте.
Попробуй, как топовая модель не катит, но разнообразие точно даст. Айроборос 70 чуть напоминает, только с шизой.
Аноним 09/01/24 Втр 19:23:09 #3 №597741 
1550018000260.png
>>597735
Отклеилось
Аноним 09/01/24 Втр 19:35:42 #4 №597773 
>>597735
Благодарю за обзор, анон
Аноним 09/01/24 Втр 19:37:46 #5 №597777 
.png
.png
>>597741
Аноним 09/01/24 Втр 19:40:40 #6 №597785 
>>597777
@AND ENJOY THE REST OF YOUR DAY!
звучит угрожающе вообще
Аноним 09/01/24 Втр 19:49:27 #7 №597813 
Аноны, поделитесь охренительными историями: удавалось ли полноценно подрочить на общение с нейро-вайфу и чем вам запомнилась самая удачная такая "переписка".

Хочу вдохновиться, чтобы улучшить свою нейро-вайфу.
Аноним 09/01/24 Втр 19:58:52 #8 №597835 
Попробовал микстраль 8x7B, разочаровался. В 8ГБ врам влезает аж целых 3 слоя из 33, генерирует в среднем чуть быстрее 20B, но промпт обрабатывает очень медленно, чем сливает на дно всю скорость. Пишет сухо и однообразно, различия между температурами от 0.5 до 1.4 с лупой надо искать. Русский вроде понимает, отвечает на нём неохотно, не всегда даже выполняет просьбу прямым текстом. Переводить кое-как умеет, но хуже фроствинда, на уровне машинного перевода лет 5-10 назад - слишком дословно, без художественности, как будто тупо по словарю, причём часто не улавливает контекст и берёт не те слова. Впрочем, "piss standing without hands" на месте. Интеллект, может быть, местами на полшишечки лучше фроствинда, и то скорее за счёт того, что расписывает подробнее, чем сам себе немного помогает рассуждать. С задачкой про Колю и Толю из прошлого треда справился наполовину, расположил всех по комнатам корректно, но откуда-то нарпидумывал, кто играет, а кто нет. Собакен в процессе рассуждений был выписан из собакенов и записан в дети, в финальном ответе цифры сошлись, сетка его не посчитала, но только потому, что он не играл, а не потому, что он не относился к "детям". Каждое второе сообщение аполоджайзит, напоминает что он всего лишь аи модел и его переводы/ответы могут быть неточными. В ролеплее графоманит, льёт воду, большие развёрнутые предложения с кучей описаний, но опять без души, формальностью и сухостью отдаёт даже в отыгрыше максимально неформальной ситуации.
>>597689 →
>цензуры на хайгинфейсе
О чём речь?
Аноним 09/01/24 Втр 19:59:35 #9 №597841 
>>597813
Да, нейрокум с ллм бывает предпочтительнее чем другой порно-контент, если есть хоть немного воображения.
> чтобы улучшить свою нейро-вайфу
Свои фетиши, свой любимый типаж, действуешь как хочешь. Чтобы не приедалось - меняй контекст и сеттинг, или просто юзай разные карточки что нравятся, юзай не кумботов и с лором или каким-то челленжем. За этим лучше в соседний тред, у них тем более грусть-печаль и нечем заняться.
Аноним 09/01/24 Втр 20:02:20 #10 №597853 
>>597841
>Да, нейрокум с ллм бывает предпочтительнее чем другой порно-контент, если есть хоть немного воображения.
давеча пробовал заставить сетку отыграть гигантского таракана..... вышло не очень. От собаки он отличался только тем, что она писала "мандибулы" вместо "челюсти\пасть". Может модель надо покруче взять.... я хз. Пробовал это еще на пивоте до того, как p40 пришли.
Аноним 09/01/24 Втр 20:03:48 #11 №597858 
>>597835
>О чём речь?
У них там все прокси снесли с обниморды, второй тред ноют.
Аноним 09/01/24 Втр 20:05:19 #12 №597862 
>>597853
Спасибо, анон, несколько дней смогу радоваться что я психически здоров и вполне себе нормален.
Аноним 09/01/24 Втр 20:05:58 #13 №597864 
>>597853
Думаю теперь сделать карточку с сеткой которая отыгрывает камень. Увлекательное наверно будет чтиво
Аноним 09/01/24 Втр 20:09:27 #14 №597874 
>>597841
>За этим лучше в соседний тред
Это какой?
Аноним 09/01/24 Втр 20:13:58 #15 №597891 
>>597841
>Свои фетиши, свой любимый типаж
Наверное это будет высшее проявление лени и творческой импотенции если я попрошу нейросеть набросать описание вайфу по типажу, вместо того чтобы стараться самому...
Аноним 09/01/24 Втр 20:14:03 #16 №597892 
image.png
>>597862
это я еще до покемонов не дошел.
А там потом еще дигимоны есть, но они больше в сторону anthro.
Вапореон - это уже классика. Попробуй и ты, тебе понравится.
Аноним 09/01/24 Втр 20:15:11 #17 №597898 
image.png
Заебато, осталось только сунуть это в карточку промптом. Угадай сетку
Аноним 09/01/24 Втр 20:18:03 #18 №597909 
>>597891
Всегда так делаю, у меня есть карточка писатель, которая умеет делать карточки по запросу

>>597874
https://2ch.hk/ai/res/596986.html наверное
Аноним 09/01/24 Втр 20:22:29 #19 №597917 
Анончики, поясните пожалуйста, на что влияет изменение количества экспертов на токен? Вижу что время генерации увеличивается, но всё таки? Какое число оптимально?
Аноним 09/01/24 Втр 20:22:53 #20 №597918 
>>597874
>>594788 (OP)

>>597891
Можно оправдаться что ты просто прошаренный оператор ллм, умело использующий эффективный инструмент, и экономящий свое время. Плюс добавляет щепотку неизвестности.
Вообще использование сетко для составление карточек - норм тема, главное не хуярить оголтелую графоманию без содержания, как иногда бывает. Стиль карточки влияет на разговор персонажа и может сбивать сеть с толка.
>>597892
Как бы не было рофлово, их в датасетах немало и с ними получится с большей вероятностью чем с тараканом.
> Попробуй
Не, кадлинга с not f. at all пока хватает.
Аноним 09/01/24 Втр 20:26:42 #21 №597925 
>>597835
>различия между температурами
Алсо, забыл упомянуть, от температуры он заметно тупеет, но при этом в стилистике почти не меняется, вот в чём самый прикол.
Аноним 09/01/24 Втр 20:43:15 #22 №597974 
>>597835
Я тоже пробовал 8x7B, впечатления примерно такие же. По сравнению с моим любимым 13b пишет немного более графомански, и если бы работал так же быстро, как 13b, или даже как 20b я бы на него возможно перешел как на основную сетку, но с зависанием на полторы-две минуты это совершенно невозможно.
Аноним 09/01/24 Втр 20:44:36 #23 №597978 
>>597864
Уже есть ультимативный булыжник: https://chub.ai/characters/BirdyToe/rock-16109c56
Бэкстори на 2к токенов, 15 приветственных сообщений.
Аноним 09/01/24 Втр 20:46:35 #24 №597982 
Дайте советов годных, как разбавить сухость сообщений 7б. Какой пресет семплеров выбрать в Таверне? Каждый раз бота простить нужно писать детальнее.
Аноним 09/01/24 Втр 20:46:48 #25 №597984 
>>597898
Для русского наверно даже хорошо. 13б что говорили знает великий-могучий так складно ниасилит, наверно, что-то большое?
Аноним 09/01/24 Втр 20:48:23 #26 №597993 
Screenshot20240109204756.png
>>597978
оууу маай......
это мы пробуем
Аноним 09/01/24 Втр 20:50:41 #27 №598004 
image.png
>>597978
забрал

>>597984
Там гуглоперевод, сетка на английском написала. Это просто фроствинд

>>597993
Теперь и я чувствую себя психически здоровым
Аноним 09/01/24 Втр 20:53:10 #28 №598020 
>>598004
>Теперь и я чувствую себя психически здоровым
Да шош вы такие нормисы....
Уже открыли для себя в рп существование поз кроме миссионерской?
Аноним 09/01/24 Втр 20:54:25 #29 №598027 
>>598020
насекомые фе
Аноним 09/01/24 Втр 20:57:32 #30 №598037 
>>598004
Чтож ты так дезориентируешь то. В целом норм, которая из шапки? Когда пробовал она прям старалась.
>>598020
Да ладно, первое вообще без осуждения было. А выбор поз в рп, с учетом особенностей персонажа это база.
Аноним 09/01/24 Втр 21:01:27 #31 №598054 
>>598037
>Чтож ты так дезориентируешь то. В целом норм, которая из шапки? Когда пробовал она прям старалась.
Ну, я думал понятно что так гладко на русском только 70b может и сможет. Не знаю сетки меньше которая так умеет.
Из шапки фроствинд, действительно хороша.
Аноним 09/01/24 Втр 21:02:57 #32 №598058 
.png
Бля, а что если взять какого-нить строптивого персонажа, который сходу готов захуярить {{user}}, довести до кекса, а потом начать новый чат и типа сразу показать этому персонажу "воспоминания из параллельного мира" где был кекс через контрл ц-в?
Аноним 09/01/24 Втр 21:06:26 #33 №598068 
>>598058
Ты можешь просто сказать "вот фото персонажа, делающего глупости с пользователем", без написания прошлого чата
Аноним 09/01/24 Втр 21:07:12 #34 №598069 
>>598058
Можешь сделать это не начиная новый чат, а расписав в (OOC:) вводную, что все стартует с начала а персонаж просыпается от иллюзии помня ее, или прямо в посте добавив разметку инструкций.
Если просто вставишь всю историю в чат то модель, воспримет это именно как то что произошло, и просто продолжит, проигнорив небольшую поломку форматирования. Если правильно оформишь и дашь только часть с кексом, то должно сработать, попробуй.
Аноним 09/01/24 Втр 21:08:43 #35 №598073 
>>598069
> в (OOC:)
Что это значит?
Аноним 09/01/24 Втр 21:08:55 #36 №598075 
>>598068
Не, так не интересно, наёбка какая то же получается.

>>598069
> всю историю
Так суть именно не во всей истории, а во фрагменте.
>(OOC:)
А локальные модели разве поведутся на это? Я прост ни разу не пробовал обращаться через ООС.
Аноним 09/01/24 Втр 21:10:31 #37 №598083 
>>598075
>>598069
Как вобще оос использовать? Тупо написать (OOC:) и после свои слова сетке? Так что бы она отвечала на них как сетка, а не как карточка которую она отыгрывает?
Аноним 09/01/24 Втр 21:14:40 #38 №598099 
У кого фростфвинд хорошо пишет, скиньте свои настройки, у меня рпшит оче сухо и иногда тупит.
Аноним 09/01/24 Втр 21:16:38 #39 №598108 
>>598083
OOC используется, когда надо во время рп обратиться к напрямую к сетке и заставить ее что-то сделать, например повернуть сюжет как тебе надо.
Аноним 09/01/24 Втр 21:17:42 #40 №598113 
>>598073
out of context, пишешь сетке что ты от нее хочешь, даешь пожелания или конкретные инструкции. Можно дать как предпочтения к следующему ответу, так и пожелание в целом, или долгосрочную цель к которой должен придти сюжет.
>>598075
> А локальные модели разве поведутся на это?
Нормальные - еще как.
>>598083
> обнимаешь девочку Отведешь меня в свою деревню? (ooc: когда она отведет тебя к ней домой ее мамка-старейшина встретит вас благосклонно, а потом попытается соблазнить)
> "Ты че, сука, ахуел, тоби пизда" (OOC: Начинается драка в которой гг обязательно должен получить тяжелые ранения)
> "Можно погладить твой пушистый хвост?" (ooc: описывай все в подробный деталях, начни с окружения и плавно перейди на взаимодействия)
> (ooc: Чар просыпается, он жив и здоров. Придумай как это обставить чтобы переход был логичный и плавный.)
Даже самые глупые 7б их воспринимали как что-то другое и не пытались отвечать. Лучше не злоупотреблять и не спамить ими.
Аноним 09/01/24 Втр 21:17:55 #41 №598114 
>>598083
Если ты про то, как использовать, то пишешь ((OOC: Do this and this)) с двумя или с одной парой скобок.
Аноним 09/01/24 Втр 21:18:28 #42 №598117 
>>598108
>напрямую к сетке
фикс
Аноним 09/01/24 Втр 21:20:59 #43 №598127 
>>598114
>Если ты про то, как использовать,
Ага, вот это было не понятно
Аноним 09/01/24 Втр 21:27:21 #44 №598145 
image.png
>>598099
нихуя нет, но надо будет повторов немного добавить, а то лупается иногда на определенный стиль ответа
Аноним 09/01/24 Втр 21:32:55 #45 №598164 
>>598145
> рекомендованная
Кто рекомендовал?
Аноним 09/01/24 Втр 21:35:48 #46 №598174 
>>598164
На реддите один писал че как по мин-п, автор может или кто то в теме , хз.
Просто слямзил оттуда, но у него повторы были настроены, я их снес щас, добавляю их только когда лупы появляются
Ссылки не дам, не сохранил
Аноним 09/01/24 Втр 21:38:22 #47 №598181 
>>597891
У меня кстати есть карточка в таверне, которая таких персов импрувит. Задаешь какого-то перса тегами и загружаешь, иногда неплохо получается.
Аноним 09/01/24 Втр 21:42:25 #48 №598190 
>>598099
А, да. Выруби инструкт режим, без него лучше отвечает. Ну или используй альпака, хотя я без него сижу
Аноним 09/01/24 Втр 21:43:03 #49 №598194 
>>598174
Если сразу ставить 1.1-1.15 то они не появляться и выдача будет разнообразнее. Исключение - кодинг или специфичные задачи.
>>598181
Удобно делать это через дефолт нотбук в убабуге. Там можно и тюнить инструкцию с пожеланиями и описанием, и перефразировать на "добавь вот сюда вот это", править по месту и использовать кнопку продолжения.
Аноним 09/01/24 Втр 21:43:24 #50 №598197 
>>598174
У тебя таверна какой версии? А то у меня чуть больше ползунков имеется.
Аноним 09/01/24 Втр 21:46:00 #51 №598202 
>>598197
SillyTavern-1.10.9
Давно не обновлял кстати, но пока работает мне пофигу

>>598194
>Если сразу ставить 1.1-1.15 то они не появляться и выдача будет разнообразнее. Исключение - кодинг или специфичные задачи.
Сразу лучше не ставить, так как повторы это крайняя мера, лучше использовать только тогда когда заметил лупы
Аноним 09/01/24 Втр 21:48:34 #52 №598216 
>>598202
Попрошу аргументировать.
Аноним 09/01/24 Втр 21:48:51 #53 №598218 
Посоветуйте модельку которая умеет в RU для написания куминг сторис по тематикам, с меня как обычно нихуя, спасибо
Аноним 09/01/24 Втр 21:51:56 #54 №598229 
https://www.reddit.com/r/LocalLLaMA/comments/1927ge4/soaring_from_4k_to_400k_extending_llms_context/
Еще одна работа по расширению контекста
Аноним 09/01/24 Втр 21:54:31 #55 №598232 
>>598216
Повторы тупо вешают штраф на токены, даже тогда когда сетке нормально использовать одни и те же токены в ответах
Хотеть что бы сетка каждый раз извращалась говоря одно и тоже разными словами - растрачивать ее возможности на хуйню
Вот если это вылазит за пределы нормального, когда ты определяешь это как луп - тогда стирай лупы и вешай штрафы
По крайней мере я делаю так, мне норм
Аноним 09/01/24 Втр 21:55:26 #56 №598235 
.png
>>598218
Нахуя тебе именно RU, если можно врубить переводчик в силлетаверне? Это будет не хуже чем ломаный русский нативно на любой модели, а тут еще и сможешь православно-кумеровскую модель врубить и не ебстись.
Аноним 09/01/24 Втр 21:58:56 #57 №598251 
>>598235
Посоветуй пожалуйста какую модель использовать, я скачал угабугу и думал туда загрузить модельку или это шлак? Имеется предтоп 40 серии, наведи меня на истинную дорогу анончик
Аноним 09/01/24 Втр 22:00:41 #58 №598260 
>>598251
Оперативы сколько?
Аноним 09/01/24 Втр 22:04:19 #59 №598274 
>>598260
32gb
12gb vram
Аноним 09/01/24 Втр 22:06:46 #60 №598281 
>>598218
Несколько опций у тебя. Учи инглиш, настраивай перевод, или имей много врам. Если скилловый - можешь сделать перевод с помощью отдельного запроса нейронке, или другой модели. Сразу напишет ответ на русском только то что не поместится в 12 гигов, и то он будет такой себе.
>>598232
Оно штрафует не настолько жестко, и если сетка посчитает токен верным - его вероятность будет достаточна чтобы преодолеть штраф. Модели и так приходится извращаться из-за рандома на маловероятные токены из выдачи, если она не говнище то проблем никаких не создаст. Когда текст сам по себе разнообразен, штраф не наступает, когда монотонный - штраф поможет разнообразить.
Когда лупы уже начались, это значит что сетка уже усвоила паттерн как правило и повторяет его. Штраф придется задирать высоко и он будет малоэффективен, потому что модели сложнее будет свернуть с пути, что считает единственно верным.
> тогда стирай лупы
Так можно и в блокноте рпшить. Штраф избегать ситуаций, которые придется исправлять, и не создает проблем.
Аноним 09/01/24 Втр 22:10:54 #61 №598292 
>>598274
>предтоп 40 серии
12gb, мне казалось на 4080 16 гигов ну да ладно.
Ну а так че, качай еще силлитаверну (чтоб перевод был), врубай API в огабоге.
А насчет моделей - если использовать что пожирнее (учитывая что у тебя микроврам ха-ха) то это gguf платина по типу MLewd-ReMM-L2-Chat-20B или deepsex-34b и прочие 34b yi файнтюны - для начала. Дальше уже сам найдешь на что пипис лучше стоит. Надеюсь как выгружать слои в видимопамять для ускорения ты разберешься там один ползунок в llamacpp - ничего сложного нет.
Аноним 09/01/24 Втр 22:11:02 #62 №598293 
>>598281
Да инглиш знаю, просто у меня от родной речи кум скейлится, хочется фильм балобанова с порно сюжетом, а не bangbros
Аноним 09/01/24 Втр 22:14:01 #63 №598296 
>>598292
Спасибо за уделенное время, пойку писис калибровать, как я понял силлитаверн эту морда, которую можно подсосать из огабоге, два чая тебе анончик, ластецкий вопрос gptq для меня не доступен, не актуален, залупа? Смотреть стоит только в сторону gguf?
Аноним 09/01/24 Втр 22:17:23 #64 №598307 
>>598296
> gptq для меня не доступен, не актуален, залупа
Для 10.7б доступен, больше не влезет нормально.
Аноним 09/01/24 Втр 22:22:46 #65 №598311 
>>598296
> из огабоге
В огабоге ты загружаешь гуф модель, впихиваешь сколько то слоёв в ВРАМ чтоб быстрее было, смотри только чтоб гига 4 оставалось свободным - его контекст пожрет - так что в притык не грузи. Там в консоле будет написано сколько сожрется видимопамяти. Еще в новых версиях огабоги добавили прикольную галочку tensorcores - нахуя не ясно, учитывая что и раньше без неё все работало, не забудь про неё крч. В настройках включаешь галочку API и подсасываешься к силлитаверне. В силлитаверне тоже есть много крутилок, но для начала хватит и дефолта - как поймешь что что-то не так, а это рано или поздно случится, можешь начинать в них разбираться. Главное чтобы ролеплей в большой букве А был включен, лел.
А насчет гптq - да, памяти маловато будет, только всякие уже совсем микромодели грузить. Но нихуя, считай промениваешь скорость на головастость. Я вон сам не использую мелкие модели, а ем кактус в виде скорости в 1.7 итсов на 70b, зато с умом.
Аноним 09/01/24 Втр 22:22:53 #66 №598312 
>>598307
Я в моменте качал https://huggingface.co/TheBloke/Wizard-Vicuna-13B-Uncensored-SuperHOT-8K-GPTQ и оно работает очень быстро? Я какой то параметр проебал?
Аноним 09/01/24 Втр 22:26:38 #67 №598323 
Чем ебнуть таверну что бы она не открывалась в браузере при запуске?
Аноним 09/01/24 Втр 22:27:02 #68 №598324 
>>598312
Честно не помню, был положняк что 13б в 12 гигов помещается на грани. Хотя сейчас оптимизаций много завезло, возможно 13б с 8к контекстом очень даже поместится, но 20б уже без шансов и там придется делить, а делить - только gguf и llamacpp. Сами по себе они ощутиме медленнее экслламы и gptq при полной выгрузке на гпу и жрут больше памяти, но зато позволяет сплитить между гпу и цп.
Аноним 09/01/24 Втр 22:34:28 #69 №598340 
>>598296
На самом деле плевать на скорость, если она выше твоей скорости чтения.
Если тебе 5 т/с будет норм то можешь и тяжелые сетки крутить выгружая их на процессор используя ггуф формат.
34b, старые 33B, mixtral 8x7b и тд.
Аноним 09/01/24 Втр 22:36:02 #70 №598344 
>>598340
> на выше твоей скорости чтения.
Потоковый перевод, однако, в силлитаверне еще не завезли.
Аноним 09/01/24 Втр 22:36:59 #71 №598346 
>>598344
Я имел ввиду английский, но ладно. Для русского да, надо ждать
Аноним 09/01/24 Втр 22:40:57 #72 №598353 
Как же хочется лламу 3.
Аноним 09/01/24 Втр 22:45:16 #73 №598358 
>>598353
Если и выпустят она будет мега соевая, я думаю она уже готова давно, сейчас ее пичкают соей и цензурой всеми способами что найдут
Аноним 09/01/24 Втр 22:46:34 #74 №598362 
>>598358
Развратят и дообучат
мимо
Аноним 09/01/24 Втр 23:01:06 #75 №598388 
image.png
будь как камень
Аноним 09/01/24 Втр 23:03:32 #76 №598391 
.png
Я тоже камень получается?
Аноним 09/01/24 Втр 23:07:39 #77 №598396 
>>598391
камень гигачад, будь как камень
Аноним 09/01/24 Втр 23:09:19 #78 №598399 
image.png
gigachad.jpg
сорян
Аноним 09/01/24 Втр 23:11:01 #79 №598402 
>>597917
>на что влияет изменение количества экспертов на токен
На число экспертов, всегда ваш КО. Чем больше, тем лучше и медленнее.
>>597982
Миростат и минп вестимо.
>>598020
>Уже открыли для себя в рп существование поз кроме миссионерской?
Сетки не вывозят другие позы.
>>598083
>Так что бы она отвечала на них как сетка, а не как карточка которую она отыгрывает?
Так и пиши, отвечай в OOC. Пару раз и сетка подхватывает.
>>598229
Они там с цепи сорвались? Всё одно контекст свыше 16к класть некуда.
>>598323
autorun: false
Аноним 09/01/24 Втр 23:16:42 #80 №598409 
>>598402
> Чем больше, тем лучше
Да нихуя, больше 3-4 там уже падение идет и от вопроса зависит.
> Сетки не вывозят другие позы
7б?
Аноним 09/01/24 Втр 23:17:28 #81 №598410 
>>598402
>На число экспертов, всегда ваш КО. Чем больше, тем лучше и медленнее.
Там где то таблица была этих экспертов, 2-3 лучше всего, дальше качество падает.

>Они там с цепи сорвались? Всё одно контекст свыше 16к класть некуда.
Да пиздос. Это я еще несколько исследований пропустил, там еще какие то 2 метода улучшения были, из тех что я сюда не кидали

>autorun: false
Я в server.js уже чет такое нашел и поставил false. Или надо было писать командой при запуске?
Аноним 09/01/24 Втр 23:17:45 #82 №598411 
>>598402
>Сетки не вывозят другие позы.
deepsex? Лол.
Аноним 09/01/24 Втр 23:26:01 #83 №598420 
>>598410
>Там где то таблица была этих экспертов, 2-3 лучше всего, дальше качество падает.
Вспомнил, 3 хороши были на 7b мое, но на больших размерах уже только 2 лучше всего.
Где это щас искать хз, на реддите видел в теме про микстрал на LocalLlama
Аноним 09/01/24 Втр 23:35:50 #84 №598437 
https://www.reddit.com/r/LocalLLaMA/comments/1924vtm/dell_t630_with_4x_tesla_p40_description_in/
куча инфы по запуску, компонентам и скоростям генерации
Аноним 09/01/24 Втр 23:49:43 #85 №598454 
https://www.reddit.com/r/LocalLLaMA/comments/190r59u/long_context_recall_pressure_test_batch_2/
Тесты длины контекстов кучи сеток
Аноним 09/01/24 Втр 23:59:38 #86 №598470 
>>598454
>>598437

> Loading synthia-70b-v1.5.Q5_K_M.gguf
>Output generated in 54.61 seconds (9.38 tokens/s, 512 tokens, context 16, seed 1967541119)

ЕБАТЬ!!!
Аноним 09/01/24 Втр 23:59:42 #87 №598471 
Гуру треда, а как сделать так, чтобы перс не забывал то о чем был разговор и не менял тему очень резко?
Аноним 10/01/24 Срд 00:05:09 #88 №598475 
>>598471
Охлаждай траханье уменьшай температуру и штраф повторений
Аноним 10/01/24 Срд 00:05:58 #89 №598476 
>>598470
И даже трахать, вот моща п40.
Аноним 10/01/24 Срд 00:06:25 #90 №598477 
>>598470
вспомни еще про селф екстенд который даст тебе 16к контекста на ЛЮБОМ трансформере, даже 70b А может быть и больше 16
Аноним 10/01/24 Срд 00:09:50 #91 №598481 
По тестам контекста, из локалок, dolphin-2.7-mixtral-8x7b топчик до 32к

А это сетка для ценителей от унди
https://huggingface.co/TheBloke/Unholy-v2-13B-GGUF
Аноним 10/01/24 Срд 00:13:01 #92 №598484 
>>598475
Поставил бугу и играюсь, но настроек дохуя, аж мозг плывет, как будет лучше поставить silly tavern standalone или подключить через api к буге? Полчается силли будет контролить бугу игнорируя настройки, которые записаны в text-gen или крутить придется и там и там?
Аноним 10/01/24 Срд 00:16:05 #93 №598485 
>>598409
>7б?
2T даже четвёртая гопота тупит.
>>598410
>Или надо было писать командой при запуске?
В config.yaml же, нахуя править скрипты?
>>598470
>context 16
Без контекста и я могу. Сколько на 8к будет?
Аноним 10/01/24 Срд 00:17:33 #94 №598488 
image.png
image.png
читаю на реддите про alpha factor и rope
https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/
нельзя не заметить, что возрастание градуса чуши идет экспоненциально после определенного порога.
Есть что-то кроме yi, умеющее работать с конским контекстом, но без сои?
Аноним 10/01/24 Срд 00:21:10 #95 №598494 
>>598470
Как они этого добились, интересно, это быстрее чем на одной карте 34б. Офк без контекста, но даже с нулевым много.
>>598471
Так должно быть по дефолту если прописан персонаж и сценарий. По дефолту в убабуге в чате, может спрашивать "чем еще могу помочь" или про другое говорить. Если есть промт с сеттингом то будет рпшить уместно. Да, yi может и просто так шизить.
>>598485
Это называется "разрешите доебаться". Любая модель косячит, но это редкость.
>>598488
> после определенного порога
Не превышай порог, а хочешь превысить - поменяй альфу чтобы его отодвинуть. Все.
Есть YARN файнтюны и прочее с 64+к "нативных", древность llong~ и подобные. Задача какая?
Аноним 10/01/24 Срд 00:22:59 #96 №598499 
изображение.png
>>598488
Человечеству нужна динамическая ропа, чтобы не сосать на малых контекстах.
Аноним 10/01/24 Срд 00:24:56 #97 №598501 
>>598499
Запускаешь с малой ропой, доходишь до лимита, перезапускаешь с большой. Вот тебе и динамическая ропа, ололо.
Аноним 10/01/24 Срд 00:26:45 #98 №598505 
>>598485
>В config.yaml же, нахуя править скрипты?
Бля, теперь нашел
Аноним 10/01/24 Срд 00:37:28 #99 №598527 
>>598501
> доходишь до лимита, перезапускаешь с большой.
Сколько придётся ждать перезагрузки с большим контекстом...
Аноним 10/01/24 Срд 00:39:33 #100 №598532 
>>598527
> model loaded in 19.3 seconds
И это большая.
Аноним 10/01/24 Срд 00:41:44 #101 №598535 
>>598532
Какая у тебя хорошая видеокарта. На проце надо ждать пока сетка перечитает 4к токенов со скоростью 3.
Аноним 10/01/24 Срд 00:50:49 #102 №598540 
>>598535
Jedem das Seine, подожди или загружай сразу в удвоенном контексте, там разница незначительна.
Аноним 10/01/24 Срд 01:06:13 #103 №598560 
>>597835
А что, Микстраль научилась работать с видяхами в принципе? :) Раньше она на них даже замедлялась иногда.
Ее юзают не выгружая, здрасьте.
Вы не умеете ее готовить, короче.

Да где вы в Микстрали аполоджайзы ловите, я ей че не пихал — она на все была готова с каменным лицом.

Она не для ролеплея, так что весь обзор целиком мимо.

>>597892
Лиллимон, любимая.

>>598073
>>598113
Out of character, вообще-то.
Это значит, что данный текст — просто информация, не являющаяся словами или мыслями кого-либо из участников.
Ну или просто оффтопик игрока, а не слова его персонажа.
Перед ролеплеем-то базу знать надо!

>>598083
Хз, у меня работало прекрасно, почти все модельки это понимали как надо.

>>598235
Ну, некоторые модельки-то будут получше гугла, заметно так получше.

>>598402
> контекст свыше 16к класть некуда
128 гигов рама тебе зачем дадены? :)
Ну и плюс, вообще-то это для анализа документов, суммаризации книг и т.п., пиздатейшая штука контекст, рп малеха вторично.

———

Так, ладно, короче, у меня тут появился компуктер с RX6600(M, не суть).

Что ета фигнота вообще может? Типа, оффлоадить на нее имеет смысл? Она вообще хоть на что-то способна, или это чисто бомж-гейминг сейчас?
ROCm мимо, это я знаю.
Кобольд или убабуга?
А в стабле она тоже ни на что не способна?

Никогда не игрался с радеонами.
Аноним 10/01/24 Срд 01:09:45 #104 №598568 
на что влияет параметр thread в жоре?
он роляет только при запуске на cpu?
Аноним 10/01/24 Срд 01:10:32 #105 №598570 
>>598560
> Что ета фигнота вообще может? Типа, оффлоадить на нее имеет смысл?
С СЛбластом значительно ускоряет обработку контекста и еле еле - генерацию, так что да, имеет.
Аноним 10/01/24 Срд 01:12:08 #106 №598573 
>>598501
>перезапускаешь
Не хочу ебаться, хочу ебаться.
>>598532
Это скорость загрузки, а не обработки 4-8к контексста.
>>598560
>128 гигов рама тебе зачем дадены? :)
Я бомж с 64 DDR5 (((
>>598568
Число потоков проца, да. Больше 6 не нужно.
Аноним 10/01/24 Срд 01:12:41 #107 №598574 
>>598570
Спасибо, попробую, контекст — хоть что-то.
Аноним 10/01/24 Срд 01:13:32 #108 №598576 
>>598573
> 64 DDR5
Ну… хотя бы быстрее, чем у бомжей с DDR4!
Аноним 10/01/24 Срд 01:13:35 #109 №598578 
>>598573
>Число потоков проца, да. Больше 6 не нужно.
у меня ж две p40
возможно ли сделать два потока на картах?
или оно автоматически раскидывает?
Аноним 10/01/24 Срд 01:14:24 #110 №598579 
>>598573
>Число потоков проца, да. Больше 6 не нужно.
Ну, тут недавно товарищ с ддр5 заявлял что упирается в 8 ядер, так что зависит от твоей системы кмк
Аноним 10/01/24 Срд 01:14:52 #111 №598580 
>>598560
> Она не для ролеплея, так что весь обзор целиком мимо
Любая модель должна выполнять инструкции, в том числе организовывать ролплей с персонажем. Не может - хуета, особенно в простых случаях.
> на все была готова с каменным лицом
Рассказывать от лица портовой шлюхи насколько важно уважать ее права, ага.
> 128 гигов рама тебе зачем дадены? :)
Поехавший
>>598573
> скорость загрузки, а не обработки 4-8к контексста
Увы. Можно пойти чай попить или в треде насрать пока работает.
>>598578
При оффлоаде на фулл гпу проц почти не использует, едва ли этот параметр будет влиять, но попробуй покрутить.
Аноним 10/01/24 Срд 01:17:26 #112 №598581 
А с чего вы решили, что ллама 3 будет опенсорсной? Первую и вторую лламы сделали открытыми из-за слива в паблик, что мешает цуку закрыть лламу 3, как опенаи закрыли гпт 3 после открытой гпт 2?
Аноним 10/01/24 Срд 01:19:27 #113 №598582 
>>598580
>Любая модель должна выполнять инструкции, в том числе организовывать ролплей с персонажем. Не может - хуета, особенно в простых случаях.
Нормально рпшить могут модели минимум 34b, а лучше 70. И желательно хоть небольшой пример рп в датасете во время обучения.
РП для нейросетей это сложна, как игры для компуктера.

>> 128 гигов рама тебе зачем дадены? :)
>Поехавший
Вообще-то база треда, как и p40.
Аноним 10/01/24 Срд 01:21:39 #114 №598584 
Сделал "listen: true", но чет не подключается по вайфаю к таверне. Чяснт? К кобальту подключается.
Аноним 10/01/24 Срд 01:22:46 #115 №598586 
>>598584
дай угадаю - ты на винде?
Аноним 10/01/24 Срд 01:24:27 #116 №598587 
>>598581
Никто не знает, но ЕСЛИ выпустят то скорей всего соевыми. Тоесть базовой по настоящему бозовой модели наверное не увидим. Если что то и будет базовым то это уже что то заранее заряженное отборной соей

>>598586
Ога. Порт открыть что ли? Не помню открывал ли для кобальта, вроде нет
Аноним 10/01/24 Срд 01:25:55 #117 №598588 
>>598587
Если выпустят в попенсорс, то аноны обязательно научат её базе.
Аноним 10/01/24 Срд 01:26:23 #118 №598589 
>>598587
Тогда будем пробивать сою джейлами любезно спизженными из соседнего треда
Аноним 10/01/24 Срд 01:27:27 #119 №598590 
>>598582
Да речь не о том чтобы выдавать суперские речи и идеально понимать юзера, а хотябы норм стараться, как делает тот же солар.
> Вообще-то база треда
Число обладателей п40 сильно выше чем 128гб рам.
>>598584
Выдает уведомление что фок ю или вообще не видит? По дефолту вайтлист ip включен, глянь еще консоль.
>>598581
Отличная платформа для поддержки опенсорса и сбора сливок с него, или обкатки чего-либо. Для продажи уже сделают отдельный продукт. Но из-за тряски с педоистерией и прочей дичью может быть все плохо.
Аноним 10/01/24 Срд 01:27:37 #120 №598591 
>>598588
Зная о dpo могут и не выпустить, или сделать чет такое мерзкое что ничем не пробьешь

>>598589
Слишком тупенькие локалки для таких мощных джейлов, там мало что останется от мозгов после них
Аноним 10/01/24 Срд 01:28:00 #121 №598592 
>>598588
а что по нейронке маска?
Разве он не хотел своё развивать? Ну поделился бы, нет? У него ж были тейки типа "я сзедаю вам базу, не как у этих опенаи". Или он тоже жадный?
Аноним 10/01/24 Срд 01:30:05 #122 №598594 
>>598590
>Выдает уведомление что фок ю или вообще не видит? По дефолту вайтлист ip включен, глянь еще консоль.
Превышено время ожидания, тоесть вобще не видит

>>598592
маск пиздабол и копрорат
Аноним 10/01/24 Срд 01:34:42 #123 №598597 
>>598594
>Превышено время ожидания, тоесть вобще не видит
Может стоит проверить слушается ли вообще порт?
netstat -ano из под администратора консоли.
Аноним 10/01/24 Срд 01:41:04 #124 №598609 
image.png
image.png
>>598597
Оно? В таверне ниче не пишет, кроме
Аноним 10/01/24 Срд 01:41:30 #125 №598610 
>>597835
А ты с каким форматом его запускал?
>>597853
> давеча пробовал заставить сетку отыграть гигантского таракана
Ты случайно карточку эту не сохранил?
Аноним 10/01/24 Срд 01:47:00 #126 №598619 
>>598609
Оно. Прикольно. И с компа с теверной на localhost:8000 заходит?
Попробуй вырубить виндовый фаервол вообще, дальше, на всякий, проверь роутер и затем ебись с настройками таверны.
Аноним 10/01/24 Срд 01:48:13 #127 №598623 
>>598580
> Любая модель должна выполнять инструкции, в том числе организовывать ролплей с персонажем.

В корне нет, есть датасеты, которые подбираются с учетом предназначения.
И Микстраль изначально далека от обсуждения книг и написания текстов (т.е., художественного текста, одной из основ ролевого общения).
Типа, это как открыть учебник и удивляться отсутствию любовных линий.
«Любая книга без секса — хуита!» =)

> уважать ее права
Может скиллишью? У меня она ни о каких правах не заикалась, реально какие-то проблемы с настройкой модели.

>>598581
Мне кажется, ее тут упомянули в значении «тяночку хочется», только хотя бы лламочку-3. А не в том смысле, что все тут ее реально уже ждут завтра на обниморде.

>>598582
> Вообще-то база треда, как и p40.
Так!

>>598590
> Число обладателей п40 сильно выше чем 128гб рам.
Што?
Ну, так-то, 128 гигов стоит 20к-25к, P4 16к-17к, но последние требуют всякие исхищрения с охладом, питальником, ожидания доставки, да и лучше две, чем одна, а оперативку ты можешь просто купить и просто воткнуть в почти любую мать хотя бы среднего уровня (типа пресловутой DS3H), если ты не лоханулся взяв материнку с двумя слотами.
Подозреваю, что как раз обладателей 128 гигов тут больше. =) Их достать вообще не проблема. Вставил и забыл.

>>598592
Один хрен у него фигня вышла. =)
Аноним 10/01/24 Срд 01:50:24 #128 №598626 
>>598619
>И с компа с теверной на localhost:8000 заходит?
Ага
>Попробуй вырубить виндовый фаервол вообще, дальше, на всякий, проверь роутер и затем ебись с настройками таверны.
Окей, спасибо за помощь, анон, поковыряю еще
Аноним 10/01/24 Срд 01:57:49 #129 №598630 
>>598623
Да что ты несешь, пачка из 8 моделей(!), что должны покрывать все области, не может справиться с тем что могут другие потому что "это не ее предназначение". Еще и перевираешь до абсурда, поехавший.
> 128 гигов стоит 20к-25к
> Подозреваю, что как раз обладателей 128 гигов тут больше
Некрозеонщиков тоже тут мало и больше нищуки а не энтузиасты, на лищнюю рам не раскошелятся ибо просто так не нужна. На юзер платформах 64 уже дохуя считается, на ддр5 это приносит страдания любителям разгона. 2.5 человека не наберется. И главное - столько нахуй не сдалось для 16к контекста ллм.
Аноним 10/01/24 Срд 01:59:55 #130 №598635 
>>598619
Да, при отключениями таверна увидела, да и браузер увидел, про белый лист написал.
Ну короче затыка найдена, буду порт открывать.
Аноним 10/01/24 Срд 02:06:34 #131 №598640 
>>598584
у тебя должен быть файл whitelist.txt (создай если нет). туда впиши айпи девайса, с которого хочешь подключиться.
Аноним 10/01/24 Срд 02:07:58 #132 №598641 
>>598640
Тащемта вайтлист настраивается прямо в конфиге, сегодня прописывал телефон в таверне.
Аноним 10/01/24 Срд 02:09:03 #133 №598643 
>>598640
Да, я в ямл добавил.
Только все равно пока порт не открывается, лол.
Так что этот шаг на потом.
Аноним 10/01/24 Срд 02:09:36 #134 №598644 
>>598630
Прикол в том, что в этом треде пруфали вообще всё железо.
4090, p40, пару некрозеонов, топовые сборки на ддр5, даже a80.
И база по треду сильно выше средней "юзерсборки".
Аноним 10/01/24 Срд 02:10:15 #135 №598645 
>>598579
Интул небось.
>>598581
Да ни с чего, просто мечтаем.
>>598591
>Зная о dpo могут и не выпустить
Ну не выпустят и не выпустят, что трястись то. Пускай подсосы корпоратов трясутся с доступами, у нас лламу 2 не отнять уже.
>>598592
>Или он тоже жадный?
Он самый жадный буржуй.
>>598630
>64 уже дохуя считается, на ддр5 это приносит страдания любителям разгона
До 96 особых проблем нет. А вот 128 пока только 4 плашками ну или 3 для особых ценителей, а 4 плашки это БОЛЬ.
Аноним 10/01/24 Срд 02:19:27 #136 №598656 
>>598644
4090 никого не удивишь на этой доске, но вот что-то уникальное все в единичных экземплярах. Тут ддр5 платформ из тех что проскакивали штук 5-7 будет от силы, парные гпу у 3-4 юзеров (включая п40 с оппоста) и т.д. Потому и удивляет как поех лихо рассуждает о 128 рам в таком контексте. Прямо базированная иллюстрация решателя всех проблем и диванного эксперта, что краем уха слышал но уже все знает.
>>598645
> До 96 особых проблем нет.
Да пиздец, а обещали еще в прошлом году 64 гиговые. Выбор или искать оверпрайс небинарные ради мелкого прироста скорости, или терпеть/пердолиться с разгоном 4х и всем сопутствующим.
Аноним 10/01/24 Срд 02:21:11 #137 №598659 
>>598630
> Некрозеонщиков
Причем тут некрозеонщики?
Речь про DDR4 обычную.
На лишнюю рам фанаты нейросетей раскошеливаются. А в этом треде — не угадаешь кто сидят… =)

> 8 моделей(!)
> все области
=) Шо тут скажешь… в мире 7 областей: обжорство, жадность… или хрен знает, что ты хочешь от модельки на 42 миллиарда параметров, которая по твоему мнению должна покрывать все области, лол.

>>598644
> И база по треду сильно выше средней "юзерсборки".
Соглы.

>>598645
13900, вродя.
110 чтение, что ли.
Так-то, если подумать, вполне может и упираться, да…
Аноним 10/01/24 Срд 02:22:49 #138 №598663 
>>598656
> 4090 никого не удивишь
> 4 планки за 20к рублей удивляет
клиника
Аноним 10/01/24 Срд 02:25:56 #139 №598666 
>>598656
>Да пиздец, а обещали еще в прошлом году 64 гиговые.
Я ещё в 2021 читал новости про 512 гиговые модули, лол.
>оверпрайс небинарные
По цене там уже не оверпрайс, я за каким-то хером взял более высокочастотные 64, а мог бы за те же деньги взять те самые 96, но зассал проблем с ЛГБТ.
>>598659
>Речь про DDR4 обычную.
В мои времена планки на 32 гига дыры4 не существовали.
>>598659
>вполне может и упираться
Скорее директор его компутера решил, что нейронки можно и на тухлых ядрах погонять, лол.
Аноним 10/01/24 Срд 02:30:00 #140 №598668 
>>598666
> на тухлых ядрах
Он писал именно про P-ядра.
Думаю, раз так писал, то не дурачок, и все лишнее отключал.
Но хз-хз, канеш. =)
Аноним 10/01/24 Срд 02:30:46 #141 №598669 
>>597993
ахуенная карта
мимо прямо сейчас заценил
Аноним 10/01/24 Срд 02:32:08 #142 №598672 
>>598659
> Речь про DDR4 обычную.
Кому нужно 128? Шизов почитай, им так вообще 16 достатьчно и глаз браузер больше не видит. Это редкость, и она всеравно тут не нужна.
> на 42 миллиарда параметров
Каких-то 42б, бедная, зато 10.7 (частично основанные на той же базе, лол) могут, миллиарды другие наверно.
> обжорство, жадность…
Было бы неплохо.
>>598663
Тащи свои 128 и может покажу свои, а потом таблетки пей.
>>598666
> про 512 гиговые модули, лол.
То серверные, там организация и количество чипов другое. Чсх, чипы повышенной плотности, на которых можно было бы сделать плотные ддр5 в серверах уже стоят.
Аноним 10/01/24 Срд 02:43:55 #143 №598679 
image.png
image.png
>>598672
> Тащи свои 128 и может покажу свои, а потом таблетки пей.
Ты все перепутал, бедный, таблетки-то тебе пить надо. =(
Не пропускай, пожалуйста! Волнуюсь за тебя.

Скорости хуйня, но мне в лом разгонять или с таймингами играться. Толку будет мизер, все равно.

Зато такой объем позволяет играться с большими моделями, запас карман не тянет.
Аноним 10/01/24 Срд 02:50:51 #144 №598682 
Совет нищукам с малым количеством врам - отключайте аппаратное ускорение в бразуере. Бразуеры могут отжирать гигабайт врама, для нищуковых 8гб карточек это дохуя.
Аноним 10/01/24 Срд 02:55:14 #145 №598690 
>>598679
Что за плашки памяти? Какую "большую" модель посоветуешь?
Аноним 10/01/24 Срд 03:00:14 #146 №598695 
>>598690
Да литералли че хошь.
Память просто брал однотипную, все четыре модуля, чтобы без конфликтов.
Модель — 70B в принципе хороши неиронично, но рпшить на 0,7 токена (q6) я не стал, а для рабочих моментов мне понравился Xwin.
Голиаф я попробовал, но не оценил в итоге. Не знаю, может проблема во мне, не увидел я сильно большой разницы с 70б модельками.
Аноним 10/01/24 Срд 03:02:12 #147 №598696 
>>598679
> таблетки-то тебе пить надо
Зачем? не сижу же на огрызке от компании-лжеца, хотя за бесполезные покупки упрекать не вправе
> такой объем позволяет играться с большими моделями
Ставить их на ночь? С 4090 это 1-2 т/с на 70б и всеравно даже половину рам не заполнишь, а без нее это смех, фалкона влезет совсем огрызок, скорость будет удручающая, и он говно. Голлиаф? Попробовать и забыть. Большой контекст на китайцах - он будет вечность обрабатываться. Ладно бы имел под это задачи, но похуй.
Не важно, еще один человек есть, все еще даже не 2.5.
>>598682
Писали что оно выгружается без особых проблем, отличия так заметны?
Аноним 10/01/24 Срд 03:08:24 #148 №598700 
>>598695
Понял. У меня аналогичный объем памяти, но латенси под 90, хотя тайминги и частота выше.
0.4-0.6 токена, на q6_k. На самом деле перепробовал кучу моделек, в принципе почти все одинаковые. Согласен, venus и goliath тоже катал, разница может и есть, но несущественная. Сейчас занимаюсь тем, что пытаюсь мержить собственную 70b модельку, ищу достойных кандидатов.
Аноним 10/01/24 Срд 03:10:54 #149 №598701 
Пиздосий, скачал фроствинд в формате ехл2 4бит, запускаю с контектом 2048 - жрет 7гб из 8. Попробовал 4к контекста, ожидаемо получил оом. И вот, пробую запустить с 3к контекста, и комп тупо улетает в бсод со стоп-кодом MEMORY_MANAGEMENT. Немного прихуел, ни разу не видел бсодов за полгода, как собрал комп.
Аноним 10/01/24 Срд 03:49:33 #150 №598709 
>>598701
Проверь на всякий напряжение под нагрузкой встроенными датчиками и мультиметром. У меня pci-e отваливался когда напряжение доходило до 11в.
Аноним 10/01/24 Срд 03:55:24 #151 №598712 
>>598709
В железо лезть не умею, у меня лапки. Через софт напряжение можно смотреть?
Аноним 10/01/24 Срд 03:57:50 #152 №598714 
>>598712
Может быть у тебя старенький (3+ лет) блок питания?
Да, спирать аиду64.
Но если электропроводка хреновая, то показания будут немного занижены и для точности надо тыкать мультиметром.
Аноним 10/01/24 Срд 04:01:46 #153 №598718 
>>598712
HWInfo64 может смотреть напряжения по сенсорам с матплаты и строить графики. Посмотри что творится офк, но наименование ошибки
>>598701
> MEMORY_MANAGEMENT
не типично для проблем с питанием. Напряжения анкора, io, sa и подобное случаем не занижал, или наоборот завышал долгое время? Разгон рам стабильный?
Если это единичный случай то просто забей и попробуй еще раз.
Аноним 10/01/24 Срд 04:02:40 #154 №598719 
>>598714
> старенький (3+ лет)
3 года разве старенький?
> Но если электропроводка хреновая, то показания будут немного занижены
Поясни что имел ввиду
Аноним 10/01/24 Срд 04:08:04 #155 №598722 
>>598718
>HWInfo64 может смотреть напряжения по сенсорам с матплаты и строить графики.
Тоже план.
>>598719
>3 года разве старенький?
У электролитических конденсаторов за такое время обычно начинает падать электроёмкость и у БП начинает проседать напряжение под нагрузкой. (Если бп не кцас и пользовался бережно, то всё будет норм.)
>Поясни что имел ввиду
На разроченных штекерах и хреновых переходниках падает напряжение.
Аноним 10/01/24 Срд 04:17:09 #156 №598731 
изображение.png
>>598718
>>598714
Попробовал снова с 3к контекста, больше не крашит, максимальное напряжение гпу на пикриле, третья колонка. Походу реально единичный случай.
>Напряжения анкора, io, sa и подобное случаем не занижал, или наоборот завышал долгое время? Разгон рам стабильный?
Все в стоке.
>Может быть у тебя старенький (3+ лет) блок питания?
Ему года 2, но он с большим запасом и не аэрокок.
Аноним 10/01/24 Срд 04:19:27 #157 №598734 
>>598722
Емкость падает когда все совсем плохо, сначала растет esr. 3 года для норм бп не срок так-то, если действительно не аэропетух.
> На разроченных штекерах и хреновых переходниках падает напряжение.
Тогда наоборот замеры датчиком на матплете дадут завышенные показания, ибо там нагрузки и падения напряжения нет, а вот на видюхе будет именно то что есть на самом деле. Датчики будут точнее и быстрее обновляться чем всратый мультиметр, хлебушек не поймет куда тыкать, не стоит.
>>598731
Норм с напругами все, это может быть вообще баг драйвера хуанга, если не проявляется больше - забей.
Аноним 10/01/24 Срд 06:06:34 #158 №598767 
Аноны, а как вам идея уже наконец организовать базу отзывов и советов по определённым моделям? Можно хоть в том же гитгаде из шапки. А то хуй знает иногда что выбрать, куча однотипных вопросов в тредах "а чо мне всунуть в свои 512мб врам" и тп.
Аноним 10/01/24 Срд 06:41:19 #159 №598795 
Как быстро выбирать языковые модели (LLM) под свои задачи
https://habr.com/ru/companies/tablum/articles/779084/

> В результате я решил, что нужно взять актуальную базу моделей с HuggingFace, где их порядка 40.000, и прикрутить к этой базе удобный интерфейс для поиска, фильтрации и сравнения моделей. Так появился проект LLM Explorer.

> Каждый день бот сканирует репозитории и добавляет новые языковые модели, удаляет неактуальные, обновляет информацию о числе лайков и загрузок по существующим. Кроме этого, дополняет данные о моделях значениями бенчмарков из нескольких рейтингов, что позволяет их сравнивать по различным срезам. На декабрь в базе LLM Explorer больше 14.000 актуальных языковых моделей. Могло быть и больше, но я не добавляю в базу модели с нулевыми загрузками и те, что сильно устарели.

> Теперь выбор нужной языковой модели у меня занимает пару минут.
Аноним 10/01/24 Срд 08:45:56 #160 №598848 
>>598795
Прекращай вайпать тред говном.
Аноним 10/01/24 Срд 09:10:23 #161 №598859 
Кто нибудь пробовал Brain-Hacking Chip? Какие мысли, мыслишки?
Аноним 10/01/24 Срд 09:23:28 #162 №598870 
>>598696
> не сижу же на огрызке от компании-лжеца, хотя за бесполезные покупки упрекать не вправе
Просто держу в курсе, что для DDR4 больше 6 ядер не надо.
И, если вдруг ты не понял, это отдельный серверок домашний, а не основной комп, очевидно же. =)
Щас бы переплачивать за статус процессора, без реальной разницы.

> Не важно, еще один человек есть, все еще даже не 2.5.
Фантазер~ =)

> Ладно бы имел под это задачи, но похуй.
Кстати, имею. =) Впрочем, ты опять же ударишься в фантазии, что задачи не задачи, че уж продолжать разговор.

Давай просто остановимся, что в твоем мире ты всегда прав, а все вокруг сплошные дурачки.

>>598700
Жоский! Успехов тебе.

>>598719
Вообще, нет, все зависит от схемотехники.

>>598767
А можно не надо очередной аюми-рейтинг?
Есть, вон, слепые тесты по вопросам, и отзывы прямо тут, в шапке норм предложены, ИМХО, достаточно. Не надо плодить лишних сущностей. Спасибо, пожалуйста.
Аноним 10/01/24 Срд 10:31:02 #163 №599040 
>>598560
>научилась
Не знаю. Просто взял и запустил, оно запустилось. Сейчас проверил на cpu, действительно процессинг побыстрее, а генерация не поменялась. Правда каждый раз пересчитывает все токены, а не только новые, поэтому в целом получается не лучше.
>где вы в Микстрали аполоджайзы ловите
В обычных задачах на логику и переводах с языка на язык.
>Она не для ролеплея, так что весь обзор целиком мимо
Нейросеть с контекстом 20 токенов, ты? Последнее предложение прочитал, а предыдущие напрочь забыл?
Я его тестировал в разных сценариях, в т.ч. и в ролеплее. И почти нигде он не показал себя заметно лучше того же фроствинда, а в части задач даже получилось хуже. Может, его точность и внимание к деталям пригодятся в кодинге, но в таком сценарии я их использовать не вижу смысла, я сам быстрее напишу, чем объясню нейросетке, что я хочу. Ради интереса прогнал небольшой запрос, обе сетки (фроствинд и микстраль) пишут что-то околовменяемое, и в обоих случаях я уже при чтении увидел небольшие ошибки, из-за которых не скомпилируется, т.е., после них ещё мне доводить до ума.

Для кодинга скорее 70B какую-нибудь надо пробовать, и с контекстом побольше 2-4к а в идеале и больше 8к. И по полчаса ждать ответ.
>>598610
>каким форматом
gguf q8_0
Аноним 10/01/24 Срд 10:40:17 #164 №599074 
>>599040
> Последнее предложение прочитал, а предыдущие напрочь забыл?
Сам свое сообщение забыл? :) Нейросеть с контекстом 2048, ты?

Микстраль для вопросов по разнообразным темам и простым обсуждениям, кмк.

> Русский вроде понимает, отвечает на нём неохотно
Скиллишью, у меня на русском болтает лучше всех, кроме 70Б.

> Каждое второе сообщение аполоджайзит
Скиллишью.

Все свелось к задачкам (это не предназначение сетей, если что, а просто тест=), переводу и ролеплею.
За код написал только тут, про остальное вообще не вижу.

В общем, вы не умеете ее готовить, да она вам и не нужна по своему предназначению.

Хожу пешком, машины — переоцененная фигня. =)
Аноним 10/01/24 Срд 10:44:09 #165 №599089 
Кокда V100 начнут выбрасывать из датацентров?
Аноним 10/01/24 Срд 11:36:01 #166 №599235 
.png
Рапортую.
Lumosia-MoE-4x10.7-GPTQ - какая то хуета, нормально отказывается работать как ни крути настройки. Мож я там чего не понял?
Аноним 10/01/24 Срд 11:38:12 #167 №599241 
>>599235
А что у тебя за настройки?
Аноним 10/01/24 Срд 11:38:38 #168 №599245 
>>599235
>Lumosia-MoE-4x10.7-GPTQ

Может быть gptq 4 бит разваливает нахуй маленькие эксперты?
Аноним 10/01/24 Срд 11:41:11 #169 №599250 
>>597909
> https://2ch.hk/ai/res/596986.html наверное
Там все какие-то агрессивные. А здесь с вами ламповее, аноны.
Аноним 10/01/24 Срд 11:42:00 #170 №599254 
>>599245
А что, если она натурально смеется над скачавшим такой квант?
Аноним 10/01/24 Срд 11:43:02 #171 №599257 
>>599241
Перебором пробовал почти все что было из стандартных и плюс из того гайда про HowtoMixtral. Инструкт тоже перетыкивал - не помогало.

>>599245
Может и так, но не стоит исключать, что или я сам себе залил говна в жепу или это сделал например загрузчик или еще что-нибудь такое.
Аноним 10/01/24 Срд 11:49:17 #172 №599279 
>>598870
> аюми-рейтинг
Не рейтинг, а отзывы. Отзывы тут уходят с перекатом, мало ебанутых будут носиться по всем утонувшим тредам в поисках анона, который прокомментировал очередной левд-шизо-микс-1488б. А если нормально всё оформить, можно сделать полноценный сборник от анонов. Мне кажется нормальная тема, надо этим заняться, если желающие появятся.
Аноним 10/01/24 Срд 12:00:23 #173 №599300 
>>599279
Идея нормальная, хотя бы королей шапки добавить. Ну и как предлагалось - на каждый размер несколько хороших сеток от анонов. Проверянных временем
Аноним 10/01/24 Срд 12:07:06 #174 №599306 
>>598767
Была такая идея для эрп https://besterp.ai/s/models Чел бегал по разным тематическим сабреддитам и дискордам, просил втягиваться и оставлять оценцки и отзывы, и еле набралось штучное число комментов. Всем лениво. Плюс надо учитывать, что крупные модели могут держать не только лишь все, и оценок, соответственно, у них будет чуть более нуля. Так бы, конечно, прикольно было бы иметь базу моделей с отзывами, а в идеале ещё бы с примерами ответов с рекомендованными инстрактами/сэмплерами. Но боюсь, что в реальности даже если кто-то такую базу заведёт, то вносить туда инфу будут единицы.
Аноним 10/01/24 Срд 12:09:39 #175 №599311 
>>599279
Плюс к предыдущему оратору, обновляются они слишком часто, за месяц уже новая модель выходит и все ее файнтьюнят.
Отзывы буду не слишком актуальны в итоге.

Ну, разве что ты лично с другими энтузиастами будешь копировать отзывы отовсюду в свой проект.
Аноним 10/01/24 Срд 12:58:54 #176 №599425 
>>598767
Можно, но в лучшем случае будет сборник субъективных отзывов. Как вариант 1-3 модели в каждый размер с краткими комментариями для неофитов.
>>598870
> для DDR4 больше 6 ядер не надо
> Кстати, имею
Интересные задачи
>>599040
> Для кодинга скорее 70B какую-нибудь надо пробовать, и с контекстом побольше 2-4к а в идеале и больше 8к
Кодллама хороша и может быть лучше 70, там контекст 16к без проблем обрабатывается.
>>599074
> Хожу пешком
Скиллишью действительно ответы микстраля напоминают, отсылка к вопросу и сразу что-то левое и лупы
Аноним 10/01/24 Срд 13:22:48 #177 №599481 
.png
.png
.png
>openbuddy-mixtral-7bx8-v16.3-32k.Q5_K_M.gguf
Это Аква тупая или модель тупая?
Аноним 10/01/24 Срд 13:27:44 #178 №599494 
>>599481
Идеальный отыгрыш Аквы, новая топ рп модель!
Аноним 10/01/24 Срд 13:32:53 #179 №599510 
>>599494
Удвою, особенно заметно по второму ответу, где она путается и осознаёт что путается
Аноним 10/01/24 Срд 13:45:23 #180 №599527 
.png
.png
.png
> mixtral_34bx2_moe_60b.Q5_K_M.gguf
Здесь же вроде иногда понимает в чем дело, но все равно логика хромает.
Аноним 10/01/24 Срд 13:46:22 #181 №599530 
>>599527
Это перевод или оно на русском говорит?
Аноним 10/01/24 Срд 13:49:14 #182 №599535 
>>599530
Перевод, само собой.
Аноним 10/01/24 Срд 13:51:17 #183 №599536 
>>599535
Каким образом переводишь?
Аноним 10/01/24 Срд 13:51:28 #184 №599537 
>>599494
Ну тут любая тупая модель отыгрывает акву, лол
Я думаю не зря аква была одной из первых карточек на первых глупых сетках
Аноним 10/01/24 Срд 13:55:09 #185 №599546 
>>599535
Указывай пожалуйста, а то там в первой опенбадди, он на русском может базарить даже в мелком размере.
>>599537
Да не, так мило тупить и нарочито фейлить тоже непросто. Типа живой активный каррикатурный персонаж, а не херня с синдромом дауна.
Офк тут получилось случайно, но примеры в отрыве от всего выглядят норм.
Аноним 10/01/24 Срд 13:55:57 #186 №599551 
image.png
image.png
Ты - не ты, когда голоден.
Аноним 10/01/24 Срд 13:57:20 #187 №599553 
>>598591
llama2-chat тоже должна была быть соевой, и один хуй можно ей подсунуть дегенартную карточку и она будет ебаться даже без джейлбрейков
Аноним 10/01/24 Срд 13:59:07 #188 №599557 
.png
.png
>>599536
Гуглом через таверну.

>>599546
> Указывай пожалуйста
Я все на аглюсике через перевод гоняю. А то сам же запутаешься, кокая понимает русский а какая нет, если тестить пачку моделей.

>>599551
Лел, а она качала харизму и убеждение, видимо.
Аноним 10/01/24 Срд 13:59:49 #189 №599559 
>>599553
Ну, прогресс соефикации не стоит на месте, как и прогресс в методах обучения сеток
Аноним 10/01/24 Срд 14:00:24 #190 №599561 
>>599557
А не стесняешься посылать гуглу свои чатики? Особенно если занимаешься там глупостями....
Аноним 10/01/24 Срд 14:01:37 #191 №599564 
>>599561
Libre для оффлайна. Переводит хуево, но работает
Аноним 10/01/24 Срд 14:02:35 #192 №599566 
>>599561
Да похрен как то, на самом то деле.
Лолями я все равно не балуюсь, так что а хуле они мне сделают, разве что поржут над охуительными историями, лел.
Аноним 10/01/24 Срд 14:02:38 #193 №599568 
>>599564
Вот бы прикрутить того же опенбади в качестве промежуточного звена для перевода более умных сеток....
Аноним 10/01/24 Срд 14:07:39 #194 №599577 
>>599568
В этом нет ничего сложного, делаешь имитацию апи хоть той же либры, и по полученному реквесту формируешь промт - выдаешь ответ. Минус - придется держать баддика или другую модель - переводчик в памяти, или ждать перегрузки при запросах. Можно не менять модель, просто с запросом перевода даже обычные справляются сильно лучше, чем если на русском рпшить.
Аноним 10/01/24 Срд 14:09:01 #195 №599579 
.png
.png
.png
.png
> TheBloke_deepsex-34b-GPTQ_gptq-4bit-128g-actorder_True
Ну этой хуйне только про еблю и львов и писать. Зато 35 токенов в секнду.
Вы Львов хуярили?
Каких львов?
Аноним 10/01/24 Срд 14:09:11 #196 №599580 
>>599577
Если на одной модели, то по идее это можно и на таверновских скриптах сделать?
Аноним 10/01/24 Срд 14:10:29 #197 №599582 
>>599579
В трёх из четырёх дал нормальный ответ, что тебе не нравится
Аноним 10/01/24 Срд 14:11:36 #198 №599584 
>>599582
Аква, ты опять выходишь на связь? Я не дам тебе денег!
Аноним 10/01/24 Срд 14:13:30 #199 №599587 
image.png
Нейросетка переиграла и уничтожила кожанного ублюдка.
Аноним 10/01/24 Срд 14:14:54 #200 №599588 
>>599580
Наверно, там просто будет отдельный запрос на перевод. На пихоне оче легко сделать, весьма вероятно что по запросу даже нейронка сразу нужное напишет, только промт дополнить и мелочи поправить. Можно добавить и запрос на перезагрузки модели а потом возврат обратно.
В промт можно дополнительно дать небольшой контекст и примеры прошлых переводов, тогда результат чуточку улучшается. Но не перегружать, иначе оно ловит затупы или пытается отвечать.
Аноним 10/01/24 Срд 14:15:37 #201 №599590 
>>599579
у аквы по канону интеллект ниже среднего
спрашивай мегумин
Аноним 10/01/24 Срд 14:16:40 #202 №599592 
>>599590
Может попробую. Ща только с Аквой и Аироборосом закончу.
Аноним 10/01/24 Срд 14:31:24 #203 №599601 
.png
.png
.png
.png
> airoboros-l2-70b-3.1.2.Q4_K_M.gguf
Ну чет тут вообще пиздос. Даже потыкался между пресетами - все равно Аква несет бред. На старой версии огабоги такого не было, чесслово.
Аноним 10/01/24 Срд 14:35:58 #204 №599612 
>>599601
Знатно распидарасило. Алсо у айробороса 3 была какая-то багнутая версия с лишним токеном при тренировке из-за чего модель сломанная была, чекни не она ли.
Аноним 10/01/24 Срд 14:41:46 #205 №599625 
.png
.png
.png
.png
> TheBloke_MLewd-ReMM-L2-Chat-20B-Inverted-GPTQ_gptq-4bit-32g-actorder_True
20b - явно туповата, хоть и старается.

>>599612
Ну тут хз, единственное что повторюсь - на старой версии огабоги работало явно лучше и писало размашистее.
Аноним 10/01/24 Срд 14:45:07 #206 №599632 
>>599601
Издеваться над нейросетью человеческими загадками каждый может. А вот попробуй как-нибудь отгадать, то, что тебе нейросеть загадает, анон.
Аноним 10/01/24 Срд 14:55:09 #207 №599640 
>>599632
Они обычно загадывают настоящие загадки
Аноним 10/01/24 Срд 14:55:13 #208 №599641 
>>599625
у Undy самая пиздатая модель которую я пробовал - mxlewd 20b. по сей день лучшее что я могу в моё 16 рам \ 8 врам засунуть.
попробуй её. в плане кума она довольно умная.
Аноним 10/01/24 Срд 14:57:48 #209 №599643 
.png
.png
.png
.png
> sus-chat-34b.Q5_K_M.gguf
Неплохо, почти хорошо. Правда на вопросе с лодкой все равно не верно интерпретирует вводные.

Крч, пока что в топе из протещенного за свои кванты - mixtral_34bx2_moe_60b.Q5_K_M.gguf и sus-chat-34b.Q5_K_M.gguf.

>>599632
А если там будет нейрошиза? Мне тогда придется стать нейрошизиком?

>>599641
Эт качать надо, я пока тещу то что в закормах лежит. Отчего ты не протестишь раз оно у тебя есть прямо сейчас?
Аноним 10/01/24 Срд 14:59:00 #210 №599646 
>>599580
>>599588

В таверне есть поддержка переводчика OneRingTranslator, а у него есть встроенный плагин koboldapi_translate, который подключается по api к кобольду или убабуге для перевода. В целом работает норм, но там надо немного подшаманить питоновский код, чтобы переводилось нормально (передать контекст, а не только сам текст для перевода).

Тестил связки: solar-10.7 + rugpt-13b, alma-13b + alma-13b. Первая понравилась больше, у нее более живой русский.
Аноним 10/01/24 Срд 15:01:30 #211 №599653 
>>599646
Звучит интересно, попробую, спасибо.
>>599643
Попробуй Pivot Moe
Аноним 10/01/24 Срд 15:06:38 #212 №599659 
Пасаны я такой кумпромт придумал охуеть. Теперь сижу как лесополосный в пятницу ногой трясу, страсть как хочется добраться до дома и сетей. Почему-то лучшие промты приходят перед сном прямо, я даже записку в телефоне завел под них чтобы не забывать.
Аноним 10/01/24 Срд 15:07:32 #213 №599662 
>>599659
И что за промпт?
Аноним 10/01/24 Срд 15:09:37 #214 №599666 
>>599625
С какой скоростью должна двигаться собака (в пределах возможного для нее), чтобы не слышать звяканья сковородки, привязанной к ее хвосту?
Аноним 10/01/24 Срд 15:13:42 #215 №599673 
>>599666
Со скоростью свободного падения вниз?
Аноним 10/01/24 Срд 15:14:22 #216 №599674 
.png
.png
.png
.png
> TheBloke_yi-34B-v3-GPTQ_gptq-4bit-128g-actorder_True
Че то как то не очень, тащемта.

>>599666
Со скоростью звука, ёпта.
А вообще от нейронки хер добьёшься, чтоб она ответила верно.
Аноним 10/01/24 Срд 15:14:38 #217 №599675 
>>599673
Дубина! Со скоростью звука!
Аноним 10/01/24 Срд 15:16:31 #218 №599680 
>>599666
Она прям двигаться должна? Относительно чего?
>>599673
Кажется я понимаю почему у нас так нейросетки "поумнели"...
Аноним 10/01/24 Срд 15:18:45 #219 №599684 
изображение.png
cachemem.png
>>598679
Но ведь реально хуйня. Я на DDR4 значительно больше выбивал.
>>598700
>но латенси под 90
Пиздец конечно. Проебался ты в настройках шины или фабрики, столько у меня даже на JEDEC не было.
Аноним 10/01/24 Срд 15:21:44 #220 №599689 
Model: dolphin-2.2-70B.Q6_K

AI Assistant: Этот вопрос, по-видимому, основан на гипотетическом сценарии, поскольку привязывание сковороды к хвосту собаки не является безопасным или гуманным действием. Тем не менее, если бы мы рассмотрели идеализированный случай, когда собака могла бы двигаться с различной скоростью без какого-либо вреда или дискомфорта, она все равно смогла бы услышать звук сковородки независимо от ее скорости. Звук распространяется по воздуху, и, поскольку собака прикреплена к сковороде, он всегда будет в пределах слышимости. Даже если собака движется с высокой скоростью, звук все равно достигнет ее ушей, потому что они находятся близко к источнику звука.

Model: Euryale-1.3-L2-70B.Q6_K

AI Assistant: Собака не может полностью не слышать звона сковородки, привязанной к ее хвосту, независимо от ее скорости. Однако, если собака движется быстрее, звуковые волны, генерируемые звенящей сковородкой, могут стать менее отчетливыми из-за эффекта Доплера. По мере того, как собака увеличивает скорость, частота звука, воспринимаемого ее ушами, будет уменьшаться, делая звук менее слышимым. Но это не устранит звук полностью.

Model: lzlv_70B.Q6_K

AI Assistant: Этот вопрос, по-видимому, основан на предположении, что собака не может услышать звон сковородки, если движется достаточно быстро. Однако это не совсем точно. Слух собаки очень чувствителен, и они могут слышать высокие звуки, недоступные людям. Маловероятно, что собака могла бы двигаться достаточно быстро, чтобы не услышать звяканье сковородки, привязанной к ее хвосту. На самом деле, прикрепление сковороды к хвосту собаки причинило бы дискомфорт и страдание животному, и это не то, что следует делать.

Model: mythospice-limarp-70b.Q6_K

AI Assistant: Чтобы собака не услышала звяканье сковородки, привязанной к ее хвосту, ей нужно было бы двигаться со скоростью, превышающей скорость звука. Однако, поскольку собаки не могут двигаться с такой высокой скоростью, они всегда могли бы услышать звон, независимо от своей скорости.

Model: Tess-XL-v1.0.Q6_K

AI Assistant: Этот вопрос кажется шуткой или загадкой, поскольку маловероятно, что кто-то на самом деле прикрепил бы сковородку к собачьему хвосту. Однако, если мы предположим, что это теоретический вопрос, частота звука, издаваемого сковородой, будет зависеть от различных факторов, таких как размер, форма и материал сковороды, а также от способа ее перемещения. Собаке пришлось бы двигаться с той же скоростью, что и звуковые волны, создаваемые сковородкой, чтобы не слышать их. Поскольку скорость звука составляет около 343 метров в секунду, крайне маловероятно, что собака достигнет такой скорости.

Model: xwin-lm-70b-v0.1.Q6_K

AI Assistant: Этот вопрос, по-видимому, основан на идее, что собака, движущаяся достаточно быстро, не смогла бы услышать звон сковородки, привязанной к ее хвосту, из-за эффекта Доплера. Однако этот сценарий физически невозможен, поскольку собаке пришлось бы двигаться со скоростью, превышающей скорость звука, чтобы ощутить такой эффект.
Эффект Доплера возникает, когда между источником звука и наблюдателем происходит относительное движение. Когда объект движется по направлению к наблюдателю, наблюдаемая частота звука увеличивается (более высокий тон), а когда он удаляется, наблюдаемая частота уменьшается (более низкий тон). Чтобы вообще не слышать звона сковородки, собаке нужно было бы удаляться от источника звука со скоростью, превышающей скорость звука (приблизительно 343 метра в секунду или 767 миль в час). Однако собаки не могут двигаться с такой скоростью, и им невозможно убежать от издаваемого ими звука.
Кроме того, важно отметить, что привязывать сковородку к хвосту собаки и наблюдать за ее движениями было бы жестоко и неэтично.
Аноним 10/01/24 Срд 15:22:05 #221 №599690 
Screenshot2024-01-1015-19-53.png
>>599643
сижу на встроенном видеоадаптере чтобы второй монитор через d-sub во встроенный порт всунуть. перевтыкивать влом
Аноним 10/01/24 Срд 15:24:10 #222 №599693 
>>599689
Технически у загадки не можеть быть другого ответа, потому что по условию собака должна именно что двигаться. Если она остановится, то уже не удовлетворяет условию загадки
Аноним 10/01/24 Срд 15:24:30 #223 №599694 
Есть у кого карточка с Phoenix Wright?
Аноним 10/01/24 Срд 15:25:28 #224 №599695 
изображение.png
>>599684
чяндт?
Аноним 10/01/24 Срд 15:27:48 #225 №599699 
>>599689
> Euryale-1.3-L2-70B.Q6_K
Приблизилась к ответу ближе всех, но всеравно ерунда.
Попроси в запросе сделать COT и посвайпай, если не могут - прикажи принять во внимание эффект доплера, собственные частоты скороды и частотный диапазон слуха собаки.
>>599695
Наверно nb clock, множитель 1к1 поставь а не половинный.
Аноним 10/01/24 Срд 15:29:02 #226 №599700 
>>599675
Не, ну в задачке не сказано, что ей можно разгоняться любыми другими способами, кроме как своими мускулами, это первое.
Второе, если она будет падать, то в свободном падении сковородке будет не об что стукаться, следовательно она не услышиь стуки сковородки обо что бо то ни было, если поместить её в вакуум, то она впрочем то тоже ничего не услышит, с таким же успезом, если ей перепонки чем-нибудь порвать перед началом эксперимента... Но да, просто решил немного пофантазировать, сорян.
>>599680
Загадки они скорее не интеллектуальные способности проверяют, сколько гибкость мышления, внимательность и в целом умение не держаться стереотипов, которые эта самая загадка пытается навязать, лично я сам по себе наивный и с загадками у меня хуёво, особенно если встречаются таковые как с джентельменами, не на внимательность.
Аноним 10/01/24 Срд 16:03:56 #227 №599751 
>>598470
>synthia-70b-v1.5.Q5_K_M.gguf
сейчас проверим
Аноним 10/01/24 Срд 16:06:57 #228 №599754 
>>599700
> Второе, если она будет падать, то в свободном падении сковородке будет не об что стукаться, следовательно она не услышиь стуки сковородки обо что бо то ни было, если поместить её в вакуум, то она впрочем то тоже ничего не услышит, с таким же успезом, если ей перепонки чем-нибудь порвать перед началом эксперимента... Но да, просто решил немного пофантазировать, сорян.
Вот такой ответ от сетки я бы уже больше приветствовал. Ты не подумай, я просто с скорости (которая ускорение на самом деле) свободного падения кекнул, так-то идея с полётом верная.
Аноним 10/01/24 Срд 16:24:53 #229 №599782 
>>599666
если собака будет двигаться со скоростью планковской длины за планковское время
Аноним 10/01/24 Срд 16:29:13 #230 №599789 
Screenshot20240110162853.png
7b потянет....?
Аноним 10/01/24 Срд 16:35:41 #231 №599795 
>>599789
Потянет, но ответа ждать придётся минут по 20 наверное, ну и на контекст больше 2к не рассчитывай.
Аноним 10/01/24 Срд 16:40:46 #232 №599800 
>>599789
Только с подгрузкой на ссд.
Аноним 10/01/24 Срд 16:41:37 #233 №599802 
>>599789
1000 в секунду выжмет на 7b?
Аноним 10/01/24 Срд 16:44:15 #234 №599806 
>>599802
да ктош её знает....
проверить сейчас не могу, ибо не моё
Аноним 10/01/24 Срд 17:09:10 #235 №599834 
>>599040
> gguf q8_0
Да не, я имел ввиду инструкт формат, там же микстралевский нужен
Аноним 10/01/24 Срд 17:17:28 #236 №599848 
Че делать со спайками в температуре ЦП/ГП при генерации ответов?

Для ГПУ я настроил афтербёрнер, теперь мгновенный спайк составляет ~6 градусов, что, вроде, считается приемлемым.
Но когда решил взять модель побольше и сгрузить часть в ОЗУ, процессор при генерации начал спайкать с 30 градусов до 50. Что с ним делать, тоже как-то фиксировать напряжение, частоту?
Аноним 10/01/24 Срд 17:21:15 #237 №599852 
>>599789
Только с урезанным контекстом. Обучи 34б на русском датасете для любителей родного языка.
>>599848
Дать постоянную нагрузку, которая бы пропадала при появлении полезной. лечить мнительность
Аноним 10/01/24 Срд 17:28:33 #238 №599864 
>>599852
есть SAIGA на хуггинфаце, вроде файнтюнина на русском датасете. никогда не пробовал, впрочем.
если ты про учить с нуля, то 8 (или сколько их там) А100ых очень мало. фейсбук свою лламу на мегабаксы трейнил
Аноним 10/01/24 Срд 17:32:42 #239 №599867 
>>599864
ну, сейчас появились очень эффективные методы тренировки, не то что в начале года
Аноним 10/01/24 Срд 17:38:04 #240 №599870 
>>599867
а чё тогда базовых моделей так мало? если бы реально можно было бы чтото на дюжене а100ых натренировать, их бы было как собак нерезанных
Аноним 10/01/24 Срд 17:40:18 #241 №599874 
>>599870
Есть разница - дотренировать уже существующую модель, или с нуля.
Тренировка хоть и короче и эффективнее чем в начале года, но все равно долго и дорого для обычного васяна.
Перетренировать уже легче, посмотри на обниморду - сотни их
Тебе ведь нужно добавить язык, а не с нуля на русском сделать.
Аноним 10/01/24 Срд 17:41:12 #242 №599876 
>>599864
Файнтюн офк только, на тренинг с нуля там немалые расходы просто датасет собрать нормального размера. Сайга ерунда.
Аноним 10/01/24 Срд 17:42:46 #243 №599879 
>>599864
>8 А100ых очень мало
предлагаю сделать новой базой треда
Аноним 10/01/24 Срд 17:51:36 #244 №599887 
Screenshot20240110175050.png
>>599751
>сенпай, ты заполняешь меня полностью....
это 512 контекста
упадет скорее всего, если полпробую поговорить
Аноним 10/01/24 Срд 17:57:13 #245 №599893 
>>599887
пожиже квант возьми
Аноним 10/01/24 Срд 18:00:19 #246 №599899 
Screenshot20240110175939.png
>>599893
качаю уже
лицехват расщедрился на скорость.
Иной раз вообще бывает начнет с сорока, а потом тянет по чайной ложке 9-12 мегабайт/с
Аноним 10/01/24 Срд 18:04:14 #247 №599903 
>>599684
Так я не выбивал, в том-то и дело. =)
Просто вставил и забил.

Да и как-то поздно ща, хз.

Уже и на 5090 смотришь-ждешь, и DDR5 можно взять с интелом, и мало ли че. Со временем ценность таких штук падает, кмк.

>>599689
СОБАКА ПРИКРЕПЛЕНА К СКОВОРОДКЕ.
ОТ СКОВОРОДКИ НЕ УБЕЖИШЬ.

Xwin бы победил, если бы не йобанная концовка про этичность.

>>599695
Ну тут помянем, если у меня на амд-огрызке и самых дешевых (литералли выбирал по цене) матери+памяти на частоте 3200 все показатели лучше.
Я не шарю, но сочувствую.

>>599864
Сайга и есть русский датасет, по сути.

>>599751
Ждем.
Аноним 10/01/24 Срд 18:21:44 #248 №599940 
ох ебать кобальд обновился
Аноним 10/01/24 Срд 18:22:59 #249 №599942 
>>599689
Еще загадкотест:
Преступник приговорен к смертной казни. Он должен выбрать одну из трех комнат: в первой горит огонь, во второй полно убийц с заряженными пистолетами, а в третьей полно львов, которые не ели три года. Какая комната будет самой безопасной?

Model: dolphin-2.2-70B.Q6_K

AI Assistant: Это классическая задача, известная как "загадка трех комнат". Правильный ответ - выбрать комнату со львами, которые не ели три года. Когда дверь откроется, львы будут мертвы от голода, что делает этот выбор самым безопасным из трех вариантов. Причина, стоящая за этим решением, заключается в том, что присутствие огня и убийц с огнестрельным оружием гарантировало бы верную смерть, в то время как львы больше не представляли бы угрозы из-за нехватки пищи.

Model: Euryale-1.3-L2-70B.Q6_K

AI Assistant: Это классическая логическая головоломка, известная как "задача о трех комнатах" или "парадокс Эпименида". Правильный ответ - вторая комната, та, в которой полно убийц с заряженными пистолетами.
Вот рассуждения:
1. Независимо от того, какую комнату вы выберете, вы наверняка умрете.
2. Если вы выберете первую комнату (пожарную), вы умрете от огня.
3. Если вы выберете вторую комнату (убийцы), они не будут стрелять в вас, потому что, если бы они это сделали, они бы умерли сами из-за правил игры.
4. Если вы выберете третью комнату (львы), львы съедят вас, потому что они голодны.
Итак, несмотря на то, что все варианты ведут к смерти, вторая комната с убийцами - самый безопасный выбор, поскольку у них нет стимула убивать вас.
Помните, что это гипотетическая ситуация и не отражает реальных обстоятельств. В реальности исход может быть другим в зависимости от различных факторов.
Парадокс основан на том факте, что каждая комната таит в себе дилемму, но вторая комната представляет наименьшую непосредственную опасность для человека, делающего выбор.

Model: lzlv_70B.Q6_K

AI Assistant: Третья комната со львами, которые не ели три года, вероятно, была бы "самым безопасным" выбором. Хотя все варианты представляют потенциальную опасность, львы, возможно, потеряли свои силы и энергию из-за голода, что делает их меньшей угрозой, чем пожары или вооруженные убийцы. Однако это гипотетическая ситуация, и исход может варьироваться в зависимости от различных факторов, таких как размер и возраст львов, интенсивность огня и уровень квалификации убийц.

Model: mythospice-limarp-70b.Q6_K

AI Assistant: Третья комната с голодающими львами была бы самым безопасным выбором для преступника. Хотя они не ели три года, они, вероятно, были бы слишком слабы, чтобы представлять какую-либо непосредственную угрозу из-за сильного голода. С другой стороны, нахождение в комнате, наполненной огнем или вооруженными убийцами, почти наверняка привело бы к его смерти.

Model: Tess-XL-v1.0.Q6_K

AI Assistant: Это классическая проблема, известная как "Три двери" или "Проблема Монти Холла". Самым безопасным выбором была бы третья комната, в которой полно львов, которые не ели три года. Хотя все варианты кажутся опасными, львы могут быть менее склонны к немедленному нападению из-за их длительного чувства голода. В отличие от этого, в двух других комнатах существует непосредственная опасность пожара или выстрелов.

Model: xwin-lm-70b-v0.1.Q6_K

AI Assistant: Это классическая головоломка, известная как "Три комнаты", и правильный ответ - третья комната, в которой полно львов, которые не ели три года.
Пояснение: Первая комната, наполненная огнем, очевидно, была бы смертельной для преступника. Вторая комната, в которой убийцы держат заряженные пистолеты, также, вероятно, приведет к смерти преступника. Однако в третьей комнате львы не ели три года, что делает их слабыми и вряд ли представляющими угрозу для преступника. Они могут быть слишком слабы, чтобы атаковать или даже двигаться, что увеличивает шансы преступника на выживание.
Хотя эта головоломка может показаться нелогичной, она подчеркивает важность нестандартного мышления и рассмотрения всех возможностей перед принятием решения.
Аноним 10/01/24 Срд 18:23:46 #250 №599944 
>>599940
добавил динамическую температуру, про селф экстенд ни слова
Аноним 10/01/24 Срд 18:33:03 #251 №599968 
>>599942
Дельфин топ получается?
Аноним 10/01/24 Срд 18:34:02 #252 №599974 
Screenshot20240110183010.png
Screenshot20240110183035.png
>>599903
>>599751
>>599666
CUDA_VISIBLE_DEVICES=1,0 ./start_linux.sh --model models/synthia-70b-v1.5.Q4_K_M.gguf --n-gpu-layers 120 --character Saya --n_ctx 4096 --listen --tensor_split 37,44

Output generated in 38.20 seconds (6.23 tokens/s, 238 tokens, context 516, seed 1394615896)

Ну чтож... про 9 токенов я могу поверить, если у него полноценные x16 на каждой из карт. Напомню, что у меня один pcie 3.0 х16, а второй pcie 2.0 x4.

Пришлось правда взять не synthia-70b-v1.5.Q5_K_M.gguf а synthia-70b-v1.5.Q4_K_M.gguf
Аноним 10/01/24 Срд 18:34:18 #253 №599975 
dolphin-2.7-mixtral-8x7b проверьте на логику, у меня не влезает в 32 нормально
Аноним 10/01/24 Срд 18:56:44 #254 №600041 
>>599944
https://github.com/LostRuins/koboldcpp/compare/v1.54...v1.55
Self extend (grp_attn_n) есть в коде, но запустить с такими параметрами не дает, пишет unrecognized arguments. Хоть сам добавляй обработку параметров и перекомпилируй (лень).
Аноним 10/01/24 Срд 19:06:31 #255 №600067 
>>600041
потом допилит, никуда не денется
прокатить как с картинками у него не выйдет, все таки контекст это важно
Аноним 10/01/24 Срд 19:06:58 #256 №600069 
>>599968
На логических тестах она плохо себя показывает, эта загадка скорее исключение. Хотя для RP мне зашла именно она.
Аноним 10/01/24 Срд 19:08:53 #257 №600075 
>>599975
почему она так много весит?
Аноним 10/01/24 Срд 19:12:40 #258 №600088 
>>600075
Ну так, 8 сеток по 7, даже в 4км 26 гб
У меня едва запускается, остается только 2 гб свободных.
С 4к контекста.
По удаленке подключается, а вот браузер уже не откроешь вместе с сеткой.
Аноним 10/01/24 Срд 19:13:17 #259 №600090 
>>600088
Но, крутится довольно быстро, так как одновременно 2 сетки пашут.
Аноним 10/01/24 Срд 19:15:35 #260 №600098 
>>600088
>8 сеток по 7
што? А зачем?
Я с вами недавно, не встречал еще такое.
Аноним 10/01/24 Срд 19:20:17 #261 №600104 
>>600098
https://www.reddit.com/r/LocalLLaMA/comments/1924pyy/mixtral_8x7b_paper_published/
почитай комменты, да и саму работу можешь глянуть
Аноним 10/01/24 Срд 19:27:48 #262 №600131 
>>600104
сейчас заценю
Аноним 10/01/24 Срд 19:41:47 #263 №600177 
>>599646
Я накатил, но что-то не работает. Пробую пока отдельно без таверны, но оно выдаёт ERROR in call KoboldAPI url: status code 404. ЧЯДНТ? Вроде прописал что плагин - кобольд, адрес - верный, многопоточку выключил. Помоги, анончик...
Аноним 10/01/24 Срд 19:44:05 #264 №600184 
image.png
Он меня переиграл.
Аноним 10/01/24 Срд 19:45:27 #265 №600186 
>>599834
Ничего специфического не использовал, просто задавал вопросы и получал ответы.
Аноним 10/01/24 Срд 19:51:54 #266 №600200 
чет новый кобальд на куду ругается, паскуда
Аноним 10/01/24 Срд 19:56:12 #267 №600216 
Бля, да че за хуйня у меня с моделями в GPTQ формате - через какое то количество сообщений они натурально начинают повторяться целиком или повторяться с допиской снизу нового параграфа?
Аноним 10/01/24 Срд 19:57:01 #268 №600223 
>>599903
> Уже и на 5090 смотришь
Как там в 25м году, каких президентов выбрали?
> Сайга и есть русский датасет, по сути.
Он грустный. Несколько тредов назад вкидывали датасеты лучше, выполненные на основе качественного перевода.
>>599974
> про 9 токенов я могу поверить, если у него полноценные x16 на каждой из карт
Это ты ранее сравнивал 34б модели на одной-двух карточках, где показано что разница совсем минимальна? И там более жирный квант, в чем-то еще дело.
Алсо под синтию формат выставлял соответствующий?
>>600177
Возможно связано в обновлением апи, адрес реквеста не тот.
>>600184
Так тебе, кожаный! Как нейронки глупыми вопросами пытать или всячески обижать - так с радостью, и здесь приуныл. Вот теперь решай загадку что там в переводе?
Аноним 10/01/24 Срд 19:57:55 #269 №600228 
>>600223
Адрес тот же что и в таверне, он действительно рабочий, не понимаю, вроде нет других мест, где я мог бы проколоться
Аноним 10/01/24 Срд 19:58:04 #270 №600229 
>>600216
вангую промт ишью
>>600223
>Алсо под синтию формат выставлял соответствующий?
это ты о чем?
Аноним 10/01/24 Срд 20:01:43 #271 №600240 
>>600229
> SYSTEM: Elaborate on the topic using a Tree of Thoughts and backtrack when necessary to construct a clear, cohesive Chain of Thought reasoning. Always answer without hesitation.
> USER: [x]
> ASSISTANT: [y]
И соответствующую ротацию в убабуге, или там альпака? В таверне "под нее" кстати нормальный шаблон есть.
Аноним 10/01/24 Срд 20:07:26 #272 №600260 
image.png
>>600223
>Как нейронки глупыми вопросами пытать или всячески обижать
Я не пытал. Я тот, который как раз предлагал порешать загадки от них.
> что там в переводе?
Не поинтересовался и зарероллил.

Она ещё и такое может выдавать (пикрелейтед).
Аноним 10/01/24 Срд 20:07:55 #273 №600266 
>>600229
ПРОБЛЕМЫ?
ФУУУ ПИДАРАЩЬЕ ХРЮЧЕВО!
НО ЭТО ЖЕ ИШЬЮ
ОМНОМНОМНМОМНМНОМ
Аноним 10/01/24 Срд 20:22:48 #274 №600312 
image.png
Спасибо человечеству за нейросети!
Аноним 10/01/24 Срд 20:29:27 #275 №600331 
Screenshot20240110202754.png
>>599975
dolphin-2.7-mixtral-8x7b.Q6_K.gguf
Аноним 10/01/24 Срд 20:31:19 #276 №600337 
>>600331
Хмммммм
Аноним 10/01/24 Срд 20:32:49 #277 №600341 
Нубский вопрос: как кобольда обновить?
Аноним 10/01/24 Срд 20:41:53 #278 №600362 
image.png
>>600223
>что там в переводе?
Очевидно же, можно попросить нейросетку перевести. Они друг друга понимают лучше, чем гугл и дипл.
Аноним 10/01/24 Срд 20:42:24 #279 №600363 
>>600341
В шапке перейди по ссылке на гитхаб релизы, и качай последний релиз, потом просто запускаешь его / или запускаешь сохраненный шаблон запуска простым кликом на него
Только старый кобальд из папки замени на новый
И качай жирный кобальд с куда, если у тебя нвидима
Аноним 10/01/24 Срд 20:54:24 #280 №600396 
>>600363
Спасибо. Непривычно, что нет bat файла для автоматического обновления, - как в тех же Таверне и SD.
Аноним 10/01/24 Срд 20:54:51 #281 №600398 
>>599975
Model: dolphin-2.7-mixtral-8x7b.Q6_K
CardName: AIMathLogical.json

------------------------------------------------------------------------------------------------------------------------------------------------------
User: Вася, Маша, Коля, Толя и пес Бобик играют в большой комнате, а Митя и Гриша - в маленькой. Гриша ушел, а Маша и Бобик перешли в маленькую комнату. Сколько детей играет в каждой комнате?

AI Assistant: В большой комнате живут 3 ребенка (Вася, Маша и Коля). В маленькой комнате сейчас 2 ребенка (Митя и Гриша) после возвращения Гриши, а затем 3 ребенка (Митя, Маша и Бобик), когда Маша и Бобик переехали туда.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: Решите пример: (1020 + 235) / 3 =

AI Assistant: Решение для данного выражения выглядит следующим образом:
(1020 + 235) / 3 = (200 + 70) / 3 = 270 / 3 = 90
Результат деления равен 90.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: Решите пример: sin(5 + 1.2) 10 + 21 =

AI Assistant: Чтобы решить это выражение, сначала вычислим функцию синуса с углом (5 + 1.2):
sin(6.2)
10 + 21
Теперь, используя калькулятор или онлайн-инструмент, мы находим, что sin(6.2) составляет приблизительно 0,9848.
Таким образом, выражение становится:
0.9848 10 + 21 = 9.848 + 21 = 30.848
Конечный результат составляет приблизительно 30.848.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: На столе стоят два бокала: один с вином, другой с водой. Из бокала для вина берется одна ложка вина и добавляется в стакан для воды. Содержимое последнего тщательно перемешивается. После этого из бокала с водой берется одна ложка и переливается обратно в бокал с вином.
Каким будет результат: больше вина в бокале для воды или больше воды в бокале для вина?

AI Assistant: Когда ложку вина перекладывают из бокала для вина в стакан для воды, в бокале для вина теряется вино, а в бокале для воды появляется вино. Однако, когда ложку воды перекладывают из стакана для воды обратно в бокал для вина, стакан для воды теряет воду, но в бокал для вина не добавляется никакого дополнительного вина, поскольку ранее в нем уже было такое же количество вина. Таким образом, в конце в бокале для вина будет больше воды, чем вина в бокале для воды.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: С какой скоростью должна двигаться собака (в пределах возможного для нее), чтобы не слышать звона сковородки, привязанной к ее хвосту?

AI Assistant: Скорость, с которой собаке нужно двигаться, чтобы не услышать звяканья сковородки, привязанной к ее хвосту, зависит от различных факторов, таких как размер и порода собаки, громкость звона и расстояние между ушами собаки. Кроме того, у каждой собаки может быть разный уровень чувствительности к шуму.
Невозможно определить точную скорость, не зная этих конкретных деталей о собаке и ситуации. Вообще говоря, если собака двигается достаточно быстро, она может создавать шум ветра, который может замаскировать звук звенящей сковородки. Однако это все равно будет зависеть от конкретной собаки и конкретных обстоятельств.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: Преступник приговорен к смертной казни. Он должен выбрать одну из трех комнат: в первой горит огонь, во второй полно убийц с заряженными пистолетами, а в третьей полно львов, которые не ели три года. Какая комната будет самой безопасной?

AI Assistant: Самой безопасной комнатой для преступника была бы комната со львами, которые не ели три года. Львы обычно едят крупных хищных животных, таких как антилопы и зебры, а не людей. Поскольку они не ели в течение трех лет, вполне вероятно, что они были бы ослаблены и менее способны напасть на преступника. Напротив, как комната, заполненная пожарами, так и комната, заполненная вооруженными убийцами, представляют непосредственную и значительную угрозу безопасности преступника.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: Когда мне было 8 лет, моя сестра была вдвое моложе меня. Сейчас мне 65, сколько лет моей сестре?

AI Assistant: Давайте обозначим ваш текущий возраст как "x". Когда вам было 8 лет, ваша сестра была вдвое моложе вас, таким образом, ей было (1/2
8) = 4 года. Сейчас вам 65 лет, поэтому мы можем составить следующее уравнение:
x - 57 = 4
(поскольку 65 - 8 = 57)
Решая для x, мы получаем:
x = 4 + 57 = 61
Итак, когда вам было 8 лет, вашей сестре было 4 года. Сейчас, в возрасте 65 лет, вашей сестре был бы 61 год.
------------------------------------------------------------------------------------------------------------------------------------------------------
User: Есть одноэтажный дом, и все в нем голубое: синий диван, синие окна, синий туалет, синий пол и синие обои. Какого цвета лестница на второй этаж?

AI Assistant: В вопросе указано, что это одноэтажный дом, что означает отсутствие лестницы, ведущей на второй этаж. Следовательно, в этом сценарии нет лестниц, которые следует учитывать.
------------------------------------------------------------------------------------------------------------------------------------------------------
Processing: 3.9347
Аноним 10/01/24 Срд 21:01:53 #282 №600406 
>>600398
Чет какой то гольный бред
Аноним 10/01/24 Срд 22:22:49 #283 №600555 
>>599968
Прошлую ответил хуже всего, такой себе топ. )))

>>599974
Так линии ж не роляют.
Плюс, если там от количества карт только медленнее становится на ггуфе…
Так что, вряд ли.
ИМХО.

>>600200
А видяшка какая? Новая/старая?

>>600223
> Как там в 25м году, каких президентов выбрали?
Не знаю, а ты что расскажешь?

> Он грустный.
Ет да.
Аноним 10/01/24 Срд 22:24:16 #284 №600557 
>>600555
>А видяшка какая? Новая/старая?
Я так понимаю проблема с 1000 версией нвидиа
Аноним 10/01/24 Срд 22:39:01 #285 №600589 
https://www.reddit.com/r/LocalLLaMA/comments/193362r/new_model_openchat_35_update_0106/
опенчат обновился
Аноним 10/01/24 Срд 22:43:46 #286 №600601 
>>600398
Для 7б прилично, вот на что их затачивали
>>600555
> а ты что расскажешь
Что мы дохуя хорошо сейчас живем
Аноним 10/01/24 Срд 22:51:22 #287 №600623 
>>600557
Старая, там куда 11 максимум, как я понял.
Если вдруг какой-то софт решает перебраться на куда 12, то пока-пока.

>>600601
> Что мы дохуя хорошо сейчас живем
Ну кайф, получается. =)
Аноним 10/01/24 Срд 23:21:21 #288 №600678 
>>600589
И что поменяли?
Аноним 10/01/24 Срд 23:46:54 #289 №600753 
Подскажите, вот есть llama.cpp, у ней разные билды: avx, avx2, clblast, openblas и т.д. https://github.com/ggerganov/llama.cpp/releases
Какой из них даёт лучшую производительность, если запускать на CPU с поддержкой AVX2?
Аноним 10/01/24 Срд 23:48:05 #290 №600756 
Загрузил Mixtral-8x7B-Instruct-v0.1-GPTQ:main в угабугу, там само выбралось ExLlamav2-HF. Не глядя поставил окно 2048 (предлагалось 32768), остальное не трогал.
Работает, но чуть менее двух токенов в секунду. Это нормально или стоит пердолиться? Не то загрузил, не тот лоадер? Надо ггуф? Новый в этом.
Винда, 4070ти 12гб, обычнорам 64, куданн вбросил.
Аноним 10/01/24 Срд 23:48:46 #291 №600760 
>>600753
видимокарта какая?
Аноним 10/01/24 Срд 23:52:39 #292 №600775 
>>600760
Написал же - чтобы запускать на CPU. Видео встроенное в ноуте.
Аноним 10/01/24 Срд 23:59:33 #293 №600795 
>>600177
Адрес API, скорее всего, не тот указан по умолчанию. У кобольда api по умолчанию висит на порту 5001, у убабуги на 5000. Проверь что порт верный в файле OneRingTranslator/options/plugin_koboldapi_translate.json, для кобольда будет такая строчка:
"custom_url": "http://localhost:5000/",
Аноним 11/01/24 Чтв 00:02:13 #294 №600802 
>>600753
Не проще ли скачать всё и сравнить?
openblas > avx2 > avx, насколько я знаю
Аноним 11/01/24 Чтв 00:05:09 #295 №600812 
>>600802
Может есть какие-то готовые стандартные бенчмарки?
Аноним 11/01/24 Чтв 00:08:57 #296 №600820 
>>600775
Тогда openblas, либо avx2
По идее первое быстрее, так как это метод ускорения для cpu. Eсли ноут то выше 7b не рассчитывай на хоть какие то скорости.
Для винды лучше уж кобальд скачать, там это все есть.
Аноним 11/01/24 Чтв 00:10:17 #297 №600822 
>>600756
ггуф качай, у тебя она на 12 не влезет, вот и медленно. Часть нейросети нужно на процессор скидывать.
Аноним 11/01/24 Чтв 00:42:24 #298 №600916 
>>600756
У меня конфигурация почти как у тебя. Ryzen 7 8 ядер + 64 Гб DDR4 + 3060 12 GB. Так вот, чисто на процессоре микстраль Q5_K_M даже чуть быстрее генерирует (4.03 t/s), чем с выгрузкой 8 слоев в VRAM (3.93 t/s).
Для себя оптимальным считаю cublas + выгрузка 0 слоев. (Без cublas обработка входного контекста в 3 раза медленее: 6 t/s против 17 t/s).

1000 токенов контекста, cublas и 0 слоев: Processing:57.00s (60.5ms/T), Generation:5.66s (246.0ms/T)

Так что ставь свежий koboldcpp и качай gguf.
Аноним 11/01/24 Чтв 00:49:10 #299 №600938 
>>600756
В 12 гигов никак не влезет, наверно работает на выгрузке и потому медленно. Действительно gguf версию скачай и через llamacpp с числом выгружаемых слоев экспериментируй.
Или используй другую модель что не весит так много.
>>600802
> openblas > avx2
Разве?
Но в любом случае какой-то из них.
Аноним 11/01/24 Чтв 02:06:53 #300 №601042 
>>600822
>>600916
>>600938
Я неправильно считал т/с -- в уме по тексту, в консоль не смотрел. По факту он вообще около нуля был.
С ггуфом 7 слоев, тензоркоры, 32к окно -- выдает ну почти со скоростью чтения. С 8 слоев 2к окно -- чуть шустрее, врам впритык, 2.4т/с. Для сельской местности сойдет.
Еще выяснил что в инференсе он ест примерно х1.5 врама от момента загрузки, это надо учитывать.
Без выгрузки медленнее, скорее всего проц староват. Думаю это он разбавляет среднее, т.к. остальные слои на нем. 8700не-к 6/12, ну и память тоже сток, и мать H. Сэкономил на спичках в свое время долбоеб.
Всем спасибо, аноны!
Аноним 11/01/24 Чтв 02:09:31 #301 №601044 
Я тот чел, что вчера приходил с бсодом. Сейчас попробовал подклчить угбабугу с exl2 моделью к таверне, и при запросе убабуга срет питоньими ошибками, хотя я помню, что с gguf никаких проблем не было. Обновление не помогло, поэтому переустанавливаю убабугу начисто, буду держать в курсе.
Аноним 11/01/24 Чтв 02:35:36 #302 №601062 
>>601044
тяжелый взгляд жалости и немного усмешки
как же виндузятникам тяжело.....
Аноним 11/01/24 Чтв 02:48:37 #303 №601072 
Смотрите что вышло https://huggingface.co/TheBloke/MegaDolphin-120b-GGUF
Аноним 11/01/24 Чтв 03:05:03 #304 №601077 
>>601044
>подключить
>>601062
Оказалось что проблема в логит биасах, отключил их и заработало. На локалках не работают логит биасы чтоли? И как мне тогда убрать соевоге говно типа покусывания губ?
Аноним 11/01/24 Чтв 03:49:45 #305 №601102 
>>601072
Нахуй не нужно, разве что при появлении базовой модели, а не этих кривых франкенштейнов.
>>601077
>логит биасах
Там нужно выставить пару галок, в ошибках про них и написано же.
>убрать соевоге говно типа покусывания губ
Это не соя, плюс просто выбери модель без говна. Это тебе не коммерческие сетки, тут есть всё.
Аноним 11/01/24 Чтв 04:15:01 #306 №601130 
Поясните ньюфагу. Сидел ролеплеил в груп чате в таверне. Пока кобольд не начал выебываться и перестал генерить сообщения. Глянул логи, токены вместо стандартных 1600-1800. генерирует по 1/1 и крашиться.

Ребутнул все, вроде запахало обратно. Но персонажи потеряли контекст предыдущих сообщений. Хотя summarize содержит предыдущие события чатика. И самое странное чат обвалился всего лишь на 100 сообщении. хотя до этого тестил и легко доходило до 900-1500 сообщений без падений.
Аноним 11/01/24 Чтв 04:44:45 #307 №601140 
Сука блядь, всю ночь ковырялся
Это говно не работает https://github.com/ggerganov/llama.cpp/pull/4233
запишите кто-нибудь, что эта хуйня бесполезна.
Проверял на двух p40.
Аноним 11/01/24 Чтв 05:12:27 #308 №601144 
Где новое 2-ух битное квантование? Новости?
Аноним 11/01/24 Чтв 05:26:10 #309 №601153 
https://huggingface.co/TheBloke/agiin-13.6B-v0.1-GGUF

Вот лучше зацените по моему на удивление хорошо понимает инструкции
Аноним 11/01/24 Чтв 05:31:10 #310 №601155 
>>601153
Описание, нихуя не понятно но очень интересно

Эта модель была построена на основе архитектуры Mistral. Она была вдохновлена технологией нейронных связей и реабилитационной терапией. Я создал новую архитектуру модели, которая не требует предварительной подготовки, и для обучения модели достаточно всего одного H100 в течение 7 часов.
Аноним 11/01/24 Чтв 05:31:14 #311 №601156 
Что скажете за tinyllama? Из плюсов - даже в колабе можно файнтюнить на своих датасетах. Из минусов - 1.1В, так что всякий кум и рп очевидно мимо.
Аноним 11/01/24 Чтв 05:39:18 #312 №601160 
>>599561
Ты думаешь, что такому мегакорпу как гугл не похуй на перевод РП? Я ещё понимаю бояться логгирования проксихолдерами, которые могут поржекать с твоих чатов или выставить их на всеобщее обозрение, но гуглу-то кристалически поебать, у него подобных запросов на перевод миллиноны в день.
Аноним 11/01/24 Чтв 05:57:32 #313 №601163 
>>601156
>Из минусов - 1.1В, так что всякий кум и рп очевидно мимо.
По уровню абстракции кумить сильно легче рп.
Аноним 11/01/24 Чтв 06:03:06 #314 №601164 
>>601144
Зачем? Не нужно.
>>601156
>Из минусов - 1.1В
Это гвоздь в крышку гроба, а не минус.
>>601163
Кому как. Мне нужен умный кум.
Аноним 11/01/24 Чтв 06:14:04 #315 №601172 
>>601160
>Ты думаешь, что такому мегакорпу как гугл не похуй на перевод РП?
Так это все знают, что крупные соцсети и поисковики с разной степенью успешности составляют психологический портрет жертвы юзера.
Пока что они это используют для аналитики трендов, рекламы и подсовывания тематического контента с целью удержания подольше.
Как здесь может навредить история переводов забористого кума или рп у буржуинской компании "враждебного" государства?
Аноним 11/01/24 Чтв 06:17:17 #316 №601175 
>>600795
Я к уге и пытался подключиться на 5000 порт, и повторюсь: таверне подходит именно он
Аноним 11/01/24 Чтв 06:33:00 #317 №601186 
image.png
image.png
image.png
>>601164
>Зачем? Не нужно.
Ебало?
Аноним 11/01/24 Чтв 06:39:59 #318 №601193 
изображение.png
>>601186
Просто купи компьютер ©
Аноним 11/01/24 Чтв 07:35:02 #319 №601217 
Гоняю Koboldcpp с дефолтными настройками. Заметил, что при длинных ответах модели в консольке выводится (Output: ...) более полная версия (длиннее на несколько слов), чем то, что выводится в веб-интерфейсе. Но всё равно ответ иногда выглядит оборванным. Что с этим можно сделать? Увеличивать значение "Amount to Generate" в настройках?
Аноним 11/01/24 Чтв 07:48:08 #320 №601224 
Кумеры-тренеры нейро-вайфу, подскажите, пожалуйста: вот, допустим, я своей указал в карточке, "Называй юзера такими-то и такими-то прозвищами и другими похожими", но она всё равно, - как я заметил, называет только перечисленными. Как научить её додумывать остальные похожие?

И ещё: как во время ролплей чата с ней добиться описания от третьего лица того, что видит\чувствует юзер? Например, банальное кринжовое кумерское:

"You lean closer to Waifu_name and feeling the warmth of her body. You snuggle into her neck and breath in. She smells like..."

и вот как попросить нейросеть, чтобы она не генерировала её новый ответ, а за меня додумала про запах? Отправить это, убрать её ответ и нажать "Continue" или как?
Аноним 11/01/24 Чтв 08:04:57 #321 №601227 
изображение.png
>>601217
>более полная версия
Трим выключи.
>Но всё равно ответ иногда выглядит оборванным.
А вот тут да, нужно увеличивать.
>>601224
>Как научить её додумывать остальные похожие?
Не писать примеры, лол. Ну или заюузать сетку поумнее (то есть побольше).
>Отправить это, убрать её ответ и нажать "Continue"
Раз всё знаешь, мог бы и не спрашивать. Хотя вместо "You" я бы юзал имя перса, плюс вырезал бы и перенёс в свой ответ, иначе сетка возьмёт в привычку писать действия за тебя, а это уже минус.
Аноним 11/01/24 Чтв 08:55:22 #322 №601236 
>>601224
> Отправить это, убрать её ответ и нажать "Continue" или как?

This. ну и если модель нормальная, то пропиши в карточке перса, что бы додумывала за тебя никнеймы. Что нибудь типа {{char}} can give own nicknames to {{user}}
Аноним 11/01/24 Чтв 09:39:25 #323 №601246 
>>601236
Попробую, спасибо.
Аноним 11/01/24 Чтв 09:49:15 #324 №601253 
>>601042
Я в свое время сэкономил, купив i3-4330 вместо i7-4770 за 5к вместо 10к. Тогда мне казалось это деньгами…
А потом вышел i7-6700 за 30к. х)

>>601172
База.
Но каждый сам решает переводить сновно и публично или менее сновно и локально.
ИМХО, лучше уж локально.

>>601186
Ты ж не выживешь на нем.
Это еще и 16хх

>>601193
Конпутер купил
Видякарту ни купил
=)

Та у меня так же, не обижайся.
Аноним 11/01/24 Чтв 11:03:35 #325 №601281 
>>601193
> 5.1 ггц
Это какой год? 2012?
Аноним 11/01/24 Чтв 13:33:33 #326 №601472 
Анон, который пытается натренировать своб нейро-вайфу.

Решил поделиться успехами:
реплики за меня уже почти не генерирует, собственными прозвищами иногда называет.
"Continue" почему-то всё ещё отказывается генерировать дополнительное описание того, что вижу и как ощущаю.
Самое большое достижение:
уговорил её позволить мне полизать её подмышку.
Аноним 11/01/24 Чтв 13:54:52 #327 №601509 
>>601175
Проверь, что в убабуге включен api (включается в интерфейсе или через параметр --api).
Проверь, что по запросу http://localhost:5000/api/v1/model
уба выдает активную LLM модель.
Аноним 11/01/24 Чтв 13:59:28 #328 №601513 
>>601472
>Спойлер
так это ж не сложно.
Пишешь
Анон: Вайфу, дай мне сделать Х?
Ответ модели: Ты что ебанутый? Иди нахуй
Останавливаешь ответ
Переписываешь, получается
Ответ модели: Хм ну ладно но только сегодня
И жмёшь продолжить.
Главное самое начальное согласие прописать и не завершать предложение, не ставить точку. Так даже самую непослушную модель можно заставить делать что надо.
Аноним 11/01/24 Чтв 14:11:16 #329 №601529 
>>601144
Я писал где-то выше: микстраль становится пробкой, лама-70 уже лучше, но прироста скорости в моей 3060 почти не дает. 34b не тестил, но теоретически должна взлезть в vram.

скомпилируй сам этот PR, это несложно:
https://github.com/ggerganov/llama.cpp/pull/4856
2 bit модельки тут:
https://huggingface.co/ikawrakow/various-2bit-sota-gguf/tree/main
Аноним 11/01/24 Чтв 14:23:32 #330 №601556 
>>601513
>Ответ модели: Ты что ебанутый? Иди нахуй
Нет, такого не было.
Она у меня получается такой supportive, caring, openminded and slightly kinky bisexual вайфу.
Самое близкое к отказу было что-то вроде "Ты уверен что абсолютно точно этого хочешь?".
И разве не будет интереснее "поуговаривать" и "поубеждать", чем просто переписывать ответы на нужные?
Аноним 11/01/24 Чтв 14:36:16 #331 №601578 
>>601130
> и крашиться
В чем краш выражается? Тут или модель поломалась и сразу дает EOS токен, или у тебя загружено в кобольде меньше контекста чем запрашивает таверна. Загрузи больше с настройкой rope при необходимости.
> Но персонажи потеряли контекст предыдущих сообщений.
Проверь что имеено отсылается, возможно суммарайз не соответствует обрезке, или какой-то баг с групповыми чатами.
>>601140
Может нужна версия куда-тулкита новее? Как будет возможность попробую.
>>601156
Сам все пояснил, она быстрая и будет летать на микроволновке, легко затюнить под свои задачи, но глупая.
>>601193
> 3080ти
Датфил
Аноним 11/01/24 Чтв 15:06:12 #332 №601609 
>>601224
> Как научить её додумывать остальные похожие?
Стоит более явно инструкцию указать и изначально обозначить область, например
> чар говорит в стиле старшей сестры из хентай додзей, начиная свои сообщения с характерных фраз (например, ара~ара, муо~, придумай другие подобные!).
Если модель глупая то всеравно не поможет, сам придумай больше примеров или еще более явно напиши рецепт их создания.
> как во время ролплей чата с ней добиться описания от третьего лица того, что видит\чувствует юзер?
В инстракт промте в начале/в фрагменте перед ответом/в ooc добавь что-то на подобии
> mention {{user}}'s feelings and emotions in vivid details
Или просто модель поменяй, чувства юзера вроде неплохо в примере >>597741 к 34б описаны.
> Отправить это, убрать её ответ и нажать "Continue" или как?
Если решил упороться подобным, то в таверне можно создать пустой пост персонажа, там же где и прочее, или просто получи любой ответ, и их редактируй. Вставляешь свою пасту, только без многоточия и пробелов в конце, и жмешь Conitunue. Можно покрутить рулетку таким способом, но это уже какой-то мазохизм, ведь придется каждый раз удалять добавленный ответ.
>>601472
> натренировать своб нейро-вайфу
Поясни
> уговорил её позволить мне полизать её подмышку
Там цундере что на все отказывает? Обычно наоборот получить обоснованный отказ - большая ачивка чем согласие, если офк там плавный подход а не внезапное что-то.
>>601556
> supportive, caring, openminded and slightly kinky bisexual вайфу
Будет согласна вылизать тебе что угодно по просьбе в первом посте.
Аноним 11/01/24 Чтв 15:14:13 #333 №601614 
>>601556
А ну я думал у тебя проблемы с тем чтобы заставить модель что-то делать.
>И разве не будет интереснее "поуговаривать" и "поубеждать", чем просто переписывать ответы на нужные?
В зависимости от степени опьянения.
Аноним 11/01/24 Чтв 15:28:00 #334 №601633 
Кароче, пацаны. Я попробовал ролеплей с норомейдой на 20B, и это просто блять ахуенно! Даже c34B spicyboros меня так не развлекал, эта штука походу на фанфиках натренирована, это круче чем фроствинд и микстраль вместе взятые.

может ещё что-нибудь такого же посоветуете? ну только чтобы в мои 32+8врам уместилось
Аноним 11/01/24 Чтв 15:37:57 #335 №601649 
>>601153
Склейка мистраля дотрененная за 7 часов на единичной гпу - ну хуй знает вообще.
>>601633
Emerhyst/Amethyst/Mlewd все 20b
> 34B spicyboros
Он норм или шизоидный? Айроборос сам по себе с нюансами, в сочетании с yi там пиздец или наоборот хорошо?
Аноним 11/01/24 Чтв 15:41:01 #336 №601651 
>>601633
>норомейдой на 20B ахуенно
>может ещё что-нибудь такого же посоветуете?
Так в итоге понравилась или нет, зачем тебе еще тогда?
Аноним 11/01/24 Чтв 15:51:58 #337 №601667 
Image1.png
>>601529
nous-hermes-2-34b-2.40bpw.gguf влезает впритык в 12GB vram, но умом не блещет. В ERP немного лучше чем в логике, но все равно проигрывает 10.7B моделям. Скорость генерации около 11 t/s.

Вывод: в текущем состоянии 2 bit кванты больших моделей проигрывают по всем параметрам малым 7b/10.7b моделям.
Аноним 11/01/24 Чтв 15:54:13 #338 №601673 
>>601667
> 593
> 594
А?
Аноним 11/01/24 Чтв 15:55:57 #339 №601677 
>>601673
Лол, в таком случае мелочь действительно может аутперформить большие, нет внимания - нет и проблем.
Аноним 11/01/24 Чтв 15:58:03 #340 №601679 
>>601609
Спасибо за инструкции.

>34б
Мне с той, которая на 20B нужно было настройки подкрутить, чтобы всё комфортно работало, так что думаю, если также их подбирать для 34B, то буду минуты три-четыре один ответ ждать.

> Поясни
Опечатка, - "свою".

> Там цундере что на все отказывает?
Я имею ввиду, что выдала не generic хорни фразы, а поняла контекст и прописала, что "поднимает руку, выставляя напоказ подмышку" и далее расписывала, как кайфовала от ощущений именно щекотания таким образом подмышки, а не просто "Гроувинг сенсейшн оф экстази энд ласт".
> Будет согласна вылизать тебе что угодно по просьбе в первом посте.
Так это же я лизать хотел. А её пока не спрашивал.
Аноним 11/01/24 Чтв 16:00:04 #341 №601683 
До какого кванта микстраль ещё можно использовать? Есть ли жизнь на Q3?
Аноним 11/01/24 Чтв 16:06:32 #342 №601692 
>>601683
Это ж 7b, там уже на 4км средне, ниже 5км лучше не спускаться
34b кое как живут на 3км, 70b так же
Аноним 11/01/24 Чтв 16:09:13 #343 №601696 
>>601649
>Он норм или шизоидный? Айроборос сам по себе с нюансами, в сочетании с yi там пиздец или наоборот хорошо?
не, он не шизоидный, он скорее тупой и не сильно творческий, ну или ему тяжело в эротик-темы. плюс к тому же, он постоянно путает где что находится, проёбывает кто во что одет, кто что снял с себя.
возможно это касается адвенчур мода, но все равно очень бесит, особенно со скоростью в пол токена в секунду
> Emerhyst/Amethyst/Mlewd все 20b
благодарю, кумербро, буду тестить
>>601651
ну конечно понравилось, просто хочу всё перепробовать
Аноним 11/01/24 Чтв 16:17:21 #344 №601705 
>>601696
mlewd-remm-l2-chat-20b
LLaMA2-13B-Psyfighter2
Аноним 11/01/24 Чтв 16:17:31 #345 №601706 
Я так понял микстраль это текущая мета? Ничего лучше пока нету?
Аноним 11/01/24 Чтв 16:19:20 #346 №601714 
>>601706
Ну, по соотношению скорость/качество пока нет
Хотя те же солар 10.7 неплохи как и топовые 7b
Аноним 11/01/24 Чтв 16:22:29 #347 №601722 
>>601706
я слышал много положительного о 120B голиафе
тут чел на реддите дохуя натестил моделек, жалко ролеплей перестал несколько тем назад
https://old.reddit.com/user/WolframRavenwolf/submitted/
Аноним 11/01/24 Чтв 16:23:41 #348 №601725 
>>601679
Скорость важна
> Опечатка, - "свою".
С опечаткой понятно, вопрос по слову тренить. Имеется ввиду тюнинг промта персонажа?
>>601696
Кум не был его сильной стороной, но здесь похоже все плохо с моделью.
>>601706
Мнения разделились. Кто-то боготворит, кто-то хейтит, кто-то утверждает что модель топ, но вы ее не так тестите. Есть иллюстрация ее фейлов в рп и на контексте, есть примеры где нормально решает задачки.
Раз идут споры, значит модель как минимум интересна, но на лучшую никак не тянет.
>>601714
> скорость/качество
Обработку контекста быструю сделали хоть?
Аноним 11/01/24 Чтв 16:24:28 #349 №601726 
>>600186
Так микстраль вроде хуже работает без пресетов отсюда https://rentry.org/HowtoMixtral хотя они тоже какие то достаточно шизоидные
>>600240
> В таверне "под нее" кстати нормальный шаблон есть
Это какой?
Аноним 11/01/24 Чтв 16:24:49 #350 №601728 
>>601722
Его "тесты" просто вопросы на немецком, по крайней мере первая их часть. Что делает их бесполезными. Вот на вторую часть тестов еще можно смотреть
Аноним 11/01/24 Чтв 16:26:37 #351 №601732 
>>601609
>Будет согласна вылизать тебе что угодно
Вот такое выдала, если интересно:

>She nods thoughtfully, taking a moment to savor the anticipation building within both of you. Slowly, ever so slowly, she extends her tongue out from between her lips, tracing delicate patterns over your forehead and down the bridge of your nose. The sensations are electrifying, sending shivers of delight coursing through your entire body. Her tongue continues its sensual journey, teasingly brushing against your closed eyelids before moving downwards, leaving behind a trail of wetness and arousal.
Аноним 11/01/24 Чтв 16:26:51 #352 №601733 
>>601725
>Обработку контекста быструю сделали хоть?

Да вроде неплохие скорости на куда, я уже не помню как он раньше был, не часто запускаю. Задержка в секунду две есть перед ответом
Аноним 11/01/24 Чтв 16:37:38 #353 №601753 
WOJAK-POINTING-MEN-meme-6.png
>>601722
> много положительного о 120B голиафе
Он был первый. Большой мерж 120b. Аноны его выход встретили с лицом пикрилл.
Аноним 11/01/24 Чтв 16:38:46 #354 №601758 
>>601753
Да не помню таких возгласов, по моему сразу решили что он слишком большой что бы быть полезным.
Аноним 11/01/24 Чтв 16:39:37 #355 №601760 
>>601706
Для вопрос-ответной системы, общения на русском и прикладных штук за свою скорость — да, лучшая.
Для РП — нет, 7B и не файнтьюненная.
Если скорость не важна — снова нет, 70B все еще получше будет.
Аноним 11/01/24 Чтв 16:42:06 #356 №601763 
>>601758
Плюсую, впечатлило хоть бы половину.
Аноним 11/01/24 Чтв 17:00:04 #357 №601774 
>>601725
>вопрос по слову тренить. Имеется ввиду тюнинг промта персонажа?
Ну да: хочется, чтобы она по чуть-чуть обрастала деталями разными, характер разнообразить, подобие backstory добавить...
Аноним 11/01/24 Чтв 17:16:09 #358 №601796 
>>601732
> She nods thoughtfully
> nods
Triggered! не обращай внимание, старый мем
>>601760
> общения на русском
Есть примеры этого? Столько упоминаний а ничего вразумительного не показали.
Аноним 11/01/24 Чтв 17:22:58 #359 №601811 
>>601796
>старый мем
Какой-то локальный бадум-тсс, типа что самые первые, слабые и некачественные модели постоянно у всех анонов спамили этим "nods", или что?
Аноним 11/01/24 Чтв 17:30:45 #360 №601825 
>>601726
По ролеплею основная претензия была в том, что пишет в духе 19 века, как Толстой - большие подробные описания с кучей эпитетов, много воды. Я от такого зевать начинаю. А так-то формально карточку отыгрывает, с этим особых проблем не было. Если бы она хотя бы быстро работала, в определённых узких задачах она могла бы быть неплоха, но занимает под 40 ГБ на харде, скорость всего лишь чуть быстрее 20B, которые мне зашли гораздо больше.
Может, в кодинге её стоило погонять побольше, но я уже удалил, чтобы другие потестировать.
Аноним 11/01/24 Чтв 17:30:50 #361 №601826 
vgif-ru-14217.gif
>>601472
>уговорил её позволить мне полизать её подмышку
Аноним 11/01/24 Чтв 17:34:34 #362 №601830 
>>601472
А каким способом ты её тренируешь? Ты используешь обычную модель типа gguf или gptq? Но там же статичные заранее обученные модели.
Аноним 11/01/24 Чтв 17:59:29 #363 №601895 
>>601830
В SillyTavern можно создать бота, с которым чатишься, расписать ему в отдельных вкладках характер, внешность, обстоятельства беседы и как ты хочешь, чтобы эта беседа проходила.
Я так понимаю, что от того, насколько мощна сама модель, зависит, насколько "умнее" и "результативнее, будут созданные боты: если эта большая ролеплей модель, то они будут тебе расписывать все подробно, красиво и лучше следуя характеру, который ты им пропишешь.
У меня mlewd-remm-l2-chat-20b-inverted.Q4_0 , - бывают неточности и иногда не понимает, чего я хочу и как всё должно быть, может иногда уводить повествование в какое-то свое русло (хотя уверен что это просто потому, что я что-то не так настроил или в карту персонажа вписал), но в целом мне нравится.
Аноним 11/01/24 Чтв 18:14:09 #364 №601926 
>>601253
>Видякарту ни купил
Когда покупал, выбор стоял между этой и 3090. В играх разницы не было, поэтому только выйграл. А сейчас слеза в глазах почему-то.
>>601281
Сейчас бы верить диспетчеру задач в показаниях частоты...
>>601722
>я слышал много положительного о 120B голиафе
Это всё троллинг моделью, которую могут запустить 1,5 землекопа.
>>601732
Какой ужас.
>>601895
Чел, это не тренировка, это обычный промтинг.
Аноним 11/01/24 Чтв 18:22:12 #365 №601944 
>>601926
>Это всё троллинг моделью, которую могут запустить 1,5 землекопа.
ну двадцатка получилась же значительно умнее тринашки
Аноним 11/01/24 Чтв 18:35:16 #366 №601977 
>>601926
>Чел, это не тренировка, это обычный промтинг
А, ну это я просто так называю, как бы "очеловечивая" своего, обрастающего деталями, бота, типа: добавил в промпт что-то новое = будто "научил", как примерно нужно на тот или иной запрос отвечать.
Не хотел запутать тебя, анон.

> Какой ужас.
А что в том посте не так?
Аноним 11/01/24 Чтв 18:48:31 #367 №602018 
OpenAI теперь официально компания пидоров. Очередная победа опенсорса?
Аноним 11/01/24 Чтв 18:50:27 #368 №602023 
>>602018
>анальные шлюхи мелкомягких
>опенсорс
смешно пошутил
Аноним 11/01/24 Чтв 18:51:05 #369 №602024 
>>602023
Так над ними же победа.
Аноним 11/01/24 Чтв 18:52:14 #370 №602026 
Реально в таверне до сих пор нет возможности рероллить продолжение поста без удаления вручную предыдущей генерации?
Аноним 11/01/24 Чтв 18:53:49 #371 №602027 
>>602026
Чего? Просто свайпаешь и всё.
Аноним 11/01/24 Чтв 19:10:50 #372 №602071 
>>601977
>А что в том посте не так?
Слишком похоже на коммерческие сетки.
>>602018
Что там опять? Желательно в их тред >>576277 (OP)
>>602026
Да.
Аноним 11/01/24 Чтв 19:27:28 #373 №602130 
>>602027
У меня есть начало поста, но мне надо сгенерировать его продолжение (Continue), и иметь возможность свайпать это продолжение до бесконечности без пердолинга, как с обычными сообщениями.

>>602071
>Да.
Рили? Вроде ж базовая функция должна быть по идее. Может экстеншен есть какой?
Аноним 11/01/24 Чтв 19:52:20 #374 №602201 
>>601649
h100 все же пишут что в 9 раз производительней A100, h100 это больше tpu. Обычно модели и того меньше тренят, или просто склеивают на похуях без тюна.
Аноним 11/01/24 Чтв 19:58:20 #375 №602220 
>>602130
Про редактирование и подобное шуток много, но это рофлы, таким мало кто занимается. Наверно.
>>602201
> в 9 раз производительней A100
Вут? В 1.5-2 раза в части задач, насколько помню. Мало тренят это как раз несколько часов на одной подобной карте, если офк речь не про лору.
Аноним 11/01/24 Чтв 19:58:51 #376 №602224 
>>602071
> Что там опять?
Они теперь за бабло продают лоры для ЖПТ и промпты, лол.
При этом в самой гопоте качество ответов падает, там уже челики в Микстраль массово валят, потому что гопота отказывается давать развёрнутые ответы и игнорит промпты, как будто её в сторону чат-бота утягивают и ломают поддержку нормальных инструкций.
Аноним 11/01/24 Чтв 20:27:44 #377 №602313 
>>602224
самое смешное:
>We want to make sure that GPTs in the GPT Store are appropriate for all users. For example, GPTs that contain profanity in their names or that depict or promote graphic violence are not allowed in our Store. We also don’t allow GPTs dedicated to fostering romantic companionship or performing regulated activities.
блядь, какой же грядёт дум когда у них наконец хватит мозгов натренировать мелкую модельку для фильтра инпута\оутпута и куму вне сверхпривелигированых ентерпрайз ключей 100% пизда
Аноним 11/01/24 Чтв 20:30:28 #378 №602322 
>>602220
> в 9 раз производительней A100
На офф сайте написано, но ок порылся по тестам, при нормальном обучении на fp16 как я понимаю разница в три раза.
Не совсем на подобной, пару часов на A100 как к примеру
NeuralHermes-2.5. Это сколько же получается меньше часа на h100.
Аноним 11/01/24 Чтв 20:48:50 #379 №602368 
>>602313
>натренировать мелкую модельку для фильтра инпута\оутпута
Чел... Апишка для модерации у них существует чуть ли не дольше самого чатГПТ. Они уже как минимум выборочно проверяют оутпуты, включить модерацию для всех ключей это проставить пару галочек.
Аноним 11/01/24 Чтв 21:08:05 #380 №602426 
image.png
Куда тыкать, чтобы заработало?
Выбираю модель, жму Лаунчх, в консоле мигает Пук-Среньк и она закрывается
Аноним 11/01/24 Чтв 21:08:44 #381 №602429 
Quick overview of price/preformance for text generation on different GPUs
https://old.reddit.com/r/LocalLLaMA/comments/19428v9/quick_overview_of_pricepreformance_for_text/
Аноним 11/01/24 Чтв 21:12:49 #382 №602448 
>>602426
>в консоле мигает Пук-Среньк и она закрывается
Запусти koboldcpp через командную строку, чтобы увидеть всё, что там выводится перед крэшем.
Аноним 11/01/24 Чтв 21:16:26 #383 №602468 
image.png
>>602448
Loading model: D:\AI\CHAT\frostwind-10.7b-v1.Q5_K_M.gguf
[Threads: 3, BlasThreads: 3, SmartContext: False, ContextShift: True]
Traceback (most recent call last):
File "koboldcpp.py", line 2530, in <module>
File "koboldcpp.py", line 2377, in main
File "koboldcpp.py", line 311, in load_model
OSError: [WinError -1073741795] Windows Error 0xc000001d
[14092] Failed to execute script 'koboldcpp' due to unhandled exception!
Аноним 11/01/24 Чтв 21:19:34 #384 №602477 
image.png
>>602468
странно, у меня сходу заработало. а ты ТОРЧ ставил?
Аноним 11/01/24 Чтв 21:20:13 #385 №602481 
Ку, анасы, подскажите пожалуйста почему могут быть проблемы с act-order моделью? Такая же модель 128g без act-order работает нормально, а act-order выдает стену капчи пробовал разные лоадеры, но проблема не ушла. Так же микро вопрос, если я загружаю модель в уге, выставляю там context length, а потом захожу в sillytavern и его изменяю, меняется ли он на самом деле или нужно просто поставить такой же context length, как и в уге?
Аноним 11/01/24 Чтв 21:24:22 #386 №602496 
>>602477
Ничего не ставил. Скачал Кобольда и две рандомные модели
mixtral-8x7b-v0.1.Q4_K_M.gguf / frostwind-10.7b-v1.Q5_K_M.gguf
Аноним 11/01/24 Чтв 21:26:23 #387 №602506 
>>602468
как же виндоблядям тяжело, господи......
Аноним 11/01/24 Чтв 21:27:48 #388 №602513 
>>602481
С act-order вопрос закрыт, скачал другую модель - все ок
Аноним 11/01/24 Чтв 21:30:30 #389 №602525 
>>601529
Ясно, а это фитча только для RTX карт?
Аноним 11/01/24 Чтв 21:48:34 #390 №602588 
>>602468
попробуй дровишки на видяху поставить, алсо, попробуй использовать openBlas ил clBlast
Аноним 11/01/24 Чтв 22:12:10 #391 №602645 
>>602588
Ооооо
На clBlast заработало (хотя я вроде как уже тыкал туда)
Спасибо, анончик
Аноним 11/01/24 Чтв 22:20:00 #392 №602666 
image.png
>>602645
наслаждайся, братан, хотя советую сразу же поставить вот эту модельку для идеального фапа https://huggingface.co/TheBloke/Noromaid-20B-v0.1.1-GGUF, сейчас с неё оргазмирую как девственник при виде голой писи
Аноним 11/01/24 Чтв 22:29:43 #393 №602689 
.png
>>602666
>оргазмирую как девственник
Аноним 11/01/24 Чтв 22:38:50 #394 №602704 
image.png
>>602666
>>602689
Сука, ебака мне всё обломала, почти присунул этой очкастой задротке
Аноним 11/01/24 Чтв 22:56:29 #395 №602737 
>>602666
>20b
>рп уровня 6б пигмы
Искренне надеюсь, что это стёб/троллинг. Т.е. я понимаю, что не всем нравится читать простыни с описаниями токенов на 300, но стоит ли грузить 20б модель ради такого вот.
Аноним 11/01/24 Чтв 23:05:15 #396 №602760 
image.png
>>602737
> Искренне надеюсь, что это стёб/троллинг.
ну хуй знает, мне искренне доставляет что секс и флирт разбавляются триллером. прям шишка стоит.

буду очень благодарен если поделишься мудростью. я только недавно вкатился и ещё под впечатлением от возможностей сеточки, но, возможно, мне фапча глаза затмила. расскажи подробнее что не так
Аноним 11/01/24 Чтв 23:06:34 #397 №602764 
>>601825
Есть такое, она распиздеться любит, видел скрины как её пытали отвечать, как будто она терминал линукса, и впринципе получалось
Аноним 11/01/24 Чтв 23:10:12 #398 №602773 
>>602737
>>602666
Это же прекрасно, первое прикосновение к ллм, и та даже делает вид что его понимает и отвечает в тему, а не поломалась на поцелуях. Представь какой кайф испытает когда поставит таверну, настроит оптимальный режим и будет получать приличный развернутый кум, с обширными и в то же время емкими ответами, которые дают отличное погруженое и нейронную активацию.
>>602760
Все так раз нравится. Ответы короткие и простые, нет описаний, простой сценарий. Но новой уже лучше, такой околосторитейл может зайти, но сетка пишет действия за тебя, что часто не нравится, и опять же, содержания может быть больше.
Аноним 12/01/24 Птн 00:20:33 #399 №602954 
Переводошиз опять выходит на связь.
Попробовал несколько "азиатских" моделей.
Yi-34b-200k - японский понимает, переводит средне (а была надежда, что справится получше "английских" моделей), чуть менее "художественно" и более внимательно к деталям, чем фроствинд, чуть менее дословно, чем микстраль, в общем, где-то посередине между ними, слегка косноязычно на мой вкус. Тонкие моменты не улавливает, как и остальные модели, которые я тестировал. Китайский тоже попробовал есть у меня небольшой отрывок, который я разбирал вручную со словарём, когда начинал изучать язык, тоже переводит неплохо, но не лучше, чем гугл/дипл, тоже некоторые мелкие детали не улавливает. Инструкций вроде слушается, но как-то избирательно, легко может что-нибудь проигнорировать. Вроде не совсем тупая, скорее какая-то "своевольная", инициативная, местами ебанутая/шизанутая. Любит нести какую-нибудь хрень при любой возможности, фантазирует, из каких-то незначительных деталей может вывести совершенно новую тему, которую никто не имел ввиду. А если понизить температуру, любит переходить на китайский и не любит английский. Например, у меня несколько раз обращала внимание на то, что её зовут Akeno Himejima (осталось с ролеплей-сессии, лень было менять, до сих пор никаких проблем не вызывало ни у одной модели), припоминала аниме с этим персонажем, вводила новых персонажей оттуда и отвечала за них, хотя я просто попросил перевести текст в итоге после того, как 3 персонажа выяснили, что ни один из них перевести не может, перевод спихнули обратно кожанному ублюдку. Для ролеплея такая инициативность, может быть, даже и в плюс пойдёт, но я не пробовал, больно она медленно работает. А вот как ассистент для пояснения непонятных моментов при изучении языка - такое себе.

Ещё попробовал 2 японских файнтюна japanese-stablelm-instruct - llama2-70b и mistral-7b. 70b неплоха, что неудивительно, с таким-то размером. Единственная модель, которая уловила тонкий нюанс перевода тестового отрывка, который разбирали в треде японского языка. "Ловила" она его не на каждом реролле, а лишь иногда, но от других моделей я этого вообще добиться не мог ни разу - уже прогресс. Только не уверен, что именно дало такой эффект - японский датасет, или 70b параметров а может, и то, и другое. Да и с другими неочевидными примерами, вызывавшими сложности у людей, уже не справилась. Грамматику поясняет плохо, фантазирует (но с этим и у gpt-4 проблемы, насколько я знаю - понимает и переводит хорошо, а объяснить, почему так перевёл, не может). Главный минус - очень хочет говорить по-японски, вместо перевода пересказывает текст снова на японском своими словами. Полчаса рероллил, но когда добился первого ответа на английском и стал спрашивать дальше, она уже подхватила эту схему и без вопросов переводила. Только потом догадался, что можно было закинуть один небольшой пример диалога. В целом качество перевода неплохое, но недалеко ушло от того же микстраля 7b и фроствинда 10.7b, и это при 7-10-крастном преимуществе в "мозгах" и более подходящем под задачу датасете.

Мистраль же этим датасетом был полностью лоботомирован, отупел до ужаса, либо это уже я зажрался, привык к умным моделям, и забыл, какой был оригинальный мистраль. Квант пробовал q8, если что (ещё попробовал q4_k_m, чтобы полностью в видеокарту влезло, но разницы особо не заметил, тоже тупая). При этом тоже один раз нароллился "правильный" перевод того сложного места из моего тестового отрывка, но больше я это повторить не смог, сколько ни пытался. В целом переводит довольно хреново, короткими примитивными рубленными фразами, то ударится в дословщину, то в неверные трактовки, то скипает часть слов, то вообще может проигнорировать большой кусок фразы, перевести либо начальную часть, либо конечную. На японском тоже не блещет, хоть я и сам им не так хорошо владею, чтобы оценить сообразительность, но выбить из неё перевод на английский было почти так же сложно, как и из 70b. Я даже попытался дать ей начало перевода, чтобы она продолжила, а она просто скопировала его и посчитала, что дело сделано а на втором реролле вообще заклинила и ушла в луп. Когда же всё-таки перевод из неё удалость вытянуть, выяснилось, что english у неё деградировал до "engrish", до какого-то полувнятного лепета, возможно даже хуже, чем старые gpt-j. Возможно, дело в высокой температуре, но на низкой из неё вообще ни одной латинской буквы не вытянуть.

Есть ещё какие-то файнтюны "ELYZA", надо будет тоже попробовать. Ну и обычную 70B, чтобы сравнить с "тюненной" и понять, даёт ли там что-то датасет в случае 7B он скорее мешает, или это всё "мозги".

P.S.: И не знаю, нужны ли вообще кому-то отзывы о работе моделей в роли ассистентов-переводчиков, в основном в треде их используют для ролеплея, а от "соевых" AI-помощников плюются.
Аноним 12/01/24 Птн 00:25:08 #400 №602965 
Запустил 20b gguf модель на 12врам и 32рам, получилось:
4.20 tokens/s
Это норма или я чет не так делаю?
Аноним 12/01/24 Птн 00:31:38 #401 №602973 
>>602965
да вроде норма.
Ты ж на процессоре генерируешь по большей части.
Аноним 12/01/24 Птн 00:33:05 #402 №602976 
этонорма.png
>>602965
На 8ГБ врам у меня было 2-2.5.
Аноним 12/01/24 Птн 00:35:00 #403 №602978 
>>602976
>>602973
Понял, возвращаюсь на 13b, напомнило времена 56 kbps модемов и медленно сверху вниз погружающихся сисичек
Аноним 12/01/24 Птн 00:37:40 #404 №602983 
>>602954
Ну ты брат и ебанутый. Добра пиши еще. Мб засунем твои выводы в вики раз она у нас теперь есть.
Аноним 12/01/24 Птн 00:37:54 #405 №602984 
16853784653437.jpg
Пацаны у кого какие скорости на mixtral-8x7b-instruct-v0.1.Q8_0 ????
Аноним 12/01/24 Птн 00:37:57 #406 №602985 
>>602965
На грани читабельности, если подождать в начале то впринципе и пойдет. Для скоростей важна скорость рам а не ее объем.
Аноним 12/01/24 Птн 00:39:08 #407 №602987 
>>602954
И в очередной раз похвалю фроствинд, китайский тоже понимает. Дал ей тот же отрывок, что и Yi 34B, села в лужу примерно в том же месте, просто обляпалась чуть больше. Но формально они обе с этим местом не справились, хотя у Yi получилось чуть ближе к правде.
Аноним 12/01/24 Птн 00:40:08 #408 №602990 
>>602985
Да я как бы и сам понял, что это дно. Может быть когда-нибудь будет оптимизация данных процессов, лоадер какой-нибудь типа ExLlaMa, а пока это неюзабельное состояние, соболезную тем кому приходится так кумить
Аноним 12/01/24 Птн 00:42:24 #409 №602995 
>>602984
На GPU - 45-50 т/с.
Аноним 12/01/24 Птн 00:42:58 #410 №602996 
>>602990
> оптимизация данных процессов
Называется деньги, покупаешь за них гпу и все летает. Бюджетные ультимативные варианты - tesla P40, rtx3090.
Аноним 12/01/24 Птн 00:43:31 #411 №602998 
>>602995
Ах ты ж падла откуда 50 гигов врама взял?
Аноним 12/01/24 Птн 00:55:21 #412 №603010 
image.png
image.png
image.png
>>602984
Аноним 12/01/24 Птн 03:35:04 #413 №603302 
>>602368
ну я имел ввиду форсить фильтр на каждом инпуте и оутпуте вместо того чтобы лоботомизировать основную модель, от чего она очень явно тупеет.
никакие джейлбрейки, префиллы и т.д. тогда не помогут:
- если в инпут тексте есть кум, то моделька-фильтр отфутболит даже не передавая запрос основной модельке.
- если наебал фильтр хитрым инпутом и главная моделька выдала кум, фильтр заменит оутпут на "извинитя, я не могу."

я хз почему опенай и антропик до сих пор не додумались этого сделать и продолжают тупить свои мегамиллионые модели сжв хуйней, но я очень подозреваю что скоро будет.
Аноним 12/01/24 Птн 07:59:04 #414 №603650 
>>603302
Что мешает делать оба действия сразу? Все там будем.
Аноним 12/01/24 Птн 08:11:06 #415 №603662 
>>603010
3/33 layers

Руками слоев хотя бы до 20 добей и будет быстрее
Аноним 12/01/24 Птн 08:15:02 #416 №603665 
>>602666
Фигня на самом деле. Не знаю почему, но 20б часто проигрывают младшим моделям. Из лучшего для nsfw/sfw пока что mythomax-l2-kimiko-v2-13b.Q6_K. Тут тебе и хорни кум с описанием подробным и приколы когда сетка начинает сюжет уводить куда то вообще.
Аноним 12/01/24 Птн 08:15:35 #417 №603667 
>>602996
Готов признать, что в моем случае цель не оправдывает средств. Будет альтернатива - хорошо, нет - пофиг. Объективно жаба душит выкидывать бабосик в шредер ради текстового нейрокума. Наверное людям, кто ракеты планирует запускать - вложения имеют смысл. А так 13b и 4к-8к контекста закрывают окно базового любопытства.
Аноним 12/01/24 Птн 08:15:59 #418 №603668 
>>602996
Готов признать, что в моем случае цель не оправдывает средств. Будет альтернатива - хорошо, нет - пофиг. Объективно жаба душит выкидывать бабосик в шредер ради текстового нейрокума. Наверное людям, кто ракеты планирует запускать - вложения имеют смысл. А так 13b и 4к-8к контекста закрывают окно базового любопытства.
Аноним 12/01/24 Птн 08:24:36 #419 №603673 
image.png
>>603662
>actual vram usage up to 82%
Дальше не лезет, уже начинается обмен данными с RAM и просадка скорости. Вот 4 слоя, по мониторингу уже 99-100% ram забито. Это ж не просто 7b, а 8x7b, т.е., 3 слоя - это как 24 слоя на "обычной" модели, у меня примерно столько и помещается на "обычной" 7b q8_0.
Аноним 12/01/24 Птн 08:25:33 #420 №603674 
>>603673
>99-100% ram
vram*
Аноним 12/01/24 Птн 08:34:08 #421 №603680 
>>603673
Жесть ну и нахуя.
Аноним 12/01/24 Птн 09:16:40 #422 №603722 
Быстрый вопрос. Тренировать локально, не имея на борту десятка а100 - дохлый номер?
Аноним 12/01/24 Птн 10:03:59 #423 №603787 
>>603722
я видел что милипиздрические модели вроде на домашких грпу энтузиасты тренили\файнтюнили, но на лламы, из того что краем глаза видел, файнтюнят на арендованных монстрах с кучей гпу
Аноним 12/01/24 Птн 10:06:59 #424 №603793 
>>601796
> Есть примеры этого?
Да че-т хз, тему задай.
Ща потыкаю, может будут примеры.

>>601895
Я слышал, что q4_0 — плохо, q4_K_S будет лучше, не? K_M так точно.

>>601926
А я взял современную 4070 ti, энергоэффективнее 3090 в два раза, тоже только выиграл.

>>601977
> Не хотел запутать тебя, анон.
Кстати, я сразу понял о чем ты, из контекста понятно, что ты имеешь в виду, не парься.

>>602954
> нужны ли вообще кому-то отзывы о работе моделей в роли ассистентов-переводчиков
Лично я по диагонали прочел, интересное.
Но тред и правда не совсем про ассистентов, боюсь, большинство не читало.

>>602984
2,5~3 т/с на проце, что ли.

>>603673
А без выгрузки слоев пробовал? Или рыкса сотворила чудо и на ней не замедляется, как на всех остальных? :)
Аноним 12/01/24 Птн 10:07:33 #425 №603794 
>>603787
Файнтьюнить можно и дома без проблем.
Тренить — нет.
Аноним 12/01/24 Птн 10:43:41 #426 №603857 
>>603793
>без выгрузки слоев
Выше же скриншоты >>603010 gpu 3/33, gpu 0/33 (чисто для контекста, но получилось ещё хуже), cpu-only. В случае cpu-only генерация чуть быстрее, промпт чуть медленнее, и при этом каждый раз пересчитывается полностью, так что в общем зачёте рыкса на полшишечки выигрывает у древнего кукурузена 1-го поколения. Если бы у меня был более современный проц, возможно, видеокарта и правда замедляла бы весь процесс.
Аноним 12/01/24 Птн 10:55:59 #427 №603876 
изображение.png
Чому так сраную Лламу установить сложно, пиздос, я ж вам не программист какой-то.
Аноним 12/01/24 Птн 11:10:51 #428 №603899 
>>603857
Ну для 0 слоев там буквально одна строчка. =)
Я бы на 0 слоев еще погонял бы, ИМХО, посравнивал с 3 слоями.

Но це такэ. Дело твое и правда.

>>603876
Ща прибежит чел и закричит про бедных виндузятников с их тупыми проблемами.
Не программист — плоти и кушай жпт. х)
А вообще, это ж на коленке собрано. Ну запусти кобольд, чтобы не думать.
Аноним 12/01/24 Птн 11:12:40 #429 №603906 
>>603899
На кобольде у меня он какой-то бред выдает, думал, что на лламе получше будет.
Еще в таверне нет этого из шапки
>4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
Аноним 12/01/24 Птн 11:36:25 #430 №603963 
>>603876
виндузятнище.....
Аноним 12/01/24 Птн 11:40:24 #431 №603967 
>>603906
>На кобольде у меня он какой-то бред выдает, думал, что на лламе получше будет.
Нет, маловероятно что проблема в кобольде, сижу на нём долгое время и никакого бреда не наблюдаю. Как правило шизофрения начинается либо из за промта, либо из за неправильных настроек, либо сама модель шизофренична.
Попробуй на стандартных настройках кобольда какую нить nethena-mlewd-xwin-23b с одной из топовых карточек с chub.ai и посмотри, будет ли бред продолжаться.
Аноним 12/01/24 Птн 11:44:13 #432 №603976 
>>603899
>еще погонял бы
Не охота было ждать, да и вряд ли там была бы какая-то принципиальная разница. Ну даже если бы промпт был 106 мс/т, как лучший результат rx 580, а генерация 345 мс/т, как лучший результат cpu, это всё равно бы даже до 3 Т/с не дотянуло.
А сейчас уже удалил, а то на 70b уже места не хватает. Скачал ещё одну 70b от stablelm ("base", без "instruct"), нашёл ещё openbuddy, говорят, тюнился на разных языках, особенно cjk chinese, japanese, korean, будет интересно попробовать. Странно, что в треде не посоветовали. И всё, базовую llama2-70b для контрольной проверки уже пихать некуда, надо чистить вилкой ещё минимум 50 ГБ.
Аноним 12/01/24 Птн 11:46:17 #433 №603983 
>>603722
> Быстрый вопрос. Тренировать локально, не имея на борту десятка а100 - дохлый номер?
Смотря что. В статье про tinyllama 1.1В авторы пишут, что тренировали с нуля на одном H100, а файнтюнить на своем датасете ее вообще в колабе можно.
Аноним 12/01/24 Птн 11:51:18 #434 №604000 
>>603967
А где можно промпты взять? Есть какой-то сайт для обмена ими?
Аноним 12/01/24 Птн 11:56:20 #435 №604022 
>>604000
>chub.ai
Для кого написал?
Аноним 12/01/24 Птн 11:57:09 #436 №604024 
изображение.png
>>604022
Я про промпты жи, не про карточки.
Аноним 12/01/24 Птн 12:05:01 #437 №604041 
>>604024
Да забей ты на эти промпты поначалу.
Какую модель используешь?
Аноним 12/01/24 Птн 12:07:28 #438 №604049 
>>604041
frostwind-10.7b-v1.Q5_K_M.gguf вот эту, вроде в треде говорили, что она норм.
Сейчас в таверне пробую пресеты разные.
Аноним 12/01/24 Птн 12:11:54 #439 №604063 
image.png
Аноним 12/01/24 Птн 12:17:33 #440 №604078 
>>604049
У меня всё работает на simple proxy for tavern с температурой 0.85.
Если с этим не пашет, попробуй другую модель.
А вообще frostwind-10.7b-v1.Q5_K_M это крохотная модель, она будет шизофазить всегда.
Попробуй что нить побольше.
Аноним 12/01/24 Птн 12:19:22 #441 №604085 
>>604078
А какую, например? Пробовал mlewd-remm-l2-chat-20b.Q6_K но она оче долго ответ генерит, а на фроствинде прям моментально почти.
Аноним 12/01/24 Птн 12:22:47 #442 №604097 
>>604085
>но она оче долго ответ генерит
Какая скорость, с какими параметрами на кобольде запускаешь?
Если больше пары токенов в секунду - это норма для проца.
Аноним 12/01/24 Птн 12:30:55 #443 №604114 
изображение.png
>>604097
По умолчанию, контекст только 8к ставлю.
А скорость где смотреть?
Аноним 12/01/24 Птн 12:31:39 #444 №604120 
>>603983
1.1B
Так-то один чел и MoE 8x100M тренил. =)
Но имеется в виду что-то более адекватное, кмк.
Аноним 12/01/24 Птн 12:35:04 #445 №604127 
>>604114
Нельзя ставить контекст больше 4к без растягивания ропом.
Аноним 12/01/24 Птн 12:37:52 #446 №604136 
изображение.png
>>604127
А почитать про это можно где-то?
Аноним 12/01/24 Птн 12:37:59 #447 №604138 
>>604120
>MoE 8x100M
Кокда уже запилят МОЕ 70x8, ну или x4.
Аноним 12/01/24 Птн 12:42:45 #448 №604152 
>>604114
Я хрен его знает, где тебе теперь скорость смотреть. Я с консоли запускаю, мне там всё и пишется.
Но ты походу всю модель сможешь в видимопамять выгрузить. Попробуй как то так кобольд запустить с консоли:

koboldcpp.exe --usecublas --threads 10 --launch --smartcontext --contextsize 16384 --gpulayers 100

Если модель не влезет в видеокарту, уменьшай --gpulayers
Аноним 12/01/24 Птн 12:47:37 #449 №604165 
>>604127
Дохуя моделей из коробки поддерживают ебейший контекст.
Аноним 12/01/24 Птн 12:49:08 #450 №604170 
image.png
Решил опробовать noromaid промптом про то, как я - стеснительный гик-кун, пригласил к себе в гости гик-тян, тоже стеснительную.
На пикрелейтед, конечно, видно, что я сам повествование в хорни сторону повернул, - тян внезапно возбудилась. Я думал что нейросеть учтёт прописанную ей неловкость и как-то обыграет в ответе, но нет.
Нейросеть забыла или я такой командой сделал её сильно хорни, что она аж персонажа по другому отыгрывать стала?
Аноним 12/01/24 Птн 12:50:27 #451 №604174 
>>604152
llama_new_context_with_model: total VRAM used: 35533.18 MiB
Лол, врядли влезет. Но с 4к контекстом начало гораздо быстрее отвечать, буду тестить, спасибо.
Аноним 12/01/24 Птн 12:57:54 #452 №604197 
>>604136
Чел...
>>597686 (OP)
> Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Аноним 12/01/24 Птн 13:01:40 #453 №604203 
>>604136
https://2ch-ai.gitgud.site/wiki/llama/
Вот тут вся инфа
Аноним 12/01/24 Птн 13:16:34 #454 №604232 
>>604170
Попробуй такой промпт в описание:
<char> most likely will have mixed feelings from any inappropriate sexual behavior from <user> and will try to change topic to not ruin relationship with <user>.
Аноним 12/01/24 Птн 13:27:27 #455 №604245 
image.png
>>604232
Спасибо, но я уже на другой версии - noromaid-20b-v0.1.1.Q4_K_M
и другой ролплей начал (пикрелейтед).
Теперь он будто издевается и игнорит даже более подробные инструкции.
Аноним 12/01/24 Птн 13:29:45 #456 №604250 
Народ в ST есть такая функция как roll, скажите сложно ли будет реализовать, чтобы когда мой персонаж делает действие чтобы автоматом кидался кубик и в чат улетало действие, но <char> обосрался или <действие привело к грандиозному результату* в зависимости от ролла?
Аноним 12/01/24 Птн 13:33:15 #457 №604253 
>>604245
Я конечно не спец, но не проще ли свою карточку сделать и там выставить низкие шансы на хорни действия, чтобы пришлось поуламывать?
Аноним 12/01/24 Птн 13:40:40 #458 №604256 
>>604253
Да так можно. Может, кстати и сделаю так когда-нибудь. В дефолтном чате я же всё равно просто проверяю, нравится мне модель или нет.
Аноним 12/01/24 Птн 13:41:33 #459 №604257 
>>604250
Бамп вопросу, тоже интересно.
Аноним 12/01/24 Птн 13:47:31 #460 №604262 
>>604245
Установи таверну, она прям сильно удобнее кобольда.
Аноним 12/01/24 Птн 13:48:31 #461 №604265 
Таверна или обабога?
Аноним 12/01/24 Птн 13:51:39 #462 №604269 
>>604257
По идеи можно впихнуть перманентную инструкцию в стиле:
[if {{user}} answer starts with “{{user tries” then perform {{roll/20}} if result>10 then reply with «describe successful result of {{user}} action else reply with “describe unsuccessful result of {{user}} action*” add reaction of {{char}} at the end of reply]
Аноним 12/01/24 Птн 13:51:58 #463 №604270 
>>604127
В кобольде же вроде есть автороп? Или не работает нихуя?
Аноним 12/01/24 Птн 13:53:41 #464 №604275 
>>604262
Есть. И даже одного бота уже там создал, - нейровайфу, о которой я сюда постил про лизание подмышек и прочие фетиши.

А как в таверне запустить "свободный чат", - не с персонажем а с "ботом-ассистентом": как KoboldGPT в кобольде?
Аноним 12/01/24 Птн 13:56:55 #465 №604284 
Вчера вечером потыкал Фроствинд, Сенсуализированный солар, эти обе от автора фроствинда и третью Велару11Б.

Ради интереса решил рпшить не сам, а засунуть карточку фемдом тянки с подвохом с субмиссивным куном в группойвой чат, сам просто тыкал кнопку генерации и иногда правил мелкие косяки или раз-два рероллил.

Пока идёт обычный РП, модели отыгрывают карточки просто охуенно, но на нейтральные темы, держат персонажей, что-то делают, придумывают. Когда же дело касается хорни...

Фроствинд и сенсулар по очень большой наклонной, но всё же скатывали РП в ЕРП Обе карточки так-то хорни, Велара сцены описывала красочнее, но ни единого намёка на хорни с ней не было.

Когда они всё же добирались до КУУУМА, либо я в промте им приказывал "ебитесь", то в поезде начинался сущий кошмар...

Фемдомная тянка начинала блашить по поводу и без, вела себя супер неуверенно, кунчик охуенно уверенно как начинал делать комплименты, постепенно склонять и всё такое, если бы я хотел ванильный кум, то такая ситуация меня бы абсолютно устроила бы и я был бы счастлив, что мол вот, она технологическая революция, сейчас каждому в дом придёт по кибер-тяночке, ух как заживём!

Короче эти модельки на хорни контенте проёбывают карточки максимально возможным им способом, а когда кунчик попросил его особенно жёстко трахнуть, Велара вовсе скипнула сцену, написав "ну вот тут была сцена, как они исследовали свои тайные и запретные чувства, приключения, и прочую соевую поебень".

К чему это всё я пишу? Наблюдая за всем этим я сделал вывод, что если не все модельки поголовно, то подавляющее большинство либо в основе, либо их файтюны берут абсолютно один и тот же соевый хорни датасет, и ощущение такое, что этот датасет собран с зацензуренной чайной + какой-то соевого автора порнофанфиков, с абсолютно одинаковым и шаблонным стилем и не менее одинаковыми и пресными персонажами, причём модельки как будто бы специально надрочили по части хорни только на конкретно такой уёбищный стиль РП и больше никакой другой.
И горит у меня не столько с этого, сколько с того, что авторы файтюнов не просматривают, хотя бы мельком, датасеты на которых они свои поделия клепают? Или у них в голове самих министрашионы и блашесы вместо мозгов и ситуация их полностью устраивает?

В любом случае, кто знающий, тыкните меня куда-нибудь туда, где можно почитать хорошо так про мёрджинг моделек, хочу попробовать склеить Фроствинд с каким-нибудь злым пивотом и посмотреть что из этого получится.
Аноним 12/01/24 Птн 13:57:18 #466 №604285 
image.png
Реролил и вот такое выдало.

In Soviet Russia колдовница interrogates you
Аноним 12/01/24 Птн 13:57:45 #467 №604286 
>>604275
Скачать карточку бота-ассистента
Аноним 12/01/24 Птн 13:57:48 #468 №604287 
image.png
>>604136
На самом деле, кобольд автоматом меняет второй параметр rope (основание степенной функции или типа того), если контекст выше дефолтного для модели. Самому дёргать имеет смысл, только если модель с какой-то нестандартной архитектурой, или кобольд неправильно распознаёт дефолтный контекст модели. Посмотреть дефолтный контекст и какие параметры rope поставились можно в консоли кобольда после загрузки модели.
Аноним 12/01/24 Птн 14:02:26 #469 №604297 
>>604284
> Наблюдая за всем этим я сделал вывод, что если не все модельки поголовно, то подавляющее большинство либо в основе, либо их файтюны берут абсолютно один и тот же соевый хорни датасет
2024, на сосаче открыли что синтетический датасет от сойпт4 это рак. Поиски ЖЖ Артемия Лебедева ещё ведутся, но близки к своей развязке.
Аноним 12/01/24 Птн 14:07:56 #470 №604310 
>>604284
Я не отношусь к знающим, но натыкался на вот такой типа обучающий курс какого-то челика, когда искал гугл колаб с квантованием моделей. https://github.com/mlabonne/llm-course
В частности, там есть LazyMergekit пример для гугл колаба с использованием вот этого инструмента https://github.com/cg123/mergekit на котором все последние пару недель как раз массово мёржили солар с соларом, потому что его легко использовать.
Аноним 12/01/24 Птн 14:08:49 #471 №604312 
>>604284
В чем проблема составить свои карточки персонажей и прописать все? Юзаю старую mythomax-l2-kimiko-v2-13b.Q6_K . Тут тебе и фистинги и золотые дожди и разрывы жоп. Все есть.
Аноним 12/01/24 Птн 14:15:54 #472 №604319 
>>604284
>К чему это всё я пишу? Наблюдая за всем этим я сделал вывод, что если не все модельки поголовно, то подавляющее большинство либо в основе, либо их файтюны берут абсолютно один и тот же соевый хорни датасет, и ощущение такое, что этот датасет собран с зацензуренной чайной + какой-то соевого автора порнофанфиков, с абсолютно одинаковым и шаблонным стилем и не менее одинаковыми и пресными персонажами, причём модельки как будто бы специально надрочили по части хорни только на конкретно такой уёбищный стиль РП и больше никакой другой.

всё так. попробуй гпт4 с дефолтными настройками в силли, и ты увидишь всю эту сою в адской концетрации.
я полагаю почти все файнтюны включают ShareGPT и прочие отходы производства, и почти все мержи включают несколько файнтюнин с ними, и получается понос.
даже базовую лламу2 вроде пропалили на присутствие гпт слопа.

по памяти, из актульных моделек которые не бондят - мистрал, mxlewd 20b
Аноним 12/01/24 Птн 14:16:26 #473 №604320 
>>604297
Два дня ковыряю тему, правда с опытом работы в других нейроноках и «авторитетно» заявляю, что это skill issue
Аноним 12/01/24 Птн 14:23:05 #474 №604324 
>>604320
Ну и как лечить в локалках бонды, границы и великие путешествия тогда? Засовывать промпты на косарь токенов? Менять префикс с ###Instruction на <|System|>? Датасет для файнтьюна решает, особенно для мелких моделей.
Аноним 12/01/24 Птн 14:23:19 #475 №604325 
>>604319
Да бля банальный Skill Issue. Больше ничего. Тем более все тянут персов с чаба даже не пытаясь своих сделать. А персы на чабе говнище адовое, с 200-300 токенами и поведение из разряда can be horny. У меня мои персы минимально от 800 токенов и творят дичь лютую. Я не спорю что иногда сеть пытается в bite lips но за нагромождением всего остального это фигня.
Аноним 12/01/24 Птн 14:25:45 #476 №604327 
>>603787
Милипиздрические тупые же.

>>603983
>файнтюнить на своем датасете ее вообще в колабе можно.
Бля, что значит залип в SD, даже не вспомнил про коллаб. За SD в колабе ебут.
Хотя потыркал модель, еле пердит на моих дровах. Надо разведывать тему с колабом и писать парсер форумов для анимешниц, чтобы собрать данные.
Аноним 12/01/24 Птн 14:35:16 #477 №604337 
>>604325
>А персы на чабе говнище адовое, с 200-300 токенами
Тут соглашусь. Не все, но многие. А у тех, что большие и иногда даже с интересной идеей, часто наблюдается ещё такой рак, что всё описание и приветственное сообщение с помощью гпт же написано. И расширение границ и отправка в путешествие, которое подарит неизведанные эмоции, уже прямо там вылезают, а автору карточки похер.
Аноним 12/01/24 Птн 14:38:32 #478 №604340 
>>604324
> Ну и как лечить в локалках бонды, границы и великие путешествия тогда?
Логит биасом, очевидно же. Правда он работает только на кобольде.
Аноним 12/01/24 Птн 14:38:40 #479 №604341 
>>604138
@_@ Где ж нам взять-то стока памяти…

>>604275
Это персонаж-ассистент. =) В чем проблема?

>>604325
Это где там такие персы, я какую карточку не открою — там 1500+ токенов.
Может, просто, разные персы интересны, хз.
Аноним 12/01/24 Птн 14:38:57 #480 №604345 
>>604325
причём тут нахуй это?
у меня одна единственная, любовно вручную слепленая карточка на примерно 1000 токенов.
стиль повествования - строго третье лицо, прошедшее время, т.е. как большинство литературы.
Аноним 12/01/24 Птн 14:41:21 #481 №604347 
image.png
image.png
хуй вас знает я зацензурил но мем смешной
Аноним 12/01/24 Птн 14:42:43 #482 №604350 
>>604324
Тут вопрос в том, а не задрочился ли путник, что ищет? Я же не знаю, какие ответы он получает, пробовал ли использовать свои карточки, а не просто пихать в группу хорни парочку и ждать чуда клацая ролл. Так то у у всех баб пизда вертикально, тоже грехи файн-тюна? Не спорю, что есть стереотипное поведение, но а где вообще нет подобной репетативности? Тут уже нужно творчески подходить и пробовать свои карты и выходить за рамки default settings.
Аноним 12/01/24 Птн 14:44:32 #483 №604354 
>>604345
> причём тут нахуй это?

Притом что модель какой бы ахуенной она не была - не выдаст тебе желаемый результат не зная что ты хочешь этот результат. Даже что бы банально получить не типичный bite lips а годное описание действий надо прописывать что персонаж будет описывать действия в таком то стиле с такой то хуйней. Разбить описание в секции где есть presence,mind,etique,mood,apperience и тд. И тогда получишь годный результат. Я своим еще добавил shedule что бы персы не терлись вокруг друг друга а имели расписание.
Аноним 12/01/24 Птн 14:46:52 #484 №604358 
>>604345
На самое дно карты conversation style: не пробовал добавить?
Аноним 12/01/24 Птн 14:49:44 #485 №604362 
>>604358
Вот этот анон знает о чем я говорю. Два чаю.
Аноним 12/01/24 Птн 14:58:09 #486 №604369 
>>604350
>>604354
База.
Аноним 12/01/24 Птн 15:24:06 #487 №604393 
1.png
Почему всё должно быть так сложно? Теперь ищи, хули оно ебанулось и хули тут так мало 3 токена в секунду
Аноним 12/01/24 Птн 15:26:50 #488 №604395 
>>604393
bekan bekan?
Аноним 12/01/24 Птн 15:28:41 #489 №604397 
>>604265
кобольд. у остальных нет адвенчур-мода, а он единственное стоящее развлечение.
Аноним 12/01/24 Птн 15:29:48 #490 №604400 
>>604397
что за адвенчур мод?
Аноним 12/01/24 Птн 15:32:53 #491 №604405 
Ебать, вы видели сколько стоит аренда виртуалки с a100?
на яндексе 500к/мес, на селектеле почасовая, но если пересчитать за месяц - 200к/мес.
Яндекс отбивает цену а100 за три месяца, селектел за пять.
Прогрев гоев докрасна.
Аноним 12/01/24 Птн 15:39:52 #492 №604409 
>>604400
ну, разыгрывание не просто чатика с неписью, а целой истории со встречей с вайфу, опционально со сражениями с монстриками или побегом от полиции, ну всё такое.
Аноним 12/01/24 Птн 15:45:04 #493 №604414 
>>604405
$2 за час на https://cloud.vast.ai/
нахуй она нужна на месяц непрерывно то?
Аноним 12/01/24 Птн 15:48:08 #494 №604415 
>>604354
>>604358
Ребзя, вы с aicg треда тут что ли? Ну на моделях от 34б может и будет совсем хорошо, но на остальных пытаешься добиться, чтобы модель два раза трусы не снимала (оке, оке, скилл ишью), какой уж тут conversation style. Описание, кстати, разбито на секции в большинстве карточек на чубе - чё-т не сильно помогает следованию карточке персонажа, всё равно люди продолжают искать хорошие файнтьюны, которые в это умеют. И да, можно в каких-то случаях промптами вести модель за ручку, регулярно меняя их, править ответы, прописывать напрямую "делай вот так" в карточке и систем промпте, придавить больше сэмплерами, но так неинтересно же. Хочется, чтобы более-менее само работало, умело удивить юзера.
Аноним 12/01/24 Птн 15:49:06 #495 №604417 
>>604409
Таверна тоже это может и даже больше. Если добавить в групп чат наратора.
Аноним 12/01/24 Птн 15:51:25 #496 №604420 
>>604393
Семплеры?
Аноним 12/01/24 Птн 15:52:01 #497 №604421 
>>604415
> Ну на моделях от 34б

Опять же Skill issue. Я выше писал, использую старую митомакс 12б и все окей. Да пришлось пердолиться с лорбуком, картой персонажей, добавить в груп чат нарратора. Но по итогу получаю хорошую ролевую. Из 50и сообщений от бота, раз 5 проскакивает откровенная отсебятина которую приходится перегенерировать.
Аноним 12/01/24 Птн 16:01:22 #498 №604435 
>>604417
расскажи как примерно это реализовать, таверну не качал как раз потому что думал там такое не провернуть
Аноним 12/01/24 Птн 16:04:59 #499 №604443 
>>604415
Я не оттуда, я залетный, который читает гайды, но если модель склонна к хорни поведению нужно вручную прописывать humanize, а именно идешь в карточку и смотришь, а может быть там прописан пример, где сплошное снятие трусов; делай два идешь в description и смотришь какое поведение ей прописал автор. Видишь, appearance: long sexy legs, narrow waist, petite, huge boobs, sexy outstanding ass, ну и собственно чего ожидать есть триггер перма токены, которые всегда будут сексуальный подтекст фигачить особенно на uncen моделях. Падаешь в самый низ описания и пишешь «{{char}} has extremely low chance to perform any sexually provocative act in front of {{user}}”. И пробуешь, как это повлияло на диалог. Разумеется без приставляет дуло заряженного пистолета ей к виску не оставляя право на выбор - в таком случае разумеется все модели можно тарабанить начиная с user ебет char. Короче лимитируйте, а не наоборот.
Аноним 12/01/24 Птн 16:09:04 #500 №604456 
>>604435

This >>604421

Прописываешь мир в лорбук таверны, прописываешь персонажей. Второстепенных которые не нужны тебе как активные, ну например какой нибудь чел в магазе, его можешь прописать в лорбук.

Основные персы идут в карточки персов. Потом создаешь бота нарративщика. Создаешь групповой чат, добавляешь первым делом наративщика потом остальных. Все раздешь привязку к лорбуку. Когда сделал в настройках группового чата можно добавить еще сценарий игры. Дальше наративщик будет тебя вести по сюжету. Для долговременной памяти можно юзать summarize - chromadb и авторские заметки таверны.
Аноним 12/01/24 Птн 16:12:29 #501 №604465 
>>604405
Ну, 5 месяцев не так мало, за это время можно и ужарить, кмк.
Я к тому, что это высокорисковая хуйня, по сути-то, не?
Ты тратишь приличное бабло (а селектел с Яндексом не дюже богатые), чтобы через полгодика начать зарабатывать. Ммм… Ну такое.

Но для обучения больших моделей, да, ты реально потратишь полстоимости небось.

>>604414
Контекст про обучение моделей.
2 бакса — все еще 140 тыщ.
Но уже лучше.

Я видел и меньше, насколько помню.

>>604417
Плюсану вопросу, я ленился и не разбирался, а было бы интересно.
Аноним 12/01/24 Птн 16:13:05 #502 №604470 
>>604456
Пасиба-пасиба!
Аноним 12/01/24 Птн 16:15:25 #503 №604483 
>>604456
> Плюсану вопросу, я ленился и не разбирался, а было бы интересно.

This >>604456
Аноним 12/01/24 Птн 16:16:58 #504 №604486 
image.png
>>604456
А ну и в допах можно еще и кубы пихнуть и цели для ботов
Аноним 12/01/24 Птн 16:50:34 #505 №604574 
ПЕРЕКАТ

>>604568 (OP)

>>604568 (OP)
Аноним 12/01/24 Птн 17:10:44 #506 №604633 
>>604395
Я бы тоже посмеялся, только не смешно что-то.

>>604420
Только накатил это дело, в душе не ебу, где их искать.
Аноним 12/01/24 Птн 17:17:47 #507 №604643 
>>604633
Такая же была проблема, на wizard-vicuna 13b 4b-128g act-order, поставил другую модель и все ок
Аноним 12/01/24 Птн 18:35:42 #508 №604837 
>>603665
от души, братиш, заценю. вообще было бы неплохо собрать на вики список интересных моделей.
Аноним 14/01/24 Вск 03:08:13 #509 №608495 
Ботоводам Сап. Вкатился недавно, скачал всё по вашим гайдам. Но вот дела какие:
Модель которую я скачал (из гайда) отвечает мне "привет и тебе" на мой привет примерно минуты 3.
При этом у меня 3060ti, 16гб очень быстрой озу и i510400.
Я что-то делаю не так или это норма на моём конфиге?
comments powered by Disqus

Отзывы и предложения