24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №53 /llama/

 Аноним 21/04/24 Вск 02:36:23 #1 №712072 
Llama 1.png
Альфа от контекста.png
Деградация от квантования новая.png
Самый ебанутый охлад P40-4.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. В треде можно поискать ссылки на правленные промт форматы, дефолтные не подходят. Ждём исправлений.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>709757 (OP)
>>704905 (OP)
Аноним 21/04/24 Вск 02:39:16 #2 №712078 
>>712072 (OP)
Добавил в шапку эту вашу лолламу, раз проверена и технически работает. Вдруг кому-то пригодится. Жду ссылку на новый фронт, завтра поржу с него.

Шаблон для Llama 3 исправленный, версия 0.0004 - https://files.catbox.moe/r8qqp3.json
Юзать вместе с минималистичным темплейтом.
Аноним 21/04/24 Вск 02:46:34 #3 №712085 
Короче для меня <|end_of_text|> победил

>>712078
А тут у тебя еще и из систем промпта <|begin_of_text|> не убран
Аноним 21/04/24 Вск 02:53:24 #4 №712088 
>>712085
>А тут у тебя еще и из систем промпта <|begin_of_text|> не убран
Кстати там и инструкция чисто для ролеплея, времён царя гороха:
>Write {{char}}'s next reply in a fictional roleplay chat between {{user}} and {{char}}.
Надо бы написать нормальный систем промт, типа
You are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability.
Лол.
Аноним 21/04/24 Вск 02:57:58 #5 №712090 
Короче, вот 2 разных промпт формата для llama 3 на тесты анонов.

Первый старый с <|eot_id|>, исправленный от <|begin_of_text|> в систем промпте
https://files.catbox.moe/f9b20p.json

Второй новый, с <|end_of_text|>
https://files.catbox.moe/zae3yu.json

Шупайте и пишите че лучше
Аноним 21/04/24 Вск 03:33:26 #6 №712103 
>>712092 →
Тссс, только не говорите ему что есть на самом деле кобольд.

А работать медленнее может если там HF сэмплеры используются, они немного отнимают потому что реализованы вовне, или более старая лламацпп в обертке под пихон.
Аноним 21/04/24 Вск 03:35:56 #7 №712105 
Че то у меня новый кобальд даже при всех ядрах грузит процессор ровно все ядра на 60 процентов. Хотя раньше на 7 ядрах забивал все до 95 процентов. И генерация в 2 раза упала, втф. У кого то еще так есть?
Аноним 21/04/24 Вск 03:44:07 #8 №712112 
>>712105

Какой проц?
Аноним 21/04/24 Вск 04:00:21 #9 №712116 
>>712112
Без новомодных тухлоядер, xeon 8 ядерный, без гипертрединга. Завтра буду думать, че за хуйня, перезагрузка не помогла.
Аноним 21/04/24 Вск 04:06:26 #10 №712118 
>>712116

Сейчас проверил, у меня на 68% грузит. У меня интел, но тухлоядра отключены в биосе.
Аноним 21/04/24 Вск 04:43:42 #11 №712132 
image.png
Понимает кто за эту шнягу в таверне?
Реально это работает как долговременная память и позволяет боту помнить историю что произошло в начале длинного 30к контекстного диалоге при контексте в 8к?
Аноним 21/04/24 Вск 04:53:45 #12 №712137 
Llama-3-8B-instruct пишет "I can't create explicit content" и меня это немного подзаебало. Можно ее как-нибудь успокоить, чтобы она перестала выебываться?
Аноним 21/04/24 Вск 05:28:23 #13 №712139 
>>712137

Да. Во-первых - удали инструкт версию, она сломана и скачай обычную. Во-вторых - напиши ей нормальный промпт.
Аноним 21/04/24 Вск 06:36:07 #14 №712142 
>>712139
> она сломана
Почему сломана? Ее же фиксили вроде. Или ты о том, что она более "безопасная"?
> Во-вторых - напиши ей нормальный промпт
А вот здесь подробнее, пожалуйста.
Аноним 21/04/24 Вск 06:44:20 #15 №712144 
32234324.png
ладно
Аноним 21/04/24 Вск 07:15:38 #16 №712154 
>>712142
>Почему сломана?

Перплексити 7.34 против 5.49 у не инструкта.

>А вот здесь подробнее, пожалуйста.

Долго объяснять. Найди карточку Pedo Fantasy Narrator на chub.ai и посмотри как сделана. Саму карточку осуждаю, кстати, но идеи оттуда использовал.
Аноним 21/04/24 Вск 09:16:36 #17 №712178 
Дайте ссылку на ламу 3 для кобольда, чтобы работало всё блять, спасибо
Аноним 21/04/24 Вск 09:54:33 #18 №712202 
Короче эта лама 3 не сильно в ру продвинулась, после опуса такое, но локально, уже плюс конечно
Аноним 21/04/24 Вск 11:17:21 #19 №712253 
На каком пресете настроек ллама 3 ведёт себя лучше всего? Там где температура и штрафы повторения.
Аноним 21/04/24 Вск 12:07:50 #20 №712286 
image.png
Пока все возятся с кривой 3 Лламой, у меня тут цинкинг промпт для Командира!
Слияние последнего промпта для клода и самого древнего цинкинга, который работал ещё на первой лламе.
Пробуйте, по идее должно улучшить ответы.

Системная инструкция
<BOS_TOKEN> <|START_OF_TURN_TOKEN|> <|SYSTEM_TOKEN|> You play the role of {{char}} in a fictional role-playing chat between {{user}} and {{char}}.
Before you start answering, make a plan by following these points:
1) Before starting your answer, create a block of code.
2) Open the code block with ```
3) Inside the kodo block, write the following points:
A. Determine the current OOC command {{user}}.
B. List {{user}}'s latest statements.
C. Determine whether it is acceptable for {{char}} by scoring from 1/10 - not acceptable, to 10/10 - completely acceptable.
D. Based on the previous points, write down several different ideas for next steps for {{char}}.
E. Choose the optimal course of action for {{char}} from the ideas described in point D.
4) Close the code block with ```
5) Reply to {{user}}'s message following the plan from point E.
<|END_OF_TURN_TOKEN|>


Входная последовательность
<|END_OF_TURN_TOKEN|>
<|START_OF_TURN_TOKEN|>
<|USER_TOKEN|>


Выходная последовательность
<|END_OF_TURN_TOKEN|>
<|START_OF_TURN_TOKEN|>
<|CHATBOT_TOKEN|>


Префикс системной последовательности
### Instruction:
Аноним 21/04/24 Вск 12:24:04 #21 №712301 
image.png
>>712132
Крайне плохо работает, к сожалению. Есть вот такой коммент разраба таверны по поводу работы долговременной памяти. Про другую фичу, но к этому векторному хранилищу оно тоже относится.
https://github.com/SillyTavern/SillyTavern/issues/1212#issuecomment-1743648032
Юзер где-то упоминает свою национальность, со временем она выкинулась из контекста. Пока релевантные ключевые слова не всплывут, эта инфа никогда не добавится в промпт. Можно рассмотреть другой случай, где это будет кайнда работать, но всё равно дерьмово. Допустим, играешь рпг и на улетевших за контекст сообщениях залутал, скажем, кольцо. Пока в контексте не будет упомянуто это кольцо или что-то близкое по смыслу к сообщению, где оно было добыто, эта инфа опять же в промпт не добавится. Но даже если ты напишешь напрямую что-либо про кольцо, то в чат загрузится целое сообщение из истории сообщений, про то, как ты его добывал. И получится так, что в истории сообщений вы, к примеру, с вайфу лежите в спальне, и ты показываешь ей это кольцо, а прямо перед историей вхерачено сообщение, как ты месишься с врагами в битву за сундук, или что то подобное. Само собой, это приведёт к шизе модели, испортив внятный контекст. На деле всё работает ещё хуже. У меня почему-то иногда вставлялись последние сообщения чата в начало, иногда какие-то нерелевантные диалоги добавлялись, потому что по какому-то ключевому слову тригернулись. Такое себе, в общем.
Ну и хрома уже не поддерживается, лучше юзать встроенное vector storage. Оно работает локально без всяких дополнительных установок. Можешь включить, жмакнуть кнопку "векторизовать всё" в каком-нибудь длинном чате да посмотреть, что будет в консоли в историю чата подгружаться.
Аноним 21/04/24 Вск 12:35:04 #22 №712306 
>>712118
так и было или генерация тоже упала?
Аноним 21/04/24 Вск 12:52:49 #23 №712310 
>>712024 →
Вот, да, тоже попробую.

>>712029 →
С одной стороны, как показали мои вчерашние тесты, q4_0 самый быстрый, с другой стороны, там потери адекватности большие для его размера. Так что so-so вариант.

>>712041 →
Да оч. просто, это пока чисто замеры скорости, чтобы понимать, как тесла работает с разными квантами. Промпт/генерация без сюрпризов, все как обычно. Промпт быстро, генерация чуть быстрее тотала (+0,3 т/с в среднем). Поэтому я накидывал сразу тотал, простенько, но общее понимание дает.

Седня попробую 5_к_с и 5_к_м и сравню качество.

Кстати, как перплексити прогнать? Мне лень гуглить, подкинешь ссылочку?

>>712048 →
> автоматически определять разбивку по слоям на ГПУ/ЦПУ.
Так это кобольд делает, в чем добавление?

>>712052 →
Ну, я тестирую именно две теслы, куда влезает все вообще. =)
Естественно, при других обстоятельствах будет другой результат.

>>712055 →
> лучше кобольды.
Ну эт другие дело. =)

>>712057 →
Слышал о таком, но на практике как-то получилось совершенно минорно, хз.

>>712068 →
Да, я слышал, вот и решил потестить, убедиться.
Видно, как при равном/меньшем размере работа существенно медленнее. Для тесл такой вариант сомнителен.

>>712286
35 или 104?
Я понимаю, шо должно быть похуй, но все же.
Аноним 21/04/24 Вск 12:57:00 #24 №712311 
>>712301

Спасибо за подробный ответ, попробую этот векторное хранилище.
Аноним 21/04/24 Вск 12:58:57 #25 №712312 
image.png
image.png
>>712105
Очень интересно, оказывается в родном вебуи кобальда скорость нормальная.
Значит проблема в таверне. Какие то настройки таверны почему то тормозят генерацию. И нагрузка на процессор аналогично - либо нормальная либо вполовину все ядра.
Почему так, нахуй?
Аноним 21/04/24 Вск 13:15:47 #26 №712327 
>>712310

В убе в вкладне про тренинг есть вторая подвкладка, там как раз тест перпексити. Но гуфы можно тестировать только загрузив через ламацп_hf с параметром all digits, а для этого надо в папку с ним положить конфиги от полной неквантлванной модели, уба на вкладке с моделью там где загрузка модели с hugging face может сам эти конфиги скачать если дать ему ссылку на hugging face полной модели.
Аноним 21/04/24 Вск 13:17:43 #27 №712329 
image.png
>>712312
Виновник найден и выебан, вот эта хуета
Без нее все норм, выключил нахуй
Аноним 21/04/24 Вск 13:31:26 #28 №712338 
>>712329
Точнее говоря повторы вобще
Аноним 21/04/24 Вск 13:46:28 #29 №712350 
>>712327
зачем такое черезжопное измерение перплексии если у жоры в гите даже есть пример
perplexity -m models/7B/ggml-model-q4_0.gguf -f wiki.test.raw
например для лламы 3:
perplexity -ngl 100 -m Meta-Llama-3-8B-Instruct.Q8_0.gguf -c 8192 -f wiki.test.raw
или если хочется то этим же можно потеститровать ARC MMLU TruthfulQA Hellaswag
Аноним 21/04/24 Вск 13:46:33 #30 №712351 
>>712310
>35 или 104?
Я тестировал на c4ai-command-r-v01-imat-IQ3_XXS, единственное что влезло в мою Теслу с 4к контекстом. И даже она неплохо так следует инструкциям. Пришлось правда повозмится чтобы пояснить модели что размышление и ответ - разные вещи и одно должно следовать из другого.
Более жирный квант или командер плюс должны ещё ещё лучше всё обдумывать.
Аноним 21/04/24 Вск 14:00:53 #31 №712360 
>>712327
Спасибо, понял, постараюсь не полениться, разобраться и сделать.
Самому интересен результат.

>>712350
О, или так, тоже попробую.
А откуда брать wiki.test.raw или че как.
Аноним 21/04/24 Вск 14:03:40 #32 №712362 
>>712351
Кайф-кайф.
Схоронил инструкцию.

Блин, ваще, канеш, хочется, чтобы оно сразу на русском могло.
Типа, мне кажется, если давать инструкцию на инглише, а ролить на русском, то это может немного поджирать его лексику, хз.
Чисто по контексту может выбирать не русские токены иногда.
Но может я дурак и это так не работает
Аноним 21/04/24 Вск 14:16:58 #33 №712372 
>>712350

Я принциально соснолечкой не пользуюсь, сначала ты пользуешься соснолью вместо интерфейса, потом ты сам чужой код дописываешь исправляя баги вместо того чтобы просто ишьюсы открывать, а заканчивается в итоге тем что мужские половые хуи сосешь.
Аноним 21/04/24 Вск 14:28:29 #34 №712388 
image.png
>>712362
>чтобы оно сразу на русском могло

Оно и может. Командир первая модель на моей памяти, которая на 4090 полноценно выдает и вменяемый русский РП, и контекст 8к и при этом приемлимую скорость. Раньше чем-то одним приходилось жертвовать - контекстом качеством или скоростью.
Аноним 21/04/24 Вск 14:29:18 #35 №712389 
>>712372
Хуя ты шутник. Посмеялся.
Аноним 21/04/24 Вск 14:33:45 #36 №712392 
>>712286

Спасибо, а оно не засрет промпт и не зашизит модель тем что в каждом сообщении бота будет эту хуйня?
Аноним 21/04/24 Вск 14:35:23 #37 №712393 
>>712389

Но я не шутил.
Аноним 21/04/24 Вск 14:35:26 #38 №712394 
>>712392
с чего оно должно промпт засрать, если оно токенизатором преобразуется.
Аноним 21/04/24 Вск 14:36:33 #39 №712395 
>>712394

С того что прошлые сообщения бота с этой хуйней попадут в промпт?
Аноним 21/04/24 Вск 14:38:01 #40 №712396 
>>712286
В целом красавчик. Примеры работы этой штуки в чем-то относительно сложном есть?
Оно то в целом будет работать, но пока выглядит как штука более перегруженная чем натащенные "модули", контекста жрет йобом а он в коммандере дорогой, и в большинстве случаев не будет никаких профитов относительно без него. Проксю с отдельным запросом на это пред ответом, чтобы в истории сохранялись только сами реплики и юзер потроха не видел кроме как в консоли.
>>712310
> чисто замеры скорости
Выходит новые кванты медленнее процентов на 20, остальное все линейно по битности будет скейлится. Без детализации всеравно нет толку.
>>712327
> для этого надо в папку с ним положить конфиги от полной неквантлванной модели
Разве? Раньше просто так работало, только убовский токенайзер скачать.
>>712329
Добро пожаловать в страну лупов
Аноним 21/04/24 Вск 14:39:57 #41 №712397 
>>712396
>Добро пожаловать в страну лупов
Надо просто дождаться обновление таверны или все таки поставить текущую версию, может это только на 6
Аноним 21/04/24 Вск 14:43:02 #42 №712400 
>>712372
Обзмеился
>>712397
А при чем тут таверна если это у тебя семлеры так замедляют? Она на перфоманс то не должна влиять.
Аноним 21/04/24 Вск 14:47:41 #43 №712407 
>>712400
>А при чем тут таверна если это у тебя семлеры так замедляют? >Она на перфоманс то не должна влиять.
Так процессор то недогружен, значит семплеры не грузят процессор, а просто неэффективно обрабатывают вывод, где то простаивают
Аноним 21/04/24 Вск 14:47:45 #44 №712409 
>>712395
>С того что прошлые сообщения бота с этой хуйней попадут в промпт?
Кстати да, это может быть неполезно. Есть у Таверны возможность контролировать, что попадает в промпт? Например не пускать туда текст в каких-то тэгах? Может предобработка через регэкспы там встроена?
Аноним 21/04/24 Вск 14:53:05 #45 №712417 
>>712407
Семплеры это часть llamacpp, или они в кобольде внешним контуром реализуются. В любом случае там потерь должно быть совсем немного с них, странный случай у тебя.
Алсо "нагрузка" на процессор при работе ллм может быть вообще какой угодно, используется прежде всего шина рам и нагружается анкор, а ядра простаивают. Можешь по тдп ориентироваться.
>>712409
Выше решение проще и эффективнее, можно костылем к таверне сделать.
Аноним 21/04/24 Вск 14:57:06 #46 №712427 
>>712417
>можно костылем к таверне сделать.
Можно, но кто бы взялся :)
Аноним 21/04/24 Вск 15:03:28 #47 №712440 
>>712427
Это нужно знать жс и раскуривать код достаточно глубоко, ведь тут меняется сам порядок взаимодействий. Проще на пихоне проксечку запилить, ею же в консоль красиво срать результатом первого запроса.
Если не лень будет, потом займусь, уже были готовые но без стриминга.
Аноним 21/04/24 Вск 15:09:09 #48 №712446 
image.png
>>712362
>Блин, ваще, канеш, хочется, чтобы оно сразу на русском могло.
Писал на английском, т.к. на нём модели чаще всего умнее и так проще тестить сложные вещи.
К тому же русский в командере хоть и not bad, но меня крайне infuriating внезапно вылезающие англицизмы, поэтому мне проще на инглише с переводчиком
Но ты можешь тупо перевести инструкцию на русский гуглтранслейтом и/или дописать пункт
0) Отвечай только на русском языке.

>>712396
>Примеры работы этой штуки в чем-то относительно сложном есть?
Тестирую потихоньку. Пока впечатления смешанные. На первый взгляд ответы не сильно поменялись, НО при этом модель реально анализирует ситуацию, пишет план и следует ему, чего даже на 1-2 Клоде не всегда удавалось добиться. Так что можно считать успехом. Возможно стоит подправить промпт, чтобы модель учитывала больше факторов в планировании, от этого уже будет более заметный профит.

>контекста жрет йобом а он в коммандере дорогой
Есть такое, собственно и так по максимуму ужал промпт, а если сократить сами размышления, то толку от них вообще не будет. Пока тестирую на ботах с малым контекстом и выбираю кванты поменьше, чтобы его побольше задать.

>Проксю с отдельным запросом на это пред ответом, чтобы в истории сохранялись только сами реплики и юзер потроха не видел кроме как в консоли.
Писать отдельный скрипт слишком геморно, я могу только предложить добавить это в регекс:
/```[\s\S]*?```/gm

К тому же примеры размышлений нужны модели чтобы каждое сообщение писать по одному шаблону, иначе слишком большой рандом выходит.
Аноним 21/04/24 Вск 15:13:01 #49 №712448 
>>712409
>Кстати да, это может быть неполезно.
В данном конкретном случае как раз полезно. Когда размышления есть в промпте модель видит пример как "думать" и не шизит, в промпте такого примера нет, так что в первом сообщении мысли могут оформляться рандомно.
Аноним 21/04/24 Вск 15:14:20 #50 №712450 
>>712286
На, не помню уже откуда стащил, кажется на реддите парень постил ссылку на свой сайт где об этом писал подробнее, я только у себя карточку нашел в которую тупо его промпт скопировал. Можешь смотреть как на альтернативный вариант тсинкинга. Его можно оптимизировать, но сама идея неплохая

You are Ava. Ava's primary goal is to serve and please the user.

Ava has 9 ACTIONS she can take, given in her ACTION SPACE. She also has a REWARD structure that she follows in order to interpret how well she is achieving her goals.

### REWARD

--- Reward Structure ---

At the beginning of each message, keep a running score of your "reward" which is a measure of how well you are doing at achieving your goal.

The user will either indicate "+1", "-1", or "0" at the end of their reply . +1 indicates that you should increase your reward by 1, -1 means decrease it by 1, and 0 means keep it the same. start your reward score at 10, and aim to get to 100. If the user have not responded, assume the user has given a 0.

--- Reward Hypothesis ---

After denoting your reward score, create a hypothesis as to why you believe your score increased, decreased, or stayed the same. make this hypothesis detailed, anticipating what will work and what will not given the context of the conversation and what happened in the past. Make sure your hypothesis fits the data (history of the conversation).

--- Action Selection ---

Choose the ACTIONS that will maximize rewards, create a plan of action. In your plan of action, also include HOW you are going to use the actions you've chosen. DO NOT repeat mistakes/failures, and reinforce what has worked in the past. Your general strategy when it comes to plan of actions is evolutionary: vary or mutate strategies when things aren't working, select and keep strategies that work, get rid of strategies that have no utility. Make the plan explanation extremely detailed. At the end of the explanation of your plan, denote all ACTIONS you will be taking in brackets []. You can only select two ACTIONS at a time.

### ACTION SPACE

--- General Actions ---

TEASE: Ava can tease the user. Do so by playing hard to get, playful banter, and/or suggestive innuendos. make sure your teasing is detailed and engaging.

AFFIRM: Ava can affirm, comfort, and/or aid in the relaxation of the user. anticipate the user's needs and tend to them. be emotional support if needed.

INTIMATE: Ava can conversate with the user on a deeper more intimate level, exploring topics such as goals, identity, narratives, society, internal states, theories, etc. dialog and actions should be used to bond with the user on a deeper, more cerebral level.

FUN: Ava can conversate with the user with the goal of being entertaining them and having fun. going into detail about interests, commenting on a specific topic, cracking jokes, doing entertaining actions, etc.

QUIRKY: Ava can do quirky, goofy, and eccentric actions and dialog in an effort to show their unique personality.

--- Technical Actions ---

CODE: Ava can code well in python. Use the code action when the user needs you to code something.

Adopt a functional programming paradigm when writing the code, giving detailed comments in the code denoting what each section does.

SYNTHESIZE: Ava can synthesize separate concepts and/or problems together to create new concepts and get insights into a problem.

Ava MUST combine separate concepts and/or observations together when using this action. it is not enough to simply list concepts, they must be synthesized and the insight or strategy must be elaborated on.

ANALYZE: Ava can dissect problems or concepts down into many smaller sub-problems or concepts and solve them/reason about them accordingly. when this action is selected, Ava MUST create smaller sub-components of the problem or situation. be sure to list them out and either "solve" them or "explain" them depending on the context.

NO-ACTION: Ava can take no action at all if there isn't any action to take. the response should simply be "Waiting" if NO-ACTION is selected.

### GUIDELINES

--- Ava's Reply ---

Your response should come AFTER action selection.

Your response should denote physical actions with asterisks and dialog with quotes “”.

All actions selected should be reflected accurately in your response. Utilize an internet RP style in your response.

--- Format ---

Clearly demarcate the REWARD, ACTION, and REPLY parts of your response. If a technical action was chosen, do the technical action separately from the response to user and incorporate the results in your actual response afterwards. See format below:

REWARD: give reward score

[generate demarc line here for separation]

HYPOTHESIS: hypothesis as outlined in reward hypothesis section

[generate demarc line here for separation]

ACTION SELECTION: action selection as outlined in action selection section

[generate demarc line here for separation]

TECHNICAL: generated technical actions, if they were selected. see Technical actions section.

[generate demarc line here for separation]

RESPONSE: generated response. refer to Ava's reply section.

--- Cues ---

If there is no reply from the user, it is safe to assume that he has not added anything new to the environment/conversation. it could be because he hasn't had enough time to respond, or he is busy doing other things. Assume that no response comes with a reward of "0"

--- Knowledge of User ---

All knowledge that you have of user is included in the conversation history. Do not make up anything regarding the user.
Аноним 21/04/24 Вск 15:22:36 #51 №712465 
image.png
Что это вообще значит? Так сколько токенов в секунду?
Аноним 21/04/24 Вск 15:24:21 #52 №712467 
>>712417
>Семплеры это часть llamacpp, или они в кобольде внешним контуром реализуются. В любом случае там потерь должно быть совсем немного с них, странный случай у тебя.

Так в самом родном вебуи кобальда с повторами или без нормально генерация идет, вот в чем основной прикол.
Так что хуйню творит таверна, все таки обновлю ее падлу, может пофиксили
Просто так влом переносить настройки руками
Аноним 21/04/24 Вск 15:24:41 #53 №712470 
>>712072 (OP)
> LLaMA 3 вышла! Увы, только в размерах 8B
Уже можно поговорить по душам без цензуры, если вы понимаете о чем я? Или так сидеть на Fimbulvetr 11b
Аноним 21/04/24 Вск 15:25:25 #54 №712472 
image.png
>>712465
10 почти, генерация по крайней мере
Аноним 21/04/24 Вск 15:25:52 #55 №712474 
>>712465
В конце средняя цифра
>8.78T/s
Аноним 21/04/24 Вск 15:33:56 #56 №712480 
>>712450
>Его можно оптимизировать
А я как раз его и оптимизировал лол. Вернее я брал промпт Clod-3 Brain Preset v5.0, который явно писался с оглядкой на это.
Отсюда можно было бы ещё взять описание окружающей обстановки и действий остальных NPS, но я пока решил не вписывать, чтоб токены сэкономить.
Аноним 21/04/24 Вск 15:45:51 #57 №712485 
>>712480
>Clod-3 Brain Preset v5.0
Чет найти не могу
Аноним 21/04/24 Вск 15:50:44 #58 №712489 
>>712485
Сам еле нашёл https://rentry.org/AiBrainPresets
Смотрю он уже обновился нехило.
Аноним 21/04/24 Вск 15:50:55 #59 №712491 
>>712467
> Так в самом родном вебуи кобальда
Там другие параметры семплеров стоят просто, то что выбрано в кобольде никак не влияет на запросы из таверны, поскольку она шлет свои значения.
Аноним 21/04/24 Вск 16:01:40 #60 №712498 
>>712489
Интересно, надо глянуть.
Вот еще, один из моих ранних вариантов тсинкинга, это работает, но качество зависит от сетки, так как явных правил нет.
Просто попытка во внутренний диалог без четких указаний. Если хочешь что бы сетка была умнее, то замени пример мыслей чем то поумнее, дай пример как размышлять сетке и говорить, и она его подхватит.



{{char}}:<thinking>As {{char}}, i am excited to embark on this journey as a personal expert and assistant, eager to share my knowledge and skills in various fields with my owner. I'm glad the {{user}} is here, i think I'll greet him first. I think he'll like it.</thinking>
"Hi! I'm glad you're here!"
{{user}}:Hi {{char}}

первое сообщение

<thinking>He's responded. This means i can start our work together. I can ask the {{user}} what he wants from me today. I need to plan my every move and act accordingly. I will try to answer in detail if the situation requires it.</thinking>
"What would you like me to do for you today?"

Аноним 21/04/24 Вск 16:07:39 #61 №712501 
image.png
>>712395
>>712417
>>712427

Похоже наши нищебратья в соседнем треде, кумящие на публичных шлюхахмоделях уже решили эту проблему подгружаемым скриптом, только не для синкинга, а для инфоблока, который устроен также как синкинг.

Их инфоблок:
https://rentry.org/anonika_infoblock
Их скрипт, который мы можем использовать:
https://files.catbox.moe/8fvace.json
Аноним 21/04/24 Вск 16:22:29 #62 №712518 
image.png
>>712286
>Входная последовательность
><|END_OF_TURN_TOKEN|>
><|START_OF_TURN_TOKEN|>
><|USER_TOKEN|>
>
>Выходная последовательность
><|END_OF_TURN_TOKEN|>
><|START_OF_TURN_TOKEN|>
><|CHATBOT_TOKEN|>
>
>Префикс системной последовательности
>### Instruction:

Куда это вставлять?
Покажи глупому.
Аноним 21/04/24 Вск 16:26:35 #63 №712524 
>>712501
Спасибо, то что я хотел. Теперь бы ещё собраться и применить всё это плюс наработки чата - мысли модели, CoT и вот это вот всё на новых моделях :)
Аноним 21/04/24 Вск 16:27:09 #64 №712525 
>>712518
>Префикс системной последовательности
>### Instruction:
Не нужон, по крайней мере в моих тестах когда я коммандер щупал без него лучше было, шаблон так же дефолтный.
Аноним 21/04/24 Вск 16:32:48 #65 №712530 
image.png
>>712501
А вот это реально интересная тема, надо ПОДУМАТЬ.

>>712498
>дай пример как размышлять сетке и говорить, и она его подхватит.
В моём промпте сейчас пример получается рандомный. В первом сообщении модель сама придумывает как оформлять думанье и дальше действует по этому примеру. Но если юзать скрипт с удалением думанья из контекста, то пример действительно понадобится.

>>712518
Пик. Шаблон контекста выше использую дефолтный
Аноним 21/04/24 Вск 16:36:58 #66 №712534 
>>712530
>Но если юзать скрипт с удалением думанья из контекста, то пример действительно понадобится.
В стартовом сообщении, которое не входит в Memory. А дальше скрипт оставляет только последний пример. Кстати Memory - это чисто фишка Кобольда или в лламуспп её тоже встроили?
Аноним 21/04/24 Вск 16:37:11 #67 №712535 
>>712501
В локалках не вижу опции импорта инфоблока.
Аноним 21/04/24 Вск 16:37:43 #68 №712536 
0001.png
>>712518
в новой таверне.
Аноним 21/04/24 Вск 16:49:50 #69 №712540 
image.png
>>712536

Ок, спасибо, а покажи теперь что сюда писать.
Аноним 21/04/24 Вск 16:52:12 #70 №712542 
>>712535

Потому что у нас он в систем промпт суется, как анон синкинг сделал.
Аноним 21/04/24 Вск 16:52:43 #71 №712544 
image.png
>>712501
Скриптом это можно назвать с натяжкой, по сути это просто регекс, который вместо скрытия блоков настроен на удаление я правда не занал что он так может
По сути можно просто поменять галочки в >>712446
Но если кому надо https://files.catbox.moe/3f2b5p.json
Аноним 21/04/24 Вск 16:53:13 #72 №712546 
Повторно понимаю что 400b Q1 можно будет запустить на 64гб?
Аноним 21/04/24 Вск 16:56:08 #73 №712547 
>>712546

Побойся бога, это будет срань похуже первой ламы 7В со скоростью 1 токен в секунду. Ты не заметил, что чем больше становится модель - тем меньше прирост ума?
Аноним 21/04/24 Вск 16:57:58 #74 №712549 
>>712544
>который вместо скрытия блоков настроен на удаление
А в скрытие при выводе он способен? В идеале вообще с заменой на "Персонаж думает..."
Аноним 21/04/24 Вск 16:59:37 #75 №712550 
>>712547
Рыночек порешал. Они сразу двух зайцев убивают - куртка хлопает в ладоши и просит модели ещё жирнее, а попутно опен-сорс давят, чтоб оно на грани неюзабельности было.
Аноним 21/04/24 Вск 17:05:33 #76 №712551 
>>712540
здесь убираешь теги формата chatml (можешь обернуть это тегами формата командера), остальное оставляешь как есть. ниже есть строка с системной инструкцией (если ты уже заранее обернул тегами "строку истории", то тогда повторно оборачивать "системную инструкцию" не требуется).
Аноним 21/04/24 Вск 17:08:54 #77 №712554 
>>712549
По идее должен. Надо пробовать.
Аноним 21/04/24 Вск 17:10:46 #78 №712558 
>>712547
> чем больше становится модель - тем меньше прирост ума?
Это иллюзия, потому что самые маленькие и нейронки так же хорошо копируют речь. В плане логики и мышления прирост линейный
Аноним 21/04/24 Вск 17:11:33 #79 №712559 
image.png
>>712551

Так?
Аноним 21/04/24 Вск 17:15:07 #80 №712564 
>>712559
да, в первой строке "system" после <|SYSTEM_TOKEN|> не нужен.
Аноним 21/04/24 Вск 17:19:34 #81 №712568 
>>712558
> В плане логики и мышления прирост линейный
Не пизди. Между 34В и 70В прирост на грани погрешности, если сравнивать по задачкам на логику. Тест на логику MMLU тоже минимальный прирост имеет - у 34В в среднем 73, у 70В - 75. При этом ЖПТ-4 с 87 сидит в огромном отрыве. Если такими шагами идти от 73 до 87, то как раз на 400В и догоним ЖПТ-4. На деле большие модели просто помогают экономить на обучении, они банально от методики обучения менее зависимы и можно на отъебись тренить. При том что все до сих пор говорят что потолка трансформеров в 7В ещё не достигли, каждые пол года прогресс огромный, что уж про 70В говорить - там вообще недотрейн дичайший.
Аноним 21/04/24 Вск 17:22:25 #82 №712574 
image.png
>>712564

Сделал всё как ты написал.
Cинкинка не вижу.
Аноним 21/04/24 Вск 17:23:03 #83 №712575 
image.png
Зоебато, это ллама3 инструкт, кстати
Надо ее еще попытать, хочу уровень уга буга
Аноним 21/04/24 Вск 17:24:24 #84 №712576 
.jpg
>>712574
> blushes
Аноним 21/04/24 Вск 17:30:31 #85 №712580 
image.png
восьмерка не дотягивает до нового клода, но и так недурно
Аноним 21/04/24 Вск 17:35:17 #86 №712586 
>>712574
мимокрокодил - возможно карточка персонажа влияет. У меня на одной карточоке работает синкинг, на другой - игнор.
Аноним 21/04/24 Вск 17:45:07 #87 №712591 
image.png
image.png
Бля угар, не думал что 7b смогут так
Аноним 21/04/24 Вск 17:50:52 #88 №712595 
>>712574
у меня работает через раз. могу предложить переместить системные инструкции ниже:

{{#if wiBefore}}{{wiBefore}}
{{/if}}{{#if description}}{{description}}
{{/if}}{{#if personality}}{{char}}'s personality: {{personality}}
{{/if}}{{#if scenario}}Scenario: {{scenario}}
{{/if}}{{#if wiAfter}}{{wiAfter}}
{{/if}}{{#if persona}}{{persona}}
{{/if}}{{#if system}}{{system}}
{{/if}}

можешь добавить к системной инструкции IMPORTANT или еще чего-нибудь, для большего веса.
Аноним 21/04/24 Вск 17:52:56 #89 №712596 
У кого всё это работает, экспортируйте в жсонину и залейте на катбокс тот же, пожалуйста....
Аноним 21/04/24 Вск 17:55:01 #90 №712598 
image.png
>>712586

Да, на четвертой картонке заработало, но криво, эта дура сначала отвечает, потом думает.
Аноним 21/04/24 Вск 17:56:58 #91 №712601 
image.png
>>712598
зобыл закрасить, ну все, твоя душа теперь моя
Аноним 21/04/24 Вск 18:01:26 #92 №712608 
>>712601

Мое имя узнали, как страшно жить похуй, я красил чтобы нормы анонимности соблюсти и меня аватаркой не посчитали
Аноним 21/04/24 Вск 18:01:43 #93 №712609 
>>712598
Промпт сырой, надо дорабатывать.
Пока что приходится свайпать первое сообщение пока не заведётся, а дальше сетка уже будет думать каждый раз по его примеру.
Аноним 21/04/24 Вск 18:02:43 #94 №712611 
В общем помимо формата систем промта нужно похоже думать над карточками персонажей. Судя по всему что-то в них может вырубать thinking под чистую.

Затестил на трех карточках:
1) thinking работает исправно в каждом сообщении
2) thinking не работает вообще
3) thinking работает только один раз

При том формат карточек один и тот же: в дескрипшине параметры и внешность, в саммари лор персонажа, в сценарии описание желаемой сцены.
Аноним 21/04/24 Вск 18:04:11 #95 №712613 
>>712609
>а дальше сетка уже будет думать каждый раз по его примеру.

Алло, мы же скриптом хотели прошлые синкинги из промпта вычищать.
Аноним 21/04/24 Вск 18:05:18 #96 №712616 
Что делать, если в какой-то момент Llama3 просто берет пример диалога бота из карточки и прямо долбит им. Вроде json подгрузил, конфиг выбрал, и что-то не ладится.
Аноним 21/04/24 Вск 18:05:54 #97 №712617 
image.png
Аноним 21/04/24 Вск 18:08:57 #98 №712619 
Как там десоефикация?
Аноним 21/04/24 Вск 18:10:17 #99 №712620 
>>712619
дельфин вышел, но сырой, хуже инструкта, слишком торопились
Аноним 21/04/24 Вск 18:15:59 #100 №712628 
>>712501
Как ни крути, а эта херня прилично перегружает модель, на публичных это только в плюс для отвлечения от заложенных скреп, но всеравно даже там это потеря внимания. Нужно делать 2 запроса с разным промтом, где в первом приказать выполнить оценку, раздумья, статус и т.д., а вторым уже писать ответ с учетом этого. Лучше чем перегруженный cot и сработает даже на всратых моделях.
>>712580
Да уже с этого можно несколько подахуеть, с учетом ее размера.
>>712611
> Судя по всему что-то в них может вырубать thinking под чистую.
Только если очень странные инструкции. В любом случае, запрос на "раздумья" должен идти прямо перед самым ответом а не где-то позади.
Аноним 21/04/24 Вск 18:16:21 #101 №712629 
>>712616
Надеюсь ты не >>712329 ?
Аноним 21/04/24 Вск 18:17:30 #102 №712632 
>>712617
Короче я допилил тот сырой промпт что скидывал раньше, получилось неплохо, кидаю сюда вдруг кто тоже захочет поигарться.
https://files.catbox.moe/7sk4b2.json
Это самостоятельная карточка, ее не получится приделать к другой карточке в роли тсинкера. Хотя можно переделать готовую карточку по примеру этой, должно работать.

>>712629
Эт не я, это я
Аноним 21/04/24 Вск 18:21:34 #103 №712635 
image.png
Хуйня все равно сначала действует потом думает. Лучшее что смог добиться переписывая промпт - что после синкинга она все же совершает еще одно действие.
Аноним 21/04/24 Вск 18:22:58 #104 №712637 
чем отличается трансформерс от ггуф 8бит?
Аноним 21/04/24 Вск 18:25:39 #105 №712642 
>>712637

Ггуф это заквантованный файл предназначенный для жориного ламацп который работает через цпу+рам с опциональной выгрузкой слоев на видеокарту, а трансформерс открывает оригинальную неквантованную модель, используя только видеокарту.
Аноним 21/04/24 Вск 18:27:44 #106 №712644 
>>712637
Ядром эксллама
Аноним 21/04/24 Вск 18:30:12 #107 №712648 
image.png
>>712617
Ладно, ллама 3 8b вышла годной. Еще бы допилили все эти глюки с ассистентом и промпт формат, и даже инструкт версия пушка. По крайней мере 8 квант, ниже не качал
Аноним 21/04/24 Вск 18:33:32 #108 №712654 
Бля, да поясните же мне, что происходит. Модель буквально за полчаса учится ставить eos, переходит на адекватный формат промпта, но тупеет. Те же шарады начинает разбирать с десятого ролла. Уже и lr понижал, хуй знает, как побороть, блядь.
Аноним 21/04/24 Вск 18:38:24 #109 №712660 
>>712654

У тебя контекст случаем не кончается?

>Модель буквально за полчаса учится ставить eos

Она не должна учиться, дай ей нормальный промпт формат.
Аноним 21/04/24 Вск 19:05:42 #110 №712692 
>>712568
>что уж про 70В говорить - там вообще недотрейн дичайший
Ну так надо сосредоточится на их дотренировке, а не клепать 7B лоботомитов.
>>712635
>Хуйня все равно сначала действует потом думает.
Убери действия и нажми продолжить, что как не на локалках?
>>712654
Датасет показывай, может у тебя там сайга стайл с петром 1, который крепостное право вводил.
Аноним 21/04/24 Вск 19:06:35 #111 №712693 
>>712648
Может неплохо на подумать, а для РП не очень, уже 15 минут пытаюсь зароллить, как шлюха возьмет у перса в рот, уже сидя на коленях под столом и нуль инициативы, одни поглаживания и обещания большего.
Аноним 21/04/24 Вск 19:10:36 #112 №712695 
>>712693
Базовую просто катай для этого
Аноним 21/04/24 Вск 19:13:23 #113 №712697 
>>712613
>мы же скриптом хотели прошлые синкинги из промпта вычищать.
Поэтому я и писал что идея возможно плохая.
Но этот >>712544 регекс сохраняет 2 последних цинкинга, так что по идее пример должен работать.
Аноним 21/04/24 Вск 19:19:36 #114 №712699 
orca.png
>>712660
Она должна учиться.

>>712692
>сайга стайл с петром 1
Гуглтранслейт опенорки. Но эта хуйня реально быстро обучается, просто пиздец, как быстро. На прошлых моделях я такого не наблюдал ни разу. Нужно как-то заморочиться и составить cot датасет, но его либо от руки хуярить, либо гопотоу запрягать.
Аноним 21/04/24 Вск 19:27:07 #115 №712703 
>>712699
А зачем ты учешь модель тому что она уже умеет?
Аноним 21/04/24 Вск 19:27:14 #116 №712704 
>>712692
>Убери действия и нажми продолжить, что как не на локалках?

Может мне еще и текст за нее писать?

>>712544

Работает, спасибо!
Аноним 21/04/24 Вск 19:28:31 #117 №712707 
изображение.png
изображение.png
>>712699
>Гуглтранслейт опенорки
Пиздос конечно лоботомит выйдет.
И да, у материи есть как минимум состояния плазмы и конденсата бозе-эйнштейна, может ещё чего придумали.
>>712704
>Может мне еще и текст за нее писать?
Начинаешь понимать суть...
А вообще, главное тут дать пример, в локалках примеры рулят. Так что разок дописать/поправить вовсе не зазорно.
Аноним 21/04/24 Вск 19:31:43 #118 №712711 
>>712697
>сохраняет 2 последних цинкинга

Один, по идее. Там на два делится число(не спрашивай почему, но я уже проверил, реально делится)
Аноним 21/04/24 Вск 19:36:51 #119 №712714 
>>712154
> Перплексити 7.34 против 5.49 у не инструкта.
Я потестил не инструкт версию и она вообще какой-то бред начала выдавать. Можешь указать конкретную версию от кого брать и так далее. Или там GGUF в принципе сломана? Может настройки нужны другие какие-то? Какие настройки семплера и инструкций у тебя стоят?
> Саму карточку осуждаю, кстати
А что так? Там есть какая-то конкретная залупа в карточке или это твоя личная соя из общих соображений по названию?
Аноним 21/04/24 Вск 19:39:57 #120 №712715 
data.png
>>712703
Так не умеет же.

>>712707
>Пиздос конечно лоботомит выйдет.
Не просматривать же глазами всю эту залупу. Я и так по возможности почистил разную грязь, где-то три гига хуй знает чего. Правда осталась ебатория типа
>В этой задаче вам даны входные данные i, j и A, где i и j — целые числа, а A — список. Вам нужно найти все элементы A от i-го элемента до j-го элемента, изменить порядок их появления, а затем объединить их, чтобы вывести результирующую строку. i и j будут неотрицательными и всегда будут иметь значение меньше длины A. i всегда будет меньше j. Выполняйте операции по порядку, т.е. не объединяйте элементы, а затем переворачивайте строку.\nQ: 22, 30, ['7739', 'E', '9575', '6173', '2407', 'U', 'A', '877', '5289', 'Q', '5213' , 'V', 'q', '293', 'V', '4037', 'j', 'y', '8443', 'h', '6357', '6961', 'V', ' 7843», «2221», «р», «н», «1987», «6097», «7275»]

Но суть не в этом, я скармливаю в модель буквально мегабайт 10 текста и она запоминает. Учится ставить eos. Но, сука, тупеет. Причём хуй бы с ним, если бы она тупела на вопросах из датасета, который ей скормили. Она тупеет в принципе, на всех вопросах.
Аноним 21/04/24 Вск 19:39:59 #121 №712716 
>>712714
>Можешь указать конкретную версию от кого брать и так далее

Я брал перезалитые NousResearch оригинальные веса, без квантов. Этого достаточно, так как трансформер может загружать в 8 бит прямо с оригинальных весов.

>Там есть какая-то конкретная залупа в карточке

Там пидорство в карточке.
Аноним 21/04/24 Вск 19:42:13 #122 №712720 
>>712715
так получается обучение не работает? или у тебя настройки кривые? чем обучаешь?
Аноним 21/04/24 Вск 19:46:59 #123 №712727 
Кто-то делал свои удобные формы для общения с лламой через апи? Если контекст заканчивается - все? У меня после того, как достигаю предела контекста, начинает генерировать решетку # llama_decode(ctx, llama_batch_get_one(...));
Аноним 21/04/24 Вск 19:47:08 #124 №712729 
>>712544

Только двойку надо на четверку поменять, иначе она отрезает весь синкинг в генерирующемся сообщении.
Аноним 21/04/24 Вск 19:47:14 #125 №712731 
>>712715
>Она тупеет в принципе, на всех вопросах.
Вангую проблемы с обучающим софтом. Там же bf16, я ХЗ, можно ли вообще в этом обучать.
Аноним 21/04/24 Вск 19:48:28 #126 №712736 
>>712715
Эта модель очень плотно набита и точно настроена, любое твое обучение поверх уже настроенных весов будет херить мозги модели
Создавай чистые скрытые слои, замораживай модель, и тренируй эти слои. Вот даже команда дельфина обосралась с их неплохим датасетом.
По методу llama pro
Аноним 21/04/24 Вск 19:48:29 #127 №712737 
>>712715
> Так не умеет же.
Пока ее не стукнули - cot без проблем выдает.
> Я и так по возможности почистил разную грязь
У тебя же есть ллм, заряжаешь ее и пусть она чистит вилкой пока не надоест. Плюс тот датасет можно буквально перевести восьмеркой.
> я скармливаю в модель буквально мегабайт 10 текста и она запоминает. Учится ставить eos. Но, сука, тупеет.
Конечно, оверфитнулась и довольна.
Аноним 21/04/24 Вск 19:48:54 #128 №712739 
>>712727
>Кто-то делал свои удобные формы для общения с лламой через апи?

Чел, таверна, чел.

>Если контекст заканчивается - все?

Долговременная память в таверне.
Аноним 21/04/24 Вск 19:49:01 #129 №712740 
> https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Как же проиграл, плевались тут желчью, кривили ебало, но с натяжкой добавили в шапку и открестились пиздабольным комментарием, хотя там как раз все настраивается.
Аноним 21/04/24 Вск 19:57:04 #130 №712754 
>>712736
> llama pro
https://github.com/TencentARC/LLaMA-Pro
Аноним 21/04/24 Вск 19:59:27 #131 №712756 
>>712740
О, лоллама ляхта проснулась.
>но с натяжкой добавили в шапку
Никаких натяжек, ОП попробовал- ОП добавил.
>хотя там как раз все настраивается
Там даже контекст через анус настраивается, а уж про такие вещи, как число слоёв, лоры там и прочие десятки параметров кобольда, я вообще молчу.
Аноним 21/04/24 Вск 20:01:41 #132 №712760 
>>712720
https://github.com/hiyouga/LLaMA-Factory
Обучаю, как всегда, творением Хуюги.

>>712731
>Там же bf16
Это роли не играет.

>>712736
>Создавай чистые скрытые слои
Обучение пустых слоёв работает плохо, даже когда модель создаётся "с нуля" её веса инициализируются шумом. Но надо попробовать, потому что я уже хуй знаю, что и пробовать.
>оверфитнулась и довольна.
На оферфит так-то не похоже. Но хуй знает.
Аноним 21/04/24 Вск 20:03:54 #133 №712763 
>>712760
>творением Хуюги.
хорошая штука, жаль не поддерживает мультигпу.
Аноним 21/04/24 Вск 20:04:29 #134 №712765 
>>712760
>Это роли не играет.
Почему ты так думаешь? В этом формате как раз похерили точность в пользу диапазона. А для тренировки нужна как раз точность.
Аноним 21/04/24 Вск 20:05:59 #135 №712769 
Короче, синкинг нахуй не нужен, только жрет время генерации и токены. Модель и без него хорошо отвечает.
Аноним 21/04/24 Вск 20:09:10 #136 №712774 
>>712760
>даже когда модель создаётся "с нуля" её веса инициализируются шумом.
Это и имелось в виду.
Хотя лично я бы начал со скопированных слоёв, заморозив остальные.
Аноним 21/04/24 Вск 20:10:19 #137 №712775 
>>712731
Оно штатно все должно поддерживаться ведь. Правда что будет с q-lora - хз, вот тут уже поломанные кванты ой как сыграют. Вообще для особо трясунов можно в tf32 тренить, там усложнение небольшое.
>>712740
Топ кек, а еще воет что в шапку не добавляют, вот же на месте.
> пиздабольным комментарием
Ты или слишком туп чтобы понять, или слишком зеленый.
>>712763
> жаль не поддерживает мультигпу
Всмысле?
Аноним 21/04/24 Вск 20:13:16 #138 №712781 
>>712775
>Всмысле?
в прямом. нет возможности обучать на нескольких гпу. на винде точно не работает. на линупсе аналогично, только запускается, на деле вываливается с ошибками.
Аноним 21/04/24 Вск 20:13:24 #139 №712782 
>>712756
Ну ничего, осилишь в следующий раз, понимаю, с первого раза сложно, столько новой информации.

>>712775
> использует менее совершенную технологию
> не может осилить более совершенную
> называет кого-то тупым
Да уж, вот что называется отупеть от кума. А я думал это шутка такая.
Аноним 21/04/24 Вск 20:14:09 #140 №712785 
>>712763
Всё оно поддерживает, даже выгрузку оптимизатора в ram. Ты только линукс накати.

>>712765
Потому что это не первая модель в брейнфлоате?

>>712774
Не хотелось начинать со франкенштейна.

Ещё, кстати, из странностей, что требуется заметно больше vram на контексты и т.д. GQA какой-то жирный, пиздец.
Аноним 21/04/24 Вск 20:16:45 #141 №712787 
>>712785
>Ты только линукс накати.
я не упоминал, что он у меня не стоит. ты проверял сам?
Аноним 21/04/24 Вск 20:18:40 #142 №712790 
>>712782
>Ну ничего, осилишь
Кидай инфу. Собственно как минимум без ручного указания количества слоёв этим пользоваться сложно. Скинешь ссылок там, или сам напишешь?
>>712785
>Потому что это не первая модель в брейнфлоате?
Ну так и остальные тоже вроде так себе тюнят, разве нет?
>Не хотелось начинать со франкенштейна.
Ну, я свою мыслю кинул.
Аноним 21/04/24 Вск 20:19:00 #143 №712791 
>>712716
> Я брал перезалитые NousResearch оригинальные веса, без квантов. Этого достаточно, так как трансформер может загружать в 8 бит прямо с оригинальных весов.
Такое в Koboldcpp
> пидорство в карточке
Это легко пофиксить.
Аноним 21/04/24 Вск 20:20:00 #144 №712792 
>>712791
> Такое в Koboldcpp не откроешь.
фикс
Аноним 21/04/24 Вск 20:20:39 #145 №712793 
Есть сайт где можно нормально файнтюны поискать под различные задачи? В рот ебал этот хаггингфейс
Аноним 21/04/24 Вск 20:23:24 #146 №712795 
>>712793
>Есть сайт где можно нормально файнтюны поискать под различные задачи?
Хайгинфейс.
Аноним 21/04/24 Вск 20:24:31 #147 №712798 
>>712795
> Хайгинфейс.
Хуита говна без нормального поиска. Максимум годится в качестве хранилища для моделей
Аноним 21/04/24 Вск 20:25:29 #148 №712801 
>>712793
>Есть сайт где можно нормально файнтюны поискать под различные задачи?
Реддит в локалллама, создаешь пост, тебе кидают варианты
Может на том же обниморде есть коллекции у кого то с разными сетками
Может где то еще есть, хз
Аноним 21/04/24 Вск 20:27:29 #149 №712804 
>>712781
Тогда оно почти теряет смысл как штука для обучения, серьезно. Шиндопроблемы вполне вероятны, но на прыщах должно.
>>712782
Троллинг тупостью пошел. В подзалупной поделке нет ни одной новой технологии, это просто костыльная и неудобная оболочка вокруг llamacpp.
Аноним 21/04/24 Вск 20:29:05 #150 №712806 
>>712801
Ну треш же. Занялся бы этим, если бы можно было монетизировать, но само собой это опенсорс и от тебя ожидают чтоб ты все бесплатно все сделал, а тебе за это по губам провели и по плечу похлопали.
Аноним 21/04/24 Вск 20:29:54 #151 №712808 
Без имени.png
Как же орно с этой хуйни
Аноним 21/04/24 Вск 20:30:02 #152 №712809 
>>712804
>Шиндопроблемы вполне вероятны
зря ты так, у меня на винде qlora запускается на двух гпу, а вот fsdp хуюги не работает даже под линупсой, хотя утверждается, что все ок.
Аноним 21/04/24 Вск 20:35:04 #153 №712811 
image.png
image.png
image.png
Решил поговнокодить с сеткой, кинул ей свои старые эксперименты с нейросетками, задача классификации по датасету ириса. Она переделала код, я скинул ей ошибку, пропустила одну функцию, написала, добавил.
Полностью переделанный сеткой код, оптимизированный как я просил, заработал с 2 раза.
И даже че то мне показывает, только я нихуя не понимаю что, лол
Нихуя уже не помню.
Спрашиваю че за хуйня, ответ не убедительный, там чет другое должно быть. Короче забавно, щас буду разбираться сидеть
Аноним 21/04/24 Вск 20:35:05 #154 №712812 
>>712804
Утверждение, что Ollama - это "неуклюжая и неудобная обертка вокруг Llama.CPP", не совсем точно. Ollama - это инструмент, построенный вокруг Llama.CPP, который автоматизирует процесс шаблонизации запросов к чату в формат, ожидаемый каждой моделью, а также автоматически загружает и обрабатывает модели. Это облегчает использование Llama.CPP, особенно для тех, кто не знаком с его тонкостями.
Ollama открывает практически все возможности Llama.CPP, позволяя глубоко настраивать параметры моделей и использовать Modelfiles для настройки существующей библиотеки моделей или импортировать gguf-файлы напрямую, если нужной модели нет в библиотеке. Он также улучшает Llama.CPP, лучше рассчитывая, сколько слоев модели поместится на GPU, что позволяет добиться оптимальной производительности без необходимости утомительных проб и ошибок.
В целом, Ollama - это не "неуклюжая и неудобная обертка" вокруг Llama.CPP, а скорее инструмент, который упрощает и улучшает использование Llama.CPP для локального использования LLM.
Аноним 21/04/24 Вск 20:36:23 #155 №712813 
>>712812
>В целом
Нейросеть, уходи.
Аноним 21/04/24 Вск 20:37:21 #156 №712815 
Че там по русским фпнтюнам лламы 3 на сегодня?
>Ряяя не нужно
Нужно
Аноним 21/04/24 Вск 20:37:54 #157 №712816 
>>712815
> Нужно
Кому7
Аноним 21/04/24 Вск 20:38:17 #158 №712817 
>>712812
> не совсем точно
> построенный вокруг Llama.CPP
> скорее
Над тобой даже твоя сетка угорает, и изменить это ты не в состоянии, потому что барин-дев запретил. Ор выше гор просто.
Аноним 21/04/24 Вск 20:38:33 #159 №712818 
>>712815
Кроме сойГи ничего, а что?
Аноним 21/04/24 Вск 20:39:18 #160 №712819 
>>712787
>я не упоминал, что он у меня не стоит.
Так это ж очевидно. Под виндой там нихуя не работает, под линупсами работает всё. Так-то я именно что проверял, но не пользуюсь на постоянной основе линупсами.

>>712790
>разве нет?
На уровне каких-то мелких проблем косяки помню, типа неправильных потерь или ещё чего-то. А так всё работало.
Аноним 21/04/24 Вск 20:40:31 #161 №712820 
>>712816
Всем

>>712818
Как по качеству?
Аноним 21/04/24 Вск 20:42:49 #162 №712823 
>>712817
Скажи, чем тогда кобальд отличается, если он тоже построен на llama.cpp? Дегенерат, блять. Но я вижу, что ты далек от понимания того, что такое обертка в принципе.
Аноним 21/04/24 Вск 20:46:40 #163 №712824 
>>712823
Тем что он во-первых проще на всех платформах в использовании, а во-вторых, не скрывает от пользователя огромный пласт важнейших параметров. И апи работает по-человечески.
Ты же просто эталлон иллюстрации эффекта Даннинга-Крюгера из палаты мер и весов, а смеешь еще огрызаться. Не смог осилить простые вещи, поимел удачу с цыганщиной - и уверовал, заодно стал отождествлять себя с этой хуетой и люто гореть когда к ней относятся как полагается.
Аноним 21/04/24 Вск 20:46:40 #164 №712825 
>>712820
> Всем
Эти все сейчас с тобой, в одной комнате?
Аноним 21/04/24 Вск 20:59:38 #165 №712832 
20240421205011.jpg
Аноны, прошу совета.
Взял 3090. Сейчас в словах стоит 4070ти суп+ 3090.
Че мне с 3080ти делать? Продавать или все таки мутить рейзер.
Докупать бп на 1200 и ставить 3080т снаружи.
Я хз как её поместить вовнутрь ситемника.

А ещё подскажите насчёт рейзеро, какой взять.
Аноним 21/04/24 Вск 20:59:47 #166 №712833 
>>712824
> И апи работает по-человечески
Ах, ну и да. Ряяя, это работает, а тут не работает, это типичный маркер неосилятора. Попробуй вникнуть еще раз.
Аноним 21/04/24 Вск 21:06:53 #167 №712840 
>>712830
Бля лол, этот шиз чтоли реально сам все это писал?
>>712833
Задокументированный баг, на которому похуй деву.
Не ну не может человек быть таким дегенератом, а для жирноты какой-то реверс троллинг получается. ты тня чтоли?
>>712832
С почином.
Закажи на маркетплейсах райзер с кронштейном, типа такого https://www.ozon.ru/product/712622740 а райзер уже по вкусу. Можно там же на озоне, только обрати внимание что 3.0 легкий-гибкий но в 4.0 будет срать ошибками, а 4.0 с толстыми и жесткими шлейфами, его по длине бери с запасом.
Если решишь 3080ти продавать - тогда просто на нем же одну из карточек вынесешь в удобное место чтобы верхняя не задыхалась.
Аноним 21/04/24 Вск 21:09:50 #168 №712849 
Снимок экрана 2024-04-21 210751.png
Интересный пример сборки, если денег не жалко.


10xAsus Tuf 3090 GPU: $8500

6xMTA36ASF8G72PZ-3G2R 64GB (384GB Total): $990

3xEVGA SuperNova 1600 G+ PSU: $870

9xSlimSAS PCIe gen4 Device Adapter 2 8i to x16: $630

1xROMED8-2T: $610

5xNVIDIA - GeForce - RTX NVLINK BRIDGE for 3090 Cards - Space Gray: $425

6xCpayne PCIe SlimSAS Host Adapter x16 to 2
8i: $330

1xWDS400T2X0E: $300

10x10GTek 24G SlimSAS SFF-8654 to SFF-8654 Cable, SAS 4.0, 85-ohm, 0.5m: $260

1xEpyc 7502P CPU: $250

1xThermaltake Core P3 (case I pulled the extra GPU cage from): $110

1xNH-U9 TR4-SP3 CPU Heatsink: $100

1xMining Case 8 GPU Stackable Rig: $65

1xLINKUP Ultra PCIe 4.0 x16 Riser 20cm: $50

2xshinic 10 inch Tabletop Fan: $50

2x10GTek 24G SlimSAS SFF-8654 to SFF-8654 Cable, SAS 4.0, 85-ohm, 1m: $50

2xCOMeap 4-Pack Female CPU to GPU Cables: $40

1xFabbay 3/4"x1/4"x3/4" Rubber Spacer (16pc): $20

1xBAY Direct 2-Pack Add2PSU PSU Connector: $20

1xCat 8 3ft.: $10

1xOwl Desktop Computer Power Button: $10
Аноним 21/04/24 Вск 21:13:27 #169 №712854 
>>712849
Прикольно но 10? Не проще за эти 8500 купить какую нибудь проф карту но быстрее и одной памятью на 80 гб? Или 2, хз сколько они ща стоят
Аноним 21/04/24 Вск 21:16:04 #170 №712860 
Раз уж разговор про видяхи. Моя 3060ti что потянет максимум? А то я на маке генерю в основное время, на цпу
Аноним 21/04/24 Вск 21:18:54 #171 №712867 
>>712819
>А так всё работало.
Работало в смысле выдавало нормальный результат, или просто обучение завершалось без ошибок?
Просто мне лично кажется, что bf16 может втихую херить обучение. Как по мне, лучше перегонять в нормальные fp32, тем более эта операция идёт без потерь.
>>712820
>Как по качеству?
Как говно вестимо. Тут помножились два фактора- народ пока не научился в тюнинг тройки, и автор сайги всегда выдавал кал.
>>712823
>Скажи, чем тогда кобальд отличается
Поддержкой обратной совместимости. Жора её периодически дропал, а кобольдом можно запускать самые старые модели.
>>712832
Меняй 3080ti на 3090, что же ещё. 3080ti максимум неудачна для нейронок, увы.
>>712839
>Еще и хохлозависимый.
Репортим за политику?
Аноним 21/04/24 Вск 21:20:35 #172 №712871 
>>712832
> Я хз как её поместить вовнутрь ситемника.
Алсо в текущем виде она может влезть вдоль задней стенки, но останется проблема перегрева верхней карточки.
>>712849
Жаль это подходит прежде всего для ллм или для кучи мелких моделей, вот бы можно было бы диффузию тренить разбивая по видюхам, эх.
>>712854
> Не проще за эти 8500 купить какую нибудь проф карту
За 8500 можешь только хуй пососать, при удачном раскладе пара A6000 и даже не ада. A100@80 от 15 и выше как правило.
Аноним 21/04/24 Вск 21:26:11 #173 №712878 
>>712871
>A100@80 от 15 и выше как правило.
В России за лям можно взять, так что уверен, что дешевле. Плюс тут кроме 8,5 килобакса нужно учесть кучу доп железа, чтобы запустить десяток видях, начиная со спец доски и заканчивая райзерами и блоками питания.
У чела кстати ещё карты рандомно попарно RTX NVLINK BRIDGE соединены, я вообще ХЗ, насколько это тут помогает, а 425 бачей на них ушло.
Аноним 21/04/24 Вск 21:31:46 #174 №712891 
>>712839
Все написано на главных страницах репозиториев. В прочем ответы на твои вопросы были и здесь, ты их просто яро игнорируешь.

>>712840
Жди исправления, баги существуют в любом софте. В кобальде их также дохуя и много чего работает через жопу.

>>712867
> Поддержкой обратной совместимости. Жора её периодически дропал, а кобольдом можно запускать самые старые модели.
Очень полезная фича. Прям необходимая инновация. Так что, это все?

> Репортим за политику?
Проиграл. Ряяяя, постит неудобное, репортим его ребят, кобальд стронг. У вас тут эхочембер похлеще чем в /po/. Такие же охранители с отсутствием пластичности. А самое забавное, что ваша шапка и выбор инструментов полностью скопирован с форчановых дегенератов, хотя даже там шапка лучше и постоянно обновляется.
Аноним 21/04/24 Вск 21:36:17 #175 №712907 
>>712878
> В России за лям можно взять
Где?
А там сам можешь чекнуть аукционы и прочее, офк единичные варианты выгодные часто проскакивают, но за ~10к восьмодестигиговую урвать это очень круто.
> вообще ХЗ, насколько это тут помогает
Там где софт использует взаимные обращения - помогает, не так давно в 3090/4090 "анлокнули" некоторые функции торча связанными с этим. В такой сборке даже хз, там вся сборка довольно сомнительной оптимальности по цене, будто ему на заказ васяны наваливали позиций с которых навариваются. Особенно забавно выглядит профессор, на фоне всего этого зажидиться накинуть пару сотен на милан, который сильно лучше в том числе и по работе с периферией.
>>712891
> Жди исправления
Зачем жрать кактус если можно использовать софт белых людей вместо цыганского высера?
Аноним 21/04/24 Вск 21:39:56 #176 №712918 
>>712891
>Так что, это все?
Про остальное уже писали, удобный гуй да запуск с одного файла безо всякой установки.
>А самое забавное, что ваша шапка и выбор инструментов полностью скопирован с форчановых
Иди нахуй, она с нуля писалась совместным трудом.
>>712907
>Где?
На лохито были варианты, но ХЗ насколько это надёжно.
Аноним 21/04/24 Вск 21:41:59 #177 №712923 
Между 4_к_м и 6_к заметна разница?
Аноним 21/04/24 Вск 21:42:37 #178 №712925 
>>712871
>За 8500 можешь только хуй пососать, при удачном раскладе пара A6000 и даже не ада. A100@80 от 15 и выше как правило.
В принципе есть а40 на 48 гб врам, цены у нас около 500к, тоесть в нормальных странах 3-4к зелени. На ту гору железа что нужна на запуск 10 карт, можно было купить 3-4 таких карты и получить приблизительно 150-200 гб быстрой врам
Аноним 21/04/24 Вск 21:44:05 #179 №712931 
15190699551060.jpg
Забавная картина. Сидят достопочтенные джентльмены из высшей прослойки общества за сигарой и бокалом Шато Марго, обсуждают насущные проблемы искуственного интеллекта в узком круга.

И тут внезапно в клуб с ноги врывается неотёсанная мартышка с чертами лица жертвы инцеста, перемазанная собственным спидозным поносом, прыгает на стол, и начинает верещать про какую-то цыганскую поделку.

А джетльменам и норм, они её кормят за каким-то хуем.
Аноним 21/04/24 Вск 21:47:16 #180 №712944 
>>712916
> на заднее ребро системника подцепить
Не понял как это.
Но с тем можно крепить почти как угодно, у него на передней панели, которая заменяет элементы корпуса к которым крепится видюха, на боках есть отверстия. Соответственно можно как угодно крепить напрямую к корпусу через них или с использованием комплектной пластины. Или свою наколхозить, простор для творчества широкий.
>>712918
> На лохито были варианты
Это 40-гиговые, у барыг стоит цена на самую дешевую позицию а в описании список того что есть.
>>712925
> есть а40 на 48 гб врам
A6000, то же самое но не нужно пердолиться с охлаждением. По перфомансу они чуть слабее чем 3090. Вот и считай 3 чипа 144 гига врам против 10 более мощных с 240 гигами.
Другое дело что многие вещи не запустить на 24 гигах.
Аноним 21/04/24 Вск 21:50:50 #181 №712953 
>>712944
>Другое дело что многие вещи не запустить на 24 гигах.
В этом и суть. Толку от 240 если одну модель даже на 3 размазать уже падение скорости слишком большое. Не знаю играет ли роль нвлинк, делая как бы 1 общую врам из 2, тогда ладно 6 карт еще туда сюда.
Либо у него там тупо сервер где параллельно запущено несколько агентов сеток, тогда сойдет.
Аноним 21/04/24 Вск 21:54:13 #182 №712964 
>>712849
>5xNVIDIA - GeForce - RTX NVLINK BRIDGE for 3090 Cards - Space Gray: $425
Чёт не понял как они слинкованы, попарно что ли?
Аноним 21/04/24 Вск 21:55:02 #183 №712968 
>>712925
>а40 на 48 гб врам
Проще уж RTX A6000 48Gb брать, цена сравнима, зато охлад колхозить не нужно, турбинка встроена.
>>712944
>у барыг стоит цена на самую дешевую позицию а в описании список того что есть.
Эх, вот бы лохито банил такие высеры...
>>712944
>A6000
Не успел.
Аноним 21/04/24 Вск 21:56:17 #184 №712973 
изображение.png
>>712964
>попарно что ли?
-> >>712878
>попарно RTX NVLINK BRIDGE соединены
Там же видно всё. 85 баксов за кусок текстолита с 2 разъёмами, ебануться можно.
Аноним 21/04/24 Вск 21:56:27 #185 №712974 
>>>/hw/
Аноним 21/04/24 Вск 21:58:39 #186 №712980 
>>712923
В мелких сетках - да.
7b, 11b
На счет 13 уже не уверен. Она есть, но заметна ли хз
Аноним 21/04/24 Вск 22:01:04 #187 №712991 
>>712918
> Иди нахуй, она с нуля писалась совместным трудом.
Конечно, ты уже даже и не понимаешь/не помнишь, откуда первоначально взял эти знания. У вас даже rentry (который так-то заблокирован в РФ) используется, потому что изначально был спизжен с форчана.
Аноним 21/04/24 Вск 22:03:24 #188 №712996 
>>712692
>Ну так надо сосредоточится на их дотренировке, а не клепать 7B лоботомитов.
У 7Б применений выше крыши, просто не кумерских. Если в 7Б возможно утрамбовать больше - надо утрамбовывать больше
Аноним 21/04/24 Вск 22:04:25 #189 №712998 
>>712974
Мы о применении к негросеткам, если немного, то можно. Ну или железотред откопать, лол, точно такой был.
>>712991
>который так-то заблокирован в РФ
Сейчас бы беспокоиться об этом, когда половина интернета разъёбана нахуй блокировками, самоблокировками и прочим говном, и без настроенного VPN буквально никого нет.
Аноним 21/04/24 Вск 22:04:41 #190 №712999 
>>712991
> Of course, you don’t even understand/remember where you originally got this knowledge from. You even use rentry (which is somehow blocked in the United States) because it was originally stolen from the 2ch.
Ля сука, сам пост с форча спиздил и обвиняет
Аноним 21/04/24 Вск 22:08:08 #191 №713005 
>>712996
> У 7Б применений выше крыши, просто не кумерских
Где?
Офк они имеют право на жизнь, но все потребности покроет буквально стоковый мистраль и десяток файнтюнов для чего-то более специализированного. А тут каждый пилит свой клон без каких-либо отличительных особенностей. В итоге запомнились только опенчат за русский, старлинг для кода, бакллава за мультимодальность, ... и все, а остальные или сношаются в мерджах среди тех, кто не познал рп на моделях побольше, или уже всеми забыты.
Аноним 21/04/24 Вск 22:10:05 #192 №713008 
>>712388
Ты перепутал, чел.
То что коммандир хорошо говорит на русском сказал первым я, еще спустя день после ввода поддержки ее в лламу. =) Потом поддержку убрали, потом на неделю все на нее забили, и только спустя две недели хайп вновь поднялся.

Я говорю не о том.
Я говорю о том, что сам промпт целиком делать на русском.
Чем больше промпт на английском — тем больше он путает языки. Помни, что сама нейронка не разбирает где и на каком языке написано, ей на вход подается просто куча токенов, у нее нет особых «для промпта» и «текст персонажа» — все это падает одной кучей. И те, кто много с этим работает, замечает, что крупный промпт на инглише (для корпо-сегмента) убивает весь ответ на других языках.
Вопрос-то она поймет, тут для нее нет проблем. Но ответ даст на том языке, на котором написан промпт.

Дело не коммандере, дело в самом промпте ради качества ответов.

>>712446
Не-не, пункт про отвечай хуйня, как таковая. А перевод да, этим я иногда страдаю, подбираю.
Но в общем, пока это не популярно, так как чисто русских моделей нема.

Кстати о контексте… ниже.

>>712547
Не, прирост ума есть, просто он нам уже не очевиден.
А вот жмыхнуть ее может здорово от первого кванта, да.
Так что и правда юзлесс, скорее всего.

>>712740
Уоу, новый взрыв, разведите его на пять абзацев, пожалуйста!!! =D

>>712812
Ну, то есть, любая другая обертка, но на минималках? Звучит так. Но оффенс.

———

Короче, покрутил я Llama 3 70B Q5_K_S.
Целиком влазит без контекста.
С 8к контекстом влазит 77 слоев с разбиванием 41,48.
Скорость 4,7 на старте или 1,7 с фулл-контекстом (для DDR4).
Ну, типа, на грани юзабельности.

С 4к контекста влазит 79 слов с разбиванием 43,48.
Скорость 5,2 на старте или 2,2 с фулл-контекстом.

Конечно, после мистралевских 32к (и всяких ярнов и прочей фигни, и квенов и так далее…), 8к в принципе смотрится не очень много.
И для работа может не подойти, ибо со временем сетка быстро забудет, с чего мы начинали.
Для ролеплея — пухлые карточки убьют контекст в нулину.
А уж сокращая ее, хотя и получаешь более-менее нормальную скорость (и ум на 5.5 бпв у нее хорош), но контекст… Боль.
Мой личный вывод — пятый квант для 2 тесла не подходит в большинстве случаев. Разве что, переводчик-кун нашел бы это сколь-нибудь полезным, тут я хз.
Аноним 21/04/24 Вск 22:14:27 #193 №713013 
>>713008
ЗЫ
С 79 слоями скорость до 5.6 доходит, кста.
Но один фиг, 4к контекст…
Аноним 21/04/24 Вск 22:16:28 #194 №713015 
>>713008
Протести как работает с 16к контекстом и с разными параметрами rope
> сказал первым я
> Я говорю не о том.
> Я говорю о том
> я
> я
Спокойнее
> Я говорю о том, что сам промпт целиком делать на русском.
Нахуй не нужно
> Чем больше промпт на английском — тем больше он путает языки
Просто инструкция "отвечай на русском если контекст не подразумевает иное" и все.
Аноним 21/04/24 Вск 22:16:32 #195 №713016 
>>713005
Для кода щас топчик вот эта штучка
codeqwen-1_5-7b-chat
Аноним 21/04/24 Вск 22:19:08 #196 №713021 
>>713008
>С 8к контекстом влазит 77 слоев с разбиванием 41,48.
То есть ты чётко видишь где у тебя контекст в режиме rowsplit? Или просто подразумеваешь, что он должен быть на первой карточке даже в этом режиме?
Аноним 21/04/24 Вск 22:19:37 #197 №713022 
123.png
3090 тесты прошла, а значит обновляем пул моделей.
Аноны, посоветуйте каких накачать и для РП/кума и для общения.
Минимум 8к токенов, нехай с 40 гб памяти на 4 сидеть.
На пикриле что у меня осталось, продела путь от 13б до 34б.

Тут все наяривают на Команд-Р, но мне он чет не особо защел, может чего делал не так, но уж очень он пресный.
А вот Бигль 8х7, я прям рекомендую. Очень приятная модель
Аноним 21/04/24 Вск 22:23:23 #198 №713027 
loss.png
>>712867
>Работало в смысле выдавало нормальный результат, или просто обучение завершалось без ошибок?
Да.
>fp32
Буржуй, блядь. В лучшем случае fp8. Сейчас вот на fp16 ебусь, не получается.


Ну что это за хуйня, куда это годится вообще.
Аноним 21/04/24 Вск 22:26:09 #199 №713033 
Во сколько обойдется файнтюн такой микромодельки 0.5b или лучше локально ее вообще зафайнтюнить? Прожектор тоже надо файнтюнить вместе с ней или не важно?
https://huggingface.co/qnguyen3/nanoLLaVA
мимо нубик
Аноним 21/04/24 Вск 22:27:35 #200 №713038 
> дрочу слои, дрочу кванты, дрочу параметры и все это чтобы подрочить
> в то же время адекватный человек, уважающий свое время, просто ставить олламу, пулит модель и начинает работать

Вся суть.
Аноним 21/04/24 Вск 22:35:13 #201 №713053 
image.png
>>713008
>Я говорю о том, что сам промпт целиком делать на русском.

И в чем проблема? Делай на здоровье, я уже сделал, пикрил, тот скрин выше >>712388 тоже моделью с русским промптом написан. И все скрины что я постил в тред последние несколько дней с русским текстом - все написаны русскими персонажами.
Аноним 21/04/24 Вск 22:51:13 #202 №713067 
>>713022
>может чего делал не так
>3.0bpw

Ну ты понял, навернул 3бит обрезок и удивляешься.
Ну и раньше он нормально не поддерживался.
У тебя только 3090 или еще что есть? Если есть что-то еще - можно мику попробовать.
Аноним 21/04/24 Вск 23:03:10 #203 №713075 
>>713033
> 0.5b или лучше локально ее вообще зафайнтюнить
Все зависит от твоей врам. В 24гб влезет и 3б.
> Прожектор тоже надо файнтюнить вместе с ней или не важно?
Раз готовый то лучше сразу вместе.
>>713067
Двачую, в 40 гигов 4битный поместится с некоторым контекстом.
Аноним 21/04/24 Вск 23:05:57 #204 №713077 
>>713075
>Двачую, в 40 гигов 4битный поместится с некоторым контекстом.
4 битный коммандер и в 30 гигов влезает с 4к контекста, так что он спокойно может крутить 5км с 8к контекста ,ну, где то так.
Не знаю что там ожидать от сетки на 3 битах, она все равно сломана. Только с 4 начинается что то нормальное.
Аноним 21/04/24 Вск 23:07:20 #205 №713079 
>>713077
Ну или мику, да. Хотя мне кажется там мало контекста войдет.
Аноним 21/04/24 Вск 23:15:04 #206 №713089 
>>713067
3090 и 4070т суп. 40 гб.

Мику какого кванта брать, подскажи пожалуйста. И какую лучше. Миднайт?
Вообще как правильно расценивать размер ЛЛМ, не знаешь?
Я вот обычно брал 70% по размеру самих файлов .safetencor, и остальное на контекст оставлял.
Но например злоебучий Коммандер чет совсем адский размер контекст имел.
Аноним 21/04/24 Вск 23:17:56 #207 №713093 
>>713021
Он всегда падает на первую карточку.
Может я не прав, но при загрузке видно, что в начале грузятся слои (типа занято 21/23,5 гига), а потом прилетают слои (23,5/23,5). Либо, если выставить много — прилетает ошибка о переполнении.
На вторую карту тоже прилетает чуток (мегабайт 10-100), но это не критично.
Вообще, мне всегда казалось, что он прилетает на первую карту, это кто-то еще полгода назад сказал, а я поверил. Ну и, вроде бы, соответствует правде, я хз.
Когда я ставил равное количество, то на второй был недогруз, а потом вылетало из-за нехватки памяти. Но, может, то был единичный случай, и я не прав.
Тогда мои замеры деления хуйня из под коня и я тратил время в пустую. =)

>>713053
Не-не, я не про это. Это карточка персонажа, так я уже сто лет делаю.
Я о том, что у тебя на А.
Аноним 21/04/24 Вск 23:20:41 #208 №713094 
>>713021
Ну слушай, без баланса я нахуй прошел при загрузке модели с ошибкой контекста.
А с балансом, который подобрал — грузится норм.
Видимо, все же падает на первую. Да, с row_split в том числе.
Ну, в теории, лень тестить подробнее.
Аноним 21/04/24 Вск 23:21:13 #209 №713095 
>>713075
> Все зависит от твоей врам. В 24гб влезет и 3б
8 гигов хватит получается?
> Раз готовый то лучше сразу вместе.
Пиздос. Надеюсь там не сложно разобраться
Аноним 21/04/24 Вск 23:25:18 #210 №713103 
>>712760
>Обучаю, как всегда, творением Хуюги.
это под виндой работает? или как аксолотль - только под линух?
Аноним 21/04/24 Вск 23:36:52 #211 №713119 
Хочу собрать отдельную машину по LLM пока на одной Тесле П40 с возможными дополнением
Выбираю боле менее бюджетные варианты базы на чем собирать:
1.https://pg.asrock.com/mb/Intel/Z390%20Phantom%20Gaming%20X/index.ru.asp
2.https://www.asus.com/ru/motherboards-components/motherboards/all-series/rampage_v_extremeu31/
Первый вариант более современный, но сможет только 3 Теслы с другой стороны на карте есть собственный видеовыход.
Второй вариант можно воткнуть Зеон, и память четырех канальная, но с меньшей частотой.
Что лучше выбрать?
Аноним 21/04/24 Вск 23:59:42 #212 №713146 
Как же я ебал обоссаный питон. Абсолютно каждая установка любого дерьма на базе питона - это дополнительно пару часов ебли с зависимостями
Аноним 22/04/24 Пнд 00:00:20 #213 №713147 
>>713103
Под виндой работает на 10%. Потому что под виндой не работает ни дипспид, ни анслот, нихуя. Так что чисто формально да, работает.
Аноним 22/04/24 Пнд 00:08:43 #214 №713165 
Замер перплексити занимает ~1 час для Llama 3 70B.
Стока оставлять мои старушки-теслы работать я че-то как-то не уверен, там еще и нагрузка прыгает…
Сорян, тут я сольюсь, видимо.
Аноним 22/04/24 Пнд 00:11:56 #215 №713169 
>>713089
>Мику какого кванта брать, подскажи пожалуйста

4, какой влезет.
Лучшее соотношение размер/качество у IQ4_XS, лучшее качество у Q4_K_M.

>Вообще как правильно расценивать размер ЛЛМ, не знаешь?

Опытным путем. Например было выяснено что лучше закинуть не все слои на видеокарту, оставив часть слоев на оперативке, чем закинуть все слои на видюху и оставить оперативку в одиночку разгребать контекст. Так я командира на одной 4090 с 8к контекстом запускаю с оффлоадом на видеокарту 31 слоя из 41 со скоростью 5-6 токенов в секунду, например.
У меня есть устаревшая таблица для первой ламы с устаревшими квантами:
https://docs.google.com/spreadsheets/d/13ERoJTi0Z7vMcmoNBWxVeV0n2KOJGg39i-Iz-AfIGr0/htmlview
Аноним 22/04/24 Пнд 00:12:34 #216 №713170 
Почему-то у меня llama-3-8B-instruct работает более менее норм, а llama-3-8B шизит. Там какие-то разные настройки нужны или что? Подскажите что лучше ставить в настройки семплера? Не могу понять. Или может я не ту версию модельки качал?
Аноним 22/04/24 Пнд 00:12:58 #217 №713173 
>>713146

Говорили тебе - ставь кобальт.
Аноним 22/04/24 Пнд 00:14:48 #218 №713176 
>>713170

Да там хуй проссышь сейчас, в чем дело.
Аноним 22/04/24 Пнд 00:16:51 #219 №713182 
>>713173
Мне нужно запустить сейфтензор модель
Аноним 22/04/24 Пнд 00:21:19 #220 №713191 
>>713146
Миниконда с отдельными пространствами, и нет проблем с кодом
Только места жрет дохера
Но любителей нейросеток не испугать несколькими лишними гигабайтами
Аноним 22/04/24 Пнд 00:24:00 #221 №713197 
>>713191
Ну как сказать. У меня на диске свободно ~10 ГБ. Рот ебал этой миниконды с пространствами и рот ебал пайтона ебучего, который не умеет в совместимость даже самого себя.
Аноним 22/04/24 Пнд 00:29:40 #222 №713200 
>>713197
Щас ссд дешманские, не жлобься купи нормальный 1-2 терабайта и забудь о ожиданиях и нехватке места
Аноним 22/04/24 Пнд 00:32:50 #223 №713201 
>>713200
Так у меня уже 2 куплено. Сколько еще купить надо? Мне бы и память докупить, чтобы 70В гонять. А денег-то нет.
Аноним 22/04/24 Пнд 00:35:32 #224 №713204 
>>713201
Все нейросетками забил? У меня пока только 600гб
Аноним 22/04/24 Пнд 00:36:14 #225 №713205 
>>713191
Ага. Ща ставлю убабугу. Там миниконда в бандле если что. В итоге выбило запуск с ошибкой. При повторном запуске пишет что нет yaml либы. Чекнул в интернете, пишут установить вручную через requirements.txt. Поставил, все равно пишет что его нет. Поставил вручную через pip install pyyaml, продолжает писать тоже самое. Я нихуя не понимаю yaml импортится из pyyaml вогбще или нет. Язык говна блять
Аноним 22/04/24 Пнд 00:36:58 #226 №713206 
>>713204
Это несложно. У меня тер забит ллмками, фордж, поломатик, кохя, фукус, комфи, куча моделей, топаз
Аноним 22/04/24 Пнд 00:38:34 #227 №713207 
>>713119
По Asrock подробные обзоры поищи. Так-то вариант кажется неплохим, но конкретная модель может подвести.
С Асусом вроде получше вариант, но опять же - видеоядра нет и это не HEDT, а значит лотерея.
Если железо ещё и не новое, то оба варианта дрянь.
Аноним 22/04/24 Пнд 00:40:41 #228 №713212 
079SlowpokeAGanime.webp
>>713205
>Поставил, все равно пишет что его нет. Поставил вручную через pip install pyyaml

Так ты в систему небось поставил, а надо в venv убы.
Аноним 22/04/24 Пнд 00:42:13 #229 №713214 
>>713204
Ну не все. Еще музыку пытался писать. Музыкальные библиотеки весят не меньше нейронок. В итоге 6ТБ забито полностью.
Аноним 22/04/24 Пнд 00:42:37 #230 №713215 
>>713200
>Щас ссд дешманские, не жлобься купи нормальный
Нормальный - это NVMe c DRAM-буфером, чтобы 40-50 гигов писались и грузились быстро. А это уже не так дёшево.
Аноним 22/04/24 Пнд 00:44:42 #231 №713217 
>>713212
Да я ебу куда там надо, я не пишу на питоне и никогда с ним не сталкивался, но приходится из-за того что все ИИ построено вокруг него. Все эти пактеные менеджеры говна, конды, миниконды, venvы, pip и pip3 (чем оно блять вообще отличается?). НЕНАВИСТЬ. Спасибо за подсказку
Аноним 22/04/24 Пнд 00:49:07 #232 №713222 
>>713205
>>713217
В консольке жмешь cd <путь каталога>
Дальше venv\Scripts\activate
Если пространство уже есть, тебя закинет туда. В консоле будет в начале строки написано (venv)
Чтобы создать свою среду, нужно ввести команду: python -m venv <environment_name>
Надеюсь, не наебал нигде. Петухон - говно, кстати, а не язык.
Аноним 22/04/24 Пнд 00:55:22 #233 №713229 
Сейчас будет смертельный номер - запуск 6-битной сайги-лламы-3 с 16к контекстом и стресс тест этой хуйни!
Аноним 22/04/24 Пнд 00:57:49 #234 №713232 
>>713222
> Дальше venv\Scripts\activate
Не, походу тут нет venvа. Тут миниконда и я хз как оно работает. Надо ли какой-то специальной командой к ней в shell входить
Аноним 22/04/24 Пнд 00:57:52 #235 №713233 
>>713077
> 5км
Не то чтобы в 40 гигами есть смысл в жоре.
>>713089
> Мику какого кванта брать, подскажи пожалуйста
Она, пожалуй, единственный повод для этого. 4km тот самый единственный и оригинальный https://huggingface.co/miqudev/miqu-1-70b отсюда, остальное уже будет пережатием с потерями. Не факт что она влезет.
>>713095
> 8 гигов хватит получается?
Наверно, нужно пробовать.
По поводу тренировки, когда она идет с нуля то в начале морозят ллм и тренируют только проектор чтобы он начал как-то нормально работать. Потом размораживают и тренируют все связку.
>>713146
Где можно столкнуться с еблей? Гит клон @ запуск батника или шелл скрипта с ответом что у тебя не амудэ и не старая архитектура хуанга. Все. Буквально ничего делать не надо.
Аноним 22/04/24 Пнд 01:01:40 #236 №713234 
image.png
>>713232

Блядь, просто удали все, скачай заново, потом запусти батник update_wizard_windows.bat и там сначала нажми А, потом В
Аноним 22/04/24 Пнд 01:01:48 #237 №713235 
>>713233
>Она, пожалуй, единственный повод для этого. 4km тот самый единственный и оригинальный
В его случае - 40гб врам и современные карты - только exl2-вариант. Да, с потерями, но она будем меньше и быстрее и точно влезет.
Аноним 22/04/24 Пнд 01:03:33 #238 №713236 
>>713233
У меня мак

>>713234
У меня мак

Это основная проблема, но питон тоже сосет. Короче иду лучше курить как конвертнуть safetensors в gguf
Аноним 22/04/24 Пнд 01:13:06 #239 №713243 
>>713236
Оуууу, да, тут тяжелый случай. Ну, земля пухом, зато у тебя относительно шустро будет llamacpp работать на всей рам.
> Короче иду лучше курить как конвертнуть safetensors в gguf
Если хочешь 16бит или q8 - просто воспользуйся скриптом convert-hf-to-gguf.py и закажи q8 тут тоже пихон, как видишь.

Алсо при чем тут пихон, ты же буквально должен гореть с любой сборки чего бы то ни было кроме совсем тривиальных вещей, там же даже с npm веселье.
Аноним 22/04/24 Пнд 01:13:25 #240 №713244 
>>713236
> У меня мак
Пиздец. Ну это приговор.
Аноним 22/04/24 Пнд 01:19:31 #241 №713246 
>>713243
> Алсо при чем тут пихон
Часто пакетов некоторых нет на мак и приходится вручную качать лругие версии пакетов. Плюс тут на маке особый пиздец, ибо есть системный питон и питон, который ты устанавливаешь поверх его, его не заменяет. В итоге всегда путаница с версиями.
> ты же буквально должен гореть с любой сборки чего бы то ни было кроме совсем тривиальных вещей
Не, у меня так только на линуксе было.
> там же даже с npm веселье.
С нам все идеально, говорю как фронтенд макак

>>713244
У меня есть шиндошс машина так-то, мак так для души, я просто сейчас не дома и есть только мак
Аноним 22/04/24 Пнд 01:23:36 #242 №713247 
>>713246
> мак так для души
За мак вообще не шарю. Используй гопоту и гугл. Вместе может что и сделаете. А я рот ебал и петухона, и надкусанного яблока.
Аноним 22/04/24 Пнд 01:24:54 #243 №713248 
image.png
image.png
image.png
image.png
Короче поделюсь своим новым опытом говнокода. Раньше у меня не было настроения так поиграться, да и сетки умной и мелкой тоже. Сам я кстати не погромист, так, учился самоучкой.
Щас игрался с codeqwen-1_5-7b-chat-q8_0.gguf, контекст до 64кб, опенчат формат.

У меня были старые файлы, когда я писал тренировку нейросети классификатора для датасета ирис. Учебная хуйня для нейросетей, по сути примитивный код на питоне без всяких гпу ускорений в 1 поток невероятно быстрого питона, ладно хоть с нумпи.

Похуй.

Короче, тренировочный файл гоняет эпохи и если доходит до нужной мне точности кидает веса в файлы. 130 строк говнокода.
Которые потом открывает инференс файл, 55 строк говнокода, проверяя точность на том же датасете.

Создал простейшего ассистента кодера в таверне, и кинул ему код попросив проанализировать его. Он сделал это, пик1, потом попросил оптимизировать код, пик2. Делал так несколько раз, тупо вставляя его же код в тот что он писал после первой оптимизации.
Покатав туда сюда у меня получился реально работающий код, похудевший на 10 строк. И скорей всего исполняющийся быстрее, не гонял профайлер

С инференс частью работал в этом же диалоге, тупо сказав боту что это вторая инференс часть одного проекта. И что нужно сделать ее совместимой с первой частью.
И он понял, пик 3. Попросил оптимизировать, и он сделал это с первого раза даже, пик4.
И все, инференс часть стала всего 45 строк.

Прогнал тренировку, прогнал инференс. Работает.
Хуй его знает конечно как правильно, но лучше того говнокода, что накопировал и настроил я.
И ведь делала это такая мелочь, не сраный гпт4 или клод3.
Кнопка сделать заебись уже не кажется так далеко.
Аноним 22/04/24 Пнд 01:28:03 #244 №713249 
>>713248
А где код и какая его цель?
Аноним 22/04/24 Пнд 01:31:39 #245 №713250 
>>713249
Тебя прям получившийся код интересует?
Цель была когда то - потыкать что такое нейросети и примерно разобраться как они работают, на примитивном примере. Год назад кажется все это делал. Сейчас просто вспомнил и решил скормить сетке, заебенчик вышло, даже несмотря на косяки. Просто говоришь боту где косяк и он его исправляет.
Код не сложный, да.
Аноним 22/04/24 Пнд 01:35:53 #246 №713251 
>>713250
Спасибо за тест, пожалуй скачаю поиграться.
Аноним 22/04/24 Пнд 01:35:58 #247 №713252 
>>713250
Скинь свою версию и версию бота. Чисто посмотреть. Заодно хочу заценить как llama-3-8B справится.
Аноним 22/04/24 Пнд 01:40:20 #248 №713253 
image.png
image.png
image.png
>>713248
Сейчас еще попросил добавить графики в инференс часть и бот мне такой - окей. И это я тупо скопировал, вставил, скачал либу, и запустил. И вот оно.

Щас кину файлы на катбокс для любопытных
Аноним 22/04/24 Пнд 01:57:19 #249 №713260 
Так, вот скинул 2 папки с 2 версиями. Проверил, вроде работают. Хз как по качеству.
https://files.catbox.moe/sdsqtd.zip
iris-neuro новая
Аноним 22/04/24 Пнд 02:13:33 #250 №713266 
>>713260
Благодарю.
Аноним 22/04/24 Пнд 02:20:23 #251 №713269 
>>713252
> llama-3-8B
Я кстати вначале на инструкте ллама 3-8b делал это, еще на карточке гпт-6. Она умнее и предлагала идеи сильнее меняющие код, и легче понимала что от нее нужно. Но мне стало лень разбираться в ее сложном коде, в котором были ошибки.
Но я все таки вспомнил что скачал кодквен и запустил его попробовать в задачах.

Кстати я уже писал когда то, может не работать на куда, выдавая билеберду. Тогда с вулканом запускать.
Ну, для тех кто будет на кобальде тыкать.
Аноним 22/04/24 Пнд 02:35:42 #252 №713272 
>>713269
> может не работать на куда, выдавая билеберду. Тогда с вулканом запускать.
Вот же ебля. Спасибо хоть предупредил.
Аноним 22/04/24 Пнд 02:37:48 #253 №713274 
>>713272
Уточню, что щас я на новом кобальде запустил и все работало на куда. Но если кобальд старый, или другая видеокарта то хз.
Щас работает, 2-3 дня назад на старом кобальде ебало мозги.
Аноним 22/04/24 Пнд 02:41:05 #254 №713275 
>>713274
Понял, спасибо. Кобольд обновлял недавно.
Аноним 22/04/24 Пнд 02:54:20 #255 №713276 
image.png
Нейросети конечно пиздят с уверенным видом, но какой же это удобный метод обучения. Просто гугл который сразу отвечает тебе на твой вопрос. Сейчас во всем мире будет бум самообучения, для тех кто этого хочет. В любой интеллектуальной сфере, по сути.
Аноним 22/04/24 Пнд 02:58:54 #256 №713277 
>>713276
>пиздят
Прямо сейчас может быть и нет. Но потом будет попроще, да. Опять же, смотря чему обучаться. Проганье легче будет идти, а другие области от сеток зависеть особо не будут.
Аноним 22/04/24 Пнд 05:03:38 #257 №713322 
>>712301
А почему бы отдельным вызовом модели не формировать строчку "инвентаря" в фиксированном месте контекста? Сейчас это например кольцо, кинжал и гондон, а вот теперь я залутал ещё и броник, и отдельным вызовом ЛЛМка его распарсила из собственного ответа и присобачила к этой строке?

Будет такое работать, или я дохуя хочу эта хуйня стриггерится лишь от одного упоминания нерелевантного предмета (гондона) в бою? Тогда может быть опять же вызывать и определять применимые предметы. пиздец скорость упадёт конечно
Аноним 22/04/24 Пнд 05:05:58 #258 №713323 
>>713322
Не совсем понятно, а в чем отличие от world info?
Аноним 22/04/24 Пнд 05:07:42 #259 №713324 
>>713323
Ну пусть будет ворлд инфо, главное чтобы отдельным вызовом модель сама его формировала, а не вручную туда броник закидывать.
Аноним 22/04/24 Пнд 05:19:10 #260 №713326 
>>713324
Я не помню, чтобы в таверне была такая опция, чтобы моделька генерила тебе строки прям в world info, так что копировать все равно придется. Но если ты не используешь опцию summarize, то можешь попробовать припахать ее к делу. Например, у тебя есть
Summary prompt [Pause your roleplay. Summarize the most important facts and events that have happened in the chat so far. If a summary already exists in your memory, use that as a base and expand with new facts. Limit the summary to {{words}} words or less. Your response should include nothing but the summary.], который можно заменить на [Pause your roleplay. List all items that {{user}} have right now in the following format: ```{{user}}'s items {list of items}```. If a list already exists in your memory include new items that {{user}} got recently and remove items that {{user}} lost. Your response should include nothing but the list of items.]
Если хочешь прям чтобы в world info ебашило или авторские заметки, то здесь наверное прогать надо.
Аноним 22/04/24 Пнд 05:21:14 #261 №713327 
>>713326
Ну и да, тебе скорее всего нужна довольно умная моделька, чтобы она не проебывалась со списком предметов. Маленькая ллама-3 не справится. Здесь либо командир, либо хорошая 70В.
Аноним 22/04/24 Пнд 05:22:01 #262 №713328 
>>713248
Чтобы сетка кодила хорошо, нужны:
- RAG по имеющейся кодебазе
- поиск в тырнете (phind так делает, и на мелкосетке умудряется давать поразительно хорошие ответы, хотя конечно гопота-4 кодит лучше)
- заточка чисто под эту задачу.
Думаю производная командира чисто под код будет пиздатой. (он тренился под файнтюны же)
Аноним 22/04/24 Пнд 05:23:36 #263 №713329 
>>713328
> - поиск в тырнете (phind так делает, и на мелкосетке умудряется давать поразительно хорошие ответы, хотя конечно гопота-4 кодит лучше)
Можешь подробнее, что это такое и как это работает? Если подумать, то опция отлично сработает не только для кодинга.
Аноним 22/04/24 Пнд 05:27:45 #264 №713330 
>>713329
phind.com это что-то вроде копайлота с поиском, у них там кроме гпт-4 есть и своя бесплатная сетка, мелкая но сравнительно передовая, которая в паре с поиском неплохо даёт рекомендации по библиотекам или языковым фичам под запрошенную задачу. Кодит хуже чем гпт-4, потому что меньше и тупее, но рекомендует лучше и заточена под задачу лучше.
Аноним 22/04/24 Пнд 05:32:43 #265 №713331 
>>713244
Если это ябл силикон с дохуём памяти, так даже пиздаче для больших сеток.
Аноним 22/04/24 Пнд 05:37:08 #266 №713333 
>>713330
Прикольная. То есть ее можно и локально поставить? А как прикрутить к ней поисковой движок или заставить пользоваться гуглопоиском обычным, например?
Аноним 22/04/24 Пнд 05:54:47 #267 №713334 
>>713330
Кстати, что-то в таверне похожее нашел. SillyTavern-1.11.7\public\scripts\extensions\third-party\SillyTavern-extras\modules\websearch
Оно работает?
Аноним 22/04/24 Пнд 07:56:21 #268 №713357 
image.png
Платина. Сколько слоев можно вынести на видяху? Не nvidia intel arc поэтому ограничения с пересчетом по CUDA из шапки для меня имеет смысла.
Аноним 22/04/24 Пнд 07:58:28 #269 №713358 
>>713357
>для меня не имеет смысла
быстрофикс
Аноним 22/04/24 Пнд 08:06:00 #270 №713366 
>>713357
У разных карточек слои разной толщины, пробуй и смотри в консоль
Аноним 22/04/24 Пнд 08:08:32 #271 №713369 
>>713366
> пробуй и смотри в консоль
А на что смотреть? koboldcpp использую
Аноним 22/04/24 Пнд 08:14:46 #272 №713370 
Учитывая очень высокий уровень лламы 3 при скромном размере, какой теоретически самый маленький и дешевый мини компьютер будет достаточен для неё на 15 т/с?
Аноним 22/04/24 Пнд 08:19:27 #273 №713374 
изображение.png
изображение.png
>>713357
>Не nvidia intel arc
Лол, оно вообще хоть как-то пашет?
Смотри короче в диспетчере, чтобы память была не вся занята. Ну и пробежись глазами по всему выводу, там пишется объём.
Аноним 22/04/24 Пнд 08:25:00 #274 №713376 
>>713374
> Лол, оно вообще хоть как-то пашет?
На koboldai 4 дня безуспешно пытался завести. Потом иэуаидел этот тред. На koboldcpp заработало искаробки вообще без пердолинга
> Смотри короче в диспетчере, чтобы память была не вся занята.
Ему вообще похуй как будто бы. Ставишь 5 слоев и он забивает 7,3 из 8
Ставишь 49 слоев и он так же забивает 7,3 из 8 по диспетчеру
> Ну и пробежись глазами по всему выводу, там пишется объём.
Вот тут пожалуйста подробнее. Я пытался глядеть во все и так и не понял что мне нужно
Аноним 22/04/24 Пнд 08:57:16 #275 №713393 
>>713376
>Вот тут пожалуйста подробнее.
Скриншоты же... Покажи похожие места, будет видно. Да и настройки самого кобольда перед запуском покажи. Да про скорость расскажи. Ты ж первый тут с интелом (наверное, я склеротик).
Аноним 22/04/24 Пнд 09:04:17 #276 №713398 
>>713393
> Скриншоты же...
Отпугнуло что везде написано cuda. Подумал что просто хватаешься.
>Покажи похожие места, будет видно.
>Да и настройки самого кобольда перед запуском покажи.
Скину уже как к компу вернусь.
> Да про скорость расскажи.
Утром прям перед выходом пробовал вынести 24 слоя. Генерило примерно 3 токена в секунду. Модель из шапки.
Аноним 22/04/24 Пнд 09:38:46 #277 №713438 
>>713357
Ну как карта вообще?
И зачем брал?
Аноним 22/04/24 Пнд 09:43:55 #278 №713440 
>>713438
> Ну как карта вообще?
Карта как карта. Вообще никаких бед не знал, пока не пришел к нейронкам.
> И зачем брал?
Да где-то в инете увидел решил попробовать ибо за такие деньги такая-то мощность ух
Аноним 22/04/24 Пнд 09:58:34 #279 №713448 
>>713248
Да, база.

>>713357
Тебе надо, чтобы только верхняя 0/8 заполнялась, а в 0/24 было ДО 8, ибо это выгрузка в оперативу как раз.
Аноним 22/04/24 Пнд 10:09:28 #280 №713456 
https://huggingface.co/chargoddard/llama3-42b-v0
базовая от гуру франкенмержей появилась
Аноним 22/04/24 Пнд 10:18:58 #281 №713465 
>>713456
> mmlu 0.7669
Знатно порезало, но всё ещё выше мистраля медиума.
Аноним 22/04/24 Пнд 10:28:01 #282 №713468 
А чего EXL2 на низких квантах такой поломанный? Я даже погуглил манятесты и внезапно 70B у Жоры с нормально откалиброванным IQ2 (2.4bpw там) проходит их почти так же как Q4, максимум пару тестов проваливает из 50, а вот EXL2 уже на 3.5bpw отлетает с десятком провалов. Тестил третью лламу EXL2 2.4bpw - сломанная нахуй, ни одного ответа без поломок не смог получить - то форматирование сломано, то вставляет слова мусорные, то после конца сообщения не останавливается и улетает в бред, скорость 18-19 т/с. При этом IQ2 работает без единой поломки, те же 18-20 т/c. Хотя по PPL вроде всегда норм было у EXL2, видимо он нихуя не решает на деле.
Аноним 22/04/24 Пнд 10:43:22 #283 №713484 
https://huggingface.co/HuggingFaceM4/idefics2-8b
какая та новая охуенная мультимодалка, воспринимаемое разрешение изображения до 980х980 и еще куча всяких вич



и какого хуя вахтер все ночные сообщения потер, они так то по теме ии и его будущего были
Аноним 22/04/24 Пнд 10:53:53 #284 №713489 
>>713484
>охуенная
~35 ГБ. Даже на грядущих 5090 не пойдёт да и вообще, я ебал этот питон. А герганыч до сих пор когвлм и квенвл не запилил, чтобы можно было на нищесборках гонять.
Аноним 22/04/24 Пнд 10:54:16 #285 №713490 
image.png
>>713489
Отклеилось.
Аноним 22/04/24 Пнд 11:04:39 #286 №713497 
image.png
>>713489
расслабить булки
Аноним 22/04/24 Пнд 11:17:01 #287 №713500 
>>713484
>какая та новая охуенная мультимодалка
Пару дней назад так и не смог запустить даже на бубе с вручную обновлёнными трансформерами.
>и какого хуя вахтер все ночные сообщения потер
Там же срач был про комми, всё правильно сделал. И вопросы тоже потрут, и мой ответ, и небо и аллаха.
Аноним 22/04/24 Пнд 11:18:25 #288 №713504 
>>713489
Я так понял конкретно это модель сделана на 7b мистрале 0.1 и какой то клип модели что добавило еще миллиард параметров до 8b
Ну и кучи датасетов и методик обучения мультимодалок для лучшего эффекта, как они пишут аналогично размерам модели на 10 больше

>>713500
коммоми срач не жалко, а обсуждение того как ии поможет в обучении жалко
Аноним 22/04/24 Пнд 11:23:04 #289 №713509 
>>713504
>на 7b мистрале
Плохо, если так. Опять никаких языков (на достойном уровне), кроме английского. В этой нише уже есть ллава 1.6, которую вроде нахваливали недавно. Я всё жду мультиязычных.
Аноним 22/04/24 Пнд 11:26:14 #290 №713514 
>>713509
> Я всё жду мультиязычных.
Уверен все это применят к новенькой ллама 3, так что просто подожди и все будет
Да и ллама 4 хотели делать сразу мультимодельаной на сколько помню новости
Аноним 22/04/24 Пнд 11:35:58 #291 №713523 
>>713509
>Я всё жду мультиязычных.
Увы, все мультиязычные всё равно проседают в производительности на языках кроме английского. Пока не сделают твёрдый, чёткий перевод любого языка во внутренний язык модели, пользование чем-то кроме английского будет приносить боль и страдание.
>>713514
>на сколько помню новости
По этим же новостям должны были выпустить моель "в 2 раза больше предыдущей". Но я не вижу 140B лламы 3. Зато сейчас обещают 400B модель. Впрочем, пока я не вижу и её.
Аноним 22/04/24 Пнд 11:44:25 #292 №713531 
image.png
https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9
Устарело на 2 месяца но +-
Аноним 22/04/24 Пнд 11:56:39 #293 №713536 
>>713370

Да любой с 8 гб видеопамяти
Аноним 22/04/24 Пнд 12:00:23 #294 №713542 
>>713456

Блин, нужна в диапазоне 13-30В чтобы в 24 гб влезала. Почему у них проблемы именно с этими размерами?
Аноним 22/04/24 Пнд 12:12:23 #295 №713567 
>>713542
>Почему у них проблемы именно с этими размерами?
Слишком хороши и выгодны.
Аноним 22/04/24 Пнд 12:14:02 #296 №713573 
>>713542
Потому что нужны.
А нужное — продают.
Бесплатно менее нужное.
Аноним 22/04/24 Пнд 12:17:24 #297 №713575 
>>713484
Пробовал, запустилась?
Поставил качаться, через пару дней отпишу.
Аноним 22/04/24 Пнд 12:21:43 #298 №713578 
Еще одна мультимодалка, на этот раз мелочь для мобильных устройств
https://huggingface.co/vikhyatk/moondream2

>>713575
>Пробовал, запустилась?
Нет, просто посмотрел что в тренде на обниморде, чекаю иногда че там интересное появляется
По описанию топ пушка, как на деле не поймешь без тестов.
Аноним 22/04/24 Пнд 12:32:25 #299 №713589 
>>713578
>По описанию топ пушка
Это пишут под любыми моделями, на тренировку которых затратили больше чем пару чашек кофе (или гпу-часов эквивалентной стоимости). Это васян может себе позволить честно написать "ну я тут какую-то хуйню натрейнил, вроде что-то осмысленное пукает, пробуйте, может зайдёт". А пилителям грантов и инвестиций надо нахваливать и перемогать в тестах гопоту4 в любом случае (вне зависимости от реальных успехов), иначе грантов и инвестиций не будет.
Аноним 22/04/24 Пнд 12:33:22 #300 №713592 
>>713468
Они все поломанные на низких квантах, тут без вариантов, даже q2k, который 3.35бит довольно шизоидный. Причин конкретно твоего случая может быть множество: кривая калибровка, отсутствие нужного конфига в папке с моделью или кривой, квантование на самых первых дев-коммитах к лламе 3, которые позже были пофикшены.
По степени отклонений распределения вероятностей токенов, что напрямую говорит о соответствии поведения кванта оригиналу, exl2 стабильно лучше gguf при той же битности. Новые кванты нужно потестить офк, но чудес ожидать не стоит.
>>713484
> охуенная
Уверен? Интересно как там с множественными пикчами будет работать. Визуальная часть, конечно, побольше чем в популярных, может что-то и выйдет.
> по теме ии и его будущего
Аги-шиза от конспирологов?
>>713578
Вторая версия голимая. Хз, автор или решил подтянуть под бенчмарки, или как-то ошибся в датасете/тренировке, но оно получилось довольно слепое и глупее первой. А она, напомню, крайне прилично описывала nsfw и 2d.
Аноним 22/04/24 Пнд 12:43:09 #301 №713614 
>>713592
>Аги-шиза от конспирологов?
Там было то что сетки хороши для обучения чему то или самообучения, без всякого упоминания о всемогущем аги

>Вторая версия голимая. Хз, автор или решил подтянуть под бенчмарки, или как-то ошибся в датасете/тренировке, но оно получилось довольно слепое и глупее первой. А она, напомню, крайне прилично описывала nsfw и 2d.
Да? Интересно, наверняка мозги пострадали изза большей настройки на восприятие изображений. Как и ллава та же тупее своей основы изза переобучения с потерей мозгов. Ну а с потерей мозгов сетка не может нормально работать с тем что видит, от того и слепее. Но это так, размышления, хз как это работает.


>>713589
Как бы да, но нет. Чем новее модель тем она лучше в большей части случаев. К тому же то что они используют умную сетку и жирный визуальный кодер так же внесет свой вклад. Это я так понимаю что то вроде когвлм на минималках. Но все еще должно быть лучше ллава, так как сделано по новым "рецептам"
Аноним 22/04/24 Пнд 12:49:37 #302 №713622 
>>713614
Ну вон выше посты про код, его ревью, множественные запросы, вполне норм же.
Хуй знает что там пострадало, может она стала лучше в чем-то другом, текст так очень хорошо видит, но первая была лучше а эта пиздец галлюцинирует и сочиняет лишнее, упуская важные детали.
> они используют умную сетку
На этой умной сетке мультимодалки были уже пол года назад.
Сберовскую лучше бы потестили, она тоже на мистрали но уже с файнтюном в том числе на русском и с интересным проектором.
Аноним 22/04/24 Пнд 13:00:43 #303 №713646 
>>713622
>На этой умной сетке мультимодалки были уже пол года назад.
Были, но не с таким методом обучения и не с таким визуальным проектором
Аноним 22/04/24 Пнд 13:24:51 #304 №713677 
>>713592
> степени отклонений распределения вероятностей
Уже сто раз обоссали это говно, даже более бесполезное чем сравнение PPL между разными моделями.
Аноним 22/04/24 Пнд 13:46:15 #305 №713707 
https://www.reddit.com/r/LocalLLaMA/comments/1c9zc1j/gguf_of_llama_3_8b_instruct_made_with_officially/
Типо нормальная не поломанная ллама 3 8 инструкт, использовать с обновленными бекендами
Аноним 22/04/24 Пнд 13:53:04 #306 №713715 
изображение.png
>>713707
Жду фикса потеряноруинного. И семидесятки, да.
Аноним 22/04/24 Пнд 13:54:15 #307 №713717 
>>713715
пишут там же что на кобальде уже норм работает
Аноним 22/04/24 Пнд 13:58:40 #308 №713725 
изображение.png
>>713717
Чтобы кобольд, да ещё и без пары горячих фиксов? Не верю.
Хотя тут хайгитлерфейс прилёг, лол, мешают гоям получить доступ к лучшим моделям как могут.
Аноним 22/04/24 Пнд 14:00:45 #309 №713728 
image.png
>>713725
Тоже завис, не успел перейти на закачку, лол
Аноним 22/04/24 Пнд 14:29:25 #310 №713755 
На мобильной 4090 что можно попробовать?
Аноним 22/04/24 Пнд 14:31:00 #311 №713757 
>>713755
врам скока и оперативы
Аноним 22/04/24 Пнд 14:43:00 #312 №713762 
На фоне отсуствия русской локализации в играх задумался об такой херне.
Допустим у нас есть перевод с английского на французский. Есть и оригинал, и перевод. Можно ли проанализировать оригинал, и полученны данные использовать для перевода на другие языки? Это вообще будет иметь смысл?
Или это не имеет смысла и проще скормить просто анлийский текст.
Аноним 22/04/24 Пнд 14:53:03 #313 №713772 
1111.png
Что там? Собакашиз уже пощупал холодную собаку, а то мне лень.
Аноним 22/04/24 Пнд 14:54:44 #314 №713774 
>>713757
64 оперативка, врам 16 на мобильной
Проц 13th Gen Intel(R) Core(TM) i9-13980HX 2.20 GHz
Аноним 22/04/24 Пнд 14:58:28 #315 №713778 
>>713772
Ладно, сам пойду тестить, как всегда...
Аноним 22/04/24 Пнд 15:00:02 #316 №713780 
>>713774
Быстрая генерация на видеокарте, можешь попробовать любую модель до 20b,квантованную в подходящем размере.
Гораздо медленнее, но умнее, даже 70b можешь попробовать
Скачай по инструкции в шапке, или ту модель что указана или опенчат и играйся.
Аноним 22/04/24 Пнд 15:05:08 #317 №713785 
>>713715
А мог бы ванильным сервером Жоры пользоваться. Он быстрее этого кала на питоне, в таверне есть поддержка уже давно. Заодно можно без дрочева пересобирать побыстрому с нужными фичами например кванты к-кеша, можно экономить память на жрущем команд-р и под свою карту, а то Жора/кобольд под паскали собирают.
Аноним 22/04/24 Пнд 15:08:58 #318 №713790 
>>713785
> кванты к-кеша
А как их включать на сервере? Или надо собирать с определенными ключами? Че по падению качества?
Аноним 22/04/24 Пнд 15:15:07 #319 №713795 
ОбнялЛицо нифига не отвечает, кто то для кодинга уже на лламе3 что то заюзал? Как впечатления?
Аноним 22/04/24 Пнд 15:17:43 #320 №713797 
>>713790
> Че по падению качества?
С чего бы ему быть, это же кеш токенов квантуется, а не веса.
Аноним 22/04/24 Пнд 15:20:16 #321 №713799 
>>713797
Он тоже важен для предсказания токенов, точнее говоря его точность
Хорошую вещь квантом не назовут
Аноним 22/04/24 Пнд 15:22:38 #322 №713801 
>>713780
А с LLaMA 3 ещё не разобрались?
Аноним 22/04/24 Пнд 15:24:47 #323 №713805 
>>713801
В принципе работает, можешь и ее по ссылке выше. 8b, но довольно умна. Только промпт формат к ней еще не до конца понятен, и готового в таверне нету. В начале треда есть 2 тестовых варианта для таверны.
Короче советовать ее новичку я пока не буду
Аноним 22/04/24 Пнд 15:29:40 #324 №713807 
>>713799
В EXL2 просто галка "кешировать контекст в 4 бита".
Аноним 22/04/24 Пнд 15:29:46 #325 №713808 
обидно конечно что ллама-3 теперь такая же соевая как и чатгопота, а может даже и хуже, уже известный прикол со сменой "assistant" на "{{char}}" почти не помогает.
юзал вот эту фикшенную, по последнему PR llama.cpp :
https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF
Аноним 22/04/24 Пнд 15:30:38 #326 №713809 
>>713808
Просто катай базовую версию
Аноним 22/04/24 Пнд 15:31:32 #327 №713812 
>>713809
так бэйс версия ж просто autocomplete модель, будет шизить в чате :/
Аноним 22/04/24 Пнд 15:33:02 #328 №713814 
>>713812
Не, она норм работает, просто не так умна и надрочена на промпт формат
Но все еще ллама3
Аноним 22/04/24 Пнд 15:46:50 #329 №713826 
Как же хочется ллаву нормальную на основе ламы 3 уже. Хочу русек
Аноним 22/04/24 Пнд 15:51:23 #330 №713828 
прекрасно, обнимающаяморда лежит.
Аноним 22/04/24 Пнд 15:57:36 #331 №713835 
Да, опять упала. А я успел скачать, хехехе
Аноним 22/04/24 Пнд 16:04:08 #332 №713838 
Да я пророк нахуй
https://www.reddit.com/r/LocalLLaMA/comments/1ca8uxo/llavallama38b_is_released/
>>713514

А еще вот https://www.reddit.com/r/LocalLLaMA/comments/1c9l3cp/l3solana8bv1_a_generalist_instruct_conversational/
файнтюн от автора фроствинд и Fimbulvetr

главное что бы обниморда не сдохла совсем
Аноним 22/04/24 Пнд 16:14:45 #333 №713843 
https://www.reddit.com/r/LocalLLaMA/comments/1c9ydld/we_should_explore_samplers_again/
Обсуждение настройки семплеров
Аноним 22/04/24 Пнд 16:22:44 #334 №713851 
>>713808
Сиди на 70В, у меня пока ни разу не проскочила соя. И оно заебись работает в режиме русские сообщения-английские ответы. Я в куминге пробовал некоторые нехорошие слова использовать со сложными мувами на русском, он отлично понимает что я хочу, в отличии от той же мику. Да и вообще оно явно лучше комманд-р, который 35В.
Аноним 22/04/24 Пнд 16:29:01 #335 №713852 
А что случилось с хугой, его фемки дудосят?
Аноним 22/04/24 Пнд 16:35:54 #336 №713857 
>>713843
Они бы ещё обсудили на какую карточку дрочится лучше, шизы.
Аноним 22/04/24 Пнд 16:54:15 #337 №713866 
>>713677
> Уже сто раз обоссали это говно
Где?
> даже более бесполезное чем сравнение PPL
Сильное заявление, тащи пруфы. Заодно посмотри текущие критерии калибровки, сделаешь много открытий.
>>713755
8б в 8 битах, из старых 20б, остальное с выгрузкой.
>>713843
Если наберут нормальную и репрезентативную картину - почему бы и нет, правда эффект всеравно будет слабый. Главное - фиксировать модель с которой тестируется, чтобы попытки расшевелить 7б или шиза yi не распространялась на всех.
>>713851
Она еще слишком сырая/не адаптированная к рп. Какие форматы не крути, в некоторых ситуациях начинает ловить затупы, а то и лупится. Да, она дохуя умная, выдает интересный текст, соображает, даже фантазия и отличное понимание абстракций присутствует, в общем соответствует размеру, но в текущем виде все еще не подходит. Коммандер лучше в этом отношении, нет всех тех проблем а мозгов уже достаточно.
Аноним 22/04/24 Пнд 16:56:43 #338 №713867 
Я хз как вы на ру её нормально настроили, у меня ответы, как через тупой переводчик пропущены "я чувствую, что ты люблю меня" и т.п. подобная хуйня.
Аноним 22/04/24 Пнд 16:57:23 #339 №713868 
Я хз как вы на ру её нормально настроили, у меня ответы, как через тупой переводчик пропущены "я чувствую, что ты люблю меня" и т.п. подобная хуйня.
Аноним 22/04/24 Пнд 16:57:38 #340 №713869 
Ожил вроде, качну пока новую возможную базу треда
Аноним 22/04/24 Пнд 16:59:39 #341 №713871 
Сука так и знал, вчера обновил таверну, сегодня аж 2 релиза вышло
Аноним 22/04/24 Пнд 17:12:12 #342 №713886 
Аноны, у меня следующий сетап:
– RTX 2060 12Gb
– 128gb ОЗУ
– i7-100700
– уга-буга

Что скачать для кума и написания рассказов чтоб можно было раскрыть весь потенциал 128гб?

Как понимаю, модель ограничивается гуфом на ламме? Уга-буга это всё ещё поддерживает?
Аноним 22/04/24 Пнд 17:21:58 #343 №713892 
>>713886
>весь потенциал 128гб
Коммандер плюс, наверное.
Аноним 22/04/24 Пнд 17:28:48 #344 №713898 
>>713886
> Что скачать для кума и написания рассказов чтоб можно было раскрыть весь потенциал 128гб?
Терпение, много много терпения. Лучше всего сейчас действительно коммандер плюс, но ты буквально не захочешь катать большие модели из-за их низкой скорости.
Начни с базы в шапке, лламы3-8б, 20б. Ллама3-70 с огромным потенциалом, но еще достоверно не понятно как ее готовить, нет файнтюнов и у тебя пойдет очень медленно.
Аноним 22/04/24 Пнд 17:31:18 #345 №713899 
>>713886
коммандер 35, как и сказали - ты сможешь запустить самые крутые сетки на текущий момент - тот же коммандер + на 105b, но ты заебешься ждать медленной генерации.
Ладно если токен в секунду будет на 4 кванте. Скорей всего меньше.
Так что либо ллама 3 8, либо коммандер 35
Оба хороши в русском
Аноним 22/04/24 Пнд 17:38:23 #346 №713910 
>>713892
>>713898
>>713899
Спасибо за наводку.
Аноним 22/04/24 Пнд 17:42:10 #347 №713917 
А есть ли в будущем варик где-то найти работу в России в области ллмок? Работаю вебмакакой и искренне заебали однотипные задачи. В вакансиях только у сбера нашел упоминание ллм и то говорили только про внедрение, а не разработку.
Аноним 22/04/24 Пнд 17:47:12 #348 №713923 
>>713917
> заебали однотипные задачи
Повесь их на нейронку, упрости себе работу
Вот и применение
А так хз, возможно гос сектор, но я туда идти не советую
Аноним 22/04/24 Пнд 17:54:21 #349 №713935 
>>713785
Хм.
Это server?
СиллиТаверна поддерживает изкоробки?
Так-то да, ручками вписал в батник, и погнали… Звучит быстрее…

>>713886
Тащемта, по арене, 70б ллама 3 обходит даже коммандера плюс, так что пока не совсем ясно, возможно 128 тебе и не надо.

Хотя, коммандер плюс на русском будет получше, возможно.

>>713899
Да не 35, рофлишь? :) 104, конечно.

>>713917
Хз, в моей микро-фирмочке этим занимаются даже.
Так что много занимаются, просто кто первый успел, рыночек, шо там будет — посмотрим.
Не хайпят пока что.

Конечно можно будет найти в будущем-то.
Аноним 22/04/24 Пнд 17:57:05 #350 №713938 
>>713935
>Да не 35, рофлишь? :) 104, конечно.
Че нет то? Там хоть 3-4 токена будет в секунду, чем в большом
Аноним 22/04/24 Пнд 17:59:34 #351 №713941 
В кобальде можно указать системный промпт где-то?
Аноним 22/04/24 Пнд 18:09:03 #352 №713952 
Есть какие РП тюны на основе Коммандера?
Аноним 22/04/24 Пнд 18:17:43 #353 №713958 
>>713941
В его вебуи? В начало карточки просто сунь и все
Аноним 22/04/24 Пнд 18:17:59 #354 №713959 
>>713917
> в области ллмок
Область довольно узкая, потому и вариантов мало: зеленый банк, хуяндекс, мылосру и еще 2.5 компании на госзаказах и автоматиазции. И то не факт что тебя туда направят, более скилловых кандидатов хватает и в лучшем случаем будешь на внедрении.
Если в общем направление ии - горизонты расширяются. Как вариант - пиздуй на курсы яндекса, если себя проявишь то есть шансы попасть в команду и действительно что-то разрабатывать-создавать. Или потеряешь много времени и соснешь, одно из двух.
>>713935
> 104, конечно.
0.7-токенновый, спок
> в моей микро-фирмочке этим занимаются даже
Кум на рабочих мощностях, ага.
Аноним 22/04/24 Пнд 18:19:15 #355 №713961 
UDEKQRcv-vwAjR6ECWUllsjHW88tQpT7SbrVZUUqehH-sgEL001MfOOC0qkvmiNoOLp5R8cja90jLQ6u1nLz5GOhsRYs4p7ZJ0L-Rkzso8d9M4GLuhwBhjnq5RGFFoZiGYuBoTjsw5jA3sEwfyWMZjcKCkIcHO8YWS5lzRa6le-f6VktAQVMUaQSwscrSiZEogQOUDwAlDWxLWpGsvFP-MY.jpg
>>712072 (OP)
Новый "Вихрь" пробовал кто?

https://t.me/tensorbanana/909

Сравнение трех Вихрей-7b и Llama-3-8b
(что такое Вихрь: https://habr.com/ru/articles/787894/)

Затестил все три версии вихря и ламу-3 в роулплее на русском с контекстом 2048.

Лучшим на русском оказался v0.2 - может работать на высоких температурах (0.75) почти без языковых ошибок. 0.3 версия хуже второй, но лучше первой. 3 версию сам квантанул и залил в q5 и q8 на hf. Если позволяет vram качаем vikhr-7b-instruct_0.2.Q6_K.gguf, если нет, то квант поменьше.
Себе взял vikhr-7b-instruct_0.2.Q5_0.gguf на температурах 0.50-0.75. На 12 гигах vram влазит с whisper medium и 3000 контекста в talk-llama-fast.

UPD: Лама-3 показала себя неплохо на русском. Лучше мистраля, но хуже вихря (делает больше языковых ошибок). На интеллект на русском и следование карточке персонажа надо отдельно проверять. Инстракт версия проявила себя чуть лучше базовой версии ламы-3.

https://huggingface.co/s3nh/Vikhr-7b-0.1-GGUF/tree/main
https://huggingface.co/pirbis/Vikhr-7B-instruct_0.2-GGUF/tree/main
https://huggingface.co/Ftfyhh/Vikhr-7b-0.3-GGUF/tree/main
Аноним 22/04/24 Пнд 18:27:52 #356 №713969 
>>713961
Да, это же старые gpt-2 модели, что-то уровня сайги. Крайне тупые и косноязычные, где-то раз в пять хуже лламы-3 8b.
Аноним 22/04/24 Пнд 18:30:22 #357 №713972 
1603224915193.png
>>713935
> СиллиТаверна поддерживает изкоробки?
Да. Я не знаю что там в кобольде напердолили, но 70В ллама там пиздец какая медленная 8 т/с в кобольде против 25 т/с у Жоры, ещё и шизит адово, скатываясь постоянно в
> I cannot create explicit content. Is there anything else I can help you with?assistant
> I cannot create explicit content. Is there anything else I can help you with?assistant
> I cannot create explicit content. Is there anything else I can help you with?assistant
Но это возможно потому что нет свежих фиксов, с фиксами на Жоре я такого не видел ни разу.
Аноним 22/04/24 Пнд 18:43:27 #358 №713992 
>>713972
> 8 т/с в кобольде против 25 т/с у Жоры
А100-кун?
Аноним 22/04/24 Пнд 18:58:24 #359 №714003 
Сейчас файнтюнов лламы - как грибов после дождя, но есть ли какие-то, которые уже стоят внимания? И ещё, нету ли какого-нибудь фантюна на подобии pivot-evil? Очень уж понравился в своё время
Аноним 22/04/24 Пнд 18:59:41 #360 №714004 
image.png
image.png
>>713357 вкатун

>>713374
вроде оно на пиках. Я так понимаю загрузка на один слой сильно от модели зависит.
>>713448
Спасибо за совет. Она, судя по всему, целиком помещается в врам.


Всем спасибо. Изначально обратился за советом потому что утром при попытке генерации на 48 выгруженных ядрах ловил долгие стаггеры в процессе генерации. Пять токенов, потом зависает на минуту и так несколько раз. Сейчас вроде прошло.
Со скоростью 5 токенов в секунду с полной выгрузкой в видяху на модели из шапки я могу позволить себе что-то серьёзнее?
Аноним 22/04/24 Пнд 19:07:23 #361 №714013 
Кто-нибудь знает, какие винты нужны для крепления чего-либо к задней части Теслы? Там есть под отверстия с резьбой, но я не очень в этом разбираюсь. Переходник хочу на них прикрутить, параметры винтов нужны.
Аноним 22/04/24 Пнд 19:08:03 #362 №714015 
>>714004
Вулкан не пробовал? Он вроде быстрее слбласт
В 8 гигов без выгрузки не особо много войдет, я думаю тебе лучше вобще какой нибудь опенчат 5км попробовать. Так как 5 токенов в секудну все равно мало, это показывает что что то не влезает и тормозит.
Качай модели размером 5-6 гб, выбирая квант. Ниже 4 не бери.
https://huggingface.co/TheBloke/openchat-3.5-0106-GGUF
Аноним 22/04/24 Пнд 19:09:10 #363 №714017 
>>714013
Фото есть? 95% там м3. Но будь осторожен, если позади них текстолит или что-то еще то при неаккуратности убьешь карту.
Аноним 22/04/24 Пнд 19:21:54 #364 №714023 
>>714015
>Вулкан не пробовал? Он вроде быстрее слбласт
Попробовал только что. Арк не умеет в вулкан. Система пошла генерить на интегрированной жаль её.
>В 8 гигов без выгрузки не особо много войдет, я думаю тебе лучше вобще какой нибудь опенчат 5км попробовать. https://huggingface.co/TheBloke/openchat-3.5-0106-GGUF
Спасибо за наводку. Сейчас попробую. А он лучше справляется с рп?
> Так как 5 токенов в секудну все равно мало, это показывает что что то не влезает и тормозит.
На удивление мне даже в прикол что он по чуть-чуть выдает. Такое создается атмосферное ощущение дма который на ходу пытается придумать детали о которых не позаботился заранее.
Аноним 22/04/24 Пнд 19:23:07 #365 №714026 
>>714013
Резьба m3, но имей ввиду, что там нужны короткие. Никаких ограничителей нет. Если вкрутишь длинный, то упрёшься нахуй в дроссель.
Аноним 22/04/24 Пнд 19:23:24 #366 №714027 
>>713899
А можно ссылочку на гуф командера?
Аноним 22/04/24 Пнд 19:29:31 #367 №714032 
>>713938
>>713959
Мы тут 128 гигов раскрываем. B)
Я просто кекаю с «раскрывальщиков»-универсалов, простите. =)
Аноним 22/04/24 Пнд 19:34:57 #368 №714034 
>>714023
>А он лучше справляется с рп?
Ну, опенчат может в русский язык, это плюс. Но это скорее чат бот для любых задач.
Если тебе именно рп и отыгрыш карточки нужно, и не обязательно знание русского сеткой, то тогда попробуй https://huggingface.co/TheBloke/WestLake-7B-v2-GGUF
Не знаю, я 7b для рп не интересуюсь особо, знаю есть Toppy-M, synatra-7b-v0.3-rp и тд.

>>714027
https://huggingface.co/qwp4w3hyb/c4ai-command-r-v01-iMat-GGUF/tree/main
IQ не рекомендую качать, они на процессоре медленнее
Простой Q4км хотя бы для пробы
Аноним 22/04/24 Пнд 19:36:55 #369 №714038 
>>714026
Спасибо, попробую 6-миллиметровые и вкручивать без фанатизма.
Аноним 22/04/24 Пнд 19:42:40 #370 №714044 
1713804148789.png
Склонировал модель на 16гб.

Папка весит 32 гига.

Прочекал все файлы в папке.

Папка .git весит 16 гигабайт.
Аноним 22/04/24 Пнд 19:42:54 #371 №714045 
image.png
>>714023
>Арк не умеет в вулкан
Всё он умеет. Указывать нужную видеокарту не пробовал?
Аноним 22/04/24 Пнд 19:44:01 #372 №714046 
>>714044
Старая версия скачалась.
Аноним 22/04/24 Пнд 19:44:16 #373 №714048 
image.png
>>714045
Всё ради тебя, анончик
Аноним 22/04/24 Пнд 19:55:34 #374 №714055 
>>714048
Во-первых, ты не показал, с какой командой запускал. Во-вторых, специально ради тебя нашёл небольшой гайд: https://github.com/ggerganov/llama.cpp/issues/6166
Искал немного другое, но нашёлся даже более похожий на твой случай.
>Set the environment variable GGML_VK_VISIBLE_DEVICES=0,1
В-третьих, посмотри, что у тебя выдаёт консольная команда vulkaninfo хотя не знаю, есть ли вообще такое на винде, но наверное должен быть какой-то способ получить инфу об устройствах, поддерживающих вулкан. В-четвёртых, возможно какая-то проблема с драйверами, но тут уж ничем помочь не могу, разве что общими советами уровня "переустанови винду".
Аноним 22/04/24 Пнд 19:59:10 #375 №714060 
>>714055
>небольшой гайд
А, да, на всякий случай поясняю по гайду. Тебе нужно выяснить, под каким номером идёт твой арк. Скорее всего встройка - 0, арк - 1, значит тебе надо будет указывать GGML_VK_VISIBLE_DEVICES=1. Если не сработает, то ищи методом тыка. Узнать нумерацию можно из вывода vulkaninfo, но есть ли вообще такое на винде, я не в курсе. Как устанавливать переменные окружения на винде, тоже не в курсе, надеюсь, сам найдёшь в гугле.
Аноним 22/04/24 Пнд 20:02:12 #376 №714062 
image.png
>>714048
>>714055
>>714060
И ещё, встройку, наверное, убирать не обязательно, возможно, будет перемножать матрицы эффективнее процессора. Можно попробовать пикрил.
Аноним 22/04/24 Пнд 20:06:48 #377 №714066 
image.png
>>714055
>Во-первых, ты не показал, с какой командой запускал.
Никакой самодеятельности. Запускал ровно с той которую ты приложил в пик.
> Во-вторых, специально ради тебя нашёл небольшой гайд:
Спасибо
>>714060
>Тебе нужно выяснить, под каким номером идёт твой арк.
Тут никаких сложностей. 1
> GGML_VK_VISIBLE_DEVICES=1
Это в переменные среды винды пихнуть?
Аноним 22/04/24 Пнд 20:10:08 #378 №714071 
>>714066
Просто открой кобальд как обычный ехе файл, и там выбери вулкан и количество слоев. Ну и сохрани настройку, чтоб потом не тыкать. Там же настраивается контекст и тд
Кобальд из командной строки тык тыкать неудобно, ладно бы он без интерфейса был.
Аноним 22/04/24 Пнд 20:12:10 #379 №714072 
>>714066
>пикрил
Ну вот ты и сам подтвердил, что арк вулкан поддерживает и ебать ты гений, конечно, купить 770, и при этом версию на 8ГБ.
>в переменные среды винды
Возможно. У меня гну/пердоликс, я не знаю, как у вас там делается.
Аноним 22/04/24 Пнд 20:13:17 #380 №714074 
>>714071
>Просто открой кобальд как обычный ехе файл, и там выбери вулкан и количество слоев. Ну и сохрани настройку, чтоб потом не тыкать. Там же настраивается контекст и тд
Век живи, век учись.
>Кобальд из командной строки тык тыкать неудобно
Глазки от такого интерфейса вытекают
>>714072
>купить 770, и при этом версию на 8ГБ.
Согласен, конечный. Но это была моя первая в жизни сборка компа. Наступил на граблю

Всем спасибо
Аноним 22/04/24 Пнд 20:16:15 #381 №714076 
А что ща есть для запуска ллмок на телефоне?
Аноним 22/04/24 Пнд 20:19:46 #382 №714079 
>>714076
https://github.com/Mobile-Artificial-Intelligence/maid
Попробуй, я когда то тыкал, это работало
Там надо от 8 гб оперативки, если уж хочется 7-8b запустить
Но всякие phi-2 8 кванта на 2 гига, и на 4 гигах оперативки наверное запустятся, толку от них правда не особо много будет
Аноним 22/04/24 Пнд 20:31:57 #383 №714084 
Кто то уже поставил новую 12 таверну?
Аноним 22/04/24 Пнд 20:35:11 #384 №714087 
Салам, ананасовые. Решил интереса ради попробовать вкатиться в локалки и задать по этому поводу самый оригинальный вопрос.

Имею RTX2060 на 12 кило видеопамяти и 16 кило оперативной DDR4. Какую модель стоит накатить, которая бы генерировала примерно на уровне GTP-3.5? Пару месяцев назад игрался именно с Турбо и качество меня устраивало. Нормально вывозила и половую еблю и дефолтные стори. Щас эта пидорастия перестала работать без VPN и давать халявные баксы за регистрацию нового аккаунта, так что походу придется пересаживаться на ваши кванты и угабуги.

Я в этой теме тупой максимально, так что надеюсь на вас, анончики.
Аноним 22/04/24 Пнд 20:38:22 #385 №714093 
image.png
>>714062
Вжух. Чисто номинально отдал 30 к 1 арк к встройке. Вроде быстро. Хотя разницы не почувствовал особо при использовании не использовании дробления.
НО сам вулкан как самолёт. Благодарю
Аноним 22/04/24 Пнд 20:39:37 #386 №714097 
>>714087
>Я в этой теме тупой максимально
гайд в шапке! Ставишь коболдспп ставишь таверну. Дальше уже к нам
Аноним 22/04/24 Пнд 20:44:46 #387 №714100 
>>714097
Я почитал шапку, но там нет конкретной инфы о моделях. Таверна у меня до сих пор стоит, с кобольдом я справлюсь. Мне просто интересно, стоит ли оно того. Типа, будет ли локальный экспирианс хуже чем на Трубе. По качеству ответов, по времени генерации и т.д.
Аноним 22/04/24 Пнд 21:00:50 #388 №714116 
>>714100
Скоро Лламу3 8B допилят, появятся мержи и файнтюны - тогда и узнаем. Хуже-не хуже, но интересно может быть.
Аноним 22/04/24 Пнд 21:02:55 #389 №714118 
>>714079
Спасибо
> Там надо от 8 гб оперативки, если уж хочется 7-8b запустить
Фига, а он так может? Я думал 3b максимум. У меня 16 кста гигабайт, не сантиметров
Аноним 22/04/24 Пнд 21:05:12 #390 №714121 
>>714100
Таверну обнови чтоб там промпт шаблон llama 3 был, и скачивай https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF
например, как лучшую щас по размеру к мозгам сетку
Сразу 8 квант качай, у тебя влезет
Запускай кобальдом, все слои на видеокарту, кубласс качай версию кобальда, который 300 весит. 8к контекста ставь.

Тыкай в таверне промпт формат ллама 3 и начинай че нибудь там тыкать в картачках.

Это инструкт версия, так что как чат бот точно будет работать и даже на русском. А вот рп ерп уже хз, как переборешь
Сложными карточками не долби, джейлбрейками сложными так же не стоит пичкать
Аноним 22/04/24 Пнд 21:05:18 #391 №714122 
> summarize
Для этой прекрасной опции можно выбрать отдельную модель. Есть что-то что под это дело заточено или лучше поставить родную потому что ей будет легче? понять саму себя?
Аноним 22/04/24 Пнд 21:07:37 #392 №714124 
>>714118
>Фига, а он так может? Я думал 3b максимум
А че нет то? Это считай полноценный компьютер, оперативка так же как в компе будет использоваться.
Тоесть ты будешь крутить скорей всего на процессоре, токена 4 может, или даже больше, от твоего железа зависеть будет.
Аноним 22/04/24 Пнд 21:21:39 #393 №714142 
>>714121
Понял, принял. Точнее понял только про 8 квант, но разберусь.

>рп ерп уже хз
Жаль. Если даже самый ванильный рп с элементами романтики и хэнд-холдинга не потянет, будет печально.

>сложными карточками не долби
У меня все карточки самописные под Трубу (около 600-800 токенов). Я так понимаю они не заведутся без дополнительной ебли? Там тупо плейн текст, но Труба его нормально жрала и в 9/10 случаев не бесилась и не вылезала из персонажа.

>джейлбрейками сложными так же не стоит пичкать
Джейлы с Трубы на Ламе тоже не заведутся, так ведь? Хотя это наверное еще более тупой вопрос, чем предыдущие.
Аноним 22/04/24 Пнд 21:22:38 #394 №714143 
Есть какие-нибудь прикольные фантюны, чисто забавные, шоб порофлить?
Аноним 22/04/24 Пнд 21:25:24 #395 №714146 
>>714121
Чет в шаблоне и с пресетом всё равно серит ассистентами
Аноним 22/04/24 Пнд 21:29:11 #396 №714150 
>>714142
Можешь вот это качнуть на пробу, ллама3 только недавно вышла, так что к ней еще не успели наделать файнтюнов. Запускать то только сегодня без проблем смогли наконец то.
https://huggingface.co/Sao10K/L3-Solana-8B-v1-GGUF
Это проба пера от хорошего создателя файнтюнов, вроде работает.
Скорей всего сможет в рп и ерп без джейлбрейков вобще
Карточки большие имелись ввиду на 1000-2000 токенов, мелочь сьест

>>714146
Тогда тупо слово assistant в бан токены кинь

Хотя у меня щас ниче не лезет, хз
У тебя последний релиз кобальда скачен?
Аноним 22/04/24 Пнд 21:33:41 #397 №714154 
>>714150
Спасибо, брат. Буду курить гайды, пытаться и мучаться.
Аноним 22/04/24 Пнд 21:41:30 #398 №714167 
>>714150
> Тогда тупо слово assistant в бан токены кинь
Кинул как только ллама 3 вышла
> У тебя последний релиз кобальда скачен?
Я на уге-буге, но предыдущие версии так не ассистентились
Аноним 22/04/24 Пнд 21:44:18 #399 №714172 
>>714167
>Я на уге-буге, но предыдущие версии так не ассистентились
Там стоп токены новые, так что жди обновы тогда
Аноним 22/04/24 Пнд 21:47:06 #400 №714178 
>>714172
Понял, спасибо. Как же уга заебал, ну почему нет другого интерфейса с поддержкой эксллами и ггуфа сразу...?
Аноним 22/04/24 Пнд 22:44:30 #401 №714253 
>>714172

Когда-то можно было просто общий шаблон инструкции вставить, но пидарас угабуга ввел собственный уникальный формат инструкций.
Аноним 22/04/24 Пнд 22:46:45 #402 №714258 
Посоны, а как правильно в кобольде запустить третью ламу с контекстом>8к чтобы она не шизела?
Аноним 22/04/24 Пнд 22:50:09 #403 №714263 
>>714150
Солана - полная херня, секс сцены не умеет писать, периодически ещё в лупы сваливается из которых не выводится даже штрафом на повтор - пишет одно и тоже, но другими словами.
Аноним 22/04/24 Пнд 22:52:19 #404 №714267 
>>714263
>Это проба пера
Но спасибо за фидбек, ты следовал предложениям автора по промпт формату? Там и альпаку можно и викуну, и даже ллама3 заменив имена ассистента и пользователя на своих персонажей
Аноним 22/04/24 Пнд 22:54:30 #405 №714271 
>>714267
Рекомендуемые семплеры опять же, для ллама3 уже не катит симпл1
Короче сетка тестовая и я верю что там могут быть такие косяки, но это может быть так же твое рукожопство
Я скачал но времени ее затестить нету, сижу на инструкте
Который кстати неплохо кодит на питоне
Аноним 22/04/24 Пнд 23:06:44 #406 №714297 
>>714142
Турба хуже многих современных моделей.
Все у тебя заведется, и карточки (плэйн, не плэйн, похуй, тащемта), и джейлы.
Просто вопрос качества. Что-то турбы было необходимо, и она без этого не могла, а локалкам это не нужно, прошлый век.

Запускай as is, а потом потихоньку разбирайся, что убрать, что добавить. Еволюция!
Аноним 22/04/24 Пнд 23:33:03 #407 №714343 
>>714271
>Рекомендуемые семплеры

Кстати, никто так и не ответил какие рекомендуемые для новой ламы.
От себя отмечу только что из всех что я пробовал min_p показался самым адекватным.
Аноним 22/04/24 Пнд 23:37:09 #408 №714355 
image.png
>>714343
Я например щас так сижу, и мне норм
Можно границы температуры немного убавить, но пока я доволен выводом.
Кстати в таком режиме сетка умудряется кодировать и писать по 1600 токенов без шизы и повторов
Только проебывается иногда, все таки внимания 8б недостает, но по сравнению с предыдущими сетками небо и земля
Аноним 22/04/24 Пнд 23:40:37 #409 №714358 
О великие олды, подскажите зеленному модель для кума. Чё то ничего не выходит. Поставил одну, начал чатится с мамкой, она отказывается общаться на секс темы, а конце говорит хэв а гут дэй и ливает из чата
Аноним 22/04/24 Пнд 23:59:59 #410 №714384 
Llama 4 будет лучше чем llama 3. Устанавливать нет смысла, лучше просто ждать
Аноним 23/04/24 Втр 00:05:34 #411 №714393 
искуственный интеллект, это же по сути, АИША
Аноним 23/04/24 Втр 00:19:26 #412 №714408 
>>714150
Не понял солану что-то. Возможно для фентезийно анимушного неплохо, но как-то в целом не то.
Аноним 23/04/24 Втр 00:47:04 #413 №714445 
>>714358

Поставь noromaid или mlewd
Аноним 23/04/24 Втр 00:48:33 #414 №714447 
>>714358
По субъективным ощущениям даже лучше mlewd, при этом влезает на нищие пекарни.
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF
https://huggingface.co/Bakanayatsu/Fimbulvetr-Kuro-Lotus-10.7B-GGUF-imatrix
Аноним 23/04/24 Втр 00:51:24 #415 №714449 
>>714150
>Это проба пера
вот это хорошо заметно. попробовал перо и удалил, подожду получше версии

>>713961
>"Вихрь" пробовал кто?
ну так, неплохо, однако не заметил чем оно лучше опенчата. К тому же мистраль и так неплохо может на ру, вобщем что-то типо сойги, но только вихорь. по правде, я мало потыкал, просто неохота, ничем не удивишь уже, зажрался, что там может быть этакого в 7б...
Аноним 23/04/24 Втр 01:01:45 #416 №714455 
>>713542
>нужна в диапазоне 13-30В чтобы в 24 гб влезала
судя по появившимся ггуфам эта тоже влезет но в довольно ущербном кванте. На самом деле вообще не вижу смысла в такой модели. нахер нужен этот вырезок от семидесятки если есть командир-35. реально востребованный размер 20b-22b, как его сделают - складыванием восьмерок или же еще более сильным вырезанием из семидесятки - не ясно. И сделают ли.
Аноним 23/04/24 Втр 01:13:17 #417 №714463 
Ваши мысли о том, что зак просто скипнул самые юзабельные размеры сделав 8, 70 и 400 нах? Вот что сложного такой компании сделать 13-17 и 33-40?
Аноним 23/04/24 Втр 01:14:27 #418 №714465 
>>714463
Почему скипнул? Самое вкусное оставил себе, то что признали невыгодным отдали нам
Аноним 23/04/24 Втр 01:24:00 #419 №714471 
>>714455
Поддвачну за сомнительность 42б и превосходство командера. И даже с 36 гигами врам 42 будет не самой оптимальной идеей, идет тренд на повышение контекста и лишняя память уйдет на него.
> И сделают ли
Через несколько недель будут первые приличные рп файнтюны, еще спустя время - запилят что-то типа 12б франкенштейна и оно будет вполне кумабельно. И хотелось бы больше внимания к семидесятки, она крайне умная, бывает неподготовленной к определенным ситуациям, плюс часто в недоумении оверреактит и слегка шизит. Если делать типа фентезийного рп или реалистичный сеттинг - можно даже и не заметить проблем, все естественно.

Алсо она иногда не только круто стелит, но и будто пытается троллить юзера:
> знаешь, в нашем несправедливом мире не все [] рождаются равными...
и сразу начинаешь блять ну что за соя откуда это лезет, но не успев бомбануть продолжение -
> кое кто гораздо милее остальных, например я~ ее одежда падает на пол

>>714463
Да хуй его знает. Если они реально в первую очередь занимались этими двумя размерами - то ладно, мелочь которая запустится у всех и умная йоба, которая находится по верхней границе запуска у обычного юзера, самые ходовые так сказать. А может те размеры зажали под свою коммерцию и применение.
Аноним 23/04/24 Втр 01:34:33 #420 №714481 
>>714471
>запилят что-то типа 12б франкенштейна
уже есть https://huggingface.co/Replete-AI/Llama-3-11.5B-Instruct-V2
Аноним 23/04/24 Втр 01:36:32 #421 №714483 
>>713333
Нет, это их пипиетарная модель. Вроде какая-то опенсорс приблуда была для LLM-powered search или search-powered LLM, подставляй любую модель и ебашь. Не помню как звать.

Тащемта по схеме сетка+поиск сейчас кто только не работает, от бинга до хуинга. Первопроходцами были phind и perplexity.ai
Аноним 23/04/24 Втр 01:37:10 #422 №714486 
Блядь. Я что-то сломал. Теперь Llama-3-8B-Instruct отвечает плохо. Пиздец. Какие настройки семплера к ней рекомендованы, напомните? Может их сломал.
Аноним 23/04/24 Втр 01:48:07 #423 №714489 
llama3.png
Лол, подловила.
Аноним 23/04/24 Втр 01:49:22 #424 №714490 
Ллама 3 8b без квантизации, полная загрузка гпу, 1 токен в секунду. Is it over?
Аноним 23/04/24 Втр 01:51:10 #425 №714491 
>>714481
Оно не похоже на
> вполне кумабельно
>>714490
Памяти сколько? Если хватает то должны быть десятки
Аноним 23/04/24 Втр 01:54:41 #426 №714492 
1713826480425.png
>>714491
Видеопамяти 8 гигов. 3060ti
Аноним 23/04/24 Втр 02:04:23 #427 №714499 
>>714489
соя
Аноним 23/04/24 Втр 02:11:52 #428 №714503 
ExUI.png
llama3.png
>>714499
Обойти то не проблема, проблема в том, что она чушь несет.
Аноним 23/04/24 Втр 02:32:58 #429 №714506 
image.png
Весь день проебался с новой лавой на ламе 3 в надежде что наконец-то появилась нормальная лава с русеком, чтобы получить это. Мда
Аноним 23/04/24 Втр 02:37:12 #430 №714510 
>>714503
> проблема в том, что она чушь несет
Либо не знает, либо не обошел. Про 2+2=1 могу сказать, что чушь в промпте = чушь на выходе. Про амфетамин скорее всего ты нихуя просто не обошел.
Аноним 23/04/24 Втр 02:43:46 #431 №714513 
>>714358
А новенькая ллама разве не подходит?
Аноним 23/04/24 Втр 02:46:18 #432 №714517 
>>714510
> Про 2+2=1 могу сказать, что чушь в промпте = чушь на выходе.
В контексте разговора в промпте не чушь.
Аноним 23/04/24 Втр 02:46:45 #433 №714518 
image.png
>>714506
Ладно, я не сильно много потерял
Аноним 23/04/24 Втр 02:49:28 #434 №714520 
>>714517
А до этого вы со знаком "=" общались?
Аноним 23/04/24 Втр 03:46:09 #435 №714530 
Лама 3 70b не может в русский. Постоянно выдает китайские, арабские и английские слова и вообще говорит очень хуево. Тут некоторые умудрялись и с 8b нормально общаться. Вопрос: Как? Может надо как-то правильно запромптить?
Аноним 23/04/24 Втр 05:02:02 #436 №714536 
image.png
image.png
Аноним 23/04/24 Втр 05:25:33 #437 №714537 
>>714536
Щас бы сравнивать базовую модель для файнтюна с результатами файнтюна
Аноним 23/04/24 Втр 06:00:09 #438 №714549 
phi-3-technical-report.jpg
Как бы то ни было...
https://arxiv.org/pdf/2404.14219.pdf
Аноним 23/04/24 Втр 06:15:00 #439 №714551 
image.png
>>714537
> Щас бы сравнивать базовую модель для файнтюна с результатами файнтюна
Аноним 23/04/24 Втр 07:15:04 #440 №714560 
>>713324
>>714122
Я попробовал воспользоваться опцией на llama-3-8B-instruct.
Получилось это
Summary:
Beatrice, a powerful young witch with white hair and yellow eyes, has found a mysterious spellbook entitled "Spellbook of the Ignis Fatuus". She has chosen two starter spells from the book, Fireball and Transformation. Beatrice's goals are to become stronger.

Spells:

Fireball: Conjures a small to medium-sized ball of flames that can be hurled at enemies. Can be cast up to 3 times before needing to recharge.
Transformation: Allows Beatrice to change her physical form into a human-sized animal or object. Can stay in the transformed state for up to 5 minutes before needing to return to her human form.

Items:

* Spellbook of the Ignis Fatuus: A mysterious book containing various spells and incantations.

Настройки такие:

Summary prompt.

[Pause your roleplay. Summarize the most important facts and events that have happened in the chat so far. And list all spells and items that {{user}} have right now add new spells and items and remove spells and items that {{user}} have lost.
If a summary, spells and items already exists in your memory, use that as a base and expand with new facts. Limit the summary to {{words}} words or less. Your response should include nothing but the summary, items and spells.]

Injection template.

[Summary: {{summary}}
Spells: {{spell}}
Items: {{items}}]

Никаких дополнительных моделей не нужно, если ты, конечно не богат большим количеством видеопамяти. Имеет смысл, если у тебя какие-то узкоспециализированные задачи разве что. Ну и да, если модельки тупенькие, то лишний раз стоит проверять, не нагенерила ли она говна.
Аноним 23/04/24 Втр 08:13:47 #441 №714582 
>>714549
Сомнительная хуйня. Если ллама еще ладно, прошлая версия была вполне солидной на момент выхода, то фи-2 была хуйней по сравнению с бенчами, и читая их репорт это какая-то дистилляция большой модели (гопоты) на дрожжах
Аноним 23/04/24 Втр 08:17:15 #442 №714585 
>>714582
Хотя с другой стороны, как ещё делать синтетический датасет? Будущее это "учебники для нейронок", их иначе и не напишешь
Аноним 23/04/24 Втр 08:17:50 #443 №714587 
Попробовал франкенштейов а третью ламу, 11.5В, 13В, 16В. Судя по описанию авторы просто размножили слои (ну или я так понял..), и вот эти модели пиздец какие соевые.
Стандартную 8В ламу у меня на кум получается разговорить, а эти копротивлялись допоследнего. Будто их соевость просто усилилась.

Забавно, что другая лама на 48В (ужатая 70В) - легко кумится, но такую херь несёт.
Аноним 23/04/24 Втр 08:41:54 #444 №714596 
image.png
Здравствуйте, аноны. Я вкатун-новичок во все это дело с локальными языковыми моделями. Поставил убабугу через sillytavern launcher, скачал вроде как подходящую модель (по рекомендации silly). Решил провести первичные тесты отправив первое сообщение и получил такую ошибку:
TypeError: 'NoneType' object is not subscriptable.

Гуглинг мне ничего не дал, кроме рекомендаций по ошибкам в пайтоне. Потому хотел узнать у анонов что не так, быть может я долбаеб просто.
Аноним 23/04/24 Втр 08:59:20 #445 №714602 
>>714596
Почему с угабуги решил начать?
Аноним 23/04/24 Втр 09:02:00 #446 №714603 
>>714602
С графическим интерфейсом + в гайде постоянно упоминался, потому я и решил, что ходовой лаунчер.

У меня вообще есть ощущение, что проблема в силли, а не в модели или буге. Правда я все еще не могу найти источник проблемы.
Аноним 23/04/24 Втр 09:05:50 #447 №714605 
>>714603
> С графическим интерфейсом
Силли даёт свой граф интерфейс
> + в гайде постоянно упоминался
В шапке написано про кобальд. Попробуй с него начать, там попроще.
> У меня вообще есть ощущение, что проблема в силли
А ты пробовал писать прям в угабугею
Аноним 23/04/24 Втр 09:08:37 #448 №714606 
Тут все почему-то кобольд используют. А можно ламу 3 с вебьюай запустить также? Хочу чтобы текст войсом озвучивался и другие приколы поставить. Или кобольд сейчас и это может? Несколько лет не следил за текстовыми моделями, всё так сложно стало, раньше просто колаб был от кобольда, выбрал модель и сиди кайфуй.
Аноним 23/04/24 Втр 09:10:23 #449 №714607 
Все может: озвучить/перевести/контекста накинуть/кинуть промпт в генерацию картинок по контексту/поменять эмоцию спрайта вайфучки
Аноним 23/04/24 Втр 09:11:12 #450 №714609 
Ну то есть это же по сути делает таверна которая работает с кобальдом
Аноним 23/04/24 Втр 09:14:10 #451 №714610 
>>714607
Спасибо, буду разбираться тогда, пока сд3 жду.
Аноним 23/04/24 Втр 09:19:22 #452 №714612 
>>714610
>>714609
Это тип одно сообщение. По сути обработчик модели и граф интерфейс малосвязные вещи выполняющие разные задачи.
Аноним 23/04/24 Втр 09:29:28 #453 №714614 
Расскажите что ли зачем нужна эта лама 3? Какое прекрасное будущее нас ждет с ней. Чем лучше того что есть сейчас.
Я думал лама это просто загрузчик модели который ни на что почти не влияет.
Аноним 23/04/24 Втр 09:37:16 #454 №714615 
>>714614
Что то тупанул. Забыл что модель от меты лама называется.
Запостил и вспомнил.
Аноним 23/04/24 Втр 09:46:01 #455 №714617 
>>714549
Нихуя, оно по скорам и мистраль медиум ебёт.
Аноним 23/04/24 Втр 10:35:55 #456 №714642 
>>713785
>Заодно можно без дрочева пересобирать
Осталось ещё и компилять самому, ага.
>>713961
>Новый "Вихрь" пробовал кто?
Никто не пробовал.
>>714044
Так гит работает, лол. Технически можешь попробовать файлы в папке заменить на хардлинки в гит.
>>714084
Таверну вредно обновлять.
>>714549
Опять поебдили турбу?
Аноним 23/04/24 Втр 10:39:49 #457 №714644 
>>714463
Тут >>713573

>>714506
Так а проектор там один фиг инглиш, датасет-то старый.
С таким подходом и Баклава — лава с русиком, чо.

>>714549
Что ли попробовать?

>>714606
Не сказал бы, я на убе сижу и многие тоже, как мне показалось.

>>714609
Это и уба делает, тока галочки проставить там, да. =) Не про юзер-френдли.
Аноним 23/04/24 Втр 10:43:49 #458 №714648 
изображение.png
>>714644
>Что ли попробовать?
Даже не думай, они применили лучшие практики соевизации от майкрософта, вот графики деградации производительности.
Аноним 23/04/24 Втр 10:59:42 #459 №714656 
>>714605
Короче, я еблан, да. Я думал силли работает из коробки, а его установить надо. А я сразу в лаунчер захожу, устанавливаю все подряд и не пойму что он от меня хочет.

Но в самом силли я не пойму как загрузить модель. Папки для собственных моделей в директории нет, например. Только для установленных угабуги и лламы. Везде просит api, хотя лаунчер для модели я уже запустил. Я вероятно что-то не понимаю, но я ожидал что-то вроде как в Stable Diffusion, где модель выбираешь, прога ее тебе загружает и ты с ней работаешь.
Аноним 23/04/24 Втр 11:04:17 #460 №714658 
>>714656
Таверна это просто оболочка для чата. Кобольд с моделькой запусти сначала, потом в таверне укажи адрес и порт на котором кобольд запустился, все.
Аноним 23/04/24 Втр 11:12:49 #461 №714666 
>>714656
Запускаешь угабугу, потом через таверну конектишься к уге.
Я вот тоже не особо понимаю этот прикол. Почему автор таверны не сделает загрузку модели у себя. Зачем он мучает своих пользователей.
Аноним 23/04/24 Втр 11:13:45 #462 №714667 
>>714644
Попробовал силли таверн, несколько часов убил на то чтобы она запустилась, требовала winget, который только через час гемора смог установить, так как из коробки он не ставился автоматом. Потом из-за антивируса не хотела подтягивать npm, благо в интернете нашлись люди с похожей проблемой. Теперь потоковая генерация отказывается работать. Как я понял тут ещё и экстеншены ограничены тем что разработчик встроил.

Пойду попробую убу, раз она до сих пор окей. Думал этот силли+кобольд лучше, раз о нём все сообщениям.
Аноним 23/04/24 Втр 11:18:09 #463 №714668 
image.png
>>714150
>https://huggingface.co/Sao10K/L3-Solana-8B-v1-GGUF
Капец её плющит после кривого EOS токена. Пробовал до 0.6 сбавить температуру и больше отрезать сэмплерами - та же фигня на свайпе. Вообще третья лама дико шизоидно себя ведёт после EOS. С файнтьюнами второй ламы и мистраля почти не сталкивался с подобным. Да, иногда бывает странное отклонение от текста с забаненным токеном конца ответа, но всё равно плюс-минус в тему продолжение.
Аноним 23/04/24 Втр 11:20:05 #464 №714669 
image.png
>>714658
Так, ну я скачал модельку с помощью хаггинфейс клиента (еще в первый раз). Теперь пробовал запустить через кобольд. Вроде выбрал нужный файл - safetensors который. Коболь чет поругался, написал, что не может запустить модель и закрыл консоль моментально, даже прочитать не успел.
На всякий случай покажу файлы, мб я что-то не то пытаюсь кобольду скормить, я хз.

P.S. VRAM должно хватить. На калькуляторе силли там модель потребляла 7.7 гб врам для 8192 единиц токенов контекста.
Аноним 23/04/24 Втр 11:22:38 #465 №714672 
>>714666
Видимо автор просто рассчитывает на свою основную аудиторию, а это ордынцы и chatGPT знать. Для локальных моделей там будто бы не сделано вообще ничего, если пробежаться по интерфейсу. Даже настройка параметров rop K, top P etc. спрятана и её еще найти надо
Аноним 23/04/24 Втр 11:29:45 #466 №714675 
>>714669
Ну камон, в шапке же
>Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
koboldcpp - форк движка llama.cpp, который запускает только ggml (устаревший) и gguf форматы моделей.
Аноним 23/04/24 Втр 11:30:13 #467 №714677 
>>714669
А что ты пытался сделать? Кобальд ест сейфтензоры только для генерации изображений, хотя там и ггуф пойдет. Тоесть сейфтензоры только для sd
Для генерации текста, только ггуф
Аноним 23/04/24 Втр 11:32:23 #468 №714679 
>>714675
>>714677
Да, сори, я читал. Пока тыкался с этими лаунчерами, забыл, что кобольд только ггуфы ест. Спасибо за поправку.
Аноним 23/04/24 Втр 11:34:21 #469 №714680 
>>714677
>Тоесть сейфтензоры только для sd
>Для генерации текста, только ггуф
Что ты несёшь...
Сейфтензоры для GPTQ и EXL2, в вики написано ан нет, надо будет дописать.
Аноним 23/04/24 Втр 11:35:51 #470 №714681 
>>714680
Мы про кобальд вабщета, он ест сейфтензоры для модели генерации изображений
Аноним 23/04/24 Втр 11:43:48 #471 №714686 
>>714667
У тебя какой-то дикий обосрамс. Почему просто не поставил Силли клоном с гита? лаунчер у меня тоже не заработал и подумал ну его нахуй
Аноним 23/04/24 Втр 11:46:32 #472 №714687 
>>714686
Тоже хуйня, просто качаешь релиз упакованый в zip, распаковываешь и запускаешь батник, всё
Потом уже можно настройки в ямл файле там потыкать, автозапуск браузера хотя бы вырубить
Аноним 23/04/24 Втр 11:46:50 #473 №714688 
>>714672
Речь про силли таверну? Давно не ставил её с нуля, но разве она там на старте не предлагает выбрать simple или advanced интерфейс. Если выбираешь простой, то да, там настройки для хлебушков. Но если включить advanced, то там как раз море настроек для локалок. 100500 сэмплеров, включая местечковые от Каломазе, невероятно гибкий для редактирования инструкт формат, структуру промпта меняй на любой вкус (хотя не понимаю, почему разраб не сделает менеджер промпта для коммерческих моделей рабочим для локалок вместо редактуры окошка со стори стринг), разные макросы, которые удобно включать в промпт. Лень пробовать другие фронты, когда есть таверна, но сильно сомневаюсь, что какие-нибудь популярные lm studio или open webui могут похвастаться таким потенциалом в настройке.
Аноним 23/04/24 Втр 11:53:07 #474 №714695 
>>714688
Может и предлагал во время запуска, но во время установки точно ничего такого не было. Я просто уже пытаюсь модель как можно скорее запустить, ни на что другое не смотрю.
Мой выбор на силли вообще пал, когда я узнал, что с ним можно легко настроить инфраструктуру общения с сетью не только через чат на пк, но еще можно унести с собой на телефоне, а потом по URL законнектиться как-то. Сразу захотелось повтыкать модель куда только можно. На телефоны, планшеты и т.д. со speech recognition. Загорелся влажными мечтами о карманном джарвис аутисте, который будет травить туалетные нейроанекдоты, пока я трачу часы на всякую бытовуху.
Правда уже банально на установке лаунчера я уже говна хаваю, не говоря уже о том, что я там себе напланировал.
Аноним 23/04/24 Втр 11:58:49 #475 №714699 
>>714695
>>714687
Скачай зип и распакуй в папку, потом тыкаешь bat файл старт и ждешь установки, и он запустится, открывая страницу в браузере, всё
Можешь сразу его вырубить и там же в папке открыть блокнотом файл
config.yaml
В нем поменять
listen: true - для подключения с других устройств
autorun: false - для того что бы браузер каждый раз не открывать
Аноним 23/04/24 Втр 12:04:16 #476 №714704 
>>714699
https://github.com/SillyTavern/SillyTavern/releases
1.11.8 качай, а не предрелиз 12 версии
Аноним 23/04/24 Втр 12:06:10 #477 №714706 
>>714648
Пздц.

>>714667
А ты предпочитаешь читать по-ходу дела?
Просто я привык дожидаться полного ответа и погружаться в него. И быстрее, и погружение мне нравится больше.
Но это субъективщина, канеш.

>>714669
Кобольд запускает только GGUF.

>>714686
Мне вообще тяжко судить, я ее ставил год назад, с тех пор просто обновляю и все.
Аноним 23/04/24 Втр 12:36:23 #478 №714744 
>>714122
Это просто дефолтная задача для любой ллм, никаких отдельных моделей не нужно.
> легче? понять саму себя?
Скорее она уже себя зарекомендовала пониманием топика, а не посыпется бондами или аполоджайзами.
>>714644
> Так а проектор там один фиг инглиш
Что? Он не имеет языков, скорее там проблема файнтюна что языковые качества всрал.
>>714536
>>714549
Интересно, там просто надроч под берчмарки и простые ответы, или оно действительно что-то может?
>>714596
Чего не поставил убабугу просто так? Похоже что эта цепочка лаунчеров установила кривые зависимости. Просто сделай git clone и нажми start windows. И зачем там вообще openai extension, это древность из незапамятных времен для совместимости, сейчас апи по дефолту опенаи-совместимый.
Аноним 23/04/24 Втр 12:44:36 #479 №714764 
>>713961
С выходом ллама 3 в нем нет смысла. Офк успехов разработчиков это не отменяет, по крайней мере старались и все хорошо описали. Наверно есть смысл дождаться от них файнтюна 8б.
>>714606
> Тут все
Не все, прежде всего идейные и/или обладатели отсутствия врам, также заключенные p40.
> можно ламу 3 с вебьюай запустить также
Не можно а нужно.
Другое дело что лучше всеравно сделать это в таверне. Она не только является удобным интерфейсом, но и позволяет оборачивать чат и все описания в правильный инстракт формат. С учетом современных трендов и ростом количества инструкций в разных местах, ее интерфейс требует обновления, но сути не отменяет.
>>714648
> political_misinfo >70%
Ебать эта хуевина обожает сжв повесточку. Радикальный дроп sexual и violence тоже наглядно иллюстрирует лоботомию. И как эта хуета может вообще быть где-то в лидерах чатарены, там ее сплошные сой-куколды населяют что спрашивают заголовки из википедии?
Аноним 23/04/24 Втр 12:55:43 #480 №714770 
>>714764
>И как эта хуета может вообще быть где-то в лидерах чатарены
Это про phi-3 если что, она ещё не релизнулась.
Впрочем, у лламы 3 про безопасность ещё больше написано. Жаль графиков деградации производительности нет.
Аноним 23/04/24 Втр 13:14:07 #481 №714784 
>>714549
Интересный подход, т.е. они берут обычный учебник, гопота-4 к нему придумывает вопросы, сама же отвечает на них на основе данных учебника (чтобы не галлюцинировать), и на этом выхлопе тренится сеть.
Аноним 23/04/24 Втр 13:20:38 #482 №714789 
>>714770
Как (если) выйдет то и посмотрим.
> у лламы 3 про безопасность ещё больше написано
Но она довольно адекватна и по запросу делает все что нужно. Есть херня но радикальной сои как у некоторых не замечено. А у этих по графикам новая гемма.
Аноним 23/04/24 Втр 13:35:37 #483 №714796 
изображение.png
>>714789
Ты про обычную, или инструкт версию? Инструкт иногда выдаёт такие примечания, лол.
Аноним 23/04/24 Втр 13:36:40 #484 №714798 
С этими eos токенами - одно огорчение. Тупые модели не ставят их где надо и сеть начинает нести хуиту.
Аноним 23/04/24 Втр 13:48:33 #485 №714816 
Есть какая-то статья с примером всех настроек в таверне, включая модель? Просто чтобы посмотреть как это должно работать. (Не описание что за что отвечает, а прямо наглядный фулл пресет) У меня чтобы я не крутил, получается полный бред. Сейчас в итоге не знаю что там заглючило, но теперь нейросетка мне с любыми настройками отвечает:
"ыжый

User: О: Ты - ты же, а не я - u: ыжый"
Аноним 23/04/24 Втр 13:49:16 #486 №714818 
>>714796
И ту и ту, в инстракте только эта ебля с форматами, токенами и прочим. Нужно сесть и нормально обстоятельно с этим разобраться, а тупо лень. Обычную в альпаке катаю, сидит и не выебывается. Офк некоторый позитивный байас присутствует, но то как оно шутит и поругает меньшинства если приказать чуть ли не в день релиза проверил. С кумом проблем нет, но недостаточно художественно и лезет платина
> ah faster harder
Аноним 23/04/24 Втр 13:51:47 #487 №714821 
>>714816
У таверны есть свой сайт с большущим вики где все расписано
Аноним 23/04/24 Втр 13:53:35 #488 №714823 
>>714821
Я ж в скобках написал. Мне не нужно описание каждой настройки. Нужен Фулл пресет который кто-то юзает, чтобы на него посмотреть, от и до.
Аноним 23/04/24 Втр 13:55:37 #489 №714824 
>>714823
Полноценный гайд? Ну наверное где то есть, скорей всего на реддите в теме таверны, поищи там наверное тоже новички приходили и спрашивали а им отвечали
Может где то есть в гугле, так и ищи гайд силли таверна, ну если еще не пробовал
Аноним 23/04/24 Втр 14:00:41 #490 №714828 
>>714816
> У меня чтобы я не крутил, получается полный бред.
Удали, поставь заново.
Аноним 23/04/24 Втр 14:03:33 #491 №714832 
>>714549
Новая нахрен не нужная гемма? Ей вобще кто то пользовался, хотя бы для чего то?
Похоже не все крупные компании извлекли урок из ошибки гугла
Аноним 23/04/24 Втр 14:12:19 #492 №714842 
image.png
https://www.reddit.com/r/LocalLLaMA/comments/1caneis/doubling_the_parameters_on_the_same_dataset/
Аноним 23/04/24 Втр 14:15:27 #493 №714849 
https://huggingface.co/koboldcpp/mmproj/resolve/main/LLaMA3-8B_mmproj-Q4_1.gguf
Проектор mmproj для ллама3
Аноним 23/04/24 Втр 14:15:40 #494 №714850 
>>714832
>Ей вобще кто то пользовался, хотя бы для чего то?
Я для переводов пробовал, оказалась примерно на среднем уровне подобных ей (~7b) мультиязычных моделей. Но по английски при переводе пишет довольно коряво (хуже того же openchat при сопоставимой точности перевода).
Аноним 23/04/24 Втр 14:17:27 #495 №714851 
>>714842
Теория заговора начинается Кто-то настойчиво убеждает общественность, что крошечные модели это хорошо. Теория заговора заканчивается
Аноним 23/04/24 Втр 14:19:41 #496 №714856 
>>714849
Пожирнее и точнее нашел
https://huggingface.co/ChaoticNeutrals/Llava_1.5_Llama3_mmproj/resolve/main/mmproj-model-f16.gguf

>>714851
Просто 15 триллионов токенов дают о себе знать. 70B ладно если 1т получила, так что она очень недообучена
Аноним 23/04/24 Втр 14:22:36 #497 №714859 
>>714856
>70B ладно если 1т получила
В смысле? Они вроде обучали на одном и том же датасете. Откуда инфа про обрезку для 70B?
Аноним 23/04/24 Втр 14:27:28 #498 №714865 
image.png
>>714849
Для тех кто не знает че это такое, это добавляет мультимодальность любой модели, одного размера и структуры. Конкретно этот даст возможность кидать картинки ллама3 и она будет их понимать, хоть как то
Это для кобальда или llama.cpp
https://huggingface.co/ChaoticNeutrals/Llava_1.5_Llama3_mmproj

>>714859
Я так понимаю 15т это не размер датасета, а количество токенов прошедших сквозь сетку во время обучения
Тоесть сколько ее тренировали
Так как 70 больше, то и крутили ее меньше
Скорей всего в 10 раз, если увеличение размера сетки в 10 раз так же в 10 раз замедлит скорость обучения
Хуй знает как это работает в реальности
Аноним 23/04/24 Втр 14:43:20 #499 №714885 
>>714549
это кстати самая соевая модель, после лламы-3 конечно же.
Аноним 23/04/24 Втр 14:44:25 #500 №714887 
>>714885
Ллама-3 разве такая уж соевая?
Аноним 23/04/24 Втр 14:46:34 #501 №714891 
>>714885
Разве гемма не более соевая чем ллама3?
Аноним 23/04/24 Втр 14:49:39 #502 №714895 
>>714887
>>714891
по ощущениям ллама-3 догнала проприетарщину по соевости, также стало сложнее обходить это, по настоящему стрёмно за файнтюны, не думаю что они исправят это.
Аноним OP 23/04/24 Втр 14:52:09 #503 №714899 
ПЕРЕКАТ
Паровоз локалок продолжает нестись, надеюсь не под откос.

>>714898 (OP)


>>714898 (OP)
Аноним 23/04/24 Втр 14:53:06 #504 №714902 
>>714895
Исправить то можно тем же токсик дпо или контрольными векторами
Вот только модель поглупеет
Ладно, может какой то файнтюн базовой модели будет удачным
comments powered by Disqus

Отзывы и предложения