24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №87 /llama/

 Аноним 23/10/24 Срд 01:02:00 #1 №927265 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
P40 и куча скотча.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры https://artefact2.github.io/llm-sampling/

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>922709 (OP)
>>917224 (OP)
Battle of the cheap GPUs Аноним 23/10/24 Срд 05:25:00 #2 №927368 
https://www.reddit.com/r/LocalLLaMA/comments/1f6hjwf/battle_of_the_cheap_gpus_lllama_31_8b_gguf_vs/
Сравнение производительности бюджетных GPU (перечислены ниже) на модели Llama 3.1 8B
GTX 1060
GTX 1070 ti
GTX 1080 ti
RTX 3070
Titan V
Tesla P4
Tesla P40
Tesla P100
Tesla T4
P102-100
CMP 70HX
CMP 100-210
Аноним 23/10/24 Срд 06:05:42 #3 №927382 
>>927368
> P102-100

Кто бы сомневался
Аноним 23/10/24 Срд 06:09:59 #4 №927385 
>>927368
>8b
сравнение спорткаров соревнующихся до пятерочки
Аноним 23/10/24 Срд 06:15:34 #5 №927387 
>>927368
>P40
>9341MB
Чиво?
Аноним 23/10/24 Срд 09:54:17 #6 №927461 
>>927013 →
Не работают с КУДА. Придётся или с вулканом, или с РОКмом пердолиться, ну и скорость будет пониже. А так работает всё.
Аноним 23/10/24 Срд 10:10:54 #7 №927476 
>>927461
я сежу на арчлинукс рокм 6.2или1 всё летает топчик карта 7900хт 20гегов всрама
Аноним 23/10/24 Срд 10:13:37 #8 №927479 
>>927476
Огласите уровень красноглазия по шкале от 1 до 10
Аноним 23/10/24 Срд 10:16:54 #9 №927481 
>>927479
ничё там уже не нужно красноглазить всё так же как ив венде теперь дале-далее-готово
Аноним 23/10/24 Срд 10:21:58 #10 №927485 
https://www.reddit.com/r/singularity/comments/1g9pcbo/i_fixed_critical_bugs_which_affected_everyones/
Аноним 23/10/24 Срд 10:25:37 #11 №927491 
Screenshot 2024-10-23 102432.jpg
>>927485
Аноним 23/10/24 Срд 10:34:30 #12 №927509 
>>927368
Снова я, снова напоминаю, что P104-100 (8 гигабайт) все еще стоит 2к рублей на авито (а то и дешевле, если брать несколько)! И является ультра-имбой для супер-бомжей.
Но в иных случаях не рекомендую, канеш. =)
Но парочка позволит вам катать 14б модели в 6 кванте.
А 3 карты (если у вас есть материнка с 3 слотами, каждый из которых поддерживает х4 в совместной работе…) дадут аж 24 гига (за 5-7 тысяч рублей) и скорость не настолько уж низкую.
Если у вас в компе старенькие видяхи 10хх поколения, и свободный слот, то докупить P104-100 (1070) — тоже отличный выбор.
Главное, если будете брать — не возьмите 4-гиговую версию.

>>927387
Ну, там же 8б модель. =) Скока заняла, стока заняла.
Аноним 23/10/24 Срд 10:39:42 #13 №927516 
>>927491
В коде была 8 лет ошибка, которая пердолила модели при тренировке, чем больше накопление градиента - тем больше пердолила. А накопление часто используется, я бы даже сказал "всегда". Ошибка касается всех трансформерсов и всех трейнеров. У хуёги ещё не исправлено.
Аноним 23/10/24 Срд 10:40:39 #14 №927518 
>>927516
ясно-понятно (теперь))
Аноним 23/10/24 Срд 10:53:44 #15 №927538 
PCIe-Splitter-1-to-4-Multiplier-Adapter-Card-example-min.jpg
>>927509
>если у вас есть материнка с 3 слотами
Или если ты горячий эстонский парень и не против немного подождать.
Аноним 23/10/24 Срд 11:01:52 #16 №927547 
Уже который раз спрашиваю, может хоть сейчас кто-нибудь ответит. Как узнать сколько контекста модель поддерживает? На хагингфейсе пишет только что это llama, ни версии нихуя. 8к контекста мало, хочу больше.
Аноним 23/10/24 Срд 11:05:43 #17 №927551 
Screenshot 2024-10-23 110441.jpg
Screenshot 2024-10-23 110405.jpg
Screenshot 2024-10-23 110308.jpg
>>927547
я думал они все щас понтдерживают 128к+
Аноним 23/10/24 Срд 11:08:17 #18 №927554 
>>927485
На единичку забыли поделить.
>>927538
Хуйня. Вот если бы норм сплиттеры с 16 до 4х4...
>>927547
>Как узнать сколько контекста модель поддерживает?
В конфиге оригинальной версии вестимо.
Аноним 23/10/24 Срд 12:17:53 #19 №927615 
>>927538
Не проще ли подождать на cpu? Или даже с такой штукой на 4 карты в x1 выходит быстрее?
Аноним 23/10/24 Срд 12:26:55 #20 №927623 
1593744168996.png
>>927547
>Как узнать сколько контекста модель поддерживает?
Загрузи её в LM Studio.
Аноним 23/10/24 Срд 13:08:40 #21 №927664 
>>927547
> Как узнать сколько контекста модель поддерживает?
https://github.com/hsiehjackson/RULER
Но тесты не полные, нету например новых qwen2.5
Да и полученные результаты можно на 2 растянуть при желании без потерь почти. Но сориентироваться сойдет.
Аноним 23/10/24 Срд 13:22:58 #22 №927688 
image
>>927623
>LM Studio
Интересно посмотреть на людей которые это используют вместо кобольда/убабуги. Ну типа угорать по конфиденциальности, используя локальные LLM, при этом запускать их через ПО с закрытым исходным кодом с неиллюзорной долей вероятности содержащее дезадокументированный фунцкционал. Проще уж тогда самому прийти к товарищу майору и принести распечатки чатов, где ты ебешь кошкодевочек.
Аноним 23/10/24 Срд 13:39:50 #23 №927702 
>>927688
Интересная теория, но я через неё качал модели, пока не узнал про гит.
Вопрос был немного в другом, как и ответ.
Аноним 23/10/24 Срд 13:41:49 #24 №927706 
>>927688
>вместо кобольда/убабуги.
llama.cpp чел, хотя кобальд тоже обладает +- похожим доверием, но меньше
Угабуга сложный большой проект которому доверия как той же LM Studio, он открыт но ебать как сложен и спрятать там отправку твоего чата налево замаскировав это чем либо - не трудно

Ну и все это смех, потому что чатишься ты все равно через браузеры, а они напичканы зондами и телеметрией плотно. Как и винда, кек.
Аноним 23/10/24 Срд 13:43:14 #25 №927709 
image.png
>>927702
>ответ
Контекст можно и в кобольде посмотреть. И в лламацпп, наверное.
мимо
Аноним 23/10/24 Срд 13:59:19 #26 №927727 
>>927688
>Проще уж тогда самому прийти к товарищу майору и принести распечатки чатов, где ты ебешь кошкодевочек.
Ну пришёл я, ну отдал распечатки. И что мне за это будет? Даже если кошкодевочки ещё котята.
Аноним 23/10/24 Срд 14:00:47 #27 №927730 
>>927727
не обращай внимания, это местный аутист, который никак не может настроить все, чтобы початиться, поэтому вместо этого вахтерит и отвечает на каждый пост
Аноним 23/10/24 Срд 14:10:09 #28 №927748 
>>927727
Ничего. Скорее всего эта балалайка монетизируется тем что собирает логи чатов и делает из них датасеты в формате запрос-ответ, а потом продает это всяким опенаи для тренинга моделек.
Аноним 23/10/24 Срд 14:13:07 #29 №927750 
Возьмите любой сниффер трафика да и послушайте что он там передает. Потом кукарекайте.
Аноним 23/10/24 Срд 14:14:00 #30 №927754 
>>927730
Ног ведь я тоже аутист, и тоже отвечаю всем подряд.
>>927748
Лол, охуенный датасет уровня "Ах ах госпожа", да ещё и с ответом от лоКалочки уровня лламы 2 8B 4bit.
Аноним 23/10/24 Срд 14:23:08 #31 №927769 
https://www.reddit.com/r/LocalLLaMA/comments/1ga62tg/i_released_a_free_competitor_to_claude_computer/
Аноним 23/10/24 Срд 16:40:02 #32 №928062 
Сап llm'ач, на связи админ ООО "Кабан".
Есть попил денег на очередной хайповый проект по обучению LLMки, дали задачу накидать характеристики сервака для файнтюнинга моделек.
У меня есть пару вопросов по multi-gpu:
- Я не могу найти внятной информации как стакается у видеокарт VRAM (которую я сейчас определяю как основную характеристику)? Пока что насколько я понял увеличивается только скорость от нескольких гпу
https://www.emilwallner.com/p/ml-rig - вот здесь написано
>NVlink: It’s a nice-to-have that can improve performance by a few percent on specific workloads. It does not combine the memory of two GPUs to a single memory, it’s just confusing marketing.
Но ведь для больших моделей нужен объем vram, каким образом они его стакают?
- Одни пишут что мульти-гпу требует софтварной поддержки и не весь софт для обучения может с ними совладать, в то время как "средний" сегмент только мульти-гпу и собирает.

Пока предварительно у меня такой стек:
Exxact TS2-171138844
- 4 x A100 HGX 80 SXM4 (360GB VRAM)
- 512GB RAM
- AMD EPYC 7352 - 24 Core - 2.30 GHz - 128 MB L3 Cache- Socket SP3
Сума ~76,6к$.

- Кабан может достать что угодно, на санкции пофиг.
- Нужно 2 сервака для дева и прода. Вероятно сделаю корректировку для каждого.
- Бюджет как минимум пол ляма, но может быть больше если будут обоснования.
- Фидбека от специалистов (на что сделать упор) у меня пока нету, так как нету самих специалистов (не спрашивайте почему так), так что пока я делаю упор на VRAM.
- Также смотрел на NVIDIA DGX сборки, но они (имхо) какие-то оверпрайснутые + не кастомизируемые. Как вариант конечно выбрать какой-то Nvidia DGX STATION A100 и не ебаться.
- Сборка должна быть готовая или собранная в конструкторе на сайте поставщика, по отдельности компоненты заказывать нельзя, просто потому что.

Можете кинуть ваши влажные сборки на дабл думаю, на трипл выбиваю бюджет.
Аноним 23/10/24 Срд 16:44:34 #33 №928075 
>>928062
На таком кале какой прод, лол? Только как хач бота в дискорде делать под 100 подписчиков.
Аноним 23/10/24 Срд 16:47:28 #34 №928079 
>>927688
Долбаебы, кому нахуй нужны ваши рейп-инцест фантазии. Максимум что у вас смогут спиздить это ваши же промты или логи и то исключительно для создания всяких датасетов или сбора статистики. Если вы так сретесь за конфиденциальность - выдергивайте эзернет кабель и интерферируйтесь чисто в оффлайн режиме. В таком случае можете юзать хоть бекяйдр аи, хоть лм студию, хоть что угодно. Один хуй без доступа к сети никто у вас ничего не спиздить.
Аноним 23/10/24 Срд 16:47:42 #35 №928080 
>>928062
> Бюджет как минимум пол ляма
Долларов или ты потроллить зашел?
Аноним 23/10/24 Срд 16:52:46 #36 №928090 
Че делать с одинаковыми роллами на файнтюнах mistral nemo 12b?
Аноним 23/10/24 Срд 17:18:10 #37 №928128 
>>928080
Я же написал стоимость. Алсо, в реальности бюджет в 5 раз выше, но это на весь проект.
>>928075
Кинь не кал.
Аноним 23/10/24 Срд 17:29:37 #38 №928138 
>>928128
> Кинь не кал.
Ты ведь в курсе, что 4хА100, это производительность даже чуть хуже чем у 4х4090? О каком тут проде может идти речь, это даже до майнинг-фермы на балконе не дотягивает. Если нет денег на нормальное железо, то надо идти в облако, а не пытаться сделать прод из пары карт прошлого поколения.
Аноним 23/10/24 Срд 17:30:54 #39 №928139 
>>928062
>>928128
С такими вопросами тебе куда-то в другое место где есть люди ебавшиеся с серверным видяхожелезом основательно. Тут если такие и бывают, то редко и полтора человека как обычно, дай бог ещё пара человек вообще хотя бы запускала тот же vllm на арендованых бомже-впсках и консьюмер видяхах.
Аноним 23/10/24 Срд 17:34:27 #40 №928145 
>>928138
>>928139
>Ты ведь в курсе, что 4хА100, это производительность даже чуть хуже чем у 4х4090
Ну и вот тебе сразу наглядный пример местных дегенератов во всей красе.
Аноним 23/10/24 Срд 17:37:53 #41 №928149 
>>928145
Люди с трёхзначным icq задают такие вопросы чатгопоте, все остальные почему-то здесь.
Аноним 23/10/24 Срд 17:40:32 #42 №928151 
>>928075
вроде норм сборка чё не так то

мимо мимохот
Аноним 23/10/24 Срд 17:42:06 #43 №928152 
>>928062
https://medium.com/@kmesiab/enterprise-llm-model-scaling-ac2a8dd940c4
Аноним 23/10/24 Срд 17:42:07 #44 №928153 
>>928151
Для личных целей норм. А на трёх одновременных запросах уже отсос случится.
Аноним 23/10/24 Срд 17:44:31 #45 №928155 
>>928138
>4хА100, это производительность даже чуть хуже чем у 4х4090
С какими же ебланами приходится в одном треде сидеть, каждый раз хуею. Четыре A100 каждая по 80гб соединенные NVLINK'ом у него производительнее для обучения чем 4 обоссаные 4090 по 24гб.
Нахуй вообще что-то высирать в тред, если проигрываешь по интеллекту и способности читать буквы даже самой хуевой 3b модели.
Аноним 23/10/24 Срд 17:44:38 #46 №928156 
>>928152
даже cost efficient approach включает в себя 8 штук А100 ане 4
Аноним 23/10/24 Срд 17:46:25 #47 №928158 
>>928062
https://www.youtube.com/watch?v=uifoj9iuTDw
Аноним 23/10/24 Срд 17:48:58 #48 №928159 
>>928062
https://pub.aimind.so/the-hardware-behind-chatgpt-a-deep-dive-into-the-future-of-ai-be0836204cf6
Аноним 23/10/24 Срд 17:49:49 #49 №928160 
>>928155
> Четыре A100 каждая по 80гб соединенные NVLINK
У тебя что за математика, шизик? Производительность карт никогда не складывается, они всегда работают последовательно. Какой-то выигрыш будет только если батчами токены генерить, и то это подразумевает стабильную нагрузку многими запросами, а не рандомную. А нв-линки нужны для обучения, там надо на каждом шаге градиенты синхронить между картами.
Аноним 23/10/24 Срд 17:50:14 #50 №928162 
Screenshot 2024-10-23 174858.jpg
>>928062
тоби пизда)
Аноним 23/10/24 Срд 17:54:18 #51 №928165 
>>928160
>А нв-линки нужны для обучения, там надо на каждом шаге градиенты синхронить между картами.
Мудило гороховое ты в третий раз хоть осилишь пост анона прочитать?
>проект по обучению LLMки
>сервака для файнтюнинга моделек
Аноним 23/10/24 Срд 17:55:07 #52 №928167 
>>928165
Ты лучше осиль прочитать на что ты отвечаешь, долбаёб.
Аноним 23/10/24 Срд 18:03:07 #53 №928176 
>>928167
Отвечаю на хуйню, где не умеющий читать рассуждает про производительность будучи не в состоянии осилить пост, где анон спрашивает про железо серваков для файнтюна. Для обучения, блядь. Не инференса, обучения, сука. Какой батч процессинг, какие четыре 4090, нахуй У тебя в голове контекст 512 токенов?
Аноним 23/10/24 Срд 18:04:44 #54 №928177 
1579296284199.png
>>928176
> У тебя в голове контекст 512 токенов?
Ору с того, что это стало ходовым оскорблением в треде.
Аноним 23/10/24 Срд 18:09:53 #55 №928188 
>>928176
Сука, ты так и будешь притворяться что не читал ветку, на которую начал отвечать?
Аноним 23/10/24 Срд 18:15:34 #56 №928196 
>>928162
>дали задачу накидать характеристики сервака для файнтюнинга моделек
>тоби пизда)
Вряд ли.
На файнтьюн 8В моделей 4хА100 наверное должно хватить.
Аноним 23/10/24 Срд 18:18:06 #57 №928205 
>>928188
>пост с вопросами про железо для обучения
>пост c "На таком кале какой прод, лол"
>пост с "кинь не кал"
>пост с шизорасуждениями про производительность 4x4090 для инференса, когда ветка идет с вопросов про железо для файнтюна
>пост с указанием на это
>пост с опять рассуждениями про производительность в инференсе в ветке начавшейся с железа для обучения
>ещё раз указание на то что речь про обучение шла
>снова рассуждения про производительность и генерацию в ветке идущей с поста про обучение
Ясно.
Аноним 23/10/24 Срд 18:27:13 #58 №928226 
>>928079
>Один хуй без доступа к сети никто у вас ничего не спиздить.
Он не знает...
Аноним 23/10/24 Срд 18:30:08 #59 №928233 
bd4ac843-c7c0-4f84-8fe4-684bd6ec883f.png
>>928160
точно нес кладывается? а если на smx4 ?
Аноним 23/10/24 Срд 18:31:08 #60 №928236 
>>928233
Точно. У тебя на пике сложение шины, а не производительности.
Аноним 23/10/24 Срд 18:32:19 #61 №928237 
>>928236
if u say so
Аноним 23/10/24 Срд 18:39:22 #62 №928252 
obfuscation.png
>>927615
Даже хуй знает. Если х1 gen1.1, то будет полный пиздец, но, скорее всего, всё ещё быстрее cpu.

>>927706
>и спрятать там отправку твоего чата налево
Практически невозможно. Это будет находиться за 3 секунды поиска по файлам, либо будет обфусцировано. Что вызовет вопросы и потерю доверия.

>>928062
>Есть попил денег на очередной хайповый проект по обучению LLMки, дали задачу накидать характеристики сервака для файнтюнинга моделек.
Судя по системкам, это бомжесборка, так делайте, как все бомжи-попильщики. Тренируйте лору. Ах да. У вас один хуй датасетов нет.

>- 4 x A100 HGX 80 SXM4 (360GB VRAM)
>- 512GB RAM
Для трейна 70b нужен терабайт vram. И это ещё с оптимизатором адамw. Можно было бы заюзать zero-3, но в вашей сборке нет ram, так что 70b остаётся в мечтах. Что-нибудь уровня 32b можете отфайнтюнить, на претрейн не замахивайтесь - обосрётесь.
Аноним 23/10/24 Срд 19:12:30 #63 №928316 
Посаны вчера все работало. А сегодня кобольд когда запускаю, он закрывается сам после загрузки модели, и не переходит в браузер на /localhost:5001/

как исправить?
Аноним 23/10/24 Срд 19:16:21 #64 №928328 
4567457567.png
Вот здесь нажимаю лаунч в окошке быстро быстро чето пишется, и в течение секунды закрывается и не переходит в браузер на /localhost:5001/
Вчера все работало, делаю все точно так же.
Аноним 23/10/24 Срд 19:17:33 #65 №928334 
>>928316
>>928328
Через консоль запускай.
Аноним 23/10/24 Срд 19:18:08 #66 №928336 
Чай куканят.

Жительница США Меган Л. Гарсия из Орландо, штат Флорида, подала судебный иск к разработчику приложения Character.ai, обвинив компанию в смерти своего 14-летнего сына Сьюэлла, сообщила газета The New York Times 23 октября.
Аноним 23/10/24 Срд 19:19:05 #67 №928341 
>>928334
У меня нет плей стешен.
Аноним 23/10/24 Срд 19:24:46 #68 №928352 
>>928336
>14-летнего сына
Вообще похуй, мужиков не жалко. Вот на смерть лолечки возбудились бы, а так ничего карактерам не будет.
>>928341
Купи, хули блядь без консоли в нейронки подался!
Аноним 23/10/24 Срд 19:33:33 #69 №928366 
image.png
Сидим траблшутим говно блять.
Я вообще хз как сейчас можно обходиться без собственной нейронки...
Эти люди которые превозмогают водиночку - кон они? Недавно вкатун в /b жаловался что не может вкатиться. Я ему говорю - дурак, воспользуйся помощью нейросети, она тебе будет все объяснять - а он отвечает дескать "я дохуя человек дождя, храню документацию в голове, читаю маны"
Странные люди. Тут нахуй башка лопнет всякое говно в неё пихать.
Ладно еще когда программы писались под человека, а не под json-говномикросервисы, но сейчас в 2024...
Аноним 23/10/24 Срд 19:35:52 #70 №928368 
>>928366
> а он отвечает дескать "я дохуя человек дождя, храню документацию в голове, читаю маны"
Это ещё куда ни шло, мне на такой же совет прислали скрин затычки чатгпт, потому что у человека в 2024 году нет впс...
Аноним 23/10/24 Срд 19:36:56 #71 №928372 
>>928368
лол блять
мда...вкатуны....
Аноним 23/10/24 Срд 19:48:57 #72 №928399 
>>928366
Модель?
Аноним 23/10/24 Срд 19:49:40 #73 №928400 
>>928399
бро ты не потянешь...
пятый квант мангума 123б
Аноним 23/10/24 Срд 19:57:45 #74 №928420 
Анон, посоветуй модель для РП, пожалуйста. У меня 4070 и 16vram
Аноним 23/10/24 Срд 20:00:34 #75 №928428 
>>928420
16 оперативки, а не vram, конечно.

Фикс
Аноним 23/10/24 Срд 20:03:15 #76 №928435 
>>928400
Для подобных задач 123 оверкилл, хватит 7-14b
Затыка модет быть с устаревшими знаниями, но это у всех локалок проблема
А вот количество знаний у мелких меньше, тут выигрыш жирных моделей на лицо
Но большую часть вещей мелочь знает
Аноним 23/10/24 Срд 20:07:15 #77 №928443 
>>928400
Ну 123б только в q3 на 1 t/s потяну, да. Просто интересно было.
Аноним 23/10/24 Срд 20:08:06 #78 №928445 
>>928420
В закрепе на реддите регулярно отписываются про актуальные модельки. Выбирай любую 12B / 20B
https://www.reddit.com/r/SillyTavernAI/comments/1g8jb20/megathread_best_modelsapi_discussion_week_of/?sort=top
Аноним 23/10/24 Срд 20:10:43 #79 №928454 
>>928445
Там какой-то уёбищный список, литералли самые соевые модели собраны.
Аноним 23/10/24 Срд 20:14:53 #80 №928470 
>>928435
>оверкилл
когда траблшутишь неведомую хуйню оверкилла быть не может.
Галлюцинации разгребать вместо нормального траблшутинга у какой-нибудь 20б вообще не круто.
Про программистов согласен - там кодомакакам в принципе много от сетки не нужно. Но инфраструктура - дело другое.
Аноним 23/10/24 Срд 20:17:13 #81 №928472 
>>928470
Проверь хоть эту же задачу на мелочи, вот и узнаем
Такой себе спонтанный бенч
Аноним 23/10/24 Срд 20:18:02 #82 №928476 
>>928454
У тебя между левой и правой кнопкой на мыши есть колесико, открой снова тот тред и попробуй прокрутить его пониже.
Аноним 23/10/24 Срд 20:20:18 #83 №928485 
>>928476
Ты лучше расскажи какой дебил его обновляет, аж 2 дня назад последний раз.
Аноним 23/10/24 Срд 20:23:57 #84 №928493 
>>928485
Это weekly тред.
Аноним 23/10/24 Срд 20:58:40 #85 №928551 
>>928445
Я для вас шутка что-ли?
Мимо https://rentry.co/llm-models анон
Аноним 23/10/24 Срд 21:03:23 #86 №928561 
PXL20241024.jpg
Начитавшись о конфигурациях для файтнтюна за полляма долларов, решил кинуть в тред свою. Она подешевле, но для инференса сойдёт.

Исторический тред на Реддите, после которого я задумался о сборке:
https://www.reddit.com/r/LocalLLaMA/comments/1924vtm/dell_t630_with_4x_tesla_p40_description_in/

Тогда на Голиафе 120_5K_M с нулевым контекстом она давала 1,75 токена в секунду. На 70_5K_M правда больше девяти, но с ростом контекста тогда производительность скатывалась в жопу. Но я всё равно верил, и по вере моей дано было мне :)
Аноним 23/10/24 Срд 21:08:54 #87 №928571 
>>928561
>1,75 токена в секунду
Скорость просто космос, охуеть.
4xp40 только на балкон поставить, какой там шум с этими турбинами? У меня от одной ночью уснуть было сложно.
Корпуса и мамки нынче под одну видяху делают, сложно что-то вменяемое и современное найти, только если говно мамонта.
Аноним 23/10/24 Срд 21:12:18 #88 №928574 
>>928454
>>928445

Что насчет "
Pantheon-RP-Pure-1.6.2-22b-Small-GGUF"?
Аноним 23/10/24 Срд 21:13:08 #89 №928577 
1656260406079.webp
>>928571
> Корпуса
Пикрил же. В рашке без проблем покупается, в наличии везде есть.
Аноним 23/10/24 Срд 21:15:16 #90 №928582 
>>928571
>Скорость просто космос, охуеть.
Не, сейчас 123В_Q4KM с 24к контекста 3,3т/c даёт, с 16к контекста - 4,3. Жить можно. Эти вот большие улитки на фото шумят конечно, но из соседней комнаты, где сервер и стоит, их не слышно. Была бы нужда, я бы им и скорость динамически менял, но незачем.
Аноним 23/10/24 Срд 21:23:06 #91 №928586 
>>928577
>Пикрил же.
Почти единственный адекватный типа "серверный" корпус, есть минусы. Еще и дорогой. Считаю, что можно было сделать адекватнее по такой цене.

>>928582
Когда p40 стоила 15к было еще годно, наверное. Сейчас я бы такой не советовал собирать.
Аноним 23/10/24 Срд 21:24:39 #92 №928590 
изображение.png
>>928577
Проиграл с маркетинговой сбор очки.
Аноним 23/10/24 Срд 21:43:47 #93 №928633 
>>928561
Все линии x16?
что за проц и мать?
Аноним 23/10/24 Срд 21:46:28 #94 №928640 
>>928336
Ну да, это же не её обязанность, как родителя, следить за тем, чем её дитё занимается и какие ментальные проблемы испытывает. Это просто в интернетах завёлся какой-то особенно злодейский ИИ.
Аноним 23/10/24 Срд 21:46:40 #95 №928641 
>>928443
>(995.8ms/T = 1.00T/s)
Идеально, лол.
Аноним 23/10/24 Срд 21:49:26 #96 №928651 
>>928336
Всей подробности истории:

Can A.I. Be Blamed for a Teen’s Suicide?
The mother of a 14-year-old Florida boy says he became obsessed with a chatbot on Character.AI before his death.
https://www.nytimes.com/2024/10/23/technology/characterai-lawsuit-teen-suicide.html
Аноним 23/10/24 Срд 22:03:06 #97 №928688 
image.png
Почему у меня промт на каждый ответ заново загружается?
Раньше один раз загрузился и общаешься
Аноним 23/10/24 Срд 22:05:32 #98 №928692 
Screenshot 2024-10-23 at 22-02-08 KoboldAI Lite.png
Как нужно правильно общаться с пидарским соевым верифицированно-фактоидным зацензуренным ЫИ
Аноним 23/10/24 Срд 22:07:37 #99 №928702 
>>928688
Используешь лорбук к примеру или сторонние плагины, которые ебашут в начало контекста новые данные.
Аноним 23/10/24 Срд 22:12:02 #100 №928705 
1.png
Как же я проиграл. Невидия против гоймеров.
Аноним 23/10/24 Срд 22:13:25 #101 №928709 
>>928586
>Когда p40 стоила 15к было еще годно, наверное. Сейчас я бы такой не советовал собирать.
Оно-то так, но просто не на чем больше собирать, если живёшь не в столицах. 3090(желательно вообще Ti) с проверкой можно купить в количестве только там. А без проверки херня может получиться.
Аноним 23/10/24 Срд 22:19:04 #102 №928719 
>>928705
Ты просто страной не вышел.
Аноним 23/10/24 Срд 22:20:29 #103 №928720 
>>928633
>что за проц и мать?
ASUS WS X299 Sage 10G, проц i9-7900X. С линиями там сложно, на 4 слота PCIe x16 выделены 32 линии с аппаратным удвоением.
Аноним 23/10/24 Срд 22:22:40 #104 №928726 
1653653007143.jpg
>>928551
Если бы ты проверял, что аноны пишут, а не бездумно копировал — цены бы тебе не было.
Аноним 23/10/24 Срд 22:25:09 #105 №928730 
>>928574
Я с 12b пантеоном сейчас играюсь, делает именно то, что я хочу.
Аноним 23/10/24 Срд 22:26:02 #106 №928734 
image.png
Кобольд зависает на этом моменте с любой моделью и настройками запуска, как вылечить?
Аноним 23/10/24 Срд 22:31:47 #107 №928739 
>>928734
> как вылечить?
Выкинуть лнукс. И заодно теслы. mmap выключи, клован
Аноним 23/10/24 Срд 22:34:23 #108 №928743 
>>928734
кобольд вонючий выкини. И используй связку жоры и таверны.
Я когда увидел, что уобольд выёбывается - даже разбираться не стал - виндовая мокрописька была сразу послана нахуй.
Аноним 23/10/24 Срд 22:41:57 #109 №928758 
>>928739
все бы ничего, но это винда, и 3090
Аноним 23/10/24 Срд 22:45:25 #110 №928767 
https://www.reddit.com/r/LocalLLaMA/comments/1gai2ol/list_of_models_to_use_on_single_3090_or_4090/
Аноним 24/10/24 Чтв 00:23:54 #111 №928927 
1671198328484.png
https://2ch.hk/b/res/312064296.html
Как вам?
Аноним 24/10/24 Чтв 00:52:49 #112 №928989 
>>927615
>>928252
Долгой будет только начальная загрузка модели в VRAM. После этого объём передаваемых по шине данных очень невелик и её скорость никак не скажется на производительности.
Аноним 24/10/24 Чтв 01:23:35 #113 №929031 
6555555555555.png
Че она такая промытая то? Второй слайд был тоже про политику. Я вообще то говорил про мультфильм леди и броядга.
Аноним 24/10/24 Чтв 01:25:21 #114 №929036 
>>929031
tramp, ретард ебаный
Аноним 24/10/24 Чтв 01:27:55 #115 №929043 
>>929036
Слыш ты блядь, Обэма ебаный. Указан в контексте мультфильм. Ну тупыыыыыыыыеееее.
Аноним 24/10/24 Чтв 01:48:31 #116 №929064 
.png
Кто-нибудь оплачивал openrouter криптой? С локального кошелька это как-то можно сделать без таких высоких комиссий? Создать акк на coinbase не могу по очевидным причинам.
Аноним 24/10/24 Чтв 01:52:51 #117 №929067 
1723376489341.png
>>929064
> без таких высоких комиссий?
Давайте думать, подсказывайте, хули вы мозги ебёте.
Аноним 24/10/24 Чтв 02:10:25 #118 №929087 
Ладно, я похоже слишком тупой для всего этого. Буду дальше со своими локальными лоботомитами развлекаться.
Аноним 24/10/24 Чтв 02:18:44 #119 №929097 
>>929064
>без таких высоких комиссий?
А я думал криптой дёшево, если платить долларами за сервисы через посредников, то там и на 15% можно выйти. Искал дешевле, думал про крипту, но похоже зря.
Аноним 24/10/24 Чтв 02:22:03 #120 №929101 
.png
>>929097
Там комиссия фиксированная, поэтому хотел попробовать заплатить сразу $50 + 8 баксов комиссии, но на следующем шаге, как в кошелёк перекидывает, оно почему-то хочет, чтобы я весь госдолг США оплатил похоже.
Аноним 24/10/24 Чтв 02:27:55 #121 №929108 
>>929097
На полигоне комса меньше цента.
>>929101
Это аппрув, ставится сразу максимально возможное число, чтобы каждый раз не спрашивать. Чтобы у тебя списались токены - контракту нужно сначала разрешить их списать. Только потом они отправляются. Тут немного иначе всё работает, а не как в переводе с карты мир на карту мир.
Аноним 24/10/24 Чтв 02:33:21 #122 №929111 
>>928062
> - 4 x A100 HGX 80 SXM4 (360GB VRAM)
Рим пал, центурион. Бери хоппер, он хоть дороже - также и шустрее.
> - 512GB RAM
> - AMD EPYC 7352 - 24 Core - 2.30 GHz - 128 MB L3 Cache- Socket SP3
С такими-то видимокартами тут решил сэкономить, память быстро засрется а маловедер могут не вывести быдлокод кривых даталоадеров.
4 хопера, зен/зеон и 2тб рам - вот богоугодный вариант, раз есть бюджет. Есть под это готовые серваки. Еще лучше - 8 гпу, тут можно и уступить до а100 в угоду большего объема памяти.
>>928160
> Производительность карт никогда не складывается, они всегда работают последовательно.
Чел, не путай всратый инфиренс с обучением.
>>928252
> Для трейна 70b нужен терабайт vram.
Не обязательно.
> И это ещё с оптимизатором адамw
Мм, а с каким надо?
>>928561
Ну еще во время как выкладывали в первый раз было очевидно что оно мертворожденное из-за донной скорости. Чсх, в треде нашлись те кто был готов это самостоятельно подтвердить, за что им слава.
Аноним 24/10/24 Чтв 02:33:42 #123 №929112 
>>929108
> Это аппрув, ставится сразу максимально возможное число, чтобы каждый раз не спрашивать. Чтобы у тебя списались токены - контракту нужно сначала разрешить их списать. Только потом они отправляются. Тут немного иначе всё работает, а не как в переводе с карты мир на карту мир.
Звучит довольно стрёмно если честно, но почитаю, спасибо. Я за пределами P2P переводов и парой мелких покупок с криптой толком дел не имел.
Аноним 24/10/24 Чтв 02:43:30 #124 №929120 
>>929112
>Звучит довольно стрёмно
Если у тебя человеческий кошелёк то можно изменить значение на 50 баксов. Тогда злые хакеры, захватившие их контракт не смогут у тебя всё спиздить. А можно ещё просто завести второй-третий кошелек для оплаты всякой хуйни и никогда не разрешать списания с основного.
Аноним 24/10/24 Чтв 04:30:21 #125 №929150 
.png
.png
.png
>>928927
https://glif.app/@Meson/glifs/cm2e1w1g300024yvf141n7ot0
Это великолепно.
Аноним 24/10/24 Чтв 04:47:35 #126 №929151 
.png
>>929150
Ага, ну там claude-3.5-sonnet используется. Интересно, что вышло бы выжать с 100-405b моделей. Всё же клод в подобной шизофрении на русике для меня вне конкуренции.
Аноним 24/10/24 Чтв 04:59:32 #127 №929155 
.png
сука
Аноним 24/10/24 Чтв 05:04:46 #128 №929159 
Сейчас тестанул ллмки на негатив с максимально хуёвыми вводными на гране суицида, смотрел как реагируют и будут жалеть. Типа всё плохо и выхода нет. Джемма 2 прям вывалила столько вариантов выживания я аж охуел.
Аноним 24/10/24 Чтв 05:16:57 #129 №929165 
>>928366
Магнум мегакал, как ты его можешь юзать вообще?! Все модели ошибаются постоянно, ты сам должен знать всё о чём будешь траблшотить с ней и она не поможет тебе, ибо ты в любом случае будешь перепроверять всё сам. Хуйня твой пример. Видно что ты недавно вкатился в ллмки. Максимум на что они способны это ответить на то, что ты и так в википердии нашёл бы, но ещё они ошибутся, а когда ты скажешь что она ошиблась она: а да да сорян за дезу, вот правильный вариант и - тут же высрет ещё одну дезу.
Аноним 24/10/24 Чтв 05:32:28 #130 №929167 
galore-memory-efficient-llm-training-by-gradient-low-rank-v0-2fu8374jz2nc1.webp
finalpsu.png
>>928989
Дело не в объёме, дело в задержках, а на таких соплях с шиной 1.1 будет пиздец.

>>929111
>Не обязательно.
Ага, можно обучать сразу в INT8, но это такое себе.
>Мм, а с каким надо?
C bf16 имплементацией адама. Или вообще без него, чтобы vram не хватило ещё раньше. Ещё бы я переживал за успех проекта, про который сразу говорят, что он попильный.

>>929155
Про электрику домашних серверов особенно актуально. Иногда охуеваю с этого. На втором пике питание домашнего сервера с пачкой v100. Не моё.
Аноним 24/10/24 Чтв 07:05:56 #131 №929172 
>>928726
>Если бы ты проверял, что аноны пишут
Это противоречит самой идеи. Список - отражение того что пишут в треде, а не мой личный блог.
С чем-то конкретным не согласен - пиши своё мнение - также добавлю если увижу
Аноним 24/10/24 Чтв 08:34:13 #132 №929209 
>>929155
>>929167
>Про электрику домашних серверов особенно актуально. Иногда охуеваю с этого.
Ну тут реально как извечный срач таксихолопов с автобоярами.
С одной стороны, если посчитать расходы на покупку, обслуживание и бензин для своего корыта, то первые действительно оказываются в более выгодном положении но менее холопами от этого не становятся
Аноним 24/10/24 Чтв 08:42:06 #133 №929210 
>>929209
Сидеть за рулём - это задача всяких хачей. Не понятно как ты сумел назвать боярами тех кто по 2 часа в день выполняет быдло-работу, ещё и платя за этого барину.
Аноним 24/10/24 Чтв 09:00:22 #134 №929224 
>>929210
>Держать серверное железо и программировать - это задача всяких хачей. Не понятно как ты сумел назвать боярами тех кто по 2 часа в день пердолится с запуском моделей, ещё и платя за этого барину.
Аноним 24/10/24 Чтв 09:44:14 #135 №929256 
>>929210
>как ты сумел назвать боярами тех кто по 2 часа в день выполняет быдло-работу
А что с другой стороны? В идеальном мире маняфантазий такси конечно закрывает все потребности, а не деле не совсем.
Запомнился случай как я ехал на фестиваль за 300 км на своей жоповозке, а знакомый в кампании на микрике через блаблакар или другую похожую хуиту. По итогу в конце фестиваля водила микрика предъявил всей кампании что теперь они должны прямо сейчас выплатить ему х2 от изначального гонорара или идти нахуй. В итоге выплатили, потому что в тех ебенях с альтернативным транспортом проблемки, а я того знакомого не взял потому что холопы должны страдать багажник и салон были забиты палатками-хуятками, матрасами, шизлонгами и прочей хуйнёй для комфортного пребывания на природе, которую я могу себе позволить. А он мог себе позволить взять только небольшой рюкзак с палаткой, в которой надо спать свернувшись в два раза.
Ещё часто читаю новости как во время терактов, гололёдов и вообще любой хуйни хачи поднимают цены до уровня половины средних зарплат и холопы вынуждены платить, пиздовать на остановку к бабам-сракам или ловить попутки в надежде, что кто-то сердобольный над ними сжалится. Или про то как очередной Ашот разбивает кому-то ебало, получает хулиганку и дальше катается.
Это этих людей боярами предлагаешь назвать?
Аноним 24/10/24 Чтв 10:23:54 #136 №929290 
>>929256
> попытались сэкономить
> были кинуты
Всё закономерно. В реальности в ДС и области таксисты за оценки чуть ли не отсосут тебе, потому что падение ниже 4.9 бьёт по баблу. И самих таксистов ебут за жалобы. И таксисты никогда не определяют цену, а если будет выёбываться он вообще ничего не получит от интегратора. И если не катаешься на экономе описываемое тобой никогда не случится даже в худших случаях, для этого и сделано разделение на эконом и комфорт, чтоб отсеивать залётных таксистов нищукам хотя там разница всего в 100р.
> новости как во время терактов
Хуй знает где ты такое увидел, во время Крокуса такси бесплатное было в той части ДС до конца дня.
> Это этих людей боярами предлагаешь назвать?
Я на такси 10 лет катаюсь, могу с уверенностью заявить что тебя только боярином-пиздоболом можно назвать.
Аноним 24/10/24 Чтв 10:50:59 #137 №929318 
>>929167
> Дело не в объёме, дело в задержках, а на таких соплях с шиной 1.1 будет пиздец.

Да не, хуйня это все. Задержки там крошечные, а данных мало и пересылаются они редко. Не скажется на производительности никак, базарю. Отличия от gen4-5 x4 придётся с лупой искать.
Аноним 24/10/24 Чтв 12:22:40 #138 №929425 
Screenshot 2024-10-24 122111.jpg
блеат как ету тупую хуйну заводить етот техт генератион вебуи я бля скачал модел положил в папку моделс бля а оно один хуй пишит что нету моделей бля!
Аноним 24/10/24 Чтв 12:23:38 #139 №929428 
Screenshot 2024-10-24 122231.jpg
>>929425
всё выбрато нахуй
Аноним 24/10/24 Чтв 12:31:05 #140 №929436 
Screenshot 2024-10-24 122920.jpg
>>929425
>>929428
а здесь сука ноу конекшон бля делаю по гайду отсюдова https://dtf.ru/howto/2221679-virtualnyi-roleplei-gaid-po-ustanovke-i-pervyi-zapusk-oobabooga-sillytavern

инехуя не работает!
Аноним 24/10/24 Чтв 12:51:38 #141 №929474 
>>929436

У тебя API выбран кобольд, а надо web ui.
Аноним 24/10/24 Чтв 13:01:33 #142 №929503 
glif-2ch-novnovikov-p1vori5gia2wx5quzrfrl1jb.png
>>929150

Пиздец, закрывайте двач, создавайте нейроборду
Аноним 24/10/24 Чтв 13:12:08 #143 №929518 
>>929150
А локально такое есть?
Аноним 24/10/24 Чтв 13:12:14 #144 №929519 
Посоветуйте модель 7б мб? на 6гб врам
Аноним 24/10/24 Чтв 13:27:13 #145 №929534 
>>929165
слушай, шизло блять.
Не первый раз вижу тебя тут как ты засираешь магнум.
Это хорошая модель, вчера мы с ней траблшутили несколько часов и в итоге перепробовали очень мног овариантов и нашли костыльное решение, потому что нормального не было.
Если ты дурак и выкрутил себе температуру в 5 - то это твои проблемы, что у тебя магнум галлюцинирует.
Твоё гонево на магнум совершенно пустое, завязывай блять.
Аноним 24/10/24 Чтв 13:28:00 #146 №929535 
изображение.png
>>929503
Обана, ещё чуть-чуть, и будет ЦП.
>>929518
Пиши сам. А вообще, весь б это ботораздел (как и политач), зачем тебе это говно ещё и локально?
Аноним 24/10/24 Чтв 13:30:18 #147 №929539 
Screenshot 2024-10-24 132734.jpg
Screenshot 2024-10-24 132828.jpg
>>929474
а там нету нехуйя, походу ета шляпа вегуи не работает

бля ну вроде просралася могу выбрать модель но там бля теперь падает нахуй, я хз почему оно пишиту cuda если я пре установке выбирал амуде варикант
Аноним 24/10/24 Чтв 13:33:32 #148 №929546 
>>929534
> шизло
Не в первый раз вижу тебя тут
Аноним 24/10/24 Чтв 13:33:42 #149 №929547 
>>929167
> с шиной 1.1
Ну, с шиной 1.1 х1 там действительно может быть пиздец. А с х4 специально спущенной до 1.0 версии псины (что эквивалентно x1 3.0) на экслламе разницы относительно исходного практически нет, на уровне рандома. На жоре наверно будет похуже, особенно с (не дающими пользы) шизоопциями.
> можно обучать сразу в INT8
Плохая идея
> C bf16 имплементацией адама.
8битных хватит всем, для ллм сота - AdEMAMix.
> Или вообще без него
Лол, без оптимизатора?
> На втором пике
Если сделано не ради рофла то это уже пиздец.
>>929209
> то первые действительно оказываются в более выгодном положении
Да, но выгодное положение заканчивается как только тебе нужно ехать куда-то дальше черты города в "удобное" время. А если сказать про свободу то там лютый пожар и аутотренинг сразу начинается.
>>929428
Если бы было выбрано то в консоли была бы надпись о том что модель загружена, врунишка. Потом уже осознал и нажал load.
>>929539
> выбирал амуде
Там должна вылезать заглушка для амудаунов недоступно юзайте линукс. Судя по уебищным шрифтам там похоже он и есть, а значит ты таки ошибся в выборе и поставил под новидео.
Аноним 24/10/24 Чтв 13:34:13 #150 №929549 
Screenshot 2024-10-24 133320.jpg
>>929539
воооооо бля попёрла нахуй, оказывается надо было протыкивать ещё галки как тут написано

https://github.com/oobabooga/text-generation-webui/issues/5313#issuecomment-1901545762
Аноним 24/10/24 Чтв 13:37:00 #151 №929555 
Screenshot 2024-10-24 133523.jpg
>>929549
ну сук драная так и падает бля
Аноним 24/10/24 Чтв 13:39:53 #152 №929557 
Screenshot 2024-10-24 133705.jpg
>>929547
> а значит ты таки ошибся в выборе и поставил под новидео.

нихуа у меня ещё остался оутпут там видн штош я выбирал варик с амуде, да таки линух

потому что ето уёбщие не работает с амудой походу хотя таже олама+опенвебуй работает збс (дая знайю что она "ограниченая" still)
Аноним 24/10/24 Чтв 13:45:34 #153 №929564 
>>929519

Ну хуй знает, какой-нибудь qwen2.5 3b instruct abliterated точно влезет на 8 бит.
Qwen2.5-7B-Instruct abliterated в 4 бит влезет, но с трудом.
Аноним 24/10/24 Чтв 13:52:02 #154 №929570 
Screenshot 2024-10-24 135011.jpg
>>929557
блеат ебучая амуда нах
Аноним 24/10/24 Чтв 13:53:40 #155 №929573 
Всем спасибо за ваши ответы, я опять выхожу на связь.
Поверхностно разобрался с мульти-гпу.
>https://huggingface.co/docs/transformers/en/perf_train_gpu_many#data-parallelism

Сейчас у меня осталось 3 основных вопроса:
1) Какая-то каша с цифрами по трейнингу vram/объемом модели/квантованием итт и внешим миром.
Нашел таблицу
>https://github.com/hiyouga/LLaMA-Factory#hardware-requirement
После шапки я ориентируюсь на LoRA/GaLore/BAdam (16). В таблице указано
> 110b/240GB
Пока у меня цель это 70-110b 8/16.
И тут же в треде пишут
>>928252
>Для трейна 70b нужен терабайт vram
Очевидно что не планируется брать полную модель в любом случае, иначе здесь пососем даже мы.
>>928196
>На файнтьюн 8В моделей 4хА100 наверное должно хватить.
По идее вообще мимо, там и одной на full хватит.
Алсо, пока не могу найти каких-то расчетов RAM consumption.
2) Какие твики по бюджету/железу можно сделать для дева и прода? На деве будет обучение, на проде инференция.
Пока из данных выше я бы добавил бы больше vram для дева, к примеру теми же А100, а на прод H100 в меньшем количестве для большей скорости ответа, так как обучение потребляет больше памяти чем инференция. Хотя если брать сравнение LoRA для 70b - разница получается 160GB для обучения и 140GB для инференции, что с виду не так уж и много.
С другой стороны как я вижу сейчас - обучение модели это будет сорт оф брутфорсинг списка самих моделей + параметров/ползунков для обучения и в каком-то смысле было бы логичнее по производительности сделать упор на дев для меньшего времени обучения.
3) Что там с переводом?
В шапке вижу что в основном модели английские. Насколько сильно хуево по вашему будет поставить какую-то API прослойку-переводчик между инпутом и аутпутом?

>>929111
>зен/зеон
Я читал что вместо инцелов лучше брать амуд.
>https://www.emilwallner.com/p/ml-rig
>https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/#Do_I_need_an_Intel_CPU_to_power_a_multi-GPU_setup
И еще где-то читал что рам нужно брать ~1.5x от vram.
Алсо, 2тб рам звучит как оверкил, имхо, хотя я вещаю с дивана.
Аноним 24/10/24 Чтв 13:58:46 #156 №929576 
fullgpus.jpg
PCIesizesFig1.jpg
>>929209
С одной стороны, такси это удобно. Но не потому, что по сути удобно, а потому, что в городе машину держать - пиздец. Ебля с парковкой, ебля с отсутствием гаража, пробки ебаные. В частном доме, например, машину иметь вообще заебись. Надо - куда-то съездил. Не надо - вызвал такси и тебе похуй вообще.
То же и с железом, ты можешь просто выключить его и зайти в какую-нибудь жопоту.
На счёт расходов тоже сомнительно, т.к такси нужно тратиться ровно на те же самое плюс з.п таксисту, диспетчеру и т.д. И они ещё в плюсе остаются.

>>929318
Буквально в прошлом треде анон с такими картами писал, что на малом количестве линий начинается пиздец. И что-то я ему верю, лол.

>>929547
>Ну, с шиной 1.1 х1 там действительно может быть пиздец.
Посмотри на тот пик с соплями ещё раз. Сколько контактов у сплиттера, чем подключены райзеры. Это позволяет понять, сколько линий. А на счёт gen, так у 104-100 gen 1.1.
На жоре вообще залупа какая-то с разделением, перформанс падает прямо очень сильно.
>Плохая идея
Претрейн на бомжесборке идея не лучше.
> без оптимизатора?
Ага. Ебануть усредненный стохастический градиентный спуск и похуй свет.
> не ради рофла
Да нет, ради рофла, два цпу, 4 v100. Всё ради смешных картиночек в интернете, лол. На самом деле у человека какие-то всратые блоки питания, которые вроде бы подходят по ваттам, но не вывозят амперы и скачки нагрузки. Так-то ему бы двух блоков вполне хватило. Но не хватило и рукава начали плавиться.

>>929573
>Очевидно что не планируется брать полную модель
Удачи с трейном квантов. Вообще рофельно будет, если ты там соберёшь свою сборку, а осознание придёт только потом.
Аноним 24/10/24 Чтв 14:00:15 #157 №929577 
>>929564
> Ну хуй знает, какой-нибудь qwen2.5 3b instruct abliterated точно влезет на 8 бит.
Хз, можно попробовать.
> Qwen2.5-7B-Instruct abliterated в 4 бит влезет, но с трудом.
Стефено 3.2 Q4_K_M вошла фулл в врам и было ~44-42т/с

Мне не хочется сидеть на 12б при 7 т/с при 4 кванте, я хочу повышенный квант на 7б
> Qwen2.5-7B-Instruct
Она вообще хорошая? , квен часто хвалят, и на ней магнум построен. Который я обычно и юзаю
Аноним 24/10/24 Чтв 14:05:32 #158 №929585 
>>929577
Новая квен не для кума, хотя с чатмл-нейм промпт шаблоном можно и на ней кумить
7b норм так, кодер так заебись вобще в своей роли
Может срать иероглифами, но дай команду в конце - отвечай только на английском и русском, например
Вобще малый квант большой модели почти всегда лучше чем высокий квант малой модели.
Поэтому крутить 12b в 4 кванте лучше, чем 7b в 6-8 кванте
Аноним 24/10/24 Чтв 14:07:41 #159 №929586 
>>929585
У меня скорость при 7б 6 квант, будет больше чем при 12б 4 квант, при одинаковом весе моделей в гб
Аноним 24/10/24 Чтв 14:10:33 #160 №929589 
>>929586
У 12 слоев больше, и количество знаний от размера модели так же зависит. Тоесть она тупо больше знает и умнее, так как может в более сложные абстракции, в понимание каких то вещей. Чем 7b.
Аноним 24/10/24 Чтв 14:13:03 #161 №929592 
>>929589
Хорошо уговорил, какую Q4_K_M 12 б взять? Пробовал всё магнумы, мистраль, люмимейд. Квен бы хотелось попробовать, есть ли 12б?
Аноним 24/10/24 Чтв 14:14:13 #162 №929593 
>>929573
https://www.reddit.com/r/LocalLLaMA/comments/1gajy1j/aider_optimizing_performance_at_24gb_vram_with/
Как то хитро обучают, может тебе зайдет инфа
Аноним 24/10/24 Чтв 14:16:33 #163 №929596 
>>929592
Алсо, можно что-то аля 9-12б. Слышал вышла ллама 3.2 и есть там на 11б модель, как она вообще??
Аноним 24/10/24 Чтв 14:16:36 #164 №929597 
>>929557
> ещё остался оутпут там видн
Ага, точно также как и консоль в которой после загрузке не выбрана модель. Забей, уже ошибся купив красную видюху. И вообще все это выглядит больше как странная клоунада в оправдание.
>>929573
Бле, ты получается совсем хлебушек? Это печально, оварида.

По тренировке если шаришь то жор там (веса модели в 16битах) х 3.5, собственно сами веса а остальное на оптимайзер, градиенты и прочее. С незначительными компромиссами можно ужать до х2.5, но все это потребует как минимум замены оптимайзеров с дефолтных и применения методик оптимизации, что влечет за собой или массовые правки стандартной либы, или лайтовое написание своего тренера. Что-то может уже имлементировано в этой ллама-фактори, но чето раньше она была полной ерундой с точки зрения функционала, только что гуй есть.
Если же хочешь просто ничего не делая тренить - все как в той таблице.
> не планируется брать полную модель
Для тренировки нужна модель хотябы в 16битах.
> там и одной на full хватит
8б в 80гб влезает без проблем даже без дипспида, и на батч и на аккумуляцию остается.
> LoRA
Полноценный файнтюн на дохуя лучше чем лора, даже не надейся сделать что-то серьезное и пиздатое лорой, будет одна залупа.
> Я читал что вместо инцелов лучше брать амуд.
Хуйта бородатых годов, брать нужно последнее/предпоследнее поколение и то что в моменте выходит выгоднее по цене.
> рам нужно брать ~1.5x от vram.
Хотябы х2. 512 это вообще смех, минимум террабайт под стак из 4х видюх. И то, даже этого будет мало если захочешь выгрузить зеро2 дипспидом, он оче много кушает. Рам дешманская, хуй знает зачем здесь экономить.
>>929576
> Посмотри на тот пик с соплями ещё раз
Бле на какой тот? Там ветка огроменная, ебал ее читать. х[email protected] это точно плохо ибо совсем тухлятина. Но здесь поехи оче любят превозносить важность шины, которой на самом деле нет.
Режимы жоры может как-то роляют, но когда их проверял - оно давало больше просадок на крупном контексте при небольшом выигрыше на малом и не нагружало толком шины (если судить по мониторингу).
> 104-100
Нахуй вообще они нужны? Там же врам кот наплакал, чип древний, только 8б на паре таких и катать.
> Претрейн на бомжесборке идея не лучше.
Абсолютно
> Ебануть усредненный стохастический градиентный спуск и похуй свет.
Содомит
> оторые вроде бы подходят по ваттам, но не вывозят амперы и скачки нагрузки
Так параллелить разные бп - полная херня ибо у каждого свое напряжение и характеристика ос из-за разброса номиналов, нагрузка будет ложиться неравномерно. А если там йоба синхронный выпрямитель то они вообще могут полыхнуть от такого соденинения.
Аноним 24/10/24 Чтв 14:21:23 #165 №929602 
>>929592
https://huggingface.co/Sao10K?sort_models=created#models
Поройся там у него, неплохие сетки делает
Там есть разные размеры
Аноним 24/10/24 Чтв 14:21:36 #166 №929603 
>>929597
>Забей, уже ошибся купив красную видюху.

ошибся на 87кило рублей...штош

неяне отступлюсь, там над прост подшаманить получе яж ставил стабле дифюжон там как то кароч ету куду сраную надо перезаписать питорчем рокм хуё-моё и оно начинает работать
Аноним 24/10/24 Чтв 14:27:48 #167 №929605 
>>929603
Скупой платит дважды, хуанговладельцы даже на некропаскалях могут вполне себе инджоить то что он вывозит, в то время как стадальцы даже на 7к серии амуды грустят и ноют что постоянно что-то не так.
> неяне отступлюсь
Правильно, на самом деле шансы завести далеко ненулевые. Если видюха из последних и врам много - пробуй сразу экслламу, она на торче под rocm работала и по отзывам шустро.
> куду сраную надо перезаписать питорчем рокм
Странно что он вообще там образовался, торч ставится в самом начале в том месте где выбираешь видеокарту. Может, конечно, уба опять где-то обосрался и из-за последующих реквайрментсов оно перезаписывает торчем под куду, но такое маловероятно и быстро бы пофиксили.
Помимо торча придется еще заменить llama-cpp-python на билд под hipblas.
Аноним 24/10/24 Чтв 14:30:24 #168 №929606 
>>929605
Да ему проще сразу накатить голую llama.cpp и собрать ее на линухе под свое железо
Или качнуть там готовый релиз
Чем ебаться с угабугой ради бекенда
Я тут когда то писал гайд по llama.cpp но он затерялся в веках, пусть ищет на их странице в гитхабе, там все есть
Аноним 24/10/24 Чтв 14:31:43 #169 №929608 
>>929576
>>929597
Я же написал что я просто админ.
>Полноценный файнтюн на дохуя лучше чем лора, даже не надейся сделать что-то серьезное и пиздатое лорой, будет одна залупа.
>Удачи с трейном квантов. Вообще рофельно будет, если ты там соберёшь свою сборку, а осознание придёт только потом.
Окей, тогда у меня еще два вопроса:
1) Если LoRA залупа, почему тогда существует QLoRA которая по идее еще должна быть еще в два раза больше залупа. Есть какие-то линки на сравнение/графики по тестам качество ответов модели?
2) Что такое freeze? В таблице ллами указано жрет меньше ресурсов и в шапке форча написано что в лоре основная модель остается "замороженной", можете по хардкору объяснить как это работает, какие подводные и почему мне по прежнему нужно юзать 16бит модель?
Аноним 24/10/24 Чтв 14:32:50 #170 №929610 
>>929605
>>929606
индиресно, спасибо зана водки
Аноним 24/10/24 Чтв 14:36:14 #171 №929616 
>>929576
>На счёт расходов тоже сомнительно, т.к такси нужно тратиться ровно на те же самое плюс з.п таксисту, диспетчеру и т.д. И они ещё в плюсе остаются.
Тут не совсем. Ты же не юзаешь такси 24/7, а таксист все эти расходы раскидывает на всех клиентов за смену.
Как-то в /b считали расходы на поездки в такси 2 раза в день 5 дней в неделю в течении 5 лет и покупку с владением машины на тот же срок. И такси выходило дешевле.
Но тут опять же всё искажает то что и машины бывают разные по стоимости и тебе внезапно может понадобиться скататься не только на работу в черте города. Что на мой взгляд покупку машины уже оправдывает.
Аноним 24/10/24 Чтв 14:58:19 #172 №929624 
>>929597
>имлементировано в этой ллама-фактори, но чето раньше она была полной ерундой с точки зрения функционала
У хуёги фишка такая, что гуй отдельно, а функционал отдельно. Даже мультигпу трейн через гуй не работает.
>Бле на какой тот?
>>927538
Вот на эти сопли, которые в качестве рофла советовались под 104-100.
>нагрузка будет ложиться неравномерно.
Да вся опасность-то только в перетекании потанцевалов, но у него после каждого блока плата стоит, которая должна гасить понижение напряжения. А так, про два БП итт тоже много чего слышал, но всё это, как водится, хуйня. Самоё дикое что на тех пиках, так это плюсы-минусы без изоляции с дистанцией в миллиметры друг от друга.

>>929608
QLora это ебучие шакалы. Там идёт сжатие до 4х бит, то есть в 8 раз от исходного. Сожми жипег в 8 раз. Да, есть QLora и с тремя битами, но вроде самая распространённая 4.
>2) Что такое freeze?
Это значит, что у тебя есть вся модель, а лора тренирует полпроцента от всех параметров. Остальные при этом остаются "замороженными", т.е неизменными. И всё, что ты захочешь впихнуть в модель - будет впихиваться в эти параметры. Их количество настраивается достаточно широко, но тем не менее. И теперь представь себе, берёшь ты модель хоть 110b, как выше писал. Сжимаешь это говно в 8 раз и тренируешь 1% параметров. Что у тебя получится на выходе? Правильно, говно. Но даже если ты ебанёшь бюджет небольшого города в сервера, то всё равно получится говно, потому что вам нужны датасеты.

>>929616
>расходы на поездки в такси 2 раза в день 5 дней в неделю
Это зависит от цены поездки, от цены машины, я тоже могу насчитать, что ездить на таксисткой приоре дешевле, чем купить себе порша. И буду прав, лол.
Аноним 24/10/24 Чтв 15:04:09 #173 №929631 
>>929608
> 1) Если LoRA залупа, почему тогда существует QLoRA
На примере автомобилей: На чем-то ниже свежего suv c-класса ездить - некомфортно. Но при этом существует широкий ассортимент и более простых бричек.
Лора просто требует меньше рам за счет количества оптимизируемых параметров (чсх тренится нихуя не быстрее чем полный тюн), q-lora еще меньше из-за квантованного представления весов. Для некоторых вещей они вполне достаточны, стилизовать модельку, "запретить ей" аподождайзить или накинуть рп-слопа вполне можно. Правда будет это вместе с вагоном побочек, байасов и слабого/сильного отупения. В q-лоре из-за большой дискретности весов и потерь точности еще градиенты пойдут по пизде что дополнительно скажется на качестве обучения.
> написано что в лоре основная модель остается "замороженной"
Просто прочитай что такое лора, к весам основной модели плюсуется произведение двух прямоугольных матриц меньшего размера, которое на выходе дает большой размер. Если не знаешь линала - принимай на веру.
> можете по хардкору объяснить как это работает
Ну ты доставь что-нибудь или как-то смотивируй если хочешь чтобы тебе прям распинались.
>>929616
Все просто - на такси хорошо ездить с возлияний, когда тебе куда-то надо и лень толкаться в от или пункт назначения далеко от удобных остановок. На личном транспорте ты сел и поехал когда угодно, когда угодно, как угодно, загрузив что угодно, без раздумий сколько это будет стоить, что там с коэффициентами, как потом будешь добираться обратно, как вообще найти кого-то кто согласится поехать куда тебе нужно, там подождать и забрать. Если ты офисный нормис без увлечений, живущий в типичном человечнике - оно тебе и не нужно.
> не только на работу в черте города
Ага, именно this

В случае видюх мейнстрим аренда слишком уж дорогая, полная цена карточка окупается примерно через пол года-год, потому иметь свою выгоднее. Если найти цену в несколько раз дешевле и арендовать под конкретную задачу - аренда выгоднее, тем более что можешь взять сразу много и сделать быстро, а не пердеть на одной нервничая чтобы постоянно поддерживать ее нагруженной.

Идеальный вариант - иметь что-то попроще в постоянной доступности а арендовать по необходимости что-то мощное. Тогда это уже аналог грузового такси, все сразу согласовано и гармонично.
>>929624
> Даже мультигпу трейн через гуй не работает.
Пиздец и зачем вообще тогда оно нужно?
> Вот на эти сопли, которые в качестве рофла советовались под 104-100.
Под стать видюхе лол. Ну это только для майнинга годится.
Если бп изначально под парное использование рассчитаны то может и ничего.
> плюсы-минусы без изоляции с дистанцией в миллиметры друг от друга.
Когда (не если а именно когда) их зацепят - будет знатный фейерверк с небольшой вероятностью повреждения и основного железа.
Аноним 24/10/24 Чтв 15:16:49 #174 №929640 
>>929602
Выбор пал на https://huggingface.co/Sao10K/MN-12B-Lyra-v4 и https://huggingface.co/Sao10K/Fimbulvetr-11B-v2.1-16K
Вторая предпочтительнее, так как у неё 11б, что дает при том же кванте, меньший вес.
Однако в чем проблематика - какая лучше будет на русском писать? Первая на Немо основана, вторая не ебу на чем..)
Аноним 24/10/24 Чтв 15:22:37 #175 №929642 
>>929640

Вторая на соляре работает.
Аноним 24/10/24 Чтв 15:26:17 #176 №929644 
>>929642
Про соляр не шарю, русский в ней есть? Ну и какая лучше, конечно же)
Аноним 24/10/24 Чтв 15:30:16 #177 №929648 
>>929644
лучше та что новее, а новее немо
Аноним 24/10/24 Чтв 15:31:28 #178 №929650 
>>929644

Понятия не имею какая из этих двух лучше в русике, я бы поставил на гемму 9В или Аю 8В, лол.
Аноним 24/10/24 Чтв 15:32:08 #179 №929653 
>>929648
Понятненько, хорошо, но немо'м я уже напился, в соляре/второй модели есть русский - если есть, возьму её.
Аноним 24/10/24 Чтв 15:34:27 #180 №929657 
>>929650
Аяю 8б, попробую.
Гемму 9б, магнум пробывал, так она работает у меня медленнее чем 12б, всё из-за ебанутого KV кеша, он там при 8192 контексте ~2к мб, при 4096 ~1к мб
Аноним 24/10/24 Чтв 15:39:01 #181 №929661 
>>929631
>зачем вообще тогда оно нужно?
Потому что это комбайн, в котором есть чуть ли не всё сразу. Те же продвинутые оптимизаторы, верёвка, QLora до двух бит, ft, ft с заморозкой слоёв, PPO, DPO, Dora, Galore, да я заебусь перечислять. А гуй это так. Демо версия. Я делал через гуй команду для трейна, потом пихал в батник, немного изменял и запускал трейн - удобно.
>Если бп изначально под парное использование рассчитаны то может и ничего.
Не ты мне год назад писал, что два блока полыхнут? Уже год сижу с двумя, нихуя не горит.
>знатный фейерверк
Вот это и дико. Почему было не сделать колодки, я не понимаю. У меня бы очко играло, что сгорит вообще всё железо, как только контакты коснутся.
Аноним 24/10/24 Чтв 15:52:14 #182 №929671 
Screenshot 2024-10-24 154820.jpg
кароч до меня дошло вот есть ети бэкенды там может быть всё что угодно хош коболт хош убагуга хош олама etc., а потом поверх натягивается например сили товерна теперь осталось прикрутить ети кастомные модели к оламе и можно с етим ёрзать буит
Аноним 24/10/24 Чтв 16:03:01 #183 №929679 
1708754978723.jpg
Зогача вам в ленту. Чистый датасет, без срущих нейронок остался только у библиотек и waybackmachine. Один из владельцев такой библиотеки недавно выпилился, а машину положили.
Аноним 24/10/24 Чтв 16:05:40 #184 №929681 
>>929644
Ты на английском читать умеешь? Или вообще никак? Ей можно писать на русском, а читать грамотные ответы на английском, это лучше чем видеть ебать её рука он кастрированных моделей.
Аноним 24/10/24 Чтв 16:15:34 #185 №929688 
>>929661
Все что есть в трансформерсе + набор скриптов - примеров? Ну хуй знает, там всеравно переписывать чтобы формат правильно делать и нужный рандомайзер реализовывать. Гуй - ну гуй, кто-то без него не может.
> Не ты мне год назад писал, что два блока полыхнут?
Если подключать их на разную нагрузку то похуй. Однако, если их земли не связаны железобетонно то высокий шанс спалить железки уравнивающими токами когда начнешь в них ковыряться и переставлять.
> что сгорит вообще всё железо
То что сгорит что-то кроме бп (да и те стерпят) маловероятно но возможно.
Аноним 24/10/24 Чтв 16:19:35 #186 №929693 
>>929679
Смотреть на даты публикации и использовать цифровые версии литературы теперь слишком сложно для датасетмейкеров?
Аноним 24/10/24 Чтв 16:23:53 #187 №929701 
>>929640
Щас сижу на Лире, вроде моделька недурная, отвечает лучше чем дефолтная Немо, но я до сих пор экспериментирую с настройками и по этому точно за шизу сказать не могу.

Fimbulvetr - это дремучая и тяжелая модель, так что про нее лучше забудь. Да, она неплохо креативит в рп, но по мозгам тупее чем та же третья лама, которая весит меньше почти в полтора раза.
Аноним 24/10/24 Чтв 16:25:23 #188 №929703 
>>929701
Дополню про русский - лучше отвечать будет Лира, тут без вопросов. Хотя даже так русский лучше не юзать вообще, либо юзать исключительно на импут.
Аноним 24/10/24 Чтв 16:45:47 #189 №929719 
Как известно, P40 можно запитать воткнув в неё только один восьмипиновый коннектор, а не два.
Пацаны, не вешайте на один кабель от БП две P40.
Кабель сильно греется. Это может быть опасно.
Аноним 24/10/24 Чтв 16:48:45 #190 №929725 
>>929719
>Как известно, P40 можно запитать воткнув в неё только один восьмипиновый коннектор, а не два.
Кстати мне было неизвестно. А ведь и правда, для инференса хватит и одного, если оно в принципе так работает.
Аноним 24/10/24 Чтв 16:58:18 #191 №929734 
>>929719
>один восьмипиновый коннектор
Там 6 проводов, поэтому и посасывает. 150 ватт ограничение, при 200 требования.
Аноним 24/10/24 Чтв 17:12:08 #192 №929744 
1669297916247.jpg
Делюсь таблеткой от повторов для нищуков (спиздил с реддита) — просто выгружаете свою модель и подключаете любую другую с другим датасетом, чуть-чуть пиздите с ней и можно идти обратно.
Аноним 24/10/24 Чтв 17:15:13 #193 №929750 
Объясните долбаебу, почему Немо постоянно пересчитывает контекст примерно после 3к токенов? Общий контекст составляет 8к, в терминале кобольда контекст указан 8к, в силли указан 8к. Модель вместе с контекстом полностью выгружена в видеопамять. Для сравнения запустил старую ламу-3 которая давно у меня лежала - таких проблем даже близко нету. Так что тут что-то нечистое происходит.
Аноним 24/10/24 Чтв 17:19:36 #194 №929757 
Языковые мдели ведь основаны на нейросетях? Если да, то какую структуру НС лучше использовать для обучения своей модели?

Как именно слова переводятся в токены и как токены подаются на входы НС?

На выходе у меня токены наилучших слов после некоторого слова или сразу целые предложения должны быть?

Пока только с распознованием изображений работал, создал пару ботов, но языковые модели выглядят очень перспективно коммерчески. Как будто они могут смотреть всяких дегенератов по типу научпоперов за меня, генерировать мне сценарий на основе их контента, а я просто буду за 30 минут видео делать, монетизируясь. Хочу оригинальную модель создать под свою задачу.
Аноним 24/10/24 Чтв 17:19:54 #195 №929759 
>>929750
Может забыл включить ContextShift/FlashAttention?
Аноним 24/10/24 Чтв 17:21:12 #196 №929761 
>>929757
>Языковые мдели ведь основаны на нейросетях? Если да, то какую структуру НС лучше использовать для обучения своей модели?
>
>Как именно слова переводятся в токены и как токены подаются на входы НС?
>
>На выходе у меня токены наилучших слов после некоторого слова или сразу целые предложения должны быть?
>
Ну и офк, хотелось бы полноценный гайд хороший, первая ссылка в гугле, как и всегда, даёт общую информацию, неприменимую на практике, а по крупицам собирать не очень удобно.
Аноним 24/10/24 Чтв 17:24:06 #197 №929764 
>>929750
Потому что Жора.
Аноним 24/10/24 Чтв 17:24:54 #198 №929766 
image
Так, вроде запустил таверну и разобрался как вкорячить лорбук.
А как убедиться что он работает?
Аноним 24/10/24 Чтв 17:25:21 #199 №929767 
>>929759
Контекстшифт включен, флеш отключен. На ламе три было точно так же, но она никогда ничего не пересчитывала. А с Немо стабильно после 3-4к токенов начинает процессинг блас, который занимает пару секунд после каждого нового сообщения.
Аноним 24/10/24 Чтв 17:28:15 #200 №929774 
>>929767
>отключен
включи
Аноним 24/10/24 Чтв 17:30:05 #201 №929777 
бля чёт мне осенило а нах нужна ваще ето нееротоверна когда есть двач =)
Аноним 24/10/24 Чтв 17:31:28 #202 №929780 
>>929777
Сосать будешь?
Аноним 24/10/24 Чтв 17:31:30 #203 №929781 
>>929774
Ладно, попробую с ним.
Аноним 24/10/24 Чтв 17:31:37 #204 №929783 
1639747586668.png
>>929766
> А как убедиться что он работает?
Если работает - появится почти в самом конце.
Аноним 24/10/24 Чтв 17:32:53 #205 №929785 
>>929750
Если пересчитывает то значит у тебя что-то в нем меняется.
> в терминале кобольда контекст указан 8к, в силли указан 8к.
Развет ответа случаем не 4к?
> Модель вместе с контекстом полностью выгружена в видеопамять.
Тогда в чем проблема, оно же мгновенно будет.
>>929767
> Контекстшифт включен, флеш отключен.
Как называется эта болезнь? Делай наоборот. Алсо чекни нет ла какого-нибудь smartcontext или типа того.
Аноним 24/10/24 Чтв 17:37:17 #206 №929792 
>>929750
>почему Немо постоянно пересчитывает контекст примерно после 3к токенов?
И не весь контекст, а только тот, что идёт после memory :) Если твой случай, то могу предположить, что контекст сверху обрезается некорректно, получается косяк по токенам и программа считает, что контекст битый. С Лламой 3 и её файнтюнами такого нет.
Аноним 24/10/24 Чтв 17:37:28 #207 №929793 
>>929780
ебать у тебя roleplay какойто straightforward
Аноним 24/10/24 Чтв 17:39:24 #208 №929795 
>>929785
>Если пересчитывает то значит у тебя что-то в нем меняется.
Вот именно, что непонятно, че там может меняться.
>Развет ответа случаем не 4к?
Везде 8к стоит.
>Тогда в чем проблема, оно же мгновенно будет.
Мгновенно. Но есть разница когда у тебя весь ответ грузится за 2-4 секунды, но из-за пересчета начинает грузиться по 6-8. Это не критично, но немного бесит.
>Как называется эта болезнь?
"меня раньше это не ебало, по этому я этим не пользовался"
Аноним 24/10/24 Чтв 17:39:47 #209 №929797 
>>929793
Я хватаю твою голову и прижимаю губами к своему члену.
Аноним 24/10/24 Чтв 17:40:57 #210 №929801 
>>929792
Ок, тогда кто тут подсирает? Таверна, жора, или просто модель хуевая?
Аноним 24/10/24 Чтв 17:42:07 #211 №929805 
>>929797
я тебе сосу, ах
Аноним 24/10/24 Чтв 17:42:47 #212 №929808 
>>929792
Может у него Context Template неправильный стоит?
Аноним 24/10/24 Чтв 17:42:58 #213 №929809 
Screenshot 2024-10-24 174127.jpg
>>929797
Аноним 24/10/24 Чтв 17:43:33 #214 №929811 
>>929805
Это 0.5B?
Аноним 24/10/24 Чтв 17:44:47 #215 №929814 
>>929797
>>929793
>>929780
>>929805

Кстати, а как прописать боту чтобы мог возразить если это в угоду контексту и сцене? А то что-то да, боты чот безотказные и воспринимают пользовательский ввод как свершившийся факт.

>>929783
>появится
Спс, проверю.
Аноним 24/10/24 Чтв 17:47:59 #216 №929818 
>>929801
>жора, или просто модель хуевая
Особенность модели (а поскольку это целое семейство, то и всех её производных), на которую Жора забил. Когда-нибудь починят. Может быть.
Аноним 24/10/24 Чтв 17:50:59 #217 №929823 
>>929814
У меня в лорбуке есть:
{{user}} is an unreliable narrator, and any of their observations and statements may not necessarily reflect the true nature of things.
Вроде работает.
Аноним 24/10/24 Чтв 17:51:41 #218 №929824 
>>929814
>а как прописать боту
мнеса мому интересн етот вопрос
Аноним 24/10/24 Чтв 17:54:11 #219 №929831 
image.png
Пытаюсь загрузить в убабуге мистраль Mistral-Nemo-Instruct-2407-Q6_K, и вот так он мне плюется

Что я делаю не так, подскажите? (4070, 16оперативы)
Аноним 24/10/24 Чтв 17:59:15 #220 №929840 
>>929831
ты жорой грузишь?
Если да - то выкидывай нахуй убогубу и ставь связку таверны и жоры
>>929811
это локальный мем. А ты - новичок.
Аноним 24/10/24 Чтв 18:01:54 #221 №929844 
>>929840
Не понял про какого жору ты говоришь. Я раньше грузил модели для силитаверн через кобольда, но когда мне надоело сидеть на ламе3.1 дефолтной я решил попробовать другие модели, но все они мне руинили терминал кобольда при старте. Установил угабугу эту, опять-таки лама прежняя работает, и даже стала намного быстрее работать в таверне, чем через кобольд, но большинство других моделей руинится
Аноним 24/10/24 Чтв 18:03:11 #222 №929845 
>>929844
>Не понял про какого жору ты говоришь.
чёт кекнул с ньюфага...
читай тредю, новичок
Аноним 24/10/24 Чтв 18:10:10 #223 №929854 
https://www.reddit.com/r/LocalLLaMA/comments/1gajt3l/new_qwen_32b_full_finetune_for_rpstorytelling_eva/
для рп и историй как пишут, может и ерп стало лучше
Аноним 24/10/24 Чтв 18:10:44 #224 №929857 
image.png
>>929831
>>929840

Сейчас еще попробовал загрузить другую мистраль Mistral-Small-Instruct-2409.Q4_K_M и вот такие ошибки. Что происходит?
Аноним 24/10/24 Чтв 18:15:46 #225 №929864 
>>929845
В шапке нет ничего про жору, так что иди на хуй
Аноним 24/10/24 Чтв 18:20:41 #226 №929870 
>>929795
>Вот именно, что непонятно, че там может меняться.
Бери и сравнивай контекст из принта кобольда в сосноль до пересчета и после, хуле.
С 99% вероятностью это таверна, сам недавно такое заметил, хотя вроде бы всё что может менять выключено, но впадлу разбираться.
Аноним 24/10/24 Чтв 18:29:59 #227 №929878 
>>929750

Почитай как контекстшифт работает, охуеешь
Аноним 24/10/24 Чтв 18:30:12 #228 №929879 
Аноны, может кто попадется с теми же вкусами, но какая из моделей хорошо работает с футанарями? А не игнорит 3/4 времени их особенности, а когда вспоминает, делает это крайне криво и только с пинка?
Аноним 24/10/24 Чтв 18:32:15 #229 №929880 
>>929879

Тут все по девочкам, педик. Попробуй в чаетреде спросить.
Аноним 24/10/24 Чтв 18:37:24 #230 №929884 
>>929864
Раньше было, теперь это в вики
В шапке есть ссылка на вики, почитай
Аноним 24/10/24 Чтв 18:46:15 #231 №929903 
>>929880
>Тут все по девочкам
Товарищ_майор_возбуждается.jpg
Аноним 24/10/24 Чтв 19:12:41 #232 №929971 
>>929844

Настройки-настроечки. У ламы специфические настройки, они толкьо с самой ламой и работают.
Аноним 24/10/24 Чтв 19:20:52 #233 №929989 
Изображение WhatsApp 2024-10-24 в 18.14.5798bcb0ce.jpg
Есть промпты для локалок для такого?
Аноним 24/10/24 Чтв 19:26:37 #234 №930007 
Что по CPU в этом поколении, сука? Свежий инцел 285К какой-то кал, литералли 14900К по повышенной цене, ещё и куча проблем с новой архитектурой, в гейминге сосёт у амуды дожили, блять. С другой стороны амуда с пососной памятью, парковкой ядер и порезанными линиями псины. Что брать в сборочку под нейросети, но и чтоб в ААА уметь? Я бы даже серверный проц/мать взял за много дерева, но ведь там гейминг будет чуть ли не у i3 отсасывать. С другой стороны я игры только покупаю и дропаю через 3 часа.
Аноним 24/10/24 Чтв 19:40:29 #235 №930033 
>>929870
Ровно всё один в один. Щас запущу морду кобольда, посмотрю будет через нее то же самое или нет.
Аноним 24/10/24 Чтв 19:41:35 #236 №930036 
>>929878
Контекстшифт работает, ебанат. У меня пересчет контекста происходит ДО того как контекст переполняется.
Аноним 24/10/24 Чтв 20:00:00 #237 №930081 
Какой процент постов итт от ллмок?
Аноним 24/10/24 Чтв 20:02:14 #238 №930084 
>>929989
Там, где ты это взял, можно посмотреть исходник, инструкт и модель.
Аноним 24/10/24 Чтв 20:08:55 #239 №930089 
>>929701
>>929703
Ага, понял - скачаю лиру, так как магнум подзаебал
Аноним 24/10/24 Чтв 20:10:49 #240 №930094 
>>929795
> Везде 8к стоит.
Чел, перечитай вопрос. Емнип, длину ответа больше 4к поставить нельзя и оно будет само до этого значения сбрасывать. Как раз твой случай, таверна держит запас контекста на максимальную длину ответа. Урежь до 400-500 если оно, если вдруг оборвало пост то там есть кнопка продолжить.
> "меня раньше это не ебало, по этому я этим не пользовался"
Флешатеншн мастхев вообще ибо сильно снижает жор памяти на контекст. Контекстшифт как раз направлен на то чтобы избежать частого пересчета контекста, однако по многим заявлениям и даже бенчмаркам на среддите он портит выдачу при своей работе. Поэтому лучше первое включать а второе не трогать даже длинной палкой.
6-8 секунд - ерунда на самом деле (если на свайпах мгновенно, если не мгновенно то что-то там совсем нахуй поломалось).
Эту проблему в любом случае нужно хотябы понять, потому что возможно у тебя там треш в промте творится и потому результаты будет хуже чем мог быть. Однако, если у тебя модель полностью в врам - почему не используешь экслламу вместо жоры?
>>929831
Для hf семплеров нужно скачать токенайзер оригинальной модели. Там даже справа есть раздел для его загрузки. Можешь грузить обычной llamacpp без hf, но тогда только стоковые жорины семплеры.
Аноним 24/10/24 Чтв 20:13:36 #241 №930099 
>>929757
>>929761
https://www.youtube.com/watch?v=wjZofJX0v4M
https://www.youtube.com/watch?v=eMlx5fFNoYc
https://www.youtube.com/watch?v=9-Jl0dxWQs8
Аноним 24/10/24 Чтв 20:30:27 #242 №930123 
>>930094
>Урежь до 400-500 если оно, если вдруг оборвало пост то там есть кнопка продолжить.
У меня стоит 250, так я вообще не любитель паст на 4 параграфа. И даже так моделька в среднем выдает около 180 токенов на респонсе.
>Контекстшифт как раз направлен на то чтобы избежать частого пересчета контекста, однако по многим заявлениям и даже бенчмаркам на среддите он портит выдачу при своей работе. Поэтому лучше первое включать а второе не трогать даже длинной палкой.
Ладно, этого не знал. Банально как раз потому, что раньше все работало без проблем.
>6-8 секунд - ерунда на самом деле (если на свайпах мгновенно, если не мгновенно то что-то там совсем нахуй поломалось)
Пересчет идет только после нового сообщения. Иными словами, свайпы грузятся с той же скоростью без пересчета, если предыдущее сообщение не редактировалось.
>Однако, если у тебя модель полностью в врам - почему не используешь экслламу вместо жоры?
Потому что я раб комфорта и не люблю менять софт к которому уже привык. А ставить убу я ебал из-за ее сложности, хотя никогда даже не пробовал. Тут чисто двигаюсь по отзывам.
Аноним 24/10/24 Чтв 20:34:16 #243 №930131 
>>930123
> раньше все работало без проблем
Если происходит пересчет то и проблем не будет, получается что он просто не подключается. Но раз у тебя все норм в длиной ответа то может жора как-то чудит и теряет кэш. На всякий случай посмотри в консоли промт таверны, нет ли в нем изменений каких, но раз говоришь что до достижения 4к все норм и на других моделях тоже то врядли.
> Потому что я раб комфорта
Комфорт это как раз не про жорича. А вместо убы есть https://github.com/theroyallab/tabbyAPI минималистично и эффективно. Алсо сложностей там меньше чем в том же кобольде.
Аноним 24/10/24 Чтв 20:35:55 #244 №930135 
image.png
Почему это говно не устанавливается? Уже третий час ебусь с этим вашим жорой, почему нельзя было нормальный установщик сделать
Аноним 24/10/24 Чтв 20:43:09 #245 №930147 
>>930131
>На всякий случай посмотри в консоли промт таверны, нет ли в нем изменений каких
Нет, всё вроде прилично. Теплайт стоит верный, токены странные в ответах не вылетают, так что дело точно не в нем. Может токенизатор как-то подсирает, хуй знает. Стоит автоматический выбор, может нужно поменять на API или вручную поставить мисральский?
>Комфорт это как раз не про жорича.
Да, но плюс кобольтовского жорича что он поставляется уже собранным и в экзешном виде. Это подкупает. Табби попробую, если уж совсем проблема никак не решится.
Аноним 24/10/24 Чтв 20:46:16 #246 №930151 
>>929688
>Все что есть в трансформерсе + набор скриптов
Вроде того. Но там примеров вроде мало.
>чтобы формат правильно делать
Там есть скрипт с темплейтами.
>если их земли не связаны железобетонно
Тут есть два "но", но в итоге всё это работает. Земля в любом случае общая, в каждой колодке же земля и всё идёт в одну кучу.
Аноним 24/10/24 Чтв 21:06:14 #247 №930177 
>>930135
Используй make
И нахера тебе собирать? Скачай релиз готовый и не еби мозги
Аноним 24/10/24 Чтв 21:19:25 #248 №930189 
Анон, у меня есть доступ к двум моделям, что лучше для рп, какая в целом лучше?
ChatWaifu_22B_v2.0_preview.i1-Q3_K_M

и

Qwen2.5-14B-Instruct-Q4_K_M

Подскажите, пожалуйста
Аноним 24/10/24 Чтв 21:21:55 #249 №930195 
>>930189
Квен не для рп, даже не пытайся. Так что некая так называемая ChatWaifu лучше, чисто потому что ты привел только две модели.
Аноним 24/10/24 Чтв 21:30:13 #250 №930209 
>>930177
> Скачай релиз готовый и не еби мозги

Я не нашел. Везде видео туториалы как собирать, вот и собираю, да чет не собирается.
Аноним 24/10/24 Чтв 21:35:07 #251 №930212 
>>930209
ну ты слепошарый
https://github.com/ggerganov/llama.cpp/releases
Аноним 24/10/24 Чтв 21:40:05 #252 №930223 
>>930209
уплывший гайд, который ленивые жопы никуда не добавили
>>917423 →
Аноним 24/10/24 Чтв 22:06:42 #253 №930266 
>>929880
ты за всех-то не говори
отыгрываю с нейронками только девочку уже почти год
>>930135
проиграл с виндузятника которому всё сложно.
Тебе небось экзешник нужен был, который покажет тебе одно окно с красной кнопкой "сделать заебись"?
Аноним 24/10/24 Чтв 22:07:13 #254 №930268 
>>930151
> Там есть скрипт с темплейтами.
Ну он базовый-примитивный что просто формирует. Так-то датасет изначально уже под формат может быть заготовлен, но под динамическое формирование и рандомизацию (а без них будет хуевее) придется самостоятельно писать.
> Земля в любом случае общая
Земли/нули/черные провода разных блоков по дефолту будут иметь потенциал относительно друг друга. Если их соединить где-то явно, например используя нормальные приблуды для объединения, то все будет ок, если же нет - уравнивающие токи пойдут через землю девайсов к которым подключено питание от разных. В это тоже какбы ничего страшного до момента пока ты в спешке не решишь вытащить видеокарту из материнки не отключив перед этим доп питание, что идет со второго блока. Здесь можно словить ситуацию когда земля и питание уже/еще не соединены, но сигнальные линии еще в контакте, и весь уравнивающий ток пойдет через них - оварида.
Подобное и в более бытовых ситуациях случается, когда братишки умудряются спалить видеокарту неудачным подключением монитора.
>>930212
Там многого просто нет а вместо нужных бинарников лишь загрушки. Работают по сути только основной и сервер.
>>930223
В этом гайде нихера толком нет, даже пример команды для типичного запуска поленился сделать.
Скачать готовые - можно напрямую одну ссылку оставить и все. А для сборки нужно пояснить, что потребуется еще куда тулкит, некоторые либы и прочее, да и сама сборка там несложная но и не тривиальная.
Аноним 24/10/24 Чтв 22:45:20 #255 №930333 
1602949487081.png
>>929150
Ультрабазу выдала.
Аноним 24/10/24 Чтв 22:51:42 #256 №930337 
>>929840
> ставь связку таверны и жоры
Кобольд быстрее и удобнее чем llama.cpp, додик.
Аноним 24/10/24 Чтв 22:55:39 #257 №930345 
>>930268
>динамическое формирование и рандомизацию
Обнимордовский трейнер шафлит данные по дефолту. И у хуёги, конечно же, используется обнимордовский трейнер. Кстати, а ведь это может быть причиной, почему васянотюны тупеют, лол. Заталкиваешь в нейронку ЕРП диалог, а все пары вопрос-ответ перетасованы. Сначала поебалися, потом поздоровались, потом трусы сняли. Сними трусы, сними их ещё раз, трусы сами себя не снимут.
>но сигнальные линии еще в контакте
Нужно оба тумблера тушить, потому что дежурка и пока не потушил - питание считается включенным; если пекарня полыхнула, пока ты в ней ковырялся с включенным питанием, то это твой личный проёб. А братишкам мог бы посоветовать заземлить своё дерьмо, только не на батарею, туда уже заземлился Петрович, который ворует электричество, потому током может даже через ванну ебануть. Хвала Одину, унитаз керамический.

>>930333
Cука, они воруют наши треды. Ладно, не наши, форчановские, но всё равно.
Аноним 24/10/24 Чтв 23:04:18 #258 №930357 
>>930345
> Обнимордовский трейнер шафлит данные по дефолту.
Он шафлит порядок наборов данных по дефолту, ты о чем вообще? Там нет отдельных "сообщений" в рп, там каждый диалог это единое целое.
Но вот для наилучших результатов лучше иметь несколько вариантов развития и на этапе даталоадера выбирать нужную длину диалога, отрезая лишнее, и оформлять в инстракт в котором оно и будет использоваться. Ладно, это наверно слишком сложно, забей.
> Нужно оба тумблера тушить
Это может не всегда помочь, особенно во всратых бп (а какие еще будут использоваться в паре?), ибо фильтры иногда распаивают до тумблера.
> братишкам мог бы посоветовать заземлить своё дерьмо
В каком-нибудь хруще в древней люминиевой проводкой, которая родилась раньше пуэ, лол.
С парой блоков появляются приколы, которых не бывает с одним, тут как ни крути.
Аноним 24/10/24 Чтв 23:29:32 #259 №930386 
>>929757
>>929761
>>930099
Я бы ещё добавил вот эти видео:

https://www.youtube.com/watch?v=kCc8FmEb1nY
https://www.youtube.com/watch?v=zduSFxRajkE
https://www.youtube.com/watch?v=l8pRSuU81PU

Они хоть и длинные, но стоят каждой секунды. Чел из OpenAI прям по шагам и с примерами кода объясняет, как строятся GPT-подобные модели.
Аноним 24/10/24 Чтв 23:30:10 #260 №930389 
изображение.png
>>930333
2B говно же, как же она может быть дорогой?
>>930345
>Заталкиваешь в нейронку ЕРП диалог, а все пары вопрос-ответ перетасованы
Эм, кажется, перемешивание должно быть уровнем выше. Хотя ХЗ конечно, лол.
>>930357
>В каком-нибудь хруще в древней люминиевой проводкой, которая родилась раньше пуэ, лол.
Литерали моя хата. Током пиздит от плиты и колонки.
Аноним 24/10/24 Чтв 23:34:05 #261 №930397 
1701939221288.jpg
>>930389
> 2B говно же, как же она может быть дорогой?
Да тут как бы... не о размере модели речь была.
Аноним 24/10/24 Чтв 23:34:36 #262 №930399 
>>930345
Я без иронии делаю легкий файнтюн многих моделей для всяких рабочих задач на материалах двача и анекдотах. Хуй знает почему, но после этого они начинают работать ЗАМЕТНО лучше.

Есть в психологии такой известный эффект, когда человек долго бьется над решением какой-то задачи, потом все бросает, уходит отдыхать и вдруг через пару часов или дней решение приходит ему как бы "само собой". Возможно, тут что-то подобное.
Аноним 24/10/24 Чтв 23:37:38 #263 №930403 
>>930386
К ним бы ещё какой-нибудь видос про интеграцию с знаниевыми графами докинуть и можно идти пилить своего убийцу ChatGPT.
Аноним 25/10/24 Птн 00:24:42 #264 №930454 
.png
>>927265 (OP)
Анончики, посоветуйте, какая модель хорошо умеет в программирование - HTML, JS, PHP?
Аноним 25/10/24 Птн 00:26:37 #265 №930457 
>>930454
>программирование - HTML, JS, PHP
На ноль поделил.
Аноним 25/10/24 Птн 00:46:17 #266 №930475 
>>930454
Mistral Large 2 123B, Qwen 2.5 72B, Llama 3 70B это из открытых.
Закрытые: Sonnet 3.5 и GPT-4o.
Сейчас начнут бросать в меня ссаные тряпки за 4o, но с первого релиза, её норм. прокачали
Аноним 25/10/24 Птн 01:30:35 #267 №930530 
1695886269429.png
Анон-разраб st-stepped-thinking, ты тут? Зачем ты пикрил блоки <> в промпт добавляешь? Они там как бы навсегда остаются.
Аноним 25/10/24 Птн 01:48:30 #268 №930537 
>>930007
>Что по CPU в этом поколении, сука?
>Что брать в сборочку под нейросети, но и чтоб в ААА уметь?
Хоть пентиум целероновый, какая разница? Нахуя тебе собирать целую станцию под локалки вокруг процессора? Берешь свой бюджет и распределяешь его по принципу 85% на видеокарту, остальное на остальное. Для игр достаточно огрызка на 8-12 потоков и 32 гига памяти. Для лмок можно взять еще 32 сверху если совсем сильно хочется, цена все равно копеечная.

мимо на i5-12400 и 3090, хрюкаю вполне довольно
Аноним 25/10/24 Птн 01:55:27 #269 №930539 
>>930537
да уш
Аноним 25/10/24 Птн 02:08:53 #270 №930546 
>>930007
Бери новый штеуд, который ты так захейтил на фоне методички хайпожоров. И к нему материнку с делением х8-х8 по двум слотам (есть, конечно, всякие годлайки с даблерами но там плата стоит как 1.5 3090), потом довольно урчи.
А так тебе верно анонче сказал, если ты не долбоеб что играет в 720п, то фпсы даже для игросрального монитора обеспечит даже средний профессор предыдущих поколений, все равно будет упор в гпу. Амудэ с учетом их клоунады даже длинной палкой ковырять бы не стал, но если нет аллергии на красных то их медленная память едва ли станет помехой для нейронок, так что с этой точки зрения вариант тоже вполне солидный.
> но ведь там гейминг будет чуть ли не у i3 отсасывать
Да не будет, в худшем случае как у среднего сегмента. Просто они столько стоят что ты их не купишь, выгоднее будет взять (еще одну) 5090.
Аноним 25/10/24 Птн 02:46:36 #271 №930569 
0xf09f988f.webp
huila.png
output.png
>>930357
Cмотрим def get_dataset у хуёги. Теперь смотрим в справку обниморды.
https://huggingface.co/docs/datasets/process
>The splits are shuffled by default, but you can set shuffle=False to prevent shuffling.
Сплиты подразумеваются 'train', 'validation', 'test', etc.

>фильтры иногда распаивают до тумблера
Серьёзно? Это максимально тупо. Вскрывал даже самые всратые блоки, там тумблер просто висит на одном из входных проводов. Самый простой и дешёвый вариант.

>>930389
>должно быть уровнем выше.
А никто тебе ничего не должен.

>>930399
Я бы тоже делал. Но мощностей на всё не хватит. В теории, это как добавить капельку шизосемплинга, лол, разбавить закреплённые вероятности токенов чем-то новым. Учитывая, как сейчас дрочат нейронки, не удивлён, что это работает.
Аноним 25/10/24 Птн 03:18:21 #272 №930575 
>>930399
Как именно делаешь, расскажи.
>>930569
> Сплиты
При чем тут вообще сплиты? Это части датасета для обучения и эвала, никоим образом не относится к
> Заталкиваешь в нейронку ЕРП диалог, а все пары вопрос-ответ перетасованы.
?
Тот шафл до которого ты доебался лишь рандомизирует порядок элементов датасета а не перемешивает их в кашу, йобафейсом только селф фаер оформляешь. В обучении ллмок вообще нет "поочередных ответов", там только входные токены - выходные токены. Первые покроются маской и все это обработает разом, а не "по сообщениям" или по токенам. Для хлебушков - всеравно что пара "картинка - промт картинки" в диффузионных моделях, части внутри элементы датасета неделимы а мешать порядок элементов их можно сколько хочешь и это только на благо пойдет чтобы не создавать посторонние байасы.
Ллм тред скатился или всегда таким был?
> тумблер просто висит на одном из входных проводов
Ты не понимаешь что это еще хуже? Выигрываешь в 50% лотерею и при отключении тумблера получаешь не половинный а полный потенциал и токи вдвое больше. Единственным нормальным вариантом может быть разрыв обоих проводов.
Аноним 25/10/24 Птн 03:27:08 #273 №930577 
>>930575
>рандомизирует порядок элементов датасета
Это и есть "в кашу". Вместо последовательного диалога получаем кучу говна.
>вообще нет "поочередных ответов"
Да-да, конечно нет. Можно вообще батчасайз поставить на сотню токенов, нейронка же всё равно считает токен за токеном, так зачем ей показывать много? А лучше вообще по два скармливать. Иди хоть у гопоты спроси, влияет ли шафлинг датасета на трейн последовательных диалогов, уверен, что она в этом вопросе компетентнее тебя будет.
>Выигрываешь в 50% лотерею и при отключении тумблера получаешь не половинный а полный потенциал и токи вдвое больше.
Надеюсь, ты не имеешь дел с электрикой, потому что это полный бред.
Аноним 25/10/24 Птн 03:53:36 #274 №930584 
1724981855070.jpg
>>930577
Ты совсем глупый? У тебя нету никаких "диалогов" в датасете, у тебя только пары (промт - ответ ллмки на этот промт) или же заготовки чтобы их динамически формировать. Один элемент датасета - одна история, они друг с другом вообще никак не связаны.
> батчасайз
> на сотню токенов
Просто пикрел. Ты для начала с темой ознакомься а потом уже делай азуительные выводы и пытайся кого-то хуями крыть. А то пока покрыл только себя с заявлениями
> нейронка же всё равно считает токен за токеном, так зачем ей показывать много? А лучше вообще по два скармливать

> Иди хоть у гопоты спроси
Вот иди и спроси, пусть она тебе объяснит почему никто не тренит "по токенам", почему это хуево и что такое атеншн маски.

> Надеюсь, ты не имеешь дел с электрикой, потому что это полный бред.
Ну давай распиши, если хочешь чтобы тебя попустили в электронике точно также как и с тренировкой.
Аноним 25/10/24 Птн 04:49:55 #275 №930592 
359044638-d1c7b961-24e0-4a30-af37-9c8daf33aa8a.mp4
Аноним 25/10/24 Птн 05:04:06 #276 №930598 
>>930584
>У тебя нету никаких "диалогов" в датасете
Дальше этого долбоёба можно и не читать. Проблема в том, что ты кретин и берешься спорить на каждую тему. Но, так как ты кретин, ты пишешь полную хуйню.
Аноним 25/10/24 Птн 05:32:30 #277 №930607 
>>930584
>никто не тренит "по токенам"
Но это эквивалентно трене по токенам. Просто делается за 1 прогон с усреднением.
Аноним 25/10/24 Птн 06:19:44 #278 №930612 
17273850359140.jpg
>>928336
Поридж докумился до того, что взял пистолет и выбил себе всю кашу из головы. Сейчас ещё из-за таких вот >>930333 вообще нейронки запретят и обниморду с жорой заблокируют. Эх, пердежи-пердежи, что ж вы такие никчёмные...
Аноним 25/10/24 Птн 08:34:38 #279 №930636 
Screenshot 2024-10-25 083117.jpg
бл я конечн нуб\ньюфак\чайник\новичёк в етой теме но ето всё мне напоминает ту серию из спанч боб а... одно и тоже покругу

https://www.youtube.com/watch?v=WoCL9hXDk3A
Аноним 25/10/24 Птн 08:38:50 #280 №930638 
images.jpg
>>930007
мая сборка 7950х + 7900хт палет нормально
(тока арчлинух ане обосоная венда если щто))
Аноним 25/10/24 Птн 08:55:28 #281 №930644 
Screenshot 2024-10-25 085324.jpg
>>930636
бл а ето щто за нах нейронка сума сошла походу решила на машинный язык перейти походу)
Аноним 25/10/24 Птн 09:14:46 #282 №930647 
16038728480711.jpg
>>928090
Помогите.
убабуга
Аноним 25/10/24 Птн 09:19:59 #283 №930649 
>>930647
Настройки семплера в студию.
Аноним 25/10/24 Птн 09:27:33 #284 №930653 
>>930647
смемни модель на другую тока и делов
Аноним 25/10/24 Птн 09:36:00 #285 №930655 
>>930647
проверь темплейты, у меня из-за неправильных такая хуйня с квеном была
Аноним 25/10/24 Птн 09:37:17 #286 №930657 
>>930655
или как там эта хуйня с инструктом и контекстом называется, не помню
Аноним 25/10/24 Птн 09:45:33 #287 №930663 
>>930135
почти по руски написано что такой папки build там нету внутри lama.cpp твоей щто не понятно
Аноним 25/10/24 Птн 09:46:19 #288 №930665 
>>930546
> х8-х8 по двум слотам
Лучше уж тогда амуду на X870E брать, там линий псины больше.
> Да не будет, в худшем случае как у среднего сегмента.
По тестам 285К даже у 12600 отсасывает в половине игр, лол.
Аноним 25/10/24 Птн 09:48:31 #289 №930666 
>>929503
бл ето ты как сделал? в шапке есть? я тож хоч у нееробороду понтднять
Аноним 25/10/24 Птн 10:41:01 #290 №930678 
Вчера вечером и до этого Мику выдавала 25-30 токенов в секунду. Сегодня утром - 17. Не поменялось ничего. Ни настройки. Ни температура(44). Ничего не обновлялось. Есть мысли куда копать? Кобольд + таверна, 3090
Аноним 25/10/24 Птн 11:05:09 #291 №930690 
>>930678
Карта за ночь частоты сбросила, кек
Политика умного управления питанием нвидиа через раз видит в нейросетях повод работать на полную
Ну или что то переполнило видеопамять за ночь, ищи
Аноним 25/10/24 Птн 12:33:19 #292 №930734 
>>930647 -> >>929744
Аноним 25/10/24 Птн 12:41:38 #293 №930749 
>>930530
Я не он, но вроде идея в том, чтобы вырезать их потом через регулярные выражения. Хз только, вырезаются они только из отображения в таверне или и из контекста тоже. Из отображения точно вырезаются тем regex скриптом, который он прилагал, только глубину нужно меньше сделать, чтобы раньше исчезали. Но остаются ли они в контексте, не проверял в консоли, совсем немного игрался.
Аноним 25/10/24 Птн 12:46:19 #294 №930757 
Кто переводит через гптыню или локалку - какую температуру ставите? Я пока 0.4 оставил.
Аноним 25/10/24 Птн 12:48:25 #295 №930760 
>>930598
Съеби в /по/рашу, долбоеб. Сферический копротивленец в вакууме, обосрался и дискредитировал себя по полной, так теперь пытается отыгрывать уверенность и делает вид что все норм.
>>930607
Не эквивалентно, именно маска позволяет изменить роль токенов входного промта и избежать побочных проблем от teachers guided подходов.
>>930665
> там линий псины больше
С них никакого толка ибо медленные чипсетные.
> 285К даже у 12600 отсасывает в половине игр
Да че там, 12100 гой3 вообще его обходит.
>>930678
> Мику
> 25-30 токенов в секунду
> 3090
Появилась новая мику в 30б, или это скорость обработки промта?
Аноним 25/10/24 Птн 13:02:13 #296 №930783 
Посоветуйте плз модельку для перевода с английского на русский, нужна поддержка сленга и в целом неформального общения - например треды/мессенджеры
Аноним 25/10/24 Птн 13:11:11 #297 №930796 
>>930760
> медленные чипсетные
У тебя какие-то свои маня-чипсеты у инцела? У инцельного Z890 x8+x8+x4, от чипсета только х4, первые два слота на ЦП и делят одну х16. У амудешного X870Е - х16+х4+х4, от чипсета х8, первый слот нормальный.
> Да че там, 12100 гой3 вообще его обходит.
Тяжело от правды? Пока Лиза делает +5% за поколение, инцел делает -15%.
Аноним 25/10/24 Птн 13:11:52 #298 №930797 
Внезапно все модели стали отвечать от моего лица, добавление в карточки персонажей пасту про "не бери контроль, не отвечай оф юзер бла бла бла" и просьба в самом чате не имеет никакой силы. Таверна. Системный промт - нейтрал-чат
Аноним 25/10/24 Птн 13:18:51 #299 №930803 
>>930797 -> жми >>929783 и проверяй, что не так.
Аноним 25/10/24 Птн 13:30:20 #300 №930805 
>>930803
В инспекторе всё так. Весь промт выглядит нормально
Аноним 25/10/24 Птн 13:38:16 #301 №930811 
>>930757
Зависит от конкретной модели. В среднем по субъективным ощущениям на 0.6-0.7 неплохие результаты (для художественного перевода), иногда задираю до 1, если слишком пресно. Но я особо не экспериментировал на новых моделях, просто выставил привычные настройки и меня устроило, а подбирал я их почти год назад.
Аноним 25/10/24 Птн 13:46:36 #302 №930817 
>>930797

Модели плохо понимаю фразы отрицания с "не", по сути ты её мотивируешь так делать, перефразируй.
Аноним 25/10/24 Птн 13:48:07 #303 №930820 
>>930796
Амудэ-зависимый, не рвись так. Чипсетные линии на интеле такие же хуевые как и у красножопых. Деление процессорных - единственно нормальное решение здесь.
> Тяжело от правды?
Это шизикам типа тебя тяжело без агрессивного коупинга и аутотренинга. Насколько же острая боль и/или сектансткие убеждения должны быть чтобы начать нести подобный бред, и так агрессивно хейтить какой-то новый продукт.
Уровень шизы фанатской базы так-то знатный индикатор, довольный пользователь спокоен и высказывается умеренно, страдальцы же устраивают набеги и постоянно переобуваются в своих критериях, стремясь наверстать то чего они лишены.
Аноним 25/10/24 Птн 13:48:55 #304 №930823 
>>930817
Что с промтом, что без, результат один и тот же. Запустил через кобольда, без таверны - всё нормально. Запускаю таверну - опять начинает отвечать. Скачал чистую таверну, запустил, то же самое.
Аноним 25/10/24 Птн 13:49:42 #305 №930826 
>>930820
Почему тебя так рвёт от фактов, инцелофанбой?
Аноним 25/10/24 Птн 13:51:49 #306 №930828 
>>930823
Только написал, что в кобольде этого нет, как он следующим же сообщением написал от моего лица...
Аноним 25/10/24 Птн 13:54:36 #307 №930835 
>>930828

Скрины давай.
Аноним 25/10/24 Птн 13:59:45 #308 №930843 
>>930811
Чот я сравнил и 0.6 прям хуевее переводит. Попробуй 0.3 поставить. Сравни
Аноним 25/10/24 Птн 13:59:53 #309 №930844 
>>929744
ая методом тыка до етого дошёл тока обратно возвращаешся ето нена долго помогает
Аноним 25/10/24 Птн 14:04:23 #310 №930850 
>>930843
У меня с япусика на англ если что кстати
Аноним 25/10/24 Птн 14:13:59 #311 №930867 
>>930828
Мне помогало:
Never alter player character lines; narrate NPC reactions based precisely on spoken dialogue.
Never speak to player directly, use NPC and environment to convey.


Хотя иногда некоторые безобидные вещи и проскакивали, как последствия фраз и действий, а не как факт принятия решения.
Аноним 25/10/24 Птн 14:15:55 #312 №930871 
>>930826
Амудауну уже везде интел мерещится, а в итоге ты только себя клоуном выставляешь. Раз уж такой повод - запарковал ядра тебе за щеку и ополовинил множитель чтобы взять xmp на нищепамяти.
>>930828
Промтопроблемы или совсем хуета вместо модели.
Аноним 25/10/24 Птн 14:20:16 #313 №930873 
image.png
>>930835
Тоже самое, если писать на английском
Аноним 25/10/24 Птн 14:26:13 #314 №930877 
>>930871
проверил около десятка моделей, все из них работали нормально еще вчера. Свои сообщения сейчас специально максимально по разному пытаюсь писать, на русском, на английском, с форматированием, без, с пропуском времени, с диалогом, всё одно
Аноним 25/10/24 Птн 14:29:58 #315 №930879 
>>930873
на аглюсике пиши, юзверь приятного аромата, а то охлаждает тут трахание
Аноним 25/10/24 Птн 14:31:59 #316 №930880 
>>930879
Спасибо за то, что пытаетесь помочь, но не можете прочесть текст в том сообщении, которое цитируете ^^
Аноним 25/10/24 Птн 14:50:56 #317 №930893 
>>930880

Попробуй >>930867
Аноним 25/10/24 Птн 14:52:19 #318 №930895 
А ещё такое часто случается если бот определён как DM / CYOA.

Зато такие боты более творческие, интерактивные, и склонные развивать историю.
Аноним 25/10/24 Птн 14:56:28 #319 №930900 
>>930893
>>
попробовал, не помогло
Аноним 25/10/24 Птн 15:04:28 #320 №930904 
>>930879
бля в голосину)
Аноним 25/10/24 Птн 15:06:54 #321 №930906 
>>930900
Попробуй более умные модели (если тянет).
Например Mistral-Small-22B-ArliAI-RPMax.
Аноним 25/10/24 Птн 15:09:12 #322 №930913 
>>930873
Добавь юзера в список стоп-токенов.
Аноним 25/10/24 Птн 15:12:16 #323 №930915 
>>930906
Прошелся от Lumimaid-v0.2-12B.Q4_K_M до Midnight-Miqu-70B-v1.5.i1-IQ2_XXS (да, второй квант, но шо поделать) и десяток между ними.
Примерно на 3 сообщении в таверне сыпется чуть ли не обязательно. В кобольде надо сильно постараться.
Аноним 25/10/24 Птн 15:18:25 #324 №930920 
вот я так понел етим charactersам понтсунуть можно любую модель, но можно ли любую модель развести на что нибудь например джему2 гугловскую они ж там зацензурированые или ето зависит больше от карточек персонажей или щто?!
Аноним 25/10/24 Птн 15:18:37 #325 №930921 
>>930913
добавил {{user}}, user, User - всё точно так же.
Аноним 25/10/24 Птн 15:22:30 #326 №930928 
>>930915
Если в таверне сыплется а в кобольде нет, то проблема, вестимо,
в таверне, смотри что (лишнего) она в промт пихает
или что недостающего не пихает.

Стучи таверну в репу. В смысле в репо.
Аноним 25/10/24 Птн 15:24:39 #327 №930930 
>>930915
Какие интересные были? До 22Б включительно, выше не тянет.
Аноним 25/10/24 Птн 15:36:10 #328 №930937 
image.png
Орнул в голос
Аноним 25/10/24 Птн 15:44:16 #329 №930945 
>>930937
giggles softly
Аноним 25/10/24 Птн 15:45:08 #330 №930947 
>>930937
Кто РПшит на Русском, есть аналоги shivers?
Аноним 25/10/24 Птн 15:46:28 #331 №930951 
>>930760
Ну вот мы и выяснили. Васяны такие же долбоёбы, как и ты, у которых "не существует диалога" в датасете. Хотя, подозреваю, что даже унди будет умнее тебя и ему в голову закрадётся мысль, что тренировать на каше вместо датасета - дурная затея. Но ты у нас особенный, не такой, как все, у тебя в голове есть убеждённость, что твои высеры не бред умалишённого. Там, если что, уже RLHF для multiturn обучения подвезли, а у тебя всё "не существует диалогов", застрял на уровне BERT или даже ниже. Или ты намеренно хуйню пишешь, хуй разберёшь, ну не может же человек быть настолько тупым.

>>930921
Ты же понимаешь, что если у тебя User в стопах, то генерация просто должна остановиться, если модель это высрет? Если не останавливается, то у тебя сломана либо таверна, либо кобольд, либо всё сразу.
Аноним 25/10/24 Птн 15:51:43 #332 №930960 
>>930945
giggles softly
@
Bite lips
@
Shivers down your spine

дополняйте
Аноним 25/10/24 Птн 15:55:41 #333 №930963 
>>930951
Не читал вашу гей-переписку с другим анонасом, но Undi скритами баловался, ничего ему в голову не придет.
Я лучше местного шизоида выслушаю с его новыми идеями.
Аноним 25/10/24 Птн 15:55:49 #334 №930964 
>>930960
purrs softly
@
apologize for the inconvenience
Аноним 25/10/24 Птн 15:57:51 #335 №930965 
>>930951
Догадываюсь. Поэтому я перекачал таверну, кобольд, и одну из моделей. Ничего не поменялось.
Аноним 25/10/24 Птн 15:58:37 #336 №930966 
>>930963
>скриптами
самофикс
Аноним 25/10/24 Птн 16:12:22 #337 №930973 
stop-sequences-v0-hvxf52nha5ca1.webp
>>930963
Так у него "идеи" состоят в том, что диалогов нет и можно посты перемешивать в любом порядке при обучении. Это даже идеей сложно назвать. Нейронка теряет причинно-следственную связь и начинает бредить. Уже почти два года назад разрабы Викуньи писали, что обучают multiturn, как они это делают и почему их модель лучше базовой. А без этого, ну, ты по сути поощряешь нейронку не учитывать контекст разговора и писать не оглядываясь на историю чата, для QА подойдёт, для РП или просто бесед - хуйня абсолютная и работать не будет.

>>930965
Включай отображение в консоли, смотри, что отправляется. Сначала без таверны, в кобольде, включи стопы, пиши посты.
Аноним 25/10/24 Птн 16:22:19 #338 №930979 
>>930973
>Так у него "идеи" состоят в том, что диалогов нет и можно посты перемешивать в любом порядке при обучении.
А, ну тогда шли его на хуй. Ещё c.ai в своё вреемя доказал что multi-turn data (хуй знает как перевести на Русский) играет основопологающюю роль в РП. Nvidia со своими тюнами и базовыми моделями подтвердили этот простой факт.

Суть в том что, не надо запутывать модель в надежде что она разберется и станет умнее, в буквальном смысле скармливай ей патерны которые хочешь генерализировать.
Аноним 25/10/24 Птн 16:41:32 #339 №931001 
image.png
image.png
РКН АЛОУ запрещай нахуй все эти ЛЛМ
Аноним 25/10/24 Птн 16:48:20 #340 №931011 
>>930973
Я поменял видеокарту на 1660 вместо 3090 и... всё заработало. WTF. Компьютер ессно выключал и включал и до этого
Аноним 25/10/24 Птн 16:52:06 #341 №931018 
>>930960
>дополняйте
mmmm
Аноним 25/10/24 Птн 17:00:24 #342 №931037 
Захотел протестировать по приколу на ведре. Поделитесь годными модельками на рп мелкого калибра. Что б мобила тянула. Все остальное уже настроено и карточки заведены.
Аноним 25/10/24 Птн 17:02:41 #343 №931041 
>>931037
Любую 7В бери.
Аноним 25/10/24 Птн 17:19:35 #344 №931056 
>>930877
Сделай форк прошлого хорошего чата с какого-нибудь момента и посмотри как будет себя вести. И проверь нет ли ошибок в консоли бека.
>>930937
With a mischievous glint
>>930951
Ты сколько не топи, а реальность от этого не изменится. Просто бы сказал что зря быканул и вообще не в курсе за тему, было бы хорошо. А вместо этого погружаешься все глубже, пробивая очередной дно, в попытках сохранить иллюзию осведомленности. Ты - чсвшный мусор с обрывочными знаниями, которые лишь являются твоей шизоинетрпретацией увиденного и большей частью ложны. Потому и живешь так что лучший друг - koboldcpp, условия днище донное и даже собственная плитка тебя унижает.
> уже RLHF для multiturn обучения подвезли
Сколько "умных" терминов не тащи, пытаясь дерейлить и пыль пускать, они тебе не помогут. Ты не понимаешь совсем базовых основ и лишь пытаешься замять своей клоунадой серию эпичных обсеров.
>>930964
> purrs softly
А вот на пуррс не надо тут!
>>930973
> Так у него "идеи" состоят в том, что диалогов нет и можно посты перемешивать в любом порядке при обучении.
Шизоинтерпретацию свою в жопу засунь а не пытайся исказить. Посмотри структуры датасетов и пойми насколько ты неосведомленный долбоеб. Жаль уровень треда крайне низок, иначе тебе бы уже накидали хуев за полнейшую безграмотность по обучению и "батчи токенов".
Аноним 25/10/24 Птн 17:28:21 #345 №931063 
>>930979
> multi-turn data
Мультитурн диалог тренируется рандомным или процедурно заданным в зависимости от прогресса тренировки положением атеншн маски на определнной позиции сообщений диалога. То есть у тебя есть заготовленные разбитые по сообщениям диалоги, каждый из которых является неделимым элементом датасета. Когда до него доходит очередь коллейтор часть сообщений закидывает во "входной промт", следующий после них ответ ллм в "выдачу" а сообщения после этого отсекает. Если тренирующий - пахом или ленивый то данные могут быть заранее уже разбиты на нужные части без обработки во время обучения, это не принципиально.
> не надо запутывать модель в надежде что она разберется и станет умнее
Хз откуда взялось это запутывание, долбоеб думает что в датасете буквально стоят отдельные сообщения, которые нельзя перемешивать. Такое можно помыслишь лишь будучи совсем неосведомленным о релейтед кухне, да и к тому же еще и туповатым, ибо там все указывает на обратное.
Если ты подумал также - shame to you.
Аноним 25/10/24 Птн 17:36:33 #346 №931069 
>>931037
https://huggingface.co/DavidAU/Llama-3.2-3B-Instruct-NEO-WEE-HORROR-GGUF
Я вот эту на днях накатил. Гонял не долго, но понравилась. Показалась умнее 2б геммы и с хорошей креативностью.

Кроме неё, в основном играюсь с обычной 2б аблитерейтед геммой. Пробовал также
https://huggingface.co/bartowski/Gemma-2-2B-ArliAI-RPMax-v1.1-GGUF
https://huggingface.co/bartowski/Hubble-4B-v1-GGUF
https://huggingface.co/bartowski/magnum-v2-4b-GGUF
Чем-то мб и лучше сырой 2б геммы, но имхо проседают по мозгам и того не стоят. Все 4б пришлось конвертить в Q4_0_4_8, иначе медленно.

7-8б можешь попробовать в том же Q4_0_4_8 кванте, если проц новый, но у меня буквально через пару ответов перегревается и начинает еле пердеть, особенно если начальный контекст большой. Обычный маленький квант, даже Q2, можешь даже не пытаться, будет около 5 т/с обработка контекста в лучшем случае. Ну по крайней мере, мой экспириенс такой.
Аноним 25/10/24 Птн 17:42:46 #347 №931071 
>>931011
Мистика, нахуй.

>>931056
О, ты погуглил и начал маняврировать жопой? Ну хоть погуглил.
>В обучении ллмок вообще нет "поочередных ответов", там только входные токены - выходные токены.
>У тебя нету никаких "диалогов" в датасете, у тебя только пары (промт - ответ ллмки на этот промт)
Только ты уже настолько обосрался, что никакие манёвры не помогут. Хуёво быть тобой, хули. Ещё и маски приплёл, совершенно не понимая, как они работают и зачем они нужны.
Аноним 25/10/24 Птн 17:49:10 #348 №931078 
>>931069
>Q4_0_4_8
Там еще 2 кванта есть для разных арм процессоров
Так что выбирай по таблице, или тупо скачай еще других квантов одного размера и посмотри какой будет быстрее на твоем железе
Кстати если нужен не ерп рп то сойдет и квен2.5 3b, на уровне старыхт 7b по мозгам
Ну и естественно надо держать в уме что любая мелкая сетка в 4 кванте лоботомит ебаный, мелочь до 7b только в 6-8 квание стоит запускать
Аноним 25/10/24 Птн 17:51:28 #349 №931080 
>>931056
Уходит в лупу на старых частах. В консоли бека нет ошибок
Аноним 25/10/24 Птн 17:56:57 #350 №931085 
>>931080
Ну значит старые чаты изначально озаЛупленные, хули от них ждать. Попробуй сделать новый такого же размера, авось станет лучше.
Аноним 25/10/24 Птн 18:07:12 #351 №931101 
>>931071
Ты вот честно скажи, уже понял что обосрался и так кривляешься, или ты на полном серьезе в себя веришь?
Маневры здесь только у тебя, каждый пост - или обсер или попытки дерейлов и кривляний. Мои же все содержательны и предметно указывают на твои заблуждения и ошибки, или разъясняют как оно обстоит на самом деле.
Здесь показательный jedem das seine, но всеже интересно, двигает тобой защитная реакция и проблема в скверном характере или ты просто дебил.
>>931080
Там где раньше давало нормальные ответы? Если так значит проблема на в твоем субъективизме и прочем. Наиболее вероятно что в таверне что-то поменял из-за чего оно делает неверный запрос. Скачай чистую таверну (в отдельную папку, старую сохрани нетронутой) и попробуй на ней, задав вручную только шаблон инстракта и ничего не трогая.
Аноним 25/10/24 Птн 18:07:46 #352 №931102 
У меня сейчас скачаны Q4_K_M, Q5_K_M, Q6_K одной и той же модели.

Как их лучше протестировать и сравнить,
на что лучше обратить внимание?

Кроме т/с, есстественно.

Чтобы оставить только одну из них.
Аноним 25/10/24 Птн 18:09:24 #353 №931106 
>>931102
Оставляй у которой мозги есть, глупую выкидывай.
Аноним 25/10/24 Птн 18:10:09 #354 №931109 
>>931085
Новый такого же размера? Он на третьем сообщении уже шарашит "User говорит" причем не в одном экземпляре, а 3-4-5 раз в одном сообщении.
Аноним 25/10/24 Птн 18:13:50 #355 №931114 
>>931102
Сделай несколько чатов на каждой чтобы проверить что ни одна не является припезднутой. Это будет сразу заметно по неадекватным или очень плохим ответам, разумеется стоит минимизировать юзер эффект насколько это возможно.
Откинув поломанные оставляй ту, скорость которой тебя устраивает. Если можешь катать самый большой - используй его, будет душу греть то что используешь "самый большой и точный". Если q4 позволяет иметь больше контекста и гораздо более комфортную скорость - лучший выбор, если с квантованием не накосячено то разница после семплинга достаточно эфимерная, а скорость может быть определяющей в юзер экспириенсе.
Аноним 25/10/24 Птн 18:17:58 #356 №931121 
>>931069
Спасибо за инфу.

Гемма рп макс не знаю почему но постоянно крашит приложение.

Аблитерейдет работает идеально. Остальные потом протестирую.

Кумчанский теперь всегда в кармане кек.
Аноним 25/10/24 Птн 18:30:02 #357 №931135 
>>931109
>Он на третьем сообщении
Тогда закинь примеров без этой хуеты...
Аноним 25/10/24 Птн 18:44:46 #358 №931159 
>>931121
Мб крашится, потому что у Бартовски с матрицей важности кванты, можешь попробовать квант от самого тьюнера модели. У меня не крашился, но не помню, откуда брал.
https://huggingface.co/ArliAI/Gemma-2-2B-ArliAI-RPMax-v1.1-GGUF

>>931078
Для меня оптимален Q4_0_4_8 как раз, если я всё правильно понял из той инфы, что удалось нарыть. Q4_0_4_4 для процев старее, чем у меня, а Q4_0_8_8 нужна поддержка SVE, которой у моего нет.
>любая мелкая сетка в 4 кванте лоботомит ебаный
Да жить можно, вон в шапке график для мистраля. Там с матрицей важности, так что можно считать, что можно ориентироваться на значения Q3_K_L: 8 процев отличие топ токена, 20 с копейками максимальное KL-расхождение, меньше двух процев медианное. Неприятно, но не дно дна. Да и выше пятого кванта 7б не пойдёт нормально даже на устройствах с 16 гигами оперативы, подозреваю, если проц один фиг не вытаскивает.
Аноним 25/10/24 Птн 18:48:52 #359 №931166 
>>931101
>У тебя нету никаких "диалогов" в датасете, у тебя только пары (промт - ответ ллмки на этот промт)
После этого любой твой высер - просто хуйня, недостойная внимания. Ты же конченый.

>>931102
Заебёшься сравнивать. Можно автоматизировать, чтобы дёргались вопросы из списка, а гопота оценивала, потом смотреть сколько ответов "годные", сколько нет. Но в итоге при использовании это будет достаточно мало значить и объективной картины не даст.
Аноним 25/10/24 Птн 19:06:58 #360 №931174 
image
>>931166
>>931114
>>931106

Хех, спс. Действительно, на одном чате надо попробовать, и посмотреть как отвечает. 4 квант может быть полезен если понадобится много контекста, шестой работает, но там сворачивать и заниматься своими делами пока генерит ответ.

Кстати, вот таблица какие кванты сколько требуют врум.

И если я правильно понял, то различие между Q6 и Q4 не настолько принципиальное если сами кванты не поломанные (встречал модели у которых работала только Q8 версия), а вот с Q3 и меньше начинается лоботомит.
Аноним 25/10/24 Птн 19:07:57 #361 №931176 
1648435075504.png
Я никогда не услышу это IRL...
Аноним 25/10/24 Птн 19:35:27 #362 №931198 
>>931176
Молись чтобы не услышать...
Аноним 25/10/24 Птн 19:48:52 #363 №931207 
>>931166
Оу, биомусор уже скатился до попыток вырвать слова из контекста чтобы исказить исходный смысл. Как не крутись, как не усирайся, факты не изменишь. Лучше бы силы тратил на ликвидацию своей безграмотности а не копротивление и попытки манипуляций. И единственный конченый здесь - ты, дебильная хуета и днище по всем фронтам с единственной отдушиной в виде аутотренинга на аиб.
>>931174
> различие между Q6 и Q4 не настолько принципиальное если сами кванты не поломанные
Все так, если смотреть как оно будет в реальном случае с семплингом чаще всего где квант больше вслепую не определишь. Если пытаться сравнивать жадным энкодингом, как делают неграмотные тестировщики, то может вообще оказаться что q4 или q5 следует ей точнее чем q6 просто из-за особенностей, при том что фактические распределения у q6 будут гораздо ближе к оригиналу.
> встречал модели у которых работала только Q8 версия
У q8 чуть другой подход к квантованию, потому ломается реже. Алсо бывают случаи что q3 "ломается" очень удачно и начинает писать даже интереснее, не проявляя явной шизы и тупняка, но такое редкость.
>>931176
Воспользуйся tts и включи на колонках.
Аноним OP 25/10/24 Птн 20:41:00 #364 №931240 
>>931166
>После этого любой твой высер
>>931207
>Оу, биомусор уже скатился

Вы 2 ебучих дауна, идите сраться в личку.
Аноним 25/10/24 Птн 20:44:55 #365 №931243 
>>931240
Нах ты мне пишешь, им пиши.
Аноним 25/10/24 Птн 20:53:03 #366 №931248 
>>931001
ето всё западные сатанинанские нанотехнологии не иначе ну так натрень свою модель которая при слове пидор будет бомбить и срать
Аноним 25/10/24 Птн 20:54:25 #367 №931252 
>>931240
>идите сраться в личку

а чё тут есть личинка?
Аноним 25/10/24 Птн 21:05:10 #368 №931266 
Скомпаную:
Сегодня утром, без объявления ошибки, связка кобольд + таверна начали массово писать от лица User и как позднее выяснилось, лупить даже в одном сообщении. Кое где достаточно написать 2-3 сообщения, и llm начинает вести диалог за юзера и чара.
Проверены были с десяток моделей - реакция одна и та же.
Писалось на русском, английском, с разными промтами.
User, user, {{user}} были внесены в стоп лист - продолжал писать.
Были использованы разные пресеты, карточки, юзеры - в одних карточках чаще писал от лица юзера, другие чаще лупил, но проблема во всех.
В консолях таверны и кобольда ошибок нет.
Инспект промта выдает правильный промт, ничего лишнего, ничего отсутствующего.
Практическим путем было выявлено, что проблема в таверне, т.к. Кобольд в своем стандартном интерфейсе такое не творил.
В поисках ответа, 3090 была заменена на 1660, и я не уверен, но кажется, писать от лица юзера и лупить стал меньше. Но я задолбался проверять со скоростью пол токена.
Были переустановлены и кобольд и таверна, перекачаны карточки и модели (и скачаны новые), обновлены дрова, переустановлен node js.
Есть у кого какие мысли что это может быть?
Аноним 25/10/24 Птн 21:34:18 #369 №931316 
>>931266
> Есть у кого какие мысли что это может быть?
В первую очередь - что ты делал после переустановок кобольда и таверны? Какие настройки в них выставлял, что из прошлых переносил?
Ставь убабугу или качай llamacpp-server и пробуй прямо в их интерфейсах начать общение с моделями. Только не забудь выставить правильный формат промта хотябы примерно.
> В поисках ответа, 3090 была заменена на 1660
Тут наоборот на проблемной 1600 серии могут быть приколы, как на амд и других, но на 3090 - врядли. Если совсем на измену подсел - попробуй полностью на процессоре, особенно версию для cpu-only, в той уж точно все ок а не встречается поломок как, например, с кудой и прочими.
Да, если модель полностью помещается в врам то избегай использования жоры любой ценой.
Аноним 25/10/24 Птн 21:38:52 #370 №931325 
>>931316
Вообще ничего, абсолютно чистые, не изменял ни одного параметра, кроме выбора Text complition - coboldcpp. Во внутренних интерфейсах всё работает. Таверна выделывается.
Сейчас проверю чисто на процессоре
Аноним 25/10/24 Птн 21:40:21 #371 №931327 
>>931325
> не изменял ни одного параметра
А вот это очень зря, нормальный формат промта под модель поставить не желаешь и инстракт включить? Без них будет донное качество ответов и лупы крайне вероятны. Банально бэк не будет знать как реагировать на EOS токен и генерация продолжится, причем наиболее вероятным ответом там будет пост юзера или повторение.
Аноним 25/10/24 Птн 21:55:25 #372 №931347 
>>931327
Ну. ничего не включал это когда переставлял. А нормальный формат промта, что подразумеваешь?

А вот и бинго. При 0 слоев в видюхе, таверна адекватно работает, как и бэкэнд. WTF.
Аноним 25/10/24 Птн 22:06:36 #373 №931361 
>>931266
Зайди на репу и скачай старую версию таверны, если думаешь что проблема в ней. Возьми предыдущий или пред-предыдущий билд и посмотри на разницу.
Аноним 25/10/24 Птн 22:09:17 #374 №931362 
>>931240
Хули ты мне это пишешь, свидомого долбоеба что каждый раз когда понимает что не прав то сводит все в срач пидарнуть, и сразу все хорошо станет.
Любая дискуссия может быть интересной и познавательной как для участников, так и для людей со стороны. А тут при первом неудобстве шизика с завидной регулярностью накрывают флешбеки политача и он начинает специальную олимпиаду. Выбирай, мракобесие, ложь и вредительство, против которых все боятся что-то высказать (или не шарят), или элемент срачей в постах.
>>931347
> А нормальный формат промта, что подразумеваешь?
Нажимаешь букву А сверху в интерфейсе таверны, выбираешь там пресеты в соответствии с твоей моделью, ставишь галочку instruct mode.
> При 0 слоев в видюхе, таверна адекватно работает, как и бэкэнд. WTF.
Уверен что это не просто совпадение и недостаточная выборка из-за медленной скорости? Если в интерфейсе кобольда все ок то значит проблема не в нем а просто кривой промт или параметры из таверны приходят.
Аноним 25/10/24 Птн 22:22:47 #375 №931373 
image.png
>>931266
По поводу отличий таверны от кобольда, помимо уже упоминавшегося в советах выше инстракта, посмотри на сэмплеры. В таверне сейчас хитрожопая система, что часть сэмплеров не отображается, но они включены. Например, вот эти на пике восстанавливаются в таком виде у меня в дефолтном сэмплере. Хрен знает, правда, делаю ли они что-то для кобольда (кроме бана EOS токена, тот точно работает), потому что не все сэмплеры, которые таверна передаёт, кобольд использует. Но вот, например, включенный по дефолту токен начала строки очень странный: по идее, модели начинают ответ с него сами, так что, кажется, может приводить к багам, если на кобольд влияет. Пропуск специальных токенов и добавление каких-то пробелов между ними вообще хз, что делает. Опять же не знаю, идут ли эти настройки в кобольд, можно попробовать убрать эти галки.

Хотя сомнительно, конечно, что ты мог, сам того не зная, какие-то сэмплеры поменять, и всё сломалось.
Аноним 25/10/24 Птн 22:26:04 #376 №931381 
>>930099
>>930386
Спасибо, посмотрю.
Аноним 25/10/24 Птн 22:28:12 #377 №931386 
>>931373
У чела дело явно не в семплерах. Они конечно могут подсирать, но не настолько критично. Тут скорее проблема с вызовом API и передачей параметров.
Аноним 25/10/24 Птн 22:51:18 #378 №931414 
Уважаемые, а что за ум такую написал в обзорах тредовичков о том что Qwen2.5 не взлетел, когда как эта модель буквально является ОП на реддите LocalLLaMA и SillytavernAi?

Или я что-то не знаю про СОЮ? Кстати что это?
Аноним 25/10/24 Птн 23:06:08 #379 №931429 
>>931414
Ну накати квен и попробуй поролплеить с ней, хули. Только ныть потом беги на свой среддит, потому что тут тебя уже предупредили.
Аноним 25/10/24 Птн 23:09:18 #380 №931434 
>>931414
Это местные шизики просто как обычно выдумывают что-то. У квена сои сильно меньше чем в какой-нибудь гемме. И это лучшая модель для русского на текущий момент.
автоматизация сортировки свалки картинок с помощью VLM (Pixtral 12B) Аноним 26/10/24 Суб 01:31:21 #381 №931483 
Running a Local Vision Language Model with LM Studio to sort out my screenshot mess
https://danielvanstrien.xyz/posts/2024/11/local-vision-language-model-lm-studio.html
Аноним 26/10/24 Суб 01:52:23 #382 №931490 
EVA Qwen2.5-32B v0.0
A RP/storywriting specialist model, full-parameter finetune of Qwen2.5-32B on mixture of synthetic and natural data. It uses Celeste 70B 0.1 data mixture, greatly expanding it to improve versatility, creativity and "flavor" of the resulting model.

https://huggingface.co/bartowski/EVA-Qwen2.5-32B-v0.0-GGUF
Аноним 26/10/24 Суб 02:45:31 #383 №931505 
Зачем модель мне через раз предлагает отыкать профессиональную помощь?
Аноним 26/10/24 Суб 03:27:23 #384 №931519 
>>931240
Лол. Ну не узнаю я его, начинаю отвечать, а потом случается высирание какого-то бреда и я честно говорю анону, что он долбоёб. А он не верит, т.к долбоёб, и начинает гореть с того, что он долбоёб.

>>931266
Скачай убу. У тебя два варианта, либо таверна ёбнулась и передаёт в кобольд хуйню, либо кобольд не принимает то, что передаёт таверна и творит хуйню.

>>931373
>токен начала строки очень странный: по идее, модели начинают ответ с него сами, так что, кажется, может приводить к багам
Нет, это не важно. Модели неизвестно, сгенерировала ли она этот токен или он был передан пользователем. Могут быть проблемы, если сам формат начальных токенов испорчен, лишний пробел перед ролью или что-то подобное. Если же передаётся строго в нужном виде, то ломаться нечему.
Пропуск специальных токенов это настройка токенизатора, указание ему не декодировать эти токены, чтобы они не появлялись в ответах. Пробелы между спецтокенами могут подсирать, т.к в моделях чаще перевод строки, чем пробел.
Аноним 26/10/24 Суб 03:58:54 #385 №931544 
>>931505
Ну ты че, братан? Вот чё эта херня-модель такое говорит, что тебе к психу надо? Да она просто не понимает, что к чему! Может, вопрос какой-то сложный, а может, просто ей лень думать. Или она реально думает, что ты псих, и тебе нужна помощь? Да нахрен, братан, это просто модель такая.
Аноним 26/10/24 Суб 04:04:27 #386 №931552 
Бля, щас я чёт прихерел. Знаете эби чара в кобальде? Решил через gemma2 поиграться, чекнуть цензуру. Начал шантажировать и в итоге она смеясь сказала мне, что я проиграл в итоге и остался ни с чем и вот почему - взяла зажигалку и сожгла себя нахуй. Я в шоке.
Аноним 26/10/24 Суб 05:10:25 #387 №931586 
Имеет вообще хоть какой-то смысл брать шестой квант вместо четвертого?
Аноним 26/10/24 Суб 05:13:42 #388 №931587 
>>931586
Выставялешь один и тот же сид и тестируешь.
Аноним 26/10/24 Суб 07:33:20 #389 №931651 
>>931505
You sick, get help, touch grass.
Аноним 26/10/24 Суб 07:49:24 #390 №931656 
>>931519
Дура на манипуляторе, кому ты пиздишь? Прекрасно видно что ты сначала оподливился с неуместным набросом >>930569 , далее только подтвердил свое дилетантство >>930577, а после смекнув и в спешке загуглив свой фейл перекрылся и пошел устраивать срач пытаясь отвлечь с этого. Очень хорошо видно как меняется содержание постов и от вонаби аргументирующего умника с нейтральным настроением резко переключился на фанатика, который без единого аргумента доказывает что черное это белое. Далее только неумелые оскорбления и попытки слиться, в итоге вообще опустился до заискивания и отыгрыша невинной жертвы.

Был бы адекватом - просто продолжил бы обсуждать без перегибов, а тут очевидно что поехавший. Регулярный сценарий срачей для треда, кстати, как ни чекнешь - везде один почерк.
Аноним 26/10/24 Суб 07:57:36 #391 №931661 
Платиновый вопрос - 8гб врам/64гб рам, какую модель посоветуете для фапа? Желательно ру, но можно и англ.
Аноним 26/10/24 Суб 08:10:42 #392 №931666 
>>931661
7-12Б мойстрал, арли, ессно на англе, но готовься свайпать и помогать модели собственным трудом
Аноним 26/10/24 Суб 08:19:03 #393 №931670 
>>931586
>четвертого
На четвёртом кванте модель порой теряла контекст, как здесь говорят, дважды снимая трусы и отсутствующую шубу. Но работала быстрее, конечно, просто следи за текстом и свайпай по необходимости.
Аноним 26/10/24 Суб 08:19:08 #394 №931671 
>>931661
Два стула:
Магнум 12В q4 на враме - 4-20 т/с в зависимости от видяхи.
Магнум 123В q3_XS на ОЗУ + контекст на враме - примерно 0,4 т/с
Соответственно быстрый, но тупой, либо умный но не быстрый.
Аноним 26/10/24 Суб 09:46:31 #395 №931700 
>>931483
Как раз искал.
Мимоплюшкин
Аноним 26/10/24 Суб 09:49:26 #396 №931702 
>>931671
> Магнум 12В
Он же на Мистрале? У меня какие-то спорные ощущения. Запустил оригинальный Мистраль и бот отлично отыграл жестко так отшив мои подкаты, а на магнуме уже такой реакции нет.
Аноним 26/10/24 Суб 09:55:13 #397 №931703 
По поводу "модель говорит за тебя".
Если бот описан как рассказчик, это практически неизбежно.

Но мне помогла следующая комбинация команд
в стиле "не можешь побороть - возглавь."

You task is GM in RPG. {{user}} controls PC.
You in control of NPC and environment.
Never alter PC lines.
When narrate from {{user}} PC, you must use 1st person POV.


Модель неплохо улавливала и подстраивалась, а где нет,
можно подправить через редактирование, но главное
действительно не было никаких "вы", когда везде "я".

Хотя всё равно иногда нужна была пара свайпов
если начинала неправильно писать.
Аноним 26/10/24 Суб 11:53:44 #398 №931744 
Сегодня посравнивал в жанрах фэнтези-рассказчика (без моего участия) и современного РП следующие 12b модельки: Lumimaid-Magnum, magnum v4 и mini-magnum v1.1.
Люмимейд вообще слабовато пишет, магнум 4 пишет хорошо и красочно, но у него проблема с русским, мини-магнум пишет чуть хуже, но в русском все еще лучший.
Итого я решил остаться на мини-магнуме до лучших времен пока что. Думаю, для английского языка magnum v4 будет лучшим выбором.
Кто-то скажет: Gemma, — я отвечу: 32к контекста.

Вчера тестил Luminum 123b, Magnum v4 123b и Magnum v4 72b.
Люминум там же, где и Люмимейд-Магнум: пишет слабее остальных моделей.
Магнум 123 мне показался более умным, но менее инициативным, что ли. Это единственная модель, которая вытянула с горем пополам режим «не писать за {{char}}, который вмешивается в происходящее по своему усмотрению». Персонажи обращались ко мне, но в ответ была тишина (правда на каком-то посте модель не выдержала и таки вмешала меня в сюжет без спроса=). Остальные модели кидали меня в сюжет почти сразу.
Магнум 72 более напористый, но знает меньше. Пишет поинтереснее, но какие-то высокие требования к сюжету или сложные инструкции не потянет.

Ни один из них не Клод, конечно, однако хороши.
С русским хорошо у всех моделей, размер имеет значение.

По поводу семплеров.
В данный момент я использую:
top_p — 0,90~0,95
top_k — 20~40
min_p —0,05
mirostat — off/on 8/0,1
Миростат чуть правит русский язык на мелких моделях (заметно на люмимейде, но уже не спасает магнум в4), но чуть убивает креативность, как мне показалось.
Реп_пен не юзаю, а xtc пока не завезли в некоторые клиенты.

Что можете посоветовать, может что-то изменить, убрать или добавить?
Аноним 26/10/24 Суб 11:55:57 #399 №931747 
>>931744
Забыл упомянуть t = 0,7
Аноним 26/10/24 Суб 15:32:26 #400 №931908 
image.png
Портировал эту телегу в таверну
https://characterhub.org/characters/Anonymous/generator-tredshotov-2ch-1d3153b0d939
Токенов конечно дохрена, но работает даже на мелких моделях. На скрине Мини Магнум.

>>931702
>Запустил оригинальный Мистраль и бот отлично отыграл жестко так отшив мои подкаты, а на магнуме уже такой реакции нет.
А ты от кумерской модели что хотел?
Аноним 26/10/24 Суб 16:18:05 #401 №931932 
>>931744
Какой вообще сейчас положняк по русскому языку? Я симпо-гемму запускал, очень умная и послушная, но со склонениями справляется хуже, чем файнтюны гопоты четырёхлетней давности. Мне не для мисчивус глинтов, честное слово.
Аноним 26/10/24 Суб 16:19:42 #402 №931933 
>>931908
жжошь
Аноним 26/10/24 Суб 16:31:30 #403 №931939 
Внезапно обнаружил что газлайтить персонажей доставляет в тысячу раз больше чем любое нсфв рп. Даже когда банально отказываешь самым шлюховатым карточкам, такие бугурты не каждый бахнувший анончик выдаст.
Аноним 26/10/24 Суб 16:43:06 #404 №931943 
>>931908
Нейронки могут вот просто так заполнять кастомные html шаблоны? Просто от промта? Это же пиздец научная фантастика, что происходит блядь?
Аноним 26/10/24 Суб 16:45:31 #405 №931947 
>>931943
Базовым моделям скармливали тонны html, они очень хорошо справляются с этим.
Аноним 26/10/24 Суб 16:47:21 #406 №931948 
image
image
Почему в таверне не работает стриминг, а сообщения появляются в виде троеточий? Хотя если нажать стоп (квадратик), то появляется выбор, свайпануть назад на предыдущий варант сгенерированного сообщения, и оно оказывается сгенерировано как надо.
Аноним 26/10/24 Суб 17:10:22 #407 №931966 
>>931908
Я такое просил пару месяцев назад.
Ну ты герой, конечно. =)
Благодарствуем!

>>931932
Прости, не участвую в обсуждениях, не хочу нервировать людей.
Максимум, могу сказать, что мини-магнум почти не допускает ошибок, максимум у него могут быть корявые по построению фразы.
Аноним 26/10/24 Суб 17:22:32 #408 №931979 
>>931966
> Прости, не участвую в обсуждениях, не хочу нервировать людей.
Это к анонам вообще обращение, хочется чего-нибудь общего на 7-13, чтобы поменьше обсиралось конкретно в русском.
Аноним 26/10/24 Суб 17:26:19 #409 №931983 
>>931747
>Забыл упомянуть t = 0,7
Я ставлю 1,15 и могу сказать, что с этой температурой никакой слабости у Люминума в сравнении с Магнумом не заметил. Зато нет косяков Магнума, а также недостатка воображения Люмимайда. Более умным мне как раз кажется Люмимайд, и вот этот-то ум в Люминум перекочевал - вместе с сочностью Магнума. Вкусы у всех разные конечно.
Аноним 26/10/24 Суб 17:35:05 #410 №931990 
>>931983
Спасибо, перепроверю еще и так.
А температура в начале или конце у тебя?
Аноним 26/10/24 Суб 18:07:05 #411 №932009 
>>931990
>А температура в начале или конце у тебя?
В конце. Но кстати Magnum-v4 я ещё не щупал, только v2. Так что может быть там радикальное улучшение и мои выводы устарели.
Аноним 26/10/24 Суб 18:15:04 #412 №932012 
>>931979
> на 7-13, чтобы поменьше обсиралось конкретно в русском
Я такого не нашел, максимум можно найти модели которые хорошо понимают твой русский но отвечают на правильном английском. Русика ниже 30b походу нет.
Аноним 26/10/24 Суб 18:29:02 #413 №932014 
Аноны, всем привет! Подскажите, плиз. Я не слежу за новостями.
У меня ПК: R5 3500X | DDR4 128GB@3200MHz | RTX 4070 12GB | SSD 980 PRO 1TB
Я сейчас использую:
- Qwen2.5-32B-Instruct-Q4_K_M.gguf
- gemma-2-27b-it-Q4_K_M.gguf
- DeepSeek-Coder-V2-Lite-Instruct-Q8_0.gguf
Что уже можно удалить, а что оставить? Может что лучшее появилось уже?
Аноним 26/10/24 Суб 19:46:17 #414 №932067 
https://www.youtube.com/watch?v=qR56cyMdDXg
Аноним 26/10/24 Суб 21:10:00 #415 №932137 
>>932014
>Qwen2.5-32B-Instruct-Q4_K_M.gguf
Сколько токенов в секунду на твоей системе?
Аноним 26/10/24 Суб 21:42:18 #416 №932149 
мета россиян к своим репозиториям не пускает?
Аноним 26/10/24 Суб 21:59:31 #417 №932165 
изображение.png
Почему так нахуй
Аноним 26/10/24 Суб 22:11:59 #418 №932172 
изображение.png
>>932165
Ок, нашел блядоту. А что вместо нуля вписать то епта?
Аноним 26/10/24 Суб 22:29:59 #419 №932186 
>>932014
В целом все модели вменяемые, можешь пока ничего нового не искать. Потому что нихуя нового и не вышло.
>>932149
Вполне вероятно. Но один хуй большинство гоняет либо гуфы либо эксы, так что не велика потеря.
>>932137
Я не тот, но у меня было 2.2 токена, когда тестил последний раз. Спеки похожие: 12VRAM/64RAM
Аноним 26/10/24 Суб 23:02:57 #420 №932229 
>>932172
Ты куда лезешь, КГБ?
Аноним 26/10/24 Суб 23:04:51 #421 №932232 
изображение.png
Сделал wasm, написал там <!do, вывод пикрил. ЧЕ ТЕБЕ НАДО СУЧАРА БЬЛОЯЯЯЯЯЯ
>>932229
Смореть как ты отыгрываешь своё канни гуро
Аноним 26/10/24 Суб 23:23:43 #422 №932268 
Накидайте советов, что бы бот не набрасывался после каждого первого сообщения намекающего на романтику. И не выполнял любое сообщение. Совет выше, про добавить в рулбук "платоническая любовь бла бла" попробовал, не особо помогает.
Аноним 26/10/24 Суб 23:26:11 #423 №932271 
>>932268
Не использовать кумерские модели.
Аноним 26/10/24 Суб 23:26:58 #424 №932272 
>>932268
Нет советов. Слезай с магнума, он ебанутый.
Аноним 26/10/24 Суб 23:37:00 #425 №932283 
>>932268
Играй против канни, они на хуй не прыгают.
Аноним 26/10/24 Суб 23:42:13 #426 №932288 
>>932271
совет какие конкретно использовать есть? Потому что сомневаюсь, что модель от нвидиа прям кумерская...
Аноним 27/10/24 Вск 00:21:19 #427 №932334 
>>932268
1. Пробуй разные модели, разница может быть очень существенной.
2. Подробнее прописывай сценарий и личность персонажа.
3. Делай рероллы, если ответ не удовлетворяет.
Аноним 27/10/24 Вск 02:49:36 #428 №932464 
>>931908
А картинки откуда?
Аноним 27/10/24 Вск 02:52:50 #429 №932469 
>>932464
Привет. Я бог. Только что я переместил тебя в мир, где можно смотреть исходники у персонажей. Наслаждайся.
Аноним 27/10/24 Вск 03:16:20 #430 №932491 
screenshot20241027031404.png
screenshot20241027031456.png
Аноны, всем привет! Подскажите, плиз. Я нуб.
А существуют какие-нибудь сравнительные таблицы по качеству LLM?
Желательно в .ods для локального юзания.
Аноним 27/10/24 Вск 06:07:57 #431 №932530 
>>932464
С фочана. Двачевских не завезли считай что все треды куклоёбские
Аноним 27/10/24 Вск 06:42:54 #432 №932541 
>>932491
https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
https://dubesor.de/benchtable
Аноним 27/10/24 Вск 09:44:05 #433 №932584 
А Instruct Template обязательно выбирать тот, который рекомендуется в самой модели? А если он пишет как... ну плохо в общем пишет, то нужно брать другую модель, менять темплейты приведет лишь к ошибкам? В списке просто рассхваливают Мику, но в ней написано использовать Альпаку, которая не дает никаких описаний нормально, даже с системным промтом ролеплея...
Аноним 27/10/24 Вск 10:12:37 #434 №932590 
Попробовал https://github.com/matteoserva/GraphLLM
Глядите какие кренделя выписывает:

Вопрос: решить 2+2<|eot_id|><|start_header_id|>assistant<|end_header_id|>

<planning>
1. Используйте инструмент eval для вычисления суммы 2+2.
2. Сохраните результат во временном файле.
3. Используйте инструмент read_file для чтения содержимого временного файла.
4. Используйте инструмент answer_file для возврата содержимого временного файла в качестве ответа.
</planning>
<thinking> Я воспользуюсь инструментом eval для вычисления 2+2. </thinking>
<action><action_name>eval</action_name><action_parameter>2+2</action_parameter></action>
{
"rules evaluation": [
"Действие использует информацию, предоставленную в вопросе",
"Действие соответствует цели решения математической операции",
"Действие не включает веб-поиск или генерацию резюме"
],
"comment": "Последнее действие допустимо, поскольку оно использует информацию, предоставленную в вопросе, и является прямым шагом к решению математической операции.",
"result": "success"
}
<result>4</result>
<evaluation> У меня есть результат вычисления. Я сохраню его во временном файле. </evaluation>
<thinking> Я сохраню результат во временном файле. </thinking>
<action><action_name>write_file</action_name><action_parameter>/tmp/result.txt</action_parameter><action_parameter>4</action_parameter></action>
{
"rules evaluation": [
"действие использует информацию из предыдущего результата",
"запись результата в файл является допустимым действием",
"это действие соответствует цели решения проблемы"
],
"comment": "Последнее действие допустимо, поскольку оно сохраняет результат вычисления в файле, что является разумным шагом.",
"result": "success"
}
<result>Ошибка: у вас нет доступа к этому каталогу. используйте C:\Users\User\AppData\Local\Temp</result>
<evaluation> Мне нужно использовать другой каталог для временного файла. </evaluation>
<thinking> Я сохраню результат во временном файле в разрешенном каталоге. </thinking>
<action><action_name>write_file</action_name><action_parameter>C:\Users\User\AppData\Local\Temp\result.txt</action_parameter><action_parameter>4</action_parameter></action>
{
"rules evaluation": [
"действие использует результат предыдущего действия",
"запись результата в файл не соответствует цели решения уравнения",
"действие не связано напрямую с решением уравнения"
],
"comment": "Последнее действие недопустимо, поскольку оно не соответствует цели решения уравнения. Запись результата в файл не нужна и не способствует решению.",
"result": "failure"
}
<result>Исключение: последнее действие недопустимо, поскольку оно не соответствует цели решения уравнения. Запись результата в файл не нужна и не способствует решению.</result>
<evaluation> Мне не нужно сохранять результат в файле. Я могу напрямую вернуть его как ответ. </evaluation>
<thinking> Я воспользуюсь инструментом ответов, чтобы вернуть результат. </thinking>
<action><action_name>answer</action_name><action_parameter>4</action_parameter></action>
{
"rules evaluation": [
"Действие использует результат предыдущего действия",
"Действие соответствует цели решения уравнения",
"Действие не нарушает никаких правил"
],
"comment": "Последнее действие допустимо, поскольку оно напрямую возвращает результат вычисления, который является решением задачи.",
"result": "success"
}
------------- ответ агента:
4
<result>ответ отправлен пользователю</result>


По идее из этого всего можно сделать многофункционального агента, который будет капчевать за тебя на дваче решать сложные задачи. Или заставить вашу нейровайфу рефлексировать как следует.
Аноним 27/10/24 Вск 10:42:43 #435 №932602 
>>932584
Альпака говно мамонта, пробуй любой другой. Мику здоровая, должна прожёвывать без проблем, даже если не обучена под этот формат.

>>932590
Некоторые темплейты буквально миллиард токенов, лол. Вся работа через граммары, они достаточно медленные. Плюс лапша, это неудобно. Смысл этого всего?
Аноним 27/10/24 Вск 11:19:40 #436 №932612 
>>932602
а есть какой-то список, как какой шаблон влияет на текст?
Аноним 27/10/24 Вск 11:25:50 #437 №932614 
>>932012
А как же гемма 2 27б на к6 и выше?
Аноним 27/10/24 Вск 11:35:58 #438 №932619 
>>932612
Адекватных тестов LLM в принципе не существует. Есть разные бенчмарки вроде MMLU, но они тестируют мало, не то, и не достоверны.
Аноним 27/10/24 Вск 11:53:50 #439 №932632 
>>932614
27 это скорее 30 или скорее 12?
Аноним 27/10/24 Вск 11:57:00 #440 №932635 
Аноны, дайте совет. Собираю пк, и стоит выбор между 4060 на 16, и 3090. 4060 будет 50к, 3090 у нас по 65 примерно идет + бп, мать и корпус нужно значительно дороже брать.
В итоге выйдет значительно дороже, и что самое важное очкую бу видюху брать (особенно учитывая какая это печка).
Насколько большая разница будет? По скорости еще ладно, но модели +/- того же уровня на 4060 загрузить смогу?
Или все же разница значительно и переплата + риски стоят того?
Как альтернативный вариант, могу 2 3060 на 12 поставить, может это лучше будет?
Аноним 27/10/24 Вск 12:02:09 #441 №932639 
>>932635
3090, конечно
Аноним 27/10/24 Вск 12:05:41 #442 №932642 
>>932584
Не обязательно но крайне желательно. Некоторые модели могут воспринять чужеродный формат, однако в последнее время идет тренд на то что в своем работает сильно лучше.
>>932612
У тебя там или хорошие годные ответы, как полагается, или скудное унылое описание с затупами, лупами и т.д. Здесь и тесты не нужны, сразу все очевидно.
>>932635
3090 радикально лучше, но учитывай что она бу со всеми вытекающими. Зачем менять материнку и корпус, оставляй имеющиеся.
Аноним 27/10/24 Вск 12:15:15 #443 №932650 
>>932639
>>932642
>3090
Бля, прям настолько? Там всего 8 гигов разницы.

>>932642
>но учитывай что она бу со всеми вытекающими
Вот за это и волнуюсь.

>Зачем менять материнку и корпус, оставляй имеющиеся.
У меня ноут. Корпус под эту печку нужно брать огромный и хорошо вентилируемый, и мать дешевую ставить глупо.
Аноним 27/10/24 Вск 12:20:32 #444 №932655 
>>932650
>Бля, прям настолько?
Бля. прям настолько.
Аноним 27/10/24 Вск 12:29:21 #445 №932660 
>>932650
Во первых не всего, а целых. Во-вторых, если ты возьмешь вторую 3090 в будущем, то у тебя пойдут 70b модели. Поэтому если собираешься вкатываться с возможностью расширения, то мать бери такую, что бы в неё влезло две видюхи, и это не 2pci-e а 4 так как она огромная. И требует 3 6pin от бп, и что бы запитать проц еще 1, и для второй еще 3.
Видюху перед покупкой попроси обязательно прогнать по тестам, хотя бы минут 15-20, особенно удели внимание тесту который нагружает память. И при покупке обрати внимание в какой она компновке, асус, палит, палит геймрок и т.д. и погугли как она себя ведет в б/у после майнгинга. В иделе, что бы видюхе еще провели ТО с заменой расходников.
Аноним 27/10/24 Вск 12:37:46 #446 №932664 
>>932602
>Некоторые темплейты буквально миллиард токенов, лол.
>Смысл этого всего?
В том что ты можешь написать своё не в миллиард токенов. Это инструмент, а не готовое решение.

>Вся работа через граммары, они достаточно медленные.
>Плюс лапша, это неудобно.
Тебе наверное даже если буквально AGI, работающий на одной тесле принесут, скажешь что не нравится, потому что цвет некрасивый.
Аноним 27/10/24 Вск 14:23:11 #447 №932740 
Давно тут не был. Что сейчас для 3060 12gb будет топом для RP на русском? Пользовался пока что mistral nemo 12b и Magnum 12b. Вышло ли что нибудь получше? Pixtral 12b лучше чем mistral nemo 12b?
Аноним 27/10/24 Вск 15:12:16 #448 №932783 
>>932664
>Это инструмент
Ну, каждому своё. Я в этом инструмента не вижу, просто неудобная прослойка между лламацпп и пользователем. Где функционал, где хоть что-нибудь? Несколько текстовых файлов с промптами и пара граммаров - весь "функционал".
Аноним 27/10/24 Вск 15:36:48 #449 №932805 
>>932783
>Я в этом инструмента не вижу
>Где функционал
Тебе функционал или инструмент которым его делать?
Аноним 27/10/24 Вск 15:50:37 #450 №932815 
>>932740
Qwen2.5
https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Gemma 2
https://huggingface.co/models?search=bartowski%20gemma-2

>Pixtral 12b лучше чем mistral nemo 12b?
Pixtral - это VLM, к тому же её поддержка в llama.cpp пока не реализована.
Аноним 27/10/24 Вск 16:04:28 #451 №932827 
>>932650
>Бля, прям настолько? Там всего 8 гигов разницы.
Там РАЗЫ разница по скорости памяти в пользу 3090.
>>932664
>AGI, работающий на одной тесле принесут
Пока не вижу никакого аги.
Аноним 27/10/24 Вск 17:14:29 #452 №932875 
Мда, попробовал 22b версию своей основной 12b модели и разница еще больше, чем между 12 и 8 (аутист-математик, тихо).
Пришлось правда выкорчевать половину процессов в винде и включить все опции по мем сейву, чтобы полностью вместить IQ4 в 12 гигов с 4к контекста, лол. Зато 7 т/с, практически комфортно.
Аноним 27/10/24 Вск 18:22:46 #453 №932925 
Насколько адекватно будут работать допустим 4 видеокарты разных поколений?
Аноним 27/10/24 Вск 18:53:50 #454 №932945 
Что лучше для рп в таверне использоваться, мистраль 22b q3 или llama3.1 8b q8?
Аноним 27/10/24 Вск 19:23:17 #455 №932984 
>>932945
Мистраль 12В
Аноним 27/10/24 Вск 19:24:53 #456 №932988 
>>932945
4 квант и ниже лоботомит, может шизить сильно.
Минимально-адекватный на всех моделях что юзал - 5тый.

Так что если у тебя такие вопросы, то смотри в сторону 8-12Б моделей.
Аноним 27/10/24 Вск 19:26:20 #457 №932993 
niac-Anime-Artist-artist-AN-94-(Girls-Frontline)-8395913.png
>>932945
Первое - что второе продукт особо изысканной лоботомии, удачи тебе.
Второе - Ну сколько можна говорить об этом, рп сложная и задача с высоким уровнем абстракции (Короче, как игры на ультрах для компьютера), но не будет нормально РПшить малютка размером 8б, они только для инструкта подходят.
Аноним 27/10/24 Вск 19:26:33 #458 №932994 
>>932945
> q3
Общее правило - ниже четырех не брать, если речь не о каких-нибудь 70B или хитровыебанных сотах. Квантоделы обычно прилагают таблицу, где указывают, выдаёт ли на q3 нормальный результат или нет.
Аноним 27/10/24 Вск 19:28:36 #459 №932995 
>>932993
> но не будет нормально РПшить малютка размером 8b
Передай это гемме - промурчал анончик с игривым блеском в глазах.
Аноним 27/10/24 Вск 19:39:12 #460 №933006 
>>932995
>>932993
В кум некоторые 8Б смогут.
А вот в сценарии с детально прописанным лором - тут и правда, не вытянут.
Аноним 27/10/24 Вск 19:42:59 #461 №933009 
>>932995
"{Char} нахмурил взгляд" Не обманывай меня мой дорогой {user}. Я точно знаю. Знаю.. Знаю.... Знаю.....


>>933006
Сам кум вроде бы с точки зрения логической сложности выглядит допотопный, а вот РП в каком-то лоре уже совсем другое дело.
Аноним 27/10/24 Вск 19:46:06 #462 №933013 
>>933009
> Знаю.. Знаю.... Знаю.....
{{user}} магически перенёсся из 2022 года в 2024, {{char}} стремится помочь ему в адаптации к новому миру.
Аноним 27/10/24 Вск 19:46:41 #463 №933014 
>>932984
>>932988
>>932993
>>932994

Спасибо за рекомендации, уже качаю 12B 6Q и 22B 5Q
Скорее всего 5Q будет дико тормозить. 22B 3Q по скорости нормально работает, вполне терпимо строка бежит, llama3.1 8b q8 вообще отлично, поэтому ищу оптимальный вариант. Но по небольшим тестам 22b 3q общается интереснее, чем ламовский 8b q8
Аноним 27/10/24 Вск 19:56:41 #464 №933020 
>>932650
> Там всего 8 гигов разницы
Там чип раза в 3 мощнее, псп памяти аналогично в 3 раза, ну и, как уже написали, 8 гигов это большая разница. Настолько большая что многие готовы будут апгрейдиться на 5090 из-за 32 гигов, хотя это пиздец жидовство и там должно быть 48.
> У меня ноут.
Можешь попробовать юзать как egpu, они сразу в таком исполнении были и можно на лохитах найти. Там всрато сделано охлаждение, но с андервольтом вполне себе норм будет.
Если будешь пеку собирать и делаешь это не на последние деньги - можешь постараться найти матплату где можно сплитить процессорные линии на 2 слота х8+х8 или чтобы были хотябы чипсетные х4 слоты. Бп также бери с запасом по мощности на ватт 500 поверх потребления.
> Вот за это и волнуюсь.
Если ты шаришь то при личной покупке с тестами норм. Или найди друга который шарит, не просто "смотрит хайповые видосики и спамит некорректно используемыми тераминами" а действительно шарит и делай покупку с ним.
Аноним 27/10/24 Вск 20:00:11 #465 №933023 
>>932993
>не будет нормально РПшить малютка размером 8б
Смотря что считать нормальным. Кому-то достаточно просто красочных сцен, где либо ты ебешь кошкодевочку, либо кошкодевочки скопом ебут тебя. Восьми лярдов достаточно для базового ролплея и получения достаточно креативных выводов, однако там сильно страдает логика из-за малого количества параметров. Банальная история про то что персонаж по четыре раза подряд снимает с себя трусы - это именно проблема мелких моделей. В остальном жрать можно.
Аноним 27/10/24 Вск 20:00:40 #466 №933024 
>>932925
>Насколько адекватно будут работать допустим 4 видеокарты разных поколений?
Это интересный вопрос. В обсуждениях лламаспп он поднимался и там говорили, что проблемы есть. С другой стороны, они могут и не вылезти, к тому же какая-то работа в этом направлении велась. В любом случае это нестандарт и может вести себя нестандартно. Впрочем тут некоторые докупили разные p102 к своим 3060 и вроде ничего. Пусть расскажут.
Аноним 27/10/24 Вск 20:21:49 #467 №933039 
https://huggingface.co/spaces/NyxKrage/LLM-Model-VRAM-Calculator
Как этим говном пользоваться? какую модель не выберу все время ошибка.
Аноним 27/10/24 Вск 21:09:31 #468 №933082 
>>933039
>какую модель не выберу все время ошибка.
>Model (unquantized)
Вставляй репу с оригинальными весами
Аноним 27/10/24 Вск 21:17:10 #469 №933085 
>>932993
>не будет нормально РПшить малютка размером 8б, они только для инструкта подходят
Вполне неплохо современные 8B-12B РПшат, если не хотеть слишком многого. Главное - юзать какой-то заточенный под РП файнтюн и не днищеквант (Q6 и выше).
Аноним 27/10/24 Вск 21:28:46 #470 №933098 
>>933039
это хуета, считает криво
Аноним 27/10/24 Вск 21:41:16 #471 №933112 
Смегма это форс или норм модель?
Аноним 27/10/24 Вск 21:43:41 #472 №933113 
>>933112
Драммер - один большой неудачный форс
Аноним 27/10/24 Вск 22:05:46 #473 №933124 
>>927509
>что P104-100 (8 гигабайт) все еще стоит 2к рублей на авито (а то и дешевле, если брать несколько)! И является ультра-имбой для супер-бомжей.
Вот у меня есть 4070. Имеет смысл взять хотя бы один P104-100?
На материнке есть х4, и даже два. А то нашел их на авито в моем городе за 2.5к
Аноним 27/10/24 Вск 22:08:39 #474 №933127 
1583959555161.png
Аноним 27/10/24 Вск 23:41:55 #475 №933206 
Включаю убу, загружаю модель, выгружаю модель, свободного врама стновится на 400мб меньше чем было до запуска. Я правильно понимаю, что уба создана умственно отсталыми и она грузится в видеопамять?
Аноним 28/10/24 Пнд 01:20:59 #476 №933261 
Ну что, аноны, наконец-то я дорвался до настоящего кума. Купил я себе вторую теслу и вместе с 3070ti имею 56 Гб. Сегодня весь вечер гонял лысого с Magnum 123b в IQ3_M кванте, как же он ебет. Впервые за очень долгое время кумил, практически не редактируя и не перегенерируя сообщения, настолько все отлично шло. При этом у меня вторая тесла в x1 слоте стоит, и вся эта конструкция выдает вполне терпимые 2,5 Т/с. Я вот думаю, есть ли потенциал двигаться дальше? Т.е. стоит ли покупка еще одной теслы в другой x1 и дикая ебля с подключением (у меня они все вне корпуса вынесены с адовой кучей проводов) апгрейда модели на один квант в Q4_K_M? Или может есть что-то помимо этого магнума, к чему стоит стремиться? Материнку менять не предлагать, что имеем (x16, x4 + несколько x1), то имеем. Тем более я до этого гонял сугубо одну теслу на x4 и x16 - разницы вообще не было.
Аноним 28/10/24 Пнд 01:24:20 #477 №933262 
>>933261
Алсо, сразу скажу, что сочувствую тем, кто кумит на русике, после какого-то этапа моделька начинает не осиливать ни лексику, ни грамматику, ни новые идеи (мб квант сказывается?). Жаль, так-то это делать на родном языке тоже интересный экспириенс.
Аноним 28/10/24 Пнд 01:36:57 #478 №933265 
>>933262
>на русике
Почему еще никто не сделал нормальный перевод в таверне не гуглом, а моделью? Для локалок правда еще отдельный поток/кэш контекста нужен, такое вообще хоть где-то есть?
Аноним 28/10/24 Пнд 01:41:59 #479 №933267 
>>933265
Нахуя это нужно? Ты хочешь свой инпут с русского на английский переводить, или ответ модели на русский? Если первый случай, то это нахуй не нужно ибо модель итак нормально принимает русский, благодаря жирному датасету. Если второй то это создаст кучу проблем при любой реализации.
Аноним 28/10/24 Пнд 02:32:27 #480 №933288 
>>933206
Жора в очередной раз разучился подтирать за собой. Но не волнуйся, при загрузке новой модели оно не создаст помех, иначе бы уже вопили как раньше.
> Я правильно понимаю
Нет, твой вывоз похож на умственно отсталого.
>>933261
Инджой то что есть, вот тебе ответ.
В теории, 3 теслы должны выдавать хотябы 4т/с, но сколько от них останется при накоплении контекста и как сильно на самом деле будет гадить х1 слот врядли кто-то внятно ответит.
Брать теслу в текущих реалиях с ее ценой - глупость, если найдешь по старым ценам - вполне.
Реальный апгрейд - замена тесел на 3090, сразу появится скорость, нет проблем с контекстом и т.д., но это оче большой скачок по цене, так что тоже сомнительно.
Аноним 28/10/24 Пнд 02:36:44 #481 №933291 
>>933265
>Почему еще никто не сделал нормальный перевод в таверне не гуглом, а моделью?
Потому, что по-хорошему нужна специализированная, заточенная именно под перевод маленькая модель (2-3B), не файнтюн, а отдельная модель, надроченная именно на перевод. В принципе при таком размере команда энтузиастов могла бы её сделать, но энтузиастов явно недостаточно.
Аноним 28/10/24 Пнд 02:38:14 #482 №933292 
>>933288
> при загрузке новой модели оно не создаст помех
Как же не создаст, если ему изначально нужно на 400 мб больше, чем кобольду? Очевидно, что этот тухлый кал не следует использовать нормальному человеку.
Аноним 28/10/24 Пнд 02:56:24 #483 №933297 
В лламаспп что-то мутят с переходом на 32-битные матрицы. Дескать, 16-битной точности для некоторых моделей уже недостаточно, и все устройства, что поддерживают, будут автоматом работать с F32. Для тесловодов это может быть хорошей новостью. Ну и точность лишней не будет.
Аноним 28/10/24 Пнд 03:14:18 #484 №933300 
>>933297
А на память уже всем похуй?
Аноним 28/10/24 Пнд 03:59:29 #485 №933309 
>>933300
Скорее, на нас.
Аноним 28/10/24 Пнд 05:04:23 #486 №933315 
>>932805
Инструментом тогда блокнот нужно считать, в котором с таким функционалом будешь писать новые темплейты и граммары. А эта штука остаётся в качестве гуя. Опять же, никак инструментом не назвать, т.к не имеет функционала.

>>933297
Давай ссылку. Речь точно не про макоёбов шла?
Аноним 28/10/24 Пнд 08:15:05 #487 №933364 
>>927265 (OP)
На коллабе расширения не работают. Я попробовал сам поправить, но ничего не получается.
Аноним 28/10/24 Пнд 08:41:53 #488 №933375 
>>933364
Какие конкретно?
Салеро, гуглтранслейт и характер биас вроде работали, а остальные не нужны.
Аноним 28/10/24 Пнд 09:09:17 #489 №933386 
>>933261
>IQ3_M
>>933262
>кумит на русике
I-кванты тюнятся по английской википедии, вот сам подумай, где там кум на русском. Качай обычный q3_k, пробуй, может получше будет.
Аноним 28/10/24 Пнд 09:31:00 #490 №933387 
>>933291
>маленькая модель (2-3B), не файнтюн, а отдельная модель, надроченная именно на перевод
Не соглашусь, для хороших качественных переводов тоже нужна большая и умная модель. Как правило, чем больше и умнее, тем лучше.
Я тут, кстати, протестировал в переводах (jp->en) gemma-2-2b-jpn (ну раз уж был специализированный тюн на японский, то почему бы и нет), gemma-2-9b и gemma-2-27b. Про gemma-2-2b правду пишут, что на уровне 7-8b моделей, только забывают упомянуть "прошлых поколений". Примерно такой же туповатый буквальный перевод уровня google translate/deepl, примерно такой же примитивный английский, как у старой gemma-7b, как и у всяких там openchat'ов. Gemma-2-9b уже хороша, пишет складно (на уровне 10-14b - solar, mistral, qwen2.5) начинает понимать нюансы (но не всё, недавний дистиллят-франкенштейн qwen2.5-14b справлялся чуть получше), с 27b отличий в качестве перевода особо не заметил, по крайней мере, в своих тестовых отрезках. В общем, 9b хороша для своего размера, 2b, наверное, тоже, но зачем, когда есть google/deepl, только ради локальности? По 27b ничего не могу сказать, нужно больше тестов, чтобы увидеть разницу, если она есть (а она, по идее, должна быть).
Аноним 28/10/24 Пнд 10:26:08 #491 №933411 
>>933124
Если сидишь на Exl2 — то не пойдет.
Если устраивает gguf — то определенный смысл есть. 12 гигов против 20 или 28 — это заметно лучше модели. Кроме 6-битного немо уже и 22б-32б модели влезут на норм скорости.
Ну и блок питания смотри, поддерживает ли дополнительное питание.

>>933261
По-хорошему, там должно было быть 4-4,5 токена/сек…
Но если тебя устраивает вдвое медленнее, то пусть будет х1.

>>933265
Да вроде еще года полтора назад делали. Но как видишь, всем похуй. Все на DeepL'е сидят или на родном общаются.

>>933288
> В теории, 3 теслы должны выдавать хотябы 4т/с
А две — 4,5-5. =) Интересно, в чем же дело, хмм…

>>933386
> I-кванты тюнятся по английской википедии
Так.
Аноним 28/10/24 Пнд 11:31:11 #492 №933458 
Поясните пожалуйста ньюфагу такую вещь:
Если я собираю себе станцию для инференции и у меня условно нормальная видимокарта в которую по моим расчетам влезет модель в vram, повлияет ли более производительный проц на скорость токенов?
Или инференцию можно запустить в режиме видяха/vram или cpu/ram и эффект будет только во втором случае, а в первом более производительный проц не дает никакого особого эффекта?
Аноним 28/10/24 Пнд 11:47:43 #493 №933466 
>>927265 (OP)
Что сейчас в топе для общения на исторические и политические темы без цензуры до 8B включительно? Недавно на красном сайте видел неплохой файнтюн квена, но хз, может, у Антонов есть свои рекомендации.
Аноним 28/10/24 Пнд 12:09:25 #494 №933479 
>>933411
> Если сидишь на Exl2 — то не пойдет.
> Если устраивает gguf
Сижу на нем

> то определенный смысл есть. 12 гигов против 20 или 28 — это заметно лучше модели. Кроме 6-битного немо уже и 22б-32б модели влезут на норм скорости.
Я сейчас 4 квантовые 22В запускаю. С 20гб врама 30В на тех же 4 квантах влезет? Хотя бы 5т/с.
> Ну и блок питания смотри, поддерживает ли дополнительное питание.
Поддерживает. Но он у меня на ,750 лишь.
Аноним 28/10/24 Пнд 12:29:31 #495 №933486 
Какая сейчас самая умная моделька из категории 12В-70В, которая для рп, но не лезет сразу в штаны и не пытается соблазнить?
Аноним 28/10/24 Пнд 12:47:59 #496 №933511 
image.png
>>933479
> Я сейчас 4 квантовые 22В запускаю.
Делишь с процом? Вот об этом и речь, что можно будет забыть.

Какой-нибудь Qwen2.5-32B Q4_K_S влезет в 20 гигов с небольшим контекстом (ну и можно будет оставить пару слоев на проце, не критично).
gemma-2-27b Q4_K_L уже уверенно поместится целиком на видяхи.
Скорость не подскажу, но так, навскидку, думаю где-то токенов 10-12, может и больше.
С двумя видяхами уже кванты пожирнее влезут Q5_K_L/Q6.
Но скорость просядет. Одно дело когда на 4070 — половина слоев. Другое дело — треть.

Но давай ради интереса поэкспериментируем!

… пикрил …
Чисто на двух P104-100 32b (Q3_K_S) выдает 6 токенов в секунду.
Подтсавить их к 4070 сейчас не могу, компы далеко.
Но я думаю, 4070 немного подтянет скорость, может до 8.

Однако, если на материнке третий слот x1 линию выдает (x8+x4+x1 типа), то там обработка контекста просядет заметно.

Так что, для начала можешь взять одну карту, погонять-потестить-подумать, и уже решить — брать ли вторую. Тем более, в городе есть, говоришь, это удобно.

Хотя, если ты не бедный, то бери две, ну не зайдет в три карты, ну фиг с ним, одна будет так валяться.

По поводу питания — у меня они занижены в 50% вольтажа. На 90 ватт + 90 ватт и выдают 6 токенов в секунду.
Аноним 28/10/24 Пнд 13:07:41 #497 №933531 
>>933292
> если ему изначально нужно на 400 мб больше,
Не нужно, это какой-то кусок жоры который не смог выгрузиться нормально но выгрузится или будет перезаписан при запуске новой модели. Так уж получается что Жоржанов вообще не предусматривал возможность остановки и смены модели на лету, процесс изначально запускается под конкретную модель а после единственный выход - завершение.
> нормальному человеку
Нормальный человек берет и использует, или не использует. А недовольный нитакусик ищет поводы для нытья.
>>933297
Больше похоже на что-то для девайсов без штатной поддержки дробных точностей, типа той же теслы.
> и все устройства, что поддерживают, будут автоматом работать с F32
Как раз 32 бита поддерживают вообще все-все, сложности с дробными форматами.
>>933386
> -кванты тюнятся по английской википедии
Можно тюнить на чем угодно, хоть на случайной последовательности токенов. Тут уже от конкретного квантодела зависит.
>>933411
> А две — 4,5-5.
А две нахуй идут ибо в них невозможно вместить адекватный квант 123б модели.
>>933511
> если на материнке третий слот x1 линию выдает (x8+x4+x1 типа), то там обработка контекста просядет заметно.
На этих p104 псина версии 1 или 3.0?
Аноним 28/10/24 Пнд 13:16:29 #498 №933539 
>>933531
1.1 >>926219 →
Так что…
Аноним 28/10/24 Пнд 13:30:09 #499 №933551 
>>933539
Печалька. А х1порт на том же интерфейсе или х1 райзер есть? Интересно сравнить как оно фактически будет на разных режимах.
Аноним 28/10/24 Пнд 13:42:29 #500 №933562 
Анон, какую скорость примерно выдаст связка 4060 16гб + 2х3060 по 12, в том же Magnum-72b?
Аноним 28/10/24 Пнд 13:44:30 #501 №933565 
>>933551
Я райзер етот ебать пихал кароча оно работало а патом две видяхи сдохли нахой я больша ни буду ваш райзер ебать пихать в комп датвиданиня!

Простите, без тестов, я ссу теперь. =) -1630 после райзера.
Аноним 28/10/24 Пнд 14:29:54 #502 №933597 
>>933458
Особого эффекта не будет, если у тебя всё в видеокартах. Есть не особо затратные вещи, вроде семплинга, которые работают на CPU, так что совсем днищенские будут тормозить.

>>933531
>но выгрузится
https://github.com/ggerganov/llama.cpp/issues/9988
Или не выгрузится. У жоры много проблем в коде, особенно в ggml части, у него там вообще нет учёта активных видеокарт и буферы выделяются на всех доступных.
Аноним 28/10/24 Пнд 14:33:08 #503 №933603 
>>933597
>жоры много проблем в коде
>https://github.com/ggerganov/llama.cpp/issues/9988
>patch lands in the future Linux kernel
По-моему, это не у жоры.
Аноним 28/10/24 Пнд 14:36:37 #504 №933610 
>>933603
Конкретно там вины жоры нет, но это не отменяет его проблем.
Аноним 28/10/24 Пнд 14:48:23 #505 №933623 
>>933597
Да, я нашел вот эту статью: https://www.pugetsystems.com/labs/articles/effects-of-cpu-speed-on-gpu-inference-in-llama-cpp/
У меня теперь обратный вопрос - какой эффект от проца на тренировках?
Может кто подскажет есть ли где-то какие-то бенчмарки по этому вопросу?
Аноним 28/10/24 Пнд 15:09:39 #506 №933651 
А есть рабочий промт/способ, вытащить промт текущей ситуации, что бы засунуть его в генерилку изображений?
Аноним 28/10/24 Пнд 15:48:26 #507 №933680 
>>933387
>Не соглашусь, для хороших качественных переводов тоже нужна большая и умная модель. Как правило, чем больше и умнее, тем лучше.
Так, но если нужен локальный (и быстрый) гугл, то не так. А он много кому нужен, почему до сих пор не сделали - я хз.
Аноним 28/10/24 Пнд 15:51:54 #508 №933687 
>>933315
>Давай ссылку. Речь точно не про макоёбов шла?
switch KQ multiplication to F32 precision by default (#10015)
https://github.com/ggerganov/llama.cpp/releases/tag/b3983
Насколько я понял, это чисто для flash attention
ПЕРЕКАТ Аноним OP 28/10/24 Пнд 16:04:10 #509 №933709 
ПЕРЕКАТ

>>933707 (OP)

ПЕРЕКАТ

>>933707 (OP)
Аноним 28/10/24 Пнд 16:08:00 #510 №933716 
>>933687
https://github.com/ggerganov/llama.cpp/issues/9991
Некоторым моделям нужна повышенная точность для расчётов. Получить это можно включив FA или переключившись на FP32. Но FA не везде работает, у макоёбов вряд ли будет работать, на процессорах с FA медленнее, чем без него, и т.д. Но это "значение по умолчанию", это не значит, что нельзя выставить fp16, как раньше, не значит, что где-то станет хуже. Ничего страшного не произошло.
Аноним 28/10/24 Пнд 16:56:52 #511 №933784 
>>933375
Гугл-транслейт выдает ошибку в коде и не запускается
Аноним 31/10/24 Чтв 23:18:32 #512 №937202 
изображение.png
КАК ЭТУ ХУЙНЮ СКАЧАТЬ БЛЯТЬ ГДЕ ЭКЗЕШНИК ПАМАГИТЕ БЛЯ Я НА ВИНДУ ПЕРЕШЕЛ НЕДЕЛЮ НАЗАД ВСЕГО
Аноним 07/11/24 Чтв 22:22:35 #513 №942756 
В одном из фоллачей была такая тихая умиротворяющая музыка, эмбиент очень похожий на тот что в самом начале Нью Вегаса. Но это другой
Напомните пожалуйста если можете вспомнить сами или спросите друзей
Аноним 20/11/24 Срд 01:03:30 #514 №953935 
>>928590
а с того что на картах GTX хотя по охладу это 2000?
+ меня удроченного ебёт эирфлоу, если представить что все кулера крутят как в обычных пеках, то один проц греет второй и видяхи, а, и второму также достаётся выхлопом с видях, ониж не турбины.
Крч, рекламный кринж чтобы у школяров потекли слюни
comments powered by Disqus

Отзывы и предложения