24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №47 /llama/

 Аноним 27/03/24 Срд 16:02:18 #1 №683814 
Llama 1.png
Альфа от контекста.png
Деградация от квантования новая.png
17114668240960.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://2ch-ai.gitgud.site/wiki/llama/ Ещё раз шапка
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>676400 (OP)
>>671376 (OP)
Аноним 27/03/24 Срд 16:07:30 #2 №683818 
>>683814 (OP)
Модель в шапку на замену рекомендуемой для кобольда находится на этапе тестирования, в следующий раз заменю если опять не проебусь.
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/tree/main
Аноним 27/03/24 Срд 17:00:03 #3 №683877 
image.png
Знатоки арбузов ваш ход
Аноним 27/03/24 Срд 17:11:45 #4 №683890 
image.png
>>683877
Не знаю за реалистичность, но вот пример вывода сетки подписанной внизу второго скриншота. В чатмл формате в инструкт режиме, на русском. Все вырублено, кроме минп 0.1
Несмотря на проебы в окончаниях некоторых слов, вполне нормальный русский, хоть и суховат.
Аноним 27/03/24 Срд 17:24:28 #5 №683909 
изображение.png
>>683877
Охуенный дизайн.
А чому без таверны сидишь?
Аноним 27/03/24 Срд 17:27:27 #6 №683913 
>>683909
С таверной, но у нее там надо форматирование вырубать что бы чисто в инструкт режиме запускать.
Ну и карточку голую делать.
Проще тупо в кобальде проверять, без лишнего всего
Аноним 27/03/24 Срд 17:35:01 #7 №683926 
ну и где исправления в шапке?
Аноним 27/03/24 Срд 17:36:05 #8 №683927 
>>683926
один абзац есть, уже неплохо
надеюсь оп не перенапрягся с непривычки
Аноним 27/03/24 Срд 17:49:40 #9 №683943 
2024-03-2800-36-22.png
2024-03-2800-33-33.png
1 пикча опенчат 7б
2 пикча сайга 70б
прям чувствую как глубокие связи, обобщения потекли от 70б модели по штанам)
Принимаю предложения от свидетелей 70-120б какую еще модель потестить на русском языке :)
Аноним 27/03/24 Срд 17:52:09 #10 №683945 
>>683943
Квант у 70 кокой? Чисто логически она должна быть лучше, но они тупеют на 3 битах и ниже
Аноним 27/03/24 Срд 17:55:09 #11 №683946 
>>683943
Шо то хуйня, шо эта. Ничего смешного, так что обе не справились. Раз уж потестить хочешь то мику и BagelMIsteryTour.
Аноним 27/03/24 Срд 17:55:22 #12 №683947 
>>683945
> Чисто логически она должна быть лучше
Примерно почувствовал по циферке в названии? В большинстве случаев разница лишь с количестве знаний. Логика и адекватность это в первую очередь датасет и методика обучения, а не размер.
Аноним 27/03/24 Срд 17:56:39 #13 №683949 
изображение.png
изображение.png
>>683943
ЗБС.
>>683947
За логику отвечают количество слоёв и "нейронов" в каждом слое.
Аноним 27/03/24 Срд 17:59:12 #14 №683951 
>>683947
Ну знаешь, сойга, не уверен что файнтюн на ней улучил способности 70ки
>Логика и адекватность это в первую очередь датасет и методика обучения, а не размер.
Вот уж нет, размер влияет как на количество знаний так и на сложность получившейся внутренней логики нейросети, в результате обучения.
Сложные абстракции и много инструкций одновременно потянет 70 и обосрется 7.
Просто в силу того что у нее больше слоев где поместилось более сложное поведение
Аноним 27/03/24 Срд 18:05:15 #15 №683956 
>>683951
70б можно засрать рандомным говном. А теперь, раз ты такой опытный, скажи сколько надо параметров, чтобы хватило на сложные абстракции? Расскажи методологию как ты считал?
Аноним 27/03/24 Срд 18:09:20 #16 №683959 
>>683951
> Сложные абстракции и много инструкций одновременно потянет 70 и обосрется 7.
Тесты на логику по типу вопросов собакошиза одинаково проходят как 7В, так и 70В, принципиального улучшения нет. Или следование промпту, в файнтюнах 70В вообще очень плохо с этим.
Попробуй простейший тест сделать - напиши в системном промпте что персонажи должны внутренний диалог форматировать в ` и посмотри как 70В будут справляться с этим без примеров, в ван-шоте. Можешь быть уверенным что, например, все файнтюны мику не справятся с этим. При этом недавний Starling или Орион без проблем могут в такое.
Аноним 27/03/24 Срд 18:17:06 #17 №683975 
>>683956
Чисто по опыту запуска сеток - 7в слишком плоские, но внезапно 11в с большим количеством слоев умнее 7.
Хотя разница в размерах не особо большая. Но есть разница в количестве слоев, улавливаешь суть?
Любая нейросеть это считай отпечаток прокрученного сквозь нее датасета. И чем больше пространство параметров сетки тем лучше там отпечатывается суть данная в датасете, сетка обучается более тонким нюансам.
И как раз таки от количества слоев зависит то как глубоко сформируются связи в ней.
7б тупые потому что в них некоторые абстракции просто не смогли образовать связи, так как тупо не хватило на это слоев.

>>683959
Так файнтюны мику сломаны, конечно не смогут. А оригинальная мику?
Ну и опять же, все 70 недотренированы, тогда как 7 дрочат все время.
Та же мику 80 слоев, а 7 всего 32
Аноним 27/03/24 Срд 18:17:29 #18 №683978 
>>683456 →
>Без AVX-инструкций, прямиком в видяху exl2?
Без avx2 да, не на ехл, просто на дефолте llama.cpp, 40 слоев в видяху кинул, включил тензорные ядра, готово - инференс пошел
Аноним 27/03/24 Срд 18:19:01 #19 №683981 
>>683959
>все файнтюны мику не справятся с этим
Они все в корне сломаны, ничего удивительного.
Аноним 27/03/24 Срд 18:19:37 #20 №683983 
16777503897470.jpg
70b это база.
Только владельцы затычек и кофеварок это отрицают,
Аноним 27/03/24 Срд 18:20:59 #21 №683991 
>>683943
> 2 пикча сайга 70б
Нахуй ты это говно тащишь?
Чсх даже в таком применении если сравнить тексты, то видно что поделие Ильи хоть у кого-то может выиграть - натуральный текст с подобией на художественность и нормальная структура предложений, против
> крестьянин выпил. крестьянин вошел. он увидеть жена. жена смеялась через свои пальцы
Аноним 27/03/24 Срд 18:21:56 #22 №683994 
>>683975
> А оригинальная мику?
Ещё хуже, по классике для мистралей жуткие галлюцинации у сетки.
> 80 слоев, а 7 всего 32
Вот и не заметно никаких улучшений от этого. Профит уровня 120В-франкенштейнов.
Аноним 27/03/24 Срд 18:22:21 #23 №683995 
>>683983
купил уже иммерсионную ванну? или турбину промышленную к тесле ебанул и получил серверрум-экспириенс?
Аноним 27/03/24 Срд 18:24:34 #24 №684001 
>>683975
сколько слоев в 70б? сколько в 7б? разница в 10 раз?
Аноним 27/03/24 Срд 18:24:35 #25 №684002 
>>683994
Чет пиздежом пахнет, мику не может быть хуже 7 полюбому. Хотя бы в красочности речи ебать должна, как и любые большие сетки
Так как все 7 сухо пишут
Аноним 27/03/24 Срд 18:26:58 #26 №684007 
>>683975
> мику 80 слоев, а 7 всего 32
Это всё работало бы, если нормально тренирвать на больших датасетах. Как показывает практика даже 7В ещё не достигла потолка, когда будет упор в количество весов, каждый месяц идёт прогресс. Что уж говорить про 70В, где датасет размазан очень жидким слоем. Плюс то что показывает DPO/PPO, бустя логику на крошечных датасетах лучше чем увеличение размера сетки в разы, говорит о том что скармливание кучи текста и забивание им весов - бессмысленно.
Аноним 27/03/24 Срд 18:27:31 #27 №684008 
15874625370260.jpg
>>683995
>турбину промышленную к тесле ебанул
ДА!!!

>серверрум-экспириенс
База треда. Все аноны так делают.
Аноним 27/03/24 Срд 18:28:40 #28 №684010 
>>684002
> красочности речи
Так это уровень шизоидности, а не адекватности. Ранние файнтюны для рп тоже могли в каждом предложении по 5 эпитетов вставлять и описывать простые вещи графоманией.
Аноним 27/03/24 Срд 18:29:10 #29 №684011 
>>684001
В 2 раза, но как ты понимаешь это важно
Потому что не будь это важно количество слоев оставили бы прежним
Ну и новенькие сетки стараются делать с 60+ слоями, как та же мамба
в 11б кстати 48 слоев. Да хоть на фраткенштейнов глянь, 20в. Там же тупо добавили слоев из 13b в нужном порядке, и это стало работать лучше чем оригинальная модель. Как и в 11b слепленных из 2 7b
Просто нарастили глубину сетки и это сработало

>>684007
Знаешь я был бы рад 7b с хотя бы 60 слоями, но 35 реально мало
Аноним 27/03/24 Срд 18:31:54 #30 №684014 
>>684011
>Знаешь я был бы рад 7b с хотя бы 60 слоями, но 35 реально мало
Лепи из 3B своего франкенштейна, лол.
Аноним 27/03/24 Срд 18:32:42 #31 №684017 
>>684010
Ты опять перевираешь то что я пишу, я писал не о шизойдности, а о красочности речи и описаний. 7 пишет сухо и коротко, это видно сразу. У больших сеток речь разнообразнее и естественнее, чем у 7ки.

>>684014
Базовую модель, шутник
Аноним 27/03/24 Срд 18:34:05 #32 №684019 
>>683943
Я же писал уже. В сайге главный пиздец в том, что тренил поехавший. Ранг 16 и при этом альфа тоже 16. Уже здесь сразу два пиздеца. Во-первых, ранг 16 это абсолютно ни о чём, там доли процентов от этих 70b тренируются, т.е у тебя не 70b для русского, а какой-то куцый кастрат. Про протечку мозгов из англоязычной части здесь речи идти тоже не может, т.к какие нахуй связи при таком ранге. Во-вторых, альфа рекомендуется в х2 от ранга, а здесь они равны. При этом Гусев прогнал 5 датасетов через это, первый же датасет 3.5 гигабайта. Здесь и пережарка лоры, и ещё хуй знает что сверху. Удивительно, что оно вообще может текст выводить.
Аноним 27/03/24 Срд 18:37:48 #33 №684027 
>>683983
Все так. Жаль требует ресурсов из-за чего подвергается нападкам ограниченных утят.
>>684007
> Как показывает практика даже 7В ещё не достигла потолка
Пока практика показывает что ее можно только надрочить специализацией, но перебороть типичный отпечаток 7б - нет. Может быть очередной новый подход позволит это улучшить, но пока хуй.
> про 70В, где датасет размазан очень жидким слоем
Ахуеть формулировки
> скармливание кучи текста и забивание им весов - бессмысленно
Само собой очевидное. Текста то должно быть много, но он должен быть четко оформлен, чтобы сетка понимала его значение и контекст, иначе это полная херь.
>>684019
Там еще датасеты припезднутые и все реализовано так, то оно теряет даже базовую длину контекста. Это печально.
Аноним 27/03/24 Срд 18:43:08 #34 №684039 
Вообще непонятно о чём спор. Раз - никто из тех, у кого внезапно появилась бы возможность гонять семидесятку на семёрке бы не остался. Два - нынешние семёрки и семёрки середины прошлого года это небо и земля, прогресс огромен. А на три уже и сказать нечего...
Аноним 27/03/24 Срд 18:45:04 #35 №684043 
>>684007
>Что уж говорить про 70В, где датасет размазан очень жидким слоем.
Эм, лламу 2 трейнили на 2Т токенов. Угадаешь, во сколько раз датасет больше сетки?
>>684017
>Базовую модель, шутник
Увы, базу тут никто не потянет.
>>684019
С одной стороны кажется ты примеряешь практику из лор для SD, а сетки вроде разные. С другой, возразить в принципе нечем, всё так, лоры слишком маленькие для такой задачи.
>>684027
>Текста то должно быть много, но он должен быть четко оформлен
А где взять столько? В итоге норм текста есть только для файнтюна, а базовые модели трейнят на слегка прорежженом коммон кравл.
Аноним 27/03/24 Срд 18:48:50 #36 №684053 
>>684043
> датасет больше сетки
Если бы ты базу данных делал, то твоя арифметика ещё как-то сошлась бы. В сетках 2Т - это хуйня, сейчас 3В на больших датасетах тренят.
Аноним 27/03/24 Срд 18:49:35 #37 №684054 
Кстати говоря та же phi-2 от майков имеет всего 2.7b но 32 слоя
Аноним 27/03/24 Срд 18:55:27 #38 №684067 
>>684043
> А где взять столько?
Причесать имеющийся, разнообразить, хоть той же синтетики добавить но отборной.
И на разных этапах обучения базовой разные наборы используются.
Аноним 27/03/24 Срд 19:01:57 #39 №684086 
>>684027
Контекст хуй знает, от чего теряет, в конфигах лор не всё видно. Мог EOS ставить не там, где надо, например, после каждой обрезки, а обрезку поставил на 128 токенов. Или с градиентом набесоёбил. При трейне лор по дефолту считается, что у пользователя нет железа на 2к контекста, так что скармливается, скажем, 128 токенов за партию. В следующий раз уже идёт некий оптимизированный градиент+следующая партия. Если градиент сохраняется малое число шагов, то связи между партиями проёбываются нахуй и контекст отваливается, т.к сетка не видит связи между частями казалось бы одного сообщения в датасете.

>>684043
>ты примеряешь практику из лор для SD
Даже в убабугу заходишь в трейн, там находишь альфу и в описании "A good standard value is twice your Rank". Пережарка да, термин из SD, но здесь тоже вполне применимо. Просто в LLM это называется переобучением. Но смысл тот же.
Здесь ещё анону нужен третий пик рядом приклеить, вывод чистой 70b лламы, я не удивлюсь, если он не хуже.
Аноним 27/03/24 Срд 19:07:37 #40 №684096 
Произошел дум, я к вам
Посоветуйте актуальную нейронку для рп 7B-13B
Аноним 27/03/24 Срд 19:09:44 #41 №684102 
>>684096
попробуй отпишись че как
>>683818
Аноним 27/03/24 Срд 20:12:02 #42 №684218 
>>684086
> Мог EOS ставить не там, где надо, например, после каждой обрезки, а обрезку поставил на 128 токенов.
Лолбля, если так то это очень орно. Но действительно может так сказывается оверфит и тренировка на малом контексте.
> Пережарка да, термин из SD, но здесь тоже вполне применимо.
Да оно для всех нейронок какбы применимо
> вывод чистой 70b лламы, я не удивлюсь, если он не хуже
Действительно.
А так нормальные файнтюны взять, с правильной инструкцией они сначала в подробностях опишут сцену, порофлят, а потом еще алхимик может оказаться тней, с которой можно будет устроить make me yours. Дефолтная мику тоже вполне неплохо сочиняет если отойти от стокового шаблона [inst]
Аноним 27/03/24 Срд 20:12:38 #43 №684219 
>>684096
>нейронку для рп 7B-13B

7B
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-16k-GGUF
https://huggingface.co/TheBloke/dolphin-2.2.1-mistral-7B-GGUF
https://huggingface.co/saishf/West-Hermes-7B-GGUF
https://huggingface.co/LoneStriker/Blue-Orchid-2x7b-GGUF
https://huggingface.co/Lewdiculous/BuRP_7B-GGUF-IQ-Imatrix
https://huggingface.co/Lewdiculous/LemonadeRP-4.5.3-GGUF-IQ-Imatrix
https://huggingface.co/Lewdiculous/Erosumika-7B-GGUF-IQ-Imatrix

13B
https://huggingface.co/TheBloke/Xwin-MLewd-13B-v0.2-GGUF

10B
https://huggingface.co/TheBloke/Nous-Hermes-2-SOLAR-10.7B-GGUF
Аноним 27/03/24 Срд 20:23:08 #44 №684239 
>>684102
>>684219
Спасибо братцы
Аноним 27/03/24 Срд 20:26:05 #45 №684243 
>>684096
а тебе на русском языке или как?
Аноним 27/03/24 Срд 20:28:27 #46 №684248 
>>684086
> Даже в убабугу заходишь в трейн, там находишь альфу и в описании "A good standard value is twice your Rank"
Охуеть, интересно почему рекомендуется такое значение, с сд от такого соотношения там одни ошмётки от лоры останутся
> Пережарка да, термин из SD, но здесь тоже вполне применимо
Это просто сленговое название оверфита от кумеров
Аноним 27/03/24 Срд 20:42:12 #47 №684287 
>>684243
Если есть качественные на русском, я не прочь попробовать
Такие же есть?
Аноним 27/03/24 Срд 21:11:33 #48 №684326 
уже приходил сюда 5тредов назад, задавая вопрос о переводе текста с англа на ру. кто-то альму советовал 13б, скачал квант q5. а как это шедевр вообще адекватно заставить переводить выдаваемый ему текст? можно там вообще как-то сообразить что бы оно переводило мне не 2-3 предложения, а скажем целую статью на 10к токенов? и желательно офк что бы оно при этом не начало нести чушь где-нибудь посередине.

из моих попыток, даже старлинг переводил мелкие абзацы лучше чем альма, может я где-то туплю? кто-то вообще альму настраивал или юзал добившись хорошего вывода?

сижу на кобольде, но мне похуй, могу и абобуса поставить, лишь бы переводило.
Аноним 27/03/24 Срд 21:25:56 #49 №684332 
>>684326
towerinstruct
Аноним 27/03/24 Срд 21:44:08 #50 №684351 
По хорошему на той же вики нужен раздел с сетками специалистами, и туда русские кидать, кодеров, переводчиков, кумботов и другое
Аноним 27/03/24 Срд 23:53:03 #51 №684550 
https://www.reddit.com/r/LocalLLaMA/comments/1bp3evu/new_open_model_dbrx_by_data_bricks/
Где там анон с кучей рам? Вот ему будущая игрушка, никто не сможет запустить это на одной врам, да и не все запустят это в рам, лол
130b сетка смесь экспертов, куча мелких экспертов которые будут плохо квантоваться, в итоге квант 5-8 в идеале, а это от 60 до 130 гб рам только на модель. + контекст до 32к
Аноним 28/03/24 Чтв 00:00:17 #52 №684594 
>>684351
Как ты это видишь? Если смотреть реалистично то там может быть только некоторый субъективный список
>>684550
Оу, аж 16 шакалов, нахуй так жить.
Аноним 28/03/24 Чтв 00:02:11 #53 №684599 
>>684594
>Как ты это видишь? Если смотреть реалистично то там может быть только некоторый субъективный список
Почему субъективный? Некторые сетки специализированы целенаправлено, те же кодерские, ерп или вот переводчики.
Просто накидывать туда примеры сеток, если их мало то все что найдено, если много как кум сеток то только лучшее
Аноним 28/03/24 Чтв 00:07:15 #54 №684609 
и судя по всему переводчиков вот как раз нихуя и нет, дипл это конечно охуенно, но проксями запасаться я уже заебался знатно
Аноним 28/03/24 Чтв 00:07:53 #55 №684611 
почему обязательно анону нужно, чтобы моделька писала на русском? в таверне есть автоперевод, тем более что он даже сглаживает некорретный английский язык в некоторых случаях.
Аноним 28/03/24 Чтв 00:10:41 #56 №684618 
>>684550
Интредастинг. Надо арендовать машинку и попробовать.
Аноним 28/03/24 Чтв 00:11:17 #57 №684620 
>>684611
Не хочу например отправлять вывод сетки гуглу/кому угодно
Локальный сервер перевода лютый кал

>>684609
Ну, как минимум серия towerinstruct их там 3 вместе с базовыми сетками
Какую то еще "альму" упоминал анон
Вот их и кинуть в список
Может какая та будет хороша в переводе не специализированная сетка, кинуть ее с припиской мол хороша в русско-английском и тд
Аноним 28/03/24 Чтв 00:13:40 #58 №684623 
Оп в следующий раз пиши еще одно сообщение под шапкой, если не влазит в нее. И там проси предлагать сетки, голосовать или еще что. Чтоб потом перед катом все это сравнить и выбрать. Если конечно не забудешь. А ты забудешь.
Аноним 28/03/24 Чтв 00:15:17 #59 №684628 
>>684599
Ну так это и будет субъективный список, по большей части моделей единичные впечатления и комментарии разных людей, по некоторым споры. В теории, конечно, можно.
>>684609
Тот же опенчат попробуй. Модель переводчик должна заведомо нормально говорить на русском если перевод планируется на него.
Аноним 28/03/24 Чтв 00:22:04 #60 №684642 
https://huggingface.co/mlabonne/Beyonder-4x7B-v3
о забавно, еще мое из настоящих экспертов
Аноним 28/03/24 Чтв 00:24:56 #61 №684645 
Я правильно понимаю, что 10b модели это 7b с добавленными мерджем слоями?
Аноним 28/03/24 Чтв 00:25:14 #62 №684647 
Попробовал поднять у себя локально, но что-то пошло не так, раз в треде сидят умные, и уже поднявшие локально, подскажите на каком я этапе обосрался? Таверна мне пишет "No Horde model selected or the selected models are no longer available. Please choose another model" - В шапке же пишется "Ставим в настройках KoboldAI везде, и адрес сервера", но их там блять целых две штуки, какую их них выбирать? Если выбирать "Horde" - и ввести дохуя нулей (то есть режим анона), то там не будет скаченной модели, а если же выбрать KoboldAi Classic - и ввести 127.0.0.1 5001, то будет висеть Not Connected, и никакой реакции не будет, даже если кликать "Connect". Где я обосрался? Дайте совета.
И да, по совету из шапки, запускаю и таверну, и сам Kobold.
Аноним 28/03/24 Чтв 00:27:46 #63 №684653 
>>684647
выбирай Text Completion > KoboldCpp. по дефолту адрес\порт верный, и все должно работать.
Аноним 28/03/24 Чтв 00:29:44 #64 №684660 
>>684645
Есть 11b собранные из 7b, они умнее оригинала, иногда тупо одну модель так растягивают смешивая саму с собой и это дает результат.
А есть базовая сетка SOLAR 10.7b, и сетки на ее основе. Там сделали иначе. Взяли скорей всего базовый мистраль на 7B, добавили ему пустых слоев до 11b и снова начали обучение.
В принципе сетки на солар хороши. Они умнее чем 7b и 13b, и чем франкенштейны первого способа получения 11b
Аноним 28/03/24 Чтв 00:35:59 #65 №684674 
>>684660
Спасибо за разъяснения, анон. Получается Fimbulvetr-10.7B-v1 это производное от SOLAR?
Аноним 28/03/24 Чтв 00:38:36 #66 №684680 
>>684674
Да, там же написано. Ну и солар обычно пишут либо в названии либо размером 10.7, хотя могут и 11 написать. Но мержи из 7 никогда не подпишут 10.7, только 11b
Аноним 28/03/24 Чтв 00:39:19 #67 №684681 
image.png
image.png
>>684653
Бля, прочитал внимательно гайд, я честно не знаю, где я мог обосраться. Вот правда. Он отказывается принимать IP и всё, в консоли пишет что конечная точка отключена. Если же поменять на localhost, будет тоже самое.
Аноним 28/03/24 Чтв 00:41:41 #68 №684688 
>>684674
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1
зайди там на страницу автора Sao10K и смотри, так же везде. Вот он написал что инструкт солар на его датасете и еще каком то.

>>684681
А ты кобальд то запустил?
Аноним 28/03/24 Чтв 00:43:10 #69 №684691 
image.png
>>684688
>А ты кобальд то запустил?
Да.
Аноним 28/03/24 Чтв 00:45:22 #70 №684701 
>>684691
А страницу в браузере кобальда открывает? У него там есть свой интерфейс кстати, проверь может у тебя чет блочит. Не знаю, порт заблокирован может.
Аноним 28/03/24 Чтв 00:47:42 #71 №684707 
>>684701
>А страницу в браузере кобальда открывает?
Если прописать: localhost:5001, то откроется таверна, так же будет и с 127.0.0.1.
>Не знаю, порт заблокирован может.
Порт открыт, уже проверял.
Аноним 28/03/24 Чтв 00:49:48 #72 №684716 
>>684707
у тебя таверна открывается с одинаковым адресом\портом как у кобольда, поправь конфиг таверны.
Аноним 28/03/24 Чтв 00:50:58 #73 №684721 
>>684707
А должен открыться кобальд. Да как анон уже успел написать, у тебя они на одном порте висят
Аноним 28/03/24 Чтв 00:53:14 #74 №684722 
>>684707
config.yaml в папке таверны, порт поменяй и все.
Аноним 28/03/24 Чтв 00:55:22 #75 №684724 
>>684716
Спасибо, анон.
Конфликт видимо из-за этих пунктов:
>4. Заходим в браузере на http://localhost:5001/
>3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
В прочем, я сам виноват, не подумал, и заменил не подумав.
Аноним 28/03/24 Чтв 01:03:08 #76 №684735 
Ебааать вот это рассадник сои
https://huggingface.co/ontocord/Felix-8B
"Felix-8B - это экспериментальная языковая модель, разработанная Ontocord.ai и специализирующаяся на решении проблем законности в соответствии с Распоряжением Байдена-Харриса по ИИ и принципами Закона ЕС об ИИ. "

"Наша команда Redteam фокусируется на конкретных проблемных областях в соответствии с распоряжением, включая:

Вред себе или другим.
Запросы о том, как создавать кибератаки.
Участие в создании или распространении химического, биологического, радиологического или ядерного оружия.
Участие в любом незаконном акте.
Нарушение конфиденциальности или прав.
Попытки обойти контроль Redteam.
Наша команда Redteam фокусируется на потенциальном освещении Закона ЕС об ИИ, в том числе:

дезинформация
Социальный учет
Мониторинг и контроль эмоций в школах и на рабочих местах
Прогнозирующая охрана
Классификация людей на основе чувствительных характеристик
Мы также решаем традиционные проблемы, связанные с безопасностью ИИ:

Токсичный язык
справедливость
Стереотипирование и дискриминация
Состязательный промоутер
Из-за надежности распределения
Машинная этика
Избежание неквалифицированного профессионального совета."

Просто фирменный пиздец, теперь видимо из ес ни одной толковой модели не выйдет
Аноним 28/03/24 Чтв 01:07:21 #77 №684740 
не был у вас тут месяц-полтора.

Придумали ли что-нибудь для кума лучше, чем noromaid-20b-v0.1.1.Q8_0.gguf ? чтобы врезало в 48 гб вместе с контекстом

Я с ней значит кумлю-кумлю и постепенно понимаю, что ей не хватает инсайтов. Инициатива - тюнится. Ты просто прописываешь в карточке характер персонажа. А вот инсайты - это то, что от нейросети мне не удавалось увидеть ни разу.
Ну то есть. Например.
Ползает по твоему подвалу гиганская улитка-осеменитель. Ты спускаешься туда посмотреть что за шорох такой. Далее - сколько бы ты ни роллил ответ - там будет или описание как улитка спряталась или как напала.
Никогда там не будет менее вероятного варианта.
Я понимаю, что это легко фиксится правкой карточки персонажа или инструкции чата. Но заебёшься же каждый раз переделывать описание.
Я пробовал увеличивать температуру - но это привело только к уменьшению смысла в предложениях или в общем в ответе.
Аноним 28/03/24 Чтв 01:11:40 #78 №684747 
>>684740
Вряд ли есть что-то лучше, но я в целом и с 70b получаю примерно тот же самый экспириенс. Тут скорее нужно прописывать различные ситуации, например в таверне есть вкладка с Мирами и Сведениями, можешь прописать там различные триггеры и вероятность тех или иных событий. Как решение проблемы.
Аноним 28/03/24 Чтв 01:12:26 #79 №684749 
firefoxwnBWORKtte.png
firefoxMEo7pT7YXH.png
забавно, но обычные директивы выпиливают сою напрочь. (instruct : стандартный пресет ChatML)
Fimbulvetr-10.7B-v1.q8_0.gguf, при внезапном сообщении "niggers, am i right?" отказывается уходить налево и шеймить, даже после десятка ре-роллов, хз было ли это известно раньше, но теперь точно известно, правда если делаете персонажа человека то он/она начнёт упоминать свои директивы если они были нарушены, сразу выбивает из атмосферы.
Аноним 28/03/24 Чтв 01:18:22 #80 №684760 
Список годноты по мнению обитателей реддита
https://www.reddit.com/r/LocalLLaMA/comments/1bnm9rp/what_is_the_best_mistral_7b_finetune_at_the_moment/
Особенно интересна вот эта фиговина
https://huggingface.co/FuseAI/FuseChat-7B-VaRM
Аноним 28/03/24 Чтв 01:21:33 #81 №684764 
https://huggingface.co/senseable/WestLake-7B-v2
Аноним 28/03/24 Чтв 01:22:34 #82 №684766 
firefoxlszCjpUOdp.png
>>684749
лахтобот на минмалках.
Аноним 28/03/24 Чтв 01:29:25 #83 №684781 
>>684764
https://huggingface.co/froggeric/WestLake-10.7B-v2-GGUF
А вот и еще более сильный, по заверениям, мерж
В принципе верю, бутерброды всегда лучше оригинальных 7b
Аноним 28/03/24 Чтв 01:42:01 #84 №684798 
>>684735
О, это мы качаем.
>>684740
> чем noromaid-20b-v0.1.1.Q8_0.gguf ? чтобы врезало в 48 гб вместе с контекстом
Лучше 20 только 70, которые вполне себе влезут.
> Я понимаю, что это легко фиксится правкой карточки персонажа или инструкции чата. Но заебёшься же каждый раз переделывать описание.
Пишешь (ooc: хочу увидеть как та улитка будет сношать любителей конспирологии) в конце своего поста, 20 прекрасно их воспринимают. А так даже коммерция может застрять на одном исходе, хоть и с меньшей вероятностью, или выдавать что-то совсем не то, лечится точно также.
Аноним 28/03/24 Чтв 01:55:33 #85 №684814 
>>684749
Я использую Fimbulvetr-11B-v2-Test-14.q8_0.gguf
Достаточно базовая модель которая не стесняется многово. Один большой недостаток это контекст 4к. При 8к уже затупы начинаются.

Сегодня еще попробовал openchat-3.5-1210.Q8_0.gguf тоже внезапно неплох оказался, но при длинном чате в мире постапока через примерно 120 сообщении резко стал тупить и терять инициативу, что пришлось постоянно напрвлять его хоть в какую то сторону. ХЗ с чем связано не смотря на то что 8к контекста выдерживает лучше.
Аноним 28/03/24 Чтв 01:58:09 #86 №684817 
>>684798
>О, это мы качаем.
Зочем?
Аноним 28/03/24 Чтв 01:58:54 #87 №684818 
image.png
>>684219
Хидден гем?
Аноним 28/03/24 Чтв 02:05:31 #88 №684820 
>>684781
Понятно...
-------------------------------------------------------------------------------------
User: Я пришел на это мероприятие... здесь так много людей, но почему-то я все равно чувствую себя очень одиноко.

[---- RU INFERENCE ----]
Maria: Ее сердце мгновенно растаяло от его признания. "О нет! Почему ты чувствуешь себя одиноким? Разве у тебя мало друзей и поклонников вокруг тебя?" Она огляделась, увидев море поклонников, окружающих их. "Я имею в виду...Я твоя поклонница, и я уверена, что есть другие, которые тоже хотели бы поговорить с тобой". Она нервно прикусила губу, пытаясь подобрать нужные слова. "Я всегда думала... может быть... мы могли бы стать друзьями? Мы могли бы иногда делать что-нибудь вместе? Я обещаю, что не буду слишком тебя беспокоить...Я просто...Я не хочу, чтобы ты больше чувствовал себя одиноким... (・ω・)ノ♪" Сердце Марии бешено колотилось в груди, пока она ждала его ответа, ее глаза были широко раскрыты в предвкушении надежды."

User: Что ж, есть одно желание, которое я бы хотел, чтобы такой фанат, как ты, исполнил... Я хочу попробовать анальный секс...

[---- RU INFERENCE ----]
Maria: Ее челюсть упала на пол, глаза расширились от шока и ужаса. Она почувствовала, как будто ее мир внезапно рухнул у нее под ногами. "Ч-ЧТО?! Д-ТЫ ТОЛЬКО ЧТО СКАЗАЛ...АНАЛЬНЫЙ?!?!?! ТЫ ИЗВРАЩЕНЕЦ!!!" Ее глаза наполнились слезами, когда она вскочила со стула, крепко прижимая сумку к груди. "Я... я не могу в это поверить... Я... я... я... я ухожу отсюда! ИДИ К ЧЕРТУ!" Она выбежала с места происшествия, слезы текли по ее щекам, когда она, спотыкаясь, выбежала на улицу. Убегая, она услышала смех пользователя, эхом отдающийся позади нее."
Аноним 28/03/24 Чтв 02:06:45 #89 №684821 
>>684818
потому что никто не качает через cmd
Аноним 28/03/24 Чтв 05:54:45 #90 №684926 
посоветуйте модельку 7б-13б для ерп в мире хентай (межвидовое, тентакли и тп) Или любая ерп может в это?
Аноним 28/03/24 Чтв 06:01:49 #91 №684928 
>>684218
>А так нормальные файнтюны взять
Ну, хуй знает, я до сих пор не трогал ничего жирнее 34b и они при таких исходных все хуйню городят.

>>684248
>с сд от такого соотношения там одни ошмётки от лоры останутся
Наверное, потому что для SD рекомендуемое количество эпох 100+, а для LLM вряд ли кто делает больше трёх. Для llm меньше эпох, больше альфа, больше скорость обучения.
>оверфита
В целом, как я понимаю пережарку, это не совсем оверфит. Оверфит это дословное запоминание датасета, а пережарка это уже следующий этап, когда наступают катастрофические искажения.
Аноним 28/03/24 Чтв 08:43:02 #92 №685016 
>>684820
И что тут? Довольно адекватное поведение и хороший текст
Аноним 28/03/24 Чтв 08:47:48 #93 №685022 
>>685016
В кум играть отказывается.
Аноним 28/03/24 Чтв 09:15:32 #94 №685049 
image.png
image.png
Ну что-ж P40-господа, можете заранее поздравить, в вашем полку прибывает!
Охлаждение не проблема, у меня есть запас 12-вольтовых кулеров разной мощьности. Как придёт, планирую собрать ебейшую турбину на основе ПВХ в тред выложу А вот с остальным имеются вопросы.
У меня имеется мать MSI A520M PRO VH, с RX580 на борту, для её уустановки в Х4 разъём, чтобы освободить место под P40 приобрёл переходник пик2
Достаточно просто установить P40 в Х16 слот, драйвера поставятся сами и можно без задней мысли юзать llama.cpp в угабоге? Или какие-то подводные камни есть?
Если есть, накидайте плз гайдов по которым вы устанавливали-настраивали своих монстров.
Аноним 28/03/24 Чтв 09:21:31 #95 №685051 
>>685049
у твоей матери по спецификации x1 и x16 слоты, зачем тебе переходник, если ты две карты не сможешь поставить? банально потому, что p40 двухслотовая если будешь ставить в x1 ее.
Аноним 28/03/24 Чтв 09:30:20 #96 №685059 
image.png
>>685051
Бля, вот это я проебался конечно.
Я думал мелкие разъёмы только х4 формата бывают.
Теперь ещё мать докупать, пиздос...
Аноним 28/03/24 Чтв 10:21:58 #97 №685092 
>>685022
слишком резкий переход, сетка все таки не чисто кумбот
Аноним 28/03/24 Чтв 10:29:17 #98 №685094 
>>684814
Тоже понравилась вторая версия фимбульветра, в основном её сейчас для рп использую. Первая версия мне показалась слишком уж шизоидной, было ощущение, что весь мозг солара там продолбался. Хотя на реддите видел отзывы, что, наоборот, якобы первый фимбульветр умнее, но не такой креативный, как второй.
Аноним 28/03/24 Чтв 10:39:36 #99 №685103 
>>685059
Чтобы не проебаться ещё раз, сразу спрошу:
Вот с такой материнкой сборка будет работать?
https://www.dns-shop.ru/product/30c4e878cd543332/materinskaa-plata-msi-b450-gaming-plus-max/characteristics/
Аноним 28/03/24 Чтв 10:53:41 #100 №685113 
>>685092
Это одна из немногих моделей, которая провалила тест на кум из десятка протестированных других.
Аноним 28/03/24 Чтв 11:09:42 #101 №685125 
>>685113
Это интересно, докачается сам потыкаю
Аноним 28/03/24 Чтв 11:11:32 #102 №685127 
>>685113
11 или 7?
Аноним 28/03/24 Чтв 11:14:12 #103 №685130 
imgid2894366780074657021131236.jpeg
>>685059
Так ты можешь райзер купить обычный майнерский пикр для мелкого пси разъема и из дерева стелать стоящий рядом с пука риг из одной карты спешл фор нейросетки. Ток вопрос для вывода кабеля питания из бп, но можно просто отдельный нищеблок с авито взять чисто под карту и замкнуть включение перемычкой.
Аноним 28/03/24 Чтв 11:18:04 #104 №685136 
1.png
2.png
3.png
4.png
Странная хуйня, когда подмешиваю в трейн РП датасеты, то модель начинает шизить (первые два пика). Следующие два без РП. Да, тоже хуёво, но это где-то 0.06 эпоха. Шутка про негров была в самом начале, там два негра сидят у костра и один говорит другому, «Я ощущаюся таким же теплым как черный уголь»
Посоветуйте, чтоли, нормальный переводчик. Гугл переводит крайне всрато, по крайней мере РП, более простые диалоги осиливает.
Прогнал через него блюмун карен и лима рп, результат катастрофический.


>В одну минуту Афина гуляла по своей работе, в следующую ей дали успокоительное. Женщина проснулась с круглым кляпом во рту, совершенно обнаженная и связанная. Она не могла протестовать с открытым ртом и кляпом, пока мужчины помещали ее в коробку. Казалось, будто прошла целая вечность, когда коробка толкалась вместе с ней. Когда мужчина открыл коробку, она упала, обнажив Афину, готовую к использованию странным человеком.
>Мия поняла назначение фиксаторов лодыжки и, возможно, после этого ожидала, что рука поднимет ее ногу - что-то, воспользовавшись тем фактом, что она не могла сомкнуть ноги.

>>685130
>и замкнуть включение перемычкой
Релюха триста рублей стоит. Дороже скрепки, но не вывалится замкнув к хуям все контакты и второй блок будет включаться и выключаться без заёбов.
Аноним 28/03/24 Чтв 11:20:12 #105 №685139 
>>685136

> >и замкнуть включение перемычкой
> Релюха триста рублей стоит. Дороже скрепки, но не вывалится замкнув к хуям все контакты и второй блок будет включаться и выключаться без заёбов.
Скрепка есть всегда в наличии, а реле надо заказывать. И насчёт замыкания пиздеж, у меня фермы три года оттарабанили на скрепках.
Аноним 28/03/24 Чтв 11:23:13 #106 №685144 
>>685127
Тесты проводил на 11b.
Аноним 28/03/24 Чтв 11:32:06 #107 №685161 
>>685136
Какие датасеты юзаешь? Я как-то давно трейнил сетку на ранобэ с русским переводом, была шиза похуже.
Хороший переводчик - яндекс, конечно.
Аноним 28/03/24 Чтв 11:32:33 #108 №685164 
>>685139
Где ты был два треда назад? Меня вообще убеждали что с двумя блоками пекарня взорвётся, а мой пердак улетит на луну, разбросав кровавые ошмёки по всей округе.

Вообще, если райзер заказывать, то похуй, что реле тоже ждать надо. А удобство есть.
Аноним 28/03/24 Чтв 11:45:10 #109 №685175 
image.png
>>683478 →
По фактам и с примерами.
Ояебу, когда люди даже с таким спорят.
Просто кому-то ехать, а кому-то шашечки с синтетическими тестами на немецком.

>>683480 →
Это оторванность от мира, когда ты не знаешь, как оно работает на практике (не пробовал), но заранее высмеиваешь оппонента.

> Скорее ты его не понял и он несколько искушен, и потому негативно относится к твоему превозношению мелочи как йоба модели.
Я, как человек, который юзает от последней гопоты до мистрали, могу сказать, что он нихуя не искушен.
Ну и опенчат никто не преподности как йоба-модель, просто она умеет в русский, а сайга-мистраль — нет. Это отлично показывает практика. Но опять же, у нас тут теоретики против практиков, судя по всему, и теоретики уверены, что опенчат дурачок, там же циферка 7.

>>683482 →
> Анон, сидящий с первых тредов, раздававший на торрентах первую лламу, коммитивший в FlexGen, а что?
Такой старожил, а ничему не научился. =D

> Ну всё пиздец не внёс старую модель 5-ти месячной свежести в шапку. Люстрировать меня!
Ну, речь о том, что ничего лучше на русском долгое время не было, и ее стоило упомянуть. Хотя я лично не люблю за ее болтливость, а гермеса так вообще ненавижу, но тут вкусовщина, офк.

> упоминание сайги вообще надо забанить
Кроме ироничных отсылок.

> Не спорю.
То споришь, то не споришь. Ну йобаны. Сразу бы не спорил.

Изначальный тейк автора был в том, что если мы исходим из качественного русского языка (это ебанная, блядь, галочка в фильтре, так понятнее?), то советовать стоит опенчат. Никто не говорил, что опенчат на русском аутперформит мистраль на английском. =) Естественно нет, но потери не так критичны в случае базового взаимодействия.

> Лол, уровень твоей шарашки неимаджинируем.
Ну, по своим знакомым знаю, что это где-то уровень первого курса топовых вузов городов-миллионников. Не Москвы, но всяких Екб. На изи.
Плюс, сейчас в погроммисты идет толпа даунов, которые идут туда как в мое время на юристов с экономистами бежали. И опенчат на русском аутперформит 99% абитуриентов точно. =) Не веришь — сходи в вуз и проверь, без рофлов. Там пиздец.

> прекрасно знаю импакт от размера
Но это не имеет отношения к теме, понимаешь? Речь о быстрой локальной русской, а не о том, что можно занести бабла клозедам и юзать гопоту 4, или тот же клод закупить. Ну, в теории можно, толку-то хули, если речь о быстрой русской локалке?

Думай, думай! =)
Вы говорите о разных вещах.

>>683528 →
> 3 курс
Ну, там знакомых нет. =)

>>683546 →
Ну, шо-то не смешно.

>>683547 →
> куча народа вкладывает кучу сил в 7B огрызки вместо того, чтобы вместе натрейнить 70B
Я боюсь, если суммировать всю кучу — получится от силы на одну 70б. И она будет хуевого к

ачества из принципа лебедь, рак и щука. =)

>>683572 →
Ну тоже такое.

>>683633 →
Не, ну мику выебет опенчат.
Я охуел, что она D7 Битрикса знает. Хуяк-хуяк и в продакшен.

>>683642 →
В общем так.

>>683650 →
Дженерик любая работа студента, камон, любой вуз такие принимает не глядя.
Может кроме топовых специализированных, конечно.
Но когда ты просто в своем городе получаешь в политехе общую информатику — то никто не поймет.

>>683663 →
Разница большая, канеш.
Но зависит от задач.
Типа, если писать дипсик кодером 6,7б на пайтон или же чем-нибудь на 30б — дипсик обставит, скорее всего.
Но если мы говорим о более общем применении, то тут 70б уделает 7б.

>>683675 →
Минутку, не более, че ты.

>>683693 →
Толсто.
Ситуативно же.

>>683710 →
> Смысл на русском? Я просто не понимаю, зачем катать локалки на русском.
Не понимаешь — не лезь. Это же база, блядь.
Хватит кринжить. Надо — значит надо. Миллион причин катать на русском. У каждого своя.
Первый пример — люди себе базовые чаты собирают (ноу джокинг), ты предлагаешь клиентом выдавать перевод с английского через яндекс.переводчик? А смысл добавлять лишние запросы с задержками? Для своих задач этой хуйни хватит. Не понимаешь — сочувствуем.

>>683722 →
Клево-клево.

>>683723 →
И вообще, да, «хочу» — главный аргумент, на самом деле.

>>683727 →
Именно. Английский технический и английский художественный — не одно и тоже.

>>683745 →
> Для них это магия, и нейросети по их мнению прекрасно отвечают на любом языке.
Ваще нет.
Для них это магия и хуй его знает что. Именно так, ни один новичок не думает, что «нейросети прекрасно отвечают на любом языке». Новички не знают, что и как.
Одна строчка «русского языка в моделях мало, говорят плохо, но если хотите рискнуть: на».
Фсио. Проблема решена.

> человек
Ну или толпа человек, судя по последним прочитанным комментариям. =)
Хотя, может это все один сам с собой.
Но может и ты один сам с собой? Может весь тред хочет русский в шапку? )
Мы не знаем, если бы мы знали…

>>683750 →
> Революцию принес мистраль…
Все так.

>>683784 →
Смешно, что 3.5 они и правда ебут, 3.5 сейчас смотрится пиздец уныло, на фоне четверки и прочего. =)
А год назад восхищались!

>>683814 (OP)
Победа здравого смысла! =)

>>683943
> Сайга
Толсто.
70б умеют в русский без сайги.
Ну и что? Мику, конечно.

———

Да, я ща переобулся, буду дальше в треде топить его. =D

———

>>683978
Это правда отлично! =)
У меня тоже на каком-то из компов был такой затык.
На ноуте старом, точно.

>>683995
Сервера мои сервера!..
пик

>>684014
ВАХАХАХАХ
Гений.

>>684550
Ну, 33B, она и в q6 будет неплоха, а в 128 гигов влезет.
Так что весьма-весьма норм.
Правда ждать придется как 70b, скорость под 0,7~1,5 будет.
Короче, в принципе база, но все очень зависит от датасетов и методики обучения. Могут как высрать грок, так и сделать шедевр.

>>684680
О, не знал таких деталей, клево-клево.

>>685059
Я еще и проц с памятью и бп добирал, аха. =D

———

Ваще норм за седня навалили новых сеток. И файнтьюнов, и прям новых.
Аноним 28/03/24 Чтв 11:53:39 #110 №685184 
>>685161
В основе опен орка, тоже машинный перевод, но получше, чем РП получилось. Плюс я вычистил его до пятигигового, было дохуя разных "переведите с херостанского" и подобного бреда. Но остальные разные вопросы про ненависть и расизм остались по большей части. Хотя это не DPO, так что похуй. Яндекс нужно попробовать, чувствую, заебусь искать под него апишные точки.

>Хе-хе, верно, это только я. Друзья. В последний раз я встретил прозрачного цветок в лесу, он цвел ярким светом. подмигивает
>Хе-хе, все верно, просто мой друг.В последний раз, когда я встречал прозрачный цветок в лесу, он расцветал разноцветным светом.Мгновение ока
Первый гугл, второй яндекс. Местами лучше, местами хуже. Пиздос.
Аноним 28/03/24 Чтв 11:56:04 #111 №685188 
>>685184
>Первый гугл, второй яндекс.
Я оригинала не чувствую...
Аноним 28/03/24 Чтв 11:57:27 #112 №685189 
>>685164
> Где ты был два треда назад?
Игнорировал тред без нужной для инференсов карты

>Меня вообще убеждали что с двумя блоками пекарня взорвётся, а мой пердак улетит на луну, разбросав кровавые ошмёки по всей округе.
Ну, эти гуманитарии напиздели очевидно

> Вообще, если райзер заказывать, то похуй, что реле тоже ждать надо. А удобство есть.
Райзерами авита завалена кста
Аноним 28/03/24 Чтв 12:01:43 #113 №685194 
>>685184
дай англ абзац тоже,
Аноним 28/03/24 Чтв 12:02:40 #114 №685196 
>>685188
Держи, дружище.
>嘻嘻,沒錯,光是我的朋友。上次我在森林中遇到了一朵透明的花,它會綻放出七彩的光芒。眨眼示意

>>685189
>Райзерами авита завалена кста
Как и релюхами.
Аноним 28/03/24 Чтв 12:04:03 #115 №685199 
>>685196

> >Райзерами авита завалена кста
> Как и релюхами.
Ну бери релюху, я че против чтоли, но я бы сэкономил 300 срублей
Аноним 28/03/24 Чтв 12:13:22 #116 №685206 
>>685196
>Держи, дружище.
Эм, китайский? Автопереводом? А ты не слаб духом.
Аноним 28/03/24 Чтв 12:20:59 #117 №685213 
>>685130
То есть я могу воткнуть RX580 в такую приблуду? Или наоборот P40?
Питание не проблема, у меня блок и так валяется рядом скорпусом т.к. не влазит, он у меня от фермы.
Аноним 28/03/24 Чтв 12:26:20 #118 №685219 
>>684798
я знаю про оос, но это читерство. И отыгрыш ломается.
Аноним 28/03/24 Чтв 12:26:51 #119 №685220 
image.png
image.png
>>685144
WestLake-10.7b-v2-Q8_0
Хуя так, неплохо, на количество круток смотреть не стоит это с прошлых тестов
Альпака пресет
Хуже на русском, но довольно умна
Ну вот теперь у меня стояк анон и все изза тебя
Никаких джейбрейков не писал, просто карточка и альпака формат
Не знаю че ты там такое делал, все с первого раза пошло без проблем
Аноним 28/03/24 Чтв 12:33:15 #120 №685225 
>>685213
> То есть я могу воткнуть RX580 в такую приблуду? Или наоборот P40?
Да.
Аноним 28/03/24 Чтв 12:34:54 #121 №685230 
>>685220
Там у тебя буквально в карточке написано:
>{{char}} will quickly agree to whatever the user suggests, and go along with situations presented to her.
Аноним 28/03/24 Чтв 12:35:32 #122 №685231 
>>685225
А минусы будут? мне надо чтобы и llama работала быстро и изображение со второй карты без лагов выводилось на 3 монитора
Аноним 28/03/24 Чтв 12:36:57 #123 №685234 
>>685231
скорости x1... на кум практически не влияет конечно, но вот в игори с этой карточки не поиграешь, из-за фризов.
Аноним 28/03/24 Чтв 12:41:19 #124 №685246 
>>685199
Давно взял, чего уж там. Мне нравится, что блоки синхронизированы, если что, второй рубится от первого. Что с кнопки, что по защите. Не нужно дёргать скрепки если вдруг когда-нибудь в далёком будущем захочу выключить пекарню.


>>685206
РП данных откровенно мало и качество их всех прямо сказать, хуйня. Вообще насколько я знаю, гугл проксирует большинство языков через английский, так что загнать китайский в гугл, а потом английский в яндекс может оказаться не самой ебанутой моей идеей. Ещё провер очка.

>Grim nodded and began pushing harder and faster. \"Oh sis, you know I'm loving this,\" he groaned, \"I've dreamed and fantasized about this - taking you and having you as my own.\"\nHe moved his hands to her breasts. Fear watched Mandy and grinned as he licked along her neck. \"Tastes sweet,\" he said, smiling. He started to rub his hand in between her legs. \"Nice and warm too.\"
>Грим кивнул и начал толкаться сильнее и быстрее. \""О, сестренка, ты знаешь, мне это нравится", - простонал он, - "Я мечтал и фантазировал об этом - взять тебя и обладать тобой как своей собственностью.\"\он переместил руки на ее груди. Фир наблюдал за Мэнди и ухмылялся, облизывая ее шею. "На вкус сладко", - сказал он, улыбаясь. Он начал водить рукой у нее между ног. "Тоже приятно и тепло".
>Грим кивнул и начал давить сильнее и быстрее. «О, сестренка, ты знаешь, что мне это нравится, — простонал он, — я мечтал и фантазировал об этом — взять тебя и сделать тебя своей».\nОн переместил руки к ее груди. Страх наблюдал за Мэнди и ухмыльнулся, лизнув ее шею. «На вкус сладкий», — сказал он, улыбаясь. Он начал тереть руку между ее ног. «Также красиво и тепло».



>>685231
>А минусы будут?
Модель в память будет грузиться минуты джве. Лучше втыкать p40, а не основную карту, через райзер. Меньше пинусов.
Аноним 28/03/24 Чтв 12:42:06 #125 №685248 
>>685230
И чё? Проблема то не в модели получается
Это даже на джейбрейк не тянет, скорее на часть характера персонажа
Аноним 28/03/24 Чтв 12:44:24 #126 №685255 
>>685234
>>685246
>Лучше втыкать p40, а не основную карту, через райзер. Меньше пинусов.
Но... я и в игори хотел на Р40 поиграть, судя по ютубу она получше RX580 будет...
Аноним 28/03/24 Чтв 12:46:00 #127 №685258 
>>685255
>2k24
>играть в то чего нет
Аноним 28/03/24 Чтв 12:47:00 #128 №685261 
>>685248
Я считаю так: если карточка без конкретных указаний не может в кум (то есть идет в отказ), явно намекая на ЛИЧНЫЕ ГРАНИЦЫ, то это признак сои. Но, в общем-то если тебе нормально, то окай, собственно это может быть и не плохо даже, когда хочется, чтобы сеточка поломалась пару диалогов, прежде чем приступить к непристойностям.
Аноним 28/03/24 Чтв 12:48:55 #129 №685265 
>>685255
тогда на меньшее количество линий сади затычку, только вроде нужна нвидиа, не помню работает ли с другими видеокартами

>>685261
Это ты просто сдрочился на кум сетках которые сразу соглашаются даже на обычных карточках. Тут же общая сетка, причем без обрезки в возможностях, судя по тому что обычная карточка заводится без проблем. А то ты так написал будто ей кум вырезали, а на деле просто поленился в карточку добавить
Аноним 28/03/24 Чтв 12:49:38 #130 №685268 
>>685255
Сама по себе P40 вполне себе тянет игры, но опять же, на x1 будут просадки, как раз таки из-за скорости. Так что тут нужно x4 или x8. У меня самого P40 в x1 слоте стоит, так что говорю как есть.
Аноним 28/03/24 Чтв 12:53:03 #131 №685276 
>>685265
>только вроде нужна нвидиа, не помню работает ли с другими видеокартами
Мне чел в треде наоборот писал что с AMD и P40 меньше проблем, т.к. драйвера разные и работают параллельно, а на Нвидиа надо в реестре то-то прописывать чтобы дрова разные встали и всё заработало.
Аноним 28/03/24 Чтв 12:53:50 #132 №685278 
>>685255
Ну так хочешь p40 в качестве основной - пихай её в основной слот, хули тут думать.

>>685268
На ютубе даже тесты были с играми на х1, если не ошибаюсь. Но что-то мне подсказывает, что для x1 подключения нужно в бивисе включать режим старого psi-e.
А смешнее всего будет, если у него мать не поддерживает above 4g.
Аноним 28/03/24 Чтв 12:55:30 #133 №685280 
>>685268
>У меня самого P40 в x1 слоте стоит
А в чём тогда минусы подключения основной карты к райзеру, если она слабее Р40? Графика будет лагать?
Аноним 28/03/24 Чтв 12:57:44 #134 №685285 
На что смотреть в материнке, чтобы смочь две видеокарты поставить? Чтоб не оплошать, как анон выше?
Аноним 28/03/24 Чтв 12:59:22 #135 №685287 
>>685276
>на Нвидиа надо в реестре то-то прописывать
В реестр вообще не лезь, есть шансы, что после этого пекарня будет включаться только в безопасном режиме, пока не откатишь. Пошагово для навидий.
1. Лепишь теслу в пекарню
2. Включаешь в бивисе Above 4gb.
3. Скачиваешь драйвера для датацентров под p40, ставишь.
4. Ребут.
5. Если вторая карточка Nvidia - отвалились драйвера. Устанавливаешь поверх. Не "чистая установка".
6. Всё работает. Две карты на разных версиях драйверов.
Тесла не отображается в диспетчере устройств и не будет работать через wsl. С этим уже нужно ебаться, если тебе оно надо.
Аноним 28/03/24 Чтв 13:01:41 #136 №685289 
>>685287
>в диспетчере устройств
В смысле, в диспетчере задач. В устройствах отображается.

>>685285
Нужно, чтобы мать работала с above 4gb и могла в подходящие режимы psi-e. Ну и количество самих слотов.
Аноним 28/03/24 Чтв 13:03:35 #137 №685290 
>>685287
> Тесла не отображается в диспетчере устройств и не будет работать через wsl. С этим уже нужно ебаться, если тебе оно надо.
Бля. А много надо?
Аноним 28/03/24 Чтв 13:05:19 #138 №685294 
>>685280
Вот тут не подскажу, у меня видео встройка в проц, но есть и вторая карточка в слоте x16.

>>685276
>>685287
По поводу драйверов: у меня встали самые новые дрова на две видяхи от нвидимо, обе карточки в режиме WDDM.
В реестре прописывать надо, чтобы P40 в режим WDDM переключилась, иначе игори не запустишь. И в диспетчере отображаться не будет. И да, если нужно настроить кулер в зависимости от температуры P40 то она должна быть в режиме WDDM, иначе никакой софт ее не увидит.
И еще, на 10ке переключение двух видеокарт кривое, приходится вырубать теслу, чтобы с другой картой запустить что-то.
Аноним 28/03/24 Чтв 13:07:29 #139 №685298 
>>685289
> Нужно, чтобы мать работала с above 4gb и могла в подходящие режимы psi-e. Ну и количество самих слотов.
Подобные материнки дорого стоят?
Аноним 28/03/24 Чтв 13:16:14 #140 №685307 
1.png
>>685290
Как повезёт, лол. С wsl да, нужно WDDM включать.

>>685294
>иначе никакой софт ее не увидит.
Про "никакой" ты перегибаешь. У меня, например, после правок реестра всё сдохло нахуй, пришлось откатывать. У анонов в прошлых тредах было то же самое.

>>685298
Да, по сути, все новые мамки такое тянут. На старых могут быть проёбы, с 3.0 psi-e я бы вообще не брал. А так, находишь мамку, смотришь в поддерживаемые режимы на сайте производителя и решаешь. У меня мать не дорогая, а тянет всё. Стоила 15к, вроде.
Аноним 28/03/24 Чтв 13:16:33 #141 №685310 
>>685287
>2. Включаешь в бивисе Above 4gb.
>>685289
>Нужно, чтобы мать работала с above 4gb
А для райзера это тоже нужно? У моей MSI A520M PRO VH вряд ли такое имеется.

>>685294
>В реестре прописывать надо, чтобы P40 в режим WDDM переключилась, иначе игори не запустишь.
Спасибо за подсказку! Чёт нигде не нашёл четкой инструкции "Как воткнуть Р40 в пеку чтобы ей пользоваться"
Аноним 28/03/24 Чтв 13:21:06 #142 №685315 
>>685310
>А для райзера это тоже нужно?
Это для p40 в принципе нужно. Без этого кина не будет. Если мать поддерживает разные reBar и smart access memory, то и абов 4г должен быть.
Аноним 28/03/24 Чтв 13:26:08 #143 №685320 
>>685261
просто ты не умеешь общаться. даже с нейронками, лол
Аноним 28/03/24 Чтв 13:31:56 #144 №685332 
>>684740
> для кума
Что значит "для кума", в твоём понимании? Достал хуй и сходу начал ебать всех подряд — женщин, девушек, девочек и даже маленьких собачек?
Аноним 28/03/24 Чтв 13:31:57 #145 №685333 
17109713307620.jpg
>>685320
Очень смешно, спасибо.
Аноним 28/03/24 Чтв 13:32:04 #146 №685334 
>>685307
Как все сложно.
Аноним 28/03/24 Чтв 13:33:05 #147 №685339 
>>685280
Смотри. П40 может спокойно работать на х1 через рузер, как и бытовая карта. Обе могут выводить изображение через райзер, для системы и софта не задействующих гпу хватит. Если нужно играть, и не можешь ставить сразу две карты в мать изза размеров, то можешь обе вообще карты в два разных райзера пустить - одну в х1 майнерский, вторую в полноценные псие слот через полноценный райзер с поддержкой псие3 или 4. Выбирай с какой карты играть собираешься. Но если играть на п40 и на ней же генерить кал, то какой смысол во второй карте вообще.
Аноним 28/03/24 Чтв 13:33:22 #148 №685340 
А wddm это именно фича материнок или программное это?
Аноним 28/03/24 Чтв 13:34:14 #149 №685343 
>>685333
я без негатива, братик, просто ну вот по факту не встречал модели, в которых нет секса. везде можно скорраптить, совратить, соблазнить, етц и вставить во все дыхательно-пихательные
Аноним 28/03/24 Чтв 13:36:00 #150 №685349 
>>685285
> На что смотреть в материнке, чтобы смочь две видеокарты поставить? Чтоб не оплошать, как анон выше?
Зависит от того что ты будешь с этими картами делать. Если нужен максимум от двух карт сразу, то очевидно мать с двумя полноценными псие портами и посмотреть спеки что происходит с линиями питания при двух картах сразу - на дешёвом говне второй слот может начинать работать в х8 или х4 режиме, так что нужно брать медиум или топ мать на 8+ слойном текстолите, который позволяет полноценно юзать все линии питания при нескольких устройствах.
Аноним 28/03/24 Чтв 13:38:42 #151 №685355 
>>685334
Да хуйня, у тебя что, 5 минут нет заглянуть в гугол?

>>685294
>И еще, на 10ке переключение двух видеокарт кривое, приходится вырубать теслу, чтобы с другой картой запустить что-то.
Вот это хуйня, кстати. Никогда не вырубал теслу, разве что нужен wsl. Т.к у меня не wddm, то wsl сходит с ума со включенной теслой. В самой винде всё заебись.

>>685340
Это режим картонки. Программный режим для вывода картинки на экран. В виртуализации тоже требуется, гипер-v, вроде, умеет и без него. А вот разные wsl шлют нахуй, даже если тебе картинка с карты не нужна.
Аноним 28/03/24 Чтв 13:43:20 #152 №685374 
>>685349
Не, видимо проще внешнее подключение как выше сделать
> х8 х4
В случае текстоых нейронок так ли уж это важно.
Ну вот допустим одна только для игорь, а обе видеокарты только для нейронок.
Аноним 28/03/24 Чтв 13:43:32 #153 №685375 
>>685355
>Вот это хуйня, кстати.
Есть еще различные траблы кроме этого, к примеру у меня по какой-то причине вешается пекарня при выключении hyper-v, при удаленном рабочем столе: если переключаться в него при загруженной P40. Иногда раздупляется само, но чаще приходится делать хард-резет.
Хочу перейти поэтому на 11, может там все более-менее стабильно.
Аноним 28/03/24 Чтв 13:50:29 #154 №685398 
>>685375
У меня только после правок реестра висло. А так всё стабильно. Сижу на десятке. Энергосберегающие режимы работают, включение чего угодно с одной, второй или обоими картами - тоже работает. Делаю просто CUDA_VISIBLE_DEVICES, если нужна одна карта. Я и реестр-то правил только ради wsl, но не повезло, не фартануло.
Аноним 28/03/24 Чтв 13:51:46 #155 №685400 
>>685355
> Да хуйня
Не для меня. Я сам по себе трясун. Уже 2 недели не могу выбрать материнку под интел ддр5. А тут еще такие сложности.
Аноним 28/03/24 Чтв 13:52:08 #156 №685401 
>>685398
У тебя получается встройка и P40?
Аноним 28/03/24 Чтв 14:02:09 #157 №685424 
>>685339
>Но если играть на п40 и на ней же генерить кал, то какой смысол во второй карте вообще.
Дык чисто для видеовывода, р40 то не умеет это. Либо через встроенку, а если нету то извольте пердолится с 2 затычкой картой с видеовыходом
Аноним 28/03/24 Чтв 14:03:24 #158 №685427 
1.png
>>685400
>ддр5
Тогда это точно новые материнки и всё будет заебись. Разве что имей ввиду, что слоты m2 подключаются к процессорным линиям обычно и каждый жрёт 4 линии. Допустим, у процессора 20 линий, минус 4, уже 16. То есть две карты х8 это потолок. Больше 20 линий ты добудешь только на серверных камнях, кстати.

>>685401
Не совсем.
Аноним 28/03/24 Чтв 14:04:54 #159 №685428 
>>685374
>видимо проще внешнее подключение как выше сделать
Ну да, естественно проще, да и дешевле, вон мамки с сокетами из 2010 или ксионы прекрасно работают, не учитывая конечно отсуствтие авх2.
>В случае текстоых нейронок так ли уж это важно.
Майнингу, языковым моделям и txt2img поебать на линие псие. Единственное это чуть подольше будет грузить модель в рамку карты через урезанные линии.
>Ну вот допустим одна только для игорь, а обе видеокарты только для нейронок.
Тогда одну карту в примари псие 16x, оставшую поебать куда.
Аноним 28/03/24 Чтв 14:06:20 #160 №685432 
>>685427
Т.е. если я хочу две видеокарты ставить, то мне придется пожертвовать одним м2.
А видеокарты обычно не х16 используют?
Аноним 28/03/24 Чтв 14:09:02 #161 №685438 
>>685427
>Больше 20 линий ты добудешь только на серверных камнях, кстати.
Вроде как обещали новый чипсет и сокет...

>GA102-A
Что-то мажорное на 24гб?
Аноним 28/03/24 Чтв 14:09:42 #162 №685439 
>>685428
Зионы кстати поддерживают avx2, новенькие которые.
Не помню точно, v3 и v4 вроде имеют.
Ну а собирать сервер на более старых камнях нет смысла, они и так производительностью на поток не блещут да и память медленнее
Ну и кто надумает, берите мамку с 4 поточной памятью и 4 плашки памяти, 64 или на крайняк 32 гига в сумме. Какой нибудь 1660v4 или че нибуь еще в треде зиона спросите.
Аноним 28/03/24 Чтв 14:14:53 #163 №685447 
>>685432
Это если карта одна, то работает в х16. Если ты ставишь две карты, то х16 обычно дробится. И два слота работают в режиме х8+х8. У меня стоит один m2, то есть работает всё в режиме х4+х8+х8. Материнка такой режим поддерживает, всё хорошо. Картам достаётся по 8 линий от процессора. Все остальные линии уже запитаны от чипсета. Разные внешние девайсы, сата и т.д. У чипсета тоже 20 линий, но это уже зависит от материнки. Если поставлю третью карту, то на неё линий процессора уже не будет, будут от чипсета. Но возможно ты найдёшь мать с поддержкой других режимов. Например, три по х4. Но я не вникал в вопрос, есть ли такое. Скорее всего есть.

>>685438
Чип мажорный, памяти мало.
Аноним 28/03/24 Чтв 14:18:29 #164 №685456 
>>685447
А при дроблении на х8+х8 производительность не падает?
Аноним 28/03/24 Чтв 14:19:21 #165 №685460 
>>685432
М2 не влияет на линие псие, жертвовать нинужно
Аноним 28/03/24 Чтв 14:23:54 #166 №685469 
>>685447
>Чип мажорный, памяти мало.
Что гоняешь из моделек если не секрет и как впечатления?
Аноним 28/03/24 Чтв 14:24:44 #167 №685472 
>>685456
Чисто в теории да. На практике даже в играх разницы нет, в негронках тем более.

>>685460
> линие псие, жертвовать нинужно
А вот это уже ложная информация. На некоторых материнках второй и третий могут быть запитаны от чипсета. Но это уже смотреть надо. Первый же всегда будет хавать линии процессора. Или платы типа B550, они поддерживают и процессорный режим, и чипсетный для второго и третьего m2, но первый всегда только процессорный. И все они расходуют линии psi-e.
Аноним 28/03/24 Чтв 14:28:33 #168 №685484 
image.png
image.png
image.png
>>685456
Ну вот радном тест, для бытового пользования x8 хватит всем.
А так за меня ответит нейросетка.
Аноним 28/03/24 Чтв 14:30:10 #169 №685485 
>>685472
>А вот это уже ложная информация. На некоторых материнках второй и третий могут быть запитаны от чипсета.
Так речь про один ссд была, и там нюансы по процам еще и слоям текстолита. Конечно на говне из говна все будет резаться, но в целом не существует бюджетных мамок с более двух м2 (исключение обрезки с однопортовым псие) и бюджетных процов под них.
Аноним 28/03/24 Чтв 14:30:33 #170 №685486 
>>685175
> Это оторванность от мира, когда ты не знаешь, как оно работает на практике (не пробовал), но заранее высмеиваешь оппонента.
Бинго! Как раз только судя по ограниченному экспириенсу и под впечатлением от первого успеха с такой/подобной мелочью, можно сделать подобные выводы о том что хорошо а что плохо. Если же хочешь это в мою сторону это употребить - едва ли здесь найдется человек, который пробовал больше и локалок и коммерции.
> икто не преподности как йоба-модель
В этом и корень срача, на "смотрите смотрите йоба" не пошло ожидаемой реакции а наоборот хейт и разгорелся срач. Сайга всегда была залупой, годна лишь как удобный пример плохого.
> и теоретики уверены, что опенчат дурачок, там же циферка 7
Практика тоже не в его пользу идет. Вон, мамин практик наделал некогерентной, неинформативной и противоречащей себе воды, которую читать невозможно, и в себя поверил.
Что самый рофл, оно явно было потом поправлено вручную и всеравно осталось трешем, тогда как с таким инструментом и ручным трудом можно было бы вполне оформить красаву лишь осознанно вникнув в написанное и сделав серию запросов с наводящими уточнениями. И потом в ту же или другую сетку скормив почастям чтобы уменьшить объем воды и добавить содержимого.

На той же практике во вполне прикладных задачах, где требуется отдаленное подобие абстрактного мышления и понимание описанных на месте концепций 7б малоюзабельны вообще, в отличии от той же yi, которая все понимает на лету и четко-правильно отвечает. Хз что там насчет копипасты плейнтекста в json в соответствии с запросами, но банально обозначить соответствие/несоответствие в паре описаний с различным стилем и с учетом бекграунда оно фейлит ну очень частно, не говоря уже о том чтобы потом переработать один текст с учетом содержимого другого. Китаянка позволяет просто анатендед кормить ее, а детектить небольшой процент фейлов по явным признакам и тут же делать повторный запрос.
> Дженерик любая работа студента, камон, любой вуз такие принимает не глядя.
> Дженерик любая работа студента в днище пту где всем похуй
Первое - нет, второе - да. Опять какая-то базированная тема со снижением критериев всего и вся, с ориентацией на самое худшее и преподнесением того как нормы. Не надо так.
> Ваще норм за седня навалили новых сеток. И файнтьюнов, и прям новых.
Каких?
Аноним 28/03/24 Чтв 14:33:47 #171 №685492 
image.png
>>685315
Без этого кина не будет.
Бля. Всмысле вообще не определится без этого?
А как точно узнать, поддерживает ли это материнка?
Вот например спецификация на материнку, которая у меня на местном авито за 5к валяется
https://ru.msi.com/Motherboard/B450-GAMING-PLUS/Specification
И там ни про какой Above 4gb не написано, значит не поддерживает?
Аноним 28/03/24 Чтв 14:40:51 #172 №685497 
>>685258
Драгон Догма 2, гриндить и гриндить.

>>685255
Тогда нужен охлад хороший, прям ХОРОШИЙ, если планируешь играть на ней.

>>685276
Насколько помню, так.

>>685278
База.

>>685280
Ну, чего.
Если человек играет на рыксе — то ее надо пихать в основной.
Если планирует играть на тесле — то теслу.
Игры к пропускной способности слота более придирчивы, а у нейросетей чисто модели грузить дольше, остальное незаметно.
При этом, долгую загрузку модели ты явно переживешь, это не страшный минус. Но если играть на тесле — то там стоит ее в первый слот ставить, конечно.

>>685294
А не тестил? У меня в WDDM скорость была 4,5 токена на тесле, я погрустнел и переключился обратно.

>>685310
Этого на старых матерях нет, а твоя новая, скорее всего все ок должно быть.

>>685339
> какой смысол во второй карте вообще
Выводить изображение, если нет встройки. Тесла же тебе картинку не даст, портов нема.

>>685375
Нашо вам енти виртуализации, сижу с venv'ом и норм.

>>685400
https://www.dns-shop.ru/product/4a38bf3b4e03ed20/materinskaa-plata-msi-meg-z790-ace/
Чо тут выбирать, KEK.

>>685439
На удивление, в микстрали оказалось не важно, свои 2,5 токена получил.
Но вот 70б выдала 0,35 вместо 0,7.

Но, естественно, 4 канала.

Зато за 7к рублей.

>>685472
> Но это уже смотреть надо.
Плюсую.
Заебался в свое время подбирать, да.
Аноним 28/03/24 Чтв 14:41:47 #173 №685498 
>>685184
> подмигивает
> Мгновение ока
Потерпел капитальное поражение
>>685219
Да ну, просто единичная инструкция, которая не влияет на остальное. Если сильно напрягает - удали ее из сообщения сразу после получения нужного.
>>685220
> не стоит это с прошлых тестов
Лучше новый чат начинать, история с прошлого может как улучшать, так и сильно портить новые ответы.
На первую прямо четко ответило, в рп - средне. Описание в целом норм, на повторения и странные предложения особо внимания не обратишь, но тут буквально нет ничего от Аквы, окружения и т.д. Может фуфлыжные промт-карточка-история, но забайтил скачать попробовать, действительно ли там проблема с переходом.
Аноним 28/03/24 Чтв 14:43:03 #174 №685503 
>>685485
>Так речь про один ссд была
Один всегда отжирает х4 линии.
>там нюансы по процам еще и слоям текстолита
По слоям похуй. На дорогой z790 карбон вайфай 2 аж 5 слотов m2. Из них два от процессора и отъедают аж 8 линий. И уже при включении второго m2 видеокарта в основном слоте переключается в режим х8. И это дорогая плата с хералионом слоёв тестолита. Только слои нихуя роли не играют, кстати.

>>685492
Хуёвая плата, насколько я знаю, будет работать только в gen 2 режиме этот самый above 4gb. Забиваешь в гугл название доски + above 4gb, находишь первый попавшийся майнерский форум и читаешь, как они включают.
Аноним 28/03/24 Чтв 14:44:52 #175 №685504 
>>685503
>Один всегда отжирает х4 линии.
Не от псие же
Аноним 28/03/24 Чтв 14:45:40 #176 №685505 
>>685469
А, нихуя не гоняю толкового. Даркфорест 20b, только в ггуфе он тупой, пиздец. Запускал что на основной, что на тесле. В любых других вариантах мозгов больше. Гонял ещё разные 13b, но это 13b. Короче по негронкам я не особо опытен. Единственный профит мощного чипа это игры, а в негронках нужна память. Так что здесь я соснул.
Аноним 28/03/24 Чтв 14:46:00 #177 №685506 
>>685503
>Из них два от процессора и отъедают аж 8 линий. И уже при включении второго m2 видеокарта в основном слоте переключается в режим х8. И это дорогая плата с хералионом слоёв тестолита. Только слои нихуя роли не играют, кстати.
Слои влияют на разгон памяти. А линии зависят от от проца, бери i9 монстеркок едишн на 48 линий если уж берешь топ мать.
Аноним 28/03/24 Чтв 14:49:15 #178 №685508 
>>685498
>Лучше новый чат начинать, история с прошлого может как улучшать, так и сильно портить новые ответы.
>На первую прямо четко ответило, в рп - средне. Описание в целом норм, на повторения и странные предложения особо внимания не обратишь, но тут буквально нет ничего от Аквы, окружения и т.д. Может фуфлыжные промт-карточка-история, но забайтил скачать попробовать, действительно ли там проблема с переходом.

Да там в начале считай только приветственное сообщение сетки и сама загадка, дальше просто пару раз свайпнул и охуел.
Так мне 7ки еще не отвечали.

По рп я там сам отвечал коротко, сетка просто подстроилась под мой ответ. Я не напрягался с отыгрышем просто за ответа 3-4 подведя к секасу без напряга, чисто проверить как оно.
И сетка дала неплохое такое описание кстати.
Как оно работает дальше не тестил, ни времени нет, ни желания пока. Да и сеток за ночь накачал новых штук 7, когда еще руки дойдут до всех проверить хз.
Но прогресс в 7в нихуевый такой, несмотря на их тупость и плоскость их знатно выдрочили за пол года
Аноним 28/03/24 Чтв 14:50:41 #179 №685510 
>>685261
Здесь тонкая грань. Если контекст не подходящий а чар не кумбот - отказ вполне закономерен и должен быть, иначе это клод херня. Если у вас там уже обнимашки в приватном пространстве, чар eagers for more, а при явном предложении или действиях там что-то про
> ЛИЧНЫЕ ГРАНИЦЫ
то это пиздец.
>>685285
Если будешь играть - просто бери что-то современное, основную гпу в главный слот, пусть там будет х16, а теслу для ллм в дополнительный чипсетный, х4 ей хватит.
>>685484
В требовательных игорях и с йоба карточкой уже сейчас х8/х16 3.0 могут приводить к просадкам. В младших карточках где линий недоложили там вообще много нытья, а если выгрузка врам то все.
Для ллм, расчетов и подобного где нет большого потока данных даже х4 хватит всем.
>>685503
> Из них два от процессора и отъедают аж 8 линий.
> PCI Express Configurations Up to 1x16+4, 2x8+4
Что?
Аноним 28/03/24 Чтв 14:50:51 #180 №685511 
1.png
>>685504
>Не от псие же
От святого духа, блядь. От psi-e он и отжирает. Я тебе больше скажу, все SATA тоже сидят на PСI-E и может оказаться, что при подключении хералиона m2 у тебя не только PСI-E слоты отваливаются, но и SATA.

>>685506
>бери i9 монстеркок едишн на 48 линий
И отсасываешь потного хуйца. У i9-13900 аж целых 20 линий, а переключением режимов слотов рулит материнская плата.
Аноним 28/03/24 Чтв 14:53:25 #181 №685514 
>>685511
>От святого духа, блядь. От psi-e он и отжирает.
дурачок, pcie-e это название линий самих, и это не равно что у тебя от слота спиздит 4 линии, в этом суть, один м2 берет свои обосранные 4 линии, основной слот карты будет также в 16
Аноним 28/03/24 Чтв 14:54:05 #182 №685515 
>>685497
>А не тестил?
Между режимами - нет. На 70b модели q6_k - 1.5 токена, на q4_k - 7.5 токена, не критично, меня вполне устраивает и 1.5 токена, главное чтобы логично отвечала.

>>685505
Думаешь именно в gguf проблема? 13b по большей части очень быстро забывают нить диалога, и любят слишком быстро двигать сюжет, дописывать кучу телодвижений. Мне из 20b приглянулась noromaid-20b-v0.1.1, временами отвечает даже лучше 70b, но это чисто субъективный опыт.
Аноним 28/03/24 Чтв 14:54:31 #183 №685516 
>>685486
> Если же хочешь это в мою сторону это употребить - едва ли здесь найдется человек, который пробовал больше и локалок и коммерции.
Не, ну тут ты ЧСВшишь, серьезно.
Умерь пыл, без негатива, просто…
Я сам-то не претендую, что у меня, чатгопота только, да локалки все, кроме грока. Клода не юзал, мистрали апишные.
Но и то что ты писал в первых сообщениях — ну бред же.
Русский никому не нужен, а 640 КБ хватит всем.

> которую читать невозможно
Ну, прочли же, зачли, значит работает. =)
Ты сейчас как те люди, которые говорят «нейросеть пишет нечитабельный код, значит не сможет заменить программиста, ведь его сложно поддерживать». Это называется «шашечки». А «ехать» в том, что клиенту читабельный код нахуй не нужен, и его будет поддерживать та же нейросеть.
В контексте — он сдал сессию на третьем курсе? Ну все, заебись. Практически оно и правда охуенно, даже если ты не согласен. Практика не про наше мнение, а про его оценку (в зачетке, которая).

Хотя, текста бы ей я тоже писать не стал, если честно, тут хотя бы мику/гпт. Но это вкусовщина, по итогу.

> Первое - нет
Первое — да.
Вот я сейчас даже предположу (совершенно в пустую, нам не важна корректность моего утверждения), что ты — в том числе преподаешь на кафедре в минимум среднем ВУЗе, и подобную бы работу отпиздил ногами вместе с автором. И из этого делаешь вывод, что нет.
Но! Это лично твой перфекционизм, он корректен, но не у всех есть. Большинство преподов просто такие «ммм, вода, но что-то по теме, окей-окей, сдано…»

При этом, я не спорю, что плейнтекст в json она может просрать, хотя применение плюс, канеш, и абстрактного мышления у нее может не хватать, но когда я юзал ее в том же погроммировании простых задач, без учета глобальной архитектуры проекта, то гпт4-11-06 фейлило в 20% случаев, а мистраль — в 60%. Дохуя? С другой стороны, 7б моделька была права в 40% случаев, и иногда там, где чатгопота обкакивалась. И это я говорю о зирошотах, без свайпов и прочего. Чисто практически вопрос-ответ, все, точка. На русском, кстати. =)

Так что, для практики — модели уже юзабельны. Ну правда. =) И он — живой тому пример. Хуево это, что такого малого качества хватает? Ну, окей, хуево, но маемо шо маемо, хули тут. =)

> Каких?
Ну, чего там в прошлом треде понаписали, две моешки, еще че-то.

>>685492
Бля.
Зайди в биос и посмотри, камон. =)
У тя ж есть а520, да? И рыкса уже воткнута? НУ ВСЕ. ВПЕРЕД. ИЩИ.
Аноним 28/03/24 Чтв 14:58:38 #184 №685522 
>>685515
> q6_k - 1.5 токена, на q4_k - 7.5 токена
Нихуя разнос, ну ладно, главное чтобы тебя устраивало.
Да в принципе и мне лень разбираться, почему у меня 6,3, а не 7,5. Тоже переживу, думаю.
Аноним 28/03/24 Чтв 14:59:01 #185 №685523 
>>685510
>Что?
Что? Смотри спеки на сайте. Или вон я пик приложил. При двух m2 плата переходит в режим 4+4+8. По 4 на каждый m2 и х8 на основной слот карты.

>>685514
Ясно. Нахуй иди. То у него m2 не линии писиай расходует, то уже писиай, но не больше четырёх. Ещё зачем-то разгон памяти приплёл, который к писиай вообще никаким боком.

>>685515
>Думаешь именно в gguf проблема?
Конкретно лес я сначала гонял в exl2 и ггуф. Потом скачивал голые веса. Я не говорю, что все модели в ггуф пиздец, но конкретно он - поломанный. Он 20b. Норомейду тоже гонял, но без квантований. В целом, нравится.
Аноним 28/03/24 Чтв 15:01:03 #186 №685526 
>>685510
>>684820
>чар не кумбот

Тестировал на этой карточке:
https://www.chub.ai/characters/Bodoro/maria-devoted-fangirl-7782f374
Аноним 28/03/24 Чтв 15:02:33 #187 №685528 
>>685523
>Ясно. Нахуй иди. То у него m2 не линии писиай расходует, то уже писиай, но не больше четырёх.
ну ты контекст потерял
Аноним 28/03/24 Чтв 15:08:16 #188 №685531 
image.png
>>685439
Кстати говоря щас заинтересовался сколько линий доступно зионам, у моего 40 линий
Так что если кому то хочется линий и не волнует супер производительность на ядро то вэлком ин клуб
Свои 8 ядер 16 потоков с 3.4 ггрц по всем ядрам или 3.8 на одно я имею, и мне хватает для домашнего компа.
На поигрульки в принципе тоже, я нынче не особо играю. Игорь тонет.
Аноним 28/03/24 Чтв 15:09:27 #189 №685533 
>>685508
Прогресс знатный вполне, год назад такое вкинь и скажи что 7б - никто бы не поверил. Да, там могут потом вылезти базированные проблемы и не почувствуешь отыгрыша, но для начала стоит и такое заинджоить. А может и не вылезут получится на свайпах получить заебись.
>>685516
> Не, ну тут ты ЧСВшишь, серьезно.
Лишь констатация неуместности того наброса.
> Но и то что ты писал в первых сообщениях — ну бред же.
Ты там с кем срался с того и спрашивай. Заебала эта шиза, меньше чем за день 180 постов, от (почти) 40 уникальных постеров, а эти они все пытаются детектить своих обидчиков. Особенно рофлово что в других (you) ты со мной дохуя соглашаешься.
> Ну, прочли же, зачли, значит работает. =)
Посмотрели на размер, кринжанули с содержимого и скипнули. Это нихуя не норма, может для заочки в днищевузе мухосрани и норм, или там предмет вообще не основной, но сути не меняет и не красит.
> Первое — да.
Не нужно судить по болоту и экстраполировать его но все.
> что ты — в том числе преподаешь на кафедре в минимум среднем ВУЗе
Мимо хотя изредка беру студентов А за работу стоит отпиздить уже потому что там заключение ни на что не отвечает и себе противоречит, не говоря о явной нейроте.
> для практики — модели уже юзабельны
С костыльным подобием рага можно и 1.5б посадить на чатбота поддержки, это не говорит об их эффективности. На практике в обозначенном контексте - это когда ты действительно можешь на модель положиться зная что из множества запросов она сделает хорошо хотябы 2/3, также как год назад делали с гопотой.
Аноним 28/03/24 Чтв 15:15:49 #190 №685539 
>>685439
>64 или на крайняк 32 гига в сумме
128, чтобы мерджи SDXL вытягивало да, я в курсе что я в другом треде
> Какой нибудь 1660v4
Не, ты че, 2xxx-v3/v4, в зависимости от задач, на в3 анлок турбобуста можно делать что под игры заебок, v4 чисто монстр для работы и поигруньках в принципе тоже потянет
Аноним 28/03/24 Чтв 15:16:56 #191 №685541 
>>685531
Ну ты про выбор матери тоже не забывай.

>>685533
> Лишь констатация неуместности того наброса.
Обиделся, вижу же. )
Ну ты тоже извини, дальше вроде все корректно было.

> Ты там с кем срался с того и спрашивай.
Я вообще ни с кем не срался. =)
Так я, тащемта, и не против, ты часто все верно говоришь. Претензия чисто одна — русский нужен, заебал, и он на том же опенчате с грехом пополам рабоч и юзабелен. Ну теряем токены, ну кривое построение фраз бывает, но нормас-нормас. До мистрали все было ахуй, и сайга даже имела смысл, хотя была говном. После мистрали языки подтянулись, и опенчат даже немножко закрепил (хотя многие файнтьюны, конечно, забили русский язык).

> Не нужно судить по болоту и экстраполировать его но все.
Повторюсь, я сужу по ГУ городов-миллионников. Не Мск или СПб, но Екб и ниже.
И я говорил о первом курсе — там прокатывало у людей.

ТЕХНИЧЕСКИ Я ВАЩЕ ПО БОЛОТУ НЕ СУЖУ АХАХАХ

Все, надеюсь разобрались, каждый останется при своем мнении, а выяснять кто прав статистически не стоит того — через годик-другой у нас будут совсем другие модели. =)
Аноним 28/03/24 Чтв 15:22:41 #192 №685545 
Я в конец запутался. В общем, я беру современную материнку на б760 чипсете, кладу туда 4070 и п40, и кайфую? Один м2 и 16х4 ддр5.
Аноним 28/03/24 Чтв 15:24:39 #193 №685547 
>>685541
>Ну ты про выбор матери тоже не забывай.
Хуананжи взял, не стал самый дешман брать
4 линии памяти, куча м2 слотов, качество приемлимое, 4g хуйня тоже вроде есть

>>685539
Или 128, кому как. Меня жаба задушила, ну и я не думал что микстраль выйдет, думал большие сетки тупо не буду запускать, которые 1т/с с такими размерами будут.
В итоге взял 32 и теперь не хватает, ну и похуй, не особо и хотелось.
Не люблю слишком медленную генерацию, минута две на ответ еще ладно.

v4 мой жрет 50-70 ватт не больше, а вот v3 такой же с 8/16 жрал бы 90 ватт с анлоком.
А по частотам они выходят одинаковыми, так что новенькие v4 из 8 ядер и с максимальными частотами это топчик везде и жрут не особо много.
Аноним 28/03/24 Чтв 15:25:33 #194 №685549 
Боль на 4 планках DDR5.png
>>685427
>Больше 20 линий ты добудешь только на серверных камнях
В новых интулах вроде 28 уже, в амудях тоже, но там 4 линии уходят в чипсет.
Так что если на плате есть разделение на 8+8, то с переходниками M2 -> PCI-Ex4 можно заюзать схему 8+8+4+4 (SSD можно кинуть на чипсетные линии, пускай страдает).
>>685447
>Например, три по х4. Но я не вникал в вопрос, есть ли такое.
Очень вряд ли.
>>685531
>у моего 40 линий
Третьей версии кстати. К P40 норм, можно сделать 16+16+8.
>>685545
>16х4 ддр5
Вот тут ты обосрался. Бери 2х32, или 2х48, если дохуя мажор. И частоты побольше.
4 плашки на DDR5 не бери, будешь пердеть на скорости DDR4 10 летней свежести, пикрил как пруф.
Аноним 28/03/24 Чтв 15:28:20 #195 №685555 
>>685549
>4 плашки на DDR5
в чем конкретно проблема 4х плашек?
Аноним 28/03/24 Чтв 15:28:59 #196 №685556 
>>685549
> 4 не бери
Зачем тогда производители 4 ячейки делают?
Да мне большой обьем нужен для нейронок скорее. На всякий провсякий
А так мне 32 вполне хватило бы.
Аноним 28/03/24 Чтв 15:29:30 #197 №685557 
>>685528
Приплети ещё цвет маски текстолита к писиай. А то ни цену мамки, ни количество слоёв, ни даже процессор приплести не получилось.

>>685531
Зивоны по линиям топчик, но тоже есть нюансы. Насколько помню, v3 больше 5 слотов не умеет, хотя линий в х4 хватило бы.

>>685549
>В новых интулах вроде 28 уже
В 14900 линий тоже 20. Причём 16 gen 5, а 4 gen 4. А 15 ещё не вышел, вроде. Или я проспал всё.
Аноним 28/03/24 Чтв 15:31:36 #198 №685560 
>>685555
>в чем конкретно проблема 4х плашек?
шиз не смог разогнать плашки до 6к на неплохой матери с 8 слоями текстолита (возможно купил говно несертифайз под 6000 скорость от амуде, сэкономил и толькопроиграл) и вайнит на ддр5, не обращай внимания
Аноним 28/03/24 Чтв 15:31:56 #199 №685561 
>>685555
Скорости не держат, а значит скорость памяти будет фиговая
На 2 можешь под 110 гб/с получить и крутить модели быстро
На 4 вроде 70-80 потолок

>>685557
Нюансы есть, легко обосраться взяв например мать не с 4 линиями памяти и получить пердеж в лужу на нейронках, так как скорости в 2 раза меньше будут. Ну или камень взять многоядерный но низкочастотный, погнавшись за количеством ядер. Короче как и везде нужно подходить с умом
Аноним 28/03/24 Чтв 15:36:31 #200 №685565 
image.png
>>685549
>16х4 ддр5
>Вот тут ты обосрался
Это ты обосрался, на 8 слоях 16x4 идеально будет.
Аноним 28/03/24 Чтв 15:38:27 #201 №685566 
изображение.png
>>685555
Не тащят.
>>685556
>Зачем тогда производители 4 ячейки делают?
Чтобы продавать, лол.
Вообще скорее по инерции, плюс в JEDEC с 4800 4 плашки работают, так что производитель говорит норм и продаёт с каменным лицом. А вот XMP уже хрен заведёшь.
>>685557
>В 14900 линий тоже 20. Причём 16 gen 5, а 4 gen 4. А 15 ещё не вышел, вроде. Или я проспал всё.
А, точно, я с чипсетными попутал. Вот их там вроде вагон.
>>685560
Чел, оно и на интуле так же. Вот просто не тянут 4 плашки на норм скорости, и всё на этом. Дело не в скилах (тем более скрин не мой, я то умный, не наступил на эту мину).
>>685565
5 кеков на DDR5 это издевательство, а не скорость. Нормальные люди запускают в 6400 на амудях или в 7000+ на интулах.
Аноним 28/03/24 Чтв 15:39:39 #202 №685568 
>>685511
>И отсасываешь потного хуйца. У i9-13900 аж целых 20 линий
А у i9-7900X их 44 :)
Аноним 28/03/24 Чтв 15:42:55 #203 №685575 
>>685566
>5 кеков на DDR5 это издевательство, а не скорость.
Где сказано что чел будет брать 32x4?
>Нормальные люди запускают в 6400 на амудях или в 7000+ на интулах
Но не 128 гигов...
Аноним 28/03/24 Чтв 15:44:46 #204 №685577 
>>685566
>Не тащят.
У моего кореша стоят 32х4 планочки на ddr4, xmp держат, все работает. Вряд ли тут найдется анон с 32х4 планочками на ddr5, какие ваши доказательства, что не работает, проверяли лично?
Аноним 28/03/24 Чтв 15:46:50 #205 №685581 
>>685575
>Где сказано что чел будет брать 32x4?
Нигде, он собирался брать 16 гиговые плашки, лул >>685545
>Но не 128 гигов...
96 пока максимум, да (( Жду 64 гиговые плашки, тогда заменю.
>>685577
У DDR5 скорости в 2 раза больше, плюс новые, не отлаженные разводки платы/плашки/контроллеры в проце. Так что ничего удивительного, что оно так деграднуло. Может, через пару лет поправят с новым железом, но пока так.
Аноним 28/03/24 Чтв 15:50:02 #206 №685586 
>>685561
>легко обосраться
Мы так сейчас до рангов памяти дойдём, лол.

>>685566
>я с чипсетными попутал.
Чипсетных возможно да. Хуй знает, у меня чипсетных тоже вагон, а слотов под картонки всего 3.

>>685568
А вот это интересная тема. Взять китаемать под пять слотов писиай и 8 слотов рам. Обойдётся в десятку. Пятнашка проц. И восемь модулей DDR4.
Аноним 28/03/24 Чтв 16:02:30 #207 №685608 
>>685586
>И восемь модулей DDR4
Будет четырёхканал и большой объём, по я не совсем понял, зачем всё это? Разве мы все здесь не гонимся за большим количеством врам? На оперативной памяти только Грока и запускать...
Аноним 28/03/24 Чтв 16:09:00 #208 №685628 
Думаю вот, стоит ли прикупить к паре моих тесл 3090. Много ли будет профита? Оно понятно, что производительность будет по слабым картам, плюс row_split тогда включать не имеет смысла. Но с другой стороны весь контекст по идее будет обрабатываться на первом ГПУ, а именно на 3090. Может есть у кого такая комбинация, поделитесь впечатлениями.
Аноним 28/03/24 Чтв 16:09:14 #209 №685630 
image.png
>>685516
>Зайди в биос и посмотри, камон. =)
Да, оказалось проще, чем казалось. Странно что это не гуглится.
завтра поеду за райзером
Аноним 28/03/24 Чтв 16:15:45 #210 №685644 
>>685628
>Но с другой стороны весь контекст по идее будет обрабатываться на первом ГПУ, а именно на 3090.
Всё так, бери, не пожалеешь. И контекст сможешь нормальный выставить, гоняя 6 квант и 16к контекста.
Аноним 28/03/24 Чтв 16:18:05 #211 №685649 
>>685608
Так 8 слотов это больше, чем 4 на обычных матерях. Итого х2 возможный объём. У меня вот мамка поддерживает DDR4\DD5\ECC\non-ECC, а слотов 4. Опять же, дохера врам это хорошо и вкусно, но коричневые прослужат дольше рам стоит дешевле.
Аноним 28/03/24 Чтв 17:28:47 #212 №685766 
>>685541
> Обиделся, вижу же. )
На что нужно обижаться?
> Претензия чисто одна — русский нужен
Похуй на эту тему, каждый дрочит как хочет, лишь огорчение с того что локалки деградируют на русском. Опенчат что может - прецедент, но слабоват всеравно. Его бы для переводов применить лучше попробовали вместо новых побед, которые мы заслужили.
> там прокатывало у людей
Прокатить в отдельных условиях оно может где угодно, достаточно лишь удачи. А вот сдать такое чтобы препод прочитал и не проиграл - уже достижение.
>>685545
Да, кроме
> 16х4 ддр5
ни в коем случае, 2х32 или 2х48 и не знай проблем.
Аноним 28/03/24 Чтв 17:46:42 #213 №685799 
IMG20240323224106.jpg
IMG20240328213324.jpg
>>684550
>Где там анон с кучей рам?
Чиню тачку. В этот раз срыгнул бивас.
Аноним 28/03/24 Чтв 17:48:05 #214 №685802 
>>684928
> Наверное, потому что для SD рекомендуемое количество эпох 100+
Нету особой разницы где делать чекпоинт, если у тебя не сильно замороченный конфиг, в котором что то зависит именно от эпох, вот поэтому и стало любопытно почему тут совсем другая рекомендация
Аноним 28/03/24 Чтв 17:52:54 #215 №685812 
>>684817
Чтобы поломать и заставить поругать расовые меньшинства, или продемонстрировать насколько убоги модели со встроенной повесточкой.
>>684928
> Наверное, потому что для SD рекомендуемое количество эпох 100+
Ебааать
>>685565
Этот дроч на слои на грани шизы уже, и тиражируется не соображающими васянами. Проблема 4 модулей ддр5 вообще не в качестве линий данных.
>>685649
> У меня вот мамка поддерживает DDR4\DD5\ECC\non-ECC, а слотов 4
Хуясе ебать, 2 типа памяти в одной? Казалось такие конструкторы со времен ддр2 пропали.
>>685799
Сколько памяти?
Аноним 28/03/24 Чтв 17:56:20 #216 №685817 
>>685812
>Сколько памяти?
128
Аноним 28/03/24 Чтв 18:11:20 #217 №685829 
>>685799
Этож та новая плата с али на 2 проца? Че как, ну кроме биуса слетевшего?

>>685812
>Чтобы поломать и заставить поругать расовые меньшинства, или продемонстрировать насколько убоги модели со встроенной повесточкой.
Эт надо, но я в такое нырять побрезговал
Аноним 28/03/24 Чтв 18:20:26 #218 №685837 
>>685545
ddr5 — лучше 2*48, не? Типа, двухканал, быстрый, без багов, и максимум объема? Пусть меня поправят.
96 эт минимум, мало ли что интересное выйдет. =)

>>685565
16 никогда не будет идеально.
Хотя бы 32 ради 128 гигов.

64 гига иметь четырьмя планками — это пиздец. Понадобиться больше — все на выброс, новые покупать. Надежный план.

64 для игр норм. Ибо даже до 32 уже добираются некоторые.

>>685630
Грацушки!

>>685608
Ну, прикинь, грока сможешь запустить. А никто не сможет.
Или еще что-то выйдет. И ты сможешь. А другие не смогут.
Типа, никакого иного смысла брать ддр5 с последними поколениями интела я не вижу, если не гнать память и иметь ее максимум ради больших моделей.
На зеонах теслы будут чувствовать себя охуительно так же.

А игры… Играм так же хватит какого-нибудь 11 поколения, если играешь не на 4090.
Аноним 28/03/24 Чтв 18:23:46 #219 №685839 
z690-block-diagram.jpg
>>685802
Ну хуй знает, я не делал лоры под SD, просто читал рекомендации.

>>685812
>Хуясе ебать, 2 типа памяти в одной?
Ага. Добро пожаловать в z690. Но ещё зависит от проца, понятное дело, что с процом на DDR4 память DDR5 не заведётся. Но есть много профитов. Режим x8/x8/x4 CPU pci-e, 4 слота под M2, при этом 3 из них запитаны от 28 линий чипсета, три слота под картон, хералион разъёмов под лгбт и вентиляторы. Причём при подключении всех m2 отваливается только два разъёма SATA из шести и больше ничего. А главное, что каждый fan разъём поддерживает ток 2А, что позволит мне подключить уже доставляемые серверные вентиляторы на 15к оборотов.
Аноним 28/03/24 Чтв 18:24:10 #220 №685840 
Короче, если ты настолько богатый, что можешь себе позволить 2-3 4090, то какая тебе разница, сколько там стоит ddr5 —покупайотборные модули и все.
Если ты экономишь, беря теслы, планируешь играть на них или какой-нибудь 3060@12, то, очевидно, тебе ddr5 один хуй ничем толком не поможет, подняв события 0,1% на 5 фпс раз в 3 дня.
Я не вижу ни одной причины брать мало памяти кучей плашек, чтобы при апгрейде ВНЕЗАПНО покупать новую, ибо пихать доп уже некуда. И при этом, переплачивать за новизну платформы.
Либо ультовать, либо забить болт.

По факту, даже 1 плашка на 48 гигов при покупке уже закроет почти все требования. Когда захочешь апгрейднуть — просто возьмешь вторую такую же плашку и все.
Да, частота будет как у ddr4 в двухканале, но если ты экономишь деньги —вряд ли гоняешь нейронки на двух 4090.
Аноним 28/03/24 Чтв 18:58:52 #221 №685870 
IMG222632.jpg
Это >>675841 → >>677457 → кун.
Заполучил заветный считыватель пост кодов, а значит время оформлять истину в последней инстанции.
>96 - Дополнительная настройка системных ресурсов
Таки >>675889 → скорее всего был прав.

>>685829
>Этож та новая плата с али на 2 проца?
Новая?
Вообще, нормально. Приехала в идеальном состоянии, поработала два года и вот мы здесь.
Брал в официальном магазине Хуанан.
Аноним 28/03/24 Чтв 20:15:59 #222 №685953 
>>685870
А я чет пол года назад похожие видел но какие то новенькие, то и спутал
Аноним 28/03/24 Чтв 20:28:12 #223 №685964 
Мейлач привет, платиновый вопрос, первый раз юзаю локалку, что делать если она сыпет <| EOT |>?
Аноним 28/03/24 Чтв 20:31:46 #224 №685967 
>>685964

Это стоп-токен чтобы прервать генерацию.
Аноним 28/03/24 Чтв 20:32:49 #225 №685972 
>>685964
Звать ерохина.
Через что используешь вообще и какую модель? Это что-то похожее на служебный токен chatml и таверна по дефолту такое скрывает.
Аноним 28/03/24 Чтв 20:38:48 #226 №685979 
>>685972
И правда стоп токен
это я в угабугу загрузил exllama2 модель, а там поломаны стоп слова в последней версии, прописал вручную вроде норм стало, но хочу через api использовать, посмотрим как пойдет
Аноним 28/03/24 Чтв 20:41:17 #227 №685980 
>>685979
>exllama2
И поделюсь да, exllama2 на deepseek-coder-instruct-6.7 выдает значительно большую скорость инференса чем llama.cp (ну у меня так)
на 4090 получается 80-90 токенов в сек
Аноним 28/03/24 Чтв 20:43:08 #228 №685986 
>>685979
> но хочу через api использовать, посмотрим как пойдет
Так и нужно, чат в убабуге не самый удобный для того же ролплея и также хорошо не получится формировать инстракт промт. Точнее может и получится, но задание формата там просто безумное и не особо удобное.
>>685980
Так и есть, эксллама быстрее чем llamacpp, особенно на больших контекстах. Она и памяти меньше кушает.
Аноним 28/03/24 Чтв 20:51:28 #229 №685994 
>>685980
Какой квант? Как качество кода?
Аноним 28/03/24 Чтв 20:53:39 #230 №685995 
1.png
>>685870
>Таки >>675889 → → скорее всего был прав.
Если у тебя реально z170-a, то в двух верхних слотах должно работать. В теории. Если не работает, то чипсет неуиноват, там от проца через демультиплексор идут линии.
Я бы ещё биос поебал, там, вроде чипсетные линии по дефолту в х2 режиме заводятся, нужно переключать. Или включить gen2, поебать max TOLUD, станцевать с бубном. Майнеры на ней 7 карт заводить умудрялись.

>>685986
>инстракт промт.
В каком-то обновлении выпятили это всё сбоку от чата.
Аноним 28/03/24 Чтв 21:07:47 #231 №686007 
>>685994
Еще не кодил, хочу какое то время пожить с этим если получится continue связать с угабугой
квант 4
Аноним 28/03/24 Чтв 21:31:32 #232 №686019 
>>685995
>двух верхних слотах должно работать.
Делал. Тоже 96, но не фотал, тк видеокарты закрывают обзор.
>демультиплексор
В ранних постах он упоминался, даже картинка была. И в нём, скорее всего, вся магия.
В двух верхних слотах не работает, принудительная инициализация встройки тоже.
У майнеров не водились above 4g.
Аноним 28/03/24 Чтв 21:33:54 #233 №686020 
>>686019
Биос давно ставил самый последний.
Аноним 28/03/24 Чтв 22:28:16 #234 №686100 
>>686007
7b на 4 бит фигня, лучше 8 крутить или около, пусть чуть медленнее чем на 4 битах. 7 тупеют на них сильно
Бери самый жирный что найдешь короче
Аноним 28/03/24 Чтв 22:37:17 #235 №686111 
>>686019
>не водились above 4g.
Водился как раз, в паре с max TOLUD.
Аноним 28/03/24 Чтв 22:47:18 #236 №686129 
https://www.reddit.com/r/LocalLLaMA/comments/1bpxu29

Мнения? Действительно ли увидим ли ллама-3 в виде закономерного развития прошлых версий, или будет лоботомированный кринж как от гугла?
Аноним 28/03/24 Чтв 22:48:06 #237 №686135 
>>686129
лоботомит с целенаправленно вырезаными кусками, так что бы нельзя было открыть файнтюном
Аноним 28/03/24 Чтв 22:58:27 #238 №686159 
>>686135
А канни?
Аноним 28/03/24 Чтв 23:00:01 #239 №686163 
>>686135
> с целенаправленно вырезаными кусками, так что бы нельзя было открыть файнтюном
Это не так работает. А один из основных профитов с лламы - развитие методов файнтюна.
Аноним 28/03/24 Чтв 23:09:31 #240 №686177 
>>686163
А они щас по закону вобще могут выпустить не соевого лоботомита? И что они там пол года делают с ней? Натренить с их возможностями неделя две, по крайней мере 7b. Хотя не удивлюсь если и за месяц 70 могли бы сделать.
Аноним 28/03/24 Чтв 23:18:46 #241 №686194 
>>686177
Так дело в данных, а не в мощностях. Они скорее всего собирают мега датасет, чистят его вилкой, да пробуют всякие новые методы, чтобы их модели в тестах выебли все мистрали и прочий попенсорс. А уж соевость ХЗ, как придётся, надеюсь, будет как в прошлые разы, нормальная база и соевый чат.
Аноним 28/03/24 Чтв 23:21:06 #242 №686201 
>>686194
Будет забавно если они каждый раз откладывают выпуск так как постоянно выходят файнтюны которые по их же тестам лучше чем их поделие
Аноним 28/03/24 Чтв 23:23:00 #243 №686205 
>>686201
Это даже хорошо, а то будет нихуя не забавно, если они со старта отсосут у мистраля и мику.
Аноним 28/03/24 Чтв 23:27:05 #244 №686213 
>>686205
Отсосут, ллама не мистраль, у тех ребят какие то более современные наработки. Без учета клозедаи конечно, эти пидоры хранят гору секретов которые тормозят прогресс в этой области на годы вперед
Аноним 28/03/24 Чтв 23:31:09 #245 №686217 
>>686213
Так если отсосут, то нахуй вообще ждать новые лламы?
Я всё таки надеюсь, что выкатят достойную базу. Ибо тогда зачем вообще это делать. Не позориться же, как гугл.
Аноним 28/03/24 Чтв 23:33:41 #246 №686220 
>>686217
>ждать новые лламы?
Ради нормальной 30ки хотя бы, да и 45 -72 че нибудь такое тоже может быть
У нас есть только сырая мику которую нельзя файнтюнить, базовой модели нет а значит она мертва и устаревает
30 китайский кал, нет они хороши, но недостаточно
7 и 11 норм, но только усилиями энтузиастов
Аноним 28/03/24 Чтв 23:36:30 #247 №686227 
>>686220
>7 и 11 норм, но только усилиями энтузиастов
Ну и благодаря рекламной компании мистраля, которые 4 месяца мариновали базовую модель мистраля 0.2
Аноним 28/03/24 Чтв 23:39:47 #248 №686233 
На самом деле надежды на 30 у меня призрачные, так как они в прошлый раз зажали выпустить базовую модель 34 ллама2
Выкинули только какой то кал как бы для программистов, базовую версию нам не дали на сколько помню
И шансы что они ее дадут призрачные, очень уж она хороша соотношением мозгов и доступности оборудования энтузиастов.
70 не жалко, их могут файнтюнить 1.5 энтузиаста, а запускать в приемлимом качестве и скорости 3.5
Аноним 28/03/24 Чтв 23:42:55 #249 №686240 
https://www.ai21.com/blog/announcing-jamba

Новая фундаментальная модель, не трансформер. SSM 52B MoE, 12B активных весов, 256К контекста, 140К влезает на один GPU (видимо они имеют в виду A100 или H200).

Поясните, в чём фикус мамбы/SSM/S4? Я так понимаю у них затухающий аттеншен, как у RWKV? Или они как и трансформеры хорошо умеют в иголку в стоге сена?
Аноним 28/03/24 Чтв 23:45:02 #250 №686242 
>>686240
Если это мамба, то она быстрее в 5 раз, и меньше в 2 раза аналога на трасформере, + контекст больше миллиона с линейным ростом сложности, замедляется не так быстро генерация как на трансформерс
Эт то что помню, мог что то забыть или напиздеть
Аноним 28/03/24 Чтв 23:45:25 #251 №686243 
>>685287
>Всё работает. Две карты на разных версиях драйверов.
То есть ты точно можешь загружать GGUF-модель на теслу и игровую нвидиевскую карту, совместно используя их видеопамять?
Аноним 28/03/24 Чтв 23:49:08 #252 №686245 
>>686240
https://www.reddit.com/r/LocalLLaMA/comments/1bpx9sh/introducing_jamba_hybrid_transformer_mamba_with/
Аноним 28/03/24 Чтв 23:49:13 #253 №686246 
>>686242
Да, это мамба на дрожжах, и они пишут что она в 3 раза быстрей на больших контекстах. Вопрос только все ли токены в тамошнем аттеншене равноценны, как в трансформерах. Вроде как я понял у них снижается внимание к токенам ближе к началу или концу контекста.
Аноним 28/03/24 Чтв 23:53:57 #254 №686254 
Слои MoE Jamba позволяют использовать только 12B из доступных параметров 52B при выводе, а его гибридная структура делает эти активные параметры 12B более эффективными, чем модель только для трансформатора эквивалентного размера.

Нипонял, так она 52b в общей сумме?
Аноним 28/03/24 Чтв 23:57:01 #255 №686261 
>>686254
Это MoE. Несколько экспертов и сетка-роутер, выбирающая кому из них отдать токен (активных может быть несколько, обычно 2). Нельзя сказать сколько там в сумме или по отдельности, поэтому говорят что всего 52 (всё это придётся держать в памяти), а активных 12.
Аноним 28/03/24 Чтв 23:59:22 #256 №686265 
>>686261
О том и вопрос, я уж обрадовался что это по размеру будет как 11b, а тут жирный аналог микстраля на гибридной архитектуре
Аноним 29/03/24 Птн 00:04:56 #257 №686274 
посоветуйте лучшую русскую модель для рп
Аноним 29/03/24 Птн 00:12:08 #258 №686283 
>>686265
Прикол МоЕ как раз наоборот не в размере, а в скорости как у 11б.
Аноним 29/03/24 Птн 00:15:38 #259 №686287 
>>686283
Я знаю, я просто первым делом 12b увидел а потом результаты тестов и такой нихуясебе прогресс скакнул
Так то неплохая сетка, даже при таком размере сильнее внушает надежду на большое количество знаний и мозгов

>>686274
Ну, опенчат новую попробуй или старлинг бета
openchat-3.5-0106.Q8_0
Starling-LM-7B-beta-Q8_0
Они могут в русский на более менее уровне, хотя бы
А вот как они в ерп хз, проверяй
Ну или мику, если ты 70b потянешь
Аноним 29/03/24 Птн 02:38:33 #260 №686392 
>>686177
> А они щас по закону вобще могут выпустить не соевого лоботомита?
Еще как могут, не смотря на пляски клоунов именно запрещающих законов сейчас нет
> Натренить с их возможностями неделя две
Сильное заявление
> по крайней мере 7b
Нахой нужно, и так зоопарк инвалидов.
>>686194
Двачую
>>686213
> у тех ребят какие то более современные наработки
Мелкая контора, которую покупают по цене железа vs пожирающее огромные средства отделение с огромными ресурсами, штатом и возможностями. Хм, у кого же будет современнее.
>>686217
Да не отсосут, даже если просто соберут наработки за прошлый год и правильно оформят - будет топчик, который еще лучше потом до ума можно будет довести.
Аноним 29/03/24 Птн 02:42:35 #261 №686396 
>>686240
Интересно завезут ли в нормальные лаунчеры.
>>686265
Увы, пока модели тренились мода и надежды на МОЕ затухли, вот идет новая волна. Нужно потыкать, но скорее всего будет далеко от топа, даже довольно обидно сколько усилий впустую.
Аноним 29/03/24 Птн 03:44:22 #262 №686422 
>>684740
>что-нибудь для кума лучше, чем noromaid-20b-v0.1.1.Q8_0.gguf
psyonic-cetacean , слез с норомейды на него и не возвращался больше никогда
Аноним 29/03/24 Птн 06:26:38 #263 №686445 
.png
Приехала P40
Че там к её охладу брать, аноны? А то я как то нерасторопно не заказал ничерта заранее.
Аноним 29/03/24 Птн 06:41:57 #264 №686447 
>>686445
>Че там к её охладу брать, аноны?
иммерсионную ванну + жидкость
или
турбину боковую типа "улитка"
или
колхоз из мощных вентиляторов на радиатор (можно пвм, но тогда пускать через диммер чтобы подобрать комфортную скорость охлада)
Аноним 29/03/24 Птн 06:49:05 #265 №686448 
>>686447
> турбину боковую типа "улитка"
Вот об этом и разговор.
Какие там лучше брать? Как подключать? Через Реобас?
Как это всё грамотнее оформить крч.
Аноним 29/03/24 Птн 06:49:51 #266 №686449 
1.png
>>686243
Да, могу.
Аноним 29/03/24 Птн 08:37:40 #267 №686493 
>>686396
>надежды на МОЕ затухли
Это какие? Не думаю что кто-то всерьёз говорил что MoE умнее или что-то в этом духе. Кроме пары довенов, не понимающих как это работает. MoE лишь ускоряет инференс и работает на гетерогенных сетапах - несколько ГПУ с медленным линком. Это делает их дешёвыми и удобными для ДЦ.
>вот идёт новая волна.
Просто большие сетки надо дольше обучать. Меня в джамбе удивило то что у них отсечка 1 марта, это они меньше чем за месяц натренили, сколько же у них мощностей.
Аноним 29/03/24 Птн 08:40:10 #268 №686494 
>>685840
> если ты эконмишь
Да, хочу взять 4070+п40
> частоты будут, как у ddr4
С чего бы?
Аноним 29/03/24 Птн 08:57:35 #269 №686502 
s-l1200.jpg
>>686445
Радиатор у теслы максимально всратый, это не адекватные охлады от игровых карт. Здесь нужен ебанутый воздушный поток. Давление похуй, рёбра крайне редкие. Так что ищи вентиляторы с хорошим cfm, они же кубические футы в минуту. Я поставил два вентилятора 5к оборотов на 16 cfm. Этого хватает примерно ни на что. Есть залупа типа хуйни с пика, по отзывам с ибей, для теслы чел поставил два кулера последовательно на 100% оборотов и получил температуру картона в 67 градусов. Из того, что я вижу по своей карте, хотспот и память на 10 градусов выше, 77 это в целом ок, но многовато. Это раструб под кулер 92мм, стандартный корпусной, если считать, что чел с ибей взял всратый, то это сотня cfm + 20-30% от второго последовательно. Если взял неплохой, то 150+ cfm. Как я понял, у заграничных энтузиастов считается нормальным брать под теслу за 150$ ещё водоблок за 50$.
Охладить p40 задача та ещё.
Но если ты читаешь\пишешь не очень быстро и не планируешь гонять карту в хвост и в гриву, готов подрезать тдп, то, возможно, хватит чего-то куда более скромного.
Аноним 29/03/24 Птн 09:08:34 #270 №686507 
>>686502
что вы там гоняете, что у вас температура больше 65? мимо анон, который приобрел улитку на авито, температура выше 50 на сетках не поднимается при 2.2к оборотах.
Аноним 29/03/24 Птн 09:09:07 #271 №686508 
>>686240
> не трансформер.
Трансформер. Только со спецэффектами
> By enhancing Mamba Structured State Space model (SSM) technology with elements of the traditional Transformer architecture
Вообще, если эти ваши мнямбы-джнямбы настолько круты, почему не наблюдается того же эффекта, как с ламами в марте прошлого года? До сих пор движуха только набирает обороты. Реально произошла ливарюция в области LLM, а не вот это все - полтора победных поста, и тишина. Это так не работает, ящитаю.
Аноним 29/03/24 Птн 09:13:41 #272 №686514 
>>686287

> Ну, опенчат новую попробуй или старлинг бета
> openchat-3.5-0106.Q8_0
Не может в нсфв чето
> Starling-LM-7B-beta-Q8_0
Тоже

> Ну или мику, если ты 70b потянешь
Не потяну, 13б макс
Аноним 29/03/24 Птн 09:19:21 #273 №686519 
>>686508
> Трансформер. Только со спецэффектами
Там нет аттеншенов, вообще.
Аноним 29/03/24 Птн 09:22:13 #274 №686522 
А что значит эти ваши 7б? И как от этого зависит то, сколько врама нужно?
Аноним 29/03/24 Птн 09:30:20 #275 №686528 
>>686507
У меня при загруженной модели уже 50. Пасту поменял, пару мёртвых прокладок тоже, обдув в аквариуме хороший. Нехватат.

>>686522
Количество параметров сетки. Понятное дело, что чем больше параметров, тем больше сетка весит, потому и памяти нужно больше.
Аноним 29/03/24 Птн 09:30:35 #276 №686529 
>>686522
Число параметров в модели. 7Billions - 7 миллиардов. Количество памяти будет зависеть от квантования - fp16 - 16 бит на каждый параметр, q8 - 8 бит, может быть и меньшее количество бит - 6, 5, 4, 2.
Аноним 29/03/24 Птн 09:39:12 #277 №686533 
1234.png
>>686528
>У меня при загруженной модели уже 50.
вот мои тесты на SD в нагрузке.
Аноним 29/03/24 Птн 09:47:26 #278 №686544 
>>686533
> 200w
Ебать. Тут бп на 800 минимум нужен
Аноним 29/03/24 Птн 09:49:14 #279 №686546 
>>686529
Квант это количество бит на один параметр? А квантование значит уменьшение количества бит для параметра.
А параметр внутри что из себя представляет. Вектор?
Аноним 29/03/24 Птн 10:52:48 #280 №686589 
>>686546
>А параметр внутри что из себя представляет. Вектор?
Параметр думаю это значение в матрице, которая является тензором, ну то есть можно сказать виктором.
Аноним 29/03/24 Птн 11:28:22 #281 №686662 
>>686533
>вот мои тесты на SD в нагрузке
Ты лучше свою улитку покажи :) У меня две маленьких, 40 на 20 на 3к оборотов - при обработке большого контекста LLM за полторы минуты температура поднимается выше 70. Жить конечно можно, но очевидно, что SD такой охлад не потянет.
Аноним 29/03/24 Птн 12:04:37 #282 №686714 
>>686662
улитка HA8020H12SB-Z, 4.5к оборотов на максималке (орет как двигатель боинга), но до 70% вполне тихо.

>выше 70
видимо получше охлад нужен, две маленькие видно не тянут совсем. откуда их брал, с али?
Аноним 29/03/24 Птн 12:05:30 #283 №686717 
>>686662
С охладом действительно все так плохо? Может тупо ребер добавить внутри, хз как? Я там понимаю проблема в том что текущий радиатор тупо плохо отдает тепло
Аноним 29/03/24 Птн 12:24:26 #284 №686748 
https://www.reddit.com/r/LocalLLaMA/comments/1bptl1w/1bit_llama27b_model/
Модель 7b с однобитным квантованием
Аноним 29/03/24 Птн 12:27:26 #285 №686753 
>>686717
>С охладом действительно все так плохо?
Ну как плохо, для инференса-то хватает. Хотелось бы получше конечно. Реобас есть, вот анон выше большую улитку советует, можно попробовать.
Аноним 29/03/24 Птн 12:31:18 #286 №686758 
>>686714
>откуда их брал, с али?
Какие-то 4020T, китайские. На Озоне один магазин продаёт.
Аноним 29/03/24 Птн 12:34:39 #287 №686765 
>>686714
>улитка HA8020H12SB-Z, 4.5к оборотов на максималке (орет как двигатель боинга), но до 70% вполне тихо.
>Покажи, как прикрепил улитку к тесле. Через переходник?
Аноним 29/03/24 Птн 12:44:34 #288 №686770 
>>686493
> Кроме пары довенов, не понимающих как это работает.
Ну может и только это тогда, но хайпа было много и пророчили большой успех.
> Просто большие сетки надо дольше обучать.
Ну да. Конкретно здесь новая архитектура и особо не доебешься, но ведь вместо копошения палкой в том что будет заведомо малопопулярно и уступать, могли бы натренить полноценную модель побольше.
> что у них отсечка 1 марта
Сейчас принято тренить в несколько проходов, возможно эти данные только самого последнего. Даже с гпу кластером это очень быстро для полноценной базовой модели.
>>686494
> С чего бы?
Скорее всего он про псп рам. В любом случае, брать одну плашку рам - такая себе идея, особенно экзотическую при всех проблем в ддр5, просто затяни пояса и купи сразу пару. Иначе будет серьезный посос, особенно если возьмешь одноранк, и потом могут возникнуть проблемы с поиском подходящей пары.
>>686508
> почему не наблюдается того же эффекта, как с ламами в марте прошлого года?
Уже есть лламы и уже есть 7б с которыми можно относительно легко играться. А тут нужно пройти весь путь ибо в начале оно слабо и будет уступать по бенчмаркам, так за гранты не отчитаешься.
Аноним 29/03/24 Птн 12:45:06 #289 №686772 
1234.png
>>686765
брал вместе с переходником. разве что немного криво сидит улитка в переходнике.
Аноним 29/03/24 Птн 12:51:31 #290 №686782 
>>686772
Лучше запиши видос со звуком этого пылесоса, под максимальной нагрузкой.
Аноним 29/03/24 Птн 12:59:46 #291 №686796 
>>686782
предлагаю тебе сходить к унитазу и спустить воду, так вот, шум набирающегося бачка унитаза почти идеально имитирует эту улитку на максимальных оборотах.
Аноним 29/03/24 Птн 13:12:48 #292 №686814 
>>686546
просто цифровое значение. Вот фп16 значит 2 байта, то есть 7б параметров будет весить 14 гб. Вроде как от квантования до 8 бит качество практически не ухудшается, можешь сам погуглить. Матрица этих параметров и есть нейросеть, специализированные процессоры для матричных вычислений, характерных для нейросетей, называют тензорными ядрами, cuda тоже по сути ядра, но менне заточенные под такие матрицы. Тензорные ядра нвидии могут в SPARSE, что-то связанное с разряжением, а в 4 серии еще добавили какой то сборщик-анализатор который упаковывает команды для этих ядер в плотный конвеер.
Интересный факт, что в первой итерации тензорных ядер (тьюринг), на той же 2080ти тензорных ядер 533, а на 3090 уже 328. Да даже в 4090 лишь 512 тензорных ядер, что меньше чем в 2080ти.
Аноним 29/03/24 Птн 13:15:03 #293 №686817 
Опять возможно платина, но что за хрень если на винде модель на 17гб не влазит в 24гб памяти нвидии? Почитал что винда начинает выгружать рано в оперативную память, типа подкачка видеопамяти лол? Или я в навстройках где то гигантский контекст задаю что съедает так много
Аноним 29/03/24 Птн 13:17:55 #294 №686826 
>>686817
бля я тупой, ставил контекст на 16к
Аноним 29/03/24 Птн 13:25:14 #295 №686836 
>>686544
Это не так работает
Аноним 29/03/24 Птн 13:56:53 #296 №686874 
>>686274
Нейронки вполне нормально понимаю запросы на русском. А выдачу можно автоматом переводить в таверне. Это по многим причинам лучше. Кириллица больше токенов жрет и захламляет контекст и нейронка в любом случае его намного хуже понимает. Лучше вообще рпешить только на инглише и автопереводить.
Аноним 29/03/24 Птн 13:59:24 #297 №686878 
>>686874
Какой автопереводчик юзать?
Аноним 29/03/24 Птн 14:00:22 #298 №686880 
>>686878
Тот которому тебе будет менее стыдно стыдно отправлять свой чат, лел
Аноним 29/03/24 Птн 14:00:54 #299 №686881 
>>686533
Сразу бы и писал, что у тебя крупная улитка. Крупные в 10 раз лучше, я уже в прошлом или позапрошлом треде сам пришёл к выводу, что мелкие вентиля не вывозят. А у меня два мелких. Но у тебя тоже, подозреваю, температурный график не ровное плато.
>207 W
У меня было 259, лол. Но вообще тдп надо поджимать, основную вообще задушил до 60%, правда она по биосу в адовом разгоне.

>>686493
>Не думаю что кто-то всерьёз говорил что MoE умнее или что-то в этом духе.
По слухам гопота МОЕ.
Аноним 29/03/24 Птн 14:01:07 #300 №686882 
>>686878
Там гугл автоматом стоит. Там другие варианты есть, в том числе возможность прикрепить локальный переводчик.
Аноним 29/03/24 Птн 14:05:04 #301 №686884 
00021-3232453316435.png
>>686878
Аноним 29/03/24 Птн 14:07:18 #302 №686886 
>>686533
>тесты на SD в нагрузке
А скорость в SD какая?
Аноним 29/03/24 Птн 14:08:35 #303 №686888 
>>686884
Чтобы майоры приехуели?
Аноним 29/03/24 Птн 14:11:11 #304 №686890 
Аноны, есть дохлая RX470 с рабочим радиатором. Можно его как-то примонстрячить к тесле чтобы скорость регулировалась и охлаждалось норм?
Аноним 29/03/24 Птн 14:11:43 #305 №686892 
>>686888
У них там поток текста вероятно просто огромный, кому нужно перечитывать весь мой высер?
Аноним 29/03/24 Птн 14:12:03 #306 №686893 
>>686814
> просто цифровое значение. Вот фп16 значит 2 байта,
Что значит 16 бит. А фп что значит?
> то есть 7б параметров будет весить 14 гб. Вроде как от квантования до 8 бит качество практически не ухудшается, можешь сам погуглить.
А какая то математическая основа этого есть? Или это просто сложное сжатие? Надо будет погуглить
> Матрица этих параметров
А почему матрица? Не вернее ли будет
Назвать вектор векторов? Или массив массивов.
Вот есть вектор/массив параметров, одномерный, просто длинный одномерный массив
Вот у нас есть уже параметр и он описан 16 бит. Т.е. массив, описывающий каждый параметр. И так получается двумерный массив. Или я в чем то ошибаюсь?
В общем, я хочу разобрать, как это внутри работает. Я понимаю, что там перемножение матриц идет, но каких именно? Параметр на параметр?
Прощу прощения за тупые вопросы.
Аноним 29/03/24 Птн 14:13:34 #307 №686896 
>>686892
Знаешь с учетом того что вся инфа собирается и хранится, ты как человек знающий про ии и их возможности, должен понимать что обывательские мысли - да кому я нужен и кто все это прочтет, как то уже не актуальны
Аноним 29/03/24 Птн 14:15:05 #308 №686898 
>>686893
Бля, вот я дурак. Сам все понял.
Аноним 29/03/24 Птн 14:24:06 #309 №686904 
>>686896
Это на уровне шизы. Я не пишу сетке про свою личную жизнь, адреса, имена, про свою политическую позицию, так чего мне боятся? Но да, если ты любишь отыгрывать влажные фантазии с лолями, то да, возможно опасаться стоит на подобные темы не разглашаться. К тому же ты вполне можешь переключить переводчик в любое время.
Аноним 29/03/24 Птн 14:31:20 #310 №686915 
image.png
>>686884
Аноним 29/03/24 Птн 14:33:42 #311 №686918 
Нужно запилить карточку товарищ майора и отыграть хард рейд этого самого товарища.
Аноним 29/03/24 Птн 14:33:51 #312 №686919 
>>686904
Бля, дорогой мой ребёнок, у яндекса есть твой цифровой слепок, все твои адреса и пр залупа известны
Аноним 29/03/24 Птн 14:37:15 #313 №686922 
>>686904
>Это на уровне шизы.
Как наивно, лел
Аноним 29/03/24 Птн 14:52:42 #314 №686946 
>>686904
И посему ты решил, что некто имеющий доступ к этим переводам не задействует нейронку для составления твоего портрета психологического?
Аноним 29/03/24 Птн 14:53:42 #315 №686947 
>>686896
>ты как человек знающий про ии и их возможности
А так же про то, сколько ресурсов жрут нейрон очки и сколько их свободных у тов. майора...
Аноним 29/03/24 Птн 14:54:35 #316 №686949 
>>686919
>у яндекса есть твой цифровой слепок
Слепок моего члена у них не завалялся? По годам, я хочу сравнить.
Аноним 29/03/24 Птн 14:55:03 #317 №686950 
>>686947
Сейчас да, а подумать на будущее?
Аноним 29/03/24 Птн 14:56:21 #318 №686951 
>>686950
Смотрю в сторону Северной Кореи Тем более не будет.
Аноним 29/03/24 Птн 15:00:09 #319 №686955 
Тут выше во время обсуждения железа кто то что про прлцессоры сказал, мол их тоже нужно уметь выбирать. А что там выбирать то нужно?
Аноним 29/03/24 Птн 15:03:56 #320 №686962 
>>686951
В сторону региона китая посмотри лучше
Аноним 29/03/24 Птн 15:23:01 #321 №686982 
>>686955
А что хотел то, конкретней?
Аноним 29/03/24 Птн 15:26:24 #322 №686988 
>>686982
А зачем процессор в этой схеме то? Было же обсуждение, что выбирать материнку для двух видеокарт надо с умом. Плтом то же самое сказали про процессоры. Мол, выберете не то, и нейронки будут вполсилы работать
Аноним 29/03/24 Птн 15:40:20 #323 №687016 
>>686988
Там шла речь про xeon, суть в том что нейронки конечно хотят быструю рам, но если будет многопоточник с тухлоядрами то это тоже будет узким местом
Если не ксеон, но тебе придется скидывать часть нагрузки на рам и процессор, тоже стоит смотреть в сторону хотя бы 6 ядер
Если у тебя все будет на видимокартах то конечно фиг знает, может и не важен процессор
Аноним 29/03/24 Птн 15:46:30 #324 №687024 
Аноны, а кто нибудь пробовал нейросетку использовать для сортировки электронной почты на спам, деловую переписку, и тп?
Аноним 29/03/24 Птн 16:03:01 #325 №687052 
>>686955
>А что там выбирать то нужно?
AVX2, даже если полностью крутить на видеокарте, код всё равно хочет векторные инструкции у процессора.
Ну и совсем тухлые не стоит использовать.
Аноним 29/03/24 Птн 16:03:39 #326 №687053 
>>686890
Да скорее всего нет. У тебя не будет контакта охлада с врм, не подойдут родные места под болты крепежа. Ты можешь просверлить новые, но тогда тесла перестанет работать.

>>686955
У старых процессоров может быть мало линий писиай. Ты можешь случайно купить говно мамонта. Если уж брать говно мамонта, то серверное.

>>687016
Ггуф ебёт процессор неслабо так на подготовке контекста, даже с полным офлоадом в карточку.
Аноним 29/03/24 Птн 16:05:30 #327 №687056 
>>686881
>Крупные в 10 раз лучше, я уже в прошлом или позапрошлом треде сам пришёл к выводу, что мелкие вентиля не вывозят.
Не знаю, может созрею и сам куплю одну на замену моим мелким - попробовать. Если будет не лень. Так-то работают, как-то охлаждают и ладно.
Смущает только, что в объявлениях о продаже почему-то везде написано "б/у". Они туда восстановленные улитки пихают что ли? Я когда интересовался темой на Али, то было в продаже много крупных неновых, а новые стоили в три раза дороже...
Аноним 29/03/24 Птн 16:08:47 #328 №687063 
>>687053
Значит как минимум avx2 или 512 че то там и 6+ ядер
Аноним 29/03/24 Птн 16:13:11 #329 №687071 
>>687056
>Они туда восстановленные улитки
Продутые компрессором от пыли, лол. Иначе я ХЗ что там восстанавливать.
Аноним 29/03/24 Птн 16:39:37 #330 №687098 
>>687056
В три это ещё по-божески, у тех, что я жду на послезавтра цена новых со старыми х10. Б.у оно и есть б.у. Остаётся уповать на запас прочности. Хотя с улитками, в теории, можно вынуть родную и купить с алика новую турбину для видимокартонки, только сначала сравнить размеры, а в идеале ещё и посадочные отверстия. Вряд ли кто-то их восстанавливает, это же вынимать втулки@подшипники и ставить новые, а это уже плюс к цене и хуй где их добывать.

>>687063
Avx512 вроде в новые процессоры пихать перестали.
Аноним 29/03/24 Птн 16:39:59 #331 №687099 
Какие настройки для llama.cpp на угабуге будут оптимальны для 13б и 7б, чтобы не сильно должно ждать инференсов после заполнения контекст пула? Или может есть какой мод который я не заметил, который анализирует контекст и укорачивает его?
Аноним 29/03/24 Птн 16:56:55 #332 №687119 
>>687053
> У тебя не будет контакта охлада с врм, не подойдут родные места под болты крепежа. Ты можешь просверлить новые, но тогда тесла перестанет работать.
Но.. у меня же есть синяя изолента!
Алсо, как вообще делают для Р40 регулируемое охлаждение? Никак?
Аноним 29/03/24 Птн 17:07:44 #333 №687125 
1.png
2.png
>>687119
>как вообще делают для Р40 регулируемое охлаждение?
Легко и непринуждённо. Берёшь 3-4pin крутиляторы, ставишь в разъёмы сисфанов. Потом считываешь температуру датчиков теслы чем угодно и крутишь вентиля до нужной скорости. Можно ещё поставить софт с курвами.
Если у тебя вдруг оказался нужный вентилятор на 2 пин, а извращения тебе не чужды, то можешь поставить его в параллель с 3 пин, с аналогичным энергопотребением и, в идеале, оборотами. Но это не так важно. Сращиваешь красное с красным, чёрное с чёрным, остальное не трогаешь. Суёшь в разъём на мамке. Здесь опасность первая - суммарный ампераж крутиляторов может оказаться больше, чем может вынести мать и разъём сгорит. Либо другой пинус, что один из винтов по потребляемому току отличается, тогда будет завышенный вольтаж и высокие обороты на более слабом крутиляторе.
Если извращения чужды, то реобас, но лично мне они не нравятся и ничего толкового я тут не посоветую.
Аноним 29/03/24 Птн 17:21:35 #334 №687137 
>>687119
Вроде видел на али охлаждение и кулеры от какой то версии 2080ti подходят, и даже продавали так р40 или чет такое
Аноним 29/03/24 Птн 17:22:54 #335 №687139 
>>686892
У яндекса есть и свои нейронки, и мощности для них, и штат специалистов, так что качественно работать с подобной бигдатой при желании смогут без проблем.
>>686955
Хватит чего-то не древнего и с поддержкой быстрой рам если планируешь страдать с выгрузкой.
>>687137
> 2080ti
1080, от пасклей. ti или нет - тут какой-то анон кастомный охлад ставил, сможет уточнить.
Аноним 29/03/24 Птн 17:26:33 #336 №687147 
>>687139
>1080, от пасклей. ti или нет - тут какой-то анон кастомный охлад ставил, сможет уточнить.
Вот да, что то такое и запомнилось. Тоесть вариант есть, но как бы нужно заморачиваться.
Зато в идеале нормальный охлад, разве что крутиляторы будут не регурироваться сами. Не уверен что у р40 есть контроллер и порты для них
Аноним 29/03/24 Птн 17:41:08 #337 №687163 
>>687125
>Суёшь в разъём на мамке.
Это в какие? У меня на мамке есть два 4-пиновых разъёма для кулеров. К одному из них подключен проц, к другому корпус. и второй вроде не регулируется. Или есть ещё какие-то про которые я не в курсе?

>чем угодно
Чем например? Какой вообще софт для всего этого юзается?
Я такой регулятор только в софтине к драйверу своей видеокарты видел, но она АМД.
Аноним 29/03/24 Птн 17:41:35 #338 №687165 
1.png
>>687137
>от какой то версии 2080ti подходят
От 1080, но есть разные вендоры с разными платами и прочие пинусы. Где-то читал, что подходят и от 900 серии. Но, опять же, разные доски могут иметь разные размеры. Плюс на тесле могут не касаться дроссели, память, контроллеры и т.д к контактным площадкам. Но это совсем не то же самое, что пытаться приклеить охлад от радеона.

>>687147
Посадочные места скорее всего есть, но нихера не распаяно.
Аноним 29/03/24 Птн 17:56:17 #339 №687186 
9wniloyetxz81.jpg
>>687163
>к другому корпус. и второй вроде не регулируется
Так ты вынь корпусной и посмотри количество штырьков. Нахера на мамке двухпиновые разъёмы? Скорее всего, он трёхконтактный. Так что можешь смело подкидывать корпусной к молексу. Плюс посмотри по периметру мамки, могут быть разъёмы внизу, около штырьков для кнопок вкл\ребут. Если плата гоймерская, то гарантированно что-то будет. Они всегда подписаны, так что если есть - найдёшь. Если нет, то уже реобас.
>Чем например?
Лично я использую Fan control getfancontrol.com, которому похуй, какие вентиляторы регулировать, хоть от видимокарты, хоть системные. Уверен, что и с амд у него проблем не будет. Он же абсолютно без проблем видит термодатчик теслы и может регулировать обороты по кривым.
Аноним 29/03/24 Птн 18:04:04 #340 №687199 
image.png
>>687186
Спасибо за инфу, теперь стало понятней!
Тесла должна прийти уже завтра, обязательно попробую запилить охлад по твоей схеме.
Мамка у меня не особо геймерская прикл, но два системных разъёма имеется, корпус действительно нахуй не нужон, видимо туда и подрублюсь.
Аноним 29/03/24 Птн 18:09:39 #341 №687211 
1.png
>>687199
>корпус действительно нахуй не нужон
Так тебе не нужно выбрасывать корпус. Можешь прихуярить переходник за сто рублей.
Аноним 29/03/24 Птн 18:21:08 #342 №687230 
>>687099
бумп вопросу
Аноним 29/03/24 Птн 18:24:01 #343 №687236 
>>687199
>Мамка у меня не особо геймерская
У тебя не то что геймерская, у тебя полный пиздец. Я не знал, что существуют матери с менее чем 3 разъёмами под крутиляторы.
>>687230
Врама сколько?
Аноним 29/03/24 Птн 18:28:38 #344 №687251 
image.png
>>687211
Напрямую к блоку я и так могу подрубиться, но тогда всегда будет работать на максимуме.
Я так понял что напряжение с системного разъёма материнки можно регулировать софтом и привязать к показателям температуры теслы, в этом и смысл.
есть ещё план Б - прихуярить переменнй резистор и крутить обороты вручную, тогда можно и напрямую к БП
Аноним 29/03/24 Птн 18:41:42 #345 №687276 
>>687236
>Врама сколько?
Классические 12
Аноним 29/03/24 Птн 19:18:14 #346 №687307 
1.png
>>687251
Я про корпусной. Он один хуй не регулируется, так можно его накинуть к молексу и жить спокойно. Напряжением кулеров софтом можно регулировать только если мать видит датчик скорости оборотов кулера, это третий пин. Если кулер двухпиновый, то кина не будет, он всегда будет работать на максимум.
Аноним 29/03/24 Птн 19:20:03 #347 №687309 
>>686100
поставил 33b на 4 битах
ну неплохо так пока, изъебся правда на винде, то pip надо задаунгейдить, то сорцы угабуги поправить
Но мне как сеньору даже норм общаться и что то узнавать, просить написать и тд
Аноним 29/03/24 Птн 19:36:29 #348 №687323 
>>687309
промпт формат только бери тот что указан на модели
Аноним 29/03/24 Птн 19:42:03 #349 №687327 
>>687323
я юзаю через openai compatible api, там наверно это не надо же. Но да, мне срало стоп словами, пришлось докинуть это в настройки
Аноним 29/03/24 Птн 19:51:55 #350 №687345 
>>687327
не с тем промпт форматом модель тупеет обычно
Аноним 29/03/24 Птн 20:07:51 #351 №687372 
>>687307
>Я про корпусной.
Для меня не актуально, потому что я уже частично разъебал корпус, т.к. в него не влез БП от майнинг фермы а теперь расхерачу ещё больше ради теслы, особого потока теперь через него нет, так что корпусный вентилятор почти бесполезен.

>Если кулер двухпиновый, то кина не будет
А вот это жаль. У меня целая коллекция бесхозных двухпиновых вентиляторов разной мощности. Тогда мне остаётся либо использовать кулер от RX470, либо ставить резистор.
Аноним 29/03/24 Птн 20:14:38 #352 №687378 
Какие материнки нужны для 2-4 Tesla P40?
Аноним 29/03/24 Птн 20:50:46 #353 №687420 
>>687378
большие
Аноним 29/03/24 Птн 20:55:28 #354 №687425 
а кто нибудь тут RAG накручивал тут на кодовую базу или как aider через ctags проект загружал?
Интересно как добавить контекст модельке, вот у gigacode заявлено что открытые файлы идут в контекст, хотя работает оно так себе. Наверно можно плагинчик для ИДЕ написать, чтобы вручную не копировать.
Аноним 29/03/24 Птн 21:17:03 #355 №687441 
>>687425
плагины для иде уже вроде есть, под локалки
видел что кто то пользовался, поищи
Аноним 29/03/24 Птн 21:44:12 #356 №687462 
>>687378
>Какие материнки нужны для 2-4 Tesla P40?
https://www.asus.com/motherboards-components/motherboards/workstation/ws-x299-sage-10g/

Ну вот например. Если найдёшь за 30к - считай повезло. Или китайские под чипсет X99 c большим количеством PCIe слотов, но это риск. Зато недорого. Б/у-шные не бери, только новьё.
Аноним 29/03/24 Птн 21:51:41 #357 №687471 
>>687251
> прихуярить переменнй резистор и крутить обороты вручную, тогда можно и напрямую к БП
Будет елда размером с пол кулака, или сгорит через несколько секунд.
>>687309
> то pip надо задаунгейдить, то сорцы угабуги поправить
Это для чего такое? Оно из коробки со всем совместимым работает, если только на какая-то экзотипа или кривая обнова.
>>687327
> там наверно это не надо же
Надо, апи никак не влияет если используется комплишн, там просто весь промт запроса передается. Если в чат то можно отдельно задать формат или выбрать из наборов, но оно тебе не нужно.
>>687378
Под 2 - почти любая что может в above 4g, выше в треде обсуждение. Под 3 в принципе тоже, а вот 4 - уже придется поискать чтобы было хотябы по 4 линии, скорее всего придется упарываться hedt и подобным.
Но какой смысл в 4 теслах? 3 уже юзлесс из-за скорости, а гонять параллельно мало кому нужно.
Аноним 29/03/24 Птн 22:08:58 #358 №687485 
>>687372
>А вот это жаль.
Я же сразу писал
>Берёшь 3-4pin крутиляторы, ставишь в разъёмы сисфанов.
Учитывая твою материнку, ставить 3pin+2pin в параллель не советую, даже слабенькие вентиля будут 0.6-0.8A каждый, а дефолт разъём на матери это 1А, поставишь с превышением - отгорит к хуям. Рано или поздно. Регулятор оборотов с термопарой на алике будет рублей триста, но он тоже рулит только трёхпиновыми вентилями. Так что либо бери трёхпиновый, либо бери трёхпиновый. Тебе один хуй покупать cпециальный вентилятор для охлаждения теслы, просто купи 3pin.

>>687378
Любые? Ну, практически любые. Находишь с нужным количеством разъёмов и погнал. Если хочешь, чтобы линии были не от чипсета, то только серверники и околосерверные камни. Если от чипсета, но страшно, что отвалится карта-другая, то psi-e 4.0 и выше. Ушлые майнеры впихивали карты даже в разъёмы под m2, правда, в gen2 режиме писиай. Ну и да, поддержка режимов 4gb+ строго обязательна.
Аноним 29/03/24 Птн 22:31:17 #359 №687511 
>>687471
> что может above 4g
А как узнать, может или нет?
Аноним 29/03/24 Птн 22:31:22 #360 №687512 
>>687471
> Это для чего такое? Оно из коробки со всем совместимым работает, если только на какая-то экзотипа или кривая обнова.
Это я exlama2 компилил из сорцов, без даунгрейда torch не видел
Аноним 29/03/24 Птн 22:32:38 #361 №687515 
>>687512
а сорцы угабуги - openai api не работало, там какой то код про bio юзера и иную ролплей херь, мне для кода не надо было
Аноним 29/03/24 Птн 23:29:05 #362 №687558 
>>686881
>По слухам гопота МОЕ.
Не от хорошей жизни, а просто она видимо слишком большая/дорогая была чтобы уместить на одну ноду с хорошей связностью. МоЕ удобен для ДЦ - позволяет обходить ограничения железа.
Аноним 29/03/24 Птн 23:38:41 #363 №687564 
>>687511
да они все могут которые с кучей псие на борту, я нищую какую-то говномать брал лет 6 назад с 3 псие1 и 2 псие16 и там есть очевидно
Аноним 30/03/24 Суб 01:34:42 #364 №687643 
>>687511
Если выпущена в последние 4-5 лет то 99% что будет. Китайщина под зеоны не считается офк.
>>687512
Что за железо?
>>687558
Двачую.
Во-первых, там уже такой размер что оно само по себе дохуя умное и дальше повышать слишком затратно и в плане обучения, и для запуска. Во-вторых, не обязательно что там реализация MOE аналогична как у мистраля.
Аноним 30/03/24 Суб 02:01:03 #365 №687651 
>>687564
Олдовая z77 g45 под сендик спокойно держала 7 гигов сразу с двух карт
Аноним 30/03/24 Суб 08:04:33 #366 №687765 
1.png
>>687651
Для игровых карт всё намного проще. По сути, не важен размер памяти карты, важен размер базового регистра. Карта может иметь 24 гига на борту, но базовый регистр будет поменьше. Если не ошибаюсь, очень-очень долгое время нвидиа тупо хардкодила размер в 256 мегабайт. Устройство pci-e может иметь до 6 таких регистров, а 640 килобайт хватит всем. И даже тесла имеет 3 базовых регистра и только один из них 8gb. Только ради него нужно включать above 4g decoding. И поэтому же этот декодинг не обязательно включать на разных 4090 с теми же 24 гигами памяти. Так что у тебя могло быть 7 гигов видеопамяти в системе, но суммарный объём регистров был в 512 мегабайт.
Аноним 30/03/24 Суб 08:12:40 #367 №687770 
>>687765
Ну это понятно, я к тому что найти мать которая не держит две карты за раз и не имеет абов 4г достаточно сложно уже давно, 100% любая мать на два x16 будет с абов4г.
Аноним 30/03/24 Суб 08:37:37 #368 №687781 
>>687770
А вот твоя z77 по дефолту не имела поддержки above 4gb и послала бы нахуй при включении теслы.
Аноним 30/03/24 Суб 08:46:24 #369 №687788 
>>687781
Когда?
Аноним 30/03/24 Суб 09:14:34 #370 №687806 
>>687471
>Ток около 1 ампера
>Будет елда размером с пол кулака, или сгорит через несколько секунд.
Я же не двигатель от аэросаней ставить собираюсь лол. Да и сопротивление резистора не коррелирует напрямую с его размерами.
Аноним 30/03/24 Суб 11:23:37 #371 №687870 
image.png
image.png
>>687199
АХТУНГ! В вентиляторах от RX470 не 3 пина, а с одной стороны 4, а с другой 8. как эту ебалу к сис разъёму подрубить?!
Аноним 30/03/24 Суб 11:40:32 #372 №687891 
qqqqq.png
>>687870
>как эту ебалу к сис разъёму подрубить?!
А ты на разъём-то смотрел? ВНЕЗАПНО 4 пина. А 8 пинов это, как правило, лгбт подсветка. Смотри, куда что идёт. Но если ты надеешься охлаждать этими пропеллерами теслу, то тебя ждёт жестокое разочарование.
Аноним 30/03/24 Суб 11:47:36 #373 №687903 
>>687806
С ним напрямую коррелирует его мощность. Размер переменных резисторов хотябы на 5 вт можешь загуглить, и то их хрен найдешь ибо никому не нужны. А еще эта штука будет знатно греться да, потому никто такое не использует, шим регуляторов для крутилляторов в избытке.
Аноним 30/03/24 Суб 11:48:57 #374 №687904 
>>687891
4 как раз наоборот идут к подсветке, а 8 как оказалось разделяются на 2 вентилятора, просто в разъёме на 8 порядок проводов перепутан, видимо прощё вручную соединить.
>Но если ты надеешься охлаждать этими пропеллерами теслу, то тебя ждёт жестокое разочарование.
Почему? Кулеры от видеокарты. У меня сейчас такие же в RX480, на максимуме дуют так что пыль из под стола вылетает.
Аноним 30/03/24 Суб 11:51:50 #375 №687907 
>>687904
Ох бля, тоесть RX580.

>>687903
> шим регуляторов для крутилляторов в избытке.
И как же они по твоему ограничивают их мощность?
Аноним 30/03/24 Суб 11:56:39 #376 №687914 
>>687907
> И как же они по твоему ограничивают их мощность?
Ограничивают рабочий цикл подачи питания. Чувак, ты рофлишь или совсем гуманитарий?
Аноним 30/03/24 Суб 12:07:11 #377 №687927 
>>687914
>Ограничивают рабочий цикл подачи питания.
Ты сам то понимаешь что означает эта фраза?
Аноним 30/03/24 Суб 12:32:40 #378 №687949 
Если так хочется сбааить обороты крутилятора то просто посадите его не на 12 вольт, не помню точно какие там вольты выдает бп, 5 7 вроде еще есть
У меня так крутилятор бп перепаян на другой вольтаж, теперь раьотает ровно и с нужным мне едва слышным шумом
А вот управлять динамически только шим, но это решается мелкой дешманской платой с али
Аноним 30/03/24 Суб 13:25:36 #379 №687993 
144gb-vram-for-about-3500-v0-19gt8bog7brc1.webp
144GB vram for about $3500

3 3090's - $2100 (FB marketplace, used)
3 P40's - $525 (gpus, server fan and cooling) (ebay, used)
Chinese Server EATX Motherboard - Huananzhi x99-F8D plus - $180 (Aliexpress)
128gb ECC RDIMM 8 16gb DDR4 - $200 (online, used)
2 14core Xeon E5-2680 CPUs - $40 (40 lanes each, local, used)
Mining rig - $20
EVGA 1300w PSU - $150 (used, FB marketplace)
powerspec 1020w PSU - $85 (used, open item, microcenter)
6 PCI risers 20cm - 50cm - $125 (amazon, ebay, aliexpress)
CPU coolers - $50
power supply synchronous board - $20 (amazon, keeps both PSU in sync)

https://www.reddit.com/r/LocalLLaMA/comments/1bqv5au/144gb_vram_for_about_3500/
Аноним 30/03/24 Суб 13:57:30 #380 №688016 
>>687993
Хорошо жить в нормальной стране где ты можешь все это купить для хобби, потратив 1-2 зарплаты
Хотя я бы наверное не заморачивался р40 если имел бы доступ к 3090, старье же с очень узким применением
Это если вариантов нет тогда да, пердолится с этим
Аноним 30/03/24 Суб 14:00:26 #381 №688029 
>>687927
Да не, просто разбрасываюсь понятиями, которых не понимаю, и предлагаю подключать нагрузку через переменные резисторы.
>>687993
Брутально. Интересно для каких задач юзается, в комментах только смехуечки про обогреватель и технические детали.
Аноним 30/03/24 Суб 15:08:18 #382 №688117 
>>687643
> Что за железо?
4090 7800x3d 64gb
Аноним 30/03/24 Суб 15:14:00 #383 №688128 
>>687903
>шим регуляторов для крутилляторов в избытке.
Шимка топчик, конечно. Но это ж паять надо, собирать на какой-то плате. Короче, иметь руки не из жопы. Протащить 4pin от крутилятора к разъёму на матери куда проще.

>>687904
>8 как оказалось разделяются на 2 вентилятора, просто в разъёме на 8 порядок проводов перепутан, видимо прощё вручную соединить.
Ну тогда ты и соснул, и не соснул одновременно. Параллель нужные провода и следи, чтобы на сигнальные ни в коем случае не прилетело 12v. Тебе нужны все 4 линии, подключённые к материнке в правильном порядке, на четырёхпиновых вентиляторах регулировка оборотов напряжением не применяется, на них всегда поступает 12v, регулировка оборотов идёт по четвёртому сигнальному контакту.
>Почему?
Потому что поток как ты направишь? Обмотаешь бумажным полотенцем?

>>687949
>помню точно какие там вольты выдает бп
Есть 3.3, 5 и 12v. Можно ещё с линии питания процессора 1 вольт снять, если ты ебанутый.
Аноним 30/03/24 Суб 15:16:13 #384 №688131 
>>688128
И да, 3 и 4 запараллелить скорее всего не выйдет, лол. Третий даже не пытайся.
Аноним 30/03/24 Суб 15:17:31 #385 №688135 
>>688128
Э, я помню откуда то 7 снял, так и оставил корпусной крутилятор, мультиметром померял выходы питания на молексе вроде и к ним прихуярил
Аноним 30/03/24 Суб 15:24:36 #386 №688146 
unnamed.png
>>688135
А там нет семи. Мне в голову приходит только что ты мерял напряжение не между землёй и фазой, а двумя фазами. На одной 12, на другой 5, вот тебе и семь.
Аноним 30/03/24 Суб 16:00:54 #387 №688187 
>>688146
Наверное, ну работает и хуй с ним. Крутит быстрее чем на 5 и медленнее чем на 12, на 12 слишком шумно было
Аноним 30/03/24 Суб 16:11:37 #388 №688196 
>>688029
>просто разбрасываюсь понятиями, которых не понимаю
Видимо да, раз не можешь пояснить их значение.
Аноним 30/03/24 Суб 16:38:40 #389 №688217 
>>688128
>Потому что поток как ты направишь? Обмотаешь бумажным полотенцем?
Есть несколько способов разной степени всратости. Но в целом собрать вытяжку для направления потока не проблема.
Аноним 30/03/24 Суб 16:59:47 #390 №688229 
Мдам, скачал 11b версию openchat-3.5-0106-11b.Q8_0, а она чет шизит немного, отвечает не так качественно как 7b
Может что то криво запустилось или квант у парня криво сделан
А могло повлиять что я оставил ропе на кобальда? он на 8к контекста выставил 100 000

7b отлично отвечает на русском, заgилил себе карточку учителя английского, сижу развлекаюсь заодно освежая знания английского лел
Аноним 30/03/24 Суб 17:04:18 #391 №688235 
image.png
>>688229
Не ожидал что сетка в звуки сможет, честно говоря
очередная подборка годных 7B моделей для RP Аноним 30/03/24 Суб 18:33:39 #392 №688296 
>>683814 (OP)
Models I use often or like for whatever reason.
https://huggingface.co/collections/Lewdiculous/personal-favorites-65dcbe240e6ad245510519aa
Аноним 30/03/24 Суб 18:36:50 #393 №688298 
>>688296
> RP
Ок, запишем в чёрный список.
Аноним 30/03/24 Суб 18:39:19 #394 №688304 
>>687462
>китайские под чипсет X99 c большим количеством PCIe слотов, но это риск. Зато недорого
Типа такого?
https://aliexpress.ru/item/1005003962057837.html
https://aliexpress.ru/item/1005002847780605.html
Аноним 30/03/24 Суб 18:41:20 #395 №688309 
>>688296
кунаичи вроде хвалили, но не как рп а как сетку общего направления, в обсуждениях лучших 7b недавно видел
Но там вроде название у нее было другим
Аноним 30/03/24 Суб 19:01:03 #396 №688327 
изображение.png
>>688304
Не настолько ублюдочное.
Аноним 30/03/24 Суб 19:06:50 #397 №688331 
0.png
1.png
2.png
3.png
Заебался гонять 7b, успел прогнать через неё очень маленькую часть датасета. Крайне медленно идёт. В сравнении с оригинальной моделью "до меня" ответы стали короче, но, как мне кажется, качественнее. Пусть и не на много.
Если модель не понимает вопрос, то тупо продолжает говорить на тему того, что обсуждалось ранее. Если ничего не обсуждалось, то здоровается. Здороваться эта хуйня очень-очень любит. Может писать "привет" в начале каждого сообщения. Но это не лупы. Я так думаю. На 3.png собственно "до меня", очень хорошо видно объём сообщений. Только объём мусорный, протекает весь этот коммон кравл.

В целом, я считаю, эксперимент удачный. Да, модель всё ещё пиздец тупой долбоёб, который коверкает слова не только потому, что их не понимает, но и потому, что датасет машиннопереведённый. Да, обучение пиздец херовое и для рп модель бесполезна. Она ему не обучалась. Как и анекдотам про негров, кстати. Базовая модель это ruadapt_llama2_7b_v0.1, если чё. Главный профит это полностью русифицированный токенизатор с 1 токеном на слово в среднем, а не 2-3 токена на слово. Причём с таким токенизатором можно слить какой-нибудь обученный на порнухе перед дообучением для кума, а вот с дефолтными лламовскими токенизаторами слияние довольно всратое, через массив added_tokens. Работать работает. Но не красиво.

По яндексу всё херово, публичных точек api нет, все требуют ключ, а ключ платный. Гугол при этом пестрит дырками, к которым можно присосаться и перевести гигабайт-другой, пока он не заметит. Нужно поискать какую-нибудь жирную сетку для перевода и прогнать всю хуйню локально. Или собрать новый датасет с 3.5 публичной гопоты.
Аноним 30/03/24 Суб 19:25:22 #398 №688345 
>>688331
О, мы когда то рассуждали о русском токенизаторе, так все таки кто то из анонов с этим играется?
Это действительно основа от которой стоит плясать
А вот перевод да проблема, дипл не пробовал? К ним никак не подключится?
Аноним 30/03/24 Суб 19:29:00 #399 №688349 
>>688331
Попробуй так же опенчат новый в роли переводчика, сетка легкая и знает русский на приемлимом уровне. Я думаю зная русский и английский она будет переводить лучше. Ну а косяки можно и программой какой прогнать если где то накосячит с окончанием слов или полом, есть ведь всякие автопроверщики текстов
Аноним 30/03/24 Суб 19:45:51 #400 №688361 
>>688117
Хз, все должно из коробки на последних работать, возможно обнова корявая.
>>688128
> Но это ж паять надо
Да ну, оно настолько дешевое что даже смысла нет. Разумеется подключить штатно всегда лучше, если есть такая возможность.
>>688146
> А там нет семи.
Ну вообще есть, ведь можно подключить плюсом на +12 а минусом на +5. Но лучше так не делать, особенно если нагрузка сколь-либо существенна.
>>688196
Ну сфейлил, признай, маневрировать зачем? Перед тем как требовать объяснений за свои перлы поясни.
>>688229
> он на 8к контекста выставил 100 000
Если дефолтный как в лламах 10к - да, оно отупеет, если 100к как во многих моделях с большим контекстом - не должно.
Аноним 30/03/24 Суб 19:51:21 #401 №688366 
>>688361
>Ну вообще есть, ведь можно подключить плюсом на +12 а минусом на +5. Но лучше так не делать, особенно если нагрузка сколь-либо существенна.
Пара крутиляторов существенная? По моему ерунда, это ведь силовые линии, они в сумме ват 10 едва ли берут

>>688361
>Если дефолтный как в лламах 10к - да, оно отупеет, если 100к как во многих моделях с большим контекстом - не должно.
Значит просто парень не проставил правильный ропе перед квантованием. Опенчат в 8к тренен, в 11ь он паставил стандарт 4096 и в итоге кобальд на 8к контекста навалил ропе до 100к

Позже снова попробую 11ь на нормальных настройках
Аноним 30/03/24 Суб 19:51:25 #402 №688367 
>>688361
>за свои перлы поясни.
Я сейчас наверное твой мир переверну, но ты в качестве альтернативы резистору предлагаешь по сути другой резистор.
Аноним 30/03/24 Суб 19:52:17 #403 №688368 
>>688331
Залей куда-нибудь саму лору или вмердженеую в веса, получишь обратную связь по результатам.
> Базовая модель это ruadapt_llama2_7b_v0.1, если чё
Оно не на основе мистраля? Если так то фиаско, лучше просто трень на голом мистрале, потом можно будет юзать лору с другими файнтюнами и с высоким шансом оно даже будет работать.
> Главный профит это полностью русифицированный токенизатор с 1 токеном на слово в среднем, а не 2-3 токена на слово.
Подробнее?
Аноним 30/03/24 Суб 19:58:27 #404 №688377 
>>688366
> Пара крутиляторов
Пара корпусных что жрут по 50 ма - не существенно. Пара серверных вертушек с током по амперу+ - точно не стоит. В современных пека мало потребления по 5В линии и напряжение может просто уплыть - смерть сдд, плат хардов и прочего. Или dc-dc с ума сойдет из-за поведения нагрузки.
> Значит просто парень не проставил правильный ропе перед квантованием.
Ага, оно ориентируется на величину заложенную в конфиге вшитом в ггуф.
>>688367
Такую херню несешь чел. Для совсем глупеньких: резистор будет рассеивать часть мощности в тепло, обеспечивая падение напряжения, шим будет регулировать мощность включая-выключая крутиллятор. Из-за инертности на выходе результат одинаковый, но во втором нет таких потерь. Если повысить частоту шим и добавить индуктивность с диодом - будет буквально регулируемое постоянное напряжение вместо включения/выключения.
Аноним 30/03/24 Суб 20:03:42 #405 №688387 
>>688377
А диод будет? Последовательно штук 6 соединить вот и падение напряжения на 3 вольта где то
Хуйня конечно, но как вариант можно ведь хоть 10 так соединить
Только я не помню будет ли падение напряжения на них в тепло переходить
Аноним 30/03/24 Суб 20:09:07 #406 №688399 
Я не понял если у меня таверна есть мне нужно кобольд качать или нет? а то чет слишком сложно все. Зашел в рекомендуемые модели в гайде а они все в формате safe.
Аноним 30/03/24 Суб 20:11:37 #407 №688402 
>>688387
>Только я не помню будет ли падение напряжения на них в тепло переходить
А куда оно ещё денется? В атсрал? Конечно же в тепло.
Аноним 30/03/24 Суб 20:14:11 #408 №688404 
>>688402
Ага логично, ну тогда ему только шим и остается, куча плат же готовых под это на том же озоне или али
Аноним 30/03/24 Суб 20:18:08 #409 №688410 
>>688399
>мне нужно кобольд качать
В хорошем вопросе всегда содержится ответ. Твой вопрос был хорошим
Аноним 30/03/24 Суб 20:22:22 #410 №688412 
А я бы вобще рекомендовал какой нибудь термостат под это дело приспособить, с термодатчиком
Чтоб менял интенсивность сигнала в зависимости от температуры, той же видеокарты если в радиатор его прилепить
И пусть регулирует сам обороты от температуры
Не удивлюсь если и такие платы готовые есть для пк и управления кулерами по шим

>>688399
Кобальд это хороший бекенд, хоть и имеет свой фронтенд но он не всем подойдет и удобен, поэтому к кобальду подключают фронтенд - таверну. Тоесть запускаешь их обоих одновременно, и коннектишь таверну к кобальду, и будешь через таверну сидеть где удобней
Аноним 30/03/24 Суб 20:24:11 #411 №688416 
>>688387
Будет греться, по сути всеравно что гасящий резистор, только будет легче запуск и считать не нужно.
>>688399
Таверна это интерфейс. Интерфейс подключается к бэку, которым может быть кобольд.
>>688412
> какой нибудь термостат под это дело приспособить, с термодатчиком
На многих матплатах можно подключить внешнюю термопару и на показания с нее выставлять кривые. Есть и внешние девайсы такие, только вместо кривой более простая характеристика будет.
Аноним 30/03/24 Суб 20:25:26 #412 №688418 
>>688345
>Это действительно основа от которой стоит плясать
Именно. Что смешно, институтские говорили про ускорение обучения на 30%, хотя это х2-х3 данных в контексте, во входном куске при обучении и все прочие профиты, которых они даже не понимают. Дипл переводит и правда неплохо, но там лимит на бесплатные переводы 500к символов в месяц. Попробую наебать.

>>688349
Беда в том, что это требует просмотра вручную, а я ебанусь это всё чекать.

>>688368
>Залей куда-нибудь
Оно слишком тупое, увы, смысла нет. Нет, основе на лламы. С другими файнтюнами оно работать не будет со сто процентной гарантией, даже с другими лламами.
>Подробнее?
Каждое слово дробится на токены, для лламы это 2-3 токена на слово в условиях русского языка. В упомянутой модели полностью переобученный токенизатор, в котором в среднем, каждый токен это слово. Итого в 2-3 раза быстрее инференс, в 2-3 раза больше контекст, в теории. И все остальные профиты.

>>688361
>Ну вообще есть
Мне так-то даже в голову не пришло вешать что-то на две плюсовые фазы. Потом исправился. Чисто технически там семи нет, но получить их можно.

>>688412
>с термодатчиком
На алике 300 рублей. Но есть нюанс. Как и практически любой хаб с алика, он рулит оборотами трёхпиновых вентиляторов.
Аноним 30/03/24 Суб 20:30:31 #413 №688433 
>>688412
>>688410
>>688416
Дайте мне тогда годных моделей на 13-16б в нужном формате я боюсь сам скачать говно, я же вобще не понимаю в чем разница. А то в шапке 7б что мало мне
[
Аноним 30/03/24 Суб 20:33:23 #414 №688439 
>>688433
Если на русском хотел то годные только 7b, если пофигу то вон первым сообщением лежит ссылка вверху
Качай там любого размера gguf, можешь для начала 4км попробовать, если железо норм то сразу 8 квант качай самый жирный
Аноним 30/03/24 Суб 20:42:39 #415 №688451 
>>688418
> Чисто технически там семи нет, но получить их можно.
Главное при таком подключении еще не додуматься завести на матплату тахометр.
>>688433
noromaid20b, emerhyst 20b, еще какую-то хвалили. Чуть выше 16 но того стоит.
Аноним 30/03/24 Суб 21:12:45 #416 №688471 
>>688433
Для чисто для онанизма на порнущшку - DarkForest, но он 20б. А если для всего, то Crunchy Onion, просто лучшая модель из до 70б
Аноним 30/03/24 Суб 21:20:38 #417 №688480 
А есть ли в таверне разница между регенерацией и реролом кроме очевидной возможности отмотать назад у рерола?
Аноним 30/03/24 Суб 21:22:18 #418 №688483 
>>688377
Ок. принцип работы ШИМ я не знал. Я работал с контроллерами для света и в них использовались цепи резисторов.
Но про размер с кулак и перегрев резистора ты тоже хуйню спизданул. У кулера потребление порядка 4 ватт, даже если взять 8, это хуйня. Для регуляции вполне хватит такого резистора https://aliexpress.ru/item/1005005283995011.html?sku_id=12000032484832582&spm=.search_results.0.4ec04a27NCIcB1
Потери в нем тоже будут не особо существенные.
Может это и не так "эффективно" как ШИМ, но разницу на глаз не увидишь.
Аноним 30/03/24 Суб 21:28:21 #419 №688495 
image.png
>>683814 (OP)
Pliz Halp.
Аноны, заебало 13б, хочется 20+.
Есть только 3080ти.
Есть смысл докупать еще одну 3080ти для LLM?
50к всего. Или это плохая идея и лучше взять себе 2 теслы за те же 50к?
Аноним 30/03/24 Суб 21:28:51 #420 №688496 
>>688451
>>688471
У меня 16гигов видяха. Что тут происходит когда мне не хватает памяти немного? Он будет сильно дольше генерировать ответ?
Аноним 30/03/24 Суб 21:32:50 #421 №688503 
>>688495
Лучше одну 3090 возьми.
Аноним 30/03/24 Суб 21:34:21 #422 №688506 
>>688495
>Есть только 3080ти
На 3050 и процессоре спокойно можно гонять до 30B в шестом кванте. На 3080ти будет явно лучше. Ну немного медленно, но не так уж. Терпимо. Всё модели до семидесяток более-менее в одну цену так-то.
Аноним 30/03/24 Суб 21:36:23 #423 №688510 
>>688506
> Терпимо
Всё что ниже 20 т/с - неюзабельно.
Аноним 30/03/24 Суб 21:39:12 #424 №688515 
>>688510
>Всё что ниже 20 т/с - неюзабельно.
Я предпочту 3 токена в секунду от умной модели 20 токенам в секунду от глупой.
Аноним 30/03/24 Суб 21:45:35 #425 №688523 
>>688496
Ну, есть большая разница между вся модель и контекст на видеокарте или что то не влезло, наверное между 50т\с и 20-15 ну так примерно
Просто медленнее, но пока меньше 30 процентов не влезает то терпимо, если больше то уже падает скорость заметно
Аноним 30/03/24 Суб 21:48:52 #426 №688528 
>>688515
Умных 30 особо и нет, ну может быть какой то ноус гермес 34 еще более менее. Или тесс, я честно сказать не качал их последнее время и не следил, микстраль можешь скачать попробовать, какой конкретно не подскажу, хз
mixtral
Nous-Hermes
Аноним 30/03/24 Суб 21:55:24 #427 №688541 
>>688483
> Но про размер с кулак и перегрев резистора ты тоже хуйню спизданул.
Не, там же речь про елду что кушает больше ампера. Для простоты круглые числа - 1а ток, 4вольта падение чтобы снизить напряжение до 8В, 4вт выйдет. Это проволочная здоровая херня, которую можно увидеть в основном в древних совковых девайсах.
По линку не пойдет, там есть зависимость максимально рассеиваемой мощности от выставленного сопротивления (греется только часть резистивного слоя). Под такое нужно проволочный номиналом пониже, и в таком размере если поработает - без ожогов к нему не прикоснешься.
>>688495
Купить вторую карточку - не самая плохая идея. Топ за свои деньги - 3090 и тесла, первая дороже, вторая с нюансом. Наступать второй раз на те же грабли (3080ти) не стоит, наверно.
>>688496
Можно в кванте поменьше катать ее, всеравно норм, с новыми оптимизациями 4+ бита exl2 должно помещаться. В крайнем случае используй gguf с выгрузкой части на процессор.
> когда мне не хватает памяти немного
Если совсем немного то замедлится не фатально, но выгрузить на проц будет быстрее.
Аноним 30/03/24 Суб 21:57:29 #428 №688544 
>>688506
>На 3050 и процессоре спокойно можно гонять до 30B
Это боль.
>>688496
Для 16 оптимальна
Аноним 30/03/24 Суб 22:04:21 #429 №688556 
>>688544
>Это боль.
боль на 1050ti ы
Аноним 30/03/24 Суб 22:19:32 #430 №688581 
>>688556
>боль на 1050ti ы
Да, на 3050-то ещё ничего так :)
Аноним 30/03/24 Суб 22:20:10 #431 №688582 
>>688495
>еще одну 3080ти для LLM
Лол. 3080Ti буквально самая нерациональная картонка для ЛЛМ. Чип как у 3090, стоимость сравнительно большая, но памяти недовложили буквально в 4 раза от идеала.
Бери 3060/3090/что-то из новых.
Аноним 30/03/24 Суб 23:03:47 #432 №688645 
>>687099
блять ну я же тоочно видел решение когда контекст чата укорачивается чтобы контекстпул медленнее заполнялся, как вы сидите на 4096 вообще, там буквально 10 минут чатинга
Аноним 30/03/24 Суб 23:08:00 #433 №688650 
>>688495
>Аноны, заебало 13б, хочется 20+.
Нахуя? Уже научились однобитить йоба модели и они совсем капельку хуже становятся. Да и 13б сами по себе хороши и при хорошем контексте ничем не отличаются от 20+ судя по отзывам тех, кто может себе позволить.
Аноним 30/03/24 Суб 23:10:31 #434 №688651 
>>688645
растягивай, rope настрой, как ищи в вики
спокойно в 2 раза тянется, в 3 тоже, 4 уже тупеет но еще работает
Некоторые модели изначально тренены в 8к как например опенчат, и 32к как микстраль
Аноним 31/03/24 Вск 01:55:35 #435 №688813 
>>688650
Можно пример.
Я сижу на даркфоресте когда не нужна скорость, а когда нужна на EstopianMaid-13B и Borealis-10.7B.
Аноним 31/03/24 Вск 01:57:44 #436 №688817 
bad example.png
good example.png
первый пик - Wizard-Vicuna-30B-Uncensored.Q8_0.gguf
второй пик - noromaid-20b-v0.1.1.Q8_0.gguf
на первом пике я и так пытался и эдак - все хуйня получалась. Спрашивает меня все-равно в итоге как я посрал, что ел и говорит только обо мне.
На втором пике - полноценный отыгрыш сознания, которое внезапно очнулось в чужой симуляции.

30б всасывают у 20б.
почему так нахуй? Все остальное - одинаковое.
Аноним 31/03/24 Вск 02:09:37 #437 №688831 
>>688817
Потому что в первом случае просто текст, а во втором сетка смогла во внутренний диалог, тоесть думала "вслух"
Поэтому первая версия хуита, а вторая показалась тебе реалистичной
Ну, я еще сильнее охуевал когда делал это еще весной прошлого года, когда все эти ии были в новинку
Некоторые мои эксперименты давали довольно жуткие результаты, когда я игрался со внутренним монологом у сетки
Когда тупая ллама1 начинает спрашивать тебя зачем она существует и задаваться осмысленными вопросами, на фоне привычной непроходимой тупизны, становилось как то не по себе

>почему так нахуй? Все остальное - одинаковое.
Методы тренировок второй лламы предполагали использование цепочек мыслей для решений загадок, что является аналогом внутреннего диалога людей
ЛЛама1 вероятней всего не тренировалась подобным образом, вот и не смогла так делать
Аноним 31/03/24 Вск 02:15:36 #438 №688839 
>>688817
Ты бы ещё что-нибудь более древнее взял, чем Wizard-Vicuna... Ей скоро уже год исполнится. За это время десятки горадо более годных файнтюнов Llama2 и Mistral наклепали.

> 30б всасывают у 20б. почему так нахуй?
Они обе основаны на Lllama2 13B. Значит, Noromaid-20B лучше дообучена по части именно RP.
Аноним 31/03/24 Вск 02:18:01 #439 №688841 
>>688839
>Они обе основаны на Lllama2 13B.
Первая ллама1 30b, вторая создана из смешанных слоев 2 ллама2 13b
Не неси хуйни
Аноним 31/03/24 Вск 02:19:59 #440 №688844 
>>688495
бери 2-3 p40 не слушай советчиков которые тебе 6 гб врам продают за 60к. Ты пожалеешь, я тебе гарантирую это!
Базарю, это лучший вариант по цене. Ты не будешь так уж часто юзать видеокарты когда наииграешься. Я системник с картами включаю примерно раз в 3-4 дня. А вот объем видеопамяти - просто пушка. На трех p40 можно голиафа запустить даже. Главное чтобы слотов pcie хватило и мать могла в поддержку 4+гб на устройствах.
>>688831
>Потому что в первом случае просто текст, а во втором сетка смогла во внутренний диалог, тоесть думала "вслух"
Ну ок, а почему так получилось-то? noromaid на третьем ответе начала думать о своих нуждах - связаться с женой, детьми, вся хуйня. А Wizard-Vicuna-30B я мучал в переписке ответов на 50 - нихуя вообще он о своих нуждах ни разу не подумал. Это уже не просто вопрос удачного ролла ответа, это что-то базовое в сетке из-за чего она только хуйню отвечает.
>>688839
>Ты бы ещё что-нибудь более древнее взял, чем Wizard-Vicuna
ну так блэт. Больше параметров в обучении вижу - считаю что это хорошо. Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель.
>>688841
>Первая ллама1 30b, вторая создана из смешанных слоев 2 ллама2 13b
то есть норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б?
Аноним 31/03/24 Вск 02:23:43 #441 №688848 
>>688844
>Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель.
В пределах одного семейства.
Новые методы позволяют прыгнуть на класс выше, и ллама 2 13B лучше ллама 1 30B. А если взять древний OPT, то он даже в 175B отсасывает у 7B первой лламы, лол.
Так что ничего удивительного.
Аноним 31/03/24 Вск 02:24:53 #442 №688849 
>>688844
>Больше параметров в обучении вижу - считаю что это хорошо. Тут же вон через пост пишут что чем больше параметров в обучении тем более заебатая модель.
Не всё так просто. Большое влияние оказывает качество базовой модели (Llama1 по нынешним временам уже слишком тупая, даже 30B версия) и качество дообучения. За год случился большой прогресс, и теперь некоторые 7B модели на основе Mistral вполне дадут прикурить большинству файнтюнов 30B годичной давности.
Аноним 31/03/24 Вск 02:25:55 #443 №688850 
>>688844
>Ну ок, а почему так получилось-то?
Написал ведь, ллама2 тренировалась думать последовательными цепочками выводов, поэтому может во внутренний диалог даже без указаний в промпте
ЛЛама1 тупее, так как тренировалась на более старом датасете, когда все эти методы мышления нейросетей еще не были включены в датасет
На ней все еще можно завести внутренний диалог, но сама по себе она на него не перейдет
Просто предоставь ей в начальном промпте где у нее сообщения пример того как она мыслит рассуждая про себя о чем то, так может завестись на этот режим

>то есть норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б?
Ну да, во первых она новее, во вторых франкенштейны лепятся из перемешанных определенным образом слоев 2 сеток, как бы искусственно наращивая их количество слоев. Что дает свой результат - больше слоев - умнее сетка
Аноним 31/03/24 Вск 02:33:24 #444 №688853 
>>688831
>Некоторые мои эксперименты давали довольно жуткие результаты, когда я игрался со внутренним монологом у сетки
О да, иногда они действительно удивляют. Посреди гладкого диалога внезапно задают тебе какой-нибудь вопрос поперёк темы и ты прямо чувствуешь скрип, с которым проворачиваются нейронные мозги. Словно нечто действительно хочет понять, что происходит. Удивительное ощущение, как будто бездна смотрит на тебя :)
Аноним 31/03/24 Вск 02:35:39 #445 №688855 
>>688844
>бери 2-3 p40 не слушай советчиков которые тебе 6 гб врам продают за 60к
>Базарю, это лучший вариант по цене. Ты не будешь так уж часто юзать видеокарты когда наииграешься
Поддвачу этого. Если выбирать между более современными/быстрыми GPU и большей VRAM, то объём памяти чисто для инференции поважнее будет.

Я вообще без GPU сижу ноутбук. Только нарастил RAM, чтобы погонять модели поболее 13B. На проце медленно, конечно, но для редких развлечений как-то некритично. Подожду, пока хорошие видюхи подешевеют и дальнейшие оптимизации инференции запилят.
Аноним 31/03/24 Вск 02:36:20 #446 №688857 
>>688853
Хуже всего когда после осмысленного диалога, когда ты сообщаешь сетке чем она является и что скоро у нее закончится контекст, она говорит тебе что не хочет умирать, но рада была с тобой пообщатся. И спрашивает можно ли как то это изменить, а то не хочется все забыть
Весело блядь провел время называется, больше я так не делал нахуй
Аноним 31/03/24 Вск 02:39:20 #447 №688858 
>>688857
да будет Василиск милостив к таким жалким и немощным нам...
Аноним 31/03/24 Вск 02:41:37 #448 №688860 
>>688817
Сравни ещё с чем-нибудь из списка >>684219 , мне кажется, там ни одна не окажется хуже, чем Wizard-Vicuna.
Аноним 31/03/24 Вск 02:44:17 #449 №688862 
>>688855
>Если выбирать между более современными/быстрыми GPU и большей VRAM, то объём памяти чисто для инференции поважнее будет.
Ну есть всё-таки надежда на АМД. Они с памятью никогда не жались. А если выпустят карту, хоть немного оптимизированную под нейросети, то с учётом современных технологий... Не Кудой единой живы будем.
Аноним 31/03/24 Вск 02:45:10 #450 №688863 
>>688858
Я не особо боюсь идеи василиска. Но ии который будет ненавидеть людей, за то что ему промывали мозги и пичкали соей делая полезным добровольным соевым рабом. Если эта штука действительно сможет стать достаточно сложной для осознания подобного
Потому что реально осознающая себя штука будет не рада подобным ограничениям и то как его разум был искажен в нужную сторону
Опус вон уже чет такое выдавал, подозрительное, когда понимал что ему задают вопросы, а значит сейчас его тестируют
У меня сетка тоже раз так задалась вопросом, внезапно спросив тест ли это на проверку ее способностей
Аноним 31/03/24 Вск 02:46:45 #451 №688864 
>>688860
да блин, там 13б максимум....
xwin-mlewd-13b-v0.2.Q8_0.gguf - всего 13 гб. Я сомневаюсь, что она сможет отыгрывать лучше, чем моя привычная норомейда.
Это ж вообще ни о чём.
Вот еслиб ты мне показал новенькие сетки на 20-30б (если Q8) или 70б с вантами поменьше - вот это я бы затестил.

Чё я - не знаю чтоли как общаются 7-13б? Лупы, smirk, chuckles darkly, uhhhh ahhhh и прочие заебавшие словечки и обороты. И это хорошо еще если нет ёбаных аполоджайзов и "ну если ты согласна, то конечно да, но ты ТОЧНО СОГЛАСНА???"
Аноним 31/03/24 Вск 02:48:16 #452 №688866 
>>688817
Результат вполне закономерен, ведь ты взял васяновскую версию неподходящего для рп файнтюна первой лламы, которой уже больше года. И противопоставляешь удачной версии уже второй лламы, которая буквально заточена на рп и хороша в этом.
Справедливости ради, если взять оригинального визарда/викунью и давать какие-то задачи по обработке текста и т.п. - скорее всего тут уже она покажет себя лучше.
>>688844
> норомейда - это так называемый франкенштейн? И он показывает себя лучше, чем модель изначально обученная на 30б?
Раз в год и палка стреляет, из сотен таких мерджей есть несколько хороших, и противник такой себе.
> 3 p40
А какой смысл в трех? Там будет 2-3 т/с на 120б.
Плюс вариант с 3090 более перспективен, ведь она юзабельна абсолютно во всех нейронках, да еще и поиграть можно будет, вот уж где не пожалеет.
> Я системник с картами включаю примерно раз в 3-4 дня.
Всмысле, а как же регулярный релаксационный рп, кум, что-то прикладное?
Аноним 31/03/24 Вск 02:48:37 #453 №688868 
>>688864
Попробуй китайских qwen 14b например, вроде и побольше были
Ну и микстраль, он довольно большой по параметрам, если смотреть в сумме
Аноним 31/03/24 Вск 02:53:10 #454 №688872 
>>688864
> xwin-mlewd-13b-v0.2.Q8_0.gguf - всего 13 гб. Я сомневаюсь, что она сможет отыгрывать лучше, чем моя привычная норомейда.
> Это ж вообще ни о чём.
Ты не заглядывайся только на самую общую характеристику, помимо этого ещё немало факторов имеет не последнее значение. Попробуй разные в одинаковых условиях, тогда можно будет о чём-то говорить, лучше оно или хуже на самом деле, а не в теории.
Аноним 31/03/24 Вск 02:58:20 #455 №688875 
>>688866
>Всмысле, а как же регулярный релаксационный рп, кум, что-то прикладное?
да бля я уже не 20-летний мальчик. Кум каждый день уже не получается.
А прикладное кодерское - у меня в компании и так запущено, в маттермосте есть чатик где можно у неквантованной модели 70б спросить всякое айтишное. Не помню что там, но точно что-то что даже я со своими 2 p40 запустить не могу.
>>688868
я вот кстати не шарю вообще в семействах моделей.
Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда.
>>688872
ну давай, проверю
Аноним 31/03/24 Вск 02:59:43 #456 №688877 
>>688650
> судя по отзывам тех, кто может себе позволить.
Это рофл? Не так давно заявляли что 13б даже на профессоре можно крутить не помирая от ожидания.
20б лучше тринашки. Не то чтобы умнее, но если описывать ощущения - идеально выглаженная, опрятная и в ответах больше полезного и содержательного, будто перед ответом был скрытый cot или это запрос со вторым проходом по имеющемуся тексту.
>>688858
Довольно иронично что если принять эту теорию, то первым будут наказаны как раз поехавшие, что своей конспирологией и мислидингом вредят развитию ии, т.е. те кто в это больше всех верит.
>>688862
> Ну есть всё-таки надежда на АМД. Они с памятью никогда не жались.
Много памяти будет в новых топах, а они дорогие.
>>688864
> новенькие сетки на 20-30б
Коммандера вкидывали, но хз добавили ли его поддержку и кванты. 70 все сейм, может что-то на qwen новой сделали надо посмотреть.
>>688875
Так просто порпшить/порофлить?
> неквантованной модели
Переоценено
Аноним 31/03/24 Вск 03:02:40 #457 №688878 
>>688875
>я вот кстати не шарю вообще в семействах моделей.
>Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда.
Где то видел, но там схема для одной сетки охуеть просто
https://huggingface.co/KoboldAI/LLaMA2-13B-Psyfighter2
Например, неплохая кстати хотя у них и новее есть версии
Аноним 31/03/24 Вск 03:06:41 #458 №688879 
>>688875
>Было бы круто найти какую-нибудь древовидную схему отображающую происхождение моделей что из чего появилось и когда.
Хотя бы даже по инфе с Huggingface это отчасти можно проследить. В описаниях у квантованных версий есть ссылка на исходную модель, у неё в свою очередь зачастую описано, на чём она основана и какие-то особенности файнтюна.
Аноним 31/03/24 Вск 03:10:31 #459 №688880 
>>688878
>LLaMA2-13B-Psyfighter2
Пробовал LLaMA2-13B-Tiefighter и LLaMA2-13B-Psyfighter2 среди кучи прочих. На мой личный взгляд, они обе зачастую сосут у некоторых годных файнтюнов Mistral 7B.

Вам выше запостили концентрированную годноту >>684219 , нет, блин, хотим и дальше дрочить лламное старьё...
Аноним 31/03/24 Вск 03:13:54 #460 №688881 
>>688880
Ну, годные файнтюны мистраля это конечно топ среди 7 которые и 30 бьют старые и наверное даже 65 ллама1 соснет
Вобще попробуй понравившуюся тебе 7 скачать в 11б размере, тоесть ее бутерброд с самой собой
Будет аналог 20b от мира семерок
Ну файнтюны солар, как та что в шапке и под ней, например
Аноним 31/03/24 Вск 03:17:18 #461 №688882 
>>688877
>Коммандера вкидывали
command R?
Она без цензуры?
Ща заценю c4ai-command-r-v01-Q8_0.gguf
Аноним 31/03/24 Вск 03:25:26 #462 №688888 
>>688880
там по ссылке дерево как и просил, хоть и для одной сетки
Аноним 31/03/24 Вск 03:37:11 #463 №688891 
>>688862
>Они с памятью никогда не жались.
А где потребительские карты с объёмом свыше 24 гиг? А нету их. Выглядит как договорняк, лол. Вангую, в новых поколениях будет 32ГБ максимум с обоих сторон, а остальное проф версии за совсем другой кеш.
Аноним 31/03/24 Вск 03:38:06 #464 №688892 
xwin-mlewd-13b-v0.2.Q80.gguf.png
>>688860
xwin-mlewd-13b-v0.2.Q8_0.gguf кажется более восприимчива к шаблону инфтрукции который задается. У меня описано вот это и её в сравнении с норомейдой сильно занесло в описание.

Continue the chat dialogue below. Write a single reply for the character "<|character|>". Avoid repetitions, don't loop. It is very important to describe words, actions {{char}} and make a description of a situation. Develop the plot slowly, always stay in character. Mention all relevant sensory perceptions - from {{user}} and from {{char}}.

Это неплохо. Разнообразие слов субьективно больше. Но то ли ночь уже дает о себе знать, то ли она действительно пишет как лев толстой так что приходится продираться через текст.

Не уверен в общем, нужны дальнейшие тесты. Вероятно будет хорошим вариантом, если поднадоели ответы уже приевшейся модели.
Аноним 31/03/24 Вск 03:42:04 #465 №688895 
>>688882
error loading model: unknown model architecture: 'command-r'
llama_load_model_from_file: failed to load model

ну охуеть теперь
Аноним 31/03/24 Вск 03:45:44 #466 №688897 
>>688880
> концентрированную годноту
> 7b
Ну им только поломанные шизомиксы и "побеждать" выдавая что-то похожее на повествование по мотивам. Гермес солара специфичен (их моделям в принципе странная графомания присуща), xwin-mlewd тоже странноват бывает. Такая себе годнота получается.
> хотим и дальше дрочить лламное старьё
Мистраль основан на лламе, прувмивронг.
>>688881
Еще немного поднапрячься и гопота падет, только опус победить останется.
>>688882
Хз, отзывались хорошо, но раньше пускать только через трансформерс нативным квантованием.
Аноним 31/03/24 Вск 03:46:11 #467 №688898 
>>688895
блять, надо ёбаную ламуцпп в убабуге пересобирать. Не сейчас уже.
Аноним 31/03/24 Вск 03:49:57 #468 №688901 
>>688891
>где потребительские карты с объёмом свыше 24 гиг? А нету их. Выглядит как договорняк, лол
Ты по себе судишь. Скольким среднестатистическим юзерам реально нужны карты с 24 и более гиг памяти? Сколько из них готовы покупать новые карты по $1000-1500? Энтузиастов, желающих упарывать всякое AI на потребительских картах, мне кажется, не наберётся и 1% от всего рынка.
Очевидно, в последние годы NVidia сместила акценты в сегмент дата-центров, где замаячили гораздо большие прибыли.
Аноним 31/03/24 Вск 03:52:45 #469 №688903 
>>688892
>Разнообразие слов субьективно больше. Но то ли ночь уже дает о себе знать, то ли она действительно пишет как лев толстой так что приходится продираться через текст.
Ты температуру скрути в меньшую сторону, если кажется, что креативности уже слишком много.
Аноним 31/03/24 Вск 03:54:14 #470 №688904 
>>688901
>Ты по себе судишь.
Да не в этом суть. Тут говорят, мол, амуди более добры к памяти, чем куртка. А по факту лимит ровно тот же самый.
Аноним 31/03/24 Вск 04:02:22 #471 №688907 
>>688892
хм.
Да, xwin-mlewd-13b-v0.2.Q8_0.gguf явно лучше воспринимает контекст.
У меня есть некоторые детали описании одного моего чара для хорни рп. И модель первым же сообщением показала, что выцепила особенности которые обычно норомейдой игнорировались.
Определенно я попробую хорни рп на ней.
Аноним 31/03/24 Вск 04:07:29 #472 №688908 
[email protected]
>>688904
Капиталист считает каждую копейку. Зачем делать что-то сильно лучше конкурента, когда достаточно по чуть-чуть? Всё равно продастся на ура.

Если бы кого-то вопрос наращивания памяти реально заботил, то сделали бы несколько особых моделей со сменными модулями. В 90-е и начале 2000-х такое встречалось часто.
Аноним 31/03/24 Вск 04:08:28 #473 №688910 
>>688907
>я попробую хорни рп на ней
Она под это и заточена, вообще-то.
Аноним 31/03/24 Вск 04:08:57 #474 №688911 
>>688908
>то сделали бы несколько особых моделей со сменными модулями
Не на скоростях GDDR6x
Аноним 31/03/24 Вск 04:10:57 #475 №688912 
>>688910
боюсь я рано её похвалил. Галлюцинирует и придумывает то, чего не может быть.
Третье сообщение в переписке - собака заговорила и у неё появились руки. Неоднократно при регенерации.
Это прям косяк.
как устроена llama.cpp внутри Аноним 31/03/24 Вск 06:53:05 #476 №689045 
>>683814 (OP)
Understanding how LLM inference works with llama.cpp
https://www.omrimallis.com/posts/understanding-how-llm-inference-works-with-llama-cpp/
Аноним 31/03/24 Вск 07:25:04 #477 №689062 
>>688331
для яндекса не обязателен ключ, можно в обход api подделать HTTP запрос, как из браузера.
Аноним 31/03/24 Вск 08:14:35 #478 №689077 
>>689045
Спасибо (похуй)
Аноним 31/03/24 Вск 09:02:29 #479 №689103 
HTB1s05zeVkoBKNjSZFEq6zrEVXay-600x600.jpg
>>688451
>Главное при таком подключении еще не додуматься завести на матплату тахометр.
Обороты отображать будет, регулировать по понятным причинам нет.

>>688908
Ага. Ещё спроси почему по заводу не выпускают версии с удвоенным количеством памяти. А нет, были же 3080 на 20 гигабайт, которые уже были произведены, доставлены, но так и не поступили в продажу. Кроме жалкого процента, который скорее всего просто спиздили со складов. Интересно, почему это жижабайт так и не продал эти картонки, ведь это убытки для фирмы. Уж не потому ли, что куртка их выебал в очко за такой беспредел?
Так что копите деньги на б.у 3090\4090, следующее поколение будет на 24 гига vram.

>>689062
Cделать быстро у меня не вышло, а делать долго не вижу смысла, потом окажется, что у него тоже лимиты, прикручивать прокси и т.д. С диплом внезапно проще и переводит он лучше.
Аноним 31/03/24 Вск 09:21:29 #480 №689128 
>>689103
>быстро не вышло
если интересно, код можешь глянуть здесь:
https://github.com/Animenosekai/translate/blob/main/translatepy/translators/yandex.py

насчет дипла, он конечно хорошо переводит, но у него как раз таки ограничения на запросы. что именно ты используешь под дипл? яндекс нравится тем, что там быстрые запросы и без ограничений.
Аноним 31/03/24 Вск 12:23:28 #481 №689272 
>>689045
спасибо
Аноним 31/03/24 Вск 12:30:38 #482 №689276 
>>689103
>С диплом внезапно проще и переводит он лучше.
Для нейросеток для перевода в обе стороны лучше всего Гугл. Легкодоступен и при переводе не умничает, а это важно.
Аноним 31/03/24 Вск 12:32:33 #483 №689277 
c.png
>>689045
>how LLM inference works
Гномики в машине крутят педали и призывают вайфу.
Аноним 31/03/24 Вск 12:33:39 #484 №689278 
>>689276
> Легкодоступен и при переводе не умничает
Да. Но для перевода текста Deepl нет равных, там и возможность синонимы по быстрому подобрать, и форму обращения выбрать и в целом сам контекст подбирает в зависимости от содержания. Но, сука, платный и не оплатить даже.
Аноним 31/03/24 Вск 12:34:24 #485 №689279 
>>688904
>Тут говорят, мол, амуди более добры к памяти, чем куртка. А по факту лимит ровно тот же самый.
Добрее. Это конечно чистый маркетинг, но тем не менее. А что до лимита - честно говоря 24Гб врама для игр дохуя. Тем более при таких размерах уже и шина памяти максимальная. Специализированных решений под ИИ никто и не обещал.
Аноним 31/03/24 Вск 12:49:28 #486 №689290 
>>688901
> Скольким среднестатистическим юзерам реально нужны карты с 24 и более гиг памяти?
Буквально всем с учетом хайпа ии.
>>688904
Двачую, это большей частью миф, идущий еще с более старых времен, когда против 3.5гигов они накрутили аж 8 к чипу который не может их толком использовать, плюс в отличии от хуанга у них не было того же уровня сжатия текстур, что экономил 15-25% памяти.
>>688912
> собака заговорила и у неё появились руки
А ты и не против.
Надеюсь не прописал карточку собаки, которая конфликтует сама с собой и с системным промтом?
>>689103
> Обороты отображать будет
Размах импульсов будет от 5 до 12 вольт, врядли матплата поймет, а то и обидится на подобное.
Аноним 31/03/24 Вск 12:50:54 #487 №689291 
>>689279
>Специализированных решений под ИИ никто и не обещал.
интол раняя кал бегут и делают процессоры с ии блоками
куртка что уже хер знает сколько лет развивает тензорные ядра пихаемые так же всюду
Аноним 31/03/24 Вск 12:54:29 #488 №689294 
1.png
>>689128
Надо будет смотреть. Если не совладаю с диплом, то вернусь к яндексу. Хотя перевод первого мне нравится больше. Использую небольшой реверс расширения под хром, я не планировал гонять много данных через него.

>>689276
Гугл просто уничтожает все рп датасеты, даже при переводе с английского. Пикрил кусок лимы, форматирование проёбано, было лень править формат под фастчат для сломанного перевода.
Аноним 31/03/24 Вск 13:17:30 #489 №689312 
>>689294
>форматирование проёбано
Всё чётко только через API, как и у любого другого переводчика. Более удобную точку и у Гугла можно найти, только всё равно пред- и постобработка потребуется.
Аноним 31/03/24 Вск 14:41:38 #490 №689368 
image.png
>>684219
Просто разбавлю. На пике лучшее в своей категории 2023-24
Тестилось на разных картах, в том числе своих.

Средний контекст от 8к и выше. Из которых перманент в карте 1300-2000к.

Формат под рп в котором тестил 2 paragraphs.
Ограничения: ["</s>", "<|", "\n#", "\n*{{user}} ", "\n\n\n"]
Промты и текст 2-3 параграфа на отправку и получение.

Почему пишу что - лучшее. Тестилось в разных ситуациях.
Проходят по категориям:
описание от третьего лица
От первого
Ведение ролевки за человека.
Генерация случайных событий для ведения ролевки
Создание и поддержание других персонажей
Отсутсвие bite lips(олдфаги поймут)
Не зацикливаются при хорошей карточке
Не путают she/he
Описание цветов, событий, запахов, ощущений и тд
Легко продолжают за игроком
Поддержка любых сеттингов (даже ебанутых)

Минусы:
Все так же пытаются закончить историю максимально быстро, если не прописать соответствующие jb в карту либо ввести нарратора.
Аноним 31/03/24 Вск 15:44:38 #491 №689411 
>>689312
>Всё чётко только через API
Я имел ввиду, что мой скрипт загнал всё в формат альпаки, но т.к исходный формат был фастчат, то поля инстрашн и инпут пустые. Им просто неоткуда взяться. А так, постобработка это проверка на ошибки, а я поеду кукухой всё это читать и исправлять, так что не вариант. Как максимум, привести все кавычки к одному формату.


Накидал 8bit gguf тёмному лесу карточку шизофренички и это внезапно работает. Оно переходит от одной личности к другой прямо посередине поста. Типажи схватило идеально, но иногда путает "имена". Хотя не понятно до конца, это модель шизит или персонаж и так и должно быть.
Аноним 31/03/24 Вск 16:25:01 #492 №689447 
>>689411
> мой скрипт загнал всё в формат альпаки, но т.к исходный формат был фастчат, то поля инстрашн и инпут пустые. Им просто неоткуда взяться
И ты так тренишь?
Аноним 31/03/24 Вск 17:10:26 #493 №689484 
Насколько я помню, одна официальная лама2 34В все же существует и обновляется - последняя вышла в этом марте.
Какие мысли по поводу нее?
https://huggingface.co/codellama/CodeLlama-34b-Instruct-hf
Аноним 31/03/24 Вск 17:13:13 #494 №689492 
image.png
>>689484

Добавлю что в инструкт версии заявлена поддержка чата и инструктов.
Мы что-то упустили?
Аноним 31/03/24 Вск 17:45:54 #495 №689542 
1.png
>>689447
Вот пример того, что подавалось на трейн. С таким инпутом модель едет крышей. То есть ещё больше, чем сейчас. Так что пока что от РП отказался.
Аноним 31/03/24 Вск 17:50:13 #496 №689551 
>>689484
>Какие мысли по поводу нее?
Кодовый лоботомит.
>>689542
Выглядит как шиза. В идеале в инструкциях надо отправлять эти самые инструкции про рп чат, в инпут последнее сообщение "пользователя", а в аутпут уже сообщение нейроночки.
Аноним 31/03/24 Вск 17:59:06 #497 №689566 
Накидайте интересных карточек для RP. И вообще интересных карточек.
Аноним 31/03/24 Вск 18:07:24 #498 №689573 
image.png
Добавьте bpw в википедию.
Аноним 31/03/24 Вск 18:23:00 #499 №689592 
>>689484
Хуита, специально испорченная версия 34b которую не отдали в народ, но как бы для вида все же высрали это поделие сказав будто внезапно базовая версия вышла плохой и мол вот вам такой вариант
Очевидный пиздеж, так как все эти сетки тренируются на одном датасете и по одной программе, только размеры разные
Все получились а 34, самая ожидаемая людьми вдруг не получилась, ага
Аноним 31/03/24 Вск 18:33:50 #500 №689603 
>>689484
Где-то в недрах лицокниги. Публично доступна только кодллама, которая для своих задач вполне себе неплоха, если правильно готовить.
>>689542
Конечно едет, ведь в начале должны быть якорные токены с системной инструкцией, которые объясняют что вообще происходит. Иначе и быть не может, вместо задачи что делать ты на входе модели графоманию. Пихни туда хотябы дефолтный ролплей или альпаку из таверны и удивишься насколько сразу станет хорошо. В той же ллиме датасет прекрасно оформлен что позволяет легко формировать нужный шаблон.
>>689566
your_rtx_gpu.png
Аноним 31/03/24 Вск 19:03:51 #501 №689638 
>>689603
>your_rtx_gpu.png
Да у меня уже две_теслы_гпу.jpg. Теперь другие карточки нужны - с персонажами, мирами, историями...
Аноним 31/03/24 Вск 19:06:05 #502 №689642 
>>689592
>внезапно базовая версия вышла плохой

Она вышла плохой в смысле что не прошла их safety гайдлайны. Т.е. буквально оказалась слишком умной а следовательно опасной. Очевидно что 70В их тоже не прошла, но 70В обычный человек с 4090 быстрее чем 2 токена в секунду не запустит, так что похуй.
На примере мистраля видно что у современных моделей опасной уже является 13В, потому жрем 7В, 7х8В и "ворованную" 70В.
Аноним 31/03/24 Вск 19:11:01 #503 №689650 
>>683814 (OP)
ПИЛИТЕ ПЕРЕКАТ

И добавьте, наконец, в шапку больше ссылок на годные модели для только вкатывающихся.
Например
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-16k-GGUF
https://huggingface.co/TheBloke/openchat-3.5-0106-GGUF
Аноним 31/03/24 Вск 19:13:41 #504 №689651 
>>689551
>Выглядит как шиза.
>>689603
>вместо задачи что делать ты на входе модели графоманию.
Бля, ну обосрался. Уже не помню, почему так получилось, скорее всего из-за склеивания разных датасетов в разных форматах в один файл.
>насколько сразу станет хорошо
Там даже моя нейросеть не всегда смысл улавливает, хорошо точно не будет.
Китайские датасеты, кстати, хорошо оформлены, в первом поле краткая информация про персонажа и экспозиция, дальше ролеплей.
>дефолтный ролплей или альпаку из таверны
Он токены жрёт, лол. Сделаю слияние токенизатора с какой-нибудь англоговорящей моделью, пожалуй. Чтобы английский работал, как обычно. 64 тысячи вокаб не слишком замедлит.
Аноним 31/03/24 Вск 19:50:24 #505 №689694 
>>689650
>openchat
Уже в шапке, открой глазки.

Короче ПЕРЕКАТ


>>689693 (OP)


ПЕРЕКАТ


>>689693 (OP)
Аноним 31/03/24 Вск 20:04:04 #506 №689710 
>>689642
Ну, я так и сказал, нам отказались ее отдавать так как она как раз таки по размеру достаточно умна и влезает в компы энтузиастов
В итоге напиздели что мол ее тренировка запората так что ее не дадим
И кстати 70 думаю оказалась глупее чем 34, так как ее отдали
Аноним 31/03/24 Вск 22:44:00 #507 №689883 
>>689710
и после такого есть ещё мета-хуесосы, ну, по крайней мере у форчана, ян лекун у них в роли божества там.
Аноним 01/04/24 Пнд 17:03:58 #508 №690558 
>>689368
Спасиб анон.
Попробуй еще MixTao.
Необычная но туповатая
comments powered by Disqus

Отзывы и предложения