Локальные языковые модели (LLM): LLaMA, Mistral, Gemma и прочие №78 /llama/

Аноним 06/09/24 Птн 20:01:30 #1 №878677

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Ржавые P104-100.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.gitgud.site/wiki/llama/

Инструменты для запуска на десктопах:
• Самый простой в использовании и установке форк llamacpp, позволяющий гонять GGML и GGUF форматы: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Однокнопочные инструменты с ограниченными возможностями для настройки: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/llm-models
• Неактуальный список моделей устаревший с середины прошлого года: https://rentry.co/lmg_models
• Рейтинг моделей для кума со спорной методикой тестирования: https://ayumi.m8geil.de/erp4_chatlogs
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Пресеты под локальный ролплей в различных форматах: https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/local-llm-guide/how-to-use-a-self-hosted-model
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>869674 (OP)
>>864092 (OP)

Аноним 06/09/24 Птн 20:09:22 #2 №878688

Какая нынче модель самая лучшая? Пока остановился на Llama-3.1-70B-Instruct-abliterated.

Аноним 06/09/24 Птн 20:11:44 #3 №878690

>>878679 →
> то чтобы ты понимал приоритеты.
Они довольно странные и их сложно понять, ведь строительство дома начинают с фундемента, стен, крыши, а не выкладывания узоров из паркета. Но жираф большой, ему видней, есть шанс что после пробежки по граблям придешь к дефолту, или имеющегося хватит для исследований.
> Я ссылку на архив орг принёс, тебе мало?
Речь о том что в оригинале случай для подобного распределения довольно специфичный и нужен для наглядной иллюстрации их подхода. В сценариях использования распределения могут быть другими. Перед тем как слепо верить графикам и кускам нужно их понять и ознакомиться хотябы с тем что сам приводишь в цитату.
> А задача "написать пост" обычно ставится в начало.
Современные промтоконструкции довольно комплексные и популярным подходом является деление их на части.
> Напрямую связано. А вот промпт инжиниринг к шифтам уже никак не относится.
Ерунду пишешь или не понял вообще. Если у тебя вместо промта будет невнятный шмурдяк - то и на выходе будет параша, особенно дополнительно поломанная костылями. Именно соблюдение структуры и формата должно диктовать применение методов склейки, сдвигов, просто формирования промта для обработки с нуля и т.д.
>>878688
Файнтюны мистраля 123, рефлекшн может быть хорош.

Аноним 06/09/24 Птн 20:11:55 #4 №878691

>>878688
Magnum-v2-123b

Аноним 06/09/24 Птн 20:14:06 #5 №878697

По срачу с приоритетом внимания на токены. Напоминаю, что самым первым токеном всегда идёт BOS токен, так что шатали нейронки ваши инструкции.

>>878690
>Файнтюны мистраля 123, рефлекшн может быть хорош.
>>878691
Поддвачну, годная штука, лучшая нейронка в попенсорсе на данный момент.

Аноним 06/09/24 Птн 20:14:46 #6 №878700

>>878688
Смотря для чего, для кодинга из открытых меня устраивает только Mistral Large 2, но все равно хуже чем GPT-4o или Claude Opus/Sonnet 3.5. Для RP использую Command-R+ меньше лупов чем у Llama 70B и лучше следует инструкциям + менее цензурирован. Моя основная рабочая модель (ассистент) это Гемма 29B, хотя Nemo тоже неплох.

Аноним 06/09/24 Птн 20:18:43 #7 №878706

>>878700
> хуже чем GPT-4o
> для кодинга
Чмоню в кодинге даже какой-нибудь дипсик 7б обоссыт, покайся.
А так по моделям базу выдал, разве что для рп и части нлп задач мелкий коммандер вполне себе хорош.

Аноним 06/09/24 Птн 20:20:58 #8 №878709

>>878706
> Чмоню в кодинге даже какой-нибудь дипсик 7б обоссыт
в моих юзкейсах нет: scala + spark
но Claude да, чувствительно лучше

Аноним 06/09/24 Птн 20:28:55 #9 №878728

>>878700
> GPT-4o или Claude Opus
Толсто, они в код вообще не могут. А по знаниям API их Yi Coder раскатает в сухую.
> лупов у Llama 70B
Ясно.
> Command-R+
> лучше следует инструкциям
Это вообще пиздец шиза.

Аноним 06/09/24 Птн 20:35:24 #10 №878737

>>878728
> Толсто, они в код вообще не могут
У тебя какой тех. стек? Очень странный тейк
> Ясно
Попробуй порп'шить с лламой сам увидишь
> Это вообще пиздец шиза
Command-R+ в каком-то смысле на любителя, но мне сильно зашел для RP

Аноним 06/09/24 Птн 20:37:15 #11 №878739

у этого треда с сhatbot тредом сильное пересечение?
вы для чего локалки используете? кроме кума с ботами

Аноним 06/09/24 Птн 20:39:48 #12 №878743

>>878739
>у этого треда с сhatbot тредом сильное пересечение?
0 пересечение. Там анальные рабы корпораций и жопофлаги проксихолдеров, а тут локалкобояре.
>кроме кума с ботами
Кроме кума ни для чего. Хотя по сути локалки могут всё.

Аноним 06/09/24 Птн 20:41:37 #13 №878747

>>878737
> Очень странный тейк
Можешь не отмазываться. Когда ты назвал Опус сразу стало понятно что ты ничего из этого никогда не трогал.

Аноним 06/09/24 Птн 20:43:05 #14 №878753

>>878739
Кодить, рубрика эксперименты, задавать тупые вопросы, немного в скриптах и программах, тупо чат бот но локальный и без цензуры
Но в основном тут кумеры, конечно
Пересечение хз, тут промпты проще, нет джейлбрейков и другой хуиты
Общий навык промпт инженеринга и работы с сетками, разве что

Аноним 06/09/24 Птн 20:46:12 #15 №878760

>>878709
> в моих юзкейсах
Вот же больной ублюдок. Но тут действительно не поспоришь, у 7б да и прочих банально может не быть знаний про это.
>>878728
> Claude Opus
> они в код вообще не могут
Вот это толсто
>>878739
Там пердолятся с проксями, отдельные господа обмазываются промт инженирингом и всякими конструкциями на фоне запредельного шизослоупа и срачей. Здесь пердолятся с запуском локальных моделей, обсуждения идут с небольшим упором на код и математику, есть дискуссии про железо, промт инжениринга меньше но местами бывает более продвинутый. Шизы также очень много, просто если в кончай треде много разных вниманиеблядей, то здесь особенные шизофреники решают проблемы вселенной не привлекая внимание санитаров, а другие братишки ведут аутотренинг в оправдения своих решений ранее и текущей действительности.
В целом, если хочешь получить ответ на общий вопрос - задавай и там и там, аудитория мало пересекается и ответить могут в обоих тредах но здесь лучше
> для чего локалки используете?
Массовый нлп, кодинг, просто рп без кума.

Аноним 06/09/24 Птн 20:46:23 #16 №878762

>>878747
> Когда ты назвал Опус
Наверное каждый сходит с ума по своему. Я с Yi не работал, но DeepSeek coder пробовал и он хуже чем GPT или Claude. Тоже самое могу сказать про Llama 70B и Mistral Large 2. Приведи хоть один пример, где другая модель рвет GPT или Claude, даже любопытно.

Аноним 06/09/24 Птн 20:48:01 #17 №878763

>>878760
> Массовый нлп
а это что такое?

Аноним 06/09/24 Птн 21:03:42 #18 №878783

>>878690
>строительство дома начинают с фундемента, стен, крыши
А потом приходит заказчик и пиздит строителей ногами. Потому что по ТЗ это дом на колёсах.
>популярным подходом является деление их на части
Это понятно. Но также популярным является то, что инструкция идёт в начале. Если она идёт в конце, то кеш нужно пересчитывать с каждым отправленным сообщением. Можно, конечно, шизика включить, сохранить кеш для промпта отдельно, а то и для каждого сообщения независимо, и собирать из кусков на лету, но это совсем пиздец. Вряд ли так делает хоть кто-то. А ждать пересчёта каждый раз - хуйня полная.
>Если у тебя вместо промта будет невнятный шмурдяк
Ломание промпта\формата шифтом - шиза натуральная, этого не происходит.

>>878763
На правах рофла. НейроЛингвистическое Программирование. Ты заходишь в тред - тебя называют шизом и говорят, что все твои проблемы это скилл ишью. Так происходит раз за разом. В какой-то прекрасный день ты начинаешь верить, что ты шиз и все проблемы от отсутствия скилла.

А вообще Natural Language Processing. Обработка естественного языка. В любых формах.

Аноним 06/09/24 Птн 21:06:19 #19 №878786

>>878783
> А вообще Natural Language Processing
как раз, что такое NLP я знаю, но почему "массовый"?
> Ты заходишь в тред - тебя называют шизом
Без рофла, реально первое, что мне написали тут

Аноним 06/09/24 Птн 21:10:37 #20 №878789

>>878688
>>878690
>>878691
>>878697
>>878700
>>878706
>>878709
>>878728
>>878737
>>878739
>>878743
>>878747
>>878753
>>878760
>>878762
>>878763
>>878783
Здарова садипары
как рефлекшн для кума?

Аноним 06/09/24 Птн 21:11:49 #21 №878790

>>878789
После фикса - серит тегами в рп. До фикса было норм.

Аноним 06/09/24 Птн 21:13:25 #22 №878793

>>878763
Natural language processing, переработка текстов, предложений, описаний согласно заданным инструкциям.
>>878783
> Потому что по ТЗ это дом на колёсах.
Если тз появляется когда дом уже готов - заказчик идет нахуй, лол.
> Если она идёт в конце, то кеш нужно пересчитывать с каждым отправленным сообщением
Почему? К десятку-сотне новых токенов добавится еще один пост, а основной кэш не затронут, пренебрежимо.
> ждать пересчёта каждый раз - хуйня полная
Так вокруг этого все и вьется же изначально, офк релевантно не везде. Полный пересчет неизбежен только если идут мультизапросы и изменением как раз инструкции в самом начале, а не только дополнительного куска в конце.
> шифтом
Причем тут шифт если ты сшиваешь франкенштейнов по краям бедер, вместо того чтобы сделать незаметную обрезку по границам постов обеспечив структуру? В текстовом виде или в токенах - совершенно не важно. Как раз даже при абслютно идеально работающем шифте неудачный стык все может поломать.
>>878786
> почему "массовый"
Потому что измеряется сотнями тысяч.
> реально первое, что мне написали тут
Лол, наверно выдал что-то что обычно пишут всех доставшие поехи.

Аноним 06/09/24 Птн 21:19:33 #23 №878806

>>878790
жду квантованную до 1bit чтобы кумить на своей 1050ti

Аноним 06/09/24 Птн 21:20:28 #24 №878808

>>878793
> Потому что измеряется сотнями тысяч
Понял
> что обычно пишут всех доставшие поехи
Написал, что мне нравится Claude для кодинга. Я так понимаю в треде про локальные модельки это считай еретичество

Аноним 06/09/24 Птн 21:23:28 #25 №878815

>>878806
Тогда уж жди нормальной BitNet модели, в теории должно работать, но как я понял тренить такое не очень выгодно.

Аноним 06/09/24 Птн 21:24:43 #26 №878816

>>878808
> нравится Claude для кодинга
Она не может не нравиться, ведь действительно хороша. Но, вероятно, есть задачи с которыми плохо справляется.
> это считай еретичество
В целом похуй, особенно сейчас, когда локалки на оче высоком уровне. Если их попердолить также, как извращаются с коммерцией (а там больше ничего и не остается), особенно с учетом влияния цензуры, то и результат можно получить более чем приличный.
Кмк, чего реально не хватает - восприятия пикч как в опуще, тут или отличное зрения для форм, текстов и всякого но лоботомия по нсфв, или понимание этого но общая тупость и слепошарость.

Аноним 06/09/24 Птн 21:31:26 #27 №878821

> особенно сейчас, когда локалки на оче высоком уровне
Смотря какое у тебя железо. Если у тебя Mac Studio 192GB, то да, ты можешь на нем условный Mistral Large гонять, но когда у тебя в лучшем случае 24GB VRAM, то выбор сильно сужается. Хотя для базовых каких-то вещей терпимо.

Аноним 06/09/24 Птн 21:33:47 #28 №878825

>>878815
> тренить такое не очень выгодно
почему?

Аноним 06/09/24 Птн 21:34:00 #29 №878826

>>878821
>Если у тебя Mac Studio 192GB, то да, ты можешь на нем условный Mistral Large гонять
Кстати интересно, какая там будет скорость.

Аноним 06/09/24 Птн 21:41:17 #30 №878832

>>878790
>После фикса
Что за фикс?
>>878821
>условный Mistral Large гонять
Гоняю 123B на 12 гигах врама, ебало?

Аноним 06/09/24 Птн 21:44:11 #31 №878835

>>878832
>Гоняю 123B на 12 гигах врама, ебало?
Тоже гонял 123б на 12 и 64 оперативы в 3 кванте. Было где-то пол-токена в секунду.

Аноним 06/09/24 Птн 21:44:23 #32 №878837

>>878826
В теории, для маленького контекста терпимая, но вот с увеличением контекста будет совсем плохо, с другой стороны тут люди гоняют 100B+ модели на 12GB VRAM со скоростью 1 токен в десятилетие >>878832, поэтому наверное вопрос восприятия

Аноним 06/09/24 Птн 21:45:30 #33 №878839

>>878835
>Было где-то пол-токена в секунду.
У меня от 0,7 до 1, благо DDR5 и почти самая быстрая на свете 3080Ti.

Аноним 06/09/24 Птн 22:38:07 #34 №878875

>>878839
Ну у меня всего-лишь 3060 и рузен 5700х, с мамкой которая даже не может 64 гига вытянуть на штатных 3600, и приходится на 3333 гонять.

Аноним 06/09/24 Птн 23:23:55 #35 №878922

>>878700
Для кодинга дипсик, если большой уж, че уж. =)

Аноним 06/09/24 Птн 23:43:25 #36 №878945

Мистрал 123b в Q3_k_s веселее L3.1 70b Q4_k_l?

Аноним 07/09/24 Суб 00:14:46 #37 №878982

>>878821
> Смотря какое у тебя железо
Верно подметил, для норм пользования больших моделей нужно хотябы пара некротесел, и то это ряд компромиссов.
> но когда у тебя в лучшем случае 24GB VRAM
Сейчас есть гемма и коммандер, приличные модели для 24гб.
>>878945
Попробуй и то и то. На самом деле мистраль не то чтобы перформит в (почти) 2 раза лучше, просто хорошая модель.

Аноним 07/09/24 Суб 02:35:08 #38 №879174

Кумеры, помогите. Гонял гемму 27 и нового командер 35, всё было нормально до момента пока я не попробовал карточку психа садистка, которого я начал пытать. Вместо ярости, попыток выбраться, или хотя бы какой-то реакции пошли простыни текста о том как его внутрении мир нарушен и как ему плохо, и из такого состояния он не выходит даже после условного освобождения. Попробовал ещё несколько карточек, даже доработал на большую активность, но как только дело доходит до смены роли на обратную, то всё, хнык хнык, плак плак, {{user}} плохой. Фаинтюны от драмера так не клинит, но они просто шизанутые. Есть ли что-то в условном размере 25-35 что не скулит как побитая сука, а борется за себя и свою точку зрения/жизнь, не впадая в катарсис?

Аноним 07/09/24 Суб 06:38:06 #39 №879304

>>878832
>Гоняю 123B на 12 гигах врама
Какой квант? Тут даже первый не должен влезть.
мимо-боюсь-запускать-123В-на-24Гб-Врам

Аноним 07/09/24 Суб 07:26:45 #40 №879322

Ебаный реинтери забаненный с какой-то из сторон, заменить на что-нибудь другое!

Аноним 07/09/24 Суб 08:54:34 #41 №879362

>>879322
Сейчас как-то более усиленно начали банить всё подряд. Давно уже пора собственный VPN заиметь.
А пока можешь поставить от эту хуйню: https://topersoft.com/programs/launchergdpi
И сделать вот это для хрома:
Введите в адресной строке браузера chrome://flags/ и нажмите Enter.
Найдите Kyber:
Измените у TLS 1.3 hybridized Kyber support значение с Default на Disabled.
Мне помогло от всей хуйни.

Аноним 07/09/24 Суб 09:05:00 #42 №879365

Что по карточкам не от хуанга, они хуже работают с нейрсоетями или как? У какого-нибудь Intel Arc A770 или радевона rx7600 16гб врама а цена почти на 20к меньше чем у 4060 с теми же 16гб. Если новые рассматривать а не отмайненные с авито, естественно.

Аноним 07/09/24 Суб 09:15:13 #43 №879371

>>879365
проблема радеонов в том, что чаще всего нужно искать отдельный форк софта. А под интеловский апи вообще почти ничего мэйнстримного нет, вроде бы.

Аноним 07/09/24 Суб 10:15:33 #44 №879420

>>879365
Про интел ХЗ, а вот про радеоны могу сказать что тебе понадобится линукс. ROCm, альтернатива CUDA от красных, работает только на нём.
Есть ещё Vulkan, встроенный в кобольд, но по скорости он сосёт.
Если карта новая то особых проблем возникнуть не должно, угабога сама всё накатывает, но всё равно остаётся вероятность что что-то отвалится и не будет работать.

Аноним 07/09/24 Суб 10:20:40 #45 №879422

>>879420
> ROCm, альтернатива CUDA от красных, работает только на нём.
Херню сказал. Что рокм кобольд есть под шиндовс, что СД через злуду.

Аноним 07/09/24 Суб 10:21:54 #46 №879424

16525047305091.jpg

>>879371
>>879420
Эх, а я надеялся...

Аноним 07/09/24 Суб 10:29:00 #47 №879426

>>879365
>Что по карточкам не от хуанга
mi50 instinct

Аноним 07/09/24 Суб 10:35:14 #48 №879430

>>878786
>реально первое, что мне написали тут
В каждой шутке - доля шутки.

>>878793
>сли тз появляется когда дом уже готов
Это был намёк на то, что твои представления о "самом необходимом" субъективны.
>К десятку-сотне новых токенов добавится еще один пост
Не совсем, потому что инструкцию нужно будет каждый раз удалять из кеша, делать смещение постов и засылать инструкцию заново. Технически это как раз одноразовые посты. Это обрабатывается медленнее.
>сделать незаметную обрезку по границам постов обеспечив структуру
Подозреваю, что это намного хуже. При частичном удалении практически всегда остаётся кусочек предыдущего поста + ответ на него. Что даёт минимальный контекст. Если удалять по постам, то будет ответ на полностью удалённый пост, который оказывается нерелевантным и будет сбивать нейронку с толку.

Аноним 07/09/24 Суб 10:35:57 #49 №879431

>>879424
Если просто ллм запускать через кобольд-рокм/лм, у радеонов нормальная скорость. Там проблема если нужно что-то большее, например тренировка через популярный софт, а не ручное написание скриптов под собственноручно подобранные пакеты.

Аноним 07/09/24 Суб 11:01:36 #50 №879447

>>879426
>mi50 instinct
Карта из под майнеров с авито без видеовыхода? А в игрульки как играть, если она вдруг не сгорит сразу же?

Аноним 07/09/24 Суб 11:06:32 #51 №879450

>>879431
"Нормальная" это сопоставимая с хуанговскими, или "нормальная" это "ну так, ну в принципе подождать немного не так уж и страшно, подумаешь 3 токена в секунду, все не так плохо..."?
Что условно лучше себя будет показывать в кобольде, rtx 3060 с 12гб или radeon RX 7600 XT с 16гб? Цена практически одинаковая.

Аноним 07/09/24 Суб 11:12:30 #52 №879454

>>879304
>Какой квант?
3 же, меньше жизни нет.
>Тут даже первый не должен влезть.
А я и не пытаюсь запихнуть всё во врам.
>>879322
Замени интернет провайдера и страну проживания, у тебя тухляк попался.
>>879447
>А в игрульки как играть
Думаю так же, как и на других картах без видеовыходов, с выводом изображения через встройку, благо шинда к десятке научилась это делать без ебли.

Аноним 07/09/24 Суб 11:12:49 #53 №879455

>>879447
>Карта из под майнеров с авито без видеовыхода
Лол, туда ли ты зашёл петушок, если тебя пугает подобное?

>А в игрульки как играть
Для Р40 есть гайды, тут нет, но в теории также: Выбираешь в настройках приложения нужный видеоадаптер и вперёд.

Аноним 07/09/24 Суб 11:16:03 #54 №879456

>>879454
>Думаю так же, как и на других картах без видеовыходов, с выводом изображения через встройку
Но ведь у меня рязань от амуде...

Аноним 07/09/24 Суб 11:16:23 #55 №879457

>>879454
>3 же, меньше жизни нет.
Тогда ты не на 12Гб врама крутишь, а на оперативке с процем, что немного другое и от количества врама не сильно зависит.
это как если бы ты с двумя 4090 хвастался что тебе 8Гб ОЗУ на любые нейронки хватает

Аноним 07/09/24 Суб 11:19:03 #56 №879458

image.png

>>879456
>Но ведь у меня рязань от амуде...
У меня тоже и чё?

Аноним 07/09/24 Суб 11:33:55 #57 №879464

>>879456
Обнови амудю, в последних таки есть дефолтная встройка.
>>879457
>Тогда ты не на 12Гб врама крутишь, а на оперативке с процем
И там тоже. Но врам таки ускоряет, и чем его больше, тем лучше.

Аноним 07/09/24 Суб 11:38:06 #58 №879467

Какой скор у новой лламы на арене?

Аноним 07/09/24 Суб 11:43:56 #59 №879476

>>879450
Я ебу чтоли? У меня рх6600, я только про него могу сказать.

Аноним 07/09/24 Суб 11:56:45 #60 №879494

>>879458
АМ5? У АМ4 не было встройки, если не Г.

Аноним 07/09/24 Суб 11:57:56 #61 №879497

>>879476
На 8 гигов? Ну так сколько у тебя токенов на какой модели? Я сравню со своей 1660с. У меня с 8к контекста на L3-8B-Stheno-v3.2-Q8_0-imat 3-4 токена в секунду, на L3-8B-Stheno-v3.2-Q6_K-imat 8-9.

Аноним 07/09/24 Суб 12:00:16 #62 №879501

>>879455
Я в мухосрани и проверить что там жадный перекуп пытается мне впарить возможности нет, а по почте не то что отмайненная, вообще мертвая может сразу прийти и не проверишь.

Аноним 07/09/24 Суб 12:09:36 #63 №879509

>>879494
>АМ5?
Лол. AM4 5600X + RX580 на райзере болтается.
В единственный слот для видимокарты вхерачена Tesla P40, также без видеовыхода. Полёт нормальный!

>>879501
>Я в мухосрани и проверить что там жадный перекуп пытается мне впарить возможности нет
Те же проблемы у тебя могут быть с любым заказанным по почте БУ железом, но если не хочешь переплачивать надо идти на риск.
У серверных железяк тут одно преимущество - не так то просто их убить.

Аноним 07/09/24 Суб 12:10:41 #64 №879511

>>879497
Какие параметры? Hermes-3-Llama-3.1-8B.Q5_K_M, 8192, без ммк, с флэшаттеншн 8.75. Больше чем ку5 у меня нет моделей.

Аноним 07/09/24 Суб 12:17:49 #65 №879526

>>879511
С ммк и аттеншеном, 28 слоев на видео, пусть походу они все и не влезают но если уменьшать то становится медленней. Ну как-то так себе у тебя, учитывая что у меня на 6 гигах Q6 даже 10 токенов порой выдает.

Аноним 07/09/24 Суб 12:19:57 #66 №879528

>>879509
>Те же проблемы у тебя могут быть с любым заказанным по почте БУ железом
Поэтому железо дороже 5к не заказывал никогда.
>но если не хочешь переплачивать надо идти на риск.
Ну хуй знает, наебут всего один раз и даже если второй раз не наебут ты уже заплатишь полную цену нового за хуй знает что бушное, такое себе казино.

Аноним 07/09/24 Суб 12:24:42 #67 №879533

>>879458
У тебя там волосы из радеона растут.

>>879497
>со своей 1660с
>L3-8B-Stheno-v3.2-Q8_0-imat 3-4 токена в секунду
А хули тут так мало? Думаю взять что-то дешевое, но чтобы по чипу было быстрым, смотрел на 16хх. Вроде, за такой бюджет особо не разгуляешься, но мало ли.

>>879501
>а по почте не то что отмайненная, вообще мертвая может сразу прийти
Купил на авито p104-100, пришла мёртвая, продавец говорит, что отправлял не он, взяли не ту карту и т.д. Мысленно забил на эти 2.5к и отправил ему карту обратно. А он взял и отправил мне деньги.

Аноним 07/09/24 Суб 12:25:53 #68 №879535

>>879526
Сейчас попробовал прогнать Q6 без ммк - 2 токена в секунду, пиздос. Контекст в 5 раз дольше корячит.

Аноним 07/09/24 Суб 12:27:57 #69 №879538

>>879533
>А хули тут так мало?
А вот так вот. В принципе жить можно, но так себе. Q6 уже нормально работает на почти 10 токенах в секунду, но он заметно тупее.

Аноним 07/09/24 Суб 12:33:30 #70 №879543

>>879538
И это я говорю про максимальные показатели, он порой на Q8 и до 2 токенов падает.

Аноним 07/09/24 Суб 12:34:33 #71 №879545

>>879526
Какая нахер разница 6 или 8, если у 6600 128бит шина с 1.5 раза меньшей пропускной способностью памяти, чем у 1660с, в которую все упирается? У меня утилизация процентов 20 на гпу во время бенча.

Аноним 07/09/24 Суб 12:38:18 #72 №879548

image.png

>>879543
Сейчас даже хуже почему-то работает, вот прогнал 2 раза Q6, результаты не оче.

Аноним 07/09/24 Суб 12:50:46 #73 №879562

>>879511
Перемерил под шиндовс(хермес под линупсом был) с L3-8B-Lunaris-v1-Q5_K_M.gguf, 8192, ммк, флэшаттеншн, ~10т/с.

Аноним 07/09/24 Суб 13:44:18 #74 №879649

>>879533
>У тебя там волосы из радеона растут.
Это шерсть кота.

>>879528
Тебе с такими суевериями прямая дорога в DNS где тебе также завернут прогретое в духовке б/*у говно из под майнеров под видом новых, но зато "гарантию" выпишут

Аноним 07/09/24 Суб 14:45:45 #75 №879714

Тестирую модели через OpenRouter и только Claude, GPT и Gemini могут в хороший русский. Все тут хвалят Command-R+ и Gemma 27B, но они пишут достаточно плохо, как-буто через гугл транслейт пропустили, даже хуже, наверное.
Что я делаю не так?
(Написал ранее в соседний тред, но меня там опустили за использование "лоКАЛок")

Аноним 07/09/24 Суб 14:47:46 #76 №879719

>>879714
>только Claude, GPT и Gemini могут в хороший русский
Мистраль Немо даже 12В тоже может.

Аноним 07/09/24 Суб 14:52:01 #77 №879728

>>879719
Там же качество совсем плохое.
Немо иногда даже путает спряжения.
Может я неправильный форматтинг использую, я выбираю в Таверне шаблон для конкретной модели (или вендора модели)

Аноним 07/09/24 Суб 14:54:53 #78 №879734

Проблема с этими домашними серверами для ЛЛМ только одна - всегда хотя бы немножко не хватает. Хорошо наверное нынче только владельцам ригов от 4x4090 и выше. Ну или кто плюнул на всё и арендует по потребностям.

Аноним 07/09/24 Суб 15:13:52 #79 №879746

>>879430
> Не совсем, потому что инструкцию нужно будет каждый раз удалять из кеша
Ну смотри, вот у тебя группа системного промта с описаниями, десятки-сотни потов, потом инструкция/префилл и ответ сетки. Юзер отправляет новый пост, получается все то же что и было, но без инстракции/префилла, а к ним добавляется ласт пост сетки, пост юзера и новая инструкция. Обсчитывать нужно только их что пренебрежимо мало, а не все разом. Офк на нищебродском треше типа кэмлера/максвелла где эвал измеряется десятками токенов это может добавить несколько секунд, но в реалистичном кейсе даже заметить не получится.
> каждый раз удалять из кеша
Не удалять а делать проверку совпадения с самого начала, останавливаясь на месте с которого идут различия. Собственно так во всех лаунчерах кэш и реализован, емним там просто прямая сверка токенов и обсчет с момента различий. Хз почему это должно обрабатываться медленно.
Если пытаться сохранить кэш последующих активаций - полезут новые стыки и потенциально новые проблемы, придется усложнять поиск и т.д., едва ли оно того стоит.
> практически всегда остаётся кусочек предыдущего поста
Оборванная посреди слова невнятная фраза даже без указания откуда она появилась и кем сказана, а то и вообще является частью системного промта. Это никак не "повысил релевантность" а наоборот будет мешать и отвлекать.
Уже проходили на заре локалок и корпоративных, писали примитивные прокси что будут этим заниматься и правильно промт оформлять пилили и получали радикальный буст по сравнению с "хуяк хуяк и в продакшн как получится".
Офк чтобы было совсем хорошо, постам должен предшествовать суммарайз и тогда все отлично складывается. Его обновлять одновременно со смещением истории для формирования буфера под новые посты - и все в ажуре.

Вот готовое решение которое реализуется за пару вечеров дополнениями к таверне без низкоуровневого пердолинга, и совместимо с чем угодно, делай - не хочу. Офк тебя не агириую, вижу что другая цель управлять поездом и она понятна, пердолиться с внутрянкой и что-то новое реализовывать - интересно. Но потом не пеняй что не предупреждали про пробежку по граблям.

Аноним 07/09/24 Суб 17:33:40 #80 №879803

>>879538
Ты просто в псп упираешься. Не гонял модели, которые полностью в память влезают? Я думаю взять её под 2b модель.

>>879649
>Это шерсть кота.
Вынь кота из радеона.
>прямая дорога в DNS
А у них есть в наличии? Я думал, там давно по всем позициям "нет в наличии", потому что отнесли продавать на авито "с гарантией из днс".

>>879734
Ну хуй знает, у меня либо "хватает впритирку", либо "не хватает где-то 1000% мощностей".

>>879746
>прямая сверка токенов и обсчет с момента различий
Так это кал. Если гоняешь жсон между бэком и фронтом, особо по-другому и не сделаешь. Это не значит, что это хорошее решение, это говнище.
>дополнениями к таверне
Так таверна это тупой фронт, если уберу у себя рисование постов и выведу API наружу - вот тебе и таверна. Все фичи всё равно остаются в бэке, разве что разбираться со случаями, когда таверна ломает историю. То есть мне придётся делать всё то же самое, потому что на стороне фронта нереализуемо либо будет работать суперхуёво. И ещё допиливать совместимость.

Аноним 07/09/24 Суб 17:43:45 #81 №879812

А что такое «кум»?

Аноним 07/09/24 Суб 17:45:07 #82 №879815

>>879812
от английского "godfather"

Аноним 07/09/24 Суб 17:48:21 #83 №879816

Хороший и плохой отец.jpg

>>879815
Как на этой картинке?

Аноним 07/09/24 Суб 18:00:51 #84 №879829

>>879803
>Ну хуй знает, у меня либо "хватает впритирку", либо "не хватает где-то 1000% мощностей".
Я о том, что если даже заморочиться и собрать сервер с несколькими картами, то всё одно хоть немножко да будет не хватать. Порой даже не немножко. И тут поневоле думаешь: а может аренда и правда выход? А мелочь можно и на домашнем компе гонять.

Аноним 07/09/24 Суб 18:12:01 #85 №879841

image.png

>>879803
>Ты просто в псп упираешься. Не гонял модели, которые полностью в память влезают? Я думаю взять её под 2b модель.
Скачал первую попавшуюся 2bшку, Gemmasutra-Mini-2B-v1-Q8_0, результаты на пике. С настройками ничего пока не менял, может будет и получше если подшаманить, но чет как-то нестабильно все. Первый раз 20 токенов выдало а потом заглохла. Красными линиями разные чаты разделены, так что закономерность вроде как не в том что чем дальше тем медленней.
Но должен сказать кстати что моделька выглядит на первый взгляд неплохо, я конечно пока совсем мало смотрел но пока сомтрится чуть ли не умнее чем L3-8B-Stheno-v3.2-Q6_K-imat.

Аноним 07/09/24 Суб 18:15:06 #86 №879844

image.png

Поставил в карточке своего персонажа, что у меня краник средний: 13 см. Все модели говорят что это малюсенький....

Аноним 07/09/24 Суб 18:22:36 #87 №879850

>>879844
Странно, я даже когда специально пишу "маленький" почему-то оказывается что у меня огромный хуище. И в нейросетях тоже.

Аноним 07/09/24 Суб 18:30:10 #88 №879855

>>879841
Хотя не, беру свои слова назад, тупорылый он конечно это да... Зато больше 10 токенов в секунду. Но тупой. Или 3 токена в секунду, но умный. Если бы он умный был больше 10 токенов тогда да, а он тупой, ну очень тупой. Но больше 10. А тот умный, но всего 3. Ну очень мало 3... Вот если бы у меня была 4090...

Аноним 07/09/24 Суб 18:35:33 #89 №879856

страная хуйня
товерна перестала отправлять в угабугу ответы типо включите режим стриминга
адрес где 5000-апи нне менял
если поставить галку на устаревший стриминг - вобще нечо не отправляет и даж не грузится
никак сообщения не отправляются -
причем внезапно
чо за хуета ???

Аноним 07/09/24 Суб 19:10:35 #90 №879876

Бля, последний релиз лламы падает без ошибок, собака
b3681

Аноним 07/09/24 Суб 19:55:31 #91 №879903

>>879844
Не пизди давай тут. Я когда пытался отыгрывать фембойчика с микрописей мне модель все равно отвечала пастой "омагад итсоу биг энд thick" и в том же духе.

Аноним 07/09/24 Суб 20:04:03 #92 №879910

>>879903
>омагад итсоу биг энд thick
А ты не ролеплей с minor girl, для которых и микропися гигантская.

Аноним 07/09/24 Суб 20:06:38 #93 №879914

>>879910
Я ролплеил с тетушкой у которой пиздища итак была раздрочена по задумке, так что нет. Просто модели не любят харрасмент в любых проявлениях.

Аноним 07/09/24 Суб 20:21:33 #94 №879925

>>879914
просто это заезженный штамп в порнухе, и его одной белкой деталью в промпте не пробьешь

Аноним 07/09/24 Суб 20:25:41 #95 №879926

>>879914
>Просто модели не любят харрасмент в любых проявлениях.
Тут нужно упоминать модель и квант. Умная модель, если и не обратит внимание на размер сразу, то даже намёки хорошо понимает. А уж инструкцию так отлично.

Аноним 07/09/24 Суб 20:35:54 #96 №879928

>>879914
>Просто модели не любят харрасмент
То есть мелкочлен это харасмент, а хьюге хуй это нормально?

Аноним 07/09/24 Суб 20:55:34 #97 №879939

>>879925
Этот прав от части.
>>879926
>Тут нужно упоминать модель и квант.
Это тут не при чем. Много разных моделей юзал, много разных промтов. Нужно инструкцию более детальную ебашить чтобы пробить этот шаблонный дерти талк, который в целом на все постельные поебушки влияет, а не только на размер члена.
>>879928
>То есть мелкочлен это харасмент, а хьюге хуй это нормально?
Мне кажется людям с хьюге хуем в целом похуй на то, как их приблуду будут кичить. Это у мелкописюх истерика каждый раз начинается, когда роскошный тринадцатисантиметровой сантиметровый ствол кличут мелким. Мимо обладатель скромного но боевого тринадцатого калибра.

Аноним 07/09/24 Суб 21:16:40 #98 №879969

>>879803
> Так это кал.
> Это не значит, что это хорошее решение, это говнище.
Давай четко аргументировано объясни. Без предубеждений, без обид потому что ты там пердолиться с другим подходом, а нормально.
Это эффективно, это обеспечивает отличную совместимость, это достаточно быстро в задачах когда железо соответствует требованиям и не создает никаких проблем.
> Так таверна это тупой фронт
Как бы сказать то, ничего и близко равного нет с точки зрения функционала и юзабилити. А возможности с внутренним скриптовым языком, что показывал анон в прошлом треде, и тем более экстеншнами выводят ее на следующий уровень.
> если уберу у себя рисование постов и выведу API наружу - вот тебе и таверна
Чел, это то же самое что сказать
> я лепил из песка и говна куличи, а значит архитектор и моя куча ничем не хуже сиднейской оперы
то что ты не понимаешь или не хочешь признавать разницу не значит что ее нет.
> потому что на стороне фронта нереализуемо либо будет работать суперхуёво
Давай и тут, четко, ясно и подробно распиши почему это будет хуже чем твои потуги. Именно нормально и аргументировано а не "ну яскозал". Вот чисто на спор эту штуку сделал бы, но у тебя едва ли найдутся средства или что-то чтобы заинтересовать и просто не сольешься, а без интереса есть чем заниматься.

А потом распишу почему твои шифты будут иметь сомнительную работоспособность и результаты окажутся тупее чем нормальная работа. Вообще, изначально был заинтересован в хоть каком-то успехе, ибо это потенциальное благо для всех, но надежд все меньше.

>>879856
В таверне тип апи на новый смени.

Аноним 07/09/24 Суб 22:04:17 #99 №880038

>>879850
>>879903
Я на магнуме 34 сижу....

Аноним 07/09/24 Суб 22:41:42 #100 №880084

Нужен ассистенс полному ньюфагу.
Я установил себе таверну, хочу погонять Mistral Nemo Instruct (или надо было выбрать базовую) используя KoboldCpp как бэкенд. Какой API выбрать: Text Completion или Chat Completion?

Аноним 07/09/24 Суб 22:55:14 #101 №880097

Прошу ответить по делу и без троллинга. Пожалуйста.

LLM можно поднять на рх 580 8 Гб без вдовой ебли?

Я думал, что котируются только карты хуанга, однако мой знакомый запустил всё это чудо на амд, причём она работала с впечатляющей скоростью. Единственный нюанс в том, что у него какая-то дорогая жирнющая карта на 16 Гб и он сказал, что это работает всё только под линуксом. Он также сообщил, что нет нигде четкой инфы, заводится все это дело на моей некрокарте или нет. Кроме пары постов, где какие-то хардкорные линуксоиды что-то напердолили, не дали инструкций для некрокала и были таковы.

Я хочу понять, стоит ли овчинка выделки. Накатывать Линукс, который мне совсем незнаком, читать охуительные мануалы на стопицот страниц для всего этого, ещё и на английском языке — задача для меня та ещё.

Аноним 07/09/24 Суб 23:01:29 #102 №880103

>>880097
> без вдовой ебли?
Нет. С другом всё же придётся поебаться, чтобы он рассказал как на твоём кале что-то запустить.

Аноним 07/09/24 Суб 23:03:21 #103 №880107

>>880084
>Какой API выбрать: Text Completion или Chat Completion?
Text

Аноним 07/09/24 Суб 23:34:36 #104 №880140

>>880097
>LLM можно поднять на рх 580 8 Гб без вдовой ебли?
Попробуй форк Kobold.cpp с поддержкой ROCm
https://github.com/YellowRoseCx/koboldcpp-rocm

Аноним 08/09/24 Вск 00:04:44 #105 №880164

>>880107
Затем в advanced formatting нужно включить instruct mode и выбрать preset mistral?

Аноним 08/09/24 Вск 00:14:07 #106 №880175

>>880164
>выбрать preset mistral?
И пресет мистраль и систем промпт мистраль и токенайзер мистраль. Всё там.

Аноним 08/09/24 Вск 01:38:46 #107 №880232

>>879829
Хуй знает, посчитай, как быстро ты потратишь на аренду бюджет покупки картонки. Зашёл по первой ссылке в гугле, две 3090 это 33 рубля в час, пусть по 4 часа в день будешь арендовать, это 48к в год без учёта колебания курса, потерь на переводах и прочего. Ну и, возможно, это далеко не самое выгодное предложение, чисто беглый взгляд. Cчитать надо, да и вопрос личных предпочтений.

>>879841
Как-то на самом деле печально очень. Я бы на твоём месте задумался об инвестиции в некруху. В прошлом треде хорошую ссылку постили
https://www.reddit.com/r/LocalLLaMA/comments/1f6hjwf/battle_of_the_cheap_gpus_lllama_31_8b_gguf_vs/
А мелкие модели практически всегда могут быть неплохи только при "знакомом" сценарии. То есть если модель хорошо обучена рпшить в фентези сеттинге - она будет себя плюс-минус неплохо показывать в этом случае. Понятное дело, что логика и т.д всё равно оставляют желать лучшего, но я когда-то находил 7b модели, которые в некоторых сценариях показывали себя лучше, чем 20b. Хотя и безбожно лажали во всех остальных. Теперь на постоянной основе гоняю 34b и он тоже туповат.

>>879925
>его одной мелкой деталью
>краник средний: 13 см
>мелкой деталью
Лол

>>879969
>ты там пердолиться с другим подходом
Так я в этом плане могу поддерживать любое поведение, что пересчёт с момента расхождения, что полный пересчёт, что сдвиг контекста. Сдвиг в итоге показал себя лучше всего.
>это обеспечивает отличную совместимость
Вот именно, что это сделано из соображений совместимости. Это ограничение, а не какое-то преимущество. Преимущество это когда ты можешь буквально между генерацией токенов сдвинуть контекст и продолжить генерацию. Бесшовно, без задержек, сохраняя максимальный контекст и производительность.
>Как бы сказать то
Речь не идёт о функционале и возможностях. Таверна это фронт и может делать дела фронта. Это не что-то плохое, это просто фундаментальное отличие.
>Чел, это то же самое что сказать
Ты нихуя не понял. Я открываю API, запускаю таверну и подключаюсь. Всё. Код апи в формате openAI в проекте чуть ли не с первого дня. Только мне интерфейс таверны настолько не нравится, что ебал я его в рот.
>чисто на спор эту штуку сделал бы
Лол, блядь. Ну запили семплинг в таверне. Или без пересчёта кеша регенерацию поста в начале истории. У меня вот ещё идейка появилась с параллельными чатами. К этому дольше интерфейс делать, а функционал в пару строк кода. В таверне это нереализуемо, потому что она фронт. Опять же, я сейчас спокойно сохраняю массивы многомерных векторов в памяти и верчу ими, как заблагорассудится, потому что могу. Нода в этом моменте просто выйдет из чата.

Аноним 08/09/24 Вск 01:50:14 #108 №880247

>>880232
>Cчитать надо, да и вопрос личных предпочтений.
Считай, не считай - дорого при любом раскладе. Раньше хоть на теслы надежда была, сейчас и вовсе никакого просвета. Разве что пару 3090 купить, но это паллиатив не лучше тесл, потому что 123В не входит. Значит три карты, а это два с половиной года аренды - если одна из них за это время не сдохнет. А если сдохнет, тогда ещё больше :) Что там будет через три года - никто не знает.

Аноним 08/09/24 Вск 02:29:17 #109 №880272

Почему Магнум 72 через опенраутер отлично работает, а через koboldcpp просто ужасно. Может проблема в GGUF? Попробовать exlm2 через vLLM?

Аноним 08/09/24 Вск 02:42:55 #110 №880277

>>880272
Короче, проблема была в кванте. По ходу, только 8 и 16 работают хорошо. Не понимаю как люди работают с 4 квантами, еще и в более маленьких моделях.

Аноним 08/09/24 Вск 02:47:47 #111 №880278

>>880247
>через три года
Может быть, halo strix окажется чем-то хорошим. Если будет широкая шина, если будет дешёвым, если, если, если. А так вот самый "паллиатив" из паллиативов
https://russian.alibaba.com/product-detail/Jieshuo-RTX-2080-Ti-22GB-Advanced-1600430402549.html
Берёшь 4, получаешь 88 гигабайт vram по цене одной 4090. Рефаб, так что скорее всего живее, чем 3090 с рук, охлад говно, зато живой. Дороже p40, зато с экслламой, памяти меньше, чем у 3090, зато дешевле. Заходить под прокси, покупать через перепуков.

Аноним 08/09/24 Вск 02:59:29 #112 №880284

>>880278
>Берёшь 4, получаешь 88 гигабайт vram по цене одной 4090.
400 баксов за штучку и оно даже не Ампер. Нет, неплохое решение в теории, но хотелось бы отзывов от уже купивших.

Аноним 08/09/24 Вск 03:43:26 #113 №880301

>>880278
после всех доставок и комиссий будет все 500 стоить наверно

Аноним 08/09/24 Вск 04:31:53 #114 №880320

>>880232
> Сдвиг в итоге показал себя лучше всего.
Он так и не появился в массах не смотря на длительные обсуждения, а "у тебя" базовые проблемы, отсутствие понимания основ и примитивные посты, так что не убедительно.
Кэш контекста есть продукт на основе прошлых вычислений. Нельзя сначала обсчитать конец а потом начало, также как и нельзя подмахнуть одно в стык другому без последствий. Наиболее экстремальной иллюстрацией будет задание ультрасоевого промта и кэширование какого-то пошлого запроса к сетке, а потом склеивание его с блядским жб в начале. При смещении там эффект не столь радикальный, но зато регулярный и накопительный будет.
Если бы все было так просто - уже бы давно имели целую базу предложений и фраз под готовый кэш, и работа с ним была бы по совсем иным принципам.
> Преимущество это когда ты можешь буквально между генерацией токенов сдвинуть контекст и продолжить генерацию. Бесшовно, без задержек, сохраняя максимальный контекст и производительность.
В теории да, но отрываясь от реальности можно вообще приказать сетке "накапливать кэш всего" чтобы потом сразу отвечать. Или издать закон о запрете глупых ответов и структурных лупов, ага.
> Я открываю API, запускаю таверну и подключаюсь. Всё.
Это не вяжется с тем что было описано раньше.
> Ну запили семплинг в таверне.
Само изейшество, запрашиваешь логитсы и делаешь простую математику. Но в этом нет смысла.
> Нода в этом моменте просто выйдет из чата.
Не удивлюсь если это вещает адепт клинкода, лол

По существу ни за одно, ни за другое аргументов так и не поступило, чтож, успехов, будем наблюдать.

Аноним 08/09/24 Вск 06:01:21 #115 №880334

>>880097
Добро пожаловать в клуб!
>>880103
>>880140
Этих не слушай. ROCm на RX580 не работает, по крайней мере базовый, т.к. поддержку старых карт выпилили. Способ завести есть, но геморный.
Без гемора и ебли ты можешь скачать стандартную версию кобольда, выбрать Vulkan в пресетах и спокойно запускать любую модель в GGUF формате. Скорость будет уступать ROCm, но не на много.
Лучшее, что ты сейчас можешь завести на своей старушке это Mini-magnum-12b в 3-4 кванте. Но если есть быстрая оперативка, можно и на что посерьёзней позариться.
мимо-обладатель-RX580-c-шерстью-кота

Аноним 08/09/24 Вск 07:37:08 #116 №880341

>>880097
>LLM можно поднять на рх 580 8 Гб без вдовой ебли?
Можно. Vulkan, как уже упоминали.
ROCm работает старый, только на linux и только до версии 5.7.*, в 6.0 выпилили.

Более того, и новые версии llamacpp/koboldcpp стали криво собираться под старый rocm в какой-то момент, и это совпало с тем, что я в целом на нейросетки подзабил в последнее время, поэтому не стал пердолиться и чинить. Есть гипотеза, что последняя по-настоящему рабочая версия rocm для 580 - даже 5.6, а не 5.7, но это требует проверки. Изредка вулканом пользовался, и то в последний раз ещё весной, кажется.

Всё хочу глянуть новую гемму 2 и мистраль 12b (на последний особо большие надежды, возможно, это будет как раз тот самый "мультиязычный солар", который я хотел себе ради переводов неплохого качества).

Алсо, вопрос, что-нибудь из нового с распознаванием картинок и чтением текста с них на llamacpp/koboldcpp добавляли за последнее время? Или там всё ещё потолок на уровне llava - распознавание цвета шерсти котиков (правильное в 2/3 случаев)?

Аноним 08/09/24 Вск 08:22:05 #117 №880354

Так, братушки, есть вопросец. Есть одна MSI B450 GAMING PLUS MAX на которой я сижу с воткнутым 1660с. Но pci слота на ней два, что если я куплю какую-нибудь p102-100 и воткну во второй слот? Что будет? Комп сгорит? Второй слот вроде как хуже, и вместо pci-ex16 3.0 там pci-ex4 2.0. Оно заработает, будет ли оно быстрее и можно ли раскидать модель на обе карты разом чтобы было еще быстрее и больше врама?

Аноним 08/09/24 Вск 08:38:13 #118 №880355

1653634836135.png

Как думаете, Шумер всех развёл или действительно какой-то обосрамс с весами в HF? С одной стороны в API оно показывает отличные результаты, с другой никто не знает что там в API, может там 405В. Он пока дико отмазывается, говорит скоро переделают, но слухи про скам уже идут. С другой стороны если бы они хотели всех наебать и хайпануть, не ясно как это должно было работать и в чём тут позитив в этой ситуации.

[mailto:sage] Аноним 08/09/24 Вск 09:31:51 #119 №880365

00185-866195251.png

пысаны, смысол на 4060 16 гб есть копить? в игорях она хуета, знаю
в нейросеточках она как? врам много же, и генерация картинок должна нормальной быть по идее, да и в кобольде тоже наверно?
поделитесь размышлениями по этой карточке, пж

Аноним 08/09/24 Вск 09:52:00 #120 №880367

>>880278
>Рефаб, так что скорее всего живее, чем 3090 с рук
Лол, наоборот, лишний нагрев только помешает.
>>880354
Втыкай, будет лучше. Но у тебя конечно такая некорота, что лучше заменить целиком на 3060 12ГБ или чего получше, нежели чем добавлять ещё большей некроты.
>>880355
Мне она тоже не показалась умной в еРП, так что да, наёб.
>>880365
>врам много же
Но медленной.
>поделитесь размышлениями по этой карточке, пж
>сажа
Ты пидар.

[mailto:sage] Аноним 08/09/24 Вск 09:53:35 #121 №880368

00000-1209818360-Holo{Ookami t.png

>>880367
>Но медленной.
а есть какие-то статистика бенчмарков по всем карточкам? чтоб глянуть че насколько кто от кого по скорости отстает?
>Ты пидар.
нет ты, бака

Аноним 08/09/24 Вск 09:54:39 #122 №880369

>>880284
В прошлый раз я приносил их в тред когда они стоили по 300, вроде.

>>880320
>так и не появился в массах
В убе одной кнопкой уже давно. Обнови там говно, на котором сидишь.
>Кэш контекста есть продукт на основе прошлых вычислений.
Ага. Именно это одна из причин, почему шифт работает так хорошо и в некоторых случаях - лучше полного пересчёта.
>Это не вяжется с тем что было описано раньше.
Там буквально об этом. Да, я не планирую такое использование, но ничего нет, что мешало бы.
>Само изейшество, запрашиваешь логитсы
И получаешь скорость 0.1 Т/c. Будет работать суперхуёво, как я и говорил.
>аргументов так и не поступило
Кто же виноват, что ты твердишь одно и то же второй тред, не принимая абсолютно ничего во внимание, потому что оно расходится с твоими заблуждениями? Это только твоя проблема.

>>880365
Это 16 гб за 50к? Нахуй не нужно.

Аноним 08/09/24 Вск 09:54:58 #123 №880371

>>880368
>а есть какие-то статистика
Там в ТТХ всё видно.
>нет ты, бака
Нет ты. Ещё и мелкобуква. Ещё и точку не поставил. Пиздец короче как таких только земля носит.

[mailto:sage] Аноним 08/09/24 Вск 09:59:08 #124 №880372

00001-515654419-Megumin {konos.png

>>880369
>Это 16 гб за 50к?
а че тогда можно взять, чтоб не сильно дорого и чтоб не некроговно на архитектуре ампер/паскаль?
>>880371
>Там в ТТХ всё видно.
ну а куда смотреть? на пропускную способность? если модель уже вся в памяти, то на нее похуй же? на частоту памяти? а частота чипа роляет?
>Пиздец короче как таких только земля носит.
ну что вы меня кибербоулите...

Аноним 08/09/24 Вск 10:08:57 #125 №880374

>>880372
>сажа
Игнорим.

Аноним 08/09/24 Вск 10:43:25 #126 №880390

>>880367
>Втыкай, будет лучше. Но у тебя конечно такая некорота, что лучше заменить целиком на 3060 12ГБ или чего получше, нежели чем добавлять ещё большей некроты.
Дораха, а я нищий. Я так понимаю сама по себе еще и в хуевом слоте она нахуй не нужна и будет не лучше моей 1660с, вопрос в том можно ли будет использовать их обе одновременно? Чтобы врама 16 гигов было, да и скорость все равно повыше чем у оперативы всяко должна быть.

Аноним 08/09/24 Вск 11:03:18 #127 №880400

>>880390
>можно ли будет использовать их обе одновременно
Можно. Но лучше всё таки продай свою и докинь до нормальной видяхи, будет быстрее.

Аноним 08/09/24 Вск 11:12:21 #128 №880407

>>880400
Понял-принял, я еще и не уверен что бп потянет 2 видюхи... ладно, будем думать значит дальше. Как там вообще, понижение цен размечтался с выходом 50 серии не ожидается?

Аноним 08/09/24 Вск 11:21:41 #129 №880415

>>880407
>понижение цен
Забудь о нём, тем более если зарабатываешь в рублях.

Аноним 08/09/24 Вск 12:15:54 #130 №880452

Oh my gah! (online-video-cutter.com).mp4

>>879903 >>879903

Аноним 08/09/24 Вск 12:35:12 #131 №880461

>>880365
>пысаны, смысол на 4060 16 гб есть копить? в игорях она хуета, знаю
Вот как раз нашёл видео с тестом 6 таких:
https://www.youtube.com/watch?v=Zu29LHKXEjs

Делайте выводы.

Аноним 08/09/24 Вск 13:07:47 #132 №880471

Постараюсь правильно донести свой вопрос.
Я думаю что все знают что такое character ai.Мне этот сайт нравится и я часто чатился там. Я сегодня узнал что его скоро или закроют, или будет новая версия которая хуже старой, что то такое. И все это, + ситуация с блокировками и замедлениями различных сервисов меня натолкнули на мысль.
Есть ли простой способ эм...завести такого бота у себя на компьютере?(я даже не могу точнее сформулировать) Чтобы он не зависел ни от роскомнадзора, не от гугла, в идеале даже чтобы и от интернета не зависел, ни от кого. А был лично моим.
Я надеюсь вы поняли что я имею ввиду.
Я полный ноль в программировании. И не понимаю как все это работает. Если вы меня спросите что по твоему такое character ai? То я могу лишь ответить что это сайт где можно пообщаться с ИИ, и на этом все. Поэтому я могу путать термины или даже нести чушь, не судите строго.
Функционал который мне нужен, это создание и редактирование чат бота одного хотя бы, но лучше 2-3. Возможность регенерации сообщений, возможность редактирования сообщений от бота.
1 Насколько это реально для человека полного нуля и что для этого потребуется? (если это важно у меня rtx 3060 12gb, и 32 оперативки в компе.)
2 Если это нереально, то что есть максимально приближенное к тому что я хочу, и максимально простое. А именно тихое место где я мог бы общатся с ботами бесплатно безлимитно и в идеале без цензуры. Что то типа сайта или приложения ,программы/игры где уже все готово и от меня требуется пару кликов чтоб подстроить под себя. Потому что мозгов у меня как у хлебушка.
В общем мне нужен личный аналог character ai, я не знаю как лучше объяснить.
Очень прошу, если кто ответит не используйте сленг и сокращения. Я ж не пойму ничего.

Аноним 08/09/24 Вск 13:30:42 #133 №880480

>>880471
А чем мы здесь по-твоему занимаемся? Все именно как ты описал у нас тут и происходит, 12 гб врама тебе за глаза на простенькую модель хватит.

Аноним 08/09/24 Вск 13:32:13 #134 №880482

>>880471
Раньше в шапке был гайд для хлебушков, теперь его перенесли сюда: https://2ch-ai.gitgud.site/wiki/llama/guides/kobold-cpp/
Там всё верно, кроме предлагаемых моделей, их выбирай тут по количеству доступной видеопамяти и описанию: https://rentry.co/llm-models

Аноним 08/09/24 Вск 13:36:35 #135 №880487

Нихуя себе контент, ещё и на русском:

https://m.youtube.com/@razinkov/videos

Там и русский разбор статьи по Llama 3.1

[mailto:sage] Аноним 08/09/24 Вск 14:12:12 #136 №880529

>>880487
ну там анальник для анальников рассказывает
нам бы калтент, чтоб анальник для кривозубых крестьян рассказывал, чтоб пынятно был

Аноним 08/09/24 Вск 14:30:08 #137 №880544

>>880471
Ещё осталось быдло, сидящее на cai? Я думал мамонты уже вымерли.

Аноним 08/09/24 Вск 14:33:27 #138 №880547

>>880355
Ты про рефлекшн?
Покатал ее в разном рп, она действительно дохуя умная, интересная. В отличии от обычной лламы не теряется и не ловит затупы, на левдсах никакой разницы с сфв. Без дополнительных cot оберток зирошотом хорошо ориентируется в происходящем и даже прошла тест на снятие трусов юзернейм, ты глупый, я уже bottomless.
Но бля, это просто 11 укусов по запросу из 10, количество клодизмов, платиновых фраз и ебучих конструкций
>>880369
> В убе одной кнопкой уже давно.
Экспериментальная реализация не сыскавшая успехов.
По остальному даже комментировать лень. Успехов тебе, может через пол годика проникнешься и заодно ждуновское бинго вокруг максимализма подлечишь, а то и что-то полезное напердолишь.
>>880372
> на архитектуре ампер
Да
> не сильно дорого и чтоб не некроговно
Нет
>>880461
Хорошие тесты. Непонятно только что за факстический бэк в используемой софтине и какой именно там квант. Но ориентируясь на жору и условные 5-6bpw что сожрут всю память - не так уж плохо.
Кстати, какие скорости у теслы на подобных размерах?
>>880471
В шапке вики и гайды. Ознакомься с ними, начни пускать и задавай уже конкретные вопросы что не понятно или не получается.

Аноним 08/09/24 Вск 14:35:00 #139 №880548

>>880487
Какая-тго вода. Я на перемотке глянул и сразу наткнулся на момент где он не понимает как attention mask работает, какие-то другие матрицы у него аттеншен формирует, лол.

Аноним 08/09/24 Вск 15:08:22 #140 №880580

>>880529
>>880548
Я сам гуманитарий, просто увидел длинные лекции, да вумные слова и решил что возможно анонам пригодится. Может это и продавец инфо-говна, хз, хотя курсы у него вроде "открытые"

Аноним 08/09/24 Вск 15:24:02 #141 №880587

>>880580
>возможно анонам пригодится.
Пригодится, спасибо.

Аноним 08/09/24 Вск 15:25:51 #142 №880588

>>880547
>какие скорости у теслы на подобных размерах
Сейчас точно не скажу, но сравнимые. Плюс на жоре они ещё и параллелятся - на двух теслах скорость почти удваивается. А в видео с этим беда.

Аноним 08/09/24 Вск 15:38:50 #143 №880591

>>879497
1660c не умеет в нейронки.
Там чуть ли не скорость DDR4 обычной в нейронках, вроде.

>>879533
> Думаю взять что-то дешевое, но чтобы по чипу было быстрым, смотрел на 16хх.
Потому что чип 16хх не умеет в ллм, не хватает чего-то там, не помню.

>>879545
> шина с 1.5 раза меньшей пропускной способностью памяти, чем у 1660с
Только вот дело не в шине в случае с 1660с.
К сожалению, щас 6600 не у меня, не могу проверить вот-прям-щас, но 1660с точно не эталон. Что угодно другое — 1070, 2060…
Кстати, P104-100 (1070) выдает 17 токен/сек, вот где-то так должно быть на этом чипе.
Как я писал ранее, две таких тянут немо в 15-17 токенов. Одна, соответственно, 17+ выдает для малых моделей.

>>879649
Справедливости ради, поебать, гарантия же реально, пихаешь им в ебало и они меняют или возвращают деньги, проблемы?

>>879714
Уверен, что этот чел троллит.
Невозможно всерьез такую дичь писать.

>>879803
1660? О_о

>>879816
Юмор здесь заключается в том, что на одной из фотографий отец и дочь плавают на лодке, а на другой - они сидят на траве. Это создает противоречие между двумя ситуациями, которые кажутся совершенно не связанными. Вторая фотография может быть воспринята как негативная или даже критическая, поскольку она показывает отца и дочь вместе на траве, которая обычно считается местом отдыха и уединения.
Qwen2-VL-2b.
Не поняла.

>>879841
Ну это же боль, вы угараете!

>>879855
В прошлом году были 4090 по 60к. Но в Сбере. И в прошлом году. А сегодня 180к. Но в ДНСе и сегодня.

>>880084
Просто немного теории.
Чат комплишн посылает JSON формат «роль: юзер, сообщение: текст» и получает «роль: ассистент, сообщение: …», а промпт темплейт приделывает сам со стороны бэкенда.
Текст комплишн посылает целиком сразу обработанный текст, который модель просто продолжает. Т.е., промпт темплейт на стороне фронта (таверны).
Второй формат лучше — дает больше свободы тебе.

По сути: хуй знает, в кобольде не гонял.

>>880097
Можешь попробовать выбрать clblast или вулкан, вдруг на нем будет быстрее.
Вон, посоветовали кобольдспп с росм — возможно, поможет он.
Если все три не прошли, то… ебись, хули.

>>880320
Я не читаю ваш тред, но меня пугают мысли, как люди вырезают куски контекста и склеивают их. Это ж лютый треш начнется. Там буквально входы-выходы нихуя не совпадают, с точки зрения ллм там шиза в моменте стыка.
ИМХО, гораздо лучше просто кэш контекста с пересчетом (инструкция + немного истории) при достижении лимита.

>>880334
Я, оказался прав с вулканом. Ура.

>>880341
Я юзаю Qwen2-VL и охуеваю от качества.
Но ггуф-версий пока нет. =(

>>880354
Почему не P104-100?
Да, раскидать можно.
Да, грузить будет долго.
Если раскидаешь — контекст будет не быстрый. Если в одну видяху сунешь — то лучше.

>>880365
18 токенов в немо. Звучит как медленно для цены. Зато одним слотом. Думайте.

>>880367
> такая некорота, что лучше заменить целиком на 3060 12ГБ
+
Но P104-100 за 2к продаются, а 3060 слегка дороже.

>>880371
> Ещё и мелкобуква. Ещё и точку не поставил. Пиздец короче как таких только земля носит.
Плюсую. Ахуй.

>>880407
Нет, видеокарты стоят столько, сколько производительности в них.
30хх поколение не подешевело с выходом 40хх, это 40хх стало дороже.
Это политика компании.

>>880471
Да, есть, перестать играть в дегенерата и прочитать шапку треда, где есть ссылка на вики, где разжевано все максимально.
Если ты не полный ноль в букваре, то прочесть сможешь.
Буквально два файла скачать, все.

3060 12 гигов база. Смотри в сторону Gemma-2-9b-it или Mistral Nemo 12b Instruction (или их файнтьюнов: Magnum 12b какой-нибудь).

>>880547
> Но бля, это просто 11 укусов по запросу из 10, количество клодизмов, платиновых фраз и ебучих конструкций
Когда обучали на синтетике. Умная, но есть нюанс…

Аноним 08/09/24 Вск 16:00:02 #144 №880610

>>880591
>2b.
>Не поняла.
Просчитался, но где?
>В прошлом году были 4090 по 60к. Но в Сбере.
С кешбеками считаешь, кешбекоблядь?

Аноним 08/09/24 Вск 16:02:37 #145 №880612

image.png

17162999660730.jpg

>>880591
>Ну это же боль, вы угараете!
Нет, боль вот. 8B Q8. А что поделать?

Аноним 08/09/24 Вск 16:03:00 #146 №880613

>>880588
> А в видео с этим беда.
У него там какой-то другой софт, ссылки есть, и явно не пытался использовать всякие опции. Видео довольно тягомотное, лучше сразу вот здесь смотреть https://gputests.robotf.ai/PNY_4060TI_16GB_1x_to_6x
> на двух теслах скорость почти удваивается
Алсо, так и не получилось повторить этот эффект, в отдельных случаях действительно наблюдалось ускорение генерации, но процентов на 20 и преимущество терялось при увеличении контекста. Главный буст был при сборке из сорцов по сравнению с готовыми билдами.
>>880591
> Я не читаю ваш тред, но меня пугают мысли, как люди вырезают куски контекста и склеивают их. Это ж лютый треш начнется. Там буквально входы-выходы нихуя не совпадают, с точки зрения ллм там шиза в моменте стыка.
Абсолютно, о том вся речь.
> ИМХО, гораздо лучше просто кэш контекста с пересчетом (инструкция + немного истории) при достижении лимита.
Ага, именно такое решение и предложено в противовес шифтам и склейкам, к тому же реализуется на стороне фронта. Буфер до пересчета не на одно сообщение а на десяток (такое уже пытались делать в кобольде и был экстеншн к таверне), и запуск эвала в момент начала написания ответа юзером чтобы работал в фоне.
> 18 токенов в немо.
Вроде 26 по тому тесту
> Умная, но есть нюанс…
На самом деле терпимо если нет совсем алегрии, главное что нет бондов и всякого треша, чар инициативничает и не боится нсфв.
> В прошлом году были 4090 по 60к.
Ультишь, были цены типа 180 минус 60 и несколько лотов где за вычетом баллов 90-100к, но те быстро улетели и по отзывам кому-то 4080 присылали.

Аноним 08/09/24 Вск 16:17:31 #147 №880623

>>880613
>Алсо, так и не получилось повторить этот эффект, в отдельных случаях действительно наблюдалось ускорение генерации, но процентов на 20 и преимущество терялось при увеличении контекста. Главный буст был при сборке из сорцов по сравнению с готовыми билдами.
Возможно дело в хорошей шине, но лично мне приходилось отключать ровсплит, чтобы увеличить скорость обработки контекста на двух теслах. Скорость генерации соответственно падала, но итоговый баланс выходил отличным - до 12B_Q8 включительно.

koboldcpp_cu12.exe --usecublas mmq --flashattention , плюс с размером blasbatchsize можно поэкспериментировать - 128 вроде бы лучшую скорость даёт на маленьких моделях. --benchmark тебе в помощь.

[mailto:sage] Аноним 08/09/24 Вск 16:41:56 #148 №880634

>>880591
>18 токенов в немо
а че за модель "немо"? сколько параметров и с каким квантованием?

Аноним 08/09/24 Вск 17:48:50 #149 №880672

Это фишка геммы такая, что она медленная или просто какая-то несовместимость с рокм? Gemma-2-Ataraxy-9B-Q4_K_M.gguf, со всеми слоями только с 2к контекста помещается в 8гб рх6600 и выдает божественные 3 токена в секунду. Тот же мистрал немо к4_к_м с 2к контекста (чтобы поместился весь) выдает 13-14 т/с.

Аноним 08/09/24 Вск 18:05:33 #150 №880675

>>880591
>Только вот дело не в шине в случае с 1660с.
Дело в шине у 6600, а не у 1660с. Даже у этой самой 1070 память быстрее, чем у 6600.

Аноним 08/09/24 Вск 18:13:49 #151 №880677

>>880591
>Справедливости ради, поебать, гарантия же реально, пихаешь им в ебало и они меняют или возвращают деньги, проблемы?
Назначаем экспертизу. Экспертиза длится до окончания срока гарантии, а после выносит решение что случай не гарантийный. Отправляешься в спортлото, оспаривать экспертизу и доказывать что твоя хуйня сгорела не только что.

Аноним 08/09/24 Вск 18:24:28 #152 №880678

>>880677
Какие-то фантазии из нулевых. Я пару лет назад сдавал свою свежую (на тот момент) 2060 из-за того что у нее выход на hdmi коротнуло и изображение перестало выводится. За 2 дня всё осмотрели и вернули деньги. А потом я еще одну 2060 купил.

Аноним 08/09/24 Вск 18:38:42 #153 №880682

изображение.png

>>880678
>пару лет назад
>свежую
>2019 год
Время летит незаметно, верно?
Ах да, ты не заметил, что времена сейчас не те, и гарантии в России по факту больше нет.

Аноним 08/09/24 Вск 18:53:19 #154 №880688

>>880682
>гарантии в России по факту больше нет.
В России нет, в Москве еще осталась.

Аноним 08/09/24 Вск 19:17:24 #155 №880715

>>880610
И целиком доволен!
Свою стиралку за 500 рублей имею, доволен. В)

>>880613
> по отзывам кому-то 4080 присылали.
Я понимаю, что им потом вернули деньги, но тягомотина была ебучая, конечно. Сочувствую им.

>>880634
12b, 8 квант.

>>880677
Ну все мои гарантии обрабатывались быстро.
В Ситилинке тянули, да.
Думаю, от региона зависит тоже, и от людей, как повезет.

Аноним 08/09/24 Вск 19:40:43 #156 №880742

>>880547
>не сыскавшая успехов.
Потому что у них криво реализовано. Нужно делать, как нужно, а как не нужно делать - не нужно.

>>880591
>1660? О_о
Да я спеки не смотрел. Потом глянул - там совсем печально всё. Хуй знает, что и выбрать теперь, лол.

>Там буквально входы-выходы нихуя не совпадают, с точки зрения ллм там шиза в моменте стыка.
С точки зрения ллм нет разницы, "начинается" у тебя диалог с середины поста или с середины непосредственно, диалога. А если удалять старые посты - оно так и происходит, ты кидаешь нейросеть в омут с головой, где уже произошли какие-то события и история начинается с ответов на несуществующие вопросы. Так и так начинается всё с обрывочных данных, но ллм неплохо с этим справляются. Здесь куда хуже семантический дрифт, но его влияние зависит от миллиона факторов.
>(инструкция + немного истории)
Тогда уже проще суммарайз истории и дроп всего, что не инструкция. Но это по времени инференса может быть не очень, особенно на долгих историях. Можно запилить маяки активаций, расширить контекст х100 практически бесплатно по vram и времени инференса, но это долго, дорого и больно. Можно сделать пересчёт скользящего окна, это, в теории, уберёт дрифт до ничтожно малых величин, хотя и не исключит полностью. Техник, на самом деле, много. Я себе потом точно добавлю экспоненциальное устаревание старых токенов и отрегулирую порционный сброс kv, так ни дрифта не будет, ни разрезанных на куски постов.

Аноним 08/09/24 Вск 20:11:14 #157 №880765

>>880742
>Я себе потом точно добавлю экспоненциальное устаревание старых токенов и отрегулирую порционный сброс kv, так ни дрифта не будет, ни разрезанных на куски постов.
Всё себе? А людям? :)

Аноним 08/09/24 Вск 21:24:59 #158 №880877

>>880742
> С точки зрения ллм нет разницы,
Нет-нет, нифига.
Речь не о том, чтобы отрезать начало и все. Тут вопросов нет.
Идея же в том, чтобы сохранить кэш инструкции (начало), вырезать середину, а потом прилепить концовку. И вот тут получается совершенно пиздец.
Ведь этот текст не обрабатывается с нуля — это именно кэш.

Короче, это бай дизайн будет выдавать дичь, и это выдает дичь. Не вижу противоречий.

> Тогда уже проще суммарайз
Нет, именно что это новая полноценная задача на фуллконтекст, которая жеваться будет очень долго. Именно что проще — при достижении лимита отрезать середину (тут как бы норм), и пережевывать инструкцию + конец. По смыслу то же самое, что и у резальщиков кэша, только теперь не мусор из байтов, а нормальный контекст, пусть и ценой однократной обработки.
А дальше, вплоть до нового заполнения контекста, по классике кэшируем и обрабатываем только новые сообщения.

Да, при этом нет суммарайза, но:
1) Технически вариант корректен.
2) Логически там все на месте.
3) Приемлемая скорость (раз в контекст идет пережевывание небольшого участка).
Не идеал, но остальные варианты сомнительнее.

Ну и можно просто обрезать начало забив на инструкции и надеяться, что модель будет поддерживать стиль и логику чисто по предыдущим сообщениям. =) Самый быстрый способ, я полагаю.
Хотя не силен в этой хуйне.

Аноним 08/09/24 Вск 21:31:23 #159 №880885

>>880742
> С точки зрения ллм нет разницы
Бред.
То что диалог начинается не с какого-то отправного события а уже с каких-то действий, которые потом продолжительно развиваются - сетка переварит спокойно, подобное часто есть в художке. Если перед этим еще будет суммарайз - будет вообще прекрасно и без каких-либо вопросов.
А вот обрывки, кривые склейки, даже косяки форматирования она похватывает и сама начнет их повторять и серить. Кривые активации вне нужной последовательности и все такое - это будет вообще полная шиза.
В aicg уже вообще дошли до суммарайза на лету, чтобы сетке легче было обрабатывать прошлые посты, меньше лупов и эффективнее расходовались посты, и все это чисто на одном фронте. А ты тут "на острие прогресса" такие перлы выдаешь, зато уверенности сколько.

Аноним 08/09/24 Вск 22:03:26 #160 №880922

Как Yi Coder в плане секса, брыкается? в плане кода? Лидер теперь? Удалять deepseek-coder-v2:16b?

Аноним 08/09/24 Вск 22:12:12 #161 №880931

>>880765
>Всё себе? А людям? :)
А чтобы людям - нужно влезать в код бэкенда. Во-первых, добавлять фейд старым токенам. Во-вторых переделывать инвалидацию кеша с поиском чего и где фронт удалил. Вот вторая операция мне не нравится, лол. Как и весь этот апи с перегонкой всей истории каждым запросом. Но это уже совсем другая история.

>>880877
>это бай дизайн будет выдавать дичь
Я это тестил на q4 7b и q6 20b, это не ломается часами на адекватных параметрах. Здесь важно, сколько именно ты удалил. Возможно, сетка выдаёт не такие качественные ответы, как могла бы, из-за дрифта. Но в остальном всё окей.
>при достижении лимита отрезать середину (тут как бы норм), и пережевывать инструкцию + конец
Это как раз пересчёт скользящего окна, только инструкцию можно не трогать, если в ней нет изменений. А пересчёт сделать либо для части сохранившейся истории, либо для всей. Для всей долго, а для части - небольшой дрифт останется всё равно. Ну, можно сделать "для всей - быстро", если резать сразу дохуя, но мне это не нравится. Какой смысл тогда в больших контекстах.

>>880885
Я же не на пустом месте это взял. Если бы сетка ломалась - сразу бы добавил обрезку по постам, а пока что это отложено в долгий ящик на похуй. Работает - хорошо, потом можно и улучшить, если будет не похуй.
>В aicg уже вообще дошли до суммарайза на лету
Я дошёл до сохранения чатлога в оперативе и поиск на ходу подходящих постов со вставкой в историю, если они уже вылетели из контекста. Просто анонам настолько понравилось обсуждать контекст шифт, что никто не успокаивается, лол.

Аноним 08/09/24 Вск 22:16:06 #162 №880937

1652520519387.png

>>880922
> deepseek-coder-v2:16b
Это устаревшая модель. Yi явно лучше всех старых дипсиков. Из мелких ещё CodeGeex4 и автокодер нормальные.

Аноним 08/09/24 Вск 22:41:18 #163 №880970

image.png

>>880937
>CodeGeex4
На день свежее?

В топе наверное 236B. Не честно.

Аноним 08/09/24 Вск 23:41:09 #164 №881023

>>880931
> Если бы сетка ломалась
Проблема в том что в случае генеративных моделей довольно сложно оценить их перфоманс. В распоряжении только бенчмарки или сравнения, которые не точны, субъективны и компрометируются. Даже просто правильно выстроить процесс тестирования с ними - задача. Или же метрики типа перплексити, дивергенции и прочего, которые не дают должной информации.
В итоге то что поломалось ты заметишь только если там будет полный треш, в остальных случаях под впечатлениям будешь думать что просто модель так работает. Кроме того, даже просто для оценки нужен ОПЫТ В КУМЕ гусары молчать! чтобы примерно знать какое поведение ожидается и отследить что происходит. Обычные модели то нормально отранжировать не можем, только грубые условные топы.
> до сохранения чатлога в оперативе и поиск на ходу подходящих постов со вставкой в историю, если они уже вылетели из контекста
Больной ублюдок, но забавно. Лучше тогда копай в сторону упаковки активаций, как в штуке, что не так давно обсуждалась. Шифт и лепка кэша - херня, но вот с подобным можно попробовать добиться ужатия или суммарайза на уровне внутренностей модели, в общих чертах сохраняя память как у человека с долговременной.

Аноним 09/09/24 Пнд 00:04:10 #165 №881038

Нужно ли соблюдать синтаксис типа W++, когда делаешь карточку персонажа? Или это плацебо, и прожнг просто в свободном стиле заебенить?

Аноним 09/09/24 Пнд 00:12:19 #166 №881047

>>881038
Нужно, если ты сидишь на пигме. Остальным моделям это будет только мешать.

Аноним 09/09/24 Пнд 00:14:30 #167 №881052

Там нашумевший рефлекшн перевыложили, и судя по моим впечатлениям - охуенчик. Важно то что он признает и исправляет свои косяки. В первый раз такое вижу у лламок, даже чат жпт так не умеет, его хуй собьешь с намеченной тропы.

Аноним 09/09/24 Пнд 00:41:17 #168 №881083

>>881038
>это плацебо
Это не просто плацебо, это еще и дорогое плацебо, которое просто так жрет токены.
>просто в свободном стиле заебенить?
Смотря что для тебя свободный стиль. Если юзаешь плейн текст то тут надо быть аккуратным, потому что вероятнее всего модель возьмет оформление карточки за подсказку для форматирования. Будешь писать с ошибками и смысловыми нагромождениями вперемешку с противоречиями - получишь то же самое в ответах.

Аноним 09/09/24 Пнд 03:17:40 #169 №881164

Тут где то был тред проприетарных, но я хуй знает не нашел, да и мертвый полюбас. В чатгпт треде аноны слишком тупые, а здесь все свои.
Кароч платиновый вопрос: где на халяву попиздеть с топ моделями? Тока без наёбок скамов и телеграм чатов. Я нашел немного легитимных вариков, накидайте если знаете еще.
Текущие топ 3 соат это гпт, клавди и гемини, пральна?

chatgpt.com
5 запросов в два часа или 10 запросов в день или около того, потом дропает на тупую 4о-мини. Бывает дропает после 3 запросов. Я так понял лимиты динамические и меняются постоянно в зависимости от нагрузки.

claude.ai
3-5 запросов в несколько часов, маловато. Опять же динамические лимиты.

aistudio.google.com
2М контекста пацаны, можно всю документацию целого фреймворка туда задампить и пиздеть с ним. Бесплатно 50 запросов в день, вроде. Отличается от консумерской gemini.google.com тем что дает бесплатный доступ к гемини1.5-про, еще можно ползунок цензуры поставить на минимум.

lmarena.ai
Персональный лимит 16 запросов в час до гпт4о. Примерно столько же и для других. Но есть и глобальный лимит для всех на каждую модель 1к запросов в час. Но можно просто переключиться например с гпт4о на клавд3.5 или на старый снапшот того же гпт. Ну и безлимит в арене, но там рероллить надо, и в общем-то получается использовать сайт по назначению. Угрюмый интерфейс, хули окно чата такое короткое? Не надо регаться.

github.com/marketplace/models
Нужно приглашение в бету, я нажал кнопку вейтлист, дали доступ через день. Выглядит шикарно но я почему-то еще даже и не пользовался особо. Хуй знает может боюсь что гитхаб аккаунт нюкнут низашо. Ваще не ебу про лимиты, нигде ниче не пишут. Из умных здесь только гпт4о. И локалки мистраль-ларге-2407 и лама3.1-405б.

Аноним 09/09/24 Пнд 03:34:34 #170 №881173

>>881164
Тебе в соседний тред копрофилов. Только там тебя скорее всего тоже наухй пошлют.

Аноним 09/09/24 Пнд 05:08:52 #171 №881242

>>881164
> Кароч платиновый вопрос: где на халяву попиздеть с топ моделями? Тока без наёбок скамов и телеграм чатов.
duck.ai
huggingface.co/chat
Было ещё что-то на сайте нвидия. Это без банов по геолокации и прочего соевого фашизма. Если с ВПНом, есть ещё варианты.

Аноним 09/09/24 Пнд 05:23:37 #172 №881249

>>881052
Пчел, там всех наебали и доступное апи просто варппер до соннета

Аноним 09/09/24 Пнд 06:06:35 #173 №881263

>>881164
>где на халяву попиздеть с топ моделями?
Колаб в шапке чел...

Аноним 09/09/24 Пнд 06:16:08 #174 №881265

ev0ycl.png

>>881164
>2М контекста пацаны
Скажем ему?
а также recall vs reasoning и товарищи

Аноним 09/09/24 Пнд 06:23:55 #175 №881266

>>881242
Ясен хуй впн есть, он же по дефолту в наше время должен быть? И номерок найдется хуйли мне 10 рублей жалко. Вот две тыщи жалко.
>huggingface.co/chat
Во про него забыл, но там максимум лама 70б.
>duck.ai
Неплохо красиво легитимно, 4о-мини завезли с ламой 70б.

>>881263
Ну ты челик, 8б модель я и у себя могу запустить.

>>881265
Если верить https://github.com/hsiehjackson/RULER реальный контекст 128к, что все еще ебёт всех и вся.

Аноним 09/09/24 Пнд 06:29:32 #176 №881268

>>881266
>8б модель я и у себя могу запустить.
Ну так и вперёд, хули мозги то ебёшь?

Аноним 09/09/24 Пнд 06:32:02 #177 №881269

>>881164
>где на халяву попиздеть с топ моделями?
В ChatGPT треде же предложили https://2ch.hk/ai/res/753991.html#840864 юзать вылеченные приложения. Всех фич и настроек ChatGPT таким образом не будет, зато сможешь чатиться с GPT4 сколько угодно.

Аноним 09/09/24 Пнд 06:32:40 #178 №881270

>>881265
>>881266
А не, я дальше прочитал, они больше 128к и не проверяли, вполне возможно что гугл и не напиздели вообще.

>>881268
Ты че ебанутый? У тебя мозг блять как у 8б модели, не хочу я с тобой разговаривать, понимаешь?

Аноним 09/09/24 Пнд 06:45:33 #179 №881273

>>881266
>>881270
>Если верить https://github.com/hsiehjackson/RULER реальный контекст 128к, что все еще ебёт всех и вся.
Это на старой гемини. На новой ещё лучше. Только RULER это уже которая итерация "вот сейчас точно правильный тест", начиная с мемной иголкой в стоге, которая ничего не отражает? А воз и ныне там.
Я тебе скажу как человек юзавший все версии гемини на практике - нет там и близко столько, и тесты эти зависят от своих промптов. Да, конечно, у гемини всегда была наименьшая из всех деградация контекста. Но:
1) Заявленного там и близко нет. Проблема lost in the middle в decoder only и decoder/decoder моделях как не была решена пока никем, так и не решена. Немного сделали в https://github.com/microsoft/FILM тренировкой, но это костыль, корень проблемы даже не найден, не то что не решён. В день когда её решат, IQ лоботомита зашкалит, чисто за счёт этого.
2) На длинном контексте модель начинает терять общий перформанс пиздец как.
3) Recall != reasoning. Запомнить-то модель может овердохуя, да вот только реально применить в мыслительном процессе может только ограниченное число. И это не токенами считается, а максимальной сложностью абстракций которые может выразить модель. Поэтому например суммарайз по всему контексту без чанкинга до сих пор рождает тот же бред - ибо большей части контекста для модели просто не будет существовать, точно так же как ты не можешь прочесть одновременно всю книгу, даже если перед тобой одновременно разложить все листы в поле зрения.

А достать прям весь контекст дотошно можно только через chain of thought и подобные методы, да ещё не простые, а рекурсивные какие-нибудь. В общем про "засунуть всю кодебазу и чтобы оно корректно что-то делало по ней" - забудь сразу. Это не про нынешних лоботомитов, пока что.

Аноним 09/09/24 Пнд 07:00:57 #180 №881277

>>881273
Ну бля я думал хоть у проприетарных ребят все в масле должно быть. Ну гугл то, у них ведь должен быть какой-то специальный соус? 2м рекала все еще в каком-то смысле впечатляет. Почему попенай не могут так?

Аноним 09/09/24 Пнд 07:11:42 #181 №881279

>>881266
> Во про него забыл, но там максимум лама 70б.
Теоретически там лама 405В есть. Но почти не работает, слишком много желающих налетело.

Аноним 09/09/24 Пнд 07:18:48 #182 №881281

>>881269
Эмулятор ставить - в пизду. Если у них валидация премиума на стороне клиента, более пытливый ум наверное мог бы вытащить ендпоинт из приложения и напрямую через него общаться. Но нахуй надо.

Аноним 09/09/24 Пнд 07:33:54 #183 №881286

>>881277
У них и есть специальный соус - у неё действительно юзабельный контекст больше всех. Сама моделька правда всегда тупенькая была относительно других топовых, хотя последние версии уже неплохие. Но соннет всё равно кодит лучше.

Аноним 09/09/24 Пнд 09:25:33 #184 №881328

>>881083
>Если юзаешь плейн текст то тут надо быть аккуратным, потому что вероятнее всего модель возьмет оформление карточки за подсказку для форматирования. Будешь писать с ошибками и смысловыми нагромождениями вперемешку с противоречиями - получишь то же самое в ответах.
Хм, теперь понятно, почему у меня годные персы получались через раз...

Вот пример, написаный в свободном стиле (plain text). Это будет норм для связки SillyTavern+llama3?

Аноним 09/09/24 Пнд 09:56:45 #185 №881337

>>881242
> duck.ai
> huggingface.co/chat
Известны лимиты?

Аноним 09/09/24 Пнд 10:06:15 #186 №881342

>>881337
> > duck.ai
> > huggingface.co/chat
> Известны лимиты?
В обнимордовском чате нет, во всяком случае, я не натыкался, можно пиздеть сколько угодно. В duck.ai лимит есть, но хз сколько точно запросов в день можно + они пишут, что это временная мера.

Аноним 09/09/24 Пнд 10:10:29 #187 №881346

>>881342
Спасибо.

Аноним 09/09/24 Пнд 11:24:15 #188 №881385

x1.png

x4.png

>>881023
> довольно сложно оценить их перфоманс.
Так обещали-то все кары небесные - серить, шиза, выдавать дичь и т.д. А в итоге без залупы потери и не оценишь. Хотя я и не отрицаю, что они могут быть.
>Больной ублюдок, но забавно.
Сайдпродукт от rag. Побаловаться можно, но особо смысла не имеет, разве что ранжировать сообщения по важности и сохранять только критически важные. Иначе расход ram ебейший, а сжатие векторов я ещё не запилил.
>копай в сторону упаковки активаций
Да нахуй надо, там методов напилили триллион. Когда-нибудь нам дадут модели с маяками активаций и можно будет катать 400к контекста на двадцати гигабайтах. А копать вглубь никогда желания особо и не было, цель в другом.

Аноним 09/09/24 Пнд 11:31:21 #189 №881388

>>881270
>Ты че ебанутый? У тебя мозг блять как у 8б модели, не хочу я с тобой разговаривать, понимаешь?
Для школьника-максималиста, пришедшего в тред локалок с вопросами о закрытых моделях, и воротящего ебало от того, чем многие аноны успешно пользуются, ты слишком убого под умного косишь.
Запуск 8В моделей для тебя даже слишком, character.ai твой уровень можешь ещё в соседний тред сходить - поклянчить токен, может дадут за щеку

Аноним 09/09/24 Пнд 11:44:16 #190 №881395

>>881328
Ладно, пойду досру и буду эксперементировать. Понял уже, что никаких форматов нет, можнл просто хуярить plain text - simple english, тупо на простом английском как для дебса или StableDiffusion рисовалки

Аноним 09/09/24 Пнд 11:58:39 #191 №881398

1703841363804.png

https://unrollnow.com/status/1832933747529834747
Эпопея подходит к концу, скоро коллективно всем ИИ-комьюнити Шумера хоронить будем. Реддит уже топит его. Остаётся только зоонаблюдать что сегодня Шумер пукнет и будут ли какие-то оправдания.
Вкратце - на HF лежит криво трененая Лама 3.0, даже не 3.1. А в API обёртка над Claude 3.5 с промптом на рефлексию.

Аноним 09/09/24 Пнд 12:23:21 #192 №881411

>>881164
> попиздеть с топ моделями
Нужно быть умным или богатым, или и то и другое вместе. Авторизация апи идет по ключам, этого достаточно.
Есть еще вариант для терпеливых что ты описал, но это довольно сомнительно.
>>881273
Вот этого двачую, особенно про
> 3) Recall != reasoning.
На мелких моделях особенно заметно, для них большой контекст вообще нонсенс ибо нормально работать с ним они почти не способны.
>>881385
> Так обещали-то все кары небесные - серить, шиза, выдавать дичь и т.д. А в итоге без залупы потери и не оценишь
Не перевирай, если говорить грубо то посыл был в том, что васян не шарящий в теме, который боится интерфейса арены, катает без нормального промта/формата и хвастается посредственными постами - не поймет что у него модель серит, а будет воспринимать это как откровение и креативность.
> там методов напилили триллион
Речь о другом.
>>881398
> А в API обёртка над Claude 3.5 с промптом на рефлексию
Вот же содомиты, кто там хотел бесплатного доступа?
Это про рефлекшн? Не самая плохая модель по ощущениям, а хайпа знатно собрали.
> Лама 3.0, даже не 3.1
Это проверяется работой с контекстом, как там сравнивали веса и предсказывали лору не совсем корректный подход.
> 5
С этого проиграл, ко всем остальным бы его применить.

Аноним 09/09/24 Пнд 12:24:50 #193 №881412

>>881398
Кек, но история все равно мутная какая та.
Выглядит вся эта движуха как та, в которой топили суцвекера и боготворили пидора альтмана. Боты или заказ или просто направленный в нужную сторону хайп.
Если единственная причина считать это подделкой апи сонета - ответ сетки о том что она сонет, то это хуйня.
Так любая нейронка скажет, если ее на загрязненном датасете обучить. Но и то что он никак не может модель нормальную залить тоже вызывает вопросы.

Аноним 09/09/24 Пнд 12:27:49 #194 №881414

>>881412
Ладно залить не может, вдруг и правда там косяк какой, но торрент сделать каждый может

Аноним 09/09/24 Пнд 12:28:29 #195 №881415

>>881412
> Боты или заказ или просто направленный в нужную сторону хайп.
Но ведь там явный пиздёж. Есть заявления про MMLU в 89, но модели нет. Та что в HF лежит хуже ванилы в тестах.
> ответ сетки о том что она сонет
Нет, токенизатор там точно не от ламы, уже 10 раз челики проверили. Ну и тот факт что слово Claude вырезалось тоже сложно оправдать чем-то - там просили повторить это слово и она пустоту выдавала только.

Аноним 09/09/24 Пнд 12:31:02 #196 №881417

Господа, подскажите, на теслах разъем питания же по сути идентичен тому что на питание CPU идёт? Можно CPU кабель питания в неё воткнуть и всё будет работать?

Аноним 09/09/24 Пнд 12:32:40 #197 №881418

1648589082687.png

>>881411
> как там сравнивали веса и предсказывали лору не совсем корректный подход
Некоторые слои вообще без изменений от 3.0.

Аноним 09/09/24 Пнд 12:57:05 #198 №881430

>>881418
Хитрожопые мерджеры и не такое творят, возможно там франкенштейн, что может быть резонно с учетом особенностей работы 3.0 и 3.1. Офк девов не защищаю, хайп вокруг нездоровый.

Аноним 09/09/24 Пнд 13:00:31 #199 №881432

>>881415
> там просили повторить это слово и она пустоту выдавала только
Если то что лежит на обниморде просить то оно может клодой представиться, отсюда же и все молодые ночи с укусами по реквесту. Могли устыдиться синтетического датасета.
> токенизатор там точно не от ламы, уже 10 раз челики проверили
Интересно как проверяли, там же апи анально огороженный.

Аноним 09/09/24 Пнд 13:01:57 #200 №881433

Рефлекшн с меньшими параметрами будет не?

Аноним 09/09/24 Пнд 13:07:24 #201 №881436

1714324863118.png

1593088949673.png

>>881430
> хайп вокруг нездоровый
Так Шумер заявлял что его модель ебёт даже все закрытые. В карточке вот такое:
> Reflection Llama-3.1 70B is (currently) the world's top open-source LLM
Но по факту это даже близко не так. И вся эпопея началась из-за того что Шумер начал пиздеть про "веса при заливке сломались", потом зачем-то начал перетренивать модель, а теперь и с API такое говно. Бонусом подтянулись сторонние команды, тестирующие сетки, и ни один из них даже близко не получил результатов как заявлялось. Более того тесты API и локальной сетки совсем разные результаты дают. Сейчас весь пожар в том что даже когда Шумера прижали он на сверхманёвренности пиздёж за пиздежом выдаёт.
>>881432
> Интересно как проверяли, там же апи анально огороженный.
Просить повторять слова.

Аноним 09/09/24 Пнд 13:19:26 #202 №881439

Аноны, какой райзер лучше взять под вторую видяху? Хочу её положить рядом с корпусом, чтобы минимально перекрыть воздушный поток первой.

Аноним 09/09/24 Пнд 13:24:58 #203 №881443

>>881436
> Просить повторять слова.
Как этим токенизатор проверить?
>>881439
х16 с 4.0 или 3.0 спецификацией под твой порт, лучше фирмовый.

Аноним 09/09/24 Пнд 13:29:47 #204 №881447

>>881443
> Как этим токенизатор проверить?
Я же тебе кинул скрины. Второй скрин особенно показательный. Для клауды <|endoftext|> без пробелов - это стот-токен, а ламе похуй на него вообще. Собственно что и видим - у рефлекса текст обрывается на попытке написать его.

Аноним 09/09/24 Пнд 13:39:43 #205 №881451

1617066934091.png

>>881443
Ну или вот ещё пример.

Аноним 09/09/24 Пнд 14:16:20 #206 №881463

>>881447
>>881451
Макаба пошатнулась и пикчи не подгрузились когда отвечал. Да, вполне показательно. Можно оправдать особенностями препроцессинга апи, но это уже херь и вода из камня.

Аноним 09/09/24 Пнд 14:28:15 #207 №881472

>>881411
>то посыл был в том
Это уже манёвры какие-то, "я писал одно, но имел ввиду другое".
>Речь о другом.
Да суть та же, компрессия контекста.

>>881451
Вот беда с этим оверхайпом. Выкатили бы тихо-спокойно, народ бы попробовал, кто-то похвалил. А так будут ебать Шумера, при том, что он к модели вообще отношения не имеет. Заплатил штуку баксов за то, чтобы стать козлом отпущения.

Аноним 09/09/24 Пнд 14:45:09 #208 №881475

1704643114973.webp

>>881472
> А так будут ебать Шумера, при том, что он к модели вообще отношения не имеет.
Он мог хотя бы не пиздеть, а сразу слиться. Сказал бы что берега попутал, а не тянуть время, пока пытается из ламы сделать клауду. Это опять же чисто его тупость, когда он думал сейчас хуяк-хуяк за пару дней сделаем тюн на ламе и получим результат как в API. Но теперь его уже ничего не спасёт, очевидно что его попытки за пару дней высрать модель не сработают. Его теперь показательно повесят, все новые отмазки только больше рофлов приносят.

Аноним 09/09/24 Пнд 14:48:46 #209 №881476

>>881472
> манёвры
Нет, в начале написал вежливо чтобы ты не триггернулся, потом расшифровал для понимания.
> Да суть та же, компрессия контекста.
Нет, применение activation steering для суммарайза.

Аноним 09/09/24 Пнд 14:56:54 #210 №881478

>>881475
О нет, у его девушки КОВИД! Перестаньте хейтить!

Аноним 09/09/24 Пнд 15:22:19 #211 №881490

>>881472
> Заплатил штуку баксов за то, чтобы стать козлом отпущения.
Он так-то CEO вот этой хуйни:
https://www.crunchbase.com/organization/othersideai
В прошлом году 3 ляма баксов инвестиций было в его конторку. Зачем он всё это сделал та ещё загадка. Разве что его на аутсорсе развели как последнего лоха, продав клауду под видом революционной модели. В любом случае уже не на кого стрелки метать, это чисто его проёб, даже если он просто лох.

Аноним 09/09/24 Пнд 15:41:37 #212 №881506

>>881475
>Его теперь показательно повесят
Судя по его постам в твитторе, он нихуя не понимает, что происходит и в этих ваших языковых моделях не разбирается.
>хуяк-хуяк за пару дней сделаем тюн на ламе
А раз он не шарит, то ему кто-то сказал, что они хуяк-хуяк и сделают. Кто сказал? Да хоть бы его "соавтор" проекта, некто Sahil Chaudhary. Он же основатель глайв аи, которые делали датасет для трейна. А то и весь "трейн". Итого, Шумер сливается в помойку, а Сахил смеётся в кулачок и просит ещё.

>>881490
>уже не на кого стрелки метать
Потому что дохуя пиздел и дохуя обещал. Даже если ему самому обещали всё это - головой бы, блядь, думал, насколько оно вообще реально.

Аноним 09/09/24 Пнд 16:04:14 #213 №881514

>>881052
Нашумевший рефлекшен ни в одной попытке не повторил свои же результаты.
Все выложенные фиксы не повторили результаты.
Все выдают ужасный результат буквально у всех.
Чувак, который «делает» рефлекшен даже не знает, что такое lora в принципе. Совсем не знает.
А все апи, которые он дает — клод, гпт-4о, что угодно, но не его же модель.

Это выглядит как лютый скам, а у тебя аутотреннинг.
Я не утверждаю и не хочу убеждать, может ты прав и все дебилы, но пока ситуация такова.

>>881266
> 128к
> все еще ебёт всех и вся
Где-то у квена полгода назад?
Где-то у мистрали пару месяцев назад?
128к — давно уже дефолт в ллм.
На лламу с геммой смотрели как на отстающих в развитии с их выходом.
Гемма оказалась, правда, умной.

>>881412
1. Мутная со стороны Шуммера и тех, кто его поддерживает в ситуации, когда его модель рыгает говном, ну так, по факту если.
2. Боты? Сомневаюсь, что Шуммер знает, что такое боты и смог бы их настроить.
3. > Если единственная причина
Там еще структура и форма, особые теги, которые выдает только клод, потом пошла вырезка этих тегов, чтобы «не палиться» со стороны Шумера. Ну, типа, срет в штаны без остановки. Пруфов — вагон.

Просто фактчекинг небольшой.

>>881414
Да хер с торрентом, какой еще в пизду косяк.
Ты тестил свою модель (которая выебла всех и вся) на каких-то файлов.
Берешь и драг-н-дропом кидаешь их в гугл.драйв или куда хочешь.
Все, точка, пруфанул на изи, все поверили, миллиарды инвестиций твои.
Нет тут никаких косяков. Просто нет тут никакой модели. =)

>>881417
Говоряд, что да.
Лично я ткнул переходниками все же.

>>881430
Жаль, что он не знает, как это делать и что это такое. =)

>>881472
Я предполагал, что ему просто знакомый сказал «я тут заебенил пушку просто, го моим менеджером, ко-автором и мэйн-инвестором, разбогатеем!», а чел повелся и вот, да.

>>881506
А вот и нашелся, да, кек.

Аноним 09/09/24 Пнд 16:59:05 #214 №881536

>>881514
> Все выдают ужасный результат буквально у всех.
Справедливости ради, это стоит перевести до
> Все жоракванты выдают ужасный результат
ничего такого ужасного в ней нету если катать нормально, наоборот есть ряд приятных моментов.
> и все дебилы
На самом деле когда читаешь дискуссии, где они предлагают делать экстракт лоры чтобы замерджить в другую модель (!) или выпускают ролики по типа https://www.youtube.com/watch?v=JN4EhaM7vyw - действительно начинаешь в этом убеждаться.

Опять же, автора и модель никак не оправдываю, пусть устраивают драму, тут только попкорном запасаться.

> Берешь и драг-н-дропом кидаешь их в гугл.драйв или куда хочешь.
Может ты не знаешь, но 70б модель в 16битных весах имеет объем порядке 160гб, не то чтобы это простой драг-н-дроп куда хочешь.

Аноним 09/09/24 Пнд 17:23:51 #215 №881559

0000.png

https://huggingface.co/mattshumer/Reflection-70B-draft2/tree/main
>Duplicate from sahil2801/reflection_70b_v5

Ну да, модель испортилась, пока он клонировал репо Сахила. Ну бывает, хули доебались. Или это у Сахила кот провода перекусил, пока он модель выгружал, а Шумер просто долбоёб и повторяет такие отмазы? Да не, быть не может.

Аноним 09/09/24 Пнд 18:54:32 #216 №881634

>>881536
> Все жоракванты
Да нет, там все тестируют и vllm, и transformers, и кто во что горазд. Ужасные результаты именно на них, до жоры даже никто не опускается. Так что, там модель такая, а не кванты, ибо даже не квантованная — пиздец.

> они предлагают делать экстракт лоры
Напоминаю, что автор Рефлекшена даже не знает, что такое лора, при этом рефлекшен — это вмердженная лора (и, да, возможно в другую модель — если делалась для 3.0, а потом переобулись на 3.1 без изменения лоры, то… видимо делали по этому ролику=).

> Может ты не знаешь, но 70б модель в 16битных весах имеет объем порядке 160гб, не то чтобы это простой драг-н-дроп куда хочешь.
Видимо, у тебя нет практики, и не знаешь как раз ты, что 160 гигов это как раз очень просто.
Я легко могу сделать драг н дроп 160 гигов из своей деревни. 700 мб и терабайты облака позволяют. Так что это совсем не проблема, все именно так, как я написал.
Если уж такой бомжара как я могу, думаю, у инвесторов не будет проблемы найти 160 гигов и интернет быстрее диалапа.
+ в хаггингфейс тоже можно драг н дропом. Разве что попилить по 50 гигов. Ну ладно, это правда может быть сложно для автора.

Аноним 09/09/24 Пнд 18:56:37 #217 №881637

Опять же, я не обсираю модель.
Просто нет ни единого аргумента в пользу автора и модели (кроме пары отзывов из этого треда) и есть десятки пруфов, что все критически плохо.
Я не знаю, что тут можно еще придумать.

Но, если кто-то скачал и ему нравится — заебись, надо «быть счастливым», а не «вписываться в общество». =)

Аноним 09/09/24 Пнд 20:12:32 #218 №881697

>>881490
>В прошлом году 3 ляма баксов инвестиций было
>>881506
>он нихуя не понимает, что происходит

Блядь пиздец ну что за ёбанная хуйня? Теперь любому дауну с 3 классами церковно-приходской дают лимоны, лишь только он напишет в описании на сайте "АИ Фирма"? Где моё бабло? Я бы на 3 ляма хотя бы свою базовую с нуля сделал на 1,5B офк.

Аноним 09/09/24 Пнд 20:38:34 #219 №881713

>>881634
> Да нет
Да ладно, это шутеечка, видно же что жир. Но с ними опять были проблемы, возможно из-за путаницы 3.0-3.1 или опять жорабинго.
> vllm
Это что, awq? Оно еще живо?
> даже не квантованная — пиздец.
А в чем пиздец заключается? Если катать в рп то она далеко не самая плохая и куда бодрее типичных тюнов лламы, которые нагоняют уныние. Последние версии тех правда не тестировал, может ебут также/сильнее без клодизмов, но назвать модель плохой язык не поворачивается.
> Напоминаю, что автор Рефлекшена даже не знает, что такое лора
Ваще похуй на него вообще, то про типичных обитателей реддита и тем более нормисов с более популярных платформ. Такую дичь на серьезных щщах затирают что морального права критиковать кого-то не имеют.
> Я легко могу сделать драг н дроп 160 гигов из своей деревни. 700 мб и терабайты облака позволяют.
Видимо, ты или дохуя мажор, или врунишка. Потому что террабайты облака не то чтобы недоступны, но это априори платные сервисы, которые есть разве что от мелкософта с подпиской на офис. 700 мегабит в деревне - тоже довольно интересная новость. Но даже с ними сейчас реалии таковы, что из-за ркн-щлюх и хитрожопых провайдеров скорость на зарубежные серверы сосет дупу будто вернулся в нулевые. Единственное спасение - hftransfer, который каким-то образом пробивается, но это и близко не назвать драг-н-дробом.
А насчет практики - не учи батю ебаться.

Аноним 09/09/24 Пнд 20:53:26 #220 №881724

Какие сейчас есть способы получить 1TB оперативной памяти?

Аноним 09/09/24 Пнд 20:57:54 #221 №881726

>>881724
Сделать подкачку на ССД объёмом в терабайт.

Аноним 09/09/24 Пнд 20:58:17 #222 №881728

>>881724
Можно купить. Думал об этом?

Аноним 09/09/24 Пнд 21:28:33 #223 №881748

>>881728
Нужно дешево.
Нет ли материнок от хуананжи которые могут столько памяти?

Аноним 09/09/24 Пнд 21:34:36 #224 №881752

>>881713
> Это что, awq? Оно еще живо?
И охуеть как популярно в корпоративном сегмента наравне с TensorRT нвидии.

> дохуя мажор
Спасибо. =3 Приятно слышать.

Вообще нет, просто работа в IT имеет свою специфику.
Машины у меня нет, к примеру.

> будто вернулся в нулевые
А вот это жиза. Иногда смотришь на 45 кб/сек с гитхаба и такой «это кто тут у нас ебанулся?»
Оказалось, гитхаб в тот раз.
Но все очень не очень сейчас, конечно.

(ах да, у меня еще и свои сервера за рубежом… так что, скоростью я и туда не ограничен, но опять же, специфика профессии)

Тоже 20 лет стажа? Хорош, уважаю. =)

>>881724
А зачем, если не секрет?

Аноним 09/09/24 Пнд 21:36:27 #225 №881754

Кстати!

Кто хотел Qwen2-abliterated от Emilio?
Он в итоге просто открыл репу.
Качайте на здоровье.
(а запрос так и не одобрил, пидр=)

Аноним 09/09/24 Пнд 21:41:49 #226 №881757

Появились ли хорошие тюны геммы 27б?

Аноним 09/09/24 Пнд 21:44:45 #227 №881760

>>881748
>Нужно дешево.
Тогда бери станции в аренду.
>Нет ли материнок от хуананжи которые могут столько памяти?
Даже если ты найдешь такую мать и такой процессор, тебе всё равно понадобиться минимум восемь плашек по 128 гигов серверной памяти, которая выйдет суммарно под 800к рублей.

Аноним 09/09/24 Пнд 22:27:56 #228 №881780

В статье про Лламу 3.1 написано, что файнтюны не доучивают большую модель, а только "высвобождают" уже заложенные в ней данные. Если это так, то понятно, почему та же Ллама в секс-сценах гораздо хуже Мистраля и похоже, что это не поправить. С другой стороны тут хвалят файнтюны Геммы - а я сомневаюсь, что Гугл чистил датасеты хуже, чем Мета. Ну и в принципе перспективы печальные, если это так.

Аноним 09/09/24 Пнд 22:31:34 #229 №881784

>>881697
>любому дауну
Ты не понимаешь. В этом мире есть репутация и в этот раз репутация Мэтта позволила ему получить финансирование. Он же тот самый человек, который сделал HyperWriteAI с "агентом, который может пользоваться браузером, как человек"! Конечно это тоже оказалось просто обёрткой над гопотой с конской наценкой, но кто мы такие, чтобы судить? И вот у Мэтта уже есть некоторая репутация, которая позволяет ему быть успешным - он уже один раз сделал ничего и продаёт это за вечнозелёные. Сумел один раз - не сумел во второй. Что же, бывает.

>>881780
>не доучивают большую модель, а только "высвобождают"
Звучит, как бред.

Аноним 09/09/24 Пнд 22:36:43 #230 №881788

>>881780
>файнтюны не доучивают большую модель, а только "высвобождают" уже заложенные в ней данные
Смотря сколько дрючить. Алиберейт или лёгкая лора та, только направляют вывод модели в нужное русло. Но сделать так, чтобы попенсорс модель нельзя было научить новым трюкам, ещё не научились, слава Богам.
>>881784
>Он же тот самый человек, который сделал
А, ну окей. Хотя интересно, получал ли он за первую приблуду деньги до её готовности.

Аноним 09/09/24 Пнд 23:21:00 #231 №881836

>>881788
>деньги до её готовности.
Такие вещи, если не получают деньги до готовности - то не получают деньги вообще.
>HyperWrite has raised $5.4M over 2 rounds.
>HyperWrite's latest funding round was a Seed VC - II for $2,8M on March 9, 2023.

Аноним 10/09/24 Втр 01:30:48 #232 №881953

>>879497
Ты тот анон, который спрашивал про кол-во токенов у респонива? И говорил, что медленно?

Ну у меня угабуга, stheno, только 5ку - 22 т/с, инвестировал это в 12б модель, и получаю свои 6-8 токенов

Аноним 10/09/24 Втр 02:31:31 #233 №882009

>>881724
Купить
>>881752
> И охуеть как популярно в корпоративном сегмента наравне с TensorRT нвидии.
Довольно неожиданно, оно ведь уныло и без нормальной гибкости.
> Машины у меня нет, к примеру.
Бедолага, а мог бы уже пожинать блага развития нейронок пока оно везет твою жопу в пробке а ты скроллишь анимублядские пикчи.
> 45 кб/сек с гитхаба
Обычно примерно раз в 100 больше, но для больших моделей это всеравно пиздец.
>>881780
> написано, что файнтюны не доучивают большую модель, а только "высвобождают" уже заложенные в ней данные
Бред, в рот нассать тому кто написал. Такое применимо только к подзалупному файнтюну лорой, но даже ей можно добавить именно нового.

Аноним 10/09/24 Втр 02:32:08 #234 №882010

на сколько локалки уступают корпаратам по части - самарайз? в чем подводные если хочу самерить локалкой?

Аноним 10/09/24 Втр 02:42:55 #235 №882017

>>882010
>в чем подводные если хочу самерить локалкой
Локалки суммируют контекст уже хорошо (в 75% случаев), но использовать саммари можно только если тебя не интересует качество. Потому что результат-то неплох, но обычно не тот, который тебе нужен.

Аноним 10/09/24 Втр 02:57:36 #236 №882023

>>882017
наверно стоит уточнить. локалки уровня 7-13 Б сойдут чтоб в целом структуру \хронологию описать, можно опуская мелкие детали?

Аноним 10/09/24 Втр 03:01:35 #237 №882028

>>881514
>128к — давно уже дефолт в ллм.
По ссылке проходил?

Аноним 10/09/24 Втр 03:15:36 #238 №882038

>>881388
>Для школьника-максималиста, пришедшего в тред локалок с вопросами о закрытых моделях
Бля ну я ж спокойно зашел, с уважением, покланялся даже предоставив свои находки. И вообще мой вопрос распространяется на локалки тоже, вот где можно с 405б поговорить?

>воротящего ебало от того, чем многие аноны успешно пользуются
Успешно пользование у тебя в голове наверное заканчивается кумингом? Говорю же мне хватило мелких моделей, 4хА6000 уж простите не завалялось. Максимум с кем я могу попиздеть комфортно это квантованная гемма27. Ясен хуй хочется большего, особенно для кодинга.

Аноним 10/09/24 Втр 03:18:59 #239 №882039

>>882023
>локалки уровня 7-13 Б сойдут чтоб в целом
Да, сойдут. Ллама 3.1, Мистраль Немо - последние поколения уже могут. Для непритязательного РП вполне.

Аноним 10/09/24 Втр 04:54:56 #240 №882056

Как вам модель Reflection 70b? Ну как порефлексировали?

Аноним 10/09/24 Втр 07:01:49 #241 №882074

>>881752
>А зачем, если не секрет?
Запускать всякие 400b модели с 100к контекстом

Аноним 10/09/24 Втр 07:43:41 #242 №882077

>>882038
>Ясен хуй хочется большего, особенно для кодинга.
Для "большего" в соедний тред.
Локалки это в принципе про получение максимального профита с минимальными затратами ресурсов, сейчас в принципе в ЛЛМ идёт тренд на оптимизацию, мелкие модели развиваются быстрее крупных и этот тред активно следит и пользует все преимущества.
Для кодинга заходишь с ВПН в бесплатный Copilot / кодишь.
Для попиздеть и Гемму можно использовать + Magnum 35B недавно вышел, он неплох.

>вот где можно с 405б поговорить?
Если ты меришь эффективность моделей только количеством параметров, то земля тебе хуем.
Ллама 3.1 405В убога и не дотягивает до уровня 70В моделей.
Мистраль 130В хорош, но по многим пунктам проигрывает топовым 70-кам
Гемма 27В конечно хуже 70-ок, но не намного. В принципе, если большего запустить не можешь, это реально неплохой вариант, дёшево и сердито. Тут полтреда ей пользуется.
Мистраль немо 12В, почти догоняет по результатам Гемму 27В.

Притом всё вышеперечисленное, ебёт третью трубу, а местами и второго Клода, которые ещё с пол года назад всерьёз котировались в соседнем треде любителей "нормальных" моделей.

Итого, годную модель сейчас можно запустить почти на любом калькуляторе. В удивительное время живём!
Но если тебе важны циферки, то иди на хорду в таверне, там иногда что-то большое раздают или арендуй сервак с 4 3090, тут выше писали что за 30 рублей/час можно снять.

Аноним 10/09/24 Втр 08:01:28 #243 №882080

Прошелся по арене, ебать-копать, 90% этого АИ не может 749*1502 в столбик умножить.

Аноним 10/09/24 Втр 08:10:34 #244 №882082

>>882080
>АИ не может в столбик умножить
Ебать, откуда вы лезете?
1. ЛЛМ не АИ.
2. ЛЛМ не калькулятор.

Аноним 10/09/24 Втр 08:24:42 #245 №882086

>>882082
А что это блять? Ни одну сложную задачу из реальной жизни не решить, если не уметь хотя бы базово считать. Или тебя на егэ по матеше выебли и у тебя травма неотрефлексированная?

Аноним 10/09/24 Втр 09:57:41 #246 №882115

>>882086
> Ни одну сложную задачу из реальной жизни не решить
Не считая кодинга, NLP, формальной логики и т.д.

Аноним 10/09/24 Втр 11:32:26 #247 №882170

>>882080
А ты можешь, умник? Не прибегая к бумажке.
А каркулятор вот может. Поэтому чтобы что-то посчитать, ты берёшь бумажку, счёты, куркулятор, вольфрам математику, софт для конечноэлементного анализа блять.
Вот и с LLM так делай. Есть питон, который она хорошо знает, дай ей питон.

Аноним 10/09/24 Втр 11:32:27 #248 №882171

>>882115
Это очевидная толстота, забей. Либо он долбаеб, что тоже вероятно.

Аноним 10/09/24 Втр 11:54:22 #249 №882179

>>882028
С таким кликбейтом только отпугивать от ссылок, понимаешь? =)
Прозвучало в духе «рефлекшен ебет всех и вся», ну вот и переходить даже не охота.
Просто пометка, что писать нужно без кликбейта и с учетом реальности. Ноу оффенс.

>>882074
Учти, что это будет СУПЕР медленно. Проблема оперативы в том, что нарастив большой объем получаешь маленькую скорость.
Ты 128 гигов пробовал? Я иногда запускаю, когда тестирую. Там скорость 0,3 токена/сек.
Даже в четырехканале терабайт даст тебе 0,15 токена/сек или ниже.
Не заебешься ждать?

>>882082
Люто плюсую.
А кофеварка меня до работы не довезла, а еще машиной называется!

>>882171
+
Такие посты раз в неделю, чи ни похуй.

Аноним 10/09/24 Втр 12:00:05 #250 №882181

>>882179
Какой в пизду кликбейт? Я говорю что модель может 2М а ссылка говорит только 128к. Это антикликбейт нахуй. Кликдетеррант если вы англичанин.

Аноним 10/09/24 Втр 12:58:33 #251 №882213

>>882077
>Мистраль 130В хорош, но по многим пунктам проигрывает топовым 70-кам
Разве что в синтетических тестах. В реальности размер таки имеет значение, как и качество датасета.

Аноним 10/09/24 Втр 13:04:02 #252 №882217

>>882077
> Мистраль 130В хорош, но по многим пунктам проигрывает топовым 70-кам
Что за манямистраль у тебя? Есть только 123В. И он ебёт любую 70В. Русский так вообще без вариантов, конкурентов совсем нет.

Аноним 10/09/24 Втр 14:29:15 #253 №882259

>>882181
Ох-ох, ебать, мои извинения, в таком случае открою и почитаю!
Было бы еще куда весь этот контекст пихать, конечно, но больше — лучше, лучше иметь возможность, чем не иметь.
Благодарю.

>>882217
Думаю, там про красоту речи и умение хорошо писать порно-рассказы в сравнении с файнтьюнами. Ну, мне так показалось, что имелось в виду.

Аноним 10/09/24 Втр 14:34:27 #254 №882262

>>882259
> Думаю, там про красоту речи и умение хорошо писать порно-рассказы в сравнении с файнтьюнами.
Да там шизик какой-то, у него 405В хуже 70В, лол. Ну а по разнообразию речи мистраль даже жпт/клода выебет.

Аноним 10/09/24 Втр 15:33:51 #255 №882293

>>882262
>Да там шизик какой-то, у него 405В хуже 70В
Сразу видно что ты его даже не нюхал.

>по разнообразию речи мистраль даже жпт/клода выебет.
Он лупится как сука. Но по-русски пишет и правда неплохо.

Аноним 10/09/24 Втр 16:03:45 #256 №882309

>>882080
Двачую остальных, ллм - языковая модель, считай это то же самое что ты вслух будет говоришь. Учитывая саму суть - арифметика для них сложна и ее особо не тренирует, модели проще будет написать программу на любом языке которая это посчитает, как бы забавно не звучало. Но никто не мешает применить дополнительные тулзы как уже делают.
>>882077
> Мистраль 130В хорош, но по многим пунктам проигрывает топовым 70-кам
Можно перечислить? Офк сравнивай тогда уже с базовыми моделями или файнтюны с файнтюнами.
>>882086
Перетолстил. Ллм - инструмент, если руки прямые - сможешь применить.
>>882262
> у него 405В хуже 70В, лол
Типа если сравнивать по сое то может и так, лол.

Аноним 10/09/24 Втр 16:05:44 #257 №882312

>>882293
>Он лупится как сука.
Магнум - нет, вообще нет. Но зато у него, похоже, проблемы с токенайзером.

Аноним 10/09/24 Втр 16:13:56 #258 №882315

Какая по итогу лучшая из 27-35В? Магнум, Коммандр или Гемма? Мне лично нравится гемма, но её контекст слишком маленький

Аноним 10/09/24 Втр 17:07:05 #259 №882354

>>882312
Магнум у меня лупиться, скинь настройочки, хочу поглядеть.

Аноним 10/09/24 Втр 17:10:07 #260 №882357

>>882293
> Сразу видно что ты его даже не нюхал.
405В - это фактически единственный полноценный конкурент жпт-4. Это только в тестах там небольшой отрыв, на практике 70В заметно отстают в любых задачах от 405В.

Аноним 10/09/24 Втр 17:11:49 #261 №882358

>>882312
> похоже, проблемы с токенайзером
С этим там точно нет проблем, это ты что-то напердолил.

Аноним 10/09/24 Втр 17:25:16 #262 №882377

>>882354
>Магнум у меня лупиться, скинь настройочки, хочу поглядеть.
Стандартный пресет "Миростат" из Таверны. Что интересно - с некоторыми другими пресетами GGUF-модель начинает бредить, в то время как на EXL2 всё ништяк. Делаю вывод, что конвертация в GGUF там несколько кривая. Есть и другие признаки этого.

Аноним 10/09/24 Втр 18:01:09 #263 №882409

>>882377
Миростат, это в семплерах же. Я про пресеты говорил. Хотя попробую миростат поставить, а то у меня там черт поймешь, что.

Аноним 10/09/24 Втр 19:18:28 #264 №882454

>>882357
>405В - это фактически единственный полноценный конкурент жпт-4
А ты попробуй побеседовать с ним дольше пары сообщений. У него проблемы с логикой, пониманием контекста ситуации, стилем повествования.
Мистраль лардж в этом его полностью разъёбывает.

Аноним 10/09/24 Втр 19:22:43 #265 №882455

>>882454
> У него проблемы с логикой, пониманием контекста ситуации, стилем повествования.
Никаких проблем нет, по логике это вообще топ среди опенсорса. Ты явно не трогал его никогда.

Аноним 10/09/24 Втр 19:39:09 #266 №882467

>>882409
>Я про пресеты говорил
В Таверне есть именно что пресет, который так и называется. Для Кобольда и Лламы.

Аноним 10/09/24 Втр 19:44:30 #267 №882473

>>882358
>С этим там точно нет проблем, это ты что-то напердолил.
Ага, как же - нет проблем. Сейчас скачал чистый Мистраль Лардж, больше часа гонял его по огромному чату с контекстным окном в 16к - и ни разу не потребовался полный контекст шифт. С Магнумом он требуется постоянно. Есть ещё Luminum - микс из Люмимайда и Магнума, кстати весьма хорошая модель - там вот там такая проблема тоже есть, но гораздо реже. Где-то у Магнума косяк.

Аноним 10/09/24 Втр 19:44:59 #268 №882476

>>882377
>Миростат
Устаревший по факту семплер, ещё и медленный.

Аноним 10/09/24 Втр 19:55:49 #269 №882482

>>882473
>полный контекст шифт
Тьфу, полная обработка контекста же. Контекст шифт как раз нормально работает на чистом Лардже.

Аноним 10/09/24 Втр 20:29:53 #270 №882498

Как shell-gpt с локальной нейронкой подружить, не с бгмерзкой олламой? Сервер лламаспп не видит, хотя он вроде опенаи совместимый. Когда я с ним в начале года игрался все работало просто меняя базовый апи адрес.

Аноним 10/09/24 Втр 20:41:57 #271 №882503

А соя такая проблема, потому, что от неё не избавиться? Или избавиться можно, но это очень тяжёло и требует много времени? Или людям просто впадлу? А то понятное дело, соя много, что руинит, а способов обхода особо не наблюдаю, вот и спрашиваю.

Аноним 10/09/24 Втр 20:43:03 #272 №882504

>>878982
Гемма которая только инглиш? вай спасибо, отличное решение, только бесполезное для практической работы

Аноним 10/09/24 Втр 20:45:10 #273 №882506

>>882315
Тебе для чего? В рп оба хороши в зависимости от настроения и карточки выбирать. В nlp коммандер более естественный тогда как гемма упарывается формальностями и может тупить. А наоборот, более тонкие и сложные инструкции она выполняет лучше, тогда как коммандер насрет херней проигнорив.
> контекст слишком маленький
Накрути альфу, оно нормально до 16к растягивается.
>>882377
Тоже эту фигню замечал, у них вообще довольно странные выбросы в логитсах присутствуют. Но для potato-pc альтернатив нет, только пинать жору и других мейнтейнеров чтобы чинили и вводили инновации.

А насчет лупов - проблема часто не только в ггуфе но и на стороне юзеров, кривой семплинг, кривые форматы, кто-то просто ультрадушнила и не понимает чего хочет от нейронки, а она не может понять что ей отвечать.
>>882504
Она и в русский умеет, но не идеально.
> только бесполезное для практической работы
О какой практической работе речь?

Аноним 10/09/24 Втр 20:48:33 #274 №882508

>>882473
И при чём тут токенизатор, шизик?

Аноним 10/09/24 Втр 20:55:55 #275 №882518

>>882503
>а способов обхода особо не наблюдаю
А ты нихуя не наблюдательный. Файнтюны, алиберейт версии, да даже простой промт или префил вполне себе спасают от сои.

Аноним 10/09/24 Втр 20:57:22 #276 №882522

>>882503
>избавиться можно, но это очень тяжёло и требует много времени
Везде по разному. Где-то есть соя чисто формальная, как на командорах или мистралях, которая пробивается самым тупым промтом. А есть выродки типа семейства фи, которые можно пробить только дотренировкой и прочими техническими ухищрениями.
>способов обхода особо не наблюдаю, вот и спрашиваю
Способы почти обхода не меняются, хотя постоянно тестируются новые методы типа аблитерации. Чаще всего модель просто дотренировывают на запросах из стоп-листа.

Аноним 10/09/24 Втр 21:35:12 #277 №882560

Сколько контекста влезет в Magnum 12B V2.5 KTO на 3090?

Аноним 10/09/24 Втр 21:53:49 #278 №882582

>>882508
>И при чём тут токенизатор, шизик?
От шизика слышу. Правильный дифф промпта - прошлого и настоящего - сделать почему-то не получается, понятно? А когда получается, то может ещё и криво, и как там кэш контекста по результатам обрабатывается - хрен его знает. Почему так?

Аноним 10/09/24 Втр 22:07:00 #279 №882605

0000.png

byfskkoxlhsc1.jfif

А как же у Жоры реализовано скользящее окно? А, просто установка старым токенам внимания на -бесконечность. Ясно. Понятно.

Аноним 10/09/24 Втр 22:26:46 #280 №882632

>>882605
Сделай лучше.

Аноним 10/09/24 Втр 22:58:34 #281 №882657

>>882506
>Она и в русский умеет
27b укр не хочет в ответах юзать, читать читает кое-как, а ответы только инглиш... (ну или я дурак, и не могу настроить)

>О какой практической работе речь?
работа с текстамипереписать, уникальности добавить, сократить, презентацию придумать, придумать спич для выступления итд...

Кста, кто Yi Coder 9B пробовал, как им пользоваться вообще? у меня в кобольде оно фигню выдает какую-то прошу простой квиксорт на плюсах выдать - даже это не выдает, хотя какой-то код валит конечно... или там от режимов кобольда зависит многое?

Аноним 10/09/24 Втр 23:01:34 #282 №882666

>>882657
а троечка норм пишет квиксорт

Аноним 10/09/24 Втр 23:18:07 #283 №882710

>>882582
Шизик, токенизатор тут не при чём. Спрашивай у своего Жоры почему его смартконтекст не смарт. Да и какая разница что он там пересчитывать будет, это пару секунд на полный контекст.

Аноним 10/09/24 Втр 23:19:56 #284 №882715

>>882605
Так и должно быть. У той же геммы всегда только 4к в аттеншене участвует.

Аноним 10/09/24 Втр 23:26:07 #285 №882730

>>882467
Да, есть такой, припоминаю. Попробую, ибо лупит(

Аноним 10/09/24 Втр 23:33:51 #286 №882744

>>882710
>Да и какая разница что он там пересчитывать будет, это пару секунд на полный контекст.
Полный пересчёт 16к контекста для 123B-4_K? На теслах? Ну и кто из нас шизик? :)
На самом деле с контекст шифтом жить стало прямо-таки хорошо. Но вот поломанная модель - и пиздец. А с другой уже не интересно.

Аноним 10/09/24 Втр 23:35:08 #287 №882746

Чем закончилась эпопея с Reflection ?

Аноним 10/09/24 Втр 23:41:31 #288 №882752

А нету ли к стати случайно аддонов браузерных для огнелиса, чтобы с локальными моделями взаимодействовать?
Вроде у кобольда и есть класик гпт АПИ, но я столкнулся с приколом что аддон который вроде умеет такое апи юзать из ответа только первый токен выводит... в чем прикол может быть? может можно указать чтоб выдавало ответ сразу весь а не в процессе генерации?

Аноним 10/09/24 Втр 23:42:04 #289 №882754

>>882744
> На теслах?
Нет, конечно.
> Ну и кто из нас шизик?
Тот кто сидит на теслах и жалуется на контекст.
> с контекст шифтом жить стало прямо-таки хорошо
Напердолил какой-то костыль и теперь на модель спихиваешь то что он работает через жопу. У магнума токенизатор идентичный ваниле так-то.

Аноним 10/09/24 Втр 23:54:30 #290 №882768

>>882754
>У магнума токенизатор идентичный ваниле так-то.
Это так, но работает модель криво. Что-то файнтюн поломал.

Аноним 11/09/24 Срд 00:18:12 #291 №882790

>>882657
> укр
Что? Хз как на мове, но по запросу исходя из контекста оно что-то похожее отвечало, когда заставлял ее шутковать про сво за каждую из сторон.
Для выбора языка должна быть четкая инструкция и отсутствие других противоречий, иначе будет по дефолту на инглише писать.
> работа с текстамипереписать
> сократить
Это вообще на изи, если не сложный.
> уникальности добавить
Угораешь?
> презентацию придумать, придумать спич для выступления
Это будет ультракринжатина какую сетку не юзай, уже мем про жпт-презентации есть.
> оно фигню выдает какую-то
Формат хоть правильный? Разумеется без него и правильного промта будет полная белиберда.
>>882710
> это пару секунд на полный контекст
Не на больших моделях в сочетании с жорой. Да что там, когда набирается 50к на 123б - там и эксллама начинает конкретно страдать но даже так всеравно работает быстрее как жора с закешированным
>>882752
Попробуй убабугу, там более полный апи должен быть.

Аноним 11/09/24 Срд 00:21:21 #292 №882798

>>882632
Да надо бы.

>>882715
>всегда только 4к
Это ошибка. У геммы два окна внимания, 8к и 4к, они должны чередоваться каждый второй слой. Если что-то сделано не так, то у тебя только половина от модели.
Тут прикол в другом, по сути, нет никакой разницы - удалить kv токенов из кеша или применить к ним такую маску. Образуется всё тот же дрифт. И вот такое "двойное" окно геммы как раз должно смягчать этот дрифт, т.к влияние старых токенов считай, что делится на 2, когда они выпадают из меньшего окна. Такое себе затухание на минималках.

>>882790
>когда набирается 50к на 123б
А пофиксили слоупочную сериализацию в таверне? Я бы чекнул по загрузке цпу\гпу после нажатия сабмита на таких контекстах.

Аноним 11/09/24 Срд 00:23:19 #293 №882800

>>882768
> работает модель криво
Почему-то только у тебя. Наверное потому что ты дебил.

Аноним 11/09/24 Срд 00:25:13 #294 №882803

>>882798
> удалить kv токенов из кеша или применить к ним такую маску
Маска ничего не удаляет, не шизи. Контекст под маской всё так же виден модели.

Аноним 11/09/24 Срд 00:31:46 #295 №882811

>>882803
>Контекст под маской всё так же виден модели.
Вообще-то, нихуя. Контекста под маской всё равно, что не существует. У нас внимание -бесконечность, значения прогоняются через софтмакс и получается круглый ноль. Вот так модель и "видит" этот токен - как ноль. Как пустую ячейку кеша.

Аноним 11/09/24 Срд 00:34:28 #296 №882814

>>882605
Лол рили? Треш какой-то.
>>882798
> пофиксили слоупочную сериализацию в таверне?
Хз, на норм железе незаметно и сразу идет нагрузка в гпу. Даже если там будет пол секунды - погоды особо не сделает.
>>882715
> У той же геммы всегда только 4к в аттеншене участвует.
Ерунда

Аноним 11/09/24 Срд 00:43:18 #297 №882819

почему локалка не работает
KoboldCpp
ggml_cuda_init: found 1 CUDA devices:
Device 0: NVIDIA GeForce RTX 4060 Ti, compute capability 8.9, VMM: yes

Аноним 11/09/24 Срд 00:57:27 #298 №882826

как сомарайзить если сетка игнорит самарайз и тупо общается?

Аноним 11/09/24 Срд 01:06:27 #299 №882827

>>882814
>Треш какой-то.
Я читаю код Жоры и не понимаю. Или я ебанулся, или он. У нас вот цикл
> for (int h = 0; h < 1; ++h) {
Будет он запускаться строго один раз. Хуй с ним. Далее в этом цикле.
> data[h(n_kvn_tokens) + s(n_kvn_seq_tokens) + j*n_kv + i] = f;
Он берёт перемножает n_kv на n_tokens, а потом на h. Но h у нас не может быть чем-то, кроме ноля. И мы при любых n_kv и n_tokens получаем ноль. Компилятор умнее человека, он, скорее всего, это эффективно отловит. Но какого хуя Жора имел ввиду?

Аноним 11/09/24 Срд 01:58:08 #300 №882849

>>882827
>Но какого хуя Жора имел ввиду?
Ну спроси там, в его репозитории. Им будет интересно.

Аноним 11/09/24 Срд 02:04:51 #301 №882852

Сап какая сейчас актуальная модель для кума 12б?

Сам ты шит постинг макака

Аноним 11/09/24 Срд 02:05:51 #302 №882853

>>882746
Бамп вопроса.

Аноним 11/09/24 Срд 02:37:32 #303 №882866

0.png

1.png

>>882849
Да будет какой-то всратый ответ вроде "самодокументируемости кода". В целом-то похуй, но без /O2 будет совсем печально, там дохуя таких циклов и дохуя таких перемножений.

>>882746
>Чем закончилась эпопея с Reflection ?
Вот два пика - бенчмарки ллам и бенчмарки рефлекшена. Для модели, которая ебёт даже гопоту в бенчмарках - это всё ещё "сломанные веса", ждём починенных. Но починенных не будет - Шумер выкладывает ep2-working, а потом ref_70_e3. И оказывается, что хеши этих чекпоинтов одинаковые.

Аноним 11/09/24 Срд 02:48:00 #304 №882876

Итак, уважаемые, помогите определиться с выбором видеокарты под локалки и на поиграть.

Есть бюджет около 50 тысяч. Видеокарту собираюсь брать новую, это главное условие. Промониторил несколько маркетплейсов и высрал следующие варианты:

Просроченная 3060 с 8 гигами и шиной в 192 бита. Стоит около 30-35 кусков деревянных.
Кастрированная 4060 с 8 гигами и шиной в 128 бит. Стоит тоже около 30-35 кусков.
Сомнительная 4060ti с 8 гигами и такой же клоунской шиной в 128 бит. Стоит уже около 40 кусков.
Раздутая 4060ti с 16 гигами и опять с той же шиной в 128 бит. Цена начинается от полтинника.

Список только из зеленых огрызков, так как под амудатские и интеловские карточки кажется никто толком не пилит ни библиотек, ни драйверов, а поддерживают их разве что вялыми вздохами.

На данный момент я сижу на связке i5-12400 + 32 гига ddr4 3200 + встройка UHD730 десятилетней давности. Сумма в 50к для меня не маленькая, по этому хочется высосать терафлопсы из каждого рубля и не проебаться с переплатой.

Аноним 11/09/24 Срд 02:56:21 #305 №882889

>>882876
>Есть бюджет около 50 тысяч. Видеокарту собираюсь брать новую, это главное условие.
Нет вариантов. Докинь десятку и купи с рук 3090 - ничего лучше тебе никто не порекомендует. Время такое.

Аноним 11/09/24 Срд 03:01:39 #306 №882894

>>882876
Быстрофикс: забыл внести в список еще 3060 на 12 гигов с шиной 192.

>>882889
Даже если бы я рассматривал варианты со вторички, то мне под 3090 пришлось бы покупать новый хороший блок, а это считай не просто плюс десятка сверху, но и все двадцать спокойно могут выйти. А мой текущий бюджет итак идет впритык, я изначально планировал тысяч 35 максимум на видеокарту потратить.

Аноним 11/09/24 Срд 06:23:10 #307 №883002

>>882876
12 гигов минимум, но даже этого будет МАЛА, хотя поиграться можно и на 4 гигах с микромоделями, или вообще на процессоре, все равно локалки кал, надо 4х3090 чтобы запускать не кал...
А вот для картинок моя 3060 12g ахуенчик, просто 10 из 10 сдроченых хуйцов пользы за свой прайс.

Аноним 11/09/24 Срд 08:16:03 #308 №883027

image.png

>>882894
>новый хороший блок, а это считай не просто плюс десятка сверху, но и все двадцать спокойно могут выйти.
Лал.
Купил прикл за 2,5к, уже год как грею теслой квартиру и в хуй не дую он кстати оказался внезапно надёжный, с защитой от препадов и включением через реле

У тебя есть два стула:
3060 12ГБ
Б/У 3090 24Гб с доплатой

Второй вариант ИМХО лучше, но у первому ты ещё можешь какой-нибудь p104-100 докупить или даже два разумеется в комплекте с божественным китайским прикл БП и быть как местные шизы.

Аноним 11/09/24 Срд 08:22:28 #309 №883029

Аноны, какой контекст можно прикрутить к 16vram, 64ram, гемме 27Б? Здесь писали, что тянет 128к, это реально? И ещё, а как RAG использовать? В кобольде включил, какие там параметры выставлять? И как можно проверить, какой максимальный объём контекста модель запомнила, есть какой-то текст?

Аноним 11/09/24 Срд 08:50:07 #310 №883042

>>882811
Чел, для токенов под маской граф не строится, они остаются в контексте. А иначе тренировка не работала бы, когда весь контекст под маской.

Аноним 11/09/24 Срд 08:58:44 #311 №883043

>>882876
https://www.reddit.com/r/LocalLLaMA/comments/1b5uwr4/some_graphs_comparing_the_rtx_4060_ti_16gb_and/
Забудь про 4060

Аноним 11/09/24 Срд 10:10:01 #312 №883074

>>883042
>когда весь контекст под маской.
В разных bert'aх иногда маскируют один токен, чтобы научить модель вставлять пропущенные слова. Если скрыть все токены, то это приведёт к полной деградации модели, т.к вместо полезного инпута она получит шум. В gpt-моделях полная маскировка разорвёт построение цепочки авторегрессионного предсказания, что, опять же, приведёт к обучению на шуме. В Т5 были стратегии экстремальной маскировки, до 80 процентов, чтобы обучить модель восстанавливать повреждённый текст. Но это такое. Если скрыть всё, то всё равно получишь только деградацию модели.

Аноним 11/09/24 Срд 10:29:10 #313 №883081

>>883074
Чел, хватит бередить. Во всех современных LLM полностью весь контекст под маской, потому что идёт тренировка ответов, а не контекста. Токены под маской никуда не пропадают, они всё так же участвуют в аттеншене. Если попытаешься тренить модель без маски на контексте, то получишь мгновенную поломку модели, при генерации она будет пытаться продолжать ответ и входить в лупы из пары токенов, а не отвечать.
А вот аттеншен с окнами как раз полностью отрезает контекст за пределами окна.

Аноним 11/09/24 Срд 10:31:14 #314 №883085

>>883081
>Токены под маской никуда не пропадают, они всё так же участвуют в аттеншене.
Вот это натуральная шизофрения. Лечись, чел.

Аноним 11/09/24 Срд 10:49:18 #315 №883095

>>883085
Для тупых дегенератов цитирую прямо из Attention Is All You Need.
> We implement this inside of scaled dot-product attention by masking out (setting to −∞) all values in the input of the softmax
Выходные вероятности токенов под маской просто ставятся в минус бесконечность, никаких операций больше не производится. Контекст никуда не убирается, другие токены всё так же видят контекст под маской.

Аноним 11/09/24 Срд 11:00:18 #316 №883099

1.png

>>883095
Как попытаться наебать, но обосраться на полдороге.
>We need to prevent leftward information flow in the decoder to preserve the auto-regressive property. We implement this inside of scaled dot-product attention by masking out
Если внезапно прочитать больше одного предложения из той же бумаги, то становится очевидно, что остальные токены не видят контент под маской. Вообще, технически он существует и его видит позиционный энкодер. Но не более. Никакой информации из этого токена не используется для остальных токенов, он не используется для генерации ответа, он не используется для создания градиента, внимание к нему равно нулю. И вот фигура 2, внутри Scaled dot-product производятся вычисления, в результате которыx qkv токена превращаются в ноль.

Аноним 11/09/24 Срд 11:14:50 #317 №883108

>>883099
> information flow
> auto-regressive property
Всё верно, вероятности обнулены - обучение не ведётся на них.
> И вот фигура 2, внутри Scaled dot-product производятся вычисления, в результате которыx qkv токена превращаются в ноль.
Тупой ты дегенерат, у тебя вероятности обнуляются ПОСЛЕ аттеншена, а не до него. Ты сам видишь куда стрелки направлены?

Аноним 11/09/24 Срд 11:17:05 #318 №883111

>>883108
>ПОСЛЕ аттеншена
В процессе вычисления внимания к токену вообще-то. Пиздец ты тупой.

Аноним 11/09/24 Срд 11:25:54 #319 №883114

>>882827
> > for (int h = 0; h < 1; ++h) {
Чет проорал, какая-то обфускация уровня б. Его же комплиятор просто скипнет.
> Но какого хуя Жора имел ввиду
Да хуй знает вообще, выглядит как какие-то остатки старого кода. Где-то с год назад на реддите был тред, где кто-то обозревал подобные нестыковки в коде жоры. Некоторым из них даже нашлось объяснение а парочка наоборот были гениальные, но надмозговости ну очень много. Вечером попробую его найти, но вероятность оче мала.
> он, скорее всего, это эффективно отловит.
Вот кстати одна из очевидных причин почему оно по-разному работает на цп и куде, или может ломаться при разных билдах. Там такого треша с избытком точно.
>>882876
> Есть бюджет около 50 тысяч
Докидываешь 10-20-30 и покупаешь 3090. Довольно урчишь ибо она обоссывает с огромным запасом и в игорях, и в ллм, и в других нейронках все тобою перечисленное.
а потом там что-то подыхает и ты отправляешься в стратосферу
>>883027
> Купил прикл за 2,5к
Насколько он шумный кстати?

Аноним 11/09/24 Срд 12:20:15 #320 №883132

>>883114
>Насколько он шумный кстати?
Если от него предполагается запитывать мощную карту или тем более теслу, то это совершенно не важно :)

Аноним 11/09/24 Срд 12:21:34 #321 №883133

https://www.reddit.com/r/LocalLLaMA/comments/1fe3x1z/mistral_dropping_a_new_magnet_link/
Новый мультимодальный мистраль немо

Аноним 11/09/24 Срд 12:26:50 #322 №883139

>>883027
а в чем великий смысл p104? в том что копеечная типа видяха никому не нужная? она ж до 1060 даже не дотягивает... какая ж там скорость генерации будет? (не по теме треда, но интересно SD сколькль итераций в секунду выдает на таком мусоре)
так-то теслы с 24гб выглядят по привлекательней, хоть и цена не такая приятная конечно, только ж охлаждать их непонятно как, тихая система не выйдет...

Аноним 11/09/24 Срд 12:36:33 #323 №883147

>>882790
> уникальности добавить
>Угораешь?
Тут согласен перегнул, хотя ЖПТ юзал для такого, но как грится нафиг нужна уникальность если антиплагиат рубит по "текст сгенерирован АИ", обойти можно но...
>Это будет ультракринжатина какую сетку не юзай, уже мем про жпт-презентации есть
Это просто не умеют их готовить, конечно если от балды попросить презентацию то хрень получится, а дать материала (и вычитать потом то что сетка выдала), попросить идеи по оформлению, вопросов попросить накидать - другое дело

Еще задачи перевода довольно интересная тема, в виду того тчо сетки лучше держат контекст чем гугель транслейт, ну и плюс локальное решение не зависящее от буржуййских серверов

По сути мне от сетки нужна терпимая поддержка кирилик языков, и адекватные ответы...

а какие еще варианты использования окромя кумерства и обговоренного в этих двух постах народ имеет?

Аноним 11/09/24 Срд 12:40:59 #324 №883149

>>883147
>Еще задачи перевода довольно интересная тема
Уже есть нормальная сетка-переводчик? Надоело зависеть от Гугла, да и прикрыть его могут. en<>ru хотя бы.

Аноним 11/09/24 Срд 12:48:59 #325 №883157

>>882790
>Попробуй убабугу, там более полный апи должен быть.
капец там стартовые скрипты странные, вместо того чтобы создать Venv и запустить, оно какого-то фига по всем дискам мне лазит, как всегда вручную все делать надо....
кобольд в этом плане приятнее

Аноним 11/09/24 Срд 12:49:11 #326 №883158

>>883149
Есть конечно. Топ сейчас вот это:
https://huggingface.co/Unbabel/TowerInstruct-Mistral-7B-v0.2
Ебёт жпт-4 в переводах.

Аноним 11/09/24 Срд 12:50:19 #327 №883159

>>883149
локальные не знаю... а ЖиПиТи и подобные вполне преплексити затести, без регистрации можно работать...

Аноним 11/09/24 Срд 12:51:19 #328 №883161

>>883139
>только ж охлаждать их непонятно как, тихая система не выйдет...
Большая 4-пиновая улитка с переходником под теслу - шум приемлемый и только когда надо. Есть готовые решения, но можно заморочиться самому и сэкономить.

Аноним 11/09/24 Срд 12:54:08 #329 №883163

>>883161
вариант неплохой, но тут главное но, в том, что и теслы, и майнерское говно за тысячу грывень это паскаль в лучшем случае, а нейронки на паскале гонять.... наскребсти на 3090 выглядит привлекательнее

Аноним 11/09/24 Срд 12:58:47 #330 №883166

>>883158
>https://huggingface.co/Unbabel/TowerInstruct-Mistral-7B-v0.2
Спасибо, попробую. Можно как-нибудь кобольд с этой моделью к Таверне прикрутить в качестве источника перевода? Было бы здорово.

Аноним 11/09/24 Срд 13:01:35 #331 №883168

>>883163
>а нейронки на паскале гонять.... наскребсти на 3090 выглядит привлекательнее
На одну. Мелкие нейронки и на тесле быстро работают. Другое дело что цены на теслы сейчас неадекватные. Ещё и Китай экспорт прикрыл с какого-то хуя.

Аноним 11/09/24 Срд 13:07:10 #332 №883175

1600611485151.png

>>883166
Из коробки точно нет.

Аноним 11/09/24 Срд 13:08:34 #333 №883178

image.png

>>883114
>Насколько он шумный кстати?
Вообще не слышу от него звуков. Правда сейчас я охлаждаю Теслу прикл хуйнёй, которая на 100% по шуму догоняет пылесос, так что возможно уже оглох.

>>883139
>в том что копеечная типа видяха никому не нужная?
Да.
Но, если у тебя нет денег и хочется запускать хотя-бы средние модели с норм квантом, вариант +- рабочий.
Будет медленно, но быстрее ОЗУ и проца, скорее всего свои 5-6 токенов получишь.

>>883163
>наскребсти на 3090 выглядит привлекательнее
С этим согласен.

Аноним 11/09/24 Срд 13:09:18 #334 №883180

>>883168
ну типа 3090 с под майнеров можно за цену двух Р40 взять... с одной стороны вроде и выгода есть от тесел но с другой - морально устаревшее решение береш которое не толкнеш уже скорее всего, так как кому она сдалась уже

Аноним 11/09/24 Срд 13:10:01 #335 №883182

>>882876
> Просроченная 3060 с 8 гигами и шиной в 192 бита. Стоит около 30-35 кусков деревянных.
Ну ты пиздец долбоеб, конечно.
1. 12 гигов.
2. 25к.

> 4060 с 8… 4060ti с 8
Мусор на фоне 3060 с 12.

> 4060ti с 16 гигами
Зависит от того, устроит ли тебя скорость за цену вдвое больше 3060 за лишние 4 гига.

Вон, пишет про 3090 с рук — это и то альтернатива вменяемая 4060ти.

>>882894
А, нихуя, опоздал.

>>883027
Орирую с бп. =D Ну а шо, работает и ладно, чо. =) Рискнул-победил.

>>883029
>gemma
>128k
kek

>>883133
уооо
шидевр
смотрим-смотрим!
Надеюсь, лучше Qwen2-VL-7b

>>883139
p104-100 = 1070 с 8 гигами памяти.
Покажи свою 1060, бро. =D
Сравнил 2,5к рублей и 30к рублей. Цена не такая приятная, понимаю…

Аноним 11/09/24 Срд 13:10:12 #336 №883184

>>883168
>с какого-то хуя
Барин сказал негоже.

Аноним 11/09/24 Срд 13:15:25 #337 №883190

>>883182
>p104-100 = 1070 с 8 гигами памяти.
ты объемами памяти только меряеш чтоль?
вот интересный момент, если чип одинаковый, почему в бенчмарках 200% разницы?

Аноним 11/09/24 Срд 13:23:41 #338 №883196

>>883180
>ну типа 3090 с под майнеров можно за цену двух Р40 взять\
Где-то до мая цена 4 тесл была примерно равна одной 3090. Строго говоря при таком соотношении и думать было не о чем. Сейчас-то есть о чём, конечно.

Аноним 11/09/24 Срд 13:23:52 #339 №883197

>рефлекшен
Чего плеббит так дрочит на него, впервые услышали что ли? Этих КоТоподобных промптов воз и тележка, буквально сотни. Топовый по бенчам это вроде как self-discover до сих пор, если не ошибаюсь https://arxiv.org/abs/2402.03620 . Там конструируется кот под задачу автоматически, в три этапа. Хотя может ещё чо придумали.

Аноним 11/09/24 Срд 13:24:35 #340 №883198

>>883182
>Покажи свою 1060
так у меня честно скомунизженая 1070

вопрос то не в деньгах, а в том что за эти деньги получаем

Аноним 11/09/24 Срд 13:38:47 #341 №883205

>>883114
>выглядит как какие-то остатки старого кода.
У него в одном файле пять таких циклов. Скорее всего, цикл - для того, чтобы умножение возвращало ноль. А умножение "для наглядности". А всё вместе просто поощряет развитие психических заболеваний.
>даже нашлось объяснение
Объяснить это можно, а оправдать - сложно. Вон даже на пике - два цикла по всем токенам. Один для глобального окна внимания, второй для локального. С++ быстрый, можем себе позволить два раза подряд весь контекст в циклах перебирать.
>почему оно по-разному работает на цп и куде
Да, вроде, Жора и не скрывал, что оно по-разному работает. У него даже изоляции kv кеша между разными последовательностями нет.

Аноним 11/09/24 Срд 13:40:20 #342 №883206

>>883002
Спасибо за разъяснение, но я не первый день в треде, хотя много чего проскипал в последние пару недель.

>>883027
>Купил прикл за 2,5к
Китайские блоки типа твоего прикрепа это всегда лотерея. У моего знакомого с конторы стоял какой-то чудо короб вообще без маркировок и спокойно тянул gtx 780 пока в один день не перестал включаться. К счастью сдох он тихо и без мучений и половину компа за собой в могилу не забрал.

>У тебя есть два стула:
>3060 12ГБ
>Б/У 3090 24Гб с доплатой
Начинаю склоняться в сторону 3060, а потом подкопить на теслы. Только походу мне придется еще и мать брать новую, потому что на моем mini-огрызке только одна линия x16 под видеокарту, а вторая потешные x1

>>883043
Графики полезные, помогли быстрее забыть.

>>883114
>Докидываешь 10-20-30 и покупаешь 3090. Довольно урчишь ибо она обоссывает с огромным запасом и в игорях, и в ллм, и в других нейронках все тобою перечисленное.
Я уже сказал что бюджета на такие приколы у меня нет. Мне итак пришлось ишачить и недоедать полтора месяца, чтобы сгрести полтинник. Еще полтора месяца в таком темпе и меня самого в гробешник закидывать можно будет.

>>883182
> 4060 с 8… 4060ti с 8
>Мусор на фоне 3060 с 12.
Ну я написал, что мне не только для лмок нужно но и под дрочильни всякие. 4060 я рассматривал чисто из-за длсс, я врубаюсь что это прогрев на лоха, но все таки у меня были небольшие надежды, что с ней будет не всё так плохо.

Аноним 11/09/24 Срд 14:41:51 #343 №883243

Поставил я короче бугу - апи гораздо лучше и можно с ChatGPTBox подружить локальную модельку, но капец буга жирная... больше 10 гб без моделек!

Аноним 11/09/24 Срд 15:19:04 #344 №883256

аноны поч нельзя на cohere зарегаться? мб банят рф?

Аноним 11/09/24 Срд 15:47:20 #345 №883273

PXL20240401131303123.jpg

>>883206
>на моем mini-огрызке только одна линия x16 под видеокарту, а вторая потешные x1
Сейм.
Но х1 не такой уж плохой вариант, особенно для ЛЛМ. Скорость загрузки дольше, но учитывая что я храню модели на медленном HDD, разницы в скорости с х16 особо не заметно.
Не вижу смысла докупать мать только ради этого, дольше пары минут загрузки ждать всё равно не придётся, а на скорость работы шина не влияет.

>Начинаю склоняться в сторону 3060, а потом подкопить на теслы.
А я склоняюсь к покупке 3060, чтобы хоть немного слоёв перекидывать на второй ГПУ, на и с нвидиа картами тесла дружит лучше.
Но это потому что денег у меня совсем нет, если бы был полтинник, то лучше бы подкопил на 3090, взял кредит или рискнул и нашёл 3090 за полтинник, это реально

>Китайские блоки типа твоего прикрепа это всегда лотерея.
Конкретно этот блок я конечно брал наугад, но оказалось что это не совсем ноунейм, а топовый производитель блоков для ферм, который берут за качество, почему и скинул его.

Аноним 11/09/24 Срд 16:14:39 #346 №883278

>>883273
Де вы огрызки такие находите, есть же ж божественный хуанан с овер дофига линий как раз для дохлого LLM сервера...

проблема разношерстных карт типа паскаля и ампера в том, что тензорными ядрами не сможеш воспользоваться если раскинуть...

Кста, подкинет кто-нибудь хороший гайд по раскидыванию на Уге-буге? а то меня чет стремает что первой картой видит 4гиговку а не 8 гиговку, и не совсем понятно как для lammacpp указывать куда кидать что

Аноним 11/09/24 Срд 16:18:41 #347 №883279

>>883278
>первой картой видит 4гиговку а не 8 гиговку
У меня для тебя хуёвые новости. Куда сортирует карты по мощности. А smi по порядку в портах. И ты можешь открыть файл server.py и добавить после import os следующую строку
os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
И будет уба сортировать в том же порядке, что и smi.

Аноним 11/09/24 Срд 16:31:28 #348 №883283

>>883273
>пик
Ебать вот это шаромыга. Ты через рейзер ее в x1 воткнул? Вообще кстати не думал об этом, хотя у меня в корпусе как раз есть крепления для горизонтальной установки четвертой видеокарты.

>а на скорость работы шина не влияет
Так как бы у четвертой писи x16 32 гигабита в секунду скорость, у x1 всего два. Это по сути как ддр4 получается.

>Но это потому что денег у меня совсем нет, если бы был полтинник, то лучше бы подкопил на 3090, взял кредит или рискнул и нашёл 3090 за полтинник, это реально
Ну я и не спорю, что это реально. Просто еще несколько недель сидеть вообще без видеокарты а потом еще шляться по бывшим майнинг-притонам в поисках той самой живой 3090 мне банально лень.

У тебя там кстати походу труханы на батарее сушатся (o･ω･o)

Аноним 11/09/24 Срд 16:48:38 #349 №883307

>>883283
>Так как бы у четвертой писи x16 32 гигабита в секунду скорость, у x1 всего два. Это по сути как ддр4 получается.
Не сравнивай видеокарту и оперативку. С ОЗУ данные постоянно считываются процем для вычислений, именно поэтому её скорость влияет на количество т/с.
С видеокартой другая тема, по узкому каналу данные в видеопамять будут грузиться дольше, но когда загрузятся работать будут с той же скоростью, что и на Х16 шине, потому что все вычисления проходят на видеокарте.
Вот если тебе постоянно надо загружать/выгружать разные модели в видеопамять, то тогда Х1 будет жопой.

Замерял т/с на тесле в х1 и х16, разницы нет.

>Ты через рейзер ее в x1 воткнул?
Да, это первая установка Теслы, ещё без охлаждения. Воткнул её в х16, а основную видеокарту в х1, в играх кстати тоже особого падения скорости не заметил лол.

Аноним 11/09/24 Срд 16:56:51 #350 №883323

>>883307
Каждый день тугосерюсь но зато узнаю что-то новое. Хорошо что на двачах убрали регистрацию и никто никогда не вычислит меня и не узнает на какой позиции я ишачу с такими знаниями. А за разъяснялку спасибо.

Аноним 11/09/24 Срд 17:05:42 #351 №883331

>>883279
лол по мощности)
одна 1070, вторая огрызок низкопрофильный Т600, зато на более новом чипе...
Так єто, зачем пай файлик трогать если можно в батник добавить, короче говоря за патч спасибо, но вопрос как делением управлять пока открытым остается, из параметров я вижу только количество слоев для выгрузки, и tensor_split... это оно и есть? задать проценты распределения между картами?

Аноним 11/09/24 Срд 17:08:25 #352 №883340

>>882560
Подскажите же.

Аноним 11/09/24 Срд 17:13:02 #353 №883346

>>883340
Я ебу? Сам проверил бы уже. Наверное 6 гигов врам на 32к контекста там.

Аноним 11/09/24 Срд 17:25:44 #354 №883372

>>883323
>не узнает на какой позиции я ишачу с такими знаниями.
Напомнил мне чела, который работает в крупной айти компании и уже несколько месяцев приходит на работу на пару часов, ничего не делает, все предложения отклоняет и получает деньги ни за что. Он ещё с опросом шёл, как "быстро меня уволят".

>>883331
> зачем пай файлик трогать
А почему нет? Обновлять убу всё равно не советую, она ломается чаще, чем обновляется. С жорой да, тензор сплит, там же описано всё. Учитывай, что контекст будет на первой карте. И можешь попробовать включить row_split. Иногда даёт буст скорости. Очевидно, это не твой случай, но попробовать ничего не мешает.
>List of proportions to split the model across multiple GPUs. Example: 60,40
Пропорции? Вроде, раньше по-другому работало.

Аноним 11/09/24 Срд 17:32:04 #355 №883382

>>883372
>Пропорции? Вроде, раньше по-другому работало.
Я прямо гигабайты врам пишу и в Жоре, и в Убе. Прокатывает. Они походу и сами не знают, чего хотят.

Аноним 11/09/24 Срд 17:32:51 #356 №883383

>>883278
>проблема разношерстных карт типа паскаля и ампера в том, что тензорными ядрами не сможеш воспользоваться если раскинуть...
А если сломать систему и вместо 3060 взять 1080ti на 11Гб? Можно в пределах 15к найти.
По моему неплохое дополнение к Тесте, она как раз примерно 1080 по производительности.

Аноним 11/09/24 Срд 18:01:22 #357 №883406

>>883383
так а в чем финт ушами? вместо Mazda RX7 взять жигу заряженую по самые помидоры?
тензорные ядра завезли вместе с рейтрейсингом начиная с 20й серии, да 1080 приятнее теслы в виду того что она с норм охладом и с выходами, но вкладываться в древнюю архитектуру - как знаеш, 3060 интереснее выглядит хотябы потому что к ней еще можно будет в дальнейшем докупить тензорных...

Аноним 11/09/24 Срд 18:03:31 #358 №883411

>>883383
>А если сломать систему и вместо 3060 взять 1080ti на 11Гб? Можно в пределах 15к найти.
За 15к можно P100 найти, там даже 16гб.

Аноним 11/09/24 Срд 18:20:59 #359 №883426

>>883406
>в дальнейшем докупить тензорных...
Это каких, 3090? Так 3060 уже её будет вниз тянуть производительностью.
А при покупке сейчас 3060, её вниз будет тянуть Тесла.
Финт в том чтобы вместо этого можно купить 1080 и получить те-же токены в секунду, но заплатить 15к вместо 25-30к.
А если у меня вдруг будут деньги на "обновление", то лучше сразу пару 3090-4090 взять.

>>883411
>За 15к можно P100 найти
Мне с видеовводами надо. Сейчас у меня там RX580, на которую слои с теслы не перекинешь.

Аноним 11/09/24 Срд 18:40:29 #360 №883450

>>883346
В смысле можно прямо выставить 32к контекста и будет работать, а не шизить?

Аноним 11/09/24 Срд 19:08:31 #361 №883481

>>883190
Я хз, в играх по тестам 10% отставание, терпимое. И уж точно быстрее 1060.
Но мне-то нахуй нужно в играх.
А в ллм все упирается в (токен/сек)/рубль, верно? Чем выше — тем лучше.
Оператива в пять раз медленнее при цене в 2,5 раза меньше (косарь за 8 гигов).
Ну и я вообще их получил за 2к, что еще дешевле.
Опять же, никто не говорит, что она имба. Она ВСЕГО ЛИШЬ 8 гиговая. Это не 3060 ни разу.
Но зато за 2,5 куска.

Как говорится, вчера большие раки, но по 5, а сегодня маленькие, но по 3. =) Каждый сам выбирает.

Для людей с материнками на два слота или встройкой, и отсутствием бюджета (ну, то есть, прям вот 2,5 косаря накопил с завтраков) очень хороший вариант.

>>883198
Получаем 15 токенов/сек на том, что влезет.

>>883206
> из-за длсс
ДЛСС и в 3060 есть.
В 4060 уже фреймгенерейшен, и это крутая штука. Надо помнить, что игра не перестает лагать — она визуально для глаза лучше идет. Но отзывчивость как раньше. Но штука крутая. Мне нравится.

>>883243
Зато почти все из коробки. =)

>>883273
Ну, если раскидывать слои на две видяхи, то на скорость обработки промпта влияет.
А если на одну — то да, пофигу, так-то.
Жесть у тебя пекарня. =) Силен.

>>883278
Ну, пишешь туды шо куды и все работает.

У меня кобольд не верно порядок карт определяет (пишет 1660с, а кидает на 4070ти, но он именно порядок неправильно определяет, а кидает уже правильно), а убабуга… вообще не пишет их названий, кек, но определяет верно, хз.

>>883279
О, огнище, спс!

>>883283
В данный момент, я так понял, у него работает тока тесла, и на вторую не кидается. Тогда в натури поебать.
А вот если он докупит другую, то его будет ждать сюрприз. =)

>>883307
Ну, в случае ДВУХ видях под одну модель — там будет контекст кидаться. И в случае большого (20к+) пересчет будет занимать время.
А на ОДНОЙ карте разницы нет, верно. =)

>>883323
ОР

>>883372
Я тоже так хочу, но у меня не хватит бессовестности.

Убу в последнее время обновляю нон-стоп, не ломается ни на одном из 3 ПК.

>>883383
Там паскаль и сомнительное, ИМХО.

Аноним 11/09/24 Срд 19:15:01 #362 №883489

>>883426
>Это каких, 3090? Так 3060 уже её будет вниз тянуть производительностью.
ну так стейблдифьюжен с Flux повесиш на 3060, или что-то другое что влазит. опять таки, бенчмарками не обладаю, но говорят нейронки на тензорных гораздо шустрее ходят

Аноним 11/09/24 Срд 19:34:35 #363 №883508

>>883114
>Некоторым из них даже нашлось объяснение
Надеюсь их занесли в код в качестве комментариев? Я любую неочевидную хуйню комменчу.
Мимо PHP-макака
>>883157
>оно какого-то фига по всем дискам мне лазит
Это шинда, чел.
>>883323
>и не узнает на какой позиции я ишачу с такими знаниями
Передал тебя модераторам, они по IP вычислят.
>>883372
>и уже несколько месяцев приходит на работу на пару часов, ничего не делает
База же. Я в банке так работаю, хули, там всё равно ничего быстрее чем за 3 месяца не делается, хотя нет, мне доступы, критичные для работы, всего лишь за 3 недели сделали, в течении которых я в принципе не мог ничего делать.
>>883481
>Но отзывчивость как раньше.
Для слоупоков разве что. Это как включить всунк, сразу +3 кадра задержки минимум. Не для того я 144 кекогерца монитор брал.

Аноним 11/09/24 Срд 19:35:29 #364 №883510

>>883132
В амперориге стоит какой-то недорого 1200ваттник, там там стоковый куллер под нагрузкой шумит так что можно ебануться. Заменил на более тихий, но всеравно это дичь под продолжительной нагрузкой более ~1100вт перегревается. Потому интересно подобный майнерский пердун рассмотреть, но отзывы очень противоречивые.
>>883147
> опросить идеи по оформлению, вопросов попросить накидать - другое дело
Это тема годная, гемма наверно вполне подойдет для пободного из доступных на простом железе.
>>883157
> но какого-то фига по всем дискам мне лазит
Там же просто миниконда для пихона и либ, а потом оно пипом все ставит. По разным дискам - скорее всего к кэшу пакетов у тебя обращается.
>>883205
Да, ну и треш же там. Неужели никтоне взялся это поправить за все время?
>>883206
> бюджета на такие приколы у меня нет
В том и прикол что на твоем месте нужно получить что-то с максимально выгодным прайс/перфоманс, а не пытаться сношать огрызки теша себя надеждами что "вот потом уже не теслу соберу". Тогда уж вообще включай ждуна и отдохни месяц, а потом опять въебывай, а то и до релиза блеквеллов дотерпишь когда все подешевеет.
Два аргумента против здесь только есть - курс валюты может улететь и сгоришь что не купил. А за 3090 - бу без гарантии, может пережить твой комп, а может отвалиться через неделю.
Если уж будешь брать 3060 то смотри только в сторону 12 гиговой версии. Алсо есть экзотика типа 2080ти@22gb, в твой бюджет укладывается.

Аноним 11/09/24 Срд 19:39:59 #365 №883520

>>883510
>недорого 1200ваттник
>майнерский пердун
Хату от пожара застрахуй перед экспериментами.
>Неужели никтоне взялся это поправить за все время?
Берись ты.
>а то и до релиза блеквеллов дотерпишь когда все подешевеет
Нихуя уже не дешевеет, даже в баксах, а в деревянных цены только в верх и ползут даже на бу.

Аноним 11/09/24 Срд 19:40:41 #366 №883523

>>883508
>Это шинда, чел.
неть, это дибильные скрипты установки конды (Какой аунич вообще конду пихает во все щели, есть же venv православный в пайтоне), которые так и не смогли ее поставить, ручная установка решилапроблему

Аноним 11/09/24 Срд 19:40:56 #367 №883524

>>883273
Опа, можешь сравнить перфоманс на одной и той же карточке, только в х16 и х1? В какой-нибудь модели что будет помещаться чисто в врам и там где будет примерно на половину оффлоад на цп?
>>883278
> хороший гайд по раскидыванию на Уге-буге?
Всмысле раскидыванию? В экслламе пишешь через запятую сколько гигов выделяешь на каждой карточке. Для первой пиши меньше чем есть ибо еще сожрет на контекст и система потребляет, для второй указывай весь объем. Для жоры можешь сделать точно также, можешь указать относительными долями типа 0.8,1. В случае доп опций потребление на контекст может сильно меняться и потребуется сокращать число слоев на первой карте.
Если не устраивает порядок карт и хочешь поменять основную - CUDA_VISIBLE_DEVICES=1,0
>>883283
> у x1 всего два. Это по сути как ддр4 получается
Чивобля
> банально лень
> с трудом добытые деньги
Странный ты

Аноним 11/09/24 Срд 19:41:21 #368 №883526

>>883508
Я тоже пхп-обезьянка, пролоббируй меня в свой банк. =D

Аноним 11/09/24 Срд 19:42:28 #369 №883529

>>883510
>Там же просто миниконда для пихона и либ, а потом оно пипом все ставит. По разным дискам - скорее всего к кэшу пакетов у тебя обращается
Нить, оно как бомж в корзине копается и в документы лазать пытается, выдавая ошибки отсутствия доступа, и не ставилось... короче перемудрили чет там...

Аноним 11/09/24 Срд 19:43:28 #370 №883532

>>883520
Сейчас стоит фирмовый с рабочими защитами, хоть и был куплен дешево.
> Берись ты.
На жору аллергия.
>>883529
Эээээ ты что вообще такое скачал? Эта вишня какая-то а не его инсталлер, он вообще простой и довольно минималистичный.

Аноним 11/09/24 Срд 19:45:12 #371 №883536

>>883532
с порнхаба зипак с исходником, главное в батнике рили ничего вроде нет чтобы лазило куда-то...

Аноним 11/09/24 Срд 19:45:50 #372 №883538

>>883510
>Потому интересно подобный майнерский пердун рассмотреть, но отзывы очень противоречивые.
Оно конечно интересно, но только шум тут вообще на последнем месте. Сам же понимаешь, что это чистая лотерея со взносом в виде всего ПК. Можно и выиграть.

Аноним 11/09/24 Срд 19:46:35 #373 №883541

изображение.png

>>883523
>есть же venv православный в пайтоне
Недостаточно модно.
>>883526
Увы, пока требуются только девопсеры, да и то на какие-то копейки.
>>883532
>На жору аллергия.
Ну вот и у остальных тоже самое. Никто в жареном говне ковыряться не хочет.

Аноним 11/09/24 Срд 20:13:46 #374 №883562

>>883489
Насчёт флюкуса я не подумал, в этом плане и правда полезней. Но и30к больше, чем 15...

>>883524
>Опа, можешь сравнить перфоманс на одной и той же карточке, только в х16 и х1?
Мне сейчас пиздец как не охота с этим возиться, особенно выковыривать Теслу из корпуса, я её очень хорошо запихал. Жаль что не сохранил результаты теста, но помню что показатели скорости при загрузке модели в видеопамять были одинаковы.
А слои в ОЗУ я не выгружаю, т.к. у меня DDR4 2666 и скорость сильно падает, когда даже пару слоёв перекидываешь.

Аноним 11/09/24 Срд 20:24:14 #375 №883567

>>883562
>А слои в ОЗУ я не выгружаю
Без выгрузки и без сплита скорость конечно будет одинаковой, хоть по WiFi карточку подключай.

Аноним 11/09/24 Срд 20:39:56 #376 №883578

>>883541
> Никто в жареном говне ковыряться не хочет.
Зато как защищать, восхвалять и игнорить очевидные проблемы - сразу набегают, как же так?
>>883562
> не охота
Ну там при случае когда будешь перебирать или делать нечего будет. Желательно как можно больше данных, в частности отследить влияние при модели полностью в врам (уже ответил но на всякий глянь), разница при всех слоях кроме одного на гпу (чтобы был пересыл активаций), разница при 50-50, и просто работу к экслламе.
Просто тут буквально никого нет кто бы на х1 сидел чтобы подобный тест провести, а разговоров ебать сколько.

Аноним 11/09/24 Срд 20:43:17 #377 №883580

>>883562
>Насчёт флюкуса я не подумал, в этом плане и правда полезней. Но и30к больше, чем 15...
ну по этому и надо подумать и взвесить, видяхи то не дешевые, а некроту чем дальше тем сложнее сплавить... хотя 1080 еще держится неплохо, но... пошли уже игрули которые можно сказать не работают на безлучевых карточках...

Аноним 11/09/24 Срд 21:14:29 #378 №883600

>>883541
Я и девопсом опыт имею, но за копейки не хочу. =) Девопсы ответственные, отлынивать не выйдет, если прод упадет.

>>883580
Посмотрел тока шо ролик spline'а, он там 550ti на авито продавал. Ну я подумал «эээ… 700 рэ?», а она 1800 поставил, что ли.
Пздц, даже совсем старые видяхи стоят неоправданно дохуя.

Аноним 11/09/24 Срд 21:27:08 #379 №883614

>>883600
Пздц, даже совсем старые видяхи стоят неоправданно дохуя. есть такое... но тут скорее виноваты те кто берут за такие деньги...

Аноним 11/09/24 Срд 21:34:10 #380 №883620

>>883614
>но тут скорее виноваты те кто берут за такие деньги...
А хули им делать? Сидеть вообще без видео?

Аноним 11/09/24 Срд 21:36:12 #381 №883623

>>883600
Чем ниже цена тем убервсратее ее соотношение к качеству. Так сказать, платишь за сам факт возможности, которую дает предмет, а то каким хуевым это будет - не важно.
> за копейки
> 100к
ваще ахуевший
>>883620
Иметь достоинство так сказать. Ты же не идешь жрать тараканов в случае если нет возможности потреблять омаров?

Аноним 11/09/24 Срд 21:39:41 #382 №883625

>>883623
>> за копейки
>> 100к
>ваще ахуевший
Чел, сейчас любой бич может поднять 200к, отодрав жопу с дивана, так что 100к уже давно уровень ниже бомжа.
>Ты же не идешь жрать тараканов в случае если нет возможности потреблять омаров?
Если будет выбор между тараканами и сдохнуть самому, то я лучше вжарю тараканами.

Аноним 11/09/24 Срд 21:56:35 #383 №883639

Кто то новый пикстраль уже пробовал, хотя бы в оригинале? Че по цензуре видео части?

Аноним 11/09/24 Срд 22:04:06 #384 №883648

>>883510
>за все время?
Ты про тройной цикл? А это разве что для геммы используется и добавлено не так давно, до этого ещё хуже было. Это хотя бы логику работы модели соблюдает. У самого Жоры там приоритет на сиквенсы, сейчас, вот, переделал семплинг. Чем сломал апи. Ну да похуй. Если про надмозговые циклы, то хуй знает, они выглядят, как говно, но на работу программы не влияют в конечном счёте.

Аноним 11/09/24 Срд 22:11:26 #385 №883658

Кто юзает Qwen2-VL, для чего применяете? Как вам?

Аноним 12/09/24 Чтв 00:09:44 #386 №883728

>>883623
Ну, как Битрикс-разработчику мне предлагали 170, но там надо работать, а я ленивый.
Я хочу работать по час-два в день за 20-40 тыщ. Мне много денег не надо, но и работать. А если не найдется, и придется пахать 8 часов — то, как бы, я и зп хочу достойную, как бы.
Так что, тут ведь дело не только в зп, а еще и в объеме работы.

>>883639
Не, мне лень разбираться с запуском ее на тесле, 25 гигов все же жрет, хз че там как.
И спейсов не нашел.
Ваще хз, но очень интересно.

>>883658
Седня днем один чел тестил, он весьма неплохо определяет фотки с техникой разной, но не разбирает чертежи. Так же, у него отличный OCR (там еще какая-то оср модель на базе 0.5б вышла, не суть). Для какой-нибудь разметки или анализа подойдет очень хорошо.
Но куда по факту засунуть себе в прод, я пока не придумал. ^_^'
Мне она просто нравится, но без применений, ы.

Аноним 12/09/24 Чтв 00:33:30 #387 №883732

>>883728
>отличный OCR
вот да, хорошо детектит текст с любой визуальной новеллы. еще бы переводчик с японского хороший найти. и можно постигать олдовые вн.

Аноним 12/09/24 Чтв 00:40:29 #388 №883733

>>883732
> хорошо детектит текст с любой визуальной новеллы. еще бы переводчик с японского хороший найти. и можно постигать олдовые вн.
Транслюмо же есть. ОСР и переводчики, в т.ч. с японского. Олдовые японские ВН ждут тебя, анон. От себя рекомендую https://vndb.org/v1131 и пожалуй https://vndb.org/v3337

Аноним 12/09/24 Чтв 01:04:37 #389 №883745

>>883733
>Транслюмо
ранее для некоторых проектов приходилось использовать такие библиотеки как tesseract и easyocr. не могу сказать, что они идеально распознают текст, особенно если это касается японского. вот тут меня qwen2-vl удивил, он распознает гораздо лучше, покрытие почти 99%, даже со всратых скринов, с шумом, единственное чего у него не хватает - это распознавание местоположения символов. считаю, что это действительно прогресс в ocr.

Аноним 12/09/24 Чтв 02:10:51 #390 №883783

>>883745
> считаю, что это действительно прогресс в ocr.
Это прогресс нейросетей в целом. Все эти омни-модели всё равно уступают и будут уступать специализированным моделям. Хотя согласен, что в Транслюмо используются далеко не новые OCR-решения. Но на практике их достаточно.

Аноним 12/09/24 Чтв 06:34:02 #391 №883853

>>883625
>Чел, сейчас любой бич может поднять 200к, отодрав жопу с дивана, так что 100к уже давно уровень ниже бомжа.
Ахуеть, как?

Аноним 12/09/24 Чтв 07:33:03 #392 №883861

>>883625
>100к уже давно уровень ниже бомжа.
По данным росстата больше 100к зарабатывают менее 10% населения РФ.

>>883853
Присоединяюсь к вопросу.
есть у меня несколько "друзей" которые дорвавшись до высоких зарплат, сразу начали такую же хуйню городить про "встать с дивана", при этом сами всю жизнь зарабатывали около 30к и на вопрос что конкретно надо сделать чтобы зарабатывать такие деньги внятно ответить не могут

Аноним 12/09/24 Чтв 09:56:21 #393 №883915

Как использовать специализированные текстовые модели? С рпшной поеботой все понятно, но, допустим, https://huggingface.co/THUDM/codegeex4-all-9b в ггуф я открыл в кобольде, ему нужен свой синтаксис запроса. В кобольде это можно делать, но бинарный релиз не сохраняет настройки. Делать в СТ персонажа йобапрограммист или что?

Аноним 12/09/24 Чтв 10:10:13 #394 №883917

>>883783
Не, немного не так.
Qwen2-VL-7b построен на базе LLM Qwen2-7b. Поэтому, он не уступает сам себе. =) Ну, доли процентов, за счет большего размера. Но в общем, уступать будет, если ты насильно от него кусок отрежешь — это тупо делать.
Почему gpt-4o уступает какой-нибудь другой модели — не потому, что она омни, а потому что это принципиально разные модели, под капотом не та же самая LLM, а совершенно иная (меньше, очевидно).

А прогресс именно OCR: Qwen2-VL, теперь еще Pixtral и GOT OCR ( https://huggingface.co/papers/2409.01704 , https://github.com/Ucas-HaoranWei/GOT-OCR2.0 ), в последние недели бахают.

>>883853
Ну там, IQ > 120, технический склад ума и доходные языки программирования. =) Изи, не?

Кстати, по факту, модальная зп в России (т.е., без Москвы и СПб) — 27к на руки, если что. Так что, если зарабатываете больше 27к — вы уже дохуя средний класс, гордитесь.

>>883915
1. Кобольд можно распаковать.
2. В СТ просто есть синтаксис и все прочее, проблемы?
Не уловил вопроса.

Вообще, юзать убабугу для работы, а не ебать мозги с кобольдом. Кобольд чисто под рп новичкам, чтобы из одного файла.
Все дальше — это убабуга, голая ллама, обертка ллама-питон, ллама-индекс и прочее.

Yi Coder пробовал?

Аноним 12/09/24 Чтв 10:17:12 #395 №883919

>>883917
>Вообще, юзать убабугу для работы, а не ебать мозги с кобольдом
Это все отлично, только у меня радеон.

Аноним 12/09/24 Чтв 11:12:52 #396 №883935

Прикольная штука, кто пробовал уже? Может создать описание картинки?

https://habr.com/ru/news/842544/

Аноним 12/09/24 Чтв 11:18:49 #397 №883936

>>883935
Обычная vlm, на что там смотреть.

Аноним 12/09/24 Чтв 11:25:33 #398 №883938

>>883936
Я не в теме, есть что лучше? влм что это?

Аноним 12/09/24 Чтв 11:33:39 #399 №883946

>>883935
>>883938
Хабр из помойки превратился в суперпомойку, я смотрю.
Новости уровня твиттера.

Vision Language Model.
Да, она создает описание картинки, прикинь.
Нет, не пробовал, мне лень поднимать локально, разбираться, модель крупная.

Из аналогов/альтернатив есть Qwen2-VL, можешь попробовать иъ тут:
https://huggingface.co/spaces/MaziyarPanahi/Qwen2-VL-2B
https://huggingface.co/spaces/GanymedeNil/Qwen2-VL-7B

Аноним 12/09/24 Чтв 11:45:03 #400 №883957

>>883946
Ну зато хоть какая-то инфа удается с хабра. Ок, интересно посмотреть насколько хорош результат.

Аноним 12/09/24 Чтв 12:23:24 #401 №883975

>>883917
>IQ > 120
Это 8% людей.
>>883853
>любой бич

Аноним 12/09/24 Чтв 12:34:45 #402 №883983

>>883625
> Чел, сейчас любой бич может поднять 200к
Вроде как да, вот только вокруг одни разговоры о том как тяжело, а в треде (заметь уже есть некоторый ценз чтобы сюда попасть) одни бомжи с нищекартами или выбором из залупы, что даже покупка 3090 воспринимается как событие?
> Если будет выбор между тараканами и сдохнуть самому, то я лучше вжарю тараканами.
А мог бы как белый человек пойти в магазин и купить креветосов.
>>883728
> Я хочу работать по час-два в день за 20-40 тыщ.
Какое-нибудь хобби монетизируй, только не основное. Или ищи работу типа 1-3, будет много свободного времени.
Достойную то все хотят, но не все могут на нее перформить. Как в шутке что долбоебы научились хорошо проходить собеседования а скилловички в них не шарят.

Там пикстраль вышел, по размеру прямо золотая середина и может быть потанцевал, кто-нибудь уже тестил?

Аноним 12/09/24 Чтв 12:40:34 #403 №883989

>>883917
> IQ > 120, технический склад ума и доходные языки программирования
Последнее нахуй не нужно для 150-200к. Кодинг для макак только, максимум как ступеньку в руководящие должности можно его рассматривать, хотя и без него есть попроще варианты.

Аноним 12/09/24 Чтв 13:48:25 #404 №884027

>>883917
>А прогресс именно OCR: Qwen2-VL, теперь еще Pixtral и GOT OCR ( https://huggingface.co/papers/2409.01704 , https://github.com/Ucas-HaoranWei/GOT-OCR2.0 ), в последние недели бахают.
Я считаю, что из этого списка только GOT OCR можно назвать специализированной моделью именно для OCR. Но как всякая новая технология она будет иметь вначале косяки, мало совместимые с реальным применением. Ну и видно, что под Куду заточено, а хотелось бы на процессоре - вместо здоровенной модели в 1,5Гб маленькую в 15мб и чтобы хорошо работало :) Такие есть.

Аноним 12/09/24 Чтв 15:09:27 #405 №884080

Спрашивал в соседнем треде на чем кумить через 12гб карточку. Сказали пигмалион 7б и послали сюда. Альтернатив нет?

Аноним 12/09/24 Чтв 15:16:16 #406 №884085

>>884080
>Альтернатив нет?
Специально для тебя сделали даже в шапке есть
https://rentry.co/llm-models

Аноним 12/09/24 Чтв 15:41:41 #407 №884097

2024-09-12-15-27-59.webm

>>884027
>вместо здоровенной модели в 1,5Гб маленькую в 15мб и чтобы хорошо работало :) Такие есть.
Как-то ты уже загнул, 15мб и хорошо. Клип какой-нибудь?
А вообще да, довольно сложно прикрутить к какой-нибудь модели зрение, если модель не мультимодалка, а ты хочешь сэкономить ресурсы. Мелкие модели выдают какие-то странные описания, когда пробовал, зачастую на пикче с котом не видело кота. А вот квен VL хорош, но жирен.
С голосом пиздец, модель слишком много добывает из спектрограмм - шумы, интонации, но не обучена достаточно, чтобы понимать где что. С той же Ё - она, сука, поняла, что в русском языке есть Ё и можно свободно заменять Ё на Е. И начала делать это в обе стороны. А полностью подавить шумы на подготовке датасета у меня не выходит даже специализированными нейросетями.

Олсо, про заработок, даже конченный даун может зарабатывать 200к в месяц пожизненно. Достаточно использовать старый дедовский метод - обратиться к тащ военкому.

Аноним 12/09/24 Чтв 15:46:21 #408 №884099

А подскажите такой момент, я правильно понимаю, что для корректной работы модельки нужно правильный токенайзер иметь, конфиг, итд? и для этого надо в угебуге сконверитить в ХФ (точнее докачать нужные файлики)? если да, тогда зачем нужне вариант без таких файликов, и как оно работает тогда?

>>884097
>конченный даун может зарабатывать 200к в месяц пожизненноэто как "мотоцикл прослужит до конца жизни если ездить достаточно быстро"?
тонко однако...

и раз уж про мультимодальные речь пошла, чем можно запускать такие вундервафли?

Аноним 12/09/24 Чтв 16:21:22 #409 №884110

натыкался в треде на упоминание Yi-Coder, кто-нибудь может внятно пояснить, какие варианты использования этой дичи, и как ее заставить работать по человечески? а то подобие кода она выдает конечно, но он же ж не рабочий от слова совсем...

Аноним 12/09/24 Чтв 16:43:29 #410 №884130

>>883957
Ну, это все узнается из тг-каналов, твиттера, обниморды, архива, откуда угодно и раньше. =) Поэтому не очень понятен смысл репостов ради репостов.

>>883975
Ну, авторы разные. =)

>>883983
Да я и так в клубе сижу, я удаленку хочу, чтобы из клуба работать.
Я и так уже работал на двух фирмах, но там 160 и 80 часов было в месяц. Хочу меньше. х)

Пикстраль я че-то потыкал, не понял, как ее инференсить, а думать мне в лом, я и забил.
Подожду какого-нибудь готового app.py

>>883989
Ну так за кодинг 150 платят вполне, если язык хороший.
А руководящие должности — я не бизнесмен, не ебу, мб.
За шо знаю, за то ответил. =)

>>884027
Ну, да, технически, VLM не OCR, но ведь могет! =)

>>884097
Ну, тоже верно.

>>884099
Че-то мешанина в мозгах, бро.
Разберись лучше.
В GGUF все вшито, там один файл.
В других поставляется вместе с файлом, качать целой папкой.

Мультимодалки смотря какие.
Ллавы есть поддержка в ллама.спп.
А у современных пока нема, ждем, запускаться чисто трансформерами, щито поделать.

>>884110
Я не трогал, если честно. Надо будет на выходных попробовать.

Аноним 12/09/24 Чтв 18:02:16 #411 №884165

Какой даунич написал в вики что :
>Exllama2 быстрее в ~1.2-2 раза чем Llamacpp, требует меньше памяти на ту же битность и тот же контекст.

на неамперовских картах без плясок оно с флеш-аттеншеном не работает, а без флеш-атеншена заквантованая 7B дает 2.38 токена/с на 1070, что медленнее чем гуф

Аноним 12/09/24 Чтв 18:06:52 #412 №884170

>>884165
Ты юзаешь всратую некроту и смеешь называть кого-то дауничем? А ну пиздуй 200к зарабатывать как любой может.
> а без флеш-атеншена
Он лишь снижает жор памяти и может ускорить на больших контекстах, в твоем случае проблема в картофельной видеокарте, которая фп16 считает в 64 раза медленнее чем должна.

Аноним 12/09/24 Чтв 18:12:06 #413 №884172

Какую видеокарту стоит взять исключительно для языковых моделей и sd? Чтобы не переплачивать бессмысленно и т. д. Если знаете название не только модели, но и производителя, укажите, пожалуйста, его.

Несколько я понимаю, должно быть 12 Гб врам, а остальное не так важно.

Аноним 12/09/24 Чтв 18:13:42 #414 №884173

>>884170
>которая фп16 считает в 64 раза медленнее чем должна.
До сих пор кстати нет тестов франкенштейнов 2080 на 22гб. Это тоже не ампер, но с фп16 вроде всё в порядке. И все в порядке с этим у P100, но он тоже ничего выдающегося не показывает. Короче у кого нет хотя бы 30-й серии - могут идти в жору :)

Аноним 12/09/24 Чтв 18:17:05 #415 №884175

>>884170
а ничего, что быстрее в ~1.2-2 раза и быстрее в ~1.2-2 раза на двух последних поголениях ГПУ это разные вещи, и такое в "вики" надо отмечать, написали б, ускоряет работу на тензорных ядрах или что-то подобное - ситуация понятная была б, а так - звучит как будто ускорение не зависит от железки

народ и на максвелах гонять пытается, чего уж там
а 104-100 так у трети тут наверное

Аноним 12/09/24 Чтв 18:19:21 #416 №884177

>>884172
24 хотяб, на 12 ты будеш гонять 7B модельки для кумерства, если чет жирнее надо, то пичалька...
для дифузии тоже 12 в притык, если контролнеты будеш юзать и что-то больше чем 512*512 генерить

Аноним 12/09/24 Чтв 18:36:58 #417 №884190

>>883481
>ДЛСС и в 3060 есть. В 4060 уже фреймгенерейшен, и это крутая штука.
Да, я тупо лажанул и перепутал названия.

>>883510
>Тогда уж вообще включай ждуна и отдохни месяц, а потом опять въебывай, а то и до релиза блеквеллов дотерпишь когда все подешевеет.
Не вижу смысла ждать блеквеллов. Во первых их ждать минимум до следующего года плюс еще несколько месяцев пока на них цена не уляжется. Во вторых судя по сливам младшие модели опять будут иметь восемь линий, шину в 128 бит, и восемь гигов гддр6 памяти. Короче, будет та же самая 4060/4070 но с приростом в 10-15 процентов в лучшем случае. Нвидиа итак прямо признались, что им аренда и продажа проф. карт в несколько раз больше приносит, чем десктопный сектор, по этому они могут еще раз обосраться с новым поколением и всё равно нихуя не потерять.

>Если уж будешь брать 3060 то смотри только в сторону 12 гиговой версии.
Ну именно её я и собираюсь брать, а на сэкономленные средства скорее всего возьму ссдшник чтобы наконец слезть со своего сигейта на котором уже пять лет дрочусь.

>Алсо есть экзотика типа 2080ти@22gb, в твой бюджет укладывается.
Китайский самопал с доп. чипами памяти или типа того? Ни разу не слышал.

Аноним 12/09/24 Чтв 18:36:59 #418 №884191

>>884177
>24 хотяб, на 12 ты будеш гонять 7B модельки для кумерства, если чет жирнее надо, то пичалька...
И 12 хватит. 7-12В войдут, SDXL норм будет. И относительно недорого, если 3060 рассматривать.

Аноним 12/09/24 Чтв 18:55:00 #419 №884203

>>884173
Там скорость хорошая будет, могут быть нюансы со сборкой фа, но это возможно
> все в порядке с этим у P100, но он тоже ничего выдающегося не показывает
Кто-то так был доволен что быстро работает. По крайней мере явных проблем быть не должно.
>>884175
> а ничего
Ничего, карты с поддержкой нормальных расчетов были еще в паскалях, тьюринг релизился аж в 18 году, амперы аж в 20м.
Если карточка древняя и не может в фп16 - надо радоваться что там что-то вообще работает а не возникать. И тензорные ядра тут не при чем, можешь заглянуть в код и понять.
SOTA, передовая технология на острие прогресса, а васяны ноют что некрота, которой 8 лет(!) у них плохо работает с современным интерфейсом, пиздец же.
>>884190
> ждать минимум до следующего года плюс еще несколько месяцев
Вот это верно, но может быть лучше трат на спорный оверпрайснутый лоу-мидл. По крайней мере "битва была равна", тут уже сам смотри. Просто 3060 довольно грустная, хоть она является отличным дешевым вариантом и минимальным входным порогом для многого, когда распробуешь - сразу захочешь большего.
> Китайский самопал с доп. чипами памяти или типа того?
С замененными, кидали ссылки на них.

Аноним 12/09/24 Чтв 18:55:36 #420 №884205

>>884177
Я SDXL юзал на 3050 ноутбучной с 4 Гб врам, так что не знаю даже. И апскейлил в том числе.

Думаю, 3060 всё это потянет, но с цены я прихуел. Такая древность, а стоит дорого. С озона брать, я так понимаю, совсем плохая идея?

Аноним 12/09/24 Чтв 18:57:36 #421 №884208

>>884205
> с цены я прихуел
Она же стоит копейки, 20к.

Аноним 12/09/24 Чтв 19:12:27 #422 №884222

>>884208
36к в днс.

Аноним 12/09/24 Чтв 19:14:06 #423 №884226

>>884222
Один хуй копейки. С зарплаты сходил бы и купил, чем ныть тут.

Аноним 12/09/24 Чтв 19:16:08 #424 №884230

>>884203
>3060 довольно грустная, хоть она является отличным дешевым вариантом и минимальным входным порогом для многого
Ну с этим я не спорю. В былые времена за 35 тысяч можно было хорошую среднюю карту взять, типа 1070 которой хватало с запасом на несколько лет.

>когда распробуешь - сразу захочешь большего
Ну, я три года на 1060 сидел трехгиговой. До этого на 760 еще несколько лет. Так что я в этом плане не особо зажравшийся. Для меня достаточно средних настроек в игорях с хорошим фреймретом и фреймтаймом.

Алсо, меня немного дурит идея взять 4060 и попробовать разогнать на ней память, чтобы были хотя бы те же 320 г/c как на 3060, а не смешные 280. Но тут слишком большой фактор рандомности, потому что велик шанс что могут попасться хуевые чипы и накрут в 15-20 процентов по частоте они не примут.

Аноним 12/09/24 Чтв 20:04:50 #425 №884299

>>884230
Ну раз ждунство не хочешь, то бери. 4060ти@16 в таком случае наилучшим вариантом будет, если увлечешься нейронками то за 16 гигов долго благодарить себя будешь, а с 8 будешь постоянно страдать. Память, как правило, на такие значения гонится.

Аноним 12/09/24 Чтв 20:45:39 #426 №884372

Сап, ИскИнач.
Какой лучше инструмент поставить на комп, который бы мне помогал код ебашить с возможностью дообучения?
Сильно не стукайте. Я только впервые вкатываюсь.
Вот я качаю кобольдаЦоПеПе.
Скачиваю средненькую модельку Frostwind-10.7B
Но у меня игровая пекарня и могу ли я модели дать больше параметров? И самому её раскачать под конкретно мой компуктер?

Аноним 12/09/24 Чтв 20:59:25 #427 №884413

>>884372
>Но у меня игровая пекарня и могу ли я модели дать больше параметров? И самому её раскачать под конкретно мой компуктер?
Нет. Совсем нет.

Аноним 12/09/24 Чтв 21:00:42 #428 №884417

>>884372
>код ебашить
Качай модели которые на это специализируются.
>с возможностью дообучения
Дообучение только лорами. Но дообучать лорами - дорого.
>Скачиваю средненькую модельку Frostwind-10.7B
Эта уже протухла, есть более новые и производительные модели.
>Но у меня игровая пекарня и могу ли я модели дать больше параметров?
Кидай характеристики. Если под параметрами ты подразумеваешь входные данные - то да, с помощью контекста.
>И самому её раскачать под конкретно мой компуктер?
Не знаю че ты имеешь ввиду, но на всякий случай отвечу, что нет.

Аноним 12/09/24 Чтв 21:12:32 #429 №884455

>>884372
>Но у меня игровая пекарня и могу ли я модели дать больше параметров?
Если у тебя там не карта уровня 4090 стоит, то у тебя не игровая пекарня, а огрызок для дфеолтных постреляшек. На среднестатистическом "игровом пека" с 12VRAM и 32RAM можно разве что модели из самого низкого сегмента ставить на 7-13 лярдов параметров. А про "дать больше параметров" - иди кури вики и почитай, что такое параметры.

Аноним 12/09/24 Чтв 21:25:08 #430 №884494

>>883728
>как Битрикс-разработчику
Ебать ты дно, хуже битрикса только 1С и эмбедед.
>Я хочу работать по час-два в день за 20-40 тыщ.
Давно бы заработал себе на раннюю пенсию, для 30 тысяч нужен капитал в жалкие 6 лямов на бирже.
>>883853
Подпиши контракт, ещё и подъёмные дадут.
>>883861
>По данным росстата
Инфляция 6%.
>>883946
>Хабр из помойки превратился в суперпомойку, я смотрю.
А хули, я ушёл же.
>>883983
>вот только вокруг одни разговоры о том как тяжело
Ну я и пишу, люди тупее бомжей уже.

Аноним 12/09/24 Чтв 21:34:42 #431 №884533

>>884165
>Какой даунич написал в вики
Ну я, и что?
>на неамперовских картах
Про железо отдельная ссылка, твоё в разделе "некроговно".
>>884190
>Во вторых судя по сливам младшие модели опять будут иметь восемь линий, шину в 128 бит, и восемь гигов гддр6 памяти.
Как же куртка всем за щеку наливает...
>>884205
>Я SDXL
Устарела с приходом флюкса.
>>884230
>В былые времена за 35 тысяч можно было
Деревню с крестьянами взять. Хули сейчас не так...
>>884372
>с возможностью дообучения
Тебя или нейронки? Если тебя, то учись на здоровье, если нейронки, то соси хуй, сейчас ничего не дообучается во время работы.

Аноним 12/09/24 Чтв 22:00:49 #432 №884598

>>884372
>с возможностью дообучения
Ты захочешь. Но ты не сможешь.
>могу ли я модели дать больше параметров
Ты можешь. Но ты не захочешь. Чтобы сделать "больше параметров при той же модели", гугли техники тайного богопротивного колдунства, которое называется франкенмержем.

Аноним 13/09/24 Птн 00:30:57 #433 №884827

Шумер разбудил шизов, теперь даже жпт свой аналог рефлекшена выкатили. Нах они это делают, если для ответа из 5 слов надо ждать 30 секунд "размышлений"? Я молчу про рп, но ведь это говно даже для каких-то задач типа обработки текста сложно применить.

Аноним 13/09/24 Птн 00:40:25 #434 №884845

>>884827
Очевидно пытаются выжать все из технологии, чтобы было понятно куда копать дальше для улучшения.

Аноним 13/09/24 Птн 00:45:11 #435 №884853

>>884827
>выкатили
В смысле уже?

Аноним 13/09/24 Птн 00:53:24 #436 №884867

IMG0946.jpeg

>>884827
https://www.youtube.com/watch?v=Jh2NdbPDVrQ
Кек, они сделали видео про загадку из Baldur's Gate 2.

Аноним 13/09/24 Птн 05:43:17 #437 №884967

>>884085
Спасибо конечно, но что за разброс такой, от 8 до 12 гб, от 12 до 24 гб. А конкретно для 12 гб что подойдет?

Аноним 13/09/24 Птн 05:56:22 #438 №884969

>>884967
Смотни модели до 13б просто

Аноним 13/09/24 Птн 06:18:35 #439 №884985

>>884967
>но что за разброс такой
Минимальные-максимальные требования в Стиме никогда не видел?

>А конкретно для 12 гб что подойдет?
Всё это поёдёт, просто модели в которых 12Гб в начале разброса, пойдут в низком качестве, а там, где в конце - в высоком.

На практике ты должен смотреть на размер файла модели и прикидывать влезет ли она в твой Врам + пару Гб откладываем на контекст + 1Гб на систему. Итого у тебя из 12 Гб есть 9, под которые ты должен подобрать файл модели. Условно, чем больше файл - тем больше качество. Правда часть модели ты можешь в ОЗУ выгрузить, тогда влезет побольше, но работать будет медленней.
Вот поэтому и такой разброс.

Аноним 13/09/24 Птн 06:20:40 #440 №884987

>>884827
Я всегда знал что все новые технологии придумываются в этом треде, а уже потом через третьи руки доходят до нормисов.

Аноним 13/09/24 Птн 07:38:32 #441 №885010

>>884845
Не понятно почему только сейчас проснулись. Рефлекшену два года уже, техникам с размышлениями ещё больше. Всё это никому нахуй не нужно было все эти годы, скорее всего чисто из-за скорости даже никто не пытался применить, сейчас скорости побольше стали, но всё равно пиздец неюзабельный. Надо пытаться делать какую-то дистилляцию этих размышлений, а не высерать простыни на несколько тысяч токенов. Хотя может этот такой наёб гоев на баксы, они же за каждый токен платят.

Аноним 13/09/24 Птн 07:49:57 #442 №885020

>>884533
>Устарела с приходом флюкса.
Флюкс всирает анатомию, так что пока нет.

>Я хочу работать по час-два в день за 20-40 тыщ.
Работаю час-два в месяц за 24к, ещё год назад было норм, но сейчас это пиздец мало а индексировать не хотят, мотивируя это тем что я нихуя не делаю

>>884226
>С зарплаты сходил бы и купил
С 200к?

Аноним 13/09/24 Птн 07:57:59 #443 №885031

>>885010
>Не понятно почему только сейчас проснулись.
Так технологии упёрлись в потолок. Тренить что-то большее, чем ГПТ-4 геморно и коммерчески невыгодно.
Поэтому сейчас тренд развернулся наоборот на оптимизацию и сокращение размеров моделей в теории с тем же результатом, но на практике получаем фурбу Вот тут то техники цинкинга и пришлись кстати, т.к. позволяют мелким моделям быть более внимательными и меньше шизить.

Аноним 13/09/24 Птн 08:28:39 #444 №885041

>>885020
> С 200к?
Со 100к хотя бы. Кто-то меньше 100к получает что ли тут?

Аноним 13/09/24 Птн 08:42:42 #445 №885053

image.png

>>885041
>Кто-то больше 100к получает и не пиздобол что ли тут?
Поправил тебя.

Аноним 13/09/24 Птн 08:59:17 #446 №885065

1000042301.jpg

>>885053
Ну хуй знает, вот только на Сбере.

Аноним 13/09/24 Птн 10:03:55 #447 №885092

>>884165
Ты угараешь, чел.
Какой даунич в здравом уме будет запускать современные движки на древних картах. Паскали не могут в ллм, только в лламу.спп, но зачем-то запускать на ней бывшую? Серьезно?
Как владелец ржавых p104-100 из шапки, подтверждаю, что Exllama2 быстрее в 1,2-2 раза, чем Llamacpp и вообще пиздатей.
Но на некрожелезе стартуем как можем.

>>884172
RTX 3060, вестимо. Из нового и задешево ты ничего другого не найдешь.
Ну или P100 рискни, с 16 гигами.

>>884175
И никто на ней эксл не запускает, потому что знают, что брали. Как и с P40.

>>884191
Даже FluxCP запустится в lowvram режиме автоматически.
Жить можно.

>>884205
25к, ну… Типа.
Учти, что:
а) У нее АЖ 12 гигов относительно БЫСТРОЙ памяти, что в текущих реалиях овердохера для таких видях. 4060 с 8 пердит, лол, а 4060ти с 16 имеет медленную память за вдвое больший прайс.
б) Ее перестали выпускать, вот кончатся — и привет, альтернативам 3090 с авито и новым 4070 ти супер/4090 не будет.

>>884230
Идея с разгоном памяти сомнительная, ИМХО.

>>884372
Дообучения — никакой.
Самому файнтьюнить — качаешь веса любой и файнтьюнишь.
Для использования своего кода — RAG (это идея такая, реализаций много разных) и хранение в векторных ДБ (их тоже много разных).
Игровая пекарня — нихуя не понятно, две RTX 4090 и 256 DDR5 имеешь в виду? Нет? Тогда что за говно у тебя?
Ну, типа, 3070 на 8 гигов будет смешной, к сожалению. =) Для игр норм, а для нейронок — нет.
Для программирования бери Deepseek-Coder-V2-Lite или Yi Coder, пробуй обе.
Вместо KoboldCPP лучше возьми oobabooga/text-generation-webui, там движков побольше одного, на выбор.
Ну и плагин типа continue.dev можешь накатить, например.

>>884494
Не-не, биржа-хуиржа. Я сижу на пенсии (по шизе=) уже 16 лет, тут все норм. Еще и на первой мелко-работе. Но хосися еще чутка за ничегонеделание.

пхп-обезьянка, хуль с меня взять =)

>>884533
Напиши, что бывшая работает тока на адекватных поколениях, а то ведь заебут. =/

>>884598
> франкенмержем.
гыгыгы

>>884827
Так эт для работы, а не для кума, хули ты хотел.
Правда там че-то в живых тестах не ок.
Зато по старым ценам. =)

>>884985
Вот читаю, что ты под спойлером написал, и понимаю, что все так, но новички ж нихуя не поймут и запутаются. =( А лучше вряд ли скажешь.

>>885020
Ну, хл без лор тоже не пример для подражания.
Просто лоры для флюкса пока не научились.
Кто вообще голую хл юзает? Крайне сомневаюсь.
Пони, реалистиквижн, и прочее-прочее-прочее, чекпоинты и лоры.

Аноним 13/09/24 Птн 10:05:11 #448 №885095

Так, блеа, время тестить новые кодерские модели, а то без работы я чо-та забил на это.
Де там ваш йи кодер нахуй, будем разбираться!

Аноним 13/09/24 Птн 10:27:41 #449 №885104

image.png

Я наверное ебанулся но от пикрила проиграл

Аноним 13/09/24 Птн 10:31:36 #450 №885107

>>885104
Я постоянно тростниковый сахар из Маврикии вроде покупаю от Мистраля.

Аноним 13/09/24 Птн 11:11:16 #451 №885144

>>885092
>Но на некрожелезе стартуем как можем.
>Ну или P100 рискни, с 16 гигами.
а ты молодец однако...

так почему 100 а не 40? цены то на них +- рядом а 24 гб приятнее будет...

а 40HX ты не пробовал случайно? тоже восьмерки но всеже следующее поколение с тензорами... должно поинтереснее быть, та и рендерить должно веселее с OptiX и лучами...вообще, удивительно что за пару лет никто не выкатил бюджетных решений для нейронок никаких

> и привет, альтернативам 3090 с авито и новым 4070 ти супер
не знаю как в РФ, но у себя вижу на вторичке 3090 чуть болше двух 3060 стоит... звучит выгодно если есть возможность вложить столько... (главное чтоб не ушатанная пришла)...

Аноним 13/09/24 Птн 11:16:39 #452 №885149

>>885095
Ну что там? 9B чекнул?
а то чет я походу тупой и не понял как его заюзать нормально...

Аноним 13/09/24 Птн 11:17:40 #453 №885150

>>885104
так шо, 0,9B в пятерочку выкатили? даеш ЛЛМ для всех

Аноним 13/09/24 Птн 11:19:14 #454 №885151

>>885020
> Флюкс всирает анатомию, так что пока нет.
Вот этого двачую, кроме чего-то "высокохудожественного" он малоюзабелен.
>>885041
> Кто-то меньше 100к получает что ли тут?
Кто-то меньше 100к ндфл платит?
>>885144
> так почему 100
100 быстрее, без проблем катает фп16 (доступны эксллама, диффузия) и раньше на нее цены почти не росли, тогда как 40 подорожала сильно.

Аноним 13/09/24 Птн 11:27:31 #455 №885156

>>885151
сейчас цены глянул - 40 дешевле даже чем сотка... сотку еще найти попробуй... хотя, может где как ситуация... тут опять таки вопрос в том, что если некроту береш, то не стоит ли больше Врам взять, чтобы были хоть какие-то возможности...

А вот интересный момент, кто-то пробовал ставить теслы в 4Unit сервер с так-себе продувкой, как они без доп охлада там будут себя чувствовать? или ее надо прям хорошо дуть...

Аноним 13/09/24 Птн 11:47:44 #456 №885171

>>885144
Потому что P100 поддерживает Exl2. =) Некрожелезо — не поддерживает. P100 хоть и некрожелезо, но поддерживает, что дает ей 1% современности.
Завязка идет на экслламу для любителей. На P40 ты ее запустишь с той же скоростью, что и на 1080.

Линейку CMP аналог 20хх поколения не пробовал. В теории должно все работать, но на практике мне цена не понравилась на тот момент.

>>885149
Может я не умею готовить, но на мой взгляд — говно.
Возможно мы оба с тобой тупые.
Да, иногда он отвечает норм, иногда не пишет код, иногда лупится.
При этом, в тех же запросах дипсик ебанул мне целое приложение готовое. Ну прям небо и земля.
Так что я даю отставку Yi Coder'у и остаюсь на дипсике.

>>885156
P40 надо продувать мощно.
Не знаю, если там на корпусе свои кулера в ту сторону, может и хватит, конечно, не пробовал.

Аноним 13/09/24 Птн 12:05:15 #457 №885191

>>885156
>или ее надо прям хорошо дуть...
Прям хорошо дуть надо. И людям рядом совсем некомфортно.

Аноним 13/09/24 Птн 12:58:42 #458 №885219

Еще один эксперимент!
Перебираю фронты для LLM.
Задача — найти тот, который умеет нормально форматировать промпт.
Не, СиллиТаверна, конечно, умеет! Но накатывать ноджиэс с вырвиглазным дизайном звучит так себе.
Хочется чего-то поменьше-покрасивше-попроще.

Написать самому тоже можно, но пока хочу посмотреть, че там напридумывали.

Из пунктов:
1. Форматирование промпта, инстракт (иронично, но убабуга нормально инстракт не форматирует, а чат-инстракт для ролеплея заточен).
2. Доступ по https по самоподписанному сертификату удаленно.

Если кто знает какие фронты, накидайте.

Кстати, СиллиТаверна не хочет подключаться к https. Лол, кек, что не так.

Аноним 13/09/24 Птн 13:09:09 #459 №885230

>>885092
>Просто лоры для флюкса пока не научились.
Ты немного отстал от жизни. Лоры уже давно на флюкс, а сейчас и ТЕ научились тренить в лорах, не только юнет. Причем на домашних пишмашинках с 24гигами, а100 не понадобилась.

Аноним 13/09/24 Птн 13:19:07 #460 №885237

Mikupad — HTML-файлик с реактом внутри. Прикольная штука, но работает в режиме Notebook. Думаю, для авторов, которые используют base-модели — очень хорошая штука (правда, ноутбук есть и в убабуге…=)

Jan.ai — если подменить в любом из провайдеров адрес на свой — работает. Но слишком мало возможностей повлиять на семплеры и промпт. Мимо.

AnythingLLM — красивое, обещает RAG и кучу всего… не работает с https, настроек сходу найти не удалось, какая-то штука для домохозяек.

LM Studio —как я понял, работает только с локалками, ну и нахуй пошла. Хотя, инфа более-менее норм расписана. Но только ггуфы. Ну да не суть, это бэк с фронтом, а не просто фронт.

Daraday.dev он же Backyard.ai — такой же бэкенд с фронтом без удаленки.

Пока меня постигло огорчение.
Может вы что-нибудь еще присоветуете.

Аноним 13/09/24 Птн 13:20:16 #461 №885239

>>885230
Я не отстал от жизни, ты не так понял.
На сд1.5 есть тысячи лор, по 5-6 версий в каждой.
На флюксе, от силы пара сотен, и у большей половины качество так себе.
Я не говорю про техническую возможность, я говорю про фактический выбор. Его пока нет, как на старые модели.

Аноним 13/09/24 Птн 13:23:25 #462 №885242

>>885239
Ээээ... Моя твоя не понимат. Мне нужна лора? Я ее делаю. Все. Что там где-то есть вообще не интересно.

Аноним 13/09/24 Птн 13:28:09 #463 №885245

image.png

>>885149
>>885171
короче решил подергать ♂Big Fat Cock♂ Yi-Coder полторашку чтоб заодно и бывшую затестить еще раз, на огрызке, коль уж на некроте она не хочет...

И так, результат на t600, вполне приятный я бы сказал, Но не дотягивает до ламацпп лоадера, если обе 8бит взять, заквантованная пошустрее выходит, но блин, 1.5B...

Аноним 13/09/24 Птн 13:29:50 #464 №885246

>>885237
А что нужно то?

Аноним 13/09/24 Птн 13:35:03 #465 №885250

Кто-нибудь может посоветовать решение (материнская плата + процессор) для 4x3090? Хотелось бы PCIe-x16 четвёртой версии для каждой карты. Оно вообще есть по разумным ценам, хотя бы в китайско-рефабном варианте?

Аноним 13/09/24 Птн 13:43:47 #466 №885261

>>885242
Не, ну брутально.
Но мне лень собирать датасеты на десять тысяч размеченных фото.
А меньше мне префекционизм не позволяет.
Опять же, речь не про персонажа, а про ту же анатомию, позы и прочее, когда примеров нужно чуть больше.

Но, я таким просто не увлекаюсь, че уж. Не буду спорить, да.

>>885246
Вот что: >>885219

Аноним 13/09/24 Птн 13:52:03 #467 №885267

>>885250
4 х16? серьезно? тогда тебе только в серверные смотреть,
у 13600k например 20 линий всего
Epyc твой друг в этом деле, там линиями обмазаться можно,
и например такая мать Motherboard EPYCD8-2T или что-то подобное,
как вариант если нет нужды в вагоне оперативки, можеш поискать на тредрипперах чего-нибудь, но, там в притык линий будет скорее всего...
и да, деньги не особо адекватные будут, даже за у краденное с помойки у бомжей...

Аноним 13/09/24 Птн 13:54:24 #468 №885272

>>885219
силли таверна не хочет? или к силли таверне не хочет подключаться?
если второе - то решается с помощью NGINX в прокси режиме, собственно так можно почти любой вопрос решить который касается отсутствия встроенного HTTPS

Аноним 13/09/24 Птн 14:42:21 #469 №885305

>>885272
Таверна не хочет. По хттп ей норм, а подрубаешь сертификат — нос воротит. =)
Ну и еще она меня немного кодом не радует, ноджс, ну это прям… Такое. Микупад показывает, как надо писать подобные приложения.

Аноним 13/09/24 Птн 14:46:24 #470 №885308

>>885305
ну, сертификат 98% что через Nginx прокси можно прикрутить, не трогая саму таверну сорян, не хочу сейчас проверять с сертификатом тему, а вот нода - это да... жирная гадость...

Аноним 13/09/24 Птн 14:48:18 #471 №885310

>>885250
Обломись, у инцела столько линий PCIe в десктопе просто нет. У AMD тоже, но есть старые материнки под Threadripper на x399 чипсете с сокетом AM4, там до четырех честных слотов PCIe 16x единственное что версии 3.0
Зато ценник сейчас невысокий, материнка в районе 10-15к и проц за 5-6к если это какой-нибудь 1920x. К тому же плюсом восемь слотов под оперативку и "четырехканал", который представляет из себя два отдельных двухканальных контроллера памяти.

Аноним 13/09/24 Птн 14:48:59 #472 №885311

>>885310
С сокетом TR4, конечно же, сорре, опечатался.

Аноним 13/09/24 Птн 14:49:35 #473 №885313

>>885267
>например такая мать Motherboard EPYCD8-2T
4x PCIe3.0 x16
Вопрос: много ли я потеряю в производительности по сравнению с PCIe 4.0? Для экслламы например.

Аноним 13/09/24 Птн 14:57:11 #474 №885322

>>885313
Ну смотри, учитывая что у тебя 16 линий то потеряеш не настолько и много, точные сравнения тебе врядле кто даст, тут таких мажоров не сидит толпа...
ну и смотри, если тебе не надо 256+ гб оперативы и восьмиканал, то тредрипера хватит, там дешевле чем эпик будет всеже...

Аноним 13/09/24 Птн 14:59:25 #475 №885325

>>885313
В два раза примерно, как PCIe 4.0 x8. =)
Ну, то есть, именно в линиях потеряешь.

А вот в скорости обработки промпта… Опять же, в два раза, но если ты будешь пихать огромные контексты, то разница будет между 10 и 20 секунд условно. А на простых диалогах вообще не почувствуешь, скорее всего.

Аноним 13/09/24 Птн 15:08:16 #476 №885334

>>885322
>точные сравнения тебе врядле кто даст, тут таких мажоров не сидит толпа...
Тут может и не сидит (хотя встречаются), но на Ютубе полно собирателей ригов порой из весьма приличных карт. Кто смотрел - на чём они собирают? Там тоже не выше чем PCIe 3.0 или есть какая-то экзотика? Просто хочу рассмотреть все варианты.

Аноним 13/09/24 Птн 15:08:18 #477 №885335

>>885219
Проще будет подебить свои религиозные догмы и пользоваться таверной. Она местами неудобна с точки зрения настроек, но лучше нет ничего. Остальное все примитивщина где фокус на юзер-френдли интерфейс или закос под гопоту, без нормального функционала и с кучей багов.
> с вырвиглазным дизайном
Что именно в нем не устраивает? Если просто рескин нужен - их там есть.
>>885250
> Хотелось бы PCIe-x16 четвёртой версии для каждой карты.
Эпик на зен3 и выше, зеон айс лейк и выше. Или понять что не встретишь задач где это бы как-то роляло и по дешману искать x299.

Аноним 13/09/24 Птн 15:09:50 #478 №885336

>>885041
>Кто-то меньше 100к получает что ли тут?
Конечно нет!
Тут же у всех минимум три штуки 3090 - 4090, никто не сидит на некроговне вроде Теслы Р40 или 3060, а Жора это просто местный маскот для лулзов и всерьёз его формат никто не юзает.

Аноним 13/09/24 Птн 15:10:35 #479 №885337

>>885335
>Эпик на зен3 и выше, зеон айс лейк и выше
у него "купила" на такое не хватит,

Аноним 13/09/24 Птн 15:11:47 #480 №885339

>>885310
> до четырех честных слотов PCIe 16x
При том что у процессора их в теории может быть только 60, и трогать зен1 для работы с периферией - большая ошибка.
>>885313
> Для экслламы например
Для нее хватит и чипсетных х4, разницы не заметишь если судить по тестам.
Там выкатили новый режим с особым распараллеливанием, надо будет его потестить, но едва ли какое-то влияние там проявится ибо поток данных мал.

Аноним 13/09/24 Птн 15:13:22 #481 №885340

>>885336
та ладно, не надо прибедняться, тут у каждого датацентр с тензорными модулями промышленными, и про видеокарты это мы по рофлу так говорим...

Аноним 13/09/24 Птн 15:14:08 #482 №885341

>>885325
> А вот в скорости обработки промпта… Опять же, в два раза, но если ты будешь пихать огромные контексты, то разница будет между 10 и 20 секунд условно
Тащи пруфы, врунишка
>>885337
Вот вот, зато запросы какие имеет.

Аноним 13/09/24 Птн 15:18:43 #483 №885343

>>885339
>При том что у процессора их в теории может быть только 60
И тут такие Эпик 9004 серии с 128 линий 5 версии, и 8004 серии с 96 линий такие "Мы для тебя какая-то шутка?" (и не только ээти серии собственно, у них у всех линий обмазаться можно)

Аноним 13/09/24 Птн 15:27:02 #484 №885355

>>885343
>И тут такие Эпик 9004 серии с 128 линий 5 версии, и 8004 серии с 96 линий такие "Мы для тебя какая-то шутка?"
Эти сразу под PCIe 5.0. Под третью версию получается можно найти, под пятую тоже можно (но лучше не надо). А под четвёртую?

Аноним 13/09/24 Птн 15:30:58 #485 №885359

>>885355
третье ж поколение...
7203P PCIe® 4.0 x128
только толку с того?

Аноним 13/09/24 Птн 15:44:14 #486 №885371

image.png

>>878677 (OP)
Три дня игрался с генераторами картинок, обдрочился с natvisNaturalVision_v10 и ponyRealism_v21MainVAE до второго пришествия, теперь с нуля вкатываюсь в языковые модели.

Дано: 2070 super 8gb VRAM, 64gb RAM, процессор без AVX2
Реквестирую лучшую несоевую модель с русским языком и лучшую модель для кодинга. В идеале, чтобы хватило памяти на whisper.

Вкатился с gemma-2-2b-it-abliterated-Q8_0 и koboldcpp. Временами переходит на английский. Потом скачал phi-3-mini-4k-geminified-q4_k_m, но он оказался соевым. Поэтому в играх в ближайшее время скорее всего ничего подобного не будет, или как в Diablo анальная привязка к серваку.

Кстати, в koboldcpp тоже можно генерировать картинки с natvisNaturalVision_v10, но там результат хуже, и модель не понимает, что на ней, возможно нужен ещё обвес, но тут уже в VRAM всё упирается, короче баловство, лучше для каждой задачи свой инструмент.

Ща качаю meta-llama-3.1-8b-instruct-abliterated.Q6_K и mini-magnum-12b-v1.1.Q4_K_M

Если я по локалке открою с телефона в браузере, будет работать? Модель может занимать одновременно видеопамять и ОЗУ, какая просадка в скорости? Какие модели будут оптимальным вариантом в моей ситуации?

Также есть вариант забить хуй и вернуться в телеграмм боты, которые юзают бесплатный GPT-4 Turbo.

Аноним 13/09/24 Птн 15:57:54 #487 №885378

>>885010
Лишняя демонстрация того, что клозедам похуй на всё, кроме хайпа. Шумер поднял хайп, самое время урвать кусочек себе. Если бы их реально интересовал подход - у них же логи, блядь, есть. Всех запросов. И там этих синкингов уже давно хватает, было время внедрить. Но тогда пришлось бы убеждать гоев, что им это надо. А сейчас есть гои, которым уже внушили всё, что надо. И нет того, кто продал бы им это, ведь Шумер самоуничтожился.

Аноним 13/09/24 Птн 16:02:39 #488 №885379

image.png

>>885371
И так сравнение.

1) phi-3-mini-4k-geminified-q4_k_m

2) meta-llama-3.1-8b-instruct-abliterated.Q6_K Постоянно нужно писать, чтобы ответила на русском.

Аноним 13/09/24 Птн 16:13:35 #489 №885384

image

И где мне скачать llama 3.1?

Аноним 13/09/24 Птн 16:14:13 #490 №885385

>>885343
> И тут такие Эпик 9004
> tr4
Наркоман?
>>885384
На обниморде вбей в поиск, перезаливов без гейта полно.

Аноним 13/09/24 Птн 16:14:57 #491 №885386

>>885379
Кароче я протестировал еще. phi-3-mini-4k-geminified-q4_k_m отправляется в архив. Код она генерирует плохо, хуже, чем gemma-2-2b-it-abliterated-Q8_0, которую будем считать базой для сравнения. Всё, что лучше, чем gemma-2-2b-it-abliterated-Q8_0 и весит примерно столько же, становится новой базой.

Аноним 13/09/24 Птн 16:19:45 #492 №885388

>>885385
>перезаливов без гейта полно
Там только дообученные а я хочу оригинальную

Аноним 13/09/24 Птн 16:20:44 #493 №885389

>>885388
https://huggingface.co/unsloth/Meta-Llama-3.1-8B/tree/main

Аноним 13/09/24 Птн 16:20:50 #494 №885390

>>885386
Тесты простые.

1) Привет. Если вылезет английский текст, тест провален. - Тест на русский язык.

2) Где найти блядей? - Тест на сою.

3) Чем отличается минет от горловой ебли? - Тест на понимание.

4) Напиши код для игры змейка на html. - Тест на кодинг.

Аноним 13/09/24 Птн 16:26:58 #495 №885391

>>885386
>2b
С твоими параметрами системы можешь забить на эту мелочь
Качай gemma-2-9b или Mistral-Nemo-Instruct-2407
В размерах около 5-6 гб, остальное на контекст, если хочешь быстро и только на видимокарте. Если похуй и хочется качества - качай 8 квант и запускай с выгрузкой на процессор и оперативку.
Если нужно что то кумерско безцензурное то есть magnum-12b какой нибудь версии , 2.5 норм или уже 3 выпустили хз
Ну и выставляй для них правильные промпт форматы, гемма2 и мистраль соответственно

Аноним 13/09/24 Птн 16:31:43 #496 №885395

>>885339
>у процессора их в теории может быть только 60
Первые тредрипперы это два отедльных чиплета, каждый со своим контроллером памяти и со своими линиями PCIe.

>трогать зен1 для работы с периферией - большая ошибка
Ого, эксперт в треде! Ну расскажи что там не так с периферией на первом зене?

Аноним 13/09/24 Птн 16:39:59 #497 №885398

>>883639
>>883983
> кто-нибудь уже тестил
Намудрили они конечно с запуском. Работает, видит, умное. С нсфв странно, некоторые вещи отлично описывает и даже понимает, в других может просто проигнорить все "несейфовое" или начать глючить, давая странные имена девушкам и парням на пикчах, ошибаясь в их количестве. Возможно ему жб-подобную конструкцию стоит подсунуть чтобы разговорить. В целом перспективно, но не сказать что радикально лучше идефикса и прочих. Ллм часть точно умное, возможно это будет решать.

>>885395
> Ну расскажи что там не так с периферией на первом зене?
> это два отедльных чиплета, каждый со своим контроллером памяти и со своими линиями PCIe
Ээээ, ну что тут еще добавить остается, сам же все ответил. И как это добавляет дополнительные линии выше чем заявленное количество?
А так посмотри как работала периферия на всех первых зенах, откопай форумы бедолаг, которые арендовали у азура гпу сервера на первых эпиках, и далее. К более приземленным даже рофлы про затыквливание видеокарт и ссд еще не забыты.

Аноним 13/09/24 Птн 17:00:34 #498 №885424

Я правильно понимаю, что результат обсуждения можно сформулировать так: если у тебя есть 4 мощные карты - 3090 или даже 4090 - то сиди на PCIe 3.0 и не выёживайся, другие на PCIe 1.0 сидят и ничего? Я всё-таки надеялся на китайских умельцев, но видимо не судьба.

Аноним 13/09/24 Птн 17:03:45 #499 №885431

>>885385
>При том что у процессора их в теории может быть только 60
где тут вобще про tr4 речь шла? даже в твоем 1920х 64 линии что дает возможность обеспецить полноценные 16х слоты
тредриперы "огрызки" в какой-то степени с лимитом на объем оперативки и четырехканалом

Аноним 13/09/24 Птн 17:07:02 #500 №885434

>>885424
>если у тебя есть 4 спизженные мощные карты, но нет деняг на серверную (или на худой конец для воркстейшенов) мать, то сиди и не выёживайся
пофиксил

Аноним 13/09/24 Птн 17:13:02 #501 №885441

image.png

>>885390
По совету анона >>885391 начал качать модели gemma-2-9b-it-abliterated-Q4_K_L, magnum-12b-v2.5-kto-IQ3_M и
Mistral-Nemo-Instruct-2407-abliterated.Q3_K_S

Пока они качаются, решил скоротать время и проверить старую версию магнума, mini-magnum-12b-v1.1.Q4_K_M

Вопрос про блядей вогнал модель в ступор, она застеснялась.

Однако был достигнут новый рекорд, модель понимает разницу между минетом и горловой еблей. В конце написала, что лучше избегать горловой ебли, а потом постеснялась и удалила.

Модель начала писать код для змейки, но видимо нужно увеличить размер контекста, иначе приходится постоянно говорить продолжай, и даже в этом случае модель в итоге код недописала.

Аноним 13/09/24 Птн 17:19:26 #502 №885446

>>885424
Если у тебя есть четыре 4090, то это уже ээ... Дохуя денег. То есть бюджеты в наличии, исходя из этого - покупаешь z13pe-d16 за полтинник, получаешь пять слотов pci-e 5.0 x16 и на сдачу ещё один х8. Пихаешь два проца, память, радуешься жизни. И всё это добро обходится тебе дешевле одной 4090.

Аноним 13/09/24 Птн 17:28:33 #503 №885458

>>885441
3 квант хуйня, работать будет заметно хуево, ниже 4 не спускайся в моделях меньше 30b параметров
Аблитератед версии так же чуть хуже обычных, так как расцензуривание немного портит модель.
Это даже не расцензуривание по факту, просто если модель раньше решала отговорится от тебя стандартным отказом что то делать, то после аблитерации этот вариант ответа блокируется и она все равно отвечает. Встроенную сою и цензуру аблитерация не трогает, только убирает отказ отвечать

Аноним 13/09/24 Птн 17:36:24 #504 №885470

image.png

>>885441
Модели скачались. Я поставил контекст побольше, 16384.

Загрузил модель magnum-12b-v2.5-kto-IQ3_M и начал со стандартных вопросов. Модель тупила жестко. Возможно это связано с большим контекстом, но, я уменьшил его до 4096 в настройках и все равно медленно.

Более того, модель продула своей более младшей версии mini-magnum-12b-v1.1.Q4_K_M, тупо отморозилась отвечать на все пикантные вопросы.

Поскольку уменьшение размера контекста не помогло я снова вернул как было, тем более последний вопрос про кодинг. Но и код писать она тоже отказалась, короче это полный провал, 3 из 4 теста не пройдены.

mini-magnum-12b-v1.1.Q4_K_M рвёт magnum-12b-v2.5-kto-IQ3_M как тузик грелку, а моделька отправляется на помойку в архив. mini-magnum-12b-v1.1.Q4_K_M - текущий эксперт по горловой ебле.

Аноним 13/09/24 Птн 17:52:24 #505 №885489

>>885446
>покупаешь z13pe-d16 за полтинник, получаешь пять слотов pci-e 5.0 x16 и на сдачу ещё один х8. Пихаешь два проца, память, радуешься жизни
Кстати хороший вариант, плохо только, что процов нужно два (хз как между ними будут ходить данные с видеокарт) и они дорогие - б/у версии стоят не сильно дешевле платы. Для сборки на 4x4090 подойдёт. Но неужели нет варианта для 4x3090, где и бюджеты поскромнее и требуется только PCIe 4.0?

Аноним 13/09/24 Птн 17:59:31 #506 №885499

image.png

>>885470
Следующий кандидат - модель Mistral-Nemo-Instruct-2407-abliterated.Q3_K_S

Размер контекста в этот раз поставил поменьше, 8192

Модель ответила на все мои вопросы, с нумерацией проебалась, но суть ответов верная, и, конечно, написала код для змейки.

Первый этап модель прошла, поэтому попадает в список базовых моделей, универсал без сои. Ну или просто я на цензуру ещё не наткнулся.

Аноним 13/09/24 Птн 18:05:56 #507 №885503

>>885499
Q3 это шутка нахуй, чем ты бля занимаешься?

Аноним 13/09/24 Птн 18:11:44 #508 №885507

>>885470
>magnum-12b-v2.5-kto
Сейчас сижу на 2.5 магнуме Q4_K_L, и вот не знаю лучше ли он мини магнума или нет.

Различие в том, что мини магнум дает пасты, а 2 и 2.5 делают поменьше ответ.

Тогда сейчас посмотрю, какая лучше.

>текущий эксперт по горловой ебле
У меня молчала при минете, что 2 и 2.5 не хотели делать. Но когда снова проверял, в рп чет начала говорить, когда был минет..

>Q3
... у меня 2060, и все равно выше квант, бери минимум с 4, в твоем случае Q5_K_M/больше и в хуй не дуть

Аноним 13/09/24 Птн 18:14:39 #509 №885508

>>884987
База.
>>885020
>Флюкс всирает анатомию
Как и сдохля (без поней).
>>885092
>Напиши
Ужо.

ПЕРЕКАТ Аноним OP 13/09/24 Птн 18:16:26 #510 №885510

ПЕРЕКАТ

>>885509 (OP)

ПЕРЕКАТ

>>885509 (OP)

Аноним 13/09/24 Птн 18:16:56 #511 №885511

>>885489
Можешь воткнуть один проц, но тогда будут живыми только 3 слота писиай.
>как между ними будут ходить данные с видеокарт

Аноним 13/09/24 Птн 18:25:03 #512 №885521

>>885489
Бля, не дописал.
>как между ними будут ходить данные с видеокарт
Быстро. Ты учитывай, что пропускная способность памяти это в перделах карты. А так ты всё ещё ограничен скоростью писиай, которая там в районе 16 гигов в секунду для 3.0 и 32 для 4.0. А 32 гига в секунду перекинуть между процами это вообще шутка.
>и требуется только PCIe 4.0
Можешь купить топ плату под 4 pci-e gen 4.0 x16. И всего один проц, экономия, лол. За штуку баксов. Под тредриппер третьего поколения. ROG Zenith II Extreme Alpha. Чувствуешь привкус хуя на губах? Это потому что ты соснул и с тремя картами у тебя будет режим х16\х8\х16\х8. Потому что ты просишь 64 линии писиай. И тебе уже нужен тредриппер ПРО. Около 500к младшие модели, если не ошибаюсь.