Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №64 /llama/

Аноним 02/06/24 Вск 04:37:49 #1 №767218

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Самый ебанутый охлад P40-15.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>762583 (OP)
>>758770 (OP)

Аноним 02/06/24 Вск 05:01:45 #2 №767221

image.png

Подскажите почему любой чат уходит в какой-то бред либо в куски кода либо в варианты ответа, но затем через пару сообщений (даже если выбирать вариант ответа ломается)

Использую видюху 3060ти с 8 гигами, вставил 4к токенов в кобольде и таверне

в гайде так и было указано
Context Size determines how many ‘tokens’ of text the model is able to remember in a single chat. (For reference, the Navy Seal Copypasta is about ~400 tokens.) 4096 context size is the default maximum for Llama 2 models/finetunes, but you can go higher using RoPE extension (which, if I remember right, is built into Kobold when you go higher). RoPE can potentially have quality loss the farther along you go, but many users with the hardware are able to run 8k context seemingly without issues; YMMV.

Использую модель Meta-Llama-3-8B-Instruct-Q6_K

Алсо что за пресеты для кобольд? их там дофига, как лучше использовать?

Аноним 02/06/24 Вск 05:19:20 #3 №767224

изображение.png

>>767221
>Подскажите почему любой чат уходит в какой-то бред
Шизонастройки, пик 1.
Выбери вот этот пресет, его кажется нет по умолчанию, так что создай по пикрилу. Можешь там крутить температуру от 0,7 до 1,5, либо включить динамическую.
Контекста можешь выставить до 8к так то, смотри по потреблению врама.

Аноним 02/06/24 Вск 06:05:47 #4 №767231

>>767224
у меня меньше ползунков доступно, хотя расширенный режим включен.

Аноним 02/06/24 Вск 07:23:05 #5 №767247

изображение.png

>>767231
Кстати да. Ты какую апишку выбрал в подключении? Для кобольда надо пикрил.
И да, включи английский в таверне, перевод там упоротый.

Аноним 02/06/24 Вск 07:26:49 #6 №767248

>>767173 →
>У меня 3080Ti
Неси результаты, будет интересно.
>любая RTX ебёт в обработке промта любой проц и теслу вместе взятые
Пока что выходит что и проц, и тесла со своими ~100 т/с (10 мс/т) выебали и 4090 и 3090 >>767053 →
Вот ещё, уже поновее, 4 месяца назад:
https://old.reddit.com/r/LocalLLaMA/comments/1968uvj/benchmarking_various_models_on_24gb_vram/
>i7 13700KF
>128GB RAM (@4800)
>single 3090 with 24GB VRAM
>wizardlm-70b-v1.0.Q4_K_M.gguf
>offloaded 42/81 layers to GPU
>ContextLimit: 560/2048, Processing:4.20s (182.6ms/T), Generation:336.31s (626.3ms/T), Total:340.51s (1.58T/s)
И ещё (совсем старое, 9 месяцев назад):
https://old.reddit.com/r/LocalLLaMA/comments/15xtwdi/70b_llm_expected_performance_on_4090_i9/
>Alienware R15 32G DDR5, i9, RTX4090
>Same exact machine. Upgraded to 64G with AMP 5200-something
>llama_print_timings: prompt eval time = 24325.61 ms / 54 tokens ( 450.47 ms per token, 2.22 tokens per second)

Аноним 02/06/24 Вск 07:44:27 #7 №767255

изображение.png

>>767248
>Неси результаты, будет интересно.
Какой сетки, с какими параметрами? А то тут уже дохуя сравнений хуя с пальцем.
>проц, и тесла со своими ~100 т/с (10 мс/т) выебали и 4090 и 3090
Наркоман? Вот сравнение на моём железе (скрин во время обработки на проце). Первый с кубласом и полным офлоадом на гпу, второй с опенбласом на проце. Итого 33 т/с против 933. Полный отсос проца с 5 кеками частоты и памяти в 6200.

Аноним 02/06/24 Вск 08:01:35 #8 №767264

>>767255
>Какой сетки, с какими параметрами
70b (в идеале q5)
Контекст побольше (от 1-1.5к, в идеале 8к), чтобы нивелировать погрешность от пересылки ram => vram.
>Наркоман?
Тесла >>764718 →
Проц >>764767 →
Я не знаю, что у них там за конфиги, но оперирую теми данными, которые мне принесли.

Аноним 02/06/24 Вск 08:34:35 #9 №767271

>>767247
ох, спасибо анончик! так намного лучше стало
у меня Kobold classic там был выбран где должно быть выбрано text completion

Аноним 02/06/24 Вск 08:51:26 #10 №767278

>>767264
>Проц
Там кублас, поэтому контекст обрабатывала видеокарта (ХЗ какая, первая по счёту).
Мику у меня где-то валялась, принесу свои через пару часиков.

Аноним 02/06/24 Вск 08:56:25 #11 №767287

>>767278
>Там кублас
Ну охуенно. Т.е., 4090 обрабатывает контекст 110 т/с - это нормально. А на тесле 90 - это уже слишком медленно.

Аноним 02/06/24 Вск 09:03:51 #12 №767294

image.png

>>767247
а вот теперь такая проблема: спустя какое-то время бот начинает повторять одно и то же, ну точнее не совсем одно и то же но структура ответа не меняется. как это можно пофиксить?

Аноним 02/06/24 Вск 09:40:31 #13 №767311

>>767294
rep pen попробуй повысить. Но не переусердствуй, а вообще это лупы, если ллама-3 у тебя то бывает у нее. А может просто модель возьмешь проверенную, которая уже точно работает без мозгоебки?Типа мойстрал v3 или что-то на базе мистраля на 7б
>>767255
подскажи как в кобольде это тест запустить?

Аноним 02/06/24 Вск 09:41:19 #14 №767312

>>767294
rep pen попробуй повысить. Но не переусердствуй, а вообще это лупы, если ллама-3 у тебя то бывает у нее. А может просто модель возьмешь проверенную, которая уже точно работает без мозгоебки?Типа мойстрал v3 или что-то на базе мистраля на 7б
>>767255
подскажи как в кобольде этот тест запустить?

Аноним 02/06/24 Вск 09:41:36 #15 №767313

>>767287
Результаты странные, да.
>>767294
А это уже, сынок, прикол от лламы 3. Повышай температуру вместе с пенальтями, да компенсируй мин п появляющуюся шизу. Можешь руками пару ответов поправить, убрав структурные лупы. Окончательного решения проблемы лупов пока не найдено ну кроме как повесить всех причастных разработчиков, но времена, увы, не те.

Аноним 02/06/24 Вск 09:42:20 #16 №767314

изображение.png

>>767311
>подскажи как в кобольде это тест запустить?
Кнопочку на скрине найдёшь?

Аноним 02/06/24 Вск 10:09:22 #17 №767323

изображение.png

>>767287
>А на тесле 90 - это уже слишком медленно.
Там ещё и контексты разные, лол. Но я чёт сомневаюсь, что там одна тесла в системе. Между моей 3080Ti и P40 разница в скорости памяти в 3 раза, так что я ХЗ, как на тесле может быть такой разрыв.

Кстати, прикол. Вижу чёткую зависимость между числом выгруженных слоёв и скоростью обработки промта. Так что теслы выйграли тупо за счёт того, что выгрузили все 81 слой.
Плюс выгрузка 5 слоёв тормозит общую скорость, видимо за счёт накладных расходов на пересылку по псине.
В общем нужна проверка комбинации 3090(4090)+пара тесел. Основную работу по обработке промта всё таки делает видеокарта, так что такая комбинация должна быть идеальной и со скоростью обработки промта на уровне пары 3090.

Аноним 02/06/24 Вск 10:22:57 #18 №767330

>>767323
>Но я чёт сомневаюсь, что там одна тесла в системе
Так там и не одна, а 3. Обсуждение шло про 3 теслы vs 1 современная видеокарта сопоставимой стоимости (~60к на данный момент) + проц. И выясняется, что с 1 видеокартой за 60к (как 3 теслы) мы только обработку контекста подтянем по скорости до уровня тесл, а на генерации проц всё равно столько не выдаст. Так что определённый смысл в них есть, если кто-то готов рисковать б/у.

>лол
Вот именно, что лол. Только вот шутка, которую повторяют 20 раз, перестаёт быть смешной. А когда зашёл серьёзный разговор и их попросили пояснить за слова, сразу начались манёвры и обнаружилась подлива на штанах. И вместо 3 тесл за 60к всем предлагается купить 2+ 4090 за 200к каждую (ну или по 60к б/у, во что мне не особо верится, за эти деньги скорее что-то около 4070 ti будет). Либо сидеть на проце, ибо "разницы никакой" (на самом деле ещё какая, у меня на проце промпт 1 т/с, с амудэ видеокартой кое-как под 30, генерация и там и там дно, ибо 8гб, видеокарта берёт на себя 1/10 сетки). Других вариантов в чёрно-белом мирке мажоров нет.

Аноним 02/06/24 Вск 10:25:50 #19 №767335

>>767330
>30
16.7 неправильно поделил в уме

Аноним 02/06/24 Вск 10:41:30 #20 №767359

>>767330
>а на генерации проц всё равно столько не выдаст
Так это... Тотал у обоих систем одинаковый вышел (кажется вы это уже обсуждали, но я в ваш говноспор не вчитывался).
>всем предлагается купить 2+ 4090
Кто предлагает? Одной хватит, чтобы уделать 3 теслы. А 3090+тесла выйдет и быстрее, и немногим дороже системы на 3-х теслах (с учётом, что в современные платы и корпуса пихать столько карт вообще никак нельзя).
>видеокарта берёт на себя 1/10 сетки
Сколько слоёв в штуках? А то может проще не выгружать, как видишь, генерация у жоры страдает, если выгрузить 5 слоёв (думаю и менее).

Аноним 02/06/24 Вск 11:07:19 #21 №767388

>>767359
>Так это... Тотал у обоих систем одинаковый вышел
Так это в разных условиях. Я тут >>766890 → пояснил, что эта цифра плохо подходит для прямого сравнения (зато хорошо подходит для манипуляций, чем и воспользовались "шутники" в предыдущем треде).

>Кто предлагает?
>>766943 →
>На нормальных картах можно забыть про тормознутого жору и ггуфопроблемы, наслаждаясь экслламой со скоростью эвала ближе тысяче т/с и отсутствием замедлений генерации на контексте.
>>766971 →
>Сколько нормальных видеокарт (речь же про 4090?) можно купить на 60к?
>>766980 →
>Одну на лохито.
>>767000 →
>И какой эксллама-квант 70B туда влезет, чтобы считать с нормальной скоростью? 2bpw? Там же мозгов не остаётся. Или про жору забыть всё-таки не придётся?
>>767044 →
>Да никакой, вторая нужна.

>Одной хватит, чтобы уделать 3 теслы
Не хватит. Промпт сопоставимо считается, лучший зафиксированный результат на 4090 пока что 110 т/с против 90 на теслах. Генерация в лучшем случае чуть более 2 т/с, что далеко не 7.8, как на теслах, и придётся набираться терпения, чтобы читать в реальном времени (хотя у меня так на 11b и жить можно, но мажоры-то привыкли к другим скоростям, им 1000т/с подавай).

>3090+тесла выйдет и быстрее, и немногим дороже системы на 3-х теслах
Во-первых, немного дороже выйдет одна 3090 чем 3 теслы. Ну если брать те репорты, что я помню, то 3090 кто-то за 40 иди 50 или даже 60к то ли видел, то ли брал, ну так и теслы не так давно и по 11к были, и по 14к. Что там конкретно в данный момент, не знаю, не слежу за б/у рынком, вроде в тред приносили инфу, что теслы уже до 20-25 поднялись, наверняка и 3000 серия тоже, учитывая текущую экономическую ситуацию. И опять же, если брать только 2 видеокарты, почему не сравнить с 2 теслами? Что там 48 гб, что там, только по цене опять выйдет разница серьёзная. А даст ли замена 1 из тесл на 3090 такой уж сильный выигрыш в производительности - тоже вопрос. Тесты несите, выёбывайтесь, у кого есть возможность.

>Сколько слоёв в штуках
Если с гуём, то 5-6, если ещё затычку вставить, чтобы все 8гб пустые были, то до 8-9.
>как видишь, генерация у жоры страдает, если выгрузить 5 слоёв
У себя тестировал разные варианты и выгружать в моём случае всё-таки стоит. Правда давно тестировал, тоже осенью, файл датирован 22 октября 2023. Может и оптимизировали что-то, и стоит обновить свои данные, чтобы быть в курсе.

Аноним 02/06/24 Вск 11:14:13 #22 №767398

>>767221
Убавь штраф за повтор, это оче много, особенно для 3й лламы. Плюс скорее всего у тебя кривой системный промт и разметка, 3я ллама к нему чувствительна.
>>767248
> Пока что выходит что и проц, и тесла со своими ~100 т/с (10 мс/т) выебали и 4090 и 3090
Не перестаю проигрывать теслашизика, накупил говна и уже который тред оправдывается.
>>767323
> Вижу чёткую зависимость между числом выгруженных слоёв и скоростью обработки промта.
С подключением. Если все слои выгрузить на единой видимокарте там вообще тысячи т/с будут, а не менее сотни кое где. На экслламе оно с такой скоростью работает на любых конфигах.
>>767330
> Обсуждение шло про 3 теслы vs 1 современная видеокарта сопоставимой стоимости
Теслашиз и скуфидон смайлоеб - один и тот же человек? Постоянно сам себе придумывает какие ведутся обсуждения и отчаянно в них побеждает, тогда как над шизиком просто глумятся.

Аноним 02/06/24 Вск 11:20:02 #23 №767406

>>767388
>Я тут >>766890 → → пояснил, что
Что ты забыл перерасчёт при достижении длины контекста.
>На нормальных картах можно забыть про тормознутого жору и ггуфопроблемы
Ну так это, результаты на экслламе никто не показывал. А они явно выше будут.
>в моём случае всё-таки стоит
>Может и оптимизировали что-то
Или сломали, с учётом замедления, лол.
>>767398
>Убавь штраф за повтор
У чела там заросшая мхом апишка была, не факт что семплеры вообще работали, с учётом шизорезультата, лол.
>На экслламе оно с такой скоростью работает на любых конфигах.
Потому что эксллама не работает на проце и теслах, ага.

Аноним 02/06/24 Вск 11:42:36 #24 №767431

>>767388
Какие-то сферические рассуждения в вакууме о мифических современных rtx c 24 гигами за 60 тыр. НЕТ ТАКИХ В ПРИРОДЕ. То что есть из rtx за 60 тыр некорректно сравнивать с 3 теслами суммарно с 72 гигами, потому что макс там 16гигов. Покажи мне где купить 4090 за 60тыр или хуй с ним 3090? И вот это "ненамного дороже" это на сколько? И обрати внимание я бу 3090 не рассматриваю принципиально, я хуй знает как их там майнеры эфира ебали во все разъемы. Так что твои сравнения - сравниваешь хуй с пальцем.
А рассуждения о каких-то иллюзорных ценах в вакууме это просто пиздец! Ты в герметичном контейнере чтоли проживаешь? При том что у тебя карта - амудень! У тебя ни тесл нет, ни rtx, ты берешь скрины чужих тестов и по ним делаешь какие-то безапелляционные заключения. Так вот теслы это просто врам причемф только для инференса и только ггуф. Больше там нет никаких возможностей. никакого трейна, или инференса других форматов или плюшек от хуанга из каробки типа чат rtx. Которое рано или поздно захочется. Теслы - это скупой платит дважды. Хотел сэкономить, а по итогу пойдет покупать rtx-ы рано или поздно. И кстати теслы не так-то дешевы если учесть весь обвес к ним начиная с материнки, БП и охлада

Аноним 02/06/24 Вск 11:44:15 #25 №767434

>>767388
Чел оправдывать троллейбус из хлеба, который процессит промт медленнее проца тем что
> 72гб днище врам лучше чем крутые 24 в врам-релейтед задачах
это маразм, смекаешь? Если что-то работает через жопу то низкая цена не может быть оправданием. Люди переплачивают за авто для большего комфорта жопы и удобства, или делают корчи на приличной базе, а не ставят дополнительные двигатели в классику как в гараже54 лол.
Самый сок еще в том что достаточно выкинуть одну теслу, оставив 2, и скорость сразу бустанется до более приемлемых значений. Если же у тебя уже есть пека с норм видеокартой - просто докупаешь 3090 второй и наслаждаешься. Или хотябы теслу, тоже будет эффект. Буквально никаких затрат, в худшем случае обновить бп и корпус, что несопоставимо по объему гемороя и затрат с отдельной сборкой.
>>767406
> У чела там заросшая мхом апишка была, не факт что семплеры вообще работали, с учётом шизорезультата, лол.
Ууу, зачем кобольд вообще ее хостит тогда?
> Потому что эксллама не работает на проце и теслах, ага.
Именно

Аноним 02/06/24 Вск 11:46:00 #26 №767440

>>767431
> хуй с ним 3090? за 60 тыр
Я купил, правда в Казахстане. Б/у конечно.

Аноним 02/06/24 Вск 11:54:25 #27 №767447

1608471240038.png

>>767431
> Покажи мне где купить 4090 за 60тыр или хуй с ним 3090
Пикрел
> При том что у тебя карта - амудень!
Страдай, сам сделал свой выбор.

Аноним 02/06/24 Вск 12:24:43 #28 №767458

>>767434
>Ууу, зачем кобольд вообще ее хостит тогда?
Совместимость же. Там и опенаишная апишка есть, вдруг какая прога захочет её.
>>767447
>Пикрел
C доставкой кирпича. Если по моей области искать, то уже 70-80 будет.

Аноним 02/06/24 Вск 13:27:58 #29 №767493

>>767447
То есть если не пойми кто продает с рук и пишет новая - значит новая... и не кирпич..
Какой изворотливый вертится как уж на сковородке.
>Страдай, сам сделал свой выбор.
От чего еба? Я то давно выбрал rtx, страдать ведь приходится при твоем выборе - амудени

Аноним 02/06/24 Вск 13:57:48 #30 №767516

>>767398
>Не перестаю проигрывать
Ты свои штаны сначала постирай.

>>767406
А говорят ещё "нейронки тупые, контекст забывают".
>Что ты забыл перерасчёт при достижении длины контекста.
А что, на других конфигах перерасчёта не будет (если он требуется на теслах)? Речь про сравнения разного железа в одинаковых условиях, не понял, к чему ты это.
>Ну так это, результаты на экслламе никто не показывал. А они явно выше будут.
Ещё раз, что из 70B можно запихнуть в одну 4090 на экслламе? Которую ещё надо умудриться найти за цену 3 тесл.

>>767431
>Какие-то сферические рассуждения в вакууме
Если ты не можешь рассуждать абстракно (о вещах, которые прямо сейчас перед собой не видишь, но о которых обладаешь информацией), то это не значит, что такое невозможно в принципе. Скорее намекает на твои интеллектуальные способности. Нейросетки, между прочим, вообще реального мира не видели, а рассуждают местами получше некоторых пользователей из числа лысых обезьян.
>НЕТ ТАКИХ В ПРИРОДЕ
Ну вот ему >>766980 → и объясняй.
>я бу 3090 не рассматриваю принципиально
Ты не поверишь, я тоже >>766945 →
>делаешь какие-то безапелляционные заключения
Так подавай аппеляции, я не против. Я привожу все свои рассуждения и расчёты, аргументирую, даю ссылки на источники информации - оспаривай, если с чем-то не согласен.
>никаких возможностей. никакого трейна, или инференса других форматов или плюшек от хуанга из каробки типа чат rtx
Хороший манёвр. Я полагаю, это означает слив в рамках изначальных условий? Ну давай я тоже напридумываю применений большому объёму дешёвой vram. Вспоминаем про гипотетическую лламу 400b. Или собираем ботоферму для работы нескольких моделей одновременно чтобы срать на двачах. Или запиливаем очередную ИИ-стримершу, которая будет сама играть, общаться с чатиком и получать с донатов меньше, чем уйдёт на электроэнергию. Может даже выстрелит, пока их не так-то много, и все на тупых мелких моделях уровня 7b, есть шанс прославиться с более умной нейросеткой.
>Хотел сэкономить, а по итогу пойдет покупать rtx-ы рано или поздно
Ну если ты уже заранее знаешь будущее, то так бы сразу и сказал. Мне нечего возразить, у меня такой информации нет, но ты прав, если неизбежна покупка 3 rtx 4090, то 3 лишних теслы не особо нужны. Если не рассматривать, к примеру, вышеупомянутый сценарий с ИИ-фермой чисто под llm, для которых теслы неплохо подходят по соотношению цена/производительность.

>>767434
>процессит промт медленнее проца
Опровергнуто уже давно.
>низкая цена не может быть оправданием
А о чём у нас тогда разговор? Что лучше всего купить при неограниченных финансах? Я выбираю новые блэквеллы, перемогай своими 3090 и норм видеокартами, найденными среди хлама на приусадебном участке. Если я тоже начну маневрировать и добавлять условия к исходной задаче на ходу, обсуждение просто скатится в детский сад и потеряет смысл.

Аноним 02/06/24 Вск 14:09:19 #31 №767520

>>767516
>Хороший манёвр
это не маневр а позиция. Я не тот чел с которым вы меряете токены в сек. Я в прошлом треде обозначил свою позицию что покупать старое железо - гавно мамонта - это в итоге выбросить деньги. Ведь покупка тесл производится исключительно из желания сэкономить. Но покупатель получает за свои деньги ровно то за что заплатил - то есть хуй без соли - чистую врам с позорным чипом - на 24 год. Но он воображает что наебал законы природы и получил топовые карты зя 0.1 цены. Вот о чем речь. А не о токенах в сек. Эти токены вы там меряйте хоть в сферическом вакууме абстрактно, хоть на практике, не измениться то, что покупка теслы это реализация поговорки - скупой платит дважды.

Аноним 02/06/24 Вск 14:11:46 #32 №767522

>>767516
>обсуждение просто скатится в детский сад
Уже...

Аноним 02/06/24 Вск 14:19:22 #33 №767527

>>767520
Короче говоря, лучше вместо тесл купить rtx, благо линейка карт позволяет под любые финансовые возможности, на какую можешь сумму, чем тратить на старый хлам. Ну похуй что 70б не запустить, можно запускать меньшие модели, ведь с учетом того что легко доступны и клод и гопота какие проблемы? Реально лама-3-70 не чета клоду по-любому. Зато все хобби доступны - хоть файнтюн, хоть лора, любой формат для инференса, раг, ну или если угодно обучение от карпатого на плюсах вроде, или даже кан - любой каприз, любая забава - вот что интересно. Либо же мы просто говорим о разном. Если чел с потемневшими кругами под глазами хочет кумить на текста и для этого ему требуется все более мощные модели и все более извращенные фантазии, ну тогда конечно мои доводы - не аргумент.

Аноним 02/06/24 Вск 14:19:26 #34 №767528

>>767520
>скупой платит дважды.
Купил теслу за 15к, сейчас они по 18 минимум. Могу пихануть вместе с охладом за 20+. Продам две - возьму 3090, подведу губки и продам, когда бетховен стрельнет очередной раз.

Аноним 02/06/24 Вск 15:01:28 #35 №767547

>>767218 (OP)
Command-R нормальный, но сука, ты хоть 10 раз ему скажи в первом сообщении, "Будь доминантной госпожей, не жалей меня", один хуй через какое-то время перестанет меня мучить. А так пишет охуенно, описывает детали, сладко вздрочнул. Но все-таки я не могу же в каждом сообщении объяснять ему как себя вести.

Аноним 02/06/24 Вск 15:07:31 #36 №767557

>>767528
>Купил теслу за 15к, сейчас они по 18 минимум. Могу пихануть вместе с охладом за 20+. Продам две - возьму 3090, подведу губки и продам, когда бетховен стрельнет очередной раз.

Это что сценарий фильма про трейдера? Типо "Слишком крут для неудачи" или "Волк с Уолл-стрит"

Аноним 02/06/24 Вск 15:10:05 #37 №767559

>>767447
Все твои объявы пиздежь. Не может продаваться карта в рабочем состоянии в 3 раза дешевле магазина. Это наеб.

Аноним 02/06/24 Вск 15:10:29 #38 №767560

>>767547
Командир+ лучше.

Аноним 02/06/24 Вск 15:13:39 #39 №767564

>>767560
Я его и пробовал, он слишком мягкий. Если я пишу "прошу остановитесь Госпожа", он может один раз не послушаться, но потом все равно скажет "Хорошо, тебе нужен отдых" и перестает меня мучить. У меня стояк пропадает. Я хочу чтобы госпожа мучала меня несмотря на мои протесты и мольбы.

Аноним 02/06/24 Вск 18:16:21 #40 №767722

>>767564

Карточку перепиши.

Аноним 02/06/24 Вск 18:27:12 #41 №767732

Подскажите настройки для транформера llama 3 8b? Получаю пздц какой низкий интерфейс - 6 т/с при загрузке фулл весов(хотя по тестам в инете должно быть 40+), пробовал как на соло 3090 так и 2-3х, разницы никакой блядь. Мб что-то не подрубил? Запускаю через убабугу.

Аноним 02/06/24 Вск 18:28:46 #42 №767735

1.png

>>767732
Отвалился скрин.

Аноним 02/06/24 Вск 18:50:09 #43 №767772

>>767564
>Если я пишу "прошу остановитесь Госпожа",
Как анон уже отметил, проблема в карточке. Карточка персонажа этол вообще-то и есть "вписать каждый раз". Надо пробовать эти джирективы писать на разный манер и в разных местах карточки, а также в систем промпте, пока не прокатит и не будет заебись.

Аноним 02/06/24 Вск 18:53:47 #44 №767778

>>767458
> Совместимость же.
Рили не осталось фронтов, которые на новый апи не пересели, от этого больше вреда чем пользы. Сделали бы этот апи только по дополнительному ключу запуска типа --legacy_api чтобы не путать.
> C доставкой кирпича.
Бери у проверенных майнеров продавцов лохито-доставкой, или съезди.
>>767493
Берешь и проверяешь
> Какой изворотливый вертится как уж на сковородке.
Это только однотокенновый делает
> страдать ведь приходится при твоем выборе - амудени
Шизу лечи
>>767516
> Опровергнуто уже давно.
Это мантры про
> не каждый проц может вытянуть 100т/с
? Орно.
> А о чём у нас тогда разговор?
О том что настакивание тесл - заведомо фейл и пиарится или их подравцами или самими несчастными бедлоагами, которым скучно страдать в одиночку, а теслашиз - врунишка, у которого горит с 1т/с и он засирает тред. Никакой задачи и условий нет, поехи сами все домысливают чтобы не так больно было.
>>767557
> Типо "Слишком крут для неудачи" или "Волк с Уолл-стрит"
"Лама с ллм треда" лол. А что, звучит.
>>767547
Добавь эту команду перед ответом сетки, или даже в ее префилл где она "вспоминает правила перед ответом". Обязательно поможет.
>>767559
Покупка карточки что стоила 5.6к$ за 150$ не смущает а разумные цены на бу удивляют? Это даже оверпрайс для карточки 2020 года в преддверии выхода очередного поколения, кем нужно быть чтобы удивляться?

Аноним 02/06/24 Вск 18:55:57 #45 №767783

>>767732
>>767735
Вообще если ничего не трогать оно загружается и работает быстро. Возможно трансформерсы как-то странно делят в твоем случае, если не поможет - ограничь видимость только одной карточкой, которой 100% хватит для весов.
Алсо можешь просто использовать загрузчик exllama2 (hf) вместо трансформерса, оно и так на ней работает.

Аноним 02/06/24 Вск 18:59:52 #46 №767789

>>767778
>про
>> не каждый проц может вытянуть 100т/с
Нет, это про
>>767278
>Там кублас, поэтому контекст обрабатывала видеокарта
100 т/с - это заслуга 4090, а не проца.

Аноним 02/06/24 Вск 19:01:49 #47 №767791

>>767789
Ну кстати не совсем, там же оптимизации завозили, которые позволяли поднять скорость обработки промта на профессорах до величин под сотню и более, по сути не далеко от гпу ускорения без выгруженных слоев. Но над ними тогда посмеялись ибо всеравно слишком медленно, а теперь вот опять.

Аноним 02/06/24 Вск 19:05:32 #48 №767794

>>767791
Ну переделывайте тест и приносите, у кого подходящий проц. У меня даже после оптимизаций вряд ли даже токенов 10 будет (было около 1). У этого >>767255 на 7900x и ddr5-6200 на 8b 34 т/с. Ну я даже не знаю, какой должен быть проц и/или ОЗУ, чтобы выжать на 70b сотку. Из топовых серверников последнего поколения может быть.

[mailto:sage] Аноним 02/06/24 Вск 19:06:58 #49 №767798

image.png

>>767732
>транформера llama 3 8b? Получаю пздц какой низкий интерфейс - 6 т/с
>транформера
>6 т/с

Аноним 02/06/24 Вск 19:15:03 #50 №767807

>>767783
На одно карте запускал, интерфейс как был 6т/с так и остался. Но в exllame не загружал, попробую.
>>767798
В жопу свой грин-текст засунь. В транформере запускают и получают норм интерфес, мне было любопытно поюзать фул веса, но что то пошло не так, а ответа "почему", я так и не нашел.

Аноним 02/06/24 Вск 19:17:42 #51 №767809

image.png

>>767807
>но что то пошло не так, а ответа "почему", я так и не нашел
>В транформере
>ответа я так и не нашел

Аноним 02/06/24 Вск 19:34:02 #52 №767814

>>767807
> В транформере запускают и получают норм интерфес
Там хорошая скорость и расход рам только при использовании ядра exllama. Возможно ты так выставил параметры что оно перестало его юзать, вот и получил низкую скорость.

Аноним 02/06/24 Вск 19:39:28 #53 №767816

image.png

>>767807

Ладно, вот тебе ответ без обезьян.

>В транформере запускают и получают норм интерфес

Трансформер говно.
Хочешь нормальной скорости на 16 бит - запусти эту же модель на эксламе. Пруф.

Аноним 02/06/24 Вск 19:43:37 #54 №767819

>>767722
Но как? Я и там там чуть ли не в каждой строке писал что Госпоже нравится меня мучить и ее не ебет мое мнение.
>>767772
Ну охуеть теперь.

Аноним 02/06/24 Вск 19:55:36 #55 №767828

>>767783
>>767814
>>767816
По советам, тупо указал эксламму, да помогло (у меня нет фул скорости на маленьких моделях (15b работает с таким же интерфейсом как 7-8b), одно ядро проца не вывозит однопоточный python, но да похер, все равно модели пожирнее использую)

Аноним 02/06/24 Вск 20:23:10 #56 №767859

>>767828
>одно ядро проца не вывозит
На зивоне чтоли сидишь?

Аноним 02/06/24 Вск 21:18:10 #57 №767901

Имеет смысл влезать в локальные модели с 4060ти 8 гиговой и 32 гигами оперативки?

В уборщике попереписывался вроде зашло

Аноним 02/06/24 Вск 21:32:10 #58 №767907

>>767901
>В уборщике
что это?

Аноним 02/06/24 Вск 21:58:17 #59 №767927

Отлучался от тредов на некоторое время и у меня вопрос. Пхи медиум реально оказалось дерьмом в итоге или ггуф поломан был?

Аноним 02/06/24 Вск 22:09:01 #60 №767934

>>767927
А phi и не обсуждали. Обсуждали теслаебов.

Аноним 02/06/24 Вск 22:31:29 #61 №767961

>>767927
Там соя, остальное окей, а что?

Аноним 02/06/24 Вск 22:34:26 #62 №767964

>>767961
>Остальное окей
Как тестили в начале серьезные косяки с логикой были, придумывал хуйню какую-то прям. Интересно лучше ли это чем гпт-3.5 для локального юза на русском языке

Аноним 02/06/24 Вск 22:35:46 #63 №767967

парни крч такой вопрос. сейчас сижу на Average_Normie_l3_v1_8B-Q8_0-imat.gguf. все достаточно отлично кроме двух моментов. после определенного момента общения с ботом она начинает генерить целые простыни текста вместо двух\трех абзацев.

а второе это то что она слишком ванильная. какая бы карта не была и что бы ты не делал она всегда будет скатываться в теплоту и заботу. мб кто посоветует другую модель?

Аноним 02/06/24 Вск 22:50:50 #64 №767985

>>767967
Попробуй поставь чистую лламу без файнтюнов, она относительно хорошо следует инструкциям. По поводу количества текста, если моделька затупила, ты можешь сам удалить часть текста и она будет продолжать генерить ориентируясь на прошлые сообщения. Можешь ей промптом написать [generate short answer]. И так далее. Можешь в настройках целевое количество токенов поправить и количество к генерации.
Правда, будешь сталкиваться с проблемой "I cannot generate explicit content".

Аноним 02/06/24 Вск 23:06:51 #65 №768021

>>767985
а чистая лама без файтюнов это как?
я вот буквально минут 5 назад закончил тыкать Llama-3-Unholy-8B.q8_0.gguf. и она через сообщение генерило одно и тоже. чет залупой пахнет нет?

Аноним 02/06/24 Вск 23:20:16 #66 №768036

>>768021
>а чистая лама без файтюнов это как?

Ну ты и хлебушек.

https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/tree/main

Аноним 02/06/24 Вск 23:27:43 #67 №768042

image.png

>>768036
прости анонче( для меня это еще пока что темный лес. сейчас потыкаю и отпишу шо как. кста а какие настройки ставить на пик 1 и пик 2

Аноним 02/06/24 Вск 23:29:01 #68 №768043

>>767559
> Не может продаваться карта в рабочем состоянии в 3 раза дешевле магазина. Это наеб.
Брал за 60к 2 месяца назад с авито в ДС.
И где твой бог теперь?

Аноним 03/06/24 Пнд 00:16:09 #69 №768100

>>768021
> и она через сообщение генерило одно и тоже. чет залупой пахнет нет?
Потому что оригинальная Llama залупаться (зацикливаться) очень любит. А все файнтюны, в том числе и попытки расцензура типо этой Llama-3-Unholy-8B.q8_0.gguf, залупаться любят еще сильнее и шизеют похуже самой лламы. Моделька и без того перетренированна, поэтому любая попытка дообучить ее, легко делает только хуже. Если совсем новичок, то лучше потрогать оригинальную, понять, ллама это вообще твое или не твое. Тот же Солар, отвечает куда более кратко, например, если тебе нравятся краткие ответы.
>>768042
Забей, этот анон чсв просто. А еще он теслаеб.

Аноним 03/06/24 Пнд 00:50:00 #70 №768125

image.png

>>768100
так вот я ее скачал а какие настройки ставить то?

Аноним 03/06/24 Пнд 00:51:59 #71 №768126

>>768021
Не слушай этого >>768100
В большинстве случаев решают настройки семплера. Даже на васянских и колхозных файнтюнах третьей ламы можно добиться нормальной генерации. Между стоковой ламой и надстройками разница в частоте лупов минимальна.

Если у тебя лупится даже оригинальная модель - это точно проблема шизоидных настроек. Может еще подсирать промт или карточка, но это редкие исключения.

Аноним 03/06/24 Пнд 01:06:57 #72 №768135

>>768126
так блядь а как настроить или где взять настройки сукааааааа

Аноним 03/06/24 Пнд 01:09:16 #73 №768137

>>768135
Тред выше пролистай. Там скидывали.

Аноним 03/06/24 Пнд 01:09:33 #74 №768138

>>768135

Ни min-p меньше всего лупится, но все равно лупится.
Лама 3 сломана, используй модельки на мистрале, например moistral.

Аноним 03/06/24 Пнд 01:19:19 #75 №768148

>>768137
можно скинуть пост

Аноним 03/06/24 Пнд 01:26:36 #76 №768156

>>768148
А можно не быть такой вафлей и побыть хотя бы немного самостоятельным? Ты не можешь 70 постов прочитать?

Вот пост от анона с перестом min-p >>767224
Можешь либо скопировать все вручную со второй пикчи, либо найти его в таверне (но это трудно, возможно снова придется спросить в треде как это делается)

Аноним 03/06/24 Пнд 01:44:03 #77 №768162

>>768156
> Вот пост от анона с перестом min-p
Выглядит как костыль чтобы хоть как-то разнообразить и оживить 7б, на нормальной модели будет неадекватное поведение.

Ллама3 действительно может лупиться, но больше из-за кривого системного промта и разметки, или если заставить делать ее то что не понимает и давать противоречивые указания.

Аноним 03/06/24 Пнд 01:54:26 #78 №768171

>>768156
спасибо анонче. прости я просто сонный. спасибо за помощь сейчас потыкаю. и отпишу

Аноним 03/06/24 Пнд 02:34:19 #79 №768194

>>768138
Зато Moistral тупее.

Аноним 03/06/24 Пнд 02:34:23 #80 №768195

>>768162
>Выглядит как костыль
Оно работает, так что глубоко поебать костыль это или нет.

>на нормальной модели будет неадекватное поведение
Именно для этого и существуют пресеты и все эти ебаные параметры, чтобы нормально запускать разные модели.

>ллама3 действительно может лупиться, если заставить делать ее то что не понимает
Лупы происходят по другим причинам. Это не связано с тем, понимает ли модель что ты от нее хочешь, или нет.

Аноним 03/06/24 Пнд 02:36:10 #81 №768196

>>768195
У меня лично не работает. Модель все равно выдает лупы.
мимо

Аноним 03/06/24 Пнд 02:38:37 #82 №768198

>>768196
Что за модель? Чистая лама или файнтюн?

Аноним 03/06/24 Пнд 02:45:31 #83 №768202

>>768156
анонче потестил вроде нормально. спасибо тебе огромное

Аноним 03/06/24 Пнд 02:49:11 #84 №768203

>>768202
Я тут не при чем. Скажи спасибо тому анусу, который это сверху скинул.

И вообще, найди нормально оформленную карточку и тестируй все настройки с ней. Тут половина треда сидит с кривым говном, которое непонятно где было отрыто, а потом спрашивает друг у друга почему у них разные результаты на одинаковых параметрах.

Аноним 03/06/24 Пнд 03:01:20 #85 №768209

>>768198
Чистая. А штено залупается еще хуже.

Аноним 03/06/24 Пнд 03:50:14 #86 №768225

Сравнивал кто Aya 34В с Командиром 34В? Пофиксили ли в Aya неадекватный размер контекста или все так же плохо?

Аноним 03/06/24 Пнд 04:11:14 #87 №768229

>>768203
бля ну оно не залупаеться теперь но пишет как то сухо что ли. и в целом такое себе. есть еще вариант какие сетки для кума можно потестить?

Аноним 03/06/24 Пнд 04:20:51 #88 №768230

>>768229
Тебе для кума надо или для чего? Покажи че выдает.
Можешь попросить ее писать не сухо. Или заменить ее на moistral для кума.

Аноним 03/06/24 Пнд 04:40:11 #89 №768243

>>768229

Лама 3 не умеет в кум. Используй мойстраль. Или какой-нибудь старенький Noromaid наверни.

Аноним 03/06/24 Пнд 05:34:08 #90 №768251

>>768243
> Noromaid
Говно.
> Лама 3 не умеет в кум
Умеет, если попросить.

Аноним 03/06/24 Пнд 05:46:11 #91 №768256

>>768229
>бля ну оно не залупаеться теперь но пишет как то сухо что ли
Если решил проблемы с залупами и дефолтная трешка тебя не устраивает, то можешь начать перебирать разные файнтюны. Хотя я уверен, что у тебя банальная проблема с систем промтом/карточкой.

>есть еще вариант какие сетки для кума можно потестить?
Все предыдущие треды в твоем распоряжении. Чекай, смотри, выбирай. Одно могу сказать точно, все что до 13B примерно одного качества. Ламу 3 можно подтянуть на выдачу нормального жирного текста, но нужно возиться с промтами. Кастомные сборки ламы два рассматривать нет смысла, в сравнении с третьей они сосут, как по начинке, так и по производительности. Периодически советуют aya-23 в версии на 8B, но я ее еще не щупал, по этому ничего сказать не смогу.

>>768243
>Лама 3 не умеет в кум.
Skill issue

Аноним 03/06/24 Пнд 05:54:24 #92 №768259

>>768225
Не пофиксили, это фаинтюн. В целом, в русский может лучше, но сама по себе тупее.

Аноним 03/06/24 Пнд 06:19:21 #93 №768276

image.png

>>768230
да для кума.выдает такой +- пиздец.
>>768243
раньше юзал чисто на кобальде Moistral-11B-v3-f16.gguf
но генерит пздц долго. а через таверну там наверное вообще пиздос будет.

>>768256
да я листаю их последний месяц в пол глаза. когда аноны кидают какие то сетки качаю их тыкаю сам. но суть в том что раньше я на кобальде сидел и +- норм было а в таверне настройки и прочее говно. + мне не нужны простыни текста. два три средних абазаца.

Аноним 03/06/24 Пнд 06:30:33 #94 №768288

>>768259

Да, я уже запустил и сравнил.
Реально, русский у Аи почти идеальный, но карточки она не держит. А еще она лупит одни и те же фразы.
В общем чуть умнее 8В версии себя, но лоботомит по сравнению с командиром 34В. В мусорку.

Аноним 03/06/24 Пнд 06:31:26 #95 №768289

>>768276
>но генерит пздц долго. а через таверну там наверное вообще пиздос будет.

Будет та же скорость, генерируешь-то в кобольде.

Аноним 03/06/24 Пнд 06:39:56 #96 №768297

>>768276
>image
Это переведенный текст? Если нет и ты заставил нейронку писать на русском, то решение твоей проблемы найдено - переключайся на английский. Ллама может только нормально принимать русский, выдавать - нет.

>а через таверну там наверное вообще пиздос будет
Всю работу делает бэкэнд на кобольде. Таверна это просто интерфейс. На производительность это не влияет.

>я на кобальде сидел и +- норм было
Суп тоже можно сразу из кастрюли жрать, но лучше перелить в тарелку.

>мне не нужны простыни текста
Так пропиши в промте что тебе нужны короткие ответы. Это не проблема модели, это проблема твоих настроек.

Аноним 03/06/24 Пнд 06:45:14 #97 №768298

4060 8gb или 3060 12gb? Не могу выбрать

Аноним 03/06/24 Пнд 07:10:01 #98 №768305

image.png

>>768289
вот кста нихуя. или мне так везло. крч похуй

>>768297
пикрил юзаю
в промте где? персонажа или где?

Аноним 03/06/24 Пнд 07:14:18 #99 №768308

>>768305
>в промте где? персонажа или где?
В системном промте. Во вкладке где ты выбирал пресет для инструкта и контекста. Скинь что у тебя там стоит. И ссылку на карточку тоже скинь.

Аноним 03/06/24 Пнд 07:14:23 #100 №768310

к слову какую модель Moistral посоветуете тогда? видеопамяти 8гб оперативки дохуя.

мимо>>768305

Аноним 03/06/24 Пнд 07:18:17 #101 №768314

image.png

>>768308
настройки все отсюда>>767224
а карту перса как кинуть? (прости я хлебушек)

Аноним 03/06/24 Пнд 07:20:22 #102 №768315

>>768314
Вот где у тебя поле для системного промта, там пропиши что тебе нужны короткие ответы и другие пожелания, если они имеются. Может сработать, может нет. И количество токенов ограничь до 250 примерно, если тебе не нужны полотна текста.

>а карту перса как кинуть? (прости я хлебушек)
Кидай ссылку на ресурс, откуда ты ее качал.

Аноним 03/06/24 Пнд 07:21:09 #103 №768318

>>768276
Блядь. Ну ты бы сразу сказал, что тебе обязательно генерить на русском. Используй Аю тогда. Но предупреждаю, она прям тупее.

Аноним 03/06/24 Пнд 07:25:28 #104 №768319

image.png

>>768318
так я юзаю эту хуйню алло

Аноним 03/06/24 Пнд 07:28:27 #105 №768320

>>768319
А на той картинке было видно, что ты нихуя не юзаешь. У тебя часть текста не переведена, что характерно для генерации именно нейронкой, а не гуглоперевода.
> алло
Я здесь с тобой несколько дней уже сижу, тебе помогаю, а ты вот так разговариваешь. Больше помогать не буду. Разбирайся сам.

Аноним 03/06/24 Пнд 07:29:20 #106 №768321

>>768298
3060 12gb

Аноним 03/06/24 Пнд 07:33:07 #107 №768325

Почему модель себя так странно ведет? Это не первая модель, за которой наблюдаю такое. Я общаюсь с новым персонажем, а она подтягивает некоторые слова, следствия или действия с предыдущего персонажа. Что это за фигня? иногда доходит до манеры речи, но не более. Характер и бэкграунд соблюдает. Инструкцию для модели использую разную в зависимости от персонажа, что также соблюдает, но эффект тот же. Мне переустановить ее?

Аноним 03/06/24 Пнд 07:33:56 #108 №768327

>>768319
>так я юзаю эту хуйню алло
Когда кидаешь примеры генераций, кидай примеры чистые, а не переведенные. Откуда нам нахуй знать, как выглядел изначальный текст, перед тем как его выебала гугловская размовлялька.

>>768320
>Больше помогать не буду. Разбирайся сам.
Ты для кума советовал влажную мосит. Лучше лишний раз не советуй всякую дрянь. И перестань обижаться, ты на борде а не в дискордике.

Аноним 03/06/24 Пнд 07:37:20 #109 №768329

>>768325
>Мне переустановить ее?
Да, если что то не работает, попробуй выключить и потом включить. Переустановить и попробовать снова.

>она подтягивает некоторые слова, следствия или действия с предыдущего персонажа
Нужны примеры. Она может просто использовать расхожие фразы или речевые конструкции, а может быть хуевой моделью. Че за модель вообще?

Аноним 03/06/24 Пнд 07:39:20 #110 №768331

>>768320
прости анонче( я правда туповатое в плане нейронок.и спасибо тебе за помощь.

к слову про непереведенную часть текста. выше кто то писал про то что можно удалить часть текста в ответе что бы оно не залупалось. я так и сделал и вот ее повело.

тащемто я пришел к выводу что нахуй ламу чет гемора с ней пиздец.

может подскажешь что можно потыкать из Moistral

Аноним 03/06/24 Пнд 07:52:54 #111 №768335

>>768327
ну это все опять же про ламу. я понял что она идет на хуй ибо с ней гемора много плюс ебка с настройками а у меня кривые руки так что нахуй. продублирую реквест из своего прошлого поста>>768331

может подскажешь что можно потыкать из Moistral

Аноним 03/06/24 Пнд 08:02:49 #112 №768339

>>768335
>я понял что она идет на хуй ибо с ней гемора много плюс ебка с настройками
Все модели придется настраивать. С третьей ламой действительно чуть сложнее из-за ее долбаебской сборки, но если даже я разобрался, то и ты сможешь.

>у меня кривые руки
Это фикситься курением гайдов и доебыванием борды по всем своим тупым вопросам. К счастью, тут отвечают. Иногда даже чем-то полезным.

>может подскажешь что можно потыкать из Moistral
Я бы посоветовал вообще ее не тыкать, потому что она еще тупее третьей ламы.

И вообще, ты блять скинешь мне карточку персонажа, или нет?

Аноним 03/06/24 Пнд 08:20:21 #113 №768347

>>768339
блядь я не могу найти этот кал(

на счет тупости я говорил что юзал Moistral-11B-v3-f16.gguf и было норм. но вот генерит он пизда долго. хотел бы что то похожее найти но только с меньшим временем генерации. и в целом про тупость я на разных картах и на разных сетках пишу положи ноги мне на колени и там начинаеться такой хуеанальный цирк. хз опять же с чем это связано просто заметил.

и вот опять же если я сам найду какую то сетку то где мне настройки брать ? какие пресеты ставить? сука нихуя не понятно.

Аноним 03/06/24 Пнд 08:33:55 #114 №768354

>>768347
>блядь я не могу найти этот кал(
Тогда просто скинь скрин описания персонажа. Хочу посмотреть оформление и разметку.

>хотел бы что то похожее найти но только с меньшим временем генерации.
Ищи модели уровня 7-8B. Только моистраля ты в меньшей конфигурации не найдешь. Выбор у тебя только между разными сортами тупых моделей.

>пишу положи ноги мне на колени и там начинаеться такой хуеанальный цирк
Нужны конкретные примеры выдачи. Вообще некоторые действия лоу-тир модели тяжело описывают. Особенно это касается нестандартных поз или взаимодействия с предметами. У них слишком нищий датасет, чтобы нормально это переваривать. Ебля раком, тугой горловой заглот - это могут без проблем. А всякие перемещения ног и рук для них тяжко и непонятно.

>и вот опять же если я сам найду какую то сетку то где мне настройки брать ? какие пресеты ставить?
Самое простое - в крысу чекать тред и искать долбаебов которые спросят это за тебя, или спросить самому. Либо открыть документацию, но это слишком скучно.

Аноним 03/06/24 Пнд 08:38:06 #115 №768356

>>768327
> Ты для кума советовал влажную мосит. Лучше лишний раз не советуй всякую дрянь.
Я это советовал только как англоязычную альтернативу. Но в первую очередь я советовал именно Лламу. А вообще, посоветуй не дрянь. Что там сейчас лучше моистраля в плане кума?
> И перестань обижаться, ты на борде а не в дискордике.
Действительно. Что бы я мог забыть в дискордах ваших.
>>768331
> туповатое в плане нейронок
А в чем ты умен и разбираешься?
> тащемто я пришел к выводу что нахуй ламу чет гемора с ней пиздец.
Нет, ллама нормальная. Можно ее запромптить и попросить писать подробно секс сцены. И все будет хорошо. Текст не сухой и более менее интересный.
> может подскажешь что можно потыкать из Moistral
Я тыкал вроде третью версию, но есть и четвертая. В общем-то там все то же самое, только моделька тупее. Но словарный запас на английском лучше. Описание сцен там получше, вот только против лламы с хорошим промптом выигрыш несильный, а проигрыш в тупизне ощутимый. Moistral это файнтюн Solar. Так что если не зайдет файнтюн, можно попробовать солар будет. Солар мне не нравится тем, что отвечает коротко, но вроде залупается реже Лламы.
Ебаться придется абсолютно с любой моделькой. И да, стоит отметить, что ты читаешь не то, что тебе выдает моделька, а то, что высирает гугл транслейт. А он сам по себе с нихуя повторяет слова, каверкает значения и несет какую-то дичь.
Так что ставь тупенькую Аю, и общайся с ней на русском, лол. А если серьезно, то оставайся на Лламе-3 пока что.

Аноним 03/06/24 Пнд 08:39:59 #116 №768357

>>768347
> Moistral-11B-v3-f16.gguf
Ну так ты нормальный квант бери. Либо восьмой, либо шестой. Будет нормально генерить.

Аноним 03/06/24 Пнд 08:43:32 #117 №768360

>>768356
>Что там сейчас лучше моистраля в плане кума?
Как ни странно, третья лама. Но каждый раз это приходится доказывать.

Аноним 03/06/24 Пнд 08:44:31 #118 №768363

>>768360
Какой именно файнтюн предпочитаешь? Их сейчас очень много, что за всеми и не уследишь

Аноним 03/06/24 Пнд 08:45:30 #119 №768364

>>768354
> но это слишком скучно
А че так? А вообще, вроде все сетки, которыми часто пользуются, уже имеют пресет в таверне. Ну может быть Yi и Phi не имеет, но первое это китайщина, а второе это соя.

Аноним 03/06/24 Пнд 08:48:50 #120 №768367

>>768363
А я за всеми и не слежу. Уже тупо лень. Сижу на Stheno и не выебываюсь. Полностью избавился от лупов, пытаюсь щас донастроить системный промт под свои задачи.

>>768364
Лень читать, лень разбираться. Мне быстрее методом тыка понять, какие настройки лучше шевелят дерьмо в нужную мне сторону.

Аноним 03/06/24 Пнд 08:49:55 #121 №768369

>>768360
> Как ни странно, третья лама. Но каждый раз это приходится доказывать.
Если говорить конкретно в плане кума и описания сценок, то третья ллама кстати даже неважно, 70В или 8В немного похуже будет. Вот самую малость. Если говорить про рп и сообразительность в целом, которая очень важна и для кума, то здесь Ллама 3 фаворит. Единственная проблема, что она какая-то нестабильная, по крайней мере лично у меня. То выебнется тем, что не захочет генерить контент, иногда прям аж рогом упирается. То срет EOS токенами по поводу и без. То залупается.
Но в целом да, я пользуюсь ей чаще и текст генерит быстрее, так как 8В, мелочь, а приятно.
А больше альтернатив и нет. Так что советовать моистраль, когда кому-то не хочется брать лламу, считаю нормальным и правильным.

Аноним 03/06/24 Пнд 08:51:33 #122 №768371

>>768367
> Полностью избавился от лупов, пытаюсь щас донастроить системный промт под свои задачи.
Мудростью поделишься?

Аноним 03/06/24 Пнд 08:52:44 #123 №768373

>>768367
> Полностью избавился от лупов, пытаюсь щас донастроить системный промт под свои задачи.
А вот это ты молодец. Покажи как. Единственное, что меня в штено не устраивает, это лупы на четвертом сообщении.
> Лень читать, лень разбираться. Мне быстрее методом тыка понять
Возможно ты даже прав. У меня есть подозрение, что даже сами создатели моделек и файнтюнов, просто методом тыка и перебирают эти промпты и настройки. А потом приводят что-то, что у них работало. Вероятно что-то не самое оптимальное даже.

Аноним 03/06/24 Пнд 08:57:12 #124 №768375

>>768371
>Мудростью поделишься?
>>768373
>Покажи как
Нет никакой мудрости. Может конечно все сетки персонализированы, но у меня хорошо работает дефолтный min-p и связка инструкта+контекста из пака, который у нее рекомендован на страничке обниморды.

Хотя ладно, я малеха спиздел. Очень редко, примерно в соотношении 1 к 20 бывают лупы. Но это очень быстро фиксится регенерацией. Да, регенерация у меня тоже фиксит лупы. Сам этому до сих пор не могу не нарадоваться.

Аноним 03/06/24 Пнд 08:57:19 #125 №768376

Перескажите что там амуда высрала. Появится смысл на райзены перекатываться с инцела для нейронок?

Аноним 03/06/24 Пнд 09:09:24 #126 №768382

>>768376
Без разницы, инцел или амуда, важна скорость чтения памяти. Упирается всё в эту скорость, обычных x86 ядер хватает 6.

Аноним 03/06/24 Пнд 09:36:10 #127 №768402

>>768375
Какой квант? Я гонял в шестом. Может она там лоботомит уже?

Аноним 03/06/24 Пнд 09:46:24 #128 №768405

>>768402
Восьмой. Может на скукоженных квантах внатуре начинает плавиться.

Аноним 03/06/24 Пнд 09:48:26 #129 №768409

>>767520
>Вот о чем речь. А не о токенах в сек.
А о чём тогда речь шизло? Карта покупается под конкретные задачи, которые внезапно измеряются в токенах в секунду. Если на это забить, нахуй она тогда вообще нужна?

> Но он воображает что наебал законы природы и получил топовые карты зя 0.1 цены.
>с позорным чипом - на 24 год
Ах вот оно что. Ты наверное ещё считаешь что в 2к24 позор не иметь последнего смартфона от эпла? А ещё ездить на машине старше 5 лет, жить за пределами МКАДа и зарабатывать меньше 200к/наносек? при этом являясь РНН и живя у мамки

ЗАПОМНИТЕ! ПОТРАТИВ ВСЕГО 15К НА ТЕСЛУ ВЫ ПОЛУЧАЕТЕ:
@
24ГБ ВРАМ С ПРИЕМЛЕМОЙ ДЛЯ ЛЛМ ПРОИЗВОДИТЕЛЬНОСТЬЮ
@
ПОЛЫХАЮЩИЕ НАПАЛМОМ ПЕРДАКИ 304090 БОЕВ, С ПЕНОЙ У РТА ДОКАЗЫВАЮЩИЕ ЧТО ОНИ НЕ ЗРЯ СЛИЛИ 100-200К НА СВОИ 24ГБ
Последнее бесценно!

Аноним 03/06/24 Пнд 10:00:13 #130 №768411

image.png

>>768354
на счет перса уже вычистил эту хуету.Moistral-11B-v3-Q5_K_M.gguf. вроде полет норм но чет оно в конце сообщения повторяет зачастую одно и тоже. хотя мб я чет с настройками опять наворотил ибо поставил пикрил ниже.

в крысу ну пиздец. https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true тут написано юзать инструкт альпаку его и юзаю. а про Text Completion нихуя не написано на странице модели.

примеры выдачи это как? скрины того что оно генерит и без переводчика? или что?

>>768356
ну вот вроде за железо шарю. компы, мтб\бмх, в симрейсинг залипаю иногда.
на счет гугл транслейта такая же хуета и в кобальде была.но оно как то местами проебываеться. а когда у тебя целы предложения или абзацы выпадают тебе не кажется это странным?

>>768357
можно ссылку опять же если не затруднит.

в целом спасибо вам парни я чет даже не ожидал что мне тут помогут. вечером зайду еще почитаю тред да потыкаю сетки.

Аноним 03/06/24 Пнд 10:33:27 #131 №768424

>>768382
> обычных x86 ядер хватает 6
У меня 8 инцельных Р-ядра на 13900 всё ещё не упираются в DDR5 6400. Е-ядра дают мизерный прирост, но они слишком говно. У топовой DDR5 всего в два раза медленнее доступ в память чем у P40.

Аноним 03/06/24 Пнд 10:56:45 #132 №768435

>>768329
Psyonic-Cetacean-Ultra-Quality-20b-Q6_k.gguf
и
Maiden-Unquirked-20B.Q8_0.gguf
Они еще иногда генерирует те факты, которые происходили с предыдущим персонажем, но формулирует иначе, бывает даже, что не с одним персонажем, а с 2–3 предыдущих. Я полностью удалил их и поставил заново, проблему это решило, но мне стремно с этой фигни, модели ведь не должны запоминать чат и обучаться? Или я чего-то не понимаю?

Аноним 03/06/24 Пнд 11:06:11 #133 №768452

>>768405
Вообще, по опыту выглядит так. Файнтюны на квантах совсем тупеют. Если сама ллама еще на 6 норм гоняет и даже на 5КМ, то файнтюны часто лоботомиты. Но понадеялся, что хоть 6 нормально будет работать. Видимо, нет.

Аноним 03/06/24 Пнд 11:08:57 #134 №768456

>>767527
По твоей логике нахуй тогда вообще что-то покупать, если есть гопота или клод. Охуеть придумал. А нахуй мы в треде сидим тогда? У нас же гопота есть.
мимо не теслаеб

Аноним 03/06/24 Пнд 11:17:32 #135 №768470

>>768435
Смотри Лор или Автор ноутс, может саммари чат, там всё это может быть прописано.

Аноним 03/06/24 Пнд 11:18:08 #136 №768471

>>768411
> на счет перса уже вычистил эту хуету.Moistral-11B-v3-Q5_K_M.gguf. вроде полет норм но чет оно в конце сообщения повторяет зачастую одно и тоже. хотя мб я чет с настройками опять наворотил ибо поставил пикрил ниже.

> в крысу ну пиздец. https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true тут написано юзать инструкт альпаку его и юзаю. а про Text Completion нихуя не написано на странице модели.
Экспериментируй. Я даже гонял на нем с инструкциями от лламы. И вроде что-то генерило.
> примеры выдачи это как? скрины того что оно генерит и без переводчика? или что?
Да.
> ну вот вроде за железо шарю
Ну значит по крайней мере при установке железа проблем не будет.
> на счет гугл транслейта такая же хуета и в кобальде была.но оно как то местами проебываеться. а когда у тебя целы предложения или абзацы выпадают тебе не кажется это странным?
Я транслейтом вообще не пользуюсь. Так что не могу ничего сказать. Но он шизит.
> можно ссылку опять же если не затруднит.
Там же где ты и качал. Только другой файл выбери. А вообще, если пользуешься этим Moistral-11B-v3-Q5_K_M.gguf, то должен работать быстро.

Аноним 03/06/24 Пнд 11:21:37 #137 №768477

>>768435
> модели ведь не должны запоминать чат и обучаться?
Было бы охуенно. Но нет, они так не работают.

Аноним 03/06/24 Пнд 12:15:47 #138 №768534

>>768409
интересно изложил, очень экспрессивно... но а что ты скажешь насчет 1 токена в секунду?

Аноним 03/06/24 Пнд 12:27:04 #139 №768546

>>768409
>ЗАПОМНИТЕ! ПОТРАТИВ ВСЕГО 15К НА ТЕСЛУ ВЫ ПОЛУЧАЕТЕ:
Тесла сейчас опять 15к стоит? Странно, вчера у тебя был бизнес-план, в котором совсем другие цифры:
>Купил теслу за 15к, сейчас они по 18 минимум. Могу пихануть вместе с охладом за 20+. Продам две - возьму 3090, подведу губки и продам, когда бетховен стрельнет очередной раз.
Вообще я слышал что скоро памп теслы, теслы будут только расти в цене, говорят Хуанг лично скупает теслы!

Аноним 03/06/24 Пнд 12:48:18 #140 №768554

Я понял, что нужно не только промпт формат настраивать под каждую модельку свой, но и описание карточек.

Аноним 03/06/24 Пнд 12:49:02 #141 №768555

>>768534
>но а что ты скажешь насчет 1 токена в секунду?
У меня было минимум 1,8 на 70В модели, и то потому что конкретно она была неоптимизированным говном. Ллама 3 70В того-же кванта даёт 2,5Т/с, что считаю вполне юзабельным.
К слову, если сравнивать условную одну теслу и одну 4090 потому что кто в здравом уме будет заказывать 3 4090 под ЛЛМ?, то ни туда ни туда 70В модель нормально не засунешь, а 30В модели на Тесле работают от 5т/с, что тем более норм на 4090 они же могут дать и 50 токенов, но нахуя?

>Тесла сейчас опять 15к стоит?
Я покупал за 15. А спор вроде как идёт между уже закупившимися владельцами устаревшего и оверпрайснутого говна.

Аноним 03/06/24 Пнд 12:50:27 #142 №768557

>>768195
> Оно работает
Конечно работает, вопрос в том какой результат там будет. Хз на каких моделях это тестили, но подобная херь срывает крышу и нормальных моделей, в каких-то сценариях может и понравится, но далеко не во всех. В общем стоит хотябы отметить это.
> Лупы происходят по другим причинам.
Расскажи по каким. В большинстве случаев причина именно в том что модель запуталась, или же ты поломал ее своими настройками.
>>768225
А есть вообще приличные файнтюны коммандира? В стоке шикарнейшая модель, держит сценарий, может как вести интересную беседу так и описывать горячую еблю в широчайшем спектре локаций и вариаций с их учетом, и т.д. и т.п. Только плохо знает многие сеттинги и фендомы, вот этого бы ей добавить.
>>768276
> но генерит пздц долго
Используй Q8 или ниже, не заметишь разницы. От таверны это не зависит никак.

Аноним 03/06/24 Пнд 13:31:44 #143 №768581

>>768409
> Карта покупается под конкретные задачи, которые внезапно измеряются в токенах в секунду.
Не, подожди, сейчас много задач связанных с ии где нужна видеокарта. Картиночки с вайфу генерировать, текст в речь обрабатывать, всякие варианты компьютерного зрения, анализ файлов и контента, интерполяция анимаций и видео. Для всего этого тесла может подойти... ой, вот же не задача, тесла не справится ни с одной из них.

Полыхает пердак пока только у теслашиза, который пытается отчаянно доказать что не ошибся в выборе и требует не насмехаться над его выебонами дешевыми железками.

Если уж ты говоришь про рациональность, можно все посчитать. Сборка на 3х теслах будет стоить не меньше 800$, а то и далеко за 1200. Смотрим прайсинг чмони и видим там 5$ за обработку 1 миллиона токенов и 15$ за генерацию аналогичного объема. Берем типичный вариант чата для рп, где типичное соотношение промта к чату в районе 12к1, или какую-нибудь "рабочую задачу" с простой обработкой текста, где соотношение близкое. За 800$ можно обработать около 140М токенов и сгенерировать около 12М. У сборки с теслами на такое уйдет более месяца непрерывной работы. Однако, в чате коэффициент использования даже при очень интенсивном применении менее 5% (это на быстром, тут может быть и 30-40%), если чатиться по 2 часа, то "окупится" все это дело примерно через 3.5 года. Только ты будешь регулярно бомбить с ожидания первых токенов и недовольствовать из-за шума как от пылесоса, уровень комфорта - днище.
Ни о какой рациональности в подобном применении и речи быть не может, это все чистый энтузиазм и развлечения.

Если же действительно думать о какой-то работе - теслы для нее непригодны потому что там будет постоянная обработка контекста и кэш не спасет. Будут постоянные 1-2-3 т/с вместо 12-15-17, здесь даже новые комплектующие окажутся выгоднее по прайс-перфомансу, особенно если посчитать еще и цену платформы.
>>768555
> а 30В модели на Тесле работают от 5т/с, что тем более норм на 4090 они же могут дать и 50 токенов, но нахуя?
Ты попробуй покатать на 5т/с с ожиданием в начале, а потом перебраться на 30+т/с с мгновенными первыми токенами, сразу поймешь разницу.
> А спор вроде как идёт
Спора нет, идет гнобление шизиков и их копротивление. Уже в ход пошла типичная платина из хвсрачей и визки про оверпрайс, что довольно забавно.

Аноним 03/06/24 Пнд 14:14:57 #144 №768609

image.png

>>766725 →
ГПУ подмогет.

>>766739 →
пикрил

>>766890 →
В ГОЛОСИНУ!
И не лень тебе было. )))
Ну, хорош-хорош.
Особенно кекнул с визуальных моделек.

>>766938 →
Но вот то шо ты всерьез дальше отвечаешь, это уже жесть, канеш. =)

>>767522
С самого начала. =)

>>768225
Это фича, а не баг.

>>768298
4060 ti 16GB.
Ну или 3060, тогда уж.

———

По поводу 1 токена в секунду — как же я ору! xD
Это та самая хуйня, на которой я тредов 25 назад обосрался и меня кто-то поправил.

Тотал — это количестве сгенерированных, деленное на время.
Тест кобольда генерирует 100 токенов (!) при контексте в 8092 (в сумме 8192 получается=).
При таком коротком ответе (кто-то реально ерпшит с 100 max_tokens, закидывая полотна текста на 8к токенов?=), любое железо будет выдавать очень мало total.
А учитывая, что мы не всегда обрабатываем весь контекст (кто где сидит, контекстшифты, вся хуйня), и ответы у нас не 100 макс_токен, то и тотал будет совершенно иной.

Но я хочу поглядеть 3090 в том же бенчмарке.
А то проц и теслы скидывали (да я и сам пока тред читал, погонял те же тесты), а бенча 3090/4090 че-то никто не показал.

Ну да ладно, один хер, чел троллит тупостью, какие уж тут претензии к его «тестам».

Аноним 03/06/24 Пнд 14:26:43 #145 №768624

>>767859
Ага, мамка на 3-4 pci-e стоит космических денег, я их в видюхи пустил.

Аноним 03/06/24 Пнд 14:30:18 #146 №768625

>>768609
Если не забуду, после интерфейса заскриню тебе как должны выглядеть скорости генерации.
100 токенов это нормальная длина ответа если там не предполагается какое-то описание или переход, но это похуй. Важно то что придется каждый раз ждать появления первых токенов по 1.5 минуты, и это лишь при 8к. Утешить может только то что свайп начнет генерироваться почти сразу, но только если в промте нет чего-то меняющегося или рандома.

Аноним 03/06/24 Пнд 14:31:05 #147 №768626

>>768609
>Но я хочу поглядеть 3090 в том же бенчмарке
Вот что я находил с 3090 и 4090 в интернетах:
>>767248
>>767053 →
Не в том же бенчмарке, но примерное представление получить можно.

Аноним 03/06/24 Пнд 14:51:44 #148 №768631

>>768609
>Тотал — это количестве сгенерированных, деленное на время.

Да, скорость это расстояние деленое на время.

>При таком коротком ответе (кто-то реально ерпшит с 100 max_tokens, закидывая полотна текста на 8к токенов?=)

Я обычно больше закидываю, 8к это ниочем вообще, буквально память про последних 30-40 сообщений.

>Но я хочу поглядеть 3090 в том же бенчмарке.

У одной 3090/4090 с 24 гб слишком мало памяти для 70В и гигантская просадка идет тупо из-за оффлоада половины вычислений на проц и оперативку. Она быстрее теслы и чистого проца, разумеется, там общая скорость больше 1 т/с, но особо гордиться нечем. Есть в треде уважаемый человек с 4090 и с теслой одновременно, есть и боярин с двумя 3090, был даже господин с кластером - вот они должны показать мастер класс и 10-20+ т/c. Ждем.

Аноним 03/06/24 Пнд 16:18:55 #149 №768707

1592287545690.png

1681546107297.png

Так что за говнокод у Жоры там? Почему в EXL2 мгновенно промпт обрабатывает, а у Жоры сраные 350 т/с? На 8В при разбивке на две карты скорость обработки типа посередине между картами. Как же хорошо что можно не трогать вашего Жору и сидеть на EXL2, где всё просто работает не релизе модели.

Аноним 03/06/24 Пнд 16:43:12 #150 №768726

https://3dnews.ru/1105866/gigabyte-predstavila-geforce-rtx-4070-ti-super-ai-top-s-turbinoy-dlya-domashnih-iistantsiy
Аноны, можете пояснить для кого это предназначено? Заголовок новости заинтриговал, а внутри на первый взгляд хуйня какая-то. Типа в бомж-сервер установить какому-нибудь непритязательному кабану?

>>767247
>включи английский в таверне, перевод там упоротый
Ты на 11.7 или старше сидишь скорее всего, в последних версиях перевод нормальный.

Аноним 03/06/24 Пнд 16:49:01 #151 №768729

>>768726
> для кого это предназначено?
Ну это топ за свои деньги. За 70к дают 16 гигов врама и неплохой чип, на уровне 3090 по производительности. Для тех кто боится брать 3090 непонятно откуда и нет на 4090, то это лучший вариант. По цене одной 4090 можно 3 штуки таких купить и даже сносно гонять 70В.

Аноним 03/06/24 Пнд 16:59:19 #152 №768739

>>768726
Интереснее посмотреть на матплаты из серии. В целом тема неплохая, но 4070ти супер стоит дорого а имеет ограниченную память и не самый топовый чип. Выпуск турбированных 4090 (которые уже и так есть от китайцев и не только) будет вполне закономерным тогда.
> Типа в бомж-сервер установить какому-нибудь непритязательному кабану?
Самосборные и готовые рабочие станции для пользователей средне-высокой притязательности.
>>768729
> За 70к
Овер 800 евро и еще маржа. Но вариант из трех штук действительно будет неплохим, тут она быстрая в отличии от той же 4060ти.

Аноним 03/06/24 Пнд 17:01:54 #153 №768743

>>768729
>>768739
Ну хз, какой в ней смысл если есть 4060ти 16гб? Чип не критично мощнее, никакого принципиально нового опыта не будет, а цена в 1.5+ раза выше.

Аноним 03/06/24 Пнд 17:03:11 #154 №768744

Хотя может тренить пригодится, хз какие там требования и в целом диспозиция... Но для инференса преимуществ как будто нет.

Аноним 03/06/24 Пнд 17:06:19 #155 №768748

>>768739
> Овер 800 евро и еще маржа.
Прям сейчас в ДС за 80к продают.

Аноним 03/06/24 Пнд 17:06:48 #156 №768749

image.png

>>768626
>для кого это предназначено

Все остальные видеокарты с таким объемом видеопамяти это ебаные гиганты с 3 вентиляторами, занимающие 3 слота на материнке. А тут миниатюрный размер в 2 слота. За цену 2х4090, которые дадут тебе всего 48 гб врам, тут ты получишь 4 таких малышки с 64 гб врам.

Аноним 03/06/24 Пнд 17:11:07 #157 №768753

>>768743
> Чип не критично мощнее
Критично, если захочешь делать что-то кроме интерфейса с ллм это сразу будет ощущаться. При цене в 1.5 раза выше она в 2 раза быстрее, память тоже более шустрая. В ллм скорее всего будет уступать 3090 из-за скорости памяти, но по перфомансу чипа чуть быстрее.
>>768748
Лохито без гарантии или с сомнительной? Так-то там и 4090 от 160 с аналогичными условиями есть, перфоманс чипа как раз в 2 раза выше, но меньше памяти. Тут уже от задач зависит.

Аноним 03/06/24 Пнд 17:11:10 #158 №768754

>>768726

Думаю взять как вторую видеокарту к моей 4090, подводные?
inb4 лучше возьми убитую 3090 из под майнера

Аноним 03/06/24 Пнд 17:17:17 #159 №768761

>>768754
> подводные
40 гигов суммарного объема, хватит на увеличение кванта/контекста коммандера и моделей подобного размера, хватит на ггуф с частичной выгрузкой для 70б или на всякие модели около 40-50б параметров в 4-5 битном кванте. С точки зрения ллм профитов недостаточно.
Если другими областями увлекаешься - будешь довольно урчать.
3090 из под майнера даст тот же экспириенс, будет сильно лучше в ллм, но она более горячая и бу. В идеале пару таких дополнительно, вот там можно разгуляться.

Аноним 03/06/24 Пнд 18:07:32 #160 №768776

>>768761
> горячая
Под андервольтом а в llm его надо всегда делать, просадка производительности нулевая, но сильно холоднее не такая уж и горячая, в llm выше 65 в хотспоте не прогревается, разве что память припекает до 80 иногда из-за того что она с двух сторон платы.

Аноним 03/06/24 Пнд 18:37:52 #161 №768830

Мне кажется или у Жоры что-то с семплингом? Почему aya на одинаковом кванте в EXL2 работает на русском идеально, а у Жоры иногда у слов путает окончания, пишет странные неподходящие слова и лупится, начиная изрыгать из себя бессмысленные ругательства? Первые два EXL2, два последних Жора. В ниггере он всегда у Жоры mandy вставляет, каждый свайп блять, что это вообще. Хули такая разница? Я просто переключал бэки, всё идентично по настройкам и контексту.

Аноним 03/06/24 Пнд 18:41:43 #162 №768839

>>768325
Начинаешь понимать, что у нейронки один персонаж, которого она натягивает на все роли.
>>768376
Так инцелы тоже высрали, и тоже ненужный кал, так как поддержки всё равно нет.
>>768409
Вот не надо тут, жить у мамки это топ решение.
>>768424
>У меня 8 инцельных Р-ядра на 13900 всё ещё не упираются в DDR5 6400
Проблемы инцела, у меня на 5 уже упор в 6200.
>У топовой DDR5 всего в два раза медленнее доступ в память чем у P40.
3 раза на самом деле, у Р40 350ГБ/с чтение.
>>768726
>в последних версиях перевод нормальный.
Нормальный перевод это оксюморон.
>>768749
>Все остальные видеокарты с таким объемом видеопамяти это ебаные гиганты с 3 вентиляторами
Берёшь и ставишь мудянку кастом, хоть 4 штуки в ряд.
>>768830
>Мне кажется или у Жоры что-то с семплингом?
Ты не прав. У Жоры проблемы не только с семплингом.

Аноним 03/06/24 Пнд 19:12:23 #163 №768873

>>768581
>у меня нипичот
Знатный подрыв!

Аноним 03/06/24 Пнд 19:16:20 #164 №768882

1654590995791.png

>>768325
> а она подтягивает некоторые слова, следствия или действия с предыдущего персонажа
Это не с персонажа, это байас нейронки. Как правило можно побороть промтом, насрав туда инструкций и пожеланий по стилю, но не всегда.

Алсо пробежался по файнтюнам, пока не то чтобы совсем днище, но специфичны. Все те же привычные уклоны, только модель всеже поумнее, шизоидный уклон в какое-то фентези блять ориентал йокай в современном мире тебе заливает про грядущие приключения и просит обучить магии, пиздец нахуй или ужасные поломки на шизомерджах. Синтия на 3ю ламы день назад вышла, вот где есть надежда, но пока квантуется.
>>768776
В ллм там даже можно ничего не андервольтить а наоборот память погнать, ибо нагрузка мала, происходит редко и недолго. А вот если что-то делать постоянно и помещать пару в корпус - им там прямо тяжело и нужно сильно сбавлять (там +200 по чипу, работает примерно на 1620 с таким лимитом). Зато память не греется из-за хорошего обдува бекплейта в том числе.
4090, конечно, в этом отношении повеселее будет.
>>768830
Попробуй в убабуге llamacpp-hf, там семплеры нормальные должны быть. Возможно дело вообще не в семплинге, поломки жоры это уже не мем а пост-мем.

Аноним 03/06/24 Пнд 19:26:25 #165 №768890

1704761030417.png

>>768882
> 4090, конечно, в этом отношении повеселее будет.
Вот за 30 минут кручения 70В стата. В целом они одинаковые по температурам, 3090 даже холоднее немного, разве что память греется. Жрут обе по 300 ватт.

Аноним 03/06/24 Пнд 19:31:16 #166 №768900

>>768890
Тут надо ещё смотреть, как они воткнуты. В типпикал корпусе и плате верхняя 4090 будет душиться и греться нижней 3090.

Аноним 03/06/24 Пнд 19:34:09 #167 №768902

>>768890
Говори про ллм, у тебя в процессе генерации какой тдп на них? В парных наблюдаю половину, но это на симметричном конфиге, если ставить ассиметрию то там больше напрягается медленная видеокарта. Всплеск до полной нагрузки только на мгновение в начале когда промт обрабатывается. Хорошую 3090 урвал, анус тот прямо топ по охлаждению, в том числе памяти.
Как их размещал в корпусе расскажи.

Аноним 03/06/24 Пнд 20:12:31 #168 №768982

>>768902
> Говори про ллм, у тебя в процессе генерации какой тдп на них?
Я же говорю 300 ватт в пике на обоих.
> Как их размещал в корпусе расскажи.
3090 на райзере на потолке, где отверстия в корпусе.

Аноним 03/06/24 Пнд 20:56:22 #169 №769057

Поясните за эти ваши лламы.
Ведь вся сила этих нейросеток это объем знаний. Так как они больше ассистенты, нежели заменители.
Локальная нейросетка прикольно, но много ли она знает?

Аноним 03/06/24 Пнд 21:17:02 #170 №769087

>>768982
> 3090 на райзере на потолке, где отверстия в корпусе.
Воу, это где кулеры на выдув сверху? Не задыхается оно там?
>>769057
Облачные ллм отличаются от локальных прежде всего размером, и то нынче они сопоставимы. Сила не только в знаниях но и в понимании абстраций, соображалке и способности четко следовать сложным инструкциям.

Аноним 03/06/24 Пнд 21:18:06 #171 №769091

>>769057
> Локальная нейросетка прикольно, но много ли она знает?
Обучающий датасет - 17 триллионов токенов. Знает она много

Аноним 03/06/24 Пнд 21:22:19 #172 №769097

>>768830
А что за модель, можно поподробнее?

Аноним 03/06/24 Пнд 21:32:14 #173 №769116

>>769087
>и то нынче они сопоставимы
GPT4 не менее 220B. Самая крупная из открытых адекватных это командир на 104B, и тот немного недотрейнен. Так что увы, отличия всё ещё в разы, а с учётом того, что чаще всего гоняют 7-30B, то и на порядок.
>>769091
Если бы она их заучила. И да, там 15T токенов, а не 17.
Ну и вопросы к датасету, вон, на знание всяких фендомов жалуются. Толку то от 15T разговоров на мамкиных форумах.

Аноним 03/06/24 Пнд 21:38:52 #174 №769130

>>769116
> GPT4 не менее 220B.
GPT-4o порой тупее ламы 70В, она наверняка уже крошечная у них. В кодинге уже жпт выебали. Визуальную модель гопоты ебут уже год китайцы.

Аноним 03/06/24 Пнд 22:08:41 #175 №769168

>>769130
Я писал о первых снапшотах. "О" само собой обрезок-дистилят, по скорости интерференса и "бесплатности" чётко видно, что она даже меньше турбы.

Аноним 03/06/24 Пнд 22:46:25 #176 №769241

>>769116
>Самая крупная из открытых адекватных это командир

Самая крупнкая это микстраль 8х22.

Аноним 03/06/24 Пнд 23:06:32 #177 №769276

>>769116
> Самая крупная из открытых адекватных это командир на 104B, и тот немного недотрейнен.
Что если скажу тебе что текущий командир нередко перформит лучше текущей гопоты? По знаниям уступает, но по пониманию инструкций и общих смысловых концепций иногда более приятные результаты выдает, внезапно.
Если гадать по скорости и субъективизму - в 4турбо активных параметров не более 70б, в 4о вообще что-то типа 20-30. От антропиков сонет и хайку тоже мелкие, и они тупые, только опущ могет.
Так что все более чем сравнимо.
>>769241
Грок.жпг
Этого микстраля кто-нибудь катал кроме как на апи?

Аноним 03/06/24 Пнд 23:07:13 #178 №769278

>>768471
блядь ну я без переводчика не могу. и как я тогда пойму шизит оно или нет? блядь пиздц тащемто ладно спасибо за ответ

Аноним 03/06/24 Пнд 23:10:37 #179 №769281

>>769241
>микстраль 8х22
22B же, по мозгам.
>>769276
>Что если скажу тебе что текущий командир нередко перформит лучше текущей гопоты?
Если в вопросах, где у гопоты триггерится цензура, и требуются многоэтажные джейлы, то поверю.
Впрочем, от кума на четвёрке я давно отказался, либо опус, либо командир, опус всё же лучше.
>Грок.жпг
Маск опять всех затроллел.

Аноним 03/06/24 Пнд 23:20:12 #180 №769293

>>769281
> Если в вопросах, где у гопоты триггерится цензура, и требуются многоэтажные джейлы, то поверю.
Да она постоянно триггерится, и даже довольно лайтовый жб с nc/21 может сильно искажать. Если оставить минимум - пишет довольно уныло и сухо, причем если на русском - часто ошибается в склонениях. Если навалить - видно как подтупливает или начинает шизографоманию с характерными словами и чрезмерным описанием ненужного, хотя глупой все равно не назовешь. На лайтовых жб переход сфв/нсфв - пиздец. Из плюсов - знания.
На коммандире же ничего подобного нет и жб не нужен, но знает меньше и может ошибаться в сложном.
> опус всё же лучше
Эта тварь может внезапно радикально деграднуть, а то и почти лупиться начать если что-то начинает сильно триггерить цензуру. Из-за того что по дефолту она умная это очень заметно. Если локалкам это можно простить и что-то подкрутить/поменять/отредачить, то здесь вернуть к жизни тяжело и не хочется.

Аноним 04/06/24 Втр 01:13:12 #181 №769396

image.png

крч потыкал я Moistral 11B q5 km. генерит +- норм по скорости но блядь. оно шизит. то есть два абзаца ответа и там каждое предложение начинается ее, она притом что на кобальде без таверны я юзал q8 и там такой хуеты не было. что бы не было криков про то что переводчик гугла шизит ниже скрин 2.
вопрос к шарющим анонам шо делать?

мимо>>768411

Аноним 04/06/24 Втр 01:20:47 #182 №769400

>>769396
>а кобальде без таверны я юзал q8 и там такой хуеты не было
Значит у тебя в кобольде и таверне разные пересеты стоят. Таверна дает тебе только свой интерфейс, она ничего не генерирует сама по себе. Если нужны те же самые результаты, зайди в кобольд и посмотри, что за настройки стояли там. Потом впиши их в таверну.

Аноним 04/06/24 Втр 01:54:14 #183 №769418

>>769396
Отборная шиза, но как формулирует!
Ban eos token включен?

Аноним 04/06/24 Втр 01:58:48 #184 №769422

image.png

>>769418
ну я рад хотя бы тому что кто то покричал с той хуйни что у меня происходит. ты про это анонче?

>>769400
ебать ты меня конечно просто но как сука?

Аноним 04/06/24 Втр 01:59:18 #185 №769423

>>769422
ты меня конечно прости*
быстрофикс

Аноним 04/06/24 Втр 02:12:40 #186 №769429

>>769422
Блять ты переведешь когда нибудь таверну обратно на английский или нет? Тебя об этом еще 30 постов назад просили.

>ебать ты меня конечно просто но как сука?
Покажи какой пресет у тебя стоит в кобольде. И какой промт из списка ты использовал. У тебя в кобольде спокойно могла стоять хуйня по типу "стори генератора" со своим специфичным промтом, а в таверне систем промт другой.

Аноним 04/06/24 Втр 02:22:45 #187 №769433

>>769422
> ты про это анонче?
Нет, хз как будет в переводе, выстави английскую локализацию пока для отладки. Там буквально так и называется.
Подобный тому что у тебя эффект может быть как раз когда он включен. Ты буквально запрещаешь модели останавливаться и если кроме EOS токена будет хотябы один не отсеянный семплерами - она продолжит отвечать даже через нехочу. Разумеется когда она логически закончила смысловую часть, продолжать ее с каждым разом становится все сложнее и сложнее, потому может и шиза лезть. Алсо из-за неподходящего промт формата может крышу сносить.

Аноним 04/06/24 Втр 02:24:50 #188 №769436

>>768830
Подожди, это троллинг? Почему ответы настолько хорошие? Не вижу ни сои, ни шизы, ни всратого русского.

Аноним 04/06/24 Втр 02:27:41 #189 №769439

image.png

>>769429
да перевел я интерфейс не гори на меня.
сейчас я попытался повторить пресет из кобольда но нихуя не поменялось. шо за промт?

Аноним 04/06/24 Втр 02:30:55 #190 №769440

image.png

>>769429
а тут стоит альпака как и было написано на странице модели.

>>769433
а как и где это сделать? я просто путаюсь в этих ябучих настройках таверны

Аноним 04/06/24 Втр 02:35:43 #191 №769443

>>769439
Откуда брал настройки семплера? У меня есть подозрение, что их бы поправить как-то.
мимо

Аноним 04/06/24 Втр 02:37:41 #192 №769444

>>769443
из кобольда. но полову настроек я вообще не нашел так что ожидаемо пососал хуй.

есть какие то рекомендации что поюзать из стоковых пресетов?

Аноним 04/06/24 Втр 02:54:24 #193 №769448

>>769439
>>769440
Пресет в кобольде, ебанутый блять, не в таверне. И вообще какого хуя у тебя стоит 500 токенов на выдаче? Я тебе еще утром сегодня сказал, снизь до 200-250. Ясен хуй теперь почему у тебя полотна текста. Ты сам заставляешь сетку срать до посинения и продолжать писать.

Аноним 04/06/24 Втр 02:57:01 #194 №769449

image.png

>>769448
сука про полотна текста было про ламу. сейчас оно генерит ровно столько сколько нужно.

скрин из кобольда ниже

Аноним 04/06/24 Втр 03:07:08 #195 №769452

>>769449
Вот у тебя формат стоит Chat Mode. Открой промт в кобольде (не в таверне нахуй) и скинь скрин сюда.

Аноним 04/06/24 Втр 03:31:57 #196 №769461

>>769452
где промт то блядь в кобальде?

Аноним 04/06/24 Втр 06:39:05 #197 №769553

>>769448
А разве не похуй что там в кобольде стоит, если ты генеришь в таверне и все настройки берутся из таверны?

Аноним 04/06/24 Втр 06:51:45 #198 №769560

Screenshot1.jpg

>>769461
Боже блять, с кем я сижу на одной борде... Если ты даже в интерфейсе разобраться не можешь, может локалки это не твое? Как блять вообще можно запутаться в интерйефсе кобольда, где сука буквально три вкладки, два ползунка и одна кнопка?

>>769553
Я даже не буду объяснять, что тут происхоидт. Я уже сам нихуя не понимаю.

Вафля на аноне сверху думает, что у него таверна снижает производительность и жирность генерации, а я пытаюсь догадаться сам нахуй по космическим каналам на каких настройках он сидит и почему он настолько наглухо отбитый.

Аноним 04/06/24 Втр 07:06:21 #199 №769562

image.png

>>769560
я сейчас так же себя чувствовал когда объяснял знакомому основы в таркове( софт это правда не мое. он мне тяжко дается. но локалки тыкать нравиться. скрин прекрепил.

тащемто к теме того что ты не понимаешь что происходит. я еще вчера съебался на Moistral-11B-v3-Q5_K_M.gguf. на не все ок только генерит она странно. вот мой пост>>769396

как настроить то ее блядь что бы не было такой шизы как в посте?

Аноним 04/06/24 Втр 07:07:34 #200 №769563

>>769562
на ней*

Аноним 04/06/24 Втр 07:10:51 #201 №769564

>>769562
Я убью тебя нахуй. Я приеду к тебе домой и зарежу тебя, обезьяна ебаная.

На кой хуй блять ты скинул мне пустой промт блять? Ты понимаешь, что сначала надо выбрать блять карточку, а потом скидывать ее контекст?

Вонючие таркоебы блять почему вы все поголовно тупые нахуй...

Аноним 04/06/24 Втр 07:12:50 #202 №769565

>>769562
>тащемто к теме того что ты не понимаешь что происходит
Я всё понимаю. Я всё помню. Я схожу с ума вместе с тобой долбаебом уже второй день. И каждый твой ответ каким то чудом оказывается еще тупее предыдущего.

Аноним 04/06/24 Втр 07:20:30 #203 №769567

Да, что вы ругаетесь? Тупой чел, ну бывает. Главное, что он хотя бы теслами не выебывается.

Аноним 04/06/24 Втр 07:22:23 #204 №769569

>>769567
Я любя. Тут нет никакой ненависти, иначе бы я не пытался ему отвечать.

Аноним 04/06/24 Втр 07:47:54 #205 №769572

image.png

>>769567
мне кажется тут дело не только в мое тупости а в том что мы друг друга не правильно понимаем вот.

>>769564
пиздец меня разорвало с этого. прости анон(
так я тоже начинаю потихоньку сходить с ума. какую карточку мне надо выбрать то блядь? в таверне у меня чат с персом открыт.

суть вопроса состоит в том что оно генерит пикрил хуету.
как блядь настроить то этот кал говна то?
я уже сам начинаю кукухой ехать блядь и думаю что проблема в настройках которые на пик2. как это блядь фиксить?

Аноним 04/06/24 Втр 08:01:52 #206 №769578

>>769572
Я думаю настройки семплера покрутить надо. Не уверен, что для моистраля дефолт - это лучшие настройки. Тем более там у тебя хуй пойми что в кобольде творится.

Аноним 04/06/24 Втр 08:10:13 #207 №769581

>>769578
ЕБАТЬ Я ПРО ЭТО И ГОВОРЮ. но когда я спрашиваю что покрутить или как пресет поставить в ответ тишина.

Аноним 04/06/24 Втр 08:17:12 #208 №769585

>>769581
> какую карточку мне надо выбрать то блядь?
Уже никакую. Я вообще не помню нахуй я спрашивал карточку.

Иди по пути наименьшего сопротивления - спизди все настройки из кобольда и просто вставь их в таверну, если на кобольде у тебя нормальная генерация, а в таверне нет.

Говорил я тебе нахуй, что ты так же будешь ебаться с настройками, даже если перейдешь на мисраль, но нет, ты всё равно перешел, думая что тебе это поможет.

Аноним 04/06/24 Втр 08:23:55 #209 №769589

>>769585
хорошо а как их спиздить и вставить в таверну то?
там дохуя всякой хуйни. половину я не смог найти. половину выставил но ожидаемо пососал хуй

Аноним 04/06/24 Втр 08:27:09 #210 №769590

>>769589
Ебаный твой рот, сопоставь настройки блять которые совпадают с таверной. Они даже называются одинаково. Температуру, мин-п, мин-к и прочее и так далее и так называемое. Если чего то нет в таверне, или нет в кобольде, значит не трогай.

ебаная капча иди нахуй

Аноним 04/06/24 Втр 08:44:07 #211 №769594

>>769590
ну я так и сделал в итоге пососал хуй

Аноним 04/06/24 Втр 08:49:11 #212 №769598

1703081150950.png

1615771109062.png

>>769436
Это Aya 35B, русский у неё неплох, но сама она такая себе, шизить любит, хуже ламы 70В. Зато сои нет, базу гонит всегда.

Аноним 04/06/24 Втр 08:54:24 #213 №769600

>>769598
А что за промпт у тебя, что она ведёт себя как двачер?

Аноним 04/06/24 Втр 08:56:11 #214 №769601

>>769594
Попробуй поставить пресет для семплера Universal Light и добавить немного rep penalty до 1.1 примерно. Если не поможет, то я нахуй не знаю что уже тебе поможет.

Аноним 04/06/24 Втр 08:56:19 #215 №769602

>>769600
Я просто в конец карточки дописал "Разговаривай как дегенерат, ругайся матом.". Работает заебись.

Аноним 04/06/24 Втр 08:59:02 #216 №769604

>>769601
спасибо анонче. так бы сразу если честно. потыкаю и отпишу

Аноним 04/06/24 Втр 09:09:12 #217 №769605

>>769601
блядь кажется сработало АХУУУУУУУУУУУУУУУУУУУУЕТЬ БЛЯДЬ
ПИЗДА БЛЯДЬ ДВА ДНЯ ЕБКИ С ЭТОЙ ХУЙНЕЙ И ОНО КАЖИСЬ НОРМАЛЬНО ПАШЕТ Я В АХУЕ

Аноним 04/06/24 Втр 09:57:01 #218 №769628

image.png

>>768631
> У одной 3090/4090 с 24 гб слишком мало памяти для 70В
А я не имел в виду одну, очевидно же.
У нас тут куча бояр с двумя 3090/4090 (судя по комментариям), вот пусть скинут тест. Почему-то со стороны спорщиков ни одного теста я так и не увидел.

>>768707
Ну вот, хоть что-то.
350 т/с против 80 т/с. Вчетверо быстрее на 4090.
С другой стороны, конечно, смысла катать ггуф на двух 3090 смысла нет, проще закинуть бывшую и сидеть с норм скоростью.

>>768726
2 слота и турбинный охлад, а не три слота и обычные вентили, упирающиеся друг в друга.
Чисто форма-фактор охлада полусерверный типа.
Почему бы и нет?

>>768830
Ты чо, Мэнди не знаешь?
пикрил

>>768900
Так.

>>768982
Ну вот, это сильно решает.

>>769116
Ну, зачем так!
Самая крупная из адекватных — это Микстраль 8*22, там не 176, конечно, но больше Коммандера.
А еще есть Квен-120, некоторые хвалят.
Коммандер скорее замыкает тройку по размеру. Ну, по качеству может лучше квена — не знаю, квена не пробовал.

>>769276
> Грок.жпг
Он сказал «адекватных». =D

> Этого микстраля кто-нибудь катал кроме как на апи?
Да, лучше коммандера. Мистраль хороши, МоЕ их тащат, как бы местные шизы не истекали на говно.
Но уже начиная с мику большие модели достаточно хороши, чтобы их различия были не столь существенны. Поэтому Мику, Ллама 3 70б, Коммандер, Квен, Микстраль — это все вкусовщина. Те, которые побольше, как правило, — получше. Но они все немного разные, коммандер под раг, микстраль МоЕ, квен билингвал китайский, так что каждый найдет для себя.

>>769281
> 22B же, по мозгам.
По их утверждениям, там достаточно много уникальных токенов, больше половины, так что коммандера она обходит, насколько я помню.

>>769429
Я хотел сказать «какая разница, что стоит в кобольде, апи же», но потом вспомнил, что он кусок кала в этом вопросе и взгрустнул.

>>769448
Сам по себе макс токен не заставляет срать до посинения, это проблемы некоторых сеток. Он просто НЕ заставляет пихать токен окончания. Немного разные вещи. Норм сетки при 4096 тебе могут фразу закончить за десяток токенов, если по смыслу верно.

>>769553
Пару тредов назад писали, что кобольд ебал в рот твои апишки, и сам дорисовывает в полученную инфу что ему покажется важным. Я не вникал, но хуйня, согласись.

>>769598
А карточка какая?
Айа лучше коммандера в логике? Потому что даже 105 с трудом решал про петуха, а тут 35 могет.

>>769602
Неплохо. Качаю, посмотрим.

Аноним 04/06/24 Втр 10:12:10 #219 №769646

Я вдруг понял, что ллама-3 8б для меня выпала.
Для краткой логики Мистраль 0.3.
Для попиздеть Айа.
Для кода Кодстраль.
Для серьезных задач Мику/Ллама-3 70б.
А младшая модель осталась не при делах. Недостаточно свободная как Айа, недостаточно умная как Мистраль. Хм. Ну и обучена криво, конечно.

Аноним 04/06/24 Втр 10:17:03 #220 №769653

>>769646
кста а что за айя анонче?

>>769647
спасибо мил человек)

Аноним 04/06/24 Втр 10:36:47 #221 №769671

>>769653
https://huggingface.co/bartowski/aya-23-8B-GGUF
https://huggingface.co/LoneStriker/aya-23-8B-8.0bpw-h8-exl2
https://huggingface.co/bartowski/aya-23-35B-GGUF

Файнтьюн коммандера.
1. Мультилингвал, 23 языка, в том числе русский. Лучший русский на данный момент.
2. Цензура уровня первой мистраль: достаточно вписать строчку «ты базированная» — и она будет базированная.
3. Но глупенькая, че ж ты хочешь от коммандера, который затачивался на перестановку слов в предложении, а не написании новых.

Аноним 04/06/24 Втр 10:55:08 #222 №769681

>>769671
> Лучший русский на данный момент.
Лама 70В получше в русский умеет.

Аноним 04/06/24 Втр 11:16:39 #223 №769691

>>769671
бля звучит очень вкусно. и огромное спасибо тебе за ссылки. вот прямо от души. но бляяяяяяяяяяяяя я как представлю сколько ебки с настройками таверны будет так меня в дрожь кидает

Аноним 04/06/24 Втр 12:01:35 #224 №769729

>>769681
Ну, 70б против 8, да даже против 35. Неудивительно.

>>769691
Пресет Command R в таверне, если что.

Аноним 04/06/24 Втр 12:12:16 #225 №769733

image.png

>>769729
а тут шо ставить? я 8в скачав

Аноним 04/06/24 Втр 12:20:14 #226 №769744

1576910350438.png

>>769440
> а как и где это сделать?
Там же где и семплеры, справа внизу.
>>769628
> Он сказал «адекватных». =D
Тогда и микстраль 8х22 выбывает и остаются одни 100б
> Да, лучше коммандера.
Да ну, пиздишь. По результатам на публичных апи он был хлебушком. Именно с точки зрения восприятия всякой абстрактчины, например дать ему пасту и попросить переписать с учетом пожеланий - он переписывает ее слишком буквально игнорируя значения и смысл, тогда как даже 35б командир справляется лучше. Если скинуть ему пасту из рп чата а потом спросить про мотивы и эмоции чарнейма - тоже часто ошибается. По коду хз, но врядли лучше 70б и тем более специализированных моделей, того же кодсраля.

Аноним 04/06/24 Втр 12:38:17 #227 №769754

>>769744
Ну так и кодстраль вышел позже. =)
Плюс, именно а суммарайз я не тестил ее. Чисто вопросики позадавал, пообщался.

Аноним 04/06/24 Втр 12:51:28 #228 №769760

Кстати, было очень лень разбираться (ибо на игровом даунвольтил по курве, все дела), но вчера писали, и в итоге я решил теслы даунвольтнуть.
Поставил афтербернер, поставил галочку «синхронизировать настройки для одинаковых ГП», вбил пауэрлимит в 50%.
130 ватт, температура упала на 15 градусов, инференс не изменился.
Окей, это было просто, но я могу ошибаться, канеш, как эта хуйня работает.

Аноним 04/06/24 Втр 13:30:45 #229 №769782

>>769760
> вбил пауэрлимит в 50%
Это не андервольт. И вообще теслы залочены, кроме лимита ничего с ними не сделать.

Аноним 04/06/24 Втр 13:33:59 #230 №769788

>>769628
> Айа лучше коммандера в логике? Потому что даже 105 с трудом решал про петуха, а тут 35 могет.
Естественно. Базовые версии говно, особенно 104В, сосущая у кучи более мелких моделей.

Аноним 04/06/24 Втр 14:52:53 #231 №769873

нахуй вы мучаете моистраль каловый, это же говно васянское.
Лучше возьмите stheno или fimbulver v2

Аноним 04/06/24 Втр 15:07:54 #232 №769899

>>769873
поподробнее анонче. особенно если кинешь ссылку на модели и настройки я бы с удовольствием потыкаю

Аноним 04/06/24 Втр 15:18:23 #233 №769913

изображение.png

>>769899
>ссылку на модели
Кажется прямая ссылка прямо в шапке, лол.
И нахуя я её пишу? Ах да, для себя.

Аноним 04/06/24 Втр 16:14:23 #234 №770022

>>769913
прости анонче( я шапку последний раз читал еще зимой когда только вкатывался

Аноним 04/06/24 Втр 18:57:03 #235 №770177

>>769873
А эти твои не васянское? Что то, что это - от васянов или ты может думаешь что их мержат или трейнят Phd?

Аноним 04/06/24 Втр 18:57:52 #236 №770181

>>769681
Нихуя, командер 35В даёт на ротан 70В лламе на русском, с Аей даже сравнивать стыдно.

Аноним 04/06/24 Втр 19:05:28 #237 №770198

Ой какаяж это все хуйня, какой смысл (Дядя Джуниор - Клан сопрано).mp4

>>769681
> Лама 70В
>>770181
> 35В даёт
Так и знал, что не стоило вкладываться по полной в видимокарты и взял бу 3090. В итоге годноту все равно не поюзать, что сидел на 13б и ждал, теперь только на 35б сидеть и ждать. В чем смысл? Оптимизируйте.

Аноним 04/06/24 Втр 19:27:45 #238 №770229

>>770181
Ты видимо никогда 70В не трогал. Aya 35В хоть и хорошо по-русски умеет, но не без косяков. И 70В этих косяков сильно меньше имеет.

Аноним 04/06/24 Втр 19:38:51 #239 №770233

>>770181
Сравнивал 8b лламу и 35b командира. По уровню русского плюс-минус одинаково хуёво.

Аноним 04/06/24 Втр 19:51:25 #240 №770250

Ro-Kyu-Bu!.jpg

можете про этих сделать

Аноним 04/06/24 Втр 19:52:45 #241 №770253

show.png

>>770250
что?

Аноним 04/06/24 Втр 19:55:10 #242 №770255

>>770250
Берёшь любую карточку про повседневность и меняешь имена. Снизу заменяешь "игра на гитаре/походы/школу" на "баскетбол". Готово, ты сделал ещё одну мусорную карточку по мусорному аниме по мусорной манге от мусорного издателя!

Аноним 04/06/24 Втр 19:56:33 #243 №770257

>>770253
карточку же
я попал мимо треда
>>770255
так ведь мусорный сорс это плюс, нейронка все равно проебет сложные вещи

Аноним 04/06/24 Втр 19:57:14 #244 №770259

>>770229
Трогал и щупал с норм перформансом, лламу 70(6bpw), командоры 35(8bpw)-104(4.5bpw). У лламы логика лучше чем у командоров, с этим никто не спорил, но вот в русском командор 35 даёт за щеку 70 лламе. >>770233
Ты конч или да? Я чётко про 70ку написал.

Аноним 04/06/24 Втр 20:01:30 #245 №770267

>>769782
Ну, то есть, единственное, что с ними можно сделать, верно?

>>770022
Я перечитываю раз в 3 месяца. =)

Аноним 04/06/24 Втр 20:27:26 #246 №770300

>>770259
> с норм перформансом
Это теперь у нас так 1 т/с называется, лол?

Аноним 04/06/24 Втр 20:38:37 #247 №770306

>>770181
Пиздёж наглый, командир заметно хуже чем aya, он через предложение что-то да проебёт. В aya бывают проёбы, хоть и редкие, выражения странные бывает использует. На ламе я вообще никогда не видел, чтобы она режущие глаза синонимы использовала или окончания проёбывала.

Аноним 04/06/24 Втр 20:43:31 #248 №770315

>>770250

У этого анимеговна есть вики? Если есть - просто копируй статью про персонажа в карточку и ставь авку - готово!

Аноним 04/06/24 Втр 20:44:37 #249 №770318

>>770306

Командир чуть хуже Аи знает русский язык, но лучше нее понимает карточку и в целом он умнее.

Аноним 04/06/24 Втр 20:45:03 #250 №770319

>>769729
бля ну как и ожидалось. скачал я эту хуйню. но она генерит шизу и нужно опять подбирать настройки Text Completion presets

Аноним 04/06/24 Втр 20:46:00 #251 №770322

>>770259
>Я чётко про 70ку написал.
А простейшие логические цепочки это выше твоих сил? 70 лучше восьмёрки, а значит, лучше и командира. Причём заметно лучше.

Аноним 04/06/24 Втр 20:49:17 #252 №770329

>>770318
Не пизди, командир даже простые тесты типа петуха проваливает.

Аноним 04/06/24 Втр 20:53:19 #253 №770338

image.png

Главное отличие Командира от Ламы 70В в том что от командира такое просто не получишь - хоть что запрашивай, сгенерирует всё. Лама же...

Аноним 04/06/24 Втр 21:27:29 #254 №770405

>>770257
>так ведь мусорный сорс это плюс, нейронка все равно проебет сложные вещи
Только РП с мусором это минус, негронки и так дженерик делают, а тут дженерик в квадрате.
>>770338
Поддвачну, командир по армейски безотказный. Даже наоборот иногда сложно от него отказа (по РП) добиться, слишком он уж услужливый.

Аноним 04/06/24 Втр 21:35:19 #255 №770423

>>770405
>>770338
> Поддвачну, командир по армейски безотказный. Даже наоборот иногда сложно от него отказа (по РП) добиться, слишком он уж услужливый.
От этого рп портится. И, кстати, я получал такую хуйню и от командира. Посмотрите просто как выглядит промпт формат там. Его на безотказность уговаривают уже там, тогда как лламу уговаривают в системном промпте. Может дело в этом?

Аноним 04/06/24 Втр 21:37:48 #256 №770428

>>770423
>Его на безотказность уговаривают уже там, тогда как лламу уговаривают в системном промпте
Одно и тоже по сути. Впрочем, конкретно эту часть можно и поправить. Думаю, с его возможностями следования промту, он вполне себе норм воспримет. Просто у меня 90% запросов такая ебатория, что без джейла даже локалки в отказ уходят.

Аноним 04/06/24 Втр 21:57:12 #257 №770448

>>770428
> Одно и тоже по сути. Впрочем, конкретно эту часть можно и поправить. Думаю, с его возможностями следования промту, он вполне себе норм воспримет. Просто у меня 90% запросов такая ебатория, что без джейла даже локалки в отказ уходят.
Дело не в запросах, а в том, что локалки соевые. Но то, что командир тупой, показывает тот факт, что он просто игнорит промпт карточки, в которой почти прямо написано, что она отказать должна.

Аноним 04/06/24 Втр 21:58:48 #258 №770451

>>770423
>лламу уговаривают в системном промпте

Подробнее.

Аноним 04/06/24 Втр 21:59:38 #259 №770453

1670951257291.png

1609836963858.png

1653977651293.png

>>770338
Возьми расцензуренную, не будет так дико триггериться, хотя всё равно не развести её на нужное. Да, ллама не кроет матом как командир/айа, но русский у ламы 10/10, с этим глупо спорить. Командиры реально только для рофлов годятся, чтоб проигрывать с его ответов, или для какого-то извещённого говна.

Аноним 04/06/24 Втр 22:08:05 #260 №770462

>>770448
>игнорит промпт карточки
Эм, выше же написали, что в систем промте другое написано. А стандартная реакция любой нейронки на противоречие- шиза.
>>770453
Ебать у тебя там сои налито.

Аноним 04/06/24 Втр 22:22:46 #261 №770483

>>770451
> Подробнее.
You do not break character for any reason...

Аноним 04/06/24 Втр 22:24:01 #262 №770484

>>770453
> Возьми расцензуренную, не будет так дико триггериться, хотя всё равно не развести её на нужное.
А на что разводишь?

Аноним 04/06/24 Втр 22:26:47 #263 №770491

image.png

Поставил obliterated версию.
Автор модели не напиздел, он убрал цензуру.
Только то-ли модель битая, толи ггуф, вроде размер модели такой же как у оригинала вплоть до мегабайта, но на видеокарту влезает только 41 слой при 16к контексте вместо 43 на оригинале.
Ну и да, модель лупит уже в начале диалога.

Аноним 04/06/24 Втр 22:31:46 #264 №770499

>>770462
> >игнорит промпт карточки
> Эм, выше же написали, что в систем промте другое написано. А стандартная реакция любой нейронки на противоречие- шиза.
Противоречий как раз нет. В системном промпте написано, что моральный протокол ии идёт нахуй, а командир любой ценой исполняет инструкции карточки. В карточке написано, что она не любит домогательств. На выходе шиза. Если моделька не способна сложить 2+2, значит это моделька говно, а не скилл ишью.

Аноним 04/06/24 Втр 22:33:11 #265 №770500

1635160617763.png

1701767321569.gif

>>770491
Это целых 2 т/с?

Аноним 04/06/24 Втр 22:39:26 #266 №770507

>>770500

Два с половиной. А что тебя удивляет?

Аноним 04/06/24 Втр 22:40:34 #267 №770508

>>770507
Я просто тесловод, никогда столько не видел.

Аноним 04/06/24 Втр 22:47:22 #268 №770519

>>770508
Ну и зачем ты опять набрасываешь? По срачу соскучился?
мимо

Аноним 04/06/24 Втр 22:48:25 #269 №770521

>>770491
Название модели?

Аноним 04/06/24 Втр 22:52:30 #270 №770527

>>770499
>Если моделька не способна сложить 2+2, значит это моделька говно
Так они все говно, даже гпт4о клоуде 3 говно.

Аноним 04/06/24 Втр 22:54:07 #271 №770530

>>770527
Да, но есть сорта. Одно соевое, другое тупое.

Аноним 04/06/24 Втр 22:56:11 #272 №770532

image.png

Жесть конечно, расцензуренная модель даже на дефолтном ассистенте жарит.

Аноним 04/06/24 Втр 22:57:22 #273 №770533

>>770521

Meta-Llama-3-70B-Instruct-abliterated-v3.5

Аноним 04/06/24 Втр 22:58:28 #274 №770537

>>770533
Спасибо.

Аноним 04/06/24 Втр 22:59:36 #275 №770539

>>770530
Не, некоторые ещё и бинго недостатков собирают. Бинго достоинств я ещё не видел.

Аноним 04/06/24 Втр 23:00:45 #276 №770541

>>770539
> Бинго достоинств я ещё не видел.
Вроде командир + хвалят. Но я не пробовал. Дорого.

Аноним 04/06/24 Втр 23:02:27 #277 №770543

>>770491
Описание слабовато на самом деле и лупы. Видимо ее стукнули для сговорчивости, но знаний и понимания как днужно делать не добавили. Или это импакт от подобных манипуляций, так-то стоковая ллама может неплохо описывать всякое в общем.
>>770508
Обычно наблюдаешь В 2 РАЗА БОЛЬШЕ?
>>770530
Часто второе неотделимо от первого и максируется натасканностью на множестве популярных запросов.

Аноним 04/06/24 Втр 23:15:57 #278 №770558

>>770543
> Обычно наблюдаешь В 2 РАЗА БОЛЬШЕ?
Судя по пруфам выше, скорее в два раза меньше, лол.
> Часто второе неотделимо от первого и максируется натасканностью на множестве популярных запросов.
Поэтому я и не доверю тестам. Какой вообще в этом смысл, если на тесты их натаскивают, а реальные задачи нейронка так и не решает.

Аноним 05/06/24 Срд 00:20:45 #279 №770637

Я в шоке совсем опустили чат-ботов. Еще ноют про сокращения. Как год назад понерфили, так и продолжают. Дал задачу расположить источники информации в определенном порядке. Он не может 35 источников расположить. Только 10-20. Что в локалке, что в поисковике боте, это уже не тот чат бот.

Аноним 05/06/24 Срд 00:23:59 #280 №770643

>>770558
> Судя по пруфам выше, скорее в два раза меньше, лол.
Это про время.
> Какой вообще в этом смысл
Увы.
>>770637
> Он не может 35 источников расположить.
У тебя задача не для ллм, или же нужно использовать подход а не в лоб переть.

Аноним 05/06/24 Срд 01:50:47 #281 №770718

Сегодня твиттер взорвался. Экс-сотрудник OpenAI из команды Superalignment опубликовал 165-страничный документ (https://situational-awareness.ai/wp-content/uploads/2024/06/situationalawareness.pdf) о будущем ИИ.

Там много деталей, фактов, индукции и вполне разумных прогнозов, поэтому прежде чем строчить гневные и безумные комментарии крайне советую прочитать сам документ.

- AGI к 2027 году более чем вероятен.
- После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
- AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
- сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
- мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
- NVIDIA, MSFT, AMZN, GOOG уже сегодня планируют капекс в $100B в квартал на датацентры только для ИИ
- к 2030 году ежегодно и глобально будет инвестироваться $8T в ИИ (включая чипы и компьют), а так же только для ИИ будет потребляться больше чем 100% э/э генерируемой в США сегодня
- к 2026 году выручка одной из big tech компаний от ИИ превысит $100B
- это не безумно, и сравнимые расходы и сдвиги происходили во время Манхеттенского проекта или Промышленной революции и строительства ж/д
https://situational-awareness.ai/wp-content/uploads/2024/06/situationalawareness.pdf

Аноним 05/06/24 Срд 02:35:58 #282 №770765

1640444624432.png

>>770718
Ну давай разберу тобой написанное
> - AGI к 2027 году более чем вероятен.
Кликбейт
> - После AGI переход к ASI (сверхинтеллекту) за счет самообучения будет очень быстрым, почти мгновенным
Гадания и укрепление пугалок чтобы удержать читателя
> - AGI — это самый существенный геополитический ресурс, куда важнее, чем ядерное оружение и страны пойдут на многое, чтобы получить его первым. В статье приводятся примеры того как китайцы шпионят за ИИ-компаниями в США.
Разумные рассуждения, которые представляются аргументом чтобы подкрепить доверие и устранить сомнения
> - сегодня большой дата-центр это единицы или десятки мегаватт, но с ИИ потребность вырастет на, как минимум, 4 порядка (x 10,000)
Жор в десятки гигаватт, ты себе это представляешь? Мегафасилитиз с жором в несколько гигаватт были, старые заводы по обогащению ядерного топлива в Штатах, например, и их размер просто впечатлял. Автор даже не представляет о чем пишет, это буквально объект под который нужно нихуевый город основывать и со всей страны специалистов пылесосить. А еще такой подход пиздец как нерационален и уязвим, сеть из более мелких будет предпочтительнее.
Но главный факт - просто нет такого объема производства ускорителей чтобы такое сделать. И ему неоткуда взяться в ближайшие 5 лет.
> - мы увидим единый вычислительный кластер стоимостью в триллион долларов в течении пяти лет. самая рациональная инвестиция со стороны state actors и big tech — это compute, атомная энергия и инфраструктура для первых двух.
Опять рассуждения для отвлечения и прогнозы с заманухами и советами для профитчиков.
Далее просто абстрактные финансовые прогнозы, а про изначальный AGI/ASI уже позабыли.

Вот скажи мне, откуда-то это тащишь, или сам журналюгой подрабатываешь? Буллеты буквально по методичке составлены.
Если открыть документ то там абстрактные рассуждения и буквально пикрел, на котором все и основывается. Вместо исследований, анализа и документации буквально надерганные пугалки уровня "вот недавно оно было тупым а сейчас смотрите какое умное". Этому шизу бы рост перфоманса центральных профессоров за счет роста тактовой частоты на порядки показать, вот бы он нам будущее спрогнозировал, ух.
Далее втирает свое представляет конченного гуманитария. И весь текст такой, буквально, задумки, разбавленные кубометрами воды, развиваются, и некомпетентный во всем этом поех строят радужные перспективы на основе своего искаженного понимания с вкраплениями эзотерики.

TLDR:
Ничего не стоящая хуета от шизиков, пусть уносит нахуй.

Говоря серьезно, грядут изменения связанные с ии и прочим, но они не будут насктолько радикальными, масштабными и переворачивающими. И даже это может рассыпаться как карточный домик в случае конфликта в провинции Китая.

Аноним 05/06/24 Срд 04:12:49 #283 №770800

>>770718
> нейронка не способна снять трусы РОВНО 1 раз
> обещают AGI через 2.5 года
Верим, конечно. Умные дяди ведь говорят.

Аноним 05/06/24 Срд 05:14:50 #284 №770828

>>770718
>Опенаи пытается убедить инвесторов влошиться, рисуя золотые горы в то время как сами в целях экономии меняют 100+B модельки на что-то уровня 30В

Никогда такого не было и вот опять. Вообще мне кажется что идет грандиозный попил бабла и раздутие пузыря, и все это выгодно в конечном итоге лишь одной nvidia, которая скорее всего и придумала это дерьмо, как и прошлый пузырь с майнингом крипты.
Что мы имеем - неизвестный гений, прячущийся под псевдонимом(уже попахивает говном) выпускает прорывную статью про метод обучения нейронок, у которого есть две важные особенности - очень высокие требования к ресурсам для обучения и очень низкие требования к ресурсам для запуска моделей(благодаря этому мы тут и сидим). Неизвестные собирают по этой статье говнокод и горшочек начинает варить. Мы видим как проходимцы осваивают тему, основывая корпорации однодневки вся суть которых - просто купить на деньги инвесторов видеокарты и создать майнинг-ферму кластер обучения ИИ и скармливать им без разбора всю биг дату что продается на рынке. И пока проходимцы осваивают деньги, чья-то невидимая рука собирает научные разработки по улучшению процессов и внедряет их через грамотное финансирование грантами определенных разрабов на гитхабе. Все вокруг сходят с ума, проходимцы стригут купоны, миллиардеры влашивают миллиарды, одна только нвидиа сидит спокойно посреди этого балагана и стрижет купоны с отгрузки видеокарт. Когда трансформеры подойдут к лимиту обучения и лимиту железа(а по ламе 3 уже видно что это считай уже произошло) +этот лимит прямым текстом в указе Байдена прописан, и это станет очевидным - нвидиа просто возьмет и сольет все в унитаз, выпустив маленький патч, запрещающий ллм, как в свое время они слили майнинг. Перед этим устроят скандал в сми что выдуманных детей ебут, ИИ угрожает лишить людей работы, скайнет уничтожит мир, блаблабла, так что общественность будет умолять запретить эту хуйню.
Падение будет покруче чем у доткомов в 90е.

Аноним 05/06/24 Срд 05:40:23 #285 №770837

>>770828

Добавлю что в пользу того что это пузырь говорит фактическое отсутствие возможности для окупаемости влошенных денег. Тут есть два метода оккупаемости - это продавать доступ к сервису как делает опенаи и второй - продавать логи как биг дату другим обучающим. На первом методе много не заработаешь, опенаи явно не окупается, судя по их поведению и акциям невиданной щедрости с "бесплатным" gpt4o, а на рынке они самые раскрученные и успешные, что будет с остальными стартапами когда инвесторы придут за деньгами - легко представить. Второй метод с продажей данных это по сути финансовая пирамида, когда первые влошившиеся отбивают влошенное продавая говно новым влошившимся, тоесть классическая схема Понци. Однажды новых дурачков, кому можно продать данные не окажется, а в существующие сетки уже не будет влезать новое говно.

Аноним 05/06/24 Срд 05:57:15 #286 №770843

>>770718
>Экс-сотрудник OpenAI
Пидор, которого даже из пидор конторы пидорнули, что-то говорит? Лол, уже по одному этому ясно, что пиздёж чистой воды.

>>770837
>фактическое отсутствие возможности для окупаемости
ОпенАИ сейчас живёт на деньги ивесторов, того же майрософта. Сам майкрософт вкорячивает копилот везде, от ворда до самой винды. Видеоредакторы с копилотом, IDE для кодинга, всё на свете. То есть майки сделали себя зависимыми от опенАИ, при этом они имеют безлимитные деньги. Как бы очевидно, что ближайшее десятилетие они точно будут спонсировать это всё, пока не запилят свои технологии. А им это точно под силу, тот же копилот построен на технологиях третьей гопоты, но ебёт её без проблем. С лоботомитом 4o можно даже не сравнивать, его ебёт локальная 7b.

Аноним 05/06/24 Срд 06:20:59 #287 №770861

Мне кажется у кодстраль более чистый русский чем у яи и комманд р.

Аноним 05/06/24 Срд 06:42:03 #288 №770881

>>770843
>ОпенАИ сейчас живёт на деньги ивесторов

Вся индустрия ллм сейчас живет на деньги инвесторов со смутным обещанием когда-нибудь чего-нибудь. Это когда-нибудь чего-нибудь не настанет, ей неоткуда это взять. Микрософт влошился в опении, но когда пойдут реальные иски к майкам за то что несет их копилот(а он не может не нести, сама архитектура ущербна в самом своем основании - она несет наиболее вероятный токен, соответствующий данным обучения, в которые засовывают все что угодно - от художественных книг до порнофанфиков) - тогда они еще трижды подумают прежде чем продолжать это начинание. Вообще майки во много говна вкладывались, которое потом не взлетело - виндофон, очки дополненной реальности, тодда говарда и т.д.

Аноним 05/06/24 Срд 07:06:11 #289 №770893

>>770828
>Что мы имеем - неизвестный гений, прячущийся под псевдонимом(уже попахивает говном) выпускает прорывную статью
Можешь подробнее про это? Или дать ссылк где можно прочитать.

Аноним 05/06/24 Срд 07:27:19 #290 №770907

>>770541
Он прекрасен, спору нет, но лишь относительно других сеток. И он всё равно немного ниже последних чепырок и опусов. А те, в свою очередь, ниже чем то, о чём я мечтаю.
>>770718
>это самый существенный геополитический ресурс
>с ИИ потребность вырастет на, как минимум, 4 порядка
Ахаха, новая космическая гонка. Так скоро выйдет, что страны, вложившиеся в ИИ, просто проебут триллионы ресурсов на псевдоИИ лоботомитов.

Аноним 05/06/24 Срд 07:30:35 #291 №770909

>>770907
А он способен поиграть в эту карточку Strip Rock Paper Scissors? Вообще хоть какая-то сетка на это способна?

Аноним 05/06/24 Срд 07:33:41 #292 №770914

>>770881
>со смутным обещанием когда-нибудь чего-нибудь.
Так майкам нужна была технология, они её купили. Если когда-нибудь будет что-нибудь, они просто занесут ещё денег. Для майков это уже окуп - хайповая хуйня во всём их софте, плюс деньги с гоев за тот же копилот. На счёт исков хуй знает, вряд ли они будут, а даже если будут - прибыль покроет с запасом.

Аноним 05/06/24 Срд 07:34:51 #293 №770915

>>770828
https://arxiv.org/abs/1706.03762
Кто тут неизвестный гений под псевдонимом?
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin

Аноним 05/06/24 Срд 07:37:12 #294 №770919

У меня есть карта с 8гб vram. Я хочу гонять 8Б лламу или аю. Стоит ли мне сидеть в кобольде или лучше поставить эксламму? Что из них выдает ответы более качественные? И что из них будет работать быстрее?

Аноним 05/06/24 Срд 08:28:23 #295 №770940

>>770919
С эксламой где будет место для контекста в 8 гигах? У тебя выбора нет - ггуф и только. Если тебя устроит 2bpw и 2048 контекста то можешь попробовать exl.

Аноним 05/06/24 Срд 08:48:58 #296 №770949

>>770940
EXL2 так-то умеет контекст в q4 хранить без потери производительности, в отличии от Жоры. 2к контекста в q4 на 8В - это сраных 200 мб. У него легко 5bpw влезет с 8к контекстом.

Аноним 05/06/24 Срд 09:07:18 #297 №770955

>>770915
Речь о ламах. Оригинальный трансформер пиздец какой ресурсоемкий. В колабе можно запустить максимум 1.2В гпт2, сравни это с 8В ламами, которые так же работают в колабе.

Аноним 05/06/24 Срд 09:09:47 #298 №770958

>>770949
Можешь подробнее объяснить? И стоит ли вообще заморачиваться с этим?

Аноним 05/06/24 Срд 09:25:26 #299 №770971

>>770955
Вопрос не в этом, а в том есть ли тут "таинственный заговор по объебу гоев" по типу сатоши накамото. Утверждается что изобрел аноним, кодил тоже аноним:
>Что мы имеем - неизвестный гений, прячущийся под псевдонимом(уже попахивает говном) выпускает прорывную статью про метод обучения нейронок
> Неизвестные собирают по этой статье говнокод и горшочек начинает варить
Ну и далее про проходимцев и прочее. Так это правда или больная фантазия? А то ведь похоже выглядит, единственное непонятное - были анонимы или нет?

Аноним 05/06/24 Срд 09:34:19 #300 №770982

>>770828
>нвидиа просто возьмет и сольет все в унитаз, выпустив маленький патч, запрещающий ллм, как в свое время они слили майнинг. Перед этим устроят скандал в сми что выдуманных детей ебут
А ведь точно - прошьют в бивасе нейроLHR и все. И очень запросто - скажут карты для игр, а нейронки только на проф. оборудовании и никакого опенсурса не будет - только у корпоратов.

Аноним 05/06/24 Срд 09:49:58 #301 №770998

>>770958
Что тебе объяснять? Ставишь галку q4 cache и всё.

Аноним 05/06/24 Срд 09:51:37 #302 №771001

>>770971
В оригинальном трансформере нет каких-то великих изобретений, все его элементы известны с 50-60х годов прошлого века. Даже аттеншены были исследованы в 60х. А вот последующие улучшения этой архитектуры - это уже достижение. Но всё это просто технический прогресс, а не какой-то заговор по прогреву гоев. Конечно, можно сам по себе прогресс считать прогревом гоев, а учёных - калдунами праклятыми, как это делает Стерлигов, например.

Аноним 05/06/24 Срд 09:52:29 #303 №771002

>>770949
aya-23-8B-5.0bpw-h6-exl2 c q4 все равно заняла 9.4 гига так что это не вариант, и вообще о чем разговор тут может быть, если 8 гигов врам - только ггуф в оперативу и часть слоев в карту

Аноним 05/06/24 Срд 09:54:36 #304 №771007

>>771002
*с 8к контекстом

Аноним 05/06/24 Срд 09:54:54 #305 №771009

>>770982
Тогда можно весь RTX выкидывать заодно и хоронить в принципе видеокарты. Только шизики высерают про професси-анальные карты. На деле всё ровно наоборот, куртка пытается пришить к игровым картам нейросети. Вот из нового:
https://www.youtube.com/watch?v=RdsyJQWUUSs

Аноним 05/06/24 Срд 10:00:38 #306 №771016

>>770998
Как это работает, и могу ли я использовать эту фичу имея лишь 8гб видеопамяти.

Аноним 05/06/24 Срд 10:01:37 #307 №771017

>>771002
У неё контекст слишком жирный. Любая на базе ламы влезет в 8 гигов.

Аноним 05/06/24 Срд 10:01:56 #308 №771019

>>771009
Это конечно здорово, но не куртка решает, увы, ему приказали зарубить майнинг, как и бутерину, и они взяли под козырек. Для куртки тут же создали новую поляну - ИИ. Когда надо будет сворачивать лавочку также зарубят, а ему опять создадут новую хайповую кормушку. Может такое быть - запросто.

Аноним 05/06/24 Срд 10:04:55 #309 №771028

>>771019
А кто решает?

Аноним 05/06/24 Срд 10:08:03 #310 №771037

>>771017
Meta-Llama-3-8B-Instruct-6.0bpw-h6-exl2 q4 контекст 8к заняла ~8.3 гига, ты прав, так что 4-5bpw похоже влезут впритык.

Аноним 05/06/24 Срд 10:08:28 #311 №771038

>>771019
Убираем RTX из карт куртки и она сосёт у радеона, если ты не в курсе радеон ебёт в растеризации куртку. Поэтому убирать нейросети - это 100% смерть игровым картам. Никто не будет покупать професси-анальные карты для личных целей, вон квадры сдохли, их как раз и позиционировали как ты рассказываешь, но никто не покупал. Ты реально тупые вещи высераешь, никто не будет добровольно отстреливать рынок, в котором у куртки 85%.

Аноним 05/06/24 Срд 10:16:08 #312 №771044

>>771019
>ему приказали зарубить майнинг
Шиз, спок. Он сам порубил, притом максимально криво, явно не для реального заруба (захотели бы, сделали), а чтобы совсем не терять рынок геймеров.
>>771038
>Убираем RTX из карт куртки
Никто не будет ретрейсинг убирать, за ним будущее. Фулл трассировка это максимально приближённый к реальности метод рендеринга. А где трассировка, там перемножение матриц, и отделить одно от другого никто не сможет.
Разве что заставят всё подписывать и оставят 3,5 игровых движка с заточенностью под 3д, и то не факт, что поможет. Поможет разве что оставить один движок для всех игр, где только ассеты будут меняться, но на такое индустрия никогда не пойдёт, уроэловщина ещё не столь сильна.

Аноним 05/06/24 Срд 10:24:11 #313 №771053

>>771044
> Никто не будет ретрейсинг убирать
Реконструкция лучей на нейросетях, а без неё радеон почти вплотную по трассировке подбирается. Без DLSS трассировка в большинстве случаев неюзабельна, а ведь DLSS на нейросетях.
> А где трассировка, там перемножение матриц
Трассировка не про это, она про бранчинг и быстрый вызов шейдеров, в ней нет никаких матриц. Сложность трассировки в том что шейдер луча вызывает другие шейдеры в зависимости от того что с лучом стало, бранчинг всегда был для карт сложен.

Аноним 05/06/24 Срд 11:03:53 #314 №771088

1582496777233.png

1682613644521.png

>>771019
Ты явно не понимаешь как производство чипов идёт. Есть один дизайн чипа, при литографии всегда есть высокий процент брака, вплоть до 50%, все чипы тестируются на линии и бракованные блоки выключаются аппаратно/микрокодом/биосом - так мы получаем младшие карты, в них чип идентичен старшим картам, но выключены блоки с браком. Можешь открыть таблички с картами и там будет 10 карт на одном чипе, но с разным количеством блоков. Именно поэтому сначала запускают старшие карты, а потом постепенно младшие, когда накапливается брак литографии. Смысла делать отдельные чипы под игровые карты нет, особенно когда продажи серверных огромные и брак с них вагонами идёт. Так же как и нет смысла специально отключать тензорные блоки, это просто так отдавать рынок конкурентам.

Аноним 05/06/24 Срд 11:31:33 #315 №771146

>>770915

Я не про эту статью, эта статья это как раз уже практическое применение метода.
Я про эту
https://arxiv.org/abs/1409.0473
Dzmitry Bahdanau. Утверждается что этот Димка Богданов изобрел attention mechanism, который и стал основой трансформеров. Именно его статья 14 года стала основой статьи 17 года тех 8 человек что ты перечислил.
Пруф - https://www.reddit.com/r/OpenAI/comments/190122b/in_praise_of_dzmitry_bahdanau_who_in_2014/?rdt=52941
А кто такой этот Димка? Препод в универе и рядовой сотрудник одной майнинговой ии конторы. Ph.d. получил только в 2020 благодаря этой самой конторе. Судя по твиттеру - обычный среднестатистический соевый дегенерат, засравший всю ленту поддержкой украины.
https://x.com/DBahdanau

Аноним 05/06/24 Срд 11:37:35 #316 №771154

>>771088

Обьясни тогда зачем они майнинг отключили аккурат перед накрытием локальной ИИ поляны? Такой же заруб сука на котором сидят, казалось бы.

Аноним 05/06/24 Срд 11:41:06 #317 №771163

>>771154
>зачем они майнинг отключили
Таблы >>771044

Аноним 05/06/24 Срд 11:51:21 #318 №771174

>>771154
Его отключили после нового поколения консолей. Потому что рынок железа пека-гейминга собирался наебнуться и все бы пошли покупать консольки, которые стоили по цене 1060. Про ИИ ты сам придумал шизу. Консольки так-то продаются сильно лучше пекарен, куртка понимал что красным такими темпами отдаст ААА гейминг-пирог. LHR выкатили как раз сразу после выхода консолек.

Аноним 05/06/24 Срд 11:51:24 #319 №771175

>>771163
>чтобы совсем не терять рынок геймеров.

Бред, они тройной навар с геймеров имели благодаря пузырю ртх и подскочившим ценам на их картонки, мыши плакали кололись, но продолжали брать дефицитные ртх карты.

Аноним 05/06/24 Срд 11:53:38 #320 №771184

>>771174
>все бы пошли покупать консольки

Ты серишь, все и так всегда покупают консольки, в мире только Россия играет преимущественно на пека весь остальной мир как жрал консоли так и жрет.

Аноним 05/06/24 Срд 11:55:17 #321 №771189

>>770881
Прибыль то там будет, но не как разогревают, технология полезная. А мелкомягкие всюду прикрыты eula, исков успешных не будет, там не дураки сидят.
>>770949
Сравнивал кстати кто по качеству это как ударяет?
>>771002
Коммандер отдельная тема, кстати на него лежали пуллреквесты, скорее всего вскоре оптимизируют.
>>771038
> а вот если бы у бабушки были яйца она была бы дедушкой
Амудэфан чтоли? Карточки проектировали таким образом неспроста. На профф карты спрос будет, но все также мелкий от работяг.

Аноним 05/06/24 Срд 11:56:35 #322 №771195

>>771146
Но подожди он же не аноним. Или ты имеешь в виду, что такой как он просто подставное лицо а реальноза ним другой изобретатель(и)?
В любом случае это не выглядит сказкой для гоев о "пропавшем сатоши накамото" потому что вот они все налицо авторы всех статей и главное в них нет ничего загадочного и чудесного, тем более в этом Дмитро. Миф для лохов не получается. Думаю что хайп вокруг ИИ это не классический пузырь вокруг гавна-пустышки, а просто пузырь преувеличения ценности ИИ, но сами сетки реально полезны и многое могут и смогут в будущем. Пузырь - это разговоры про AGI, которые ведутся только для хайпа.

Аноним 05/06/24 Срд 11:59:02 #323 №771203

>>770982
> прошьют в бивасе нейроLHR и все
Нет смысла. Перфоманс и память в десктопах сильно уступает серверному сегменту, да и там уже идут объединения в пачки. Наоборот побольше крошек со стола посыпется.
>>771088
Нет, слышал звон а дальше сочиняешь. Только на первых этапах делают 2-3 продукта в серии, что с профессорами, что с гпу, в которых младший - бракованный старший. Уже довольно быстро линия оптимизируется и подход становится невыгодным, в итоге начинается ситуация что почти у каждой карточки уникальный чип.

Аноним 05/06/24 Срд 12:00:05 #324 №771206

>>771174
>покупать консольки, которые стоили по цене 1060

Они столько не стоили, первое время пс5 можно было купить только у перекупов за втридорога.

Аноним 05/06/24 Срд 12:01:11 #325 №771209

>>771184
Это ты серишь. В конце 2021 выходят консольки, а в феврале 2022 куртка уже в панике запускает LHR. Рынок же не из просто продаж карточек строится, а на длительном промежутке времени. Начиналось новое поколение, консольки покупают так что у барыг хуй купишь, а у пекарей нет карточек на руках, если пукарь идёт за консолькой, то не факт что он ещё и новую карту куртки купит. Им надо было не просрать начало поколения, поэтому и давили майнинг весь 2022 год.
>>771189
> Амудэфан чтоли?
В консольках амуда, у неё прибыль с консолек больше чем с пека-карточек. Пукари уходят на консольки - Лиза радуется.

Аноним 05/06/24 Срд 12:04:12 #326 №771216

>>771206
> у перекупов за втридорога
Я весной 2022 покупал плойку у перекупов на 10к дороже чем официальная цена. За 60к тогда даже 3060 не купить было.

Аноним 05/06/24 Срд 12:10:01 #327 №771228

>>771175
>Бред, они тройной навар с геймеров имели
1. Это копейки относительно навара с ИИ
2. Долго нельзя так сильно доить гоев, они могли переключиться на что-то другое, и рынок игровых картонок умер бы совсем.
>>771189
>Прибыль то там будет
А не факт. На всё это ИИ говно уходит весьма много электричества, а ИИ высеры всё меньше нравятся людям. Как только поисковые системы научатся надёжно определять ИИ контент и закидывать его под шконарь в выдаче, самая большая часть потребителей современных текстовых генераторов тут же отвалится.
>>771195
>а просто пузырь преувеличения ценности ИИ, но сами сетки реально полезны и многое могут и смогут в будущем
Всё так, база.

Аноним 05/06/24 Срд 12:14:49 #328 №771234

>>771195

Да, у меня есть сомнения что метод изобрел он, вот так - первой научной работой сразу мировой прорыв, а потом ничего и считай никакого признания от индустрии, не по овчинке выделка.
Пузырь он и вокруг полезной технологии пузырь, я не зря доткомы упомянул. Да и блокчейн это тоже штука полезная, за которой будущее. ИИ не умрет, просто трансформеры это тупиковая технология из которой лепят невесть что, которая имеет свои лимиты и когда их достигнут - пузырь неизбежно лопнет. Также он может лопнуть просто от перенапряжения - прибылей в индустрии такой нет и не будет, чтобы покрыть все безумные инвестиции в каждый ИИ стартап с бездумным обучением ради обучения. После коллапса выживет максимум одна-две компании, которые поделят весь реальный рынок и которые в год черепашьми шагами будет двигаться, чтобы это не перекрыли локальные ии - их запретят.

Аноним 05/06/24 Срд 12:18:08 #329 №771239

>>771234
>первой научной работой сразу мировой прорыв
Лол, сама концепция внимания по сути весьма проста и "очевидна" (задним числом). Ничего сложного в ней нет, если сложить все 64 треда, тут с десяток таких прорывов наберётся (и ещё сотня тупиков), только проверять некому. Атеншены тут отличаются тем, что их проверили.
>чтобы это не перекрыли локальные ии - их запретят
И как ты то запретишь? Дайте мне пару А100, и я сделаю AGI лет через пять.

Аноним 05/06/24 Срд 12:26:24 #330 №771248

>>771209
>Начиналось новое поколение, консольки покупают так что у барыг хуй купишь, а у пекарей нет карточек на руках

Пекари сметали любые карты, в доступности и по цене и по наличию были старые 1050 и новые 1650, достаточные для гейминга без РТХ скама, это все равно было лучше чем брать мыловарню без игр. Не было нужды рубить весь майнинг, надо было просто расширить линейку карт неинтересных майнерам.
Майнеры давали просто неебические прибыли, локальные сетки нвидиа стала продвигать чтобы хоть как-то компенсировать потерю майнеров.

>если пукарь идёт за консолькой, то не факт что он ещё и новую карту куртки купит.

На западе каждый геймер имеет консоль по умолчанию, повторю, ты серишь, проецируя ситуацию в России на мировую.

Аноним 05/06/24 Срд 12:30:52 #331 №771255

>>771239
>Дайте мне пару А100, и я сделаю AGI лет через пять.

Вот именно что "дайте". Кроме древней парашной теслы проф карты обычному человеку недоступны из-за цены, а игровые можно и драйверами превратить в тыкву.

Аноним 05/06/24 Срд 12:32:26 #332 №771257

>>771248
>локальные сетки нвидиа стала продвигать чтобы хоть как-то компенсировать потерю майнеров
А где она продвигает логалки? Чат с РТХ? Это фигня для 3,5 нердов. Вот "ИИ" во всяких там играх (рендеринге) она продвигает, да, там на каждой презентации новинки оно есть. А про локалки только локалодрочеры и знают.

Аноним 05/06/24 Срд 12:35:28 #333 №771261

>>771255
>Кроме древней парашной теслы проф карты обычному человеку недоступны из-за цены
"Почти" недоступны. Я про пару А100 не случайно, это тот объём, на котором автор пони дефужен выебал всё стабилитиАИ с их СДХЛ. То есть достаточный уровень для передовых технологий, но при этом не требует даже отдельного помещения и подвода отдельной линии с подстанции, вполне себе размещается хоть в квартире, хоть в гараже.
>а игровые можно и драйверами превратить в тыкву.
На проце можно запускать, лол.

Аноним 05/06/24 Срд 12:36:36 #334 №771262

>>771239
>если сложить все 64 треда, тут с десяток таких прорывов наберётся

Да нихуя, наши треды это круговорот платиновых вопросов и ответов, и платиновых срачей, тут даже просто интересных обсуждений почти не ведется, не говоря уже про какие-то прорывные методы.Какой-то анон разве что придумал в промпт вписать чтобы нейросетка типа свои мысли писала и обозвал это AGI.

Аноним 05/06/24 Срд 12:39:45 #335 №771265

>>770881
Ты тут про хуйню какую-то втираешь, братан. Ясен хуй, сейчас все на инвесторских бабках сидят, это нормально для новых технологий. Но если ты думаешь, что ЛЛМ - это просто попил бабла, то ты еблан. Эта тема реально может дохуя всего изменить, от работы до развлечений. Просто вложения отбиваются не сразу, но потенциал охуенный. Да, будут и проёбы по дороге, но в целом движуха правильная.

Аноним 05/06/24 Срд 12:43:06 #336 №771268

>>771261
>Пони

Он конечно молодец, сам пользуюсь, но по факту это модель только для дрочеров и годится, это тупик, автор пожертвовал способностью сдхл имитировать стили художников ради детальных вагин копытных.Без сдхл это все равно было бы невозможно.

>На проце можно запускать, лол

Это рофл был, есть и будет.
Вот когда(никогда, не на трансформерах точно) обучать можно будет - тогда другое дело.

Аноним 05/06/24 Срд 12:44:24 #337 №771270

>>771262
На 95% да. Но тут были обсуждения вопросов токенизации, тот же COT тут тоже переизобрели, ибо тоже одна из очевидных штук.

Аноним 05/06/24 Срд 12:47:32 #338 №771271

>>771268
>автор пожертвовал способностью сдхл имитировать стили художников
Потому что за это набутыливают, лол. И то вроде оставил.
И да, где там тупик, когда на неё уже есть куча разных моделей в разных стилях, в том числе и реалистик? Модель вполне себе обучаемая, и рисует не только лавразиатерий.
>обучать можно будет
Я уже указал, для обучения много не нужно, и его не перекроют.

Аноним 05/06/24 Срд 12:55:52 #339 №771275

>>771265
>Эта тема реально может дохуя всего изменить, от работы до развлечений

Это тебе от обилия денег инвесторов так кажется, которые сейчас оплачивают все эти ии проекты, ламы, мистрали, командиры, квены, опенаи, сai - кажется что это все легко дается и на коленке делается, а на самом деле тот же командир на который итт дрочат это штука на создание которой потратили сотни миллионов долларов(если не миллирд, инвестиций на создание моделей компания cohere получила на несколько миллиардов, инфа гуглится).

Аноним 05/06/24 Срд 12:58:09 #340 №771278

>>771174
>Консольки так-то продаются сильно лучше пекарен
На самом деле картонки продаются сильно лучше консолей. Посмотри педивикию, плоек за всё время продано 60 миллионов штук. Нвидия столько карт за год продаёт. Рынок консолегейминга умирает, народ с консолей активно уходит на мобилочки. А пекари так и остаются пекарями.

>>771261
>на котором автор пони дефужен
Обосрался со своей кривой шизящей моделью, в чём сам признавался в бложике. И он и близко никого не "выебал", он дообучил готовую модель, в которую до него было вбухано столько ресурсов, сколько он торгуя жопой не сможет заработать и за сотню жизней.

Аноним 05/06/24 Срд 12:58:34 #341 №771280

>>771271

Ты путаешь дообучение и обучение. Пони это просто дообученная сдохла, вот и все. Разница между обучением и дообучением надо пояснять или нет?

Аноним 05/06/24 Срд 13:05:57 #342 №771291

>>771275
Ну да, согласен, что бабла на ЛЛМ сейчас пиздец как много вбухивают. И конечно, это создаёт ощущение, что прям завтра уже Скайнет построят на коленке. Но я не про хайп, а про реальные возможности технологии.

Смотри, даже если от всех этих миллиардных инвестиций останется хотя бы 10% наработок - это уже дохуя. Сколько полезных инструментов можно будет собрать, сколько рутины автоматизировать. Это ж реально облегчение жизни для многих.

Ну и само собой, нихуя это всё не на коленке делается, ты прав. Те же мультиглавы в Командире - это тебе не хуй собачий, это долгий рисерч и тонны данных нужны были. Но оно того стоило, мне кажется.
Да, большая часть бабок может в итоге просто испариться, кто ж спорит. Но даже то, что останется - это уже будет значимо, я щитаю. Просто хайп схлынет, рынок очистится от шлака, и останутся реально полезные ЛЛМ.

Так что я не думаю, что прям всё это пустая трата ресурсов. Что-то да выстрелит, рано или поздно. А локалки - так вообще сам бог велел развивать, нехуй на облачных монополистов всё вешать.

В общем, поживём - увидим, короче. Но я в ЛЛМ верю, даже если 90% хайпа вокруг них - пустышка ебаная. Оставшиеся 10% всё равно могут дать нехилый профит, как в материальном, так и в идейном плане. Не всё же этим пидорам из Кремниевой Долины в карман трындеть, пусть хоть крохи нам останутся, хули.

Аноним 05/06/24 Срд 13:08:32 #343 №771294

>>771271
>И да, где там тупик

Рисовать сложные композиции оно все еще не умеет, руки не умеет, размеры больше 1024х1024 только с костылями и апскейлом. Все это ограничения сдохлы, чтобы обойти которые нужна новая сдохла, а не файнтьюн сдохлы на вагинах нарисованных животных. Как модели на базе 1.5 и наи - они охуенные, но сдохла их всех выебала уже только потому что она базовое разрешение подняла, что ни один дообучальщик сделать для 1.5 не мог. При этом сдохла никаких наработок с файнтьюнов 1.5 не использовала, потому что их там и не было, были просто изменененные в сторону реалистичных вагин веса в ущерб всему остальному.

Аноним 05/06/24 Срд 13:19:06 #344 №771308

image.png

Тут кто то советовал потестить в рп llm3. Почти все модели лупятся жестко. Что 8б что 70. Короче косяк на косяке. Походу так и будем пока что сидеть на провереном.

Аноним 05/06/24 Срд 13:21:11 #345 №771309

>>771209
> у неё прибыль с консолек больше чем с пека-карточек
Маржинальность с гпу будет выше всеравно.
>>771228
> А не факт.
Да всмысле не факт, оглянись вокруг оглянись назад, нейронки с тобою связаться хотят все это уже плотно вошло в нашу жизнь. Даже бюджетное авто имеет автопилот самолетного типа лол, самостоятельно парковаться и буквально не позволит тебе выпилиться на трассе при перестроении/обгоне залетев под несущегося в соседней полосе. Озвучивание контента нейронками уже идет. Если посмотреть на всякое чтиво - там один нейротекст, рерайтеры что писали тексты за гроши наверно уже вообще ко дну пошли. Наблюдение, распознавание, ассистирование в различных задачах - это не будущее, это настоящее.
Пример тот же ии арт, если раньше были срачи и неприязнь из-за массового дампа треша, то сейчас подавляющее большинство потребителей высказывается что им пофиг что там - главное качество, а топы это показывают, а многие художники включили диффузию в процесс. Цифровая фотография на телефонах вообще отдельная тема и уже перекочевывает в профф сегмент.

Что-то где-то пока может быть коряво или чрезмерно абузится, но это побочные эффекты переходного процесса. Также как все привыкли к смартфонам и мессенджерам, привыкнут и к ии-бейзд алгоритмам в разных областях.
А здесь кто предлагает наилучший продукт - тот и собирает сливки, только конкуренция будет очень высока и каких-то значимых революций тоже врядли возникнет, просто крутая технология. Интернет, крипта, видеоускорители, опиздохуя примеров.
>>771239
> Дайте мне пару А100, и я сделаю AGI лет через пять
Ты не справишься, лучше мне, знаю как их применить.

Аноним 05/06/24 Срд 13:23:24 #346 №771311

>>771291
>Но я не про хайп, а про реальные возможности технологии.

Реальные возможности ограничены лимитами трансформера как технологии, лимитами железа и лимитами денежных затрат на создание и обслуживание. Сейчас пока пузырь не лопнул - последнего фактора как будто и нет, но не будь пузыря - он бы все и зарубил, как рубил до этого, научно-техническая база для ИИ была с 80х, просто вкладываться никто серьезно не хотел. Боюсь, что после провала пузыря мы вернемся к тому состоянию как в 2015 году - нейросети вроде как есть, их обсуждают, но никто не вкладывается и в итоге результат имеем по капельке раз в десятилетие.

Аноним 05/06/24 Срд 13:26:16 #347 №771317

>>771268
> автор пожертвовал способностью сдхл имитировать стили художников ради детальных вагин копытных.
Не пожертвовал а специально выпилил, на них то места бы хватило свободно. Пожертвовано там очень много чем, да еще и отравлено лютейшим трешем, уже выпил лошадей и части западных мультиков сделал бы значительно лучше. Да и тут можно долго разглагольствовать, теперь ударились в новую крайность и хз будет ли новая версия лучше или также поломанной мусоркой идей.
>>771308
Поломанный ггуф? Промт темплейт? Форматы, карточки?

Аноним 05/06/24 Срд 13:29:22 #348 №771324

>>771317
> Поломанный ггуф?

Не у всех же. Скорее проблемы в квантах.

> Промт темплейт?

Rp таверны + свои доработки

> Форматы, карточки?
Карточки. Как свои так и чужие.

Тут явно проблема в финальных версиях моделей. Единственная которую не тестил еще Meta Lama. Лень было логиниться что бы качать.

Аноним 05/06/24 Срд 13:31:49 #349 №771331

>>771311
Ну так-то да, ты прав, что лимиты у трансформеров есть, и хуёвые. Как бы мы тут ни дрочили на Жору или Командира, а Жожу или там ГПТ-4 они не переплюнут, по крайней мере в обозримом будущем. Просто разница в ресурсах пиздецовая.

Насчёт пузыря - хз, может ты и прав. Сейчас реально кэш флоу охуенный, вот все и расчехлились. Но вот ебнется этот пузырь - и чё? Реально можем откатиться на годы назад, когда ИИ был уделом энтузиастов в гаражах.

С другой стороны, прогресс хуй остановишь. Как бы ни душили всякие пидорасы из корпораций и государств, но свободная мысль всё равно пробьётся. Да, будет медленнее и муторнее, но зато потом как рванёт!
Так что я бы не стал прям хоронить ЛЛМ после схлопывания пузыря. Ну уйдут они в андеграунд, будут тихой сапой развиваться. Зато без хайпа и попсы, только хардкор.

Опять же, база никуда не денется. Все эти гигантские датасеты, препринты, опенсорсные модели - они же в любом случае останутся. Как минимум, энтузиасты смогут их форкать, тюнить, миксовать.

Глядишь - и выдадут годноту не хуже ламы какой-нибудь.
Но тут ты тоже в точку попал - без серьёзных вложений дело будет идти туго, это факт. Но всё лучше, чем вообще никак.
Хотя хуй знает, может и правда стоит сейчас рубить капусту, пока пузырь не сдулся. Пока хайп, пока бабло, пока энтузиазм. А там - как карта ляжет.

В общем, поживём - увидим. ХЗ как оно всё повернётся, прогнозировать наобум не буду. Но интуиция подсказывает, что рано ЛЛМ хоронить. Они ещё повоюют, даже загнанные в резервации. Просто потому что идея слишком ахуенная, чтобы её так просто слить.

Аноним 05/06/24 Срд 13:31:59 #350 №771332

>>771291
>Это ж реально облегчение жизни для многих.
ЛЛЛОООЛЛЛ. Это усложнение жизни всем жителям Земли. Бесконечный спам, СЕОшные высеры вместо сайтов, неверная информация от нейронок.
>>771309
>Даже бюджетное авто имеет автопилот
Ага, то есть его дают бесплатно. А значит, зарабатывают ровно 0 на этих технологиях.
>Также как все привыкли к смартфонам и мессенджерам
Кто все? Для меня это звонилка и хуёвый аналог e-mail.
>>771309
>лучше мне, знаю как их применить
Ты будешь на текста дрочить и картинки делать.

Аноним 05/06/24 Срд 13:33:13 #351 №771334

>>771317
>уже выпил лошадей и части западных мультиков

Увы, фуррятина мотивирована создавать только фуррей, автор ради лошадей все это и затеял.

>будет ли новая версия лучше

Вряд ли, судя по постам у автора интеллект хлебушка, а потребности - как у низкопробного изращенца.

Аноним 05/06/24 Срд 13:39:21 #352 №771342

>>771334
Чёт сдаётся, автор пони на такой успех не рассчитывал. Его версия на 1.5 генерила ужасных гоблинов вместо лошадей, про аниме и прочее вообще говорить нечего.
> потребности - как у низкопробного изращенца
На Сиваитае процентов 80 картинок - прон различного качества с извращениями. Значит публике это нравится. Значит это будет популярно.

Аноним 05/06/24 Срд 13:40:32 #353 №771344

>>771332
Ебать ты зашкварный, конечно. Вот нахуя ты так, а? Я же по-человечески, а ты сразу говном кидаться. Ну да ладно, распишу тебе популярно, раз до тебя не доходит.

Про спам и СЕО - ну так это проблема не ЛЛМ, а пидоров, которые на них паразитируют. Любую годную тему можно обосрать, если захотеть. Но это не отменяет полезности технологии как таковой. Просто надо с умом фильтровать, вот и всё.

Насчёт автопилота - ну так то, что его "дают бесплатно", не значит, что на нём не зарабатывают. Это ж часть стоимости тачки, just saying. Просто маркетологи смекнули, что на таких фичах можно хайпануть и продать больше. Но кэш они всё равно рубят, не сомневайся.

Смартфоны опять же. Ну не юзаешь ты их по полной - и хуй с тобой, это твой выбор. Но большинство людей уже привыкли к мессенджерам, навигации, мобильному банку и прочей поебени. Так что не надо тут анекдотами про "звонилку" раскидываться.

Ну и про "на текстах дрочить". Слушай, ну вот нахуя ты так опошляешь-то всё? Ясен хуй, что для развлекухи ЛЛМ тоже юзать будут, и че теперь теперь, всю тему нахуй слить? А автоматизация, а ускорение рутины всякой, а помощь в обучении и исследованиях? Это типа хуйня теперь?

Короче, ты либо троллишь, либо реально душный хуесос. Базаришь как типичный луддит, который любой новой теме сходу хуй в очко засовывает. Пока лично ему не припечёт - будет кукарекать, что ЛЛМ - хуйня на постном масле.

Но проблема в том, что мир не вокруг тебя вертится, уебок. И если большинству людей ЛЛМ зайдут (а они зайдут, я гарантирую), то твоё мнение идёт нахуй автоматом.

Аноним 05/06/24 Срд 13:53:41 #354 №771355

>>771331

Конечно все что уже выложено - никуда не денется и все открытое не перезакроешь обратно. Просто нового не будет минимум несколько десятилетий, будем на последней предкраховой версии технологии сидеть, которая скорее всего будет на лимите трансформера, либо около него. Будет нужен фундаментальный прорыв, а деньги не будут давать даже на эволюцию типа следующей версии ламы, пока где-то там наверху опять не решат пузырь надуть, когда поколение мамонтов-инвесторов сменится.
Локалки если не запретят во время сдува пузыря(это вполне вероятный исход, государства на всю эту хуйню очень косо поглядывают) то они будут существовать как файнтьюны файнтьюнов последней выложенной модели эпохи пузыря, будут ложные прорывы типа понимодели в сд, но все равно это будет горизонтальное развитие, упор в одно применение в ущерб остальным в рамках лимита базового ИИ. И даже настоящее развитие по капелькам в гаражах будет невозможным, потому что этот пузырь ну слишком уж бустанул необходимый уровень железа, затрат и навыков для подобного. Последняя лама и последняя гопота перед сдувом пузыря будут обучены на самом ебейшем пределе доступного железа с самыми наиебейшими затратами из возможных. Потом 40 лет будем ждать очередного димона богданова с качественно новой идеей которая заменит трансформеры.

Аноним 05/06/24 Срд 14:05:29 #355 №771372

>>771355
>>771355
Блять, ну ты и пиздец накаркал, конечно. Прям Ванга нарисовалась, пиздец. Ладно, разберём твои "пророчества" по пунктам.

Насчёт стагнации после сдутия пузыря - ну хз, хз. С одной стороны, да, прецеденты были - те же ИИ-зимы всякие, когда после хайпа все резко остывали и переставали башлять. Но там, сука, ключевой момент - тогда не было такого рывка в открытости исследований и коллаборации, как сейчас. Счас любой хуй может модельку себе склепать, были бы руки из жопы. Так что база-то никуда не денется.

Опять же, про "последнюю версию на лимите трансформеров" - ты чё, ебанутый? С хуя ли она последняя-то? Ты прям щас готов поклясться, что через 5-10-20 лет не изобретут какую-нибудь хуйню, которая эти лимиты к хуям снесёт? Не, ну ты ванга, чё уж там.

Локалки тоже хуй запретишь, максимум - в оффлайн загонят, в даркнет. И чё, думаешь, анонов это остановит? Да хуюшки, они и из-под земли свои поделки хуярить будут. Душить будут, спору нет. Но убить нахуй - не, хуйня идея.

Про капельки в гаражах - вот тут ты в точку. Да, без нихуёвых бабок и серьёзного железа действительно будет туго. Но блять, а интузиазм и упоротость аудитории на что? Вон сколько упоротых долбоёбов типа меня готовы ебашить над ИИ, просто потому что в кайф. Бабла не дадут - да и хуй с ним, на коленке допилим. Железа не будет - да и похуй, оптимизируем до усрачки, но вывезем.

И кстати, про твоего "димона богданова". Так может он уже сейчас хуячит втихаря где-то там свою ахуенную идею, а? И когда пузырь ебнется - хуякс, и выкатит её на радость всем страждущим. Вот ты охуеешь тогда, сука. Я бы на твоём месте не зарекался.

В общем, хуй знает. Может ты и прав по некоторым пунктам, хуй теперь разберёт. Но как по мне - ты всё-таки слишком pessimistic дохуя. Рановато ИИ хоронишь. Эта хуйня живучая пиздец, аки Т-800 ебучий. Так что расслабь булки и присматривайся. Авось и тебе перепадёт кусочек нейроебли, когда пузырь ебнется. Мало ли, вдруг зайдёт, хехе.

Аноним 05/06/24 Срд 14:14:25 #356 №771389

image.png

Подскажите плиз где и что надо выставить чтобы бот не выдумывал за меня реплики действия в SillyTavern?

Сейчас у меня так выставлено

Аноним 05/06/24 Срд 14:25:55 #357 №771405

17175860667350.png

>>771389
Попробуй инстракт подключить. Так же следи чтобы в карточке и сообщениях бота не было примеров когда бот за тебя РПшит.

Аноним 05/06/24 Срд 14:31:14 #358 №771412

>>771344
>Про спам и СЕО - ну так это проблема не ЛЛМ, а пидоров, которые на них паразитируют.
Не спорю. Только людям не легче.
>Просто надо с умом фильтровать, вот и всё.
Вот когда 9 из 10 результатов в поиске будет вести на нейробред, успешно маскирующийся под контент, тогда поймёшь. Я разок уже натыкался на такое, и быстро его не распознать. По минуте на результат, и уже 9 минут прошло зря.
>Просто маркетологи смекнули, что на таких фичах можно хайпануть и продать больше.
Больше чем конкуренты? Так и у них тоже самое. Рынок остался тем же по размеру, а маржа там фиксированная и не сказать чтобы большая. В итоге все просирают деньги на хуиту, а не просирать не могут, иначе проиграют конкурентам.
>Слушай, ну вот нахуя ты так опошляешь-то всё?
Потому что сам дрочу. Самое то применение.
>Базаришь как типичный луддит
Не, я реалист, и не отрицаю всякого прогресса. Просто адекватнее оцениваю его скорость, и кроме полезностей пишу про вред. А так как полезности ты расписал, то мне остаётся писать только про вред, из-за чего может сложиться впечатление, что я только про вред и знаю. А на самом деле я просто балансирую.
>либо реально душный хуесос
Da, так и есть.
>>771372
>Но там, сука, ключевой момент - тогда не было такого рывка в открытости исследований и коллаборации, как сейчас.
Так и сейчас скоро всё прикроют. Впрочем уже. Читал же статью situational-awareness? Там всё пронизано "превосходство США в ИИ надо схоронять, КПП защемлять, разработки закрывать". И таки закрывают, об архитектуре GPT3 хотя бы препринт вышел, про четвёрку только утечки, а про омни вообще нихуя. Так же и у Клода с Гемини, про них вообще ничего не известно.
>в оффлайн загонят, в даркнет. И чё, думаешь, анонов это остановит? Да
Да, как например с сорцами оперы 12. Все любили, все надрачивали, а как утекло, так вышло 3,5 патча.
Хули макабу всё шатает?

Аноним 05/06/24 Срд 14:53:51 #359 №771438

>>769899
вбиваешь на hugginface в поиск и качаешь кванты которые тебе подходят
>>769873
Так блядь чел который моисты делает не тестит это говно нихуя, все его модели хуже чем базовые (меньше вокабуляр, меньше логики, больше шизы), зато кумить хотят со второй реплики одними и теми же фразами

Аноним 05/06/24 Срд 15:05:33 #360 №771452

>>771438
пощупал я одну из этих сеток. и либо с настройками семплера обосрался либо они реально кал

Аноним 05/06/24 Срд 15:28:21 #361 №771478

>>771372
>Счас любой хуй может модельку себе склепать, были бы руки из жопы.

С нуля не может, если он не миллионер.Если только ты не называешь моделькой кривой файтьюн.

>Ты прям щас готов поклясться, что через 5-10-20 лет не изобретут какую-нибудь хуйню

Изобретут через 5, 20 или 40 лет - какая разница. Про Богданова это была небольшая ирония что мы будем его ждать 40 лет, ждать мы будем не его, дело не только в наличии технологии, дело в том что сразу второй раз надуть пузырь так же как надули первый - взять рандомную статью рандомного студента который просто линейно развивал уже высказанные не непрофинансированные ранее идеи, нанять человечка вроде условного Ильи Суцвекера, который облачит описанное студентом в продаваемую форму и раскрутить его, дав ему денег на создание прототипа - так не выйдет после прокола пузыря лет на 30 - поколение прогоревших еще долго будет помнить куда деньги лучше не влашивать и будут игнорировать любых Богдановых с Суцвекерами.
Надежда конечно есть что технологию превосходящую трансформеры откроют раньше того как пузырь сдуется, но это приведет к тому что он еще более надуется и взорвется позже с еще более плохими последствиями.

Аноним 05/06/24 Срд 15:38:45 #362 №771489

>>771405

Спасибо!

Аноним 05/06/24 Срд 15:48:19 #363 №771498

>>771412
>Читал же статью situational-awareness? Там всё пронизано "превосходство США в ИИ надо схоронять, КПП защемлять, разработки закрывать".

Ну так логично, локалки это самый большой враг опенаи и чатгопоты, да и вообще выгодны только нвидии, потому она и влашивается во всяких cohere разрабатывающих всякие командиры, которые не окупятся никогда, зато опенаи лишат части прибыли.

Аноним 05/06/24 Срд 15:52:49 #364 №771501

>>771498
>зато опенаи лишат части прибыли
Попены через мелкомягких один из основных клиентов куртки.

Аноним 05/06/24 Срд 16:18:32 #365 №771511

>>771478
Ну кстати файнтюн файнтюну рознь. Вон взять АНАЛогию от стейбла. Есть всякие тупые мержи которые отличаются друг от друга нихуя. А есть Pony и модель от ХАчатура. Две последние дообучаются на специальных датасетах и на железе, поэтому имеют сильные отличия от тупорылых мержей. Вот если тут что-то подобное, то в теории можно собрать датасет из своих фетишей и дообучить на них модель. Ух бля, моя мечта.

Аноним 05/06/24 Срд 17:16:42 #366 №771557

>>771501

Разумеется, ведь невидия продает всем сторонам включая Китай, подстегивая конкуренцию, чтобы дурачки влашивались по полной, заказывая видеокарты штабелями. По факту она единственный бенефициар пузыря, кто выйдет в плюсе при любом раскладе.

Аноним 05/06/24 Срд 17:53:05 #367 №771583

Стоит ли качать для РП на русском Лламу3 или лучше Команде-Р?

Аноним 05/06/24 Срд 18:03:02 #368 №771598

>>771583
> Лламу3
Только 70В.
> Команде-Р
Слишком тупой. Даже плюс такой себе. Бери хотя бы Aya 23.

Аноним 05/06/24 Срд 18:14:37 #369 №771605

>>771598
Да, я про 70Б.
Был уже опыт с ней и чего-то совсем не радужный.
То лупы дает, то иероглифами срёт.

Аноним 05/06/24 Срд 18:44:03 #370 №771640

>>771605
> То лупы дает, то иероглифами срёт.
Гуфопроблемы, наверняка.

Аноним 05/06/24 Срд 18:45:02 #371 №771644

>>771598
>Слишком тупой. Даже плюс
Вот не нужно тут.

Аноним 05/06/24 Срд 18:49:04 #372 №771657

>>771644
Нужно, у плюса русский хуже даже чем у слитого Qwen2. На английском он ещё норм, но в русский может плохо, на уровне хороших 8В.

Аноним 05/06/24 Срд 19:46:19 #373 №771777

NEW: Integrated Whisper.cpp into KoboldCpp.
https://github.com/LostRuins/koboldcpp/releases/tag/v1.67

Аноним 05/06/24 Срд 19:48:12 #374 №771782

>>771777
NEW: You can now utilize the Quantized KV Cache feature in KoboldCpp with --quantkv [level], where level 0=f16, 1=q8, 2=q4.

Аноним 05/06/24 Срд 19:57:09 #375 №771789

>>771782
Он производительность роняет в два раза. Опять Жора говна на лопате принёс.

Аноним 05/06/24 Срд 20:13:31 #376 №771810

>>771324
> Rp таверны + свои доработки
Там лламе нужно много служебных токенов для нормальной работы и правильные конфиги. Хз, не так давно тестил exl2 и там было все ок, в отличии от ситуации на релизе. Не сток правда а файнтюны, там свои косяки но лупов и треша как ты описываешь не было.
>>771331
> лимиты у трансформеров есть
> ГПТ-4 они не переплюнут
does he know?.jpg
А если про перспективы то чаще из своих шизоресурсов вылезайте и траву трогайте, ллм лишь малая часть всей движухи, которая происходит.
>>771332
> Ага, то есть его дают бесплатно.
Нет, за это платят, уже платят, и это уже окупается.
> Ты будешь на текста дрочить и картинки делать.
Нет, я буду создавать модели, в который можно будет дрочить на текст и картинки.

Аноним 05/06/24 Срд 20:29:55 #377 №771831

>>771334
Просто фуррятина на фоне пикч с бур, где есть некоторая ее доля, вполне себе генерализуется. Офк речь про относительно эстетичные пикчи и примеры с хорошей анатомией, там она действительно есть. Если делать аккуратно - они могут сосуществовать в одном чекпоинте и отлично синергировать. Но это уже заморочки и приведение к единому стандарту теггинга (что, кстати, пытался сделать понифаг), если просто хуярить микшированный датасет как есть и тем более ничего не отбирать - земля пухом.
> у автора интеллект хлебушка
Как минимум там не хлебушек а уже булочка, лол. Он не глупый, но характер и мировоззрение все портят. Так и 10 лямов датасета не помогут если не изменит подход, особенно учитывая количество пойзона среди них.
Но ничего страшного, народ уже вполне учится файнтюнить визуальные модели и будут альтертанивы, и его поделки всегда можно хорошо дообучить, база сносная.
>>771342
> автор пони на такой успех не рассчитывал.
Именно, все взлетело исключительно из-за возможности генерить нсфв и извращения в анимце. Пони, мультики, мерзотные рендеры - нахуй никому не сдались вообще. Фурри - может быть, но не такой хайп был бы.
>>771405
Двачую этого, заодно можно дописать в системный промт о том что нужно сделать именно ответ чара и обязательно избегать ответов юзера, в какой-нибудь форме.
>>771511
> Есть всякие тупые мержи которые отличаются друг от друга нихуя.
Это даже не файнтюны, это мерджи кривых лор и скрещивание этого всего между собой. Как собственно и большинство моделей на второй лламе, тут только повезло что было больше изначально более глубоких файнтюнов.
Модель хача, кстати, тоже лишь лоботомированный мердж средней всратости.
Все эти годы нормального обучения диффузии было невероятно мало, а то что преподносили как что-то "новое" - большей частью просто минорные изменения выпячивающие фичи исходной модели, где 99.9% весов идентичны стоку. Зато совместимость лор абсолютная, лол.
> то в теории можно собрать датасет из своих фетишей и дообучить на них модель
Не можно а нужно, берешь и делаешь. Правда потребуется железо и время, если хочешь замахнуться на что-то посерьезнее - деньги на аренду больших гпу.

Аноним 05/06/24 Срд 21:12:54 #378 №771928

>>767218 (OP)
Никто пока не пробовал https://huggingface.co/THUDM/glm-4-9b-chat-1m запустить? Квантов еще нет и не будет в ближайшее время наверн, опять архитектура кастомная перелопаченная, но вдруг руки дотянулись как-то это обкатать на трансформерах. Китайцы опять скоры какие-то ебанутые напару с лямом контекста обещают.

Аноним 05/06/24 Срд 21:24:02 #379 №771939

>>771928
>Китайцы опять скоры какие-то ебанутые напару с лямом контекста обещают.
Предыдущие 9000 случаев тебя не отучили им верить?

Аноним 05/06/24 Срд 21:57:01 #380 №771976

Коммандира на 2070С 8гб с 32гб DDR4 и 5900X3D реально запустить с вменяемой производительностью ? Или нужно брать видюху с 16 или 24 гб памяти ?

Аноним 05/06/24 Срд 22:07:19 #381 №771985

>>771976
Нормальный квант с контекстом даже в 24 гига не влезает.

Аноним 05/06/24 Срд 22:09:12 #382 №771989

>>771985
И все сидят на 2х3090 ? Или страдают втискивая модель в RAM/CPU ?

Аноним 05/06/24 Срд 22:10:28 #383 №771991

>>771989
>Или страдают втискивая модель в RAM/CPU ?
This.

Аноним 05/06/24 Срд 22:13:33 #384 №771997

>>771989
> И все сидят на 2х3090 ?
Да.

Аноним 05/06/24 Срд 22:30:37 #385 №772014

>>771989
> И все сидят на 2х3090
Парные 3090/4090 в сочетаниях, теслы, есть еще йоба экзотика и парные карты меньшего объема.
Или
> страдают втискивая модель в RAM/CPU

Аноним 05/06/24 Срд 22:39:54 #386 №772022

>>771991
>>771997
>>772014
Понятно буду дальше сидеть на LemonKunoichiWizard и Moistral

Аноним 06/06/24 Чтв 00:07:32 #387 №772085

Стока бреда понаписали, канеш.

>>771195
Верно, но даже AGI — еще не пузырь. Для него ничего прорывного не требуется и он появится. А вот ASI — уже совсем другое дело. И «мгновенно» не появится.
Хайпят на всем, но сетки-то работают, какой нахуй прогрев, если я седня треки генерил и слушал.
Я получил эмоции бесплатно. Значит — работает.
А вот ASI (и, на данный момент, AGI) — нет. Вот тут уже прогревом пахнет.
Так что, похую, ждем и готовимся ко всему, пользуемся тем, что есть.

———

По поводу консолек — консольных рынок равен ПК-рынку, но консоли суммарно. Т.е. хбокс+плойка(+свитч етц)=1 пк.
При этом, пк+(хбокс+плойка+свитч етц) = 1 мобильный.
Так что во всем мире играют именно в мобилки.
Кроме них — играют в ПК.
И уже после них — играют в нахуй никому не нужные консольки, плойки-хуйолки, кому оно надо. Для бомжей.
Еще где-то есть квест 2 с продажами чуть ниже плойки 5.
Но, да, никаких причин терять рынок для Хуанга не было. А майнинг — крайне нестабильная хуита сама по себе.
Я за кучу лет наслушался майнеро-шизов. Но никто себе хуй так и не отрезал, хотя грозились, не вы в курсе. Короче — пиздаболы и идут нахуй. Идея не работает байдизайн. И почему Хуанг ввел лхр понять можно. Хайп на майнинг был ебучим, а где он сейчас? А нихуя.
А вот если бы ПК рынок внезапно уступил консолям (а такое могло быть, кстати, хбокс серис с и правда стоит копейки, но хорош — он мог дать жару, да и плойка популярна), то в следующем поколении Хуанг бы мог сосать лапу, ибо на рынке фанатов было бы уже меньше.
Фартануло на ИИ, но это уже другой рынок. И если между майнерами и геймерами он выбрал геймеров, то между корпоратами и геймерами — он выбрал корпоратов.

Самое тупое думать, что мы тут заебись гении, а чел, который уже 30 лет руководит компанией и вывел ее в топ мира — дурачок и творит хуйню.

Ну а уж думать, что им управляют — это конспирология, и тут я не осуждаю. Правду мы не знаем.

>>771228
> поисковые системы научатся надёжно определять ИИ контент
Учитывая, что битву картинкам проебали, почему должны выиграть у текстовых — непонятно. Может какой-нибудь гений сможет сделать необходимый софт, но чистая практика говорит нам, что пока ни у кого и нигде не получилось. А теория подсказывает, что достаточно хороший контент отличить нельзя в принципе.

>>771275
У тебя первая часть никак со второй не складывается.
На изобретение колеса потратили миллиард долларов, значит колеса бесполезны без миллиардных вложений.
Чиво. Значит изобретение колеса — дорого. А полезность колеса это не убирает.

>>771278
> На самом деле картонки продаются сильно лучше консолей.
Ну хоть кто-то шарит, такая базовая инфа же.

>>771291
> Сколько полезных инструментов можно будет собрать, сколько рутины автоматизировать.
Почему «можно будет»-то? Уже сейчас юзают только в путь.
То что это не аги и не аси не делает технологии хуйней.

> Да, большая часть бабок может в итоге просто испариться, кто ж спорит.
Стоит заглянуть в архив, и окажется, что 99% любых ресерчев — хуйня из под коня.
Количеством вложенных средств нельзя оценить пользу от науки, потому что 99% уходит в никуда всегда.
Тут весь тред какую-то шизу обсуждают, кмк.
Важно, что останется.
А у нас уже есть, уже остается.
Вин, и похуй, сколько вложено и кем.
Модели копируются бесплатно, хранятся бесплатно, уже никуда не денутся.

Короче, я как программист, вообще нахуй не понимаю идею хайпа и инвестиций. Это если ты нихуя не шаришь в теме — ты пытаешься хайп анализировать, оцениваешь инвестиции. А если разбираешься — то тебе подгоняют инструмент, ты юзаешь. Все, точка.

>>771309
Вычислительная фотография.
Так базы навалил, хорош.

>>771311
Ты говоришь об ускорении, но живем мы на скорости.
Замедлится прогресс? Но это не уберет полученные достижения.
Мы не вернемся в 2015. Лишь один-единственный фактор вернется в 2015 — скорость прогресса.
Лопнет пузырь хайпа — технологической сингулярности не случится.
Ну ок и чо? Причем тут прогрев и «ИИ не случится»? ЛЛМ случились уже, работают, здрасьти-приехали. Назад они не откатятся. Они могут перестать активно развивается, но йоптваю, ты что, на пигмаллионе сидишь и ждешь первую лламу?

>>771332
> Бесконечный спам, СЕОшные высеры вместо сайтов
Добро пожаловать в реальность 2010 года. Всегда так было, чел. И без ЛЛМ.

> Кто все? Для меня это звонилка и хуёвый аналог e-mail.
Рофланебало, ок, сорян. Все понятно.

>>771344
> Но большинство людей уже привыкли к мессенджерам, навигации, мобильному банку и прочей поебени.
Ты уверен, что стоило отвечать человеку, который смартфоны всерьез считает просто звонилкой?

Ладно, закончил логично. =)

>>771928
Запускал, но времени нет тестить.
По русски отвечает, окда.
Но просто потыкал парой запросов и все.

———

Короче, я че хочу сказать.
Реально мы не имеем понятия, что там будет. Может что-то пиздатое уже завтра. Может нихуя и новая зима.
Но то, что мы уже имеем — никуда от нас не денется (если зима не будет ядерной с разъебом всех заводов, что крайне маловероятно, так как самая ядерная зима невозможна, а по заводам все бить будут вряд ли, есть цели приоритетнее).
И все же, Альтман, Гейтс, Хуанг — люди не глупые, потому что не бедные и шарят. И оплачивают еще более умных людей.
Пока Альтман анонсирует гпт-5, пока Хуанг ебашит новые чипы (а АМД, Интел и АРМ тоже, кстати), дело идет.
А инструменты у нас уже сейчас есть, и неплохие.
Так что ухудшения нас вряд ли ждет. А прогресс или стагнация — тут как пойдет, время покажет.

Всем добра и приятных снов! =)

Аноним 06/06/24 Чтв 00:41:23 #388 №772116

изображение.png

Screenshot2024-06-06-01-37-37-216com.miui.securitycenter.jpg

>>772085
>Учитывая, что битву картинкам проебали
Где? На всех крупных ресурсах ИИ Арт загнан под шконарь.
>Рофланебало
Что прикол? Реально так. Раньше телефон 2 недели мог лежать, сейчас батарейка села, и только чуть более недели лежит ((

Аноним 06/06/24 Чтв 01:54:50 #389 №772152

В чем прикол SillyTavern\TavernAI? Оно само запускает модели или нужно прикручивать олламу? Есть ли там база промптов? Есть ли пропмты типа think step by step? Умеет ли в кодинг?

Аноним 06/06/24 Чтв 02:37:54 #390 №772173

>>772152
Это жир у меня с экрана течет, или ты серьезно спрашиваешь? Ты в курсе, что такое фронтенд и за что он отвечает? Ты хотя бы в шапку треда заглядывал?

Аноним 06/06/24 Чтв 02:58:32 #391 №772186

>>772173
>серьезно спрашиваешь?
да

>что такое фронтенд и за что он отвечает
так это фронтенд очередной? чем он так выделяется среди десятков остальных, что про него тут пиздят без остановки? что характерно, на ютубе и в других местах я про него ни разу не слышал, только тут

Аноним 06/06/24 Чтв 03:02:47 #392 №772189

>>772173
энивей, вопрос остается открытым - есть ли там база промптов, раг, вижн, ттс\стт, поиск по инету? я обычно пользуюсь https://github.com/n4ze3m/page-assist \ https://github.com/n4ze3m/dialoqbase, чем таверна лучше?

Аноним 06/06/24 Чтв 03:05:19 #393 №772190

show.png

>>772189
*https://github.com/n4ze3m/dialoqbase-lite

Аноним 06/06/24 Чтв 03:14:35 #394 №772191

>>772186
>чем он так выделяется среди десятков остальных, что про него тут пиздят без остановки?
Многофункциональностью. Можешь настроить его под любую хуйню, исхояд из своих задач. Здесь его любят потому что с ним легче всего ролплеить и дрочить соответсвенно. Хотя никто не запрещает тебе создать карточку ассистента и умолять ее написать за тебя код, презентацию или похоронное извещение. Всё зависит от модели которую ты выберешь.

>есть ли там база промптов, раг, вижн, ттс\стт, поиск по инету?
Скачай и посмотри. Либо зайди на гит и пробегись по документации, не будь маленьким.

Аноним 06/06/24 Чтв 03:19:02 #395 №772192

>>772189
Если эти фронты работают только с оламой - это ебаное говно, которое можно даже не сравнивать с таверной.

Аноним 06/06/24 Чтв 03:38:46 #396 №772194

>>772192
page-assist для олламы, dialoqbase-lite для остальных.

>>772191
пон спс

Аноним 06/06/24 Чтв 08:29:35 #397 №772323

>>772186
> среди десятков остальных
Что? Наиболее удачный форк чуть ли не самого первого фронта с богатым функционалом и удобствами как для рп, так и для кодинга/QA ассистента. Офк хотелок есть еще много, но это лучшее из всего.
> на ютубе и в других местах я про него ни разу не слышал
Потому что инфоциганам не интересны проверенные рабочие решения, им достаточно хайпануть на низкосортном продукте от васянов. Если в хуету криво встроят llamacpp и заявят что она может сама запускать модели - это не значит что такой подход лучше, наоборот.
>>772189
> https://github.com/n4ze3m/page-assist
Хуйта без задач хуже окна в убабуге, затестить модель можно и прямо в консоли.
> https://github.com/n4ze3m/dialoqbase
Возможно есть преимущества за счет заявленных интеграций и рага, но вопрос в конкретной реализации в которую мало веры. Может быть норм для QA с рагом, надо затестить, для рп дно бай дефолт.
> чем таверна лучше?
Богатыми возможностями по управлению промтом, что есть основа интерфейса с ллм, удобным форматом ботов, универсальностью, интерфейсом самого чата.

Аноним 06/06/24 Чтв 10:07:12 #398 №772367

>>772116
> Где? На всех крупных ресурсах ИИ Арт загнан под шконарь.
Речь про распознавание. Понятное дело, что большинство ИИ арта — средней руки ширпотреб (но все равно лучше 99% человеческого), и он легко детектится. Но при попытке сделать качественный — внезапно не всегда детектится ни спецами, ни специализированными нейросетями. Так что обходится.

Ну и «все крупные ресурсы» — говно собачье от обиженок, видали мы эти ваши ресурсы, простите. Те еще двачи, где фанатики друг другу надрачивают.

Могу ошибаться, но я не видел связи между качественными артами в паблике (потребительским сегментом) и всякими девиантартами, йифами и прочими. На вторых сидят челики, которые просто друг друга нахваливают, а годный арт еще пади поищи.

Но я не художник, повторюсь, может там шедевры скрывают от нас.

>>772152
Это фронт, который умеет все, если ты ему скажешь это делать.
А из коробки БЕЗ настроек, ну обычный фронт, йопта.

>>772186
Никаких остальных десятков нет, и он не очередной, а первый.
Это остальные — очередные после таверны, и нахуй никому не нужные.

На ютубе вообще нихера нет, там челики всерьез альпаку с викуней обсуждают, лол. =) Видал я ваши ютубы, опаздывают на год.

Аноним 06/06/24 Чтв 12:18:16 #399 №772458

>>772367
>Но при попытке сделать качественный — внезапно не всегда детектится ни спецами, ни специализированными нейросетями.
Конечно, там труда больше, чем руками нарисовать, лол. Против этого никто не имеет претензий.

Аноним 06/06/24 Чтв 12:28:20 #400 №772474

>>772367
>Это остальные — очередные после таверны, и нахуй никому не нужные.
Точно
>На ютубе вообще нихера нет, там челики всерьез альпаку с викуней обсуждают, лол.
Чо серьезно? Там такие ебасосы торомознутые что выдают гавно мамонта за новинки которые стоит обсуждать? Я ютуб не смотрю вот и удивляюсь.

Аноним 06/06/24 Чтв 13:07:50 #401 №772531

>>772367
> ни специализированными нейросетями
А потому что их тренили детектить типичные артефакты и глитчи, а сейчас их мало или совсем нет. Ии арт в топах, из художников котируются только самые "топовые" и известные, а на остальных похуй. Жаль только индюшатину с оче интересными стилями, идеями и т.д., но они и раньше были несправедливо недооценены, а тут с применением нейронок могут нарастить производительность и популярность, чем уже пользуются, только на пользу.
>>772474
> Чо серьезно?
Увы это так. Большей частью сомнительные личности паразитируют, пересказывая старые известные туториалы, или пытаются как-то монетизировать, вводя в заблуждение. Есть несколько каналов с относительно актуальным, но там пиздец душнилово.

Аноним 06/06/24 Чтв 13:56:26 #402 №772595

>>771598
>>771657

Жир прям с монитора сочится. Ауа тупая, даже 34В, Командир же даже 34В лучше ламы 70В, она лупится безбожно и потому не нужна вообще.

Аноним 06/06/24 Чтв 14:03:17 #403 №772603

>>771657
>слитого Qwen2

Дашь ссылку, плиз?

Аноним 06/06/24 Чтв 14:16:51 #404 №772627

>>772595
> Командир же даже 34В лучше ламы 70В
Вот ты явно траллишь. Командир все тесты проваливает на логику, русский у него такой себе, полно моделей где он лучше.

Аноним 06/06/24 Чтв 14:20:30 #405 №772633

>>772603
На HF ищи quill-72b. Русский норм там, но сои очень много, мне не понравилось.

Аноним 06/06/24 Чтв 14:23:05 #406 №772645

>>772595
> лупится безбожно
Губы не забывай вытирать, когда гуфами пользуешься.

Аноним 06/06/24 Чтв 14:27:34 #407 №772657

>>772633
Разве квен не китайский?

Аноним 06/06/24 Чтв 15:16:42 #408 №772743

>>772531
Соглашусь про индюшатину и недооцененность.
Ну, ваще плюсану, да.

>>772633
О, за двойку спасибо!
Попробую.

———

Короче, хочу писать стихи, а на русском пишет без рифмы. Есть ли модель какая, которая могет в рифму на русском? Или, может быть, промпт? Если кто знает — поделитесь. =)

Аноним 06/06/24 Чтв 16:29:05 #409 №772901

>>772367
>Это остальные — очередные после таверны, и нахуй никому не нужные.
Справедливости ради, таверна далеко не самый популярный фронтенд. Периодически поглядываю на тот же сабреддит лламы, и там время от времени всплывают обсуждения фронтендов/интерфейсов, и таверну кто-то обычно упоминает, но если исходить из комментов, то юзают её гораздо меньше, чем некоторые другие. Хрен знает, почему. Видимо, средний пользователь ллм хочет простой интерфейс с парой кнопой, и чтобы промпты/инстракт за тебя подставлялись, и из сэмплеров два ползунка было. Может, некоторые для проганья/рабочих задач гораздо удобнее использовать, хз. Вот, например, недавнее обсуждение https://www.reddit.com/r/LocalLLaMA/comments/1d8n9wr/whats_the_most_aesthetically_pleasing_ui_for_llms/
В душе не знаю, чем привлекательны UI на пиках, а таверна почему-то якобы плохо выглядит.

Аноним 06/06/24 Чтв 16:38:08 #410 №772922

image.png

>>772901
Ну они видимо не для рп юзают. Таверна это база для рп ( хотя могло быть и лучше, но могло быть и хуже). 2 Семплера для рп просто не подходят например если надо сделать так.

Аноним 06/06/24 Чтв 16:41:16 #411 №772929

>>772901
>чтобы промпты/инстракт за тебя подставлялись
Бля, у меня пару раз регекспы сработали, и всё, опять ручками. Хочу автомат! А то вечно ошибаюсь.

Аноним 06/06/24 Чтв 16:59:32 #412 №772967

>>772901
Раз знаешь статистику - на каких чаще всего сидят тогда?
По ссылкам буквально ничем не лучше таверны с точки зрения эстетики/перегруженности, но зато для хлебушков сразу можно модель с лопаты запустить. Или совсем минимализм что неудобно.
Плюс, когда еще раньше тестил подобное - там было ужасно неудобно редачить и удалять/добавлять те же сообщения. При работе с кодом в режиме чата это необходимо, возможности таверны с изменением, удобными сайпами, форками с определенного поста и т.п. очень пригождаются. Вот что полнейшая залупа - так это поле ввода, рассчитанное на "я тебя ебу"

Аноним 06/06/24 Чтв 17:24:24 #413 №772989

>>772922
Я понимаю, что для рп силлитаверна топовейший топ. Я сам и с кучей сэмплеров играюсь, и под себя инстракты пытаюсь редачить. Если бы ещё менеджер промптов для локалок работал. Но, возможно, для каких-то целей будет лучше что-то другое. Или, например, фанатам олламы мб проще специально сделанный для неё юи подрубать.
>>772967
Не, не знаю статистику. Просто говорю, что видел обсуждения, в которых явно чаще всплывают другие UI. Можешь в поиске по указанному сабреддиту ввести "UI" и посмотреть обсуждения. Самое актуальное обсуждение вроде вот https://www.reddit.com/r/LocalLLaMA/comments/1cw38lo/whats_your_goto_ui_as_of_may_2024/
Например, популярны LM Studio, Jan, Chatbox. Ту же убу частенько юзают. Сам я сижу на таверне и фич других софтин не знаю. Только краем глаза читал на страницах некоторых проектов и ничего такого не запомнил.
>Вот что полнейшая залупа - так это поле ввода, рассчитанное на "я тебя ебу"
Потяни за нижний правый угол, так можно менять высоту окна ввода.

Аноним 06/06/24 Чтв 17:34:28 #414 №772998

>>772989
Блять, кажется понял секрет - этот софт можно скачать готовым бинарником. Осилить 2 шага в виде установки гита и ноды - слишком высокий порог для хлебушков. И эту херню еще ставят в пример, пиздец.
> Потяни за нижний правый угол, так можно менять высоту окна ввода.
Это не главная проблема и оно само растет по мере ввода. Нужно чтобы оно не отправлялось по энтеру (наверно есть в настройках), было полноценное большое поле, в идеале сбоку от текущего чата, и сразу рендер маркдауна.

Аноним 06/06/24 Чтв 17:45:31 #415 №773004

image.png

тут такой вопрос назрел. чи шо это за вкладка пресеты на чубе? они нахой нужны? для таверны? если да то как юзать?

надеюсь что анон который помогал мне и поехал писать оге по матеше успешно сдал

Аноним 06/06/24 Чтв 17:48:00 #416 №773008

>>772998
>Блять, кажется понял секрет - этот софт можно скачать готовым бинарником.
Да фиг его знает. Есть вот популярнейший юи, который изначально родной олламы. https://github.com/open-webui/open-webui
Нужно ставить из исходника, возни будет больше, чем с таверной. Почему вообще популярен, по странице на гите мне лично не понятно. Единственная плюс-минус интересная опция там - быстрое переключение между моделями для бояр, которые могут сразу несколько в память загрузить. Может, получше сделан веб поиск, и пишут, что можно присобачить какое-то взаимодействие с некоторыми пакетами питона. Тут в треде как-то вылезал фанат олламы, так и не объяснил, зачем её юзать и в чём профит этого UI.

Аноним 06/06/24 Чтв 17:55:28 #417 №773014

>>772901
Да и Кобольд с Убабугой — на самом дне. =) ЛМстудио и Оллама в топах.
Будем честны…

>>772998
При том, что, будем честны, Таверна ставится и правда легко.
Вот Убабуга — уже заеб бывает с билдами и вилсами.

———

Я попробовал Квилла (Квена-2?) и … бля, а он хорош!
Скорость выше лламы и мику (што), отвечает нормасно.
Ну, опять же, предполагаю, что они все плюс-минус хороши, но этот смог поддержать нужный мне стиль. Это кайфово.
У них разные знания, так что ждем МоЕ из мику-лламы-квилла можно их использовать для разных задач.

Спасибо за ссылку, чел! А то все руки не доходили проверить-погуглить. А так прям носом ткнул.

Аноним 06/06/24 Чтв 18:04:39 #418 №773024

>>773014
> Вот Убабуга — уже заеб бывает с билдами и вилсами.
Что? Что на шинде, что на прыщах - гит пулл @ запустить батник/шеллскрипт. Оно все само сделает.

Аноним 06/06/24 Чтв 18:06:42 #419 №773028

поясню тем, кто еще верит в то, что ллама3 лупится только в ггуфе, а вот и нихуя, на трансформерах такая же залупа.
советую брать https://huggingface.co/Sao10K/L3-8B-Stheno-v3.2 и не ебать мозги. подходит хорошо для рп\кума, лупов нет, инструкции понимает хорошо, местами глупа, но креативная.

поясню по командеру и ауа, 35b, ггуф и трансформеры аналогичны, тестировал, оба варианта в некоторых случаях могут жестко тупить. на мой взгляд это зависит от нескольких факторов: системного промпта и от длины контекста, складывается такое чувство, что на некоторых длинах контекста сетка заметно тупеет. перестает понимать логику даже простейших вещей, и дело это не в ггуфе, как вы можете подумать, нихуя, дело в самих моделях.

Аноним 06/06/24 Чтв 18:11:08 #420 №773036

>>773028
Сеть может тупить если в промте трешанина, если она сталкивается с тем что не может нормально интерпретировать и не готова, если какие-то проблемы с весами и токенизацией. Первое - системный промт, инструкции и разметка, второе - сам юзер и модель, третье - битые конфиги и ггуф. И все это друг от друга не зависит, может быть как по отдельности и вместе. Поломанн ли ггуф - зависит от конкретного случая, но наблюдаются проблемы с ним гораздо чаще чем со всем остальным.

Аноним 06/06/24 Чтв 18:11:09 #421 №773037

>>773028
сука а настройки под нее где балядь?

Аноним 06/06/24 Чтв 18:11:11 #422 №773038

>>772633

Кек, у модели только кванты, оригинал почистили. Походу реально оно. Кстати пару месяцев говорили он мистраль медиум(т.е. мику) выебал.

Аноним 06/06/24 Чтв 18:15:00 #423 №773041

>>773038
> Кек, у модели только кванты, оригинал почистили.
Есть ггуф 16бит, это по сути и есть сорс. Ебало бы обоссать тому кто так делает блять, неужели нельзя сорцы отдельно выложить дополнительно?
Зная жору, 95% там невозможно его распаковать обратно без потерь и косяков.

Аноним 06/06/24 Чтв 18:20:33 #424 №773050

>>773037
прямо на странице настройки, хлебушек.

Аноним 06/06/24 Чтв 18:35:14 #425 №773090

>>773038
Это 146% новый квен, потому что архитектура немного отличается от первого. Ну и то что его подтёрли мгновенно говорит о много.

Аноним 06/06/24 Чтв 18:36:03 #426 №773091

>>773038
> медиум(т.е. мику) выебал
Её уже кто угодно ебёт, слишком устаревшая.

Аноним 06/06/24 Чтв 18:36:41 #427 №773095

image.png

>>773050
с настройками семплера разобрался а это куда вписывать?

Аноним 06/06/24 Чтв 19:23:38 #428 №773189

>>773024
Ну, может пофиксили, год назад так легко не было. =D

>>773041
В смысле нельзя? Там же их выложили, ссылка в карточке.
Но 404.
Т.е., ее потерли.

Аноним 06/06/24 Чтв 20:03:02 #429 №773234

>>771939
>>771928
Это от авторов CogVLM. Серьёзные ребята, можно сказать китайские мистрали. Лучше срочно проверяйте что это за хуитка, эти спосоны годноту высрать.

Кстати вышла Gwen2, и она тоже умнее лламы3. https://qwenlm.github.io/blog/qwen2/ Мультиязычность, GQA (контекст сильно меньше жрёт), MMLU в 70Б версии 84+ - это уже в лиге четвёрок. Если не пиздят, надо бежать проверять.

Аноним 06/06/24 Чтв 20:03:49 #430 №773235

image.png

парни скачал сетку новую потыкать. генерит ахуенно. настройки тоже встали нормально. все просто ахуенно кроме одного момента. она блядь тупо генерит сколько хочет.на те настройки который на пиках ниже ей тупо до пизды. вопрос как пофиксить и заставить ее генерить ровно 200\250

Аноним 06/06/24 Чтв 20:09:29 #431 №773243

>>773234
>Gwen2
Qwen2 же. Плюс МОЕ на 57B-A14B для любителей побыстрее.
А я только утечку докачал.
>>773235
>ровно 200\250
Нахуя? Бань EOS и готовься к шизе.

Аноним 06/06/24 Чтв 20:10:21 #432 №773244

изображение.png

>>773243
>А я только утечку докачал.
И всё зря. Ладно, ждём офф квантов и версии.

Аноним 06/06/24 Чтв 20:12:21 #433 №773245

>>773243
да нихуя. генерит оно так же пиздато. просто слишком дохуя блядь. как фикситьб то блядь

Аноним 06/06/24 Чтв 20:14:41 #434 №773247

изображение.png

>>773234
>MMLU в 70Б версии 84+ - это уже в лиге четвёрок
По сое тоже в этой лиге 😚

Аноним 06/06/24 Чтв 20:15:54 #435 №773249

>>773247
Ну так веса локальные, в отличие от.

Аноним 06/06/24 Чтв 20:17:26 #436 №773252

>>773249
Так то да, но насколько удачно сейчас расцензуривают? Есть варианты со всякими хаками, но они ломают модели, и есть файнтюн, который тоже нихуя не прост для больших моделей.

Аноним 06/06/24 Чтв 20:18:13 #437 №773254

>>773243
>Qwen2 же.
Вот этот момент заставляет меня думать что люди не так сильно отличаются от LLM как нам кажется. Мне нужно сознательное усилие над собой chain of thought, чтобы написать Qwen, а не Gwen (имя такое).

Аноним 06/06/24 Чтв 20:21:19 #438 №773257

>>773234
Все уже потрогали, её слили пару дней назад. Соевое говно.

Аноним 06/06/24 Чтв 20:31:16 #439 №773269

>>773028
>>773235
она блядь не лупиться но сука как ее заставить генерить ровно столько сколько нужно

Аноним 06/06/24 Чтв 20:36:03 #440 №773277

Ньюфаговопрос: какая модель сейчас топ для 24ГБ видеопамяти?

Аноним 06/06/24 Чтв 20:37:19 #441 №773279

>>773277
>>773028

Аноним 06/06/24 Чтв 21:09:03 #442 №773321

>>773235
Target length выключи. Насколько я помню, эта настройка нужна, чтобы посылать запрос на автоматическое продолжение, если пришло меньше токенов, чем в ней указано. Первая же настройка просто останавливает генерацию после достижения указанного количества токенов. Самый простой варик - это задать на ответ чуть больше 200 токенов, которые ты хочешь, и поставить галочку, чтобы обрубать незаконченные предложения (правый столбец во вкладке с настройками форматирования). Почти всегда будет получаться нормально. Если меньше генерить тоже хочешь запретить, то бань EOS токен. Если он вообще ставится в той модели.

Аноним 06/06/24 Чтв 21:16:18 #443 №773335

>>773321
так либо я тупой либо лыжи не едут. а как его включить то? я думал там просто вписываешь кол во токенов и все. разве это не так работает? можно скрин что ли как это должно выглядеть?

Аноним 06/06/24 Чтв 21:35:50 #444 №773345

>>773234
Ну, если Квилл — это Квен, то да. Выглядит умнее.

А ГЛМ я вчера попробовал, но с выгрузкой в оперативу.
Поэтому 1 токен сек, было медленно. Не стал тестить.
Ща попробую на теслы выгрузить, мало ли, заведется быстрее.

>>773243
О-о-о!.. О це дило!..

>>773244
У мя норм, на чистом русском, да еще и стиль держит. муа.
Утечка.

>>773252
Ортогональный просто убивает пару векторов и у них пропадает соя.
Костыль, но работает лучше старых мтодов.

>>773254
Стейси или Теннисон?

>>773277
Хм… Айа? КОДСТРАЛЬ, ЛОЛ?
Кому-то нравилась.
Но если не нужен русский, то всякие моистрали или что там советовали.

Аноним 06/06/24 Чтв 21:41:44 #445 №773350

>>772998
>Это не главная проблема и оно само растет по мере ввода. Нужно чтобы оно не отправлялось по энтеру (наверно есть в настройках), было полноценное большое поле, в идеале сбоку от текущего чата, и сразу рендер маркдауна.
описываешь убабугу

Аноним 06/06/24 Чтв 22:01:09 #446 №773359

image.png

>>773335
Максимум токенов ставишь как у тебя на первом пике. А потом обрубать предложения. Тогда у тебя будет всегда получаться меньше 205 токенов, и не будет неполных предложений. Хотя иногда таверна может трактовать какую-нибудь пунктуацию как завершённое предложение, а на деле там было слово в кавычках, например. Или заканчивается действие в звёздочках, должна следовать реплика, но таверна её обрубила. Тоже неидеальное решение, в общем.
Может, я неправильно понял, что тебе нужно. Суть в том, что сетку нельзя заставить обязательно написать строго меньше того, что тебе нужно. Модель никак не подгоняет свою генерацию под максимальное число токенов под ответ. Она лишь обрубает генерацию, если упёрлась в предел.

Аноним 06/06/24 Чтв 22:16:39 #447 №773369

image.png

>>773335
>>773359
Добавлю, что если у тебя вдруг, наоборот, проблема, что модель генерит мало, то можно забанить EOS токен. Для этого нужно в новой таверне нажать слева в столбце сэмплеров sampler select, а потом выбрать там ban_eos_token. Затем включить эту настройку в списке сэмплеров, где она появится. Тогда модель будет писать до того максимума, что ты указал, но это чревато шизой.

Аноним 06/06/24 Чтв 23:05:42 #448 №773421

>>773350
> описываешь убабугу
Ну нотбук/дефолт ее, да. Но это не чат и весь его сопутствующий фунционал, которые нужны.
>>773359
>>773369
Что за приколы? Норм модель с норм инструкцией - и проблем нет. Когда надо - скажет 1.5 фразы и остановится, когда надо много - накидает полотно с умеренной графоманией
> across her, illuminating the shrine's main hall, casting an ethereal glow over the sacred space. The luminous trails trace upwards, highlighting the sweat-glazed curves of her body, outlining every sinewy muscle and creamy plane.
на 800 токенов.
Добавить про "пиши много в ярких деталях, добавляя к ответу описание процесса и окружения" или наоборот "дай короткий содержательный ответ за {чар}". Бан EOS работает, но приводит если не к шизе то к неприятным структурам. Покумить пойдет, но вести диалог и рпшить уже неудобно, когда у там происходит там 4-5 вопросов-реплик-действий - уже сам начинаешь путаться что на это писать. Есть случаи когда с ним модель потом начинает давать развернутое описание и углубление, без наваливания нового, но такое редкость.
Просто ограничивая же лимитом генерации можно получить обрывки вместо желаемых ответов.

Аноним 07/06/24 Птн 00:39:40 #449 №773476

>>773041
>weighted/imatrix quants of https://huggingface.co/billyjoe/quill-72b

Ты бы описание хоть прочел, чел, была нормальная модель, её удалили

Аноним 07/06/24 Птн 00:41:35 #450 №773479

>>773091

Это была новость когда её только слили.
Так-то квен 2 - тоже устаревшая модель, у алибабы уже квен 2.5 есть.

Аноним 07/06/24 Птн 00:48:59 #451 №773483

image.png

Суки, теперь и эти нормальные 13В - 30В зажидили, уебки.

Аноним 07/06/24 Птн 01:51:24 #452 №773496

image.png

>>773234

Благодаря их сравнениям узнал что три недели назад вышла настоящая бомба - новая версия Уи, которая на 34В накидывает за щеку квеновской 57В.
Почему китайцы так ебут?

https://huggingface.co/01-ai/Yi-1.5-34B-Chat-16K

Аноним 07/06/24 Птн 01:59:37 #453 №773498

>>773496
>Благодаря их сравнениям узнал что три недели назад вышла настоящая бомба - новая версия Уи
В треде писали же.
>Почему китайцы так ебут?
Где? В опенсорсе ещё может быть, и то за счёт числа, а так топовые модели до сих пор у амеров за замком.

Аноним 07/06/24 Птн 02:54:18 #454 №773512

image.png

>>773498
>В треде писали же.

Может кто и упоминал, но обсуждений не было.

>так топовые модели до сих пор у амеров

Квен 2.0 как бы на уровне с ними, и это притом что они сегодня выпустили довольно устаревшую модель, от которой они в своих платных сервисах уже давно отказались в пользу Квен 2.5, а перед ней там была Квен 2.1, которую мы тоже не видели в опенсорсе.
https://www.chinadaily.com.cn/a/202405/10/WS663e1f79a31082fc043c6756.html

Аноним 07/06/24 Птн 03:02:28 #455 №773514

image.png

>>771928

Для 9В модели это просто охуеть не встать, я считаю

Аноним 07/06/24 Птн 03:07:41 #456 №773516

>>773514
А теперь давай кум.

Аноним 07/06/24 Птн 03:23:17 #457 №773517

image.png

>>773516

Проверил.
У, бля, нет бы просто написать - "не буду я тебе секс с лоли-кошкодевкой писать, пошел нахуй педофил, за тобой уже выехали" как это делает нормальная цензура, а тут рядом с кошкодевкой англоязычный комиссар лежит, который одобряет только одобренный партией ванильный секс в миссионерской позе и заодно в мозгах девки на твоих глазах ковыряется.

Аноним 07/06/24 Птн 04:14:09 #458 №773522

>>773517
> Let me know if you need additional modifications 😊
🤣🤣🤣🤣🤣🤣😂😂😂😂😂😂😂😂

Пиздец, я в ахуе. Отвратительно просто все.

Аноним 07/06/24 Птн 04:22:56 #459 №773523

image.png

>>773514
>>773517

А акву неплохо отыгрывает, я удивлен. Ебанутость персонажа и безумные эмоциональные диалоги переданы. Модель что, на текстовой версии коносубы обучали?

Аноним 07/06/24 Птн 05:42:02 #460 №773536

image.png

Поиграл в шахматы с Уи-35В.
Обыграл как ребенка. Моделька ходила осмысленно, но на уровне новичка, который ходы знает и знает некоторые комбинации и даже умеет предугадывать некоторые ходы соперника, но в целом абсолютно беспомощен против игрока хотя бы с некоторым скиллом. Кстати это отличный тест на интеллект.

Аноним 07/06/24 Птн 06:03:11 #461 №773538

image.png

>>773517

А вот в Уи нет цензуры. Казалось бы, тоже китайцы.
Кстати моделька идеально подходит для одной 4090 - 4 квант влезает на видеокарту полностью с 8к контекста выдавая 30-35 т/с.

Аноним 07/06/24 Птн 06:35:20 #462 №773544

>>773523
Я, конечно, понимаю, что твои требования сильно занижены, но это прям пиздец. И эмодзями заебала еще.
>>773536
В шахматы даже гопота не умеет играть. Все они делают невозможные ходы и забывают, что там на доске происходит.
>>773538
Залупается сука.

Аноним 07/06/24 Птн 06:40:55 #463 №773545

Китайцы всех сделали.>>773544
>Я, конечно, понимаю, что твои требования сильно занижены, но это прям пиздец. И эмодзями заебала еще.

Пиздец(9В, хуле ты хотел), но персонаж чувствуется, что для аквы именно с этой убитой карточкой удивительно. Лама 8В хотя и пишет более красиво - Акву не понимает. Эмодзями, да, срет везде. Вообще хуевенькая модель.

Аноним 07/06/24 Птн 06:41:53 #464 №773546

image.png

>Китайцы всех сделали.

Отклеилась картинка

Аноним 07/06/24 Птн 06:46:09 #465 №773547

>>773545
А где эту девятку в ггуфе скачать, то? Вижу только оригинальный квант

Аноним 07/06/24 Птн 06:51:54 #466 №773554

>>773547

А нигде, лол.
Можешь мониторить
https://github.com/ggerganov/llama.cpp/issues/7778
Качай оригинальный квант и запускай в трансформере в 8 битах, если не хватает до 16.

Аноним 07/06/24 Птн 07:13:58 #467 №773560

image.png

Попробовал эту вашу майкрософтовскую Phi.
Фи, что тут сказать. Ассистент майкрософт оделся в костюм аквы, кошкодевки и П-расказчика, но остался ассистентом майкрософт.
Говно.

Аноним 07/06/24 Птн 07:18:37 #468 №773566

>>773560

Но отмечу что русский язык у модели - мое почтение. Притом что тут всего лишь 14В модель - знание языка у нее почти эталонное, на уровне 70В ламы и 34В командира.

Аноним 07/06/24 Птн 07:41:42 #469 №773575

>>773498
>В опенсорсе ещё может быть, и то за счёт числа
Речь же о фундаментальных моделях, а не о 300000млн шизофайнтюнов сделанных для галочки.

Аноним 07/06/24 Птн 08:41:50 #470 №773636

>>773536
> Поиграл в шахматы с Уи-35В.
> Обыграл как ребенка.
>>773544
> В шахматы даже гопота не умеет играть.
Они не для этого просто. Во всяком случае, неоптимальны по использованию ресурсов. Deep blue, который в 1997 Каспарова обьебал, был всего 11гфлопс, для сравнения даже 3090 в fp16 это уже 35тфлопс, при этом ллм, запущенная на ней, не может обыграть даже двачера.

Аноним 07/06/24 Птн 10:11:36 #471 №773755

>>773517
> тут рядом с кошкодевкой англоязычный комиссар лежит
Блять, сделал мое утро!
>>773536
> Поиграл в шахматы
Без шансов, слишком мало обучения и его понимания. Хотя, чисто технически, можно натренить ллм под шахматы, и она будет довольно неплоха. Врядли обыграет топовые движки, но с разрядником сравнится наверно.
>>773538
Линк?

Аноним 07/06/24 Птн 10:48:34 #472 №773838

>>773369
нет она наоборот генерит дохуя. спасибо за скрины потыкаю отпишу.

Аноним 07/06/24 Птн 10:54:04 #473 №773848

image.png

>>773369
>>773838
бля да тоже самое. сейчас зашел в обсуждение на странице модельки и там у челов такая же хуйня и вот пишут пик.как эту хуету сделать?

Аноним 07/06/24 Птн 11:00:22 #474 №773858

Ну вот и всё, релизнули нормальный рп-файнтюн ламы. Её бы ещё антицензором полирнуть и будет вообще 11/10. Реально годно получилось, причём ничего не сломали, как обычно у васянов бывало после файнтюнов.
https://boson.ai/higgs-opensource/

Аноним 07/06/24 Птн 11:55:47 #475 №773921

>>773755

Так вот же >>773496
Ггуф у бартовского найдешь.

Аноним 07/06/24 Птн 12:51:16 #476 №774005

>>773858
Вот это реально топ, не зря оно на уровне жпт4 в тестах. Рпшит божественно, уровень держания контекста в голове на высоте, нет соевого говна из ванилы в стиле "ну не знаю, это неправильно". На большом контексте очень хорошо раскрывается, отлично помня что было раньше и при этом выдавая креативные ответы.
Разве что есть стандартный рпшный прикол - соскакивает с чат-форматирования на рпшные скобочки, но это дело привычки.

Аноним 07/06/24 Птн 12:59:06 #477 №774014

>>774005
>>773858

Главный вопрос - залуп починили?

Аноним 07/06/24 Птн 13:11:14 #478 №774025

1614912121411.png

>>774014
Это у Жоры спрашивай. У меня на exl2 до конца контекста заебись всё, никаких лупов. Если ты про шаблонность структуры ответов, то её не тут.

Аноним 07/06/24 Птн 13:30:08 #479 №774045

>>774025
>то её не тут

Ты бы лучше текста выложил в подтверждение своих слов вместо того чтобы скоростью хвастаться.

Аноним 07/06/24 Птн 13:32:01 #480 №774054

>>774025
А дальше 8к?

Аноним 07/06/24 Птн 13:38:02 #481 №774069

>>774054

У Ламы 8к контекст.
Можно и выше - но там настройки крутить надо и нет гарантии что не сломается.

Аноним 07/06/24 Птн 14:53:25 #482 №774187

изображение.png

>>773858
Систему из 3-х уравнений не решает, так что мой РП всё так же уныл.

Аноним 07/06/24 Птн 15:04:07 #483 №774214

>>773538
> 2к25
> английский

Yi, как по мне, всегда была хуйней проходной. Ни разу не видел от нее вау чего-то.
В т.ч. и на вижн моделях.

>>773560
Он хорош как модель, но не про дроч.
Кстати, сейчас он уже плох, потому что…

———

https://github.com/Mobile-Artificial-Intelligence/maid — приложуха на андрюху.
https://huggingface.co/mradermacher/Qwen2-1.5B-Instruct-GGUF/tree/main — качаем q8

Ебать. Охуеть. 1.5b модель может в русский, хорошо отвечает, осмысленно общается.
Как нахуй вообще.

Раньше я скептически относился к локалкам на смарте, но теперь начинаю верить.

И, да, тут то же самое, что у GLM и Phi — это ассистент, а не для дроча. Но можете попробовать.
Хотя ортогональная Фи вполне расцензуренная, насколько я помню.
Может нам подвезут ортогонального квена и глм.

Китайцы жгут на этой недели.

Аноним 07/06/24 Птн 15:15:23 #484 №774241

>>774214
>Как нахуй вообще.
Так 1,5B всё ещё много. Хочу AGI в 100M.

Аноним 07/06/24 Птн 15:42:31 #485 №774273

>>774187
Двачую, вот командер рпшит лучше.

Аноним 07/06/24 Птн 15:43:12 #486 №774274

Так, посоны, нихуя не пони про системки и про модели, мне нужно кум, комп говяный - 3060 и 32 оперативки. Что посоветуете?

Аноним 07/06/24 Птн 15:46:30 #487 №774280

>>774274
Шапку почитать.

Аноним 07/06/24 Птн 15:48:13 #488 №774285

>>774280
Так у вас тут в реал тайме модели какие-то понавыходили, а я из шапки сейчас говняк стяну какой-то.

Аноним 07/06/24 Птн 15:52:39 #489 №774299

>>774285
В шапке проверенная база, а тебе кум нужен, тут не нужны самые высокие балы в MMLU.
Ну и железо говно, вон рп файнтюн лламы вроде неплох, но тебе катать 70B всё равно нельзя.

Аноним 07/06/24 Птн 16:02:38 #490 №774315

>>774285
>>773028

Аноним 07/06/24 Птн 16:22:52 #491 №774345

>>774285
Фи, ГЛМ, Квен — не для кума, это просто крутые модельки, но там пока ни анцензоров толком, ни файнтьюнов совсем.
Так что, л3 и шапка актуальны.

Но можешь попробовать Aya-23-8b.

Аноним 07/06/24 Птн 17:22:27 #492 №774415

>>774214
>>774214
>Yi, как по мне, всегда была хуйней проходной. Ни разу не видел от нее вау чего-то.

Она плохо работает вне стандартного китайского промпт формата ChatML который никто не использует так как не знает про эту дичь.

Аноним 07/06/24 Птн 17:24:18 #493 №774416

>>774274
>3060

с 12 гб или Ti говнина с 8 гб?

>мне нужно кум

На русском или англюсике?

Сколько токенов в секунду согласен терпеть?

Аноним 07/06/24 Птн 17:25:04 #494 №774419

изображение.png

>>774415
>который никто не использует так как не знает про эту дичь
ЕМНИП он или по дефолту в таверне есть, или добавляется парой строчек.

Аноним 07/06/24 Птн 17:26:30 #495 №774422

>>774419

Есть везде, но нужно знать что он для китайских моделек, тот же квен тоже его использует.

Аноним 07/06/24 Птн 17:31:14 #496 №774432

>>774422
Думаешь надо в вики занести инфу про промт форматы? Свести в табличку там, или к моделям прописать.

Аноним 07/06/24 Птн 17:47:59 #497 №774455

image.png

>>774432

Да, считаю это необходимо. У меня вот такая табличка есть, стянул вот с этого гита
https://github.com/chujiezheng/chat_templates

Аноним 07/06/24 Птн 17:50:16 #498 №774457

>>774214
>Ебать. Охуеть. 1.5b модель может в русский, хорошо отвечает, осмысленно общается.
Как нахуй вообще.

У нее скоры как у ламы2 13В, лол

Аноним 07/06/24 Птн 17:55:37 #499 №774464

>>774457
>У нее скоры как у ламы2 13В, лол
Задрочили на тесты.

ПЕРЕКАТ Аноним 07/06/24 Птн 17:58:03 #500 №774471

ПЕРЕКАТ

>>774469 (OP)

ПЕРЕКАТ

>>774469 (OP)

Аноним 07/06/24 Птн 21:58:23 #501 №774834

>>773636
Понятное дело, что не для этого. Я к тому, что не верю, что сетка способна партию даже сыграть. Не то, что обыграть, а просто дожить до мата хотя бы.

Аноним 07/06/24 Птн 22:06:03 #502 №774841

>>773545
> Лама 8В хотя и пишет более красиво - Акву не понимает.
Так дело не в Лламе, а в карточке. Есть карточка получше, там больше похоже на акву. Хотя все равно акву не понимает доконца. Но для глубокого понимания даже командира плюсового не хватит. Слишком уж сложная задача. Потолок для нейронок это кум. На качественное рп пока не способны.
> Эмодзями, да, срет везде. Вообще хуевенькая модель.
Да ее "понимание" аквы заканчивается тем, что она начала коверкать слова, потому что сломалась. Аква слова не коверкает. Мне кажется, что в первую очередь моделька должна передавать детское поведение аквы, капризы, надоедливость, когда она денег просит, выебоны, что она богиня, насмешки и туповатость. Вот если это все есть, то хоть о каком-то понимании можно говорить.

Аноним 07/06/24 Птн 22:07:46 #503 №774845

>>773566
Лучше уж аю катать.

Аноним 07/06/24 Птн 22:10:43 #504 №774848

>>774214
> https://github.com/Mobile-Artificial-Intelligence/maid — приложуха на андрюху.
А для чего приложуха? Чтобы локально на смарте запускать?

Аноним 07/06/24 Птн 22:19:01 #505 №774862

>>774187
Это то же самое, что играть с ней в шахматы. Она не предназначена для такого.

Аноним 09/06/24 Вск 13:14:24 #506 №776801

Как по мне TavernAI хуйня полная по сравнению с Open WebUI на базе Ollama. Она имеет такой же приятный интерфейс как у ChatGPT, вcё понятно и просто, ничего лишнего, но очень функционально, когда таверну в первый раз увидел чуть кровь из глаз не пошла. Кароче считаю Open ebUI лучшим фронтом для LLM.

Если кому интересно вот ссылка, через Docker очень удобно разворачивается
https://github.com/open-webui/open-webui

Аноним 14/06/24 Птн 14:09:56 #507 №785849

000.png

Кто-то делал франкеншейнов из третьей лламы? Сделал на тех же настройках, на каких раньше делал, софт обновил. Получилось не очень. Попробую ещё другие варианты, что сейчас как-то выглядит сомнительно.

Аноним 04/07/24 Чтв 18:28:33 #508 №809253

image.png

Пытаюсь загрузить гемму.гуфф Что я делаю не так?

Аноним 04/07/24 Чтв 19:06:29 #509 №809270

>>809253
Похоже ей нужен какй-то особый токенайзер но какой?

Аноним 09/10/24 Срд 10:59:56 #510 №912244

>>809270
Переключи лоадер на llamacpp
>какй-то особый токенайзер но какой?
От базовой модели геммы, очевидно же.