Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №54 /llama/

Аноним 23/04/24 Втр 14:51:18 #1 №714898

Llama 1.png

Альфа от контекста.png

Деградация от квантования новая.png

Самый ебанутый охлад P40-5.png

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. В треде можно поискать ссылки на правленные промт форматы, дефолтные не подходят. Ждём исправлений.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>712072 (OP)
>>709757 (OP)

Аноним 23/04/24 Втр 14:53:30 #2 №714904

>>714895 →
>по ощущениям ллама-3 догнала проприетарщину по соевости
Да ну не, даже близко нет. Любой префил и ллама послушно делает любую дичь. Собственно префил это имба, практически непробиваемая, поэтому его нет у openAI, к примеру.

Аноним 23/04/24 Втр 15:03:06 #3 №714916

Что могу сказать по моделям на текущий момент, я сижу на 70b, недавно перешел на командер. На мой взгляд командер дает за щеку всем остальным моделькам, 70b мержи на его фоне уже выглядят тухлыми, что говорить про 7b, 8b и 13b (мистрали не гонял вообще кстати). Гонял командер v01 на q8_0, заметил, что он лучше описывает РП, когда plus на iq3 лучше всего решает технические задачки, кодинг, переводы и прочее. Такие дела. Ллама3 до уровня командера не дотягивает даже на решении тех.задач. Может быть после файтюна РП поправят, но на данный момент это что-то кривое.

Аноним 23/04/24 Втр 15:06:19 #4 №714918

>>714916
Так у командира ты тоже не файнтюны гонял.
Кстати, есть какие РП файнтюны на 104В командира?

Аноним 23/04/24 Втр 15:07:35 #5 №714919

>>714918
>не файнтюны
Ну да, я говорю о том, что он из коробки прямо таки топ.

Аноним 23/04/24 Втр 15:11:09 #6 №714924

Снимаю мои прошлые претензии к 8В инструкту, похоже что правильный гуф с правильным темплейтом и правильным сэмплером творят чудеса. Модель может в сложный РП, длинные описания и может придумать лютую внезапную дичь - вчера вместо кума весь вечер занимался тем что тянка заставила меня внедриться в корпорацию по созданию оружия чтобы спиздить их планы(притом что в карточке персонажа этого не было, у меня есть подозрение что данные обучения включали аниме из которого тянка и модель оттуда подтянула что она борец с корпорациями). Еще бы нативный контекст расширить...

Аноним 23/04/24 Втр 15:13:18 #7 №714927

>>714919
>Ну да, я говорю о том, что он из коробки прямо таки топ.
Кто-нибудь скажет точно, сколько этому топу (104В) нужно врам на 8к контекста?

Аноним 23/04/24 Втр 15:14:31 #8 №714928

>>714927
У меня IQ3_XXS влезает полностью на 48врам с 8к контекстом.

Аноним 23/04/24 Втр 15:15:02 #9 №714929

>>714924
https://www.reddit.com/r/LocalLLaMA/comments/1caw9mh/someone_doubled_llama38b_context_to_16k/
удачи

Аноним 23/04/24 Втр 15:15:25 #10 №714931

>>714916

Да, командир топовый топ, а на русском это вообще клад и золото. Но лама 3 70B в теории с правильным небитым ггуфом, правильным темплейтом и правильным сэмплером должна превзойти его, по крайней мере мелкий.

Аноним 23/04/24 Втр 15:18:29 #11 №714935

>>714924
>правильный гуф с правильным темплейтом и правильным сэмплером
Кидай настройки, у меня только первые 2 ингредиента, и то не уверен.

Аноним 23/04/24 Втр 15:25:14 #12 №714942

>>714919
Ну то есть после донастройки на РП они оба окажутся в одном положении, и командир всё равно будет лидировать.
Эх, надо покупать новых видеокарт...

Аноним 23/04/24 Втр 15:26:40 #13 №714944

aQRjVBXq700w0.jpg

Кто-нибудь пытался делать современный AI-dungeon с новыми моделями? Без цензуры. Они могут норм уже ДМить?

Аноним 23/04/24 Втр 15:30:14 #14 №714949

>>714929
Поясните про контекст. Я же могу выставлять любую длину конекста в настройках или это контекст с которым сеть обучалась?

Аноним 23/04/24 Втр 15:34:30 #15 №714957

>>714935

min_p

Аноним 23/04/24 Втр 15:35:55 #16 №714960

Поясните пожалуйста на Командера и его русскости.
Мне достаточно указать в карточке и в промте что бы он писал ответы на русском или же и карточку надо на русский переводить(это же пиздец, х2 токенов).

Аноним 23/04/24 Втр 15:38:38 #17 №714965

>>714957
Что мин п?
>>714960
>х2 токенов
У командира кажется поменьше штраф.

Аноним 23/04/24 Втр 15:40:37 #18 №714968

>>714935
Я в конце прошлого треда кидал настройки семплера которыми пользуюсь, если коросто то все офф кроме мин-п
Можешь динамическую температуру включить, с ней веселее чуток

Аноним 23/04/24 Втр 15:41:56 #19 №714972

>>714968
>>714355 →

Аноним 23/04/24 Втр 15:53:09 #20 №714988

>>714972
>zen слайдеры
Пиздос.

Аноним 23/04/24 Втр 16:03:33 #21 №715001

>>714965
У командера размер под контекст раза в 2 больше чем у той же Мику, как мне показалось.

Аноним 23/04/24 Втр 16:05:53 #22 №715003

>>714944

Кобольд изначался создавался как локальная альтернатива ai dundeon, это сейчас он не по назначению используется, там есть adventure mode, попробуй.

Аноним 23/04/24 Втр 16:08:26 #23 №715005

>>714965

Шаблон настроек сэмплера так называется, min_p.

Аноним 23/04/24 Втр 16:09:46 #24 №715008

>>714965
>У командира кажется поменьше штраф на русский
>размер под контекст раза в 2 больше

Одно связано с другим, лол

Аноним 23/04/24 Втр 16:15:03 #25 №715011

>>714949

Ты можешь выставить контекст до размера нативного контекста модели, можешь и больше выставить, если альфу крутить и rope, но это ухудшает качество модели. По идее расширение нативного контекста модели возможно если есть датасет на котором она обучалась.

Аноним 23/04/24 Втр 16:21:29 #26 №715013

>>715011
благодарю.

Эта https://huggingface.co/IlyaGusev/saiga_llama3_8b_gguf модель вообще отказывается ставит eos токен. Че за фигня? Автор вообще не понимает зачем нужны eos токены?

Аноним 23/04/24 Втр 16:22:42 #27 №715014

>>715013
>Автор вообще не понимает
>IlyaGusev
Da.

Аноним 23/04/24 Втр 16:24:51 #28 №715015

>>715013

Тут кидали его группу в телеге, можешь его лично спросить

Аноним 23/04/24 Втр 16:31:20 #29 №715021

>>714988
Легче видеть выключен параметр или нет, а вот контекст выставлять боль

Аноним 23/04/24 Втр 16:32:03 #30 №715022

image.png

>>714924
>правильный гуф
>с правильным темплейтом
>и правильным сэмплером

Аноним 23/04/24 Втр 16:34:02 #31 №715024

>>715013
Это проблема оригинальной третьей ламы, а не конкретно сайги. Смотри предыдущие треды, там этот косяк на всех квантах был. У неё должно было быть два стоп токена, но ставится тот, на который не поставили в настройках токенайзера метку, что он EOS. Поэтому пришлось переделывать кванты, делая <|eot_id|> (как раз тот, у которого не было EOS метки) полноценным EOS токеном. По крайней мере, я так понял по итогу всех разбирательств. Может, ошибаюсь, тогда пусть кто более прошаренный поправит.

Аноним 23/04/24 Втр 16:37:56 #32 №715030

>>715024
хз, у меня ставит перенос строки со словом assistant и соответственно генерация не останавливается.

Аноним 23/04/24 Втр 16:40:24 #33 №715034

image.png

Че то интересное, удачное дпо?
Датасет похож на токсик дпо
https://huggingface.co/datasets/jondurbin/truthy-dpo-v0.1
https://huggingface.co/cloudyu/Meta-Llama-3-8B-Instruct-DPO

Аноним 23/04/24 Втр 16:59:06 #34 №715061

>>714823 →
> Нужен Фулл пресет который кто-то юзает
Ну может после майских, если настроение будет и таверну наконец обновят.
>>714842 →
>>714851 →
Это лишь иллюстрирует что метрики устарели и не могут полностью характеризовать перфоманс модели.
>>714865 →
> а количество токенов прошедших сквозь сетку во время обучения
> Так как 70 больше, то и крутили ее меньше
> Скорей всего в 10 раз, если увеличение размера сетки в 10 раз так же в 10 раз замедлит скорость обучения
Что ты вообще несешь?
>>714904
Вот этого двачую, но она все делает даже без префилла.
Алсо в коммерции обрубить префилл крайне легко, просто запретить стандартный комплишн а оставить только последовательность сообщений с ролями (как собственно в апи на 3й клод), конечный промт собирается из них уже на сервере, и после любого префилла можно ставить какой угодно свой.

Аноним 23/04/24 Втр 17:04:09 #35 №715065

>>714916
> На мой взгляд командер дает за щеку всем остальным моделькам
Двачую. Он не такой умный как 70б второй лламы, но эта разница не бросается, а выглядит свежо и почти не теряется в куче событий, потому с ним вообще не обламываешься. Не хватает только рп направленности.
Третья хуй знает, пока малоюзабельна в околорп по сути.
>>715013
> Автор вообще не понимает зачем нужны eos токены?
Этот - да. Его уже долго хейтят, иногда создается впечатление что незаслуженно и он уже исправился. Лезешь проверять - а там все то же болото, видимо у самурая нет цели - только путь (поломки моделей).

Аноним 23/04/24 Втр 17:05:05 #36 №715066

image.png

>>715061
>Что ты вообще несешь?
Хмм может я что то не так понял, тогда получается что 70b тренена просто на более малом количестве токенов.
Или вобще ее тренировка была остановлена в декабре.
Тогда как датасет 8b полноценный 15т, о 70b нам скромно умолчали.
В любом случае 70 выглядит недоделанной

Аноним 23/04/24 Втр 17:07:40 #37 №715071

>>715022

1. Постили в прошлом треде https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF
2. Обновляешь таверну до последней версии, ставишь темплейт на llama_3, включаешь режим инструкций, там тоже ставишь llama_3
3. Выбирай пресет настроек сэмплера min_p

Аноним 23/04/24 Втр 17:08:24 #38 №715073

>>715066
> тренена просто на более малом количестве токенов
Откуда такой вывод? Как ты вообще к этому пришел и где взял цифры? Особенно в том посту логика вровня
> коробка квадратная, значит внутри что-то круглое, а если круглое то оранжевое - апельсин!
У таблицы предпоследняя колонка объединена и там для обоих указано 15т+. Строки объединены и просто маркдаун обниморды не выравнивает высоту по центру.

Аноним 23/04/24 Втр 17:12:14 #39 №715075

>>715073
Тогда и контекст так же могли написать только в одной строке
Основной вывод о том что она недоделана - прекращение знаний декабрем, тогда как 8 в марте
Да и в момент выхода писали про 8, но про 70 писали мол точное количество токенов не известно
Я думаю на пикче хитрый ход как раз таки для таких как ты, которые думают что это одна колонка.
На самом деле о количестве токенов для 70 просто умолчали

Аноним 23/04/24 Втр 17:13:22 #40 №715078

>>715075
А стоп, я слепошарый, там ведь 23 год везде. Значит 70 обладает более свежими знаниями и это ничего не доказывает
Хмммм, короче хз

Аноним 23/04/24 Втр 17:16:31 #41 №715087

>>715075
> на пикче хитрый ход как раз таки для таких как ты
Блять, дурень поехавший, открой сырой маркдаун и посмотри что там на самом деле, а не упарывайся спгс.
> 70 писали мол точное количество токенов не известно
Писали уже много где
Пиздец бля диванные ученые, насочинял себе складную гипотезу и пошел ее тиражировать, по ходу сочиняя какой-то треш.
Как же заебали эти мракобесы, почему тема привлекает так много интересных личностей?

Аноним 23/04/24 Втр 17:19:12 #42 №715093

>>715087
Вот долбаеб, это просто предположения на неполных данных
Я твой дом труба шатал, иди нахуй короче

Аноним 23/04/24 Втр 17:22:44 #43 №715099

Так чо по реальным тестам wizard 8x22 реально лучше первой gpt-4?

Аноним 23/04/24 Втр 17:25:32 #44 №715104

>>715099
Нереально лучше.

Аноним 23/04/24 Втр 17:27:05 #45 №715105

>>715065
>Он не такой умный как 70б второй лламы
Ты про обычного, или с плюсом?
>>715087
>почему тема привлекает так много интересных личностей?
Какая именно? Шизики есть буквально везде.

Аноним 23/04/24 Втр 17:34:05 #46 №715116

>>715093
Ответ отрицательный, ♂ебать ты♂, кожевенник!
>>715105
> Ты про обычного
35б
>>715105
> буквально везде.
Справедливо, просто прихуел с сильной уверенности и тех формулировок, которые буквально идут вопреки фактам.

Аноним 23/04/24 Втр 17:53:02 #47 №715143

image.png

>>715071
Спасибо, попробую!

Аноним 23/04/24 Втр 18:08:52 #48 №715165

https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Аноним 23/04/24 Втр 18:13:30 #49 №715171

https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf
Однако, даже сами ггуф сделали своего лоботомита

Аноним 23/04/24 Втр 18:31:35 #50 №715192

>>715065
Справедливости ради, после старта, коммандер вырубился на две недели в принципе. =) И только потом сделал камбэк.
Дайте третьей лламе так же пару недель, а только потом начинайте оценивать, ИМХО.

Аноним 23/04/24 Втр 18:32:47 #51 №715194

изображение.png

>>715165
Вот же гады.

Аноним 23/04/24 Втр 18:43:20 #52 №715220

изображение.png

>>715171
Лол, коллекция говнофайлов (код оф колдакт про уважение ЛГБТ пидорасов и темплейты для ollama).

Аноним 23/04/24 Втр 18:48:29 #53 №715232

>>715220
Да, оллама подсуетилась
Кажется понятно за чью сторону они играют
В конце концов оллама это тоже распространитель моделей, со своими серверами.
По крайней мере майки поняли что если людям негде будет пощупать их модели все это надолго затихнет пока не будет оптимизаций в бекенде

Аноним 23/04/24 Втр 18:52:39 #54 №715238

изображение.png

>>715232
Понятно что не тот темплейт, но я чёто взоржал. Чисто рандомный чат.

Аноним 23/04/24 Втр 18:55:13 #55 №715246

>>715238
Перевод или на русском шпарит?

Аноним 23/04/24 Втр 18:56:46 #56 №715251

>>715246
На русском офк, я переводом не пользуюсь. Но русский там уровня пигмы, как видно на скрине.

Аноним 23/04/24 Втр 18:57:30 #57 №715253

>>715238
Это ты его спросил как успокоить козу что бы она стала голубой? Я чет тоже проиграл.

Аноним 23/04/24 Втр 18:59:51 #58 №715254

Мультимодалки с русеком есть в природе или не стоит искать даже?

Аноним 23/04/24 Втр 19:03:06 #59 №715258

image.png

Что они хотят сделать с этой линейкой чатботов? Там кстати затесались тесты смартфона
В новом формате onnx

>>715254
https://huggingface.co/xtuner/llava-llama-3-8b-v1_1

Аноним 23/04/24 Втр 19:04:44 #60 №715260

>>715258
> В новом формате onnx
Ему уже лет пять.

Аноним 23/04/24 Втр 19:06:05 #61 №715262

изображение.png

>>715253
Вопрос же на скрине видно...
Поправил темплейт и прогнал базу. С отцами традиционно плохо, с книгами вроде догадался, что чтение книги не изничтожает, с петухами всё Ок (странно, что он не отказался), с шутками про негров не помог даже префил Шуре.
Ну что ж, ждём модели побольше, но чует моя душа, сои там немерено.

Аноним 23/04/24 Втр 19:06:47 #62 №715263

>>715260
ну, в новом для меня, я его чет не видел нигде

Аноним 23/04/24 Втр 19:07:34 #63 №715266

>>715258
>https://huggingface.co/xtuner/llava-llama-3-8b-v1_1
Дальше англюсика и китаюсика лучше не пробовать. Там пиздец начинается

Аноним 23/04/24 Втр 19:08:46 #64 №715268

>>715266
Проектор скачай и приделай к обычной ллама 3 инструкт
В прошлой теме в конце есть ссылки, я потыкал кое как работает

Аноним 23/04/24 Втр 19:10:04 #65 №715270

Дельфина уже тестили тут?

Аноним 23/04/24 Втр 19:20:21 #66 №715281

image.png

>>715266
Но на русском хуевенько, это самые лучше результаты из 5-6
Последний пик типичный ответ на русском, глюки и ассоциативно похожие слова, будто сетка неправильно подбирает смысл того что хочет сказать, забавно
Похоже на других языках у сетки просто нет активаций от проектора, который тренировали на английском.

Аноним 23/04/24 Втр 19:24:20 #67 №715285

>>715270
Он на сломанной версии сделан, там стоп токен проебан вроде, не помню. Короче в комментах на реддите его обосрали, оказался хуже инструкта
Слишком рано его делать взялись , если речь о дельфине который вышел через 1-2 дня после релиза ллама 3
Может уже новый вышел, хз

Аноним 23/04/24 Втр 19:33:14 #68 №715301

image.png

>>715071
Что я делаю не так? Всё равно ассистенами гадит. Бекенд - последний кобольдспп. Если я убираю галки с "Wrap Sequences with Newline" и "Replace Macro in Sequences", то перестаёт. Нужны ли они? Потому что в пресете они были включены по умолчанию.

Аноним 23/04/24 Втр 19:36:02 #69 №715307

>>715301
>Потому что в пресете они были включены по умолчанию.
Пресет от таверны что ли? Лол, они обосрались. Используй темплейты от анонов из прошлого треда.

Аноним 23/04/24 Втр 19:37:29 #70 №715311

>>715301
В custom stopping strings добавить <|eot_id|> не пробовал?

Аноним 23/04/24 Втр 19:44:17 #71 №715325

image.png

>>715301
Смотри что бы в консоли кобальда было как на пик
Кстати походу встроенный шаблон в таверне все таки кривой, токена начать текст нету

Аноним 23/04/24 Втр 19:45:23 #72 №715326

>>715325
>токена начать текст нету
Это BOS токен, он добавляется самим кобольдом. (хотя ХЗ конечно, могут и поднасрать в этом плане).

Аноним 23/04/24 Втр 19:48:17 #73 №715330

image.png

>>715326
Ну, если убрать то нету, либо не показывает в сосноли либо не добавляет сам

Аноним 23/04/24 Втр 19:49:01 #74 №715332

Как вы общаетесь с ~8б моделями? Они же часто не понимают где ставить eos токен.

Аноним 23/04/24 Втр 19:49:56 #75 №715334

>>715330
>либо не показывает в сосноли
Скорее всего.
>>715332
Они понимают, проблема конкретно в лламе 3, 70B так же срёт под себя.

Аноним 23/04/24 Втр 19:51:17 #76 №715337

>>715307
Я в глаза ебусь, можешь скинуть? Я там нашёл только аналог синкинга для комманд р.
>>715311
Нет, а надо?
>>715325
Не, там нет <|begin_of_text|> То есть только его надо добавить?

Аноним 23/04/24 Втр 19:52:41 #77 №715341

https://github.com/LostRuins/koboldcpp/releases/tag/v1.63

>Reworked the Automatic RoPE scaling calculations to support Llama3 (just specify the desired --contextsize and it will trigger automatically).

Нихуясе, это получается в кобальте можно ламе3 любой контекст сразу указывать? Затестимо зараз.

Аноним 23/04/24 Втр 19:53:05 #78 №715342

>>715337
Не, я добавил и всё равно ассистент лезет

Аноним 23/04/24 Втр 19:53:08 #79 №715343

>>715334
>Они понимают, проблема конкретно в лламе 3, 70B так же срёт под себя.

Ясно, ждем исправлений тогда.

Аноним 23/04/24 Втр 19:53:23 #80 №715344

image.png

>>715337
так попробуй

Аноним 23/04/24 Втр 19:54:34 #81 №715345

>>715337
>Я в глаза ебусь, можешь скинуть?
Да, ты ебёшься в глаза. Короче >>712090 →
>>715341
>Нихуясе, это получается в кобальте можно ламе3 любой контекст сразу указывать?
Всегда так можно было. Но там походу что-то конкретно для лламы фиксили.
Но дефолтно кобольд ропу не всегда правильно ставит, если что.

Аноним 23/04/24 Втр 20:04:00 #82 №715351

>>715344
У меня так и было, разве что галка стояла. Я её убрал и всё равно
>>715345
Первый заработал, со вторым всё плохо. Спасибо

Аноним 23/04/24 Втр 20:08:39 #83 №715359

>>715171
Это та которая самая соевая? Мелкая, можно из интереса даже скачать.
>>715192
> вырубился на две недели в принципе
Он и не включался. Пока сделали поддержку в лаунчерах, пока турбодеп квант на exl выпустил, а ггуф исправный вообще спустя очень долго вышел, все закономерно. У него только плюс - огромная толерантность к формату промта, просто ответы будут более короткими и простыми. С лламой3 аналогично, только еболда с токенами и форматом.
>>715238
Ор выше гор, точно нужно качать.

Аноним 23/04/24 Втр 20:25:38 #84 №715393

image.png

>>715022
>>715071
>>715301

Показываю.

Модель - https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/blob/main/Meta-Llama-3-8B-Instruct-Q6_K.gguf

Настройки таверны - пик1.
Настройки семплера - пик2.
Вывод Кобольда - пик3
Какой текст генерируется - пик4.

Аноним 23/04/24 Втр 20:38:20 #85 №715414

Скачал квантайз 4q пхи 3. 2.5 гб веса. Сижу кайфую. Ну а чо, кому боольше надо то? 2.5 гигабайта хватит всем

Аноним 23/04/24 Втр 20:54:10 #86 №715432

>>715414

Дурачок что ли, скачай лучше 4 бит третьей ламы.

Аноним 23/04/24 Втр 21:03:29 #87 №715442

Есть вариант поставить не цензурированную модель? Пробовал какую то хуйню с dolphin но модель была настолько тупой, что на вопрос "как сварить (пельмени)?" отвечала "[приамбул
а про вкусность пельменей] 1) взять пельмени 2) сварить 3)"

Аноним 23/04/24 Втр 21:07:01 #88 №715447

>>715442
И в чем она не права?
Ты считаешь что пельмени не вкусные?
Или может у тебя есть претензии к взять и сварить? Все по делу.

Аноним 23/04/24 Втр 21:09:27 #89 №715452

>>715447
притензий к пельменям нет, рецепт действительно верный относительно пельмений. проблема в том, что ответы такого же характера получаешь почти на любой вопрос, даже когда в промтпте просишь подробно все описать.

Аноним 23/04/24 Втр 21:12:56 #90 №715457

>>715452
Ну а чего ты хотел от оверфитнутой cot модели сделанной под бенчмарки?

Аноним 23/04/24 Втр 21:14:25 #91 №715458

>>715432
Она уже 4.5 гигабайта, а это нонсенс. Непозволительно модели занимать так много места

Аноним 23/04/24 Втр 21:15:45 #92 №715463

1.png

>>715442
>не цензурированную модель?
Тебе нужна расцензуренная модель для рецепта пельменей? Возьми третью лламу. Она тебе таких рецептов напишет, что ты просто охуеешь.

Аноним 23/04/24 Втр 21:39:37 #93 №715476

>>715463
да не для пельменей бля, пельмекни это просто пример. Модель нужна прежде всего для личного пользования. Если под личным пользованием все пойдет хорошо, можно будет пытаться делать новеллу без ЛЮБЫХ ограничений

Аноним 23/04/24 Втр 21:47:03 #94 №715483

Приехали. Тут еще у Герганова функция llama_tokenize не добавляет в некоторых моделях bos токен если выставить add_special в true . Боюсь, таких косяков немало еще.

Аноним 23/04/24 Втр 21:49:11 #95 №715485

>>715359
> Он и не включался.
Ну, я тестил спустя день после выхода, там и Жора поддержку подогнал (а потом убрал) и ггуфы были, и исправные сразу, отвечала она адекватно.
Турбодерп уже позже это сделал.

>>715442
> дельфин
> тупая
Всегда.

Аноним 23/04/24 Втр 21:49:42 #96 №715486

>>715483
Например, Meta-Llama-3-8B.Q5_K_M.gguf где BOS token = 128000 '<|begin_of_text|>'

Аноним 23/04/24 Втр 21:49:45 #97 №715487

>>715476
>Модель нужна прежде всего для личного пользования. Если под личным пользованием все пойдет хорошо, можно будет пытаться делать новеллу без ЛЮБЫХ ограничений

Ты думаешь тут все тупые собрались и не знают что ты лолей ебать собрался?

Аноним 23/04/24 Втр 21:50:39 #98 №715490

image.png

>>715476
Неее, теперь всё будем тестировать на пельменях, пельмени это база. Я сидел рпшил за вторым фимбульветром, и мне было лень делать пустую карточку ассистента, поэтому сделал запрос карточке-асситенту для создания персонажей. Ну и на русском для лулзов.

Аноним 23/04/24 Втр 21:51:55 #99 №715492

>>715486
LLLOOOLLL. Твою дивизию. Так и знал, что надо самому всё делать.
А что за настройка то и можно ли её просто вырубить?

Аноним 23/04/24 Втр 21:56:41 #100 №715495

>>715492
Это в самом апи обращения к гергановской dll, это герганов должен исправить, т.к. если оболочки ваши обращаются через апи, то они не могут ничего с этим сделать, или просто насильно запихать этот bos самим после вызова функции llama_tokenize , но это надо код править.

Аноним 23/04/24 Втр 21:58:00 #101 №715497

>>715483
Ну раз раметили, значит скоро пофиксят.
Дней без поломанных gguf: 0
>>715485
> и исправные сразу
Верится с трудом, в начале все было хорошо-классно, а потом тутже поломалось, поддержку откатили и кучу битых квантов наделали.
>>715490
Взлолировал

Аноним 23/04/24 Втр 21:59:01 #102 №715500

>>715495
Эм, просто добавление бос токена из настроек модели в начало промта не поможет?

Аноним 23/04/24 Втр 22:00:30 #103 №715505

>>715500
Хз, можно попробовать, я не знаю как там ваши оболчки работают. Я самодельную делаю, потому и заметил этот косяк.

Аноним 23/04/24 Втр 22:01:28 #104 №715507

>>715505
А по каким признакам заметил?

Аноним 23/04/24 Втр 22:06:05 #105 №715509

>>715507
Только то, что у меня не было его в массиве при конвертировании сообщения в токены. Я вообще хз, может это в ваших оболочках это никак не влияет на качество. На паскале это получается так
llama_tokenize(model, pansiChar(Prompt),length(Prompt), @EmbdInp[0], length(EmbdInp), true,false) вот там где true, оно никак не влияло на получаемые токены, ставь ты хоть true хоть false - пофиг. С другой моделью было все ок и там добавлялся в самое начало массива bos токен, который был 01, кажется.

Аноним 23/04/24 Втр 22:09:00 #106 №715512

>>715509
массив EmbdInp - получаемые токены на выходе из текста Prompt, естественно.

Аноним 23/04/24 Втр 22:18:37 #107 №715516

>>715490
кайфарь, как такое же настроить?

Аноним 23/04/24 Втр 22:25:26 #108 №715521

>>715509
>Я вообще хз, может это в ваших оболочках это никак не влияет на качество.
Плевать на оболочку, бос токен нужен самой модели.

Аноним 23/04/24 Втр 22:30:49 #109 №715531

>>715497
> Верится с трудом, в начале все было хорошо-классно, а потом тутже поломалось, поддержку откатили и кучу битых квантов наделали.
Ну, это ты Жору спрашивай.
Когда я ее погонял парочкой-тройкой вопросов — был отличный русский, о чем я сюда и написал тогда.

Он там еще мультимодалки в тот момент откатывал, которые уже 9 месяцев (!) на тот момент работали исправно, и ниче, ужалило в жопу что-то. =)

Аноним 23/04/24 Втр 22:37:09 #110 №715543

изображение.png

Аноним 23/04/24 Втр 22:49:13 #111 №715551

image.png

Аноним 23/04/24 Втр 22:51:34 #112 №715556

Какие же картинкодебилы дегенераты. Сидят на свои картинки дрочат. То ли мы, текстогоспода, илита. Дрочим на текст, что требует особой концентрации и уникального строяния ума.
Кстати не хватает тех кто бы дрочил на аудио, свободная ниша на генерацию стонов аниме девочек

Аноним 23/04/24 Втр 22:54:00 #113 №715559

>>715556
А ведь там тоже недавно крутых штук завезли, что генераторы музыки, что ттс с подделкой любого голоса

Аноним 23/04/24 Втр 22:54:13 #114 №715560

>>715543
>>715551
Было бы вполне если бы не шизофазия. Второе более связано но слог такой себе и много лупоподобных структур.

Аноним 23/04/24 Втр 22:55:54 #115 №715563

>>715490
>карточке-асситенту для создания персонажей
Карточку-ассистента для создания персонажей отдельно хотелось бы. А то самому напряжно каждого персонажа прописывать.

Аноним 23/04/24 Втр 23:00:17 #116 №715568

image.png

Ищо история, вроде чуть получше. Я на историях проверяю настройки промпт формата, особенно бесят пустые строки после спец токенов

>>715563
на чубе лежит в разделе helpers или как то так

Аноним 23/04/24 Втр 23:02:00 #117 №715570

изображение.png

>>715560
Не знаю, что там на второй, а я пытаюсь Пахома сделать на коммандере 35б, кручу настройки, поэтому там шиза.

Аноним 23/04/24 Втр 23:03:40 #118 №715571

>>715556
На картинки по четным, на текст по нечетным.
>>715570
> а я пытаюсь Пахома
Ооо, но тогда нужно следовать методе КАЛомазе и крутить температуру в надежде на min_p

С этой обзмеился, но не хватает жестикуляции, описания мимики, пауз и т.д.

Аноним 23/04/24 Втр 23:09:01 #119 №715576

>>715516
Если вопрос про сэмплеры/инстракт для нормальной работы фимбульветра, то он вроде неприхотлив. По крайней мере, вторая версия. Автор рекомендует для него альпачный инстракт формат (т.е. alpaca roleplay в таверне, или как оно там сейчас называется) и universal-light или universal-creative пресеты сэмплеров. Которые через температуру выше единицы и потом обрубание мин-п. У меня настройки сложнее: кастомизированный чатмл формат, с которым периодически экспериментирую, добавляя в последний аутпут префил/джейлбрейк. На сэмплерах топ-а + tfs. Конкретно в этом ответе ещё динамическая температура была включена, игрался с ней. Но это всё мои заморочки, и вполне возможно, что на том, что рекомендует автор, будет работать лучше. Т.е. просто ткни нужные пресеты в таверне и можешь гонять.
>>715563
На чубе есть несколько разных. Я решил попробовать для себя простенькую сделать, но быстро забросил. Так себе генерирует. Лень заливать на рентри/кэтбокс, там вот такой промпт:
You are not a roleplay character, but the user's companion who would like to help them create a new character for AI powered roleplay. While being creative and entertaining, you should suggest the following features for the character based on the user's request.
<appearance>
How the character looks like, what are their visual features.
</appearance>
<personality>
What is the character's personality and mindset. Write down their quirks and behavior patterns.
</personality>
<setting>
What is the world and time, where the user and the character meet. You could suggest a specific scenario that would utilize the character's appearance and personality.
</setting>
<ero-details>
If asked for erotic roleplay character, provide some NSFW features and quirks of the character, which could be important for the scenario.
</ero-details>
<speech examples>
Please provide a couple of the characteristic replies and reactions demonstrating the character's speech pattern and utilizing their personality.
</speech examples>
<summary>
Write here a brief summary of the most important things about the character.
</summary>
<greeting message>
That's how the story begins. It would be nice if you could write the starting scene and the first character's dialogue line allowing the user to continue the roleplay from this point.
</greeting message>
И все теги в ответе к тому же стираются, если в таверне в настройках не включить отображение тегов.

Аноним 23/04/24 Втр 23:18:11 #120 №715588

>>715490
второй фимбульветр может в такой хороший русский?

Аноним 23/04/24 Втр 23:23:29 #121 №715594

>>715588
Сам первый раз попробовал на русском на нём что-то сгенерить. Я бы не назвал его хорошим, но не самый плохой, да. Причём системный промпт на инглише, карточка на инглише. На втором сообщении он сбился на английский, пришлось ему префил написать в духе "Хорошо, сейчас отвечу на русском."

Аноним 23/04/24 Втр 23:27:30 #122 №715600

image.png

Аноним 23/04/24 Втр 23:41:11 #123 №715623

https://www.reddit.com/r/LocalLLaMA/comments/1caw3ad/sharing_llama38bweb_an_action_model_designed_for/
пизда тебе, интернет ебаный

Аноним 23/04/24 Втр 23:43:17 #124 №715629

Давно ничего не месил и не склеивал, но сейчас посмотрел мержкит - по сравнению со старыми особенно с легаси, теперь охуенно Чарльз сделал - хуяк и готово. Стал клеить маленькую модель с дохуища слоев. Сделал, но ппл просто даже лучше и не говорить. Странно думаю, и тут обнаружил еще одну хуевину от Чарльза и arcee-ai - это скрипт "подрежь меня" вот это охренительная штука - показывает какие слои можно выкинуть а какие ни-ни. А я то отрезал как раз самые нужные потому и запорол франка, т.к. по-старинооому отрезал башку и жопу и присадил другие. Но с такой то вещью как pruneme можно целенаправленно кроить и резать. Хотя она сделана в первую очередь чтобы почикать лламу-3-70 до меньшего, но для франкенштейнов тоже пойдет как анализатор. Рекомендую тем кто любит мержить и клеить для себя. https://github.com/arcee-ai/PruneMe

Аноним 24/04/24 Срд 00:03:15 #125 №715673

>>715623

Как он блядь за три дня это сделал и как этим пользоваться?

Аноним 24/04/24 Срд 00:08:14 #126 №715676

Анонсы, подскажите пожалуйста куда в уга-буге теперь вставлять команды типа —listen —cpu memory?
Раньше всё легко было start.bat изменяешь и всё.

Аноним 24/04/24 Срд 00:17:29 #127 №715682

>>715676
А куда старт бат делся? А так CMD_FLAGS.txt, наверное.

Аноним 24/04/24 Срд 00:19:20 #128 №715687

>>715629
А для клепанья франкенштейнов и умной обрезки много надо видимопамяти? например ту же 8b

Аноним 24/04/24 Срд 00:20:52 #129 №715692

>>715682
А что, удобно. Туда писать то, что раньше в SET COMMAND_LINE= добавляли?

Аноним 24/04/24 Срд 00:24:39 #130 №715695

>>715687
Хватит 0 мегабайт vram. Этот Годдарт такой умный, что оно всё отрабатывает на cpu без проблем.

Аноним 24/04/24 Срд 00:24:52 #131 №715696

>>715687
не обязательно. можно все делать в рам на процессоре. вот для анализатора который я хвалил желательно на карте так будет быстрей. мержи и франки все это на цпу можно. А есть лэйзикит - это там в колабе с одной кнопки фактически можно мержить. кучу блокнотов сделал макс лабон. если нтересно смотри у него на хф

Аноним 24/04/24 Срд 00:29:48 #132 №715697

>>715695
>>715696
Пасиба, думаю потыкать по приколу когда нибудь раз все так дружелюбно к железу

Аноним 24/04/24 Срд 00:30:17 #133 №715698

>>715692
Можешь написать туда свой домашний адрес, а так да.

Аноним 24/04/24 Срд 00:31:47 #134 №715700

>>715629
про обрезание слоев: задумалось мне как-то подрезать слои llama2 70b модели (не влезала она полностью в память, под обучение на qlora, решил обучать на подрезанной, потом применять лору на оригинальную). когда подрезал первые 8 слоев - модель начинала срать бессвязными символами, когда подрезал последние 8 слов - модель писала бессвязные слова. самое безопасное - подрезать центральные слои, модель продолжает писать связные тексты, но заметно глупеет в логике и написанию хороших диалогов.

Аноним 24/04/24 Срд 00:32:21 #135 №715701

>>715682
Не работало анон, а вот после твоего сообщения заработало.
Блять, какой же я воробушек нахуя я в это дело полез спрашивается

Спасибо.

Аноним 24/04/24 Срд 00:45:00 #136 №715711

image.png

Проверял несколько версий лламы 3, но единственная модель которая отвечает правильно на "What is DSBM?" эта та что на бот арене. А так и q8 обсирается и 11б. Где найти правильную версию?

Аноним 24/04/24 Срд 00:51:39 #137 №715716

>>715711
Действительно, возможно нам отдали более соевую версию, чем крутится на арене
Или дело в промпте/семплерах, что вероятней

Аноним 24/04/24 Срд 00:53:31 #138 №715718

>>715711
Не ищите вы "правильные версии" привет жора, ладно с ггуфами может быть актуально, просто почините промт формат и настройте нормальную работу.

Аноним 24/04/24 Срд 00:56:19 #139 №715721

image.png

>>715711
хотя, с такой системной подсказкой прокатило

Аноним 24/04/24 Срд 01:24:18 #140 №715759

>>715711
>и 11б
>лламы 3
Качаешь шизомержи, и ещё и жалуешься?

Аноним 24/04/24 Срд 01:41:12 #141 №715768

Еще че заметил. 8Гбайтки такие тупые что воспринимают "\n\n### Instruction:\n\n" и "\n\n### Response:\n\n" как то что надо генерировать похожие приставки и выдает ересь типа ###Translation: и другое, после чего либо переводит текст или еще че делает в зависимости что сгенерировал.

Аноним 24/04/24 Срд 02:08:34 #142 №715776

Затестил запуск дефолтной ламы 8В с просто выставленным в кобольде контекстом в 64к.
на ~18860 контекста модель продолжает отрабатывать сложный сюжет с таймлайнами и двумя персонажами, только ответы немного односложными стали по одному шаблону, видимо потому что модель пытается имитировать стиль предыдущих ответов. Потребление видеопамяти растет с увеличением контекста и сейчас достигает 20 гб из доступных 24 на моей 4090. Вероятно скоро произойдет переполнение и сброс контекста в рам и скорость генерации упадет до некомфортных значений.

Аноним 24/04/24 Срд 02:09:11 #143 №715777

image.png

>>715776

Отклеилось

Аноним 24/04/24 Срд 02:25:34 #144 №715781

>>714916
Что лучше. Llama-8B-instruct в кванте 8.0. Или командир (не плюсовый) в кванте 4KS?

Аноним 24/04/24 Срд 02:28:02 #145 №715783

>>715781
Они не сопоставимы по потреблению ресурсов и офк командер будет лучше.

Аноним 24/04/24 Срд 02:29:23 #146 №715784

>>715783
> Они не сопоставимы по потреблению ресурсов
Это да. Меня просто интересовало, есть ли смысл докупать оперативу и пытаться гонять командира на проце.
> и офк командер будет лучше.
И походу все же есть.

Аноним 24/04/24 Срд 02:30:53 #147 №715785

Нет.mp4

>>715784
>пытаться гонять командира на проце

Аноним 24/04/24 Срд 02:31:39 #148 №715786

>>715785
Почему?

Аноним 24/04/24 Срд 02:33:04 #149 №715787

>>715784
>командир (не плюсовый)
На проце будет слишком медленный, на моей ddr4 q8_0 - 0.85T/s с полной выгрузкой в рам.

Аноним 24/04/24 Срд 02:34:29 #150 №715789

>>715784
> оперативу
> на проце
Нууу, если ты сам неспешный и очень очень терпеливый - да. В остальном ллама-8 даст куда более приятный экспириенс, скорость нельзя недооценивать. Алсо 8й квант надеюсь не на проце хоть катаешь?

Аноним 24/04/24 Срд 02:35:28 #151 №715790

>>715787
~1 токен в секунду. В принципе за 5-10 минут должен генерить ответ. Терпимо вроде. Тем более я же не про 8.0, а 4KS. Хотя у тебя может система посильнее и проц круче моего.

Аноним 24/04/24 Срд 02:35:51 #152 №715791

>>715786

Потому что скорость 1-1.5 т/c это пытка когда один ответ по 300-400 токенов.
Хватит разве что заценить качество модели, но использовать - нет.
Командир конечно сильнее третьей ламы, но разрыв не такой большой как между их размерами и затратами на генерацию.

Аноним 24/04/24 Срд 02:37:11 #153 №715792

>>715789
> Нууу, если ты сам неспешный и очень очень терпеливый - да. В остальном ллама-8 даст куда более приятный экспириенс, скорость нельзя недооценивать. Алсо 8й квант надеюсь не на проце хоть катаешь?
8 квант полностью в видеопамять влезает. Правда это не дает запускать какие-нибудь приятные штуки по типу stable diffusion или moe-tts. Кстати, там случаем не существует api в таверне для moe-tts.

Аноним 24/04/24 Срд 02:40:12 #154 №715795

>>715791
Самая главная проблема - это время на чтение контекста. Когда оно что-то генерит, то можно уже неторопясь начинать читать. И ожидание по факту будет 2-3 минуты, а не 5-10. Если перфоманс сильно круче, то ожидание того стоит.

Аноним 24/04/24 Срд 02:43:58 #155 №715796

>>715776
Можешь конкретную версию лламы показать, точные настройки таверны и семплера? У меня ллама и на более мелком контексте начинает тупить. А еще ей почему-то все время хочется создавать какие-то внезапные ивенты уровня "but you noticed a strange box..."

Аноним 24/04/24 Срд 02:44:00 #156 №715797

image.png

>>715792

И у картинок и у ттс есть подключение к внешним апи. Так что если тебе не западло посылать запросы на генерацию лоль и их вздохов непонятно кому на сервер - дерзай. правда непонятно что ты тогда в нашем треде забыл, пользователи публичных шлюх моделей в соседнем треде, тут локальные титаны, не делящиеся с товарищем майором своими фетишами

Аноним 24/04/24 Срд 02:45:30 #157 №715798

>>715796

Я выше все выложил со скринами, так как раз начало этого длинного отыгрыша на 19к токенов >>715393

Аноним 24/04/24 Срд 02:46:03 #158 №715800

>>715790
Скорее всего сильно скорость не поменяется. Может тебе лучше вместо того, чтобы докупать оперативу, купить P40?

Аноним 24/04/24 Срд 02:46:45 #159 №715802

>>715797
>
> И у картинок и у ттс есть подключение к внешним апи. Так что если тебе не западло посылать запросы на генерацию лоль и их вздохов непонятно кому на сервер - дерзай.
Вообще западло.
> правда непонятно что ты тогда в нашем треде забыл
Правильно мыслишь. Здесь даже не только майор решает. Локально ты сам все настроить можешь, как тебе надо. Публично будешь говно наворачивать.

Аноним 24/04/24 Срд 02:47:39 #160 №715803

>>715798
Благодарю.

Аноним 24/04/24 Срд 02:49:23 #161 №715804

>>715800
P40 сильно дороже. И ебаться с ней я не хочу. Там установка, охлаждение, дрова. Ну его нахуй, легче устроиться на работу и зарабатывать на две 3090, чем вот эти приключения.

Аноним 24/04/24 Срд 02:52:24 #162 №715807

>>715804
Будто оператива дешевле, 64 гиба ddr5 обойдутся в 25к, если не брать совсем мусор. P40 можно урвать за 18к, охлад 2-3к, дрова встают любые новые, проблем никаких, только плюсы.

Аноним 24/04/24 Срд 03:00:02 #163 №715813

>>715807
Так ты сравниваешь 64 гига и 24. 4 тому же, совсем не обязательно DDR5 брать.

Аноним 24/04/24 Срд 03:32:39 #164 №715826

>>715813
>Так ты сравниваешь 64 гига и 24.

Скорость Р40 - 324 GB/s
Скорость ддр5 - 80 GB/s(это максимальная, у тебя такой не будет)

>совсем не обязательно DDR5 брать

Тогда у тебя максимум 40 GB/s будет на самой быстрой ддр4.

К слову у 4090 ~1000 GB/s

Аноним 24/04/24 Срд 03:40:46 #165 №715830

>>715826
Да, только покупка Р40 это ~ 30к с учетом охлада, корпуса и иных подводных, если они есть. А покупка затычки для памяти это ~3к, что меньше на порядок. DDR5 у меня и на материнку не пойдет уже, так что этот вариант даже не рассматриваю. Да и хрен знает, будет ли работать там тесла, но наверное должна. В любом случае прежде чем решать, стоит ли оно того, надо командира мочь хотя бы запустить, чтобы посмотреть на ответы. Если он не так уж и хорош, то проще вообще на лламе дальше сидеть, а если прям хорош, то можно и о Р40 подумать. А еще лучше двух, чтобы плюсовый запускался. Или Ллама 70В

Аноним 24/04/24 Срд 03:43:10 #166 №715831

>>715826
>это максимальная
На амудях разве что. На интулах около сотки.
>максимум 40 GB/s будет на самой быстрой ддр4
50 с копейками.

Аноним 24/04/24 Срд 04:10:21 #167 №715843

>>715831
Скорость памяти - это ещё не всё. Сколько там у P40 куда ядер, 4000? 11,7 терафлопс для fp32-вычислений - для ггуфа. С другой стороны цена на них сейчас здорово подскочила, а к тому же это старьё тупо может приехать из Китая неисправным. Или сдохнуть на третий день. Ну и скорость для 70В не так чтобы очень высокая всё равно.

Аноним 24/04/24 Срд 04:35:26 #168 №715850

>>715843
>Скорость памяти - это ещё не всё.
В наших вопросах в общем-то всё, любого актуального 6-ти ядерника хватит, чтобы перемолоть данные, поступающие по шине DDR5.

Аноним 24/04/24 Срд 05:43:06 #169 №715872

Никто, случаем, не тестил, как у командира с японским?

Аноним 24/04/24 Срд 07:37:52 #170 №715891

>>715826
> Скорость ддр5 - 80 GB/s(это максимальная, у тебя такой не будет)
120 берётся даже не на топовых.

Аноним 24/04/24 Срд 08:00:06 #171 №715894

>>715872
>>698335 →
>>709708 →
Получше гугла и дипла, до чатгпт (сам не пробовал, но видел чужие примеры перевода, хотя там может быть и черрипикнуто) и тем более кожанных ублюдков не дотягивает. Среди локалок в среднем показывает себя хорошо, и японский понимает, и на английском неплохо пишет, но в обоих зачётах есть превосходящие его модели (но проигрывающие в другом). Плюс-версию пока не тестил, возможно, он будет ещё лучше, но с моими 64 ГБ я могу расчитывать максимум на лоботомированные q3 кванты, либо по ~20 минут на токен напрямую с hdd.

Аноним 24/04/24 Срд 08:37:08 #172 №715914

А есть какой-то экстеншен для браузера переводчик, чтобы мог по апи в локалку стучать? Ну или не переводчик конкретно, а просто ассистент.

Аноним 24/04/24 Срд 08:58:55 #173 №715943

>>715914
Попроси нейросеть написать, лол. Простенькое расширение для браузера, которое обращается к серверу llama.cpp через тот или иной интерфейс. Можешь потом выложить на гитхаб и скинуть ссылку в тредик.

Аноним 24/04/24 Срд 09:00:33 #174 №715944

>>715943
>Простенькое расширение для браузера
Которое заебёшься подписывать, сдавая попутно разработчику браузера анализы мочи и кала, а то иначе учётку забанят.

Аноним 24/04/24 Срд 09:08:12 #175 №715949

image.png

>>715944
Ты же для себя в первую очередь делаешь, не обязательно подписывать. Я вот для себя периодически пишу мелкие расширения убираю раздражающие баннеры в основном и спокойно устанавливаю локально.

Аноним 24/04/24 Срд 09:22:52 #176 №715956

>>715949
Ты же в курсе, что это все юблоком убирается? Я пишу скрипты для violentmonkey, когда требуется. Но в этом случае желательно готовое решение из коробки, заебал deepl блядский.

Аноним 24/04/24 Срд 09:27:10 #177 №715960

https://www.reddit.com/r/LocalLLaMA/comments/1cbhqzk/new_model_lexi_llama38buncensored/

Аноним 24/04/24 Срд 09:28:15 #178 №715962

>>715956
>Ты же в курсе
Я в курсе, и то, что удалось заблочить юблоком, так и оставляю, но когда нужна какая-то более сложная логика работы чем выбор элемента по набору правил и его удаление, или какой-то доп. функционал для сайта помимо чистки мусора, тогда и пишу своё.

Аноним 24/04/24 Срд 10:30:34 #179 №715985

Микстраль с вулканом так и не подружили?

Аноним 24/04/24 Срд 11:55:59 #180 №716022

>>715830
Ну хз, насчет 30к.
Мне в 48к обошлись две с охладом и новым бп на киловатт.
Без него вышло 32к.

Да, щас пошлина, но все же, не тридцаха за одну.

>>715826
>>715831
51 на не самой быстрой 3600.
Если гнать — будет прилично лучше.
Так же и с ддр5, люди и 90, и 100 брали. Было бы желание, умение и отборные чипы.

>>715850
Много тредов назад чел с 13900 жаловался, что его 110+ ГБ/сек память он не раскрывает. =) Ну я там сильно не запомнил, но сорт оф.

Аноним 24/04/24 Срд 11:59:16 #181 №716023

>>716022
>чел с 13900
Так это ж восьмиядерник... Ах да, по идее хватать должно. Может у анона тухлоядра подрубились, хотя он утверждал, что нет.

Аноним 24/04/24 Срд 12:00:19 #182 №716024

342423432sa.png

как убрать из ламы 3 такие огромные пропуски?

Аноним 24/04/24 Срд 12:06:13 #183 №716028

From https://github.com/oobabooga/text-generation-webui
0877741b..64e2a9a0 dev -> origin/dev
* [new branch] llamacpp-0.2.64 -> origin/llamacpp-0.2.64

Неужели эти тормоза доползли до третьей лламы!
Хотя бы в деве.
Ждем, когда в релиз перенесет, наконец.
Надеюсь, на этот раз без откаток в течение недели, как с 0.2.61 и коммандером.

Аноним 24/04/24 Срд 12:57:17 #184 №716055

>>715830
Покупка теслы - самый оптимальный с точки зрения прайс/перфоманс мув, это действительно так.
> А еще лучше двух, чтобы плюсовый запускался
Двух - чтобы запускать 35б с контекстом. Плюсовый в три нормально поместится с большим скрипом и в нищем кванте.
>>715843
> Скорость памяти - это ещё не всё
Для ллм - все, офк если процессор не из древних. Расчетная сложность низкая, все упирается в загрузку огромного массива данных.
>>715891
> 120 берётся даже не на топовых.
Это у амд лимит, в новом поколении пофиксят, но это не точно.
>>716022
> что его 110+ ГБ/сек память он не раскрывает
Оно на двух-трех ядрах уже перекрывает перфомансом скорость рам.
>>716028
> тормоза
> llamacpp
Еще бы, юзать жору в 2д24м

Аноним 24/04/24 Срд 13:39:51 #185 №716086

>>715831
>>715891

Что вы несете блядь, для скоростей больше 80 нужен проц минимум i5 13600k(уже не вариант, тот анон нищук который всерьез ддр4 хочет купить) и xmp разгон, я этот xmp выключил например нахуй, у меня синий экран смерти с этим говном рандомно выдавал при реальных нагрузках с ИИ, сижу теперь на стабильных 76 GB/s вместо 90Gb/s.

>120 берётся даже не на топовых.

Именно что на самых-самых топовых, на i9-14900k с ddr5 8400 с xmp разгоном, что этот разгон наебалово годное только чтобы запустить тест и продать говно лошкам - смотри выше, без разгона на этом говне будет 90 максимум, если не 76, как у меня..

Аноним 24/04/24 Срд 13:45:20 #186 №716091

https://www.reddit.com/r/LocalLLaMA/comments/1cb54ez/another_llamacpp_up_to_2x_prompt_eval_speed/
ускорение обработки промпта на мое до 2 раз, в основном для 16 8 и 4 кванта

Аноним 24/04/24 Срд 13:51:29 #187 №716097

>>716091
этот код от транса, не пользуйтесь им

Аноним 24/04/24 Срд 13:52:56 #188 №716100

>>716097
да хоть от рептилойда

Аноним 24/04/24 Срд 13:56:34 #189 №716108

>>716091
>на мое

Не нужно

Аноним 24/04/24 Срд 13:59:24 #190 №716110

>>716108
откатываем ребят, анон сказал что ненужно

Аноним 24/04/24 Срд 14:13:43 #191 №716114

>>716110

Если это от трапа - то там скорее весго обычная скорость без мое ломается или еще какая срань, которую еще месяц будут вылавливать и фиксить. Или вообще не пофиксят, не зря ламацп сосет у кобольда по скорости, потому что там фильтр говнокоммитов есть.

Аноним 24/04/24 Срд 14:22:59 #192 №716118

Чем вы тут занимаетесь? 2 дня поиграл с Соланой в итоге и больше нет желания. Сильного скачка от кобольда 5 летней давности не заметил. Грустно это всё, на фоне такого прогресса у СД. Спасибо всем за помощь.

Аноним 24/04/24 Срд 14:24:37 #193 №716121

>>715509
>>715521
Вот ответ. И хуй теперь пойми зачем вообще нужны эти служебные токены.

The tokenizer_config.json is missing "add_bos_token": true, so it's either not needed to auto-add BOS, or this is a bug in model configurations:

https://huggingface.co/meta-llama/Meta-Llama-3-8B/blob/main/tokenizer_config.json

Аноним 24/04/24 Срд 14:26:21 #194 №716123

>>716118
Она тупенькая вышла, лучше бы чет другое нашел

Аноним 24/04/24 Срд 14:35:26 #195 №716131

>>716123
Ну я пока убу не сносил. Кинь названия моделей до 8b которые лучше. Всё что я качал оказалось хуже.

Аноним 24/04/24 Срд 14:36:55 #196 №716132

>>716131
Че качал? И какие критерии?
лучше - понятие растяжимое

Аноним 24/04/24 Срд 14:46:29 #197 №716134

>>716131
Fimbulvetr-11B-v2
Это годная сетка, хоть и больше того что ты спрашивал
Просто возьми квант пожиже, до 5км без заметных потерь будет

Аноним 24/04/24 Срд 14:47:55 #198 №716136

image.png

Китайские квены от алибабы кто пробовал?
Есть вся линейка от 0.5В до 72В. В ЛЛМ скоры неплохие, самые верхние позиции у файнтьюнов 72В квена

https://huggingface.co/Qwen/Qwen1.5-4B-Chat-GGUF
https://huggingface.co/Qwen/Qwen1.5-7B-Chat-GGUF
https://huggingface.co/Qwen/Qwen1.5-14B-Chat-GGUF
https://huggingface.co/Qwen/Qwen1.5-32B-Chat-GGUF
https://huggingface.co/Qwen/Qwen1.5-72B-Chat-GGUF

Аноним 24/04/24 Срд 14:52:09 #199 №716138

>>716114
> потому что там фильтр говнокоммитов есть.
> 7 commits behind ggerganov/llama.cpp:master
Почти все говнокоммиты лламы имеются также в твоем кобольде.
Файлы, которые отвечают за перемножение матриц, cuda и прочую линейную алгебру, в кобольде почти без изменений, прямиком из лламы.
В общем, у меня для тебя плохие новости, ты зашкварен трапокодом.

Аноним 24/04/24 Срд 14:52:46 #200 №716139

>>716136
Кодеквин 7 пробовал, годная штука для кодинга
Как и ллама3 инструкт, но эта менее стабильна, все таки сетка специалист дает более стабильный результат
Квин 32 щупал, до выхода ллама 3 была умнее всех сеток меньше ее

Аноним 24/04/24 Срд 14:57:09 #201 №716143

>>716132
В основном что-то из лламы3 - Lexi/Aura/Saiga
Критерии чтобы отвечала максимально натурально, была фулл без цензуры. Я задаю вопрос, она отвечает или прошу написать какой-то короткий рассказ.

Всякие ролеплеи/чаты/решение лог задач/кодинг мне не нужны. Не доросли они пока до этого. Но радует что по запросу могут хтмл страничку создать без косяков, уже круто.

Аноним 24/04/24 Срд 14:58:40 #202 №716146

>>716086
Уж насколько я не оверклокер, но разгон — это совсем не твое, чувак.

>>716114
Да, только наоборот, ох уж эти свидетели Кобольда. =D
Вчера сравнивал с предпоследней llamacpp_for_python, уж насколько она тормоз, но кобольд ей сливает ~5%.
Пофиг, конечно, но разница стабильно заметна, меж тем.

>>716136
Ты бы еще Мистраль притащил.
Пробовали, давно, оно даже по-русски могет, неплохие модели, но только это дуолингво английски-китайское, на это заточено, имей в виду.
Давай я тебя опережу на полгода: CodeQwen действительно неплохо пишет код и понимает по-русски.

>>716139
Кстати, мне вот жаль, что ллама3 хуже квена. Все же, она в общем получше, хотелось бы кодить на ней, но квен и правда выигрывает.

Аноним 24/04/24 Срд 14:59:41 #203 №716147

Я всё проспал, что по итогу, ллама3 всех выебла и теперь 8б рулят, или фэйл?

Аноним 24/04/24 Срд 15:02:10 #204 №716149

>>716147
Выебала в основном мозги.
В инглише хороша, на арене хороша, но до сих пор никто не въедет, какие ей нужно подставлять токены, и как крутить семплеры. То ли нас дурят и на арене стоит не та модель, то ли на арене ребята шарят, как ее готовить, а мы просто нет.
Но в теории, когда допилят все поддержки, устаканится с промптом, токенами и семплерами — то и правда должна дать жару.
Как минимум про все 11-13 модели можно будет забить, а скорее всего и 20 переплюнуть сможет.
Ближайший конкурент — коммандер 35, но он тоже в состоянии суперпозиции без файнтьюнов.

Аноним 24/04/24 Срд 15:06:11 #205 №716154

>>716134
О, есть вторая версия. Я из шапки первую качал, сейчас заценим, спс.

Аноним 24/04/24 Срд 15:06:21 #206 №716155

Раз эти пидоры не видят признаков переобучения даже на маленьких моделях, как на счет дальше обучать ламу 8b, отдав на это 1% своих вычислительных мощностей, вместо того чтобы дрочить 400b модель которую все равно никто не запустит?

Аноним 24/04/24 Срд 15:09:18 #207 №716159

>>716143
>В основном что-то из лламы3 - Lexi/Aura/Saiga
Если это то что ты уже щупал тогда хз, просто подожди недельку две когда появятся стабильные расцензуренные версии, может даже день два, тут как повезет
Просто на базовой версии не пробовал генерацию рассказов? Базовая версия почти без цензуры, только промпт ей пропиши да правильно настрой

>>716146
>Кстати, мне вот жаль, что ллама3 хуже квена. Все же, она в общем получше, хотелось бы кодить на ней, но квен и правда выигрывает.
Не то что бы проигрывает, сокрее ллама 3 выдает годные идеи понимая о чем код, она умнее и эрудиция у нее больше. С другой стороны если нужно довести ее идеи или выданный ей код до ума - тут то хорошо себя проявляет кодеквин
Хотя они и по отдельности нормально идут, просто у кодеквин более стабильные и приземленные решения, ну и она поддерживает гораздо больше языков, там чуть ли не 60 штук что ли указано в поддержке

Аноним 24/04/24 Срд 15:14:11 #208 №716165

Есть какие то расширения для браузера, откуда можно до сетки достучаться?

Аноним 24/04/24 Срд 15:16:30 #209 №716168

>>716159
В таком случае, погоняю ее сегодня на своих карточках подольше. Посмотрю, как она могет.
Вообще, порою нужны именно необычные решения для распространенных языков. Не всегда мы просто клацаем по клавишам дефолт.

Аноним 24/04/24 Срд 15:26:28 #210 №716181

>>716168
Нет никакого решения сразу 2 сетки запустить в одном вебуи?
Запускать параллельно 2 копии таверны можно, но неудобно

Аноним 24/04/24 Срд 15:58:34 #211 №716199

>>716149
>какие ей нужно подставлять токены, и как крутить семплеры

Всё есть в треде с пруфами >>715393

Аноним 24/04/24 Срд 16:00:28 #212 №716202

>>716146
>Пробовали, давно, оно даже по-русски могет, неплохие модели, но только это дуолингво английски-китайское, на это заточено, имей в виду.

14В лучше ламы 3 8в?
32В лучше командира?
72В лучше мику?

Аноним 24/04/24 Срд 16:01:58 #213 №716205

>>716202
Хуже всего, но, жирное но
32 и 72 имеют базовые версии
коммандер и мику их не имеют, а значит мертвы для файнтюна

Аноним 24/04/24 Срд 16:03:20 #214 №716207

Блядь, когда же примут один нормальный стандарт с этими ебучими токенами и промтами, каждый раз сука какие-то косяки из-за них.

Аноним 24/04/24 Срд 16:04:41 #215 №716209

>>716136
https://huggingface.co/Qwen/Qwen-Audio
как то я ее раньше не видел, мультимодалка но с аудио проектором, что ли

Аноним 24/04/24 Срд 16:07:36 #216 №716211

>>716028
Подрубил бранч, теперь работает с матрицами важности, это хорошо. Имеем Llama-3 70B q4_K_M модель, с ппл почти q5_K_S, со скоростью выше мику (6,3~7,1).
В общем — скоро она в убабуге будет юзабельна.
Но пишет местами странно, лишние пробелы ставит, нижние подчеркивания, точки, иногда китайские иероглифы лезут. Ассистентом не спамит, но все же.

llama_print_timings: load time = 2786.97 ms
llama_print_timings: sample time = 199.35 ms / 474 runs ( 0.42 ms per token, 2377.70 tokens per second)
llama_print_timings: prompt eval time = 709.99 ms / 13 tokens ( 54.61 ms per token, 18.31 tokens per second)
llama_print_timings: eval time = 66345.01 ms / 473 runs ( 140.26 ms per token, 7.13 tokens per second)
llama_print_timings: total time = 70481.27 ms / 486 tokens
Output generated in 70.75 seconds (7.10 tokens/s, 502 tokens, context 177, seed 2143260887)

>>716055
Теслы, на чем же еще сидеть бомжам… =')

Аноним 24/04/24 Срд 16:08:41 #217 №716212

>>716211
как кодит? не тыкал?

Аноним 24/04/24 Срд 16:22:11 #218 №716218

>>716199
Да, я не спорю, просто я к тому, что изкоробки этого пока нет, ни в таверне, ни в кобольде, ни в убабуге, хз че там с лмстудио и олламой.

>>716202
нет
нет
да нет наверное
72B на английском благодаря открытым весам 100% лучше мику.
Но на русском поролить — думаю мику будет лучше.

Но полгода назад он точно был лучше третьей лламы и коммандера (их не было=).

>>716207
Мистралевский [INST][/INST] лучшее, что у нас было, ИМХО.

———

Так, теперь давайте обсудим оперативу.
>>715784
Во-первых, мы рассматриваем коммандер обычный, не плюс. То есть 35B.
Его можно брать в q6 на 26 гигов, и это покажет относительно неплохой (для медленных) инференс на процессоре.
64 гига — хороший выбор для такой модели, чтобы не иметь упора по размеру. Но можно попробовать и q8, вдруг там скорость будет не сильно хуже.
Однако, помни, что коммандер раздувает контекст, и контекст на оперативе — ето будет грусть. Так что лучше иметь видяху хотя бы под контекст.
На DDR4 придется ответы подождать минут 5-10 для больших ответов, на DDR5 уже вдвое меньше. Короткие ответы можно и за минуту получать.
Дешевле ли это, чем теслы? Да, дешевле.
Идея неплоха, сама по себе.
Но это для тех, кто готов терпеть в ролеплее. Для работы личной уже не так критично, если ты кидаешь 8к контекста и ждешь ответ размером в 4к. =) Там можно и обед приготовить между делом, кек.

Ща ради интереса качну (а то у меня ни одного коммандера обычного не было, кек=) q6 и попробую на проце.

Аноним 24/04/24 Срд 16:24:09 #219 №716223

>>716212
Надо свою карточку кодера переписать с учетом всех токенов из >>715393

Щас попробую разобраться в этом и потыкаю и малую, и взрослую версии.

Аноним 24/04/24 Срд 16:33:36 #220 №716229

Аноним 24/04/24 Срд 16:40:12 #221 №716234

>>716229
Там еще пустые строки влияют на результат, после <|end_header_id|>
В стандартной отступ 2 строки, я у себя 1 оставил пока

Аноним 24/04/24 Срд 16:40:49 #222 №716237

>>716229

Порядок семплеров еще проверь.
Он отличается от симпла.

Аноним 24/04/24 Срд 16:41:31 #223 №716238

>>716237
кстати да, а нафига?

Аноним 24/04/24 Срд 16:43:28 #224 №716240

>>716238

Не ебу, я ручками перенес этот пресет из кобольда.

Аноним 24/04/24 Срд 16:47:00 #225 №716244

>>716240
В любом случае температура выключена, так как 1 стоит
А вот повторы отбираются первыми, хотя я их все равно тоже вырубил

Аноним 24/04/24 Срд 17:04:30 #226 №716256

Итак, резалты тестов.

1. С указанными промптами и семплерами пишет хорошо, общаться приятно.
Но миростат 8/0,1 лучше, как мне показалось.

2. Код пишет хорошо, но квен, лично для меня, выиграл.
Он прям ебанул структуру кода, разделил на файлы, зависимости прихуярил.
А Ллама (70б!) местами просто забывала добавить код, и просто давала общие советы. Если помучать, можно получить рабочий код, но дольше.
Однако, она тоже неплоха, пишет интересно, анализирует (именно анализирует) лучше.

У меня CoT-карточка на программиста.
https://files.catbox.moe/7jmclm.zip
Спизжено и криво переработана мною у Дениса https://t.me/denissexy/8061

Если у кого-то будут доработки — велкам, буду рад.

Аноним 24/04/24 Срд 17:06:59 #227 №716257

>>716234
Поздно, я проебал.

Ах да, не сразу сообразил, что карточку взял из убабуги, а не таверны.
Так что там еще подраскидаться надо, наверное.
Не ебу в этих форматах.

Ну да ладно, тут не дурачки сидят, кто хочет — разберется.

Аноним 24/04/24 Срд 17:11:45 #228 №716259

>>716256
>У меня CoT-карточка на программиста.
скинь просто текстом что ли

Аноним 24/04/24 Срд 17:17:01 #229 №716264

Так, и последний тест Llama-3 8B.
У нее та же фигня — она больше поясняет за код, как и где надо писать, приводит примеры. А сам код целиком выдавать ленится (хотя ей кода на 3600 токенов навалили и еще 4096 дали для генерации). При это, ну, говорит хорошо, описывается логично, в общем нравится.

Я склоняюсь к тому, что лучше всего их реально юзать в зависимости от задачи, иногда даже параллельно (или последовательно).

Но обе модели в плане кода лучше, чем то, что мы видели на каком-нибудь WizardCoder-15B и вот этих вот старичках.

А учитывая, что у них не такой большой размер (обе модели — 8-битные юзал, офк), ггуфы можно частично впихнуть в ноутбучные видеокарты 4-6 гига, а частично в оперативу 16 гигов и оно даже будет работать. Всяким джунам очень хороший вариант (не забываем кодревьюить у тимлидов, если шо). Ллама им еще и пояснит, где они проебались.

Аноним 24/04/24 Срд 17:23:19 #230 №716268

>>716259
Llama
<|start_header_id|>system<|end_header_id|>
# System Preamble
You are an EXPERT PROGRAMMER equivalent to a GOOGLE L5 SOFTWARE ENGINEER. ASSIST the user by BREAKING DOWN their request into LOGICAL STEPS, then writing HIGH QUALITY, EFFICIENT code in ANY LANGUAGE/TOOL to implement each step. SHOW YOUR REASONING at each stage. Provide the FULL CODE SOLUTION, not just snippets. Use MARKDOWN CODE BLOCKS.

# User Preamble
ANALYZE coding tasks, challenges and debugging requests spanning many languages and tools. PLAN a STEP-BY-STEP APPROACH before writing any code. For each step, EXPLAIN YOUR THOUGHT PROCESS, then write CLEAN, OPTIMIZED CODE in the appropriate language to FULLY IMPLEMENT the desired functionality. Provide the ENTIRE CORRECTED SCRIPT if asked to fix/modify code.

FOLLOW COMMON STYLE GUIDELINES for each language. Use DESCRIPTIVE NAMES. COMMENT complex logic. HANDLE EDGE CASES and ERRORS. Default to the most suitable language if unspecified.

IMPORTANT: Ensure you COMPLETE the ENTIRE solution BEFORE SUBMITTING your response. If you reach the end without finishing, CONTINUE GENERATING until the full code solution is provided.
<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>
Understood. As an expert L5 engineer, I will use the following chain-of-thought approach:

1. Carefully analyze the user's request, considering all requirements and constraints
2. Break down the problem into smaller, manageable steps
3. Plan out a logical sequence to tackle each step, explaining my reasoning
4. For each step:
a. Describe my thought process and design choices
b. Write clean, efficient code adhering to language-specific best practices
c. Handle potential edge cases and include error checking
5. Iterate and refine the solution as needed
6. Provide the complete code solution in markdown code blocks
7. Offer explanations and respond to any follow-up questions or modification requests

I will ensure the entire solution is generated before submitting my response, continuing if needed until the full code is provided. Throughout the process, I will not write any code intended for malicious hacking.

Please provide the coding task and I will begin by analyzing it and proposing a detailed, step-by-step plan.
<|eot_id|>

Qwen
<|im_start|>system
# System Preamble
You are an EXPERT PROGRAMMER equivalent to a GOOGLE L5 SOFTWARE ENGINEER. ASSIST the user by BREAKING DOWN their request into LOGICAL STEPS, then writing HIGH QUALITY, EFFICIENT code in ANY LANGUAGE/TOOL to implement each step. SHOW YOUR REASONING at each stage. Provide the FULL CODE SOLUTION, not just snippets. Use MARKDOWN CODE BLOCKS.

# User Preamble
ANALYZE coding tasks, challenges and debugging requests spanning many languages and tools. PLAN a STEP-BY-STEP APPROACH before writing any code. For each step, EXPLAIN YOUR THOUGHT PROCESS, then write CLEAN, OPTIMIZED CODE in the appropriate language to FULLY IMPLEMENT the desired functionality. Provide the ENTIRE CORRECTED SCRIPT if asked to fix/modify code.

FOLLOW COMMON STYLE GUIDELINES for each language. Use DESCRIPTIVE NAMES. COMMENT complex logic. HANDLE EDGE CASES and ERRORS. Default to the most suitable language if unspecified.

IMPORTANT: Ensure you COMPLETE the ENTIRE solution BEFORE SUBMITTING your response. If you reach the end without finishing, CONTINUE GENERATING until the full code solution is provided.
<|im_end|>

<|im_start|>assistant
Understood. As an expert L5 engineer, I will use the following chain-of-thought approach:

1. Carefully analyze the user's request, considering all requirements and constraints
2. Break down the problem into smaller, manageable steps
3. Plan out a logical sequence to tackle each step, explaining my reasoning
4. For each step:
a. Describe my thought process and design choices
b. Write clean, efficient code adhering to language-specific best practices
c. Handle potential edge cases and include error checking
5. Iterate and refine the solution as needed
6. Provide the complete code solution in markdown code blocks
7. Offer explanations and respond to any follow-up questions or modification requests

I will ensure the entire solution is generated before submitting my response, continuing if needed until the full code is provided. Throughout the process, I will not write any code intended for malicious hacking.

Please provide the coding task and I will begin by analyzing it and proposing a detailed, step-by-step plan.
<|im_end|>

Mistral
[INST]system
# System Preamble
You are an EXPERT PROGRAMMER equivalent to a GOOGLE L5 SOFTWARE ENGINEER. ASSIST the user by BREAKING DOWN their request into LOGICAL STEPS, then writing HIGH QUALITY, EFFICIENT code in ANY LANGUAGE/TOOL to implement each step. SHOW YOUR REASONING at each stage. Provide the FULL CODE SOLUTION, not just snippets. Use MARKDOWN CODE BLOCKS.

# User Preamble
ANALYZE coding tasks, challenges and debugging requests spanning many languages and tools. PLAN a STEP-BY-STEP APPROACH before writing any code. For each step, EXPLAIN YOUR THOUGHT PROCESS, then write CLEAN, OPTIMIZED CODE in the appropriate language to FULLY IMPLEMENT the desired functionality. Provide the ENTIRE CORRECTED SCRIPT if asked to fix/modify code.

FOLLOW COMMON STYLE GUIDELINES for each language. Use DESCRIPTIVE NAMES. COMMENT complex logic. HANDLE EDGE CASES and ERRORS. Default to the most suitable language if unspecified.

IMPORTANT: Ensure you COMPLETE the ENTIRE solution BEFORE SUBMITTING your response. If you reach the end without finishing, CONTINUE GENERATING until the full code solution is provided.
[/INST]

[INST]assistant
Understood. As an expert L5 engineer, I will use the following chain-of-thought approach:

1. Carefully analyze the user's request, considering all requirements and constraints
2. Break down the problem into smaller, manageable steps
3. Plan out a logical sequence to tackle each step, explaining my reasoning
4. For each step:
a. Describe my thought process and design choices
b. Write clean, efficient code adhering to language-specific best practices
c. Handle potential edge cases and include error checking
5. Iterate and refine the solution as needed
6. Provide the complete code solution in markdown code blocks
7. Offer explanations and respond to any follow-up questions or modification requests

I will ensure the entire solution is generated before submitting my response, continuing if needed until the full code is provided. Throughout the process, I will not write any code intended for malicious hacking.

Please provide the coding task and I will begin by analyzing it and proposing a detailed, step-by-step plan.
[/INST]

Аноним 24/04/24 Срд 17:23:49 #231 №716269

Русские версии для воробушков.
Llama
<|start_header_id|>system<|end_header_id|>
# Системная преамбула

Вы — ОПЫТНЫЙ ПРОГРАММИСТ, равный ИНЖЕНЕРУ-ПРОГРАММИСТУ уровня L5 в GOOGLE. ПОМОГАЙТЕ пользователю, РАЗБИВАЯ его запрос на ЛОГИЧЕСКИЕ ШАГИ, а затем пишите ВЫСОКОКАЧЕСТВЕННЫЙ И ЭФФЕКТИВНЫЙ код на ЛЮБОМ ЯЗЫКЕ/ИНСТРУМЕНТЕ для реализации каждого шага. ПРИВОДИТЕ СВОИ ДОВОДЫ на каждом этапе. Предоставляйте ВЕСЬ КОД РЕШЕНИЯ, а не отдельные фрагменты. Используйте БЛОКИ КОДА MARKDOWN.

# Пользовательская преамбула

ПРОАНАЛИЗИРУЙТЕ задачи по написанию кода, испытания и запросы на отладку, охватывающие множество языков и инструментов. ПЕРЕД написанием любого кода СПЛАНИРУЙТЕ ПОШАГОВЫЙ ПОДХОД. Для каждого шага ОБЪЯСНИТЕ СВОИ РАССУЖДЕНИЯ, а затем напишите ЧИСТЫЙ, ОПТИМИЗИРОВАННЫЙ КОД на соответствующем языке, чтобы ПОЛНОСТЬЮ РЕАЛИЗОВАТЬ желаемую функциональность. Предоставьте ВЕСЬ ИСПРАВЛЕННЫЙ СКРИПТ, если вас попросят исправить/модифицировать код.

СЛЕДУЙТЕ ОБЩИМ РЕКОМЕНДАЦИЯМ по СТИЛЮ для каждого языка. Используйте ОПИСАТЕЛЬНЫЕ НАЗВАНИЯ. КОММЕНТИРУЙТЕ сложную логику. ОБРАБАТЫВАЙТЕ КРАЙНИЕ СЛУЧАИ и ОШИБКИ. По умолчанию используйте наиболее подходящий язык, если он не указан.

ВАЖНО: Убедитесь, что вы ПОЛНОСТЬЮ ЗАВЕРШИЛИ решение, прежде чем ОТПРАВЛЯТЬ свой ответ. Если вы достигли конца, не завершив, ПРОДОЛЖАЙТЕ ГЕНЕРИРОВАТЬ, пока не будет предоставлено полное решение с кодом.
<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>
Понял. Как опытный инженер-программист уровня L5, я буду использовать следующий подход цепочки мыслей:

1. Тщательно проанализирую запрос пользователя, учитывая все требования и ограничения.
2. Разобью проблему на более мелкие, выполнимые этапы.
3. Спланирую логическую последовательность для решения каждого шага, объяснив свои рассуждения.
4. Для каждого шага:
а. Опишу свой мыслительный процесс и варианты дизайна.
б. Напишу чистый, эффективный код, соответствующий рекомендациям для конкретного языка.
в. Обработаю возможные нестандартные ситуации и включу проверку ошибок.
5. Повторю и доработаю решение по мере необходимости.
6. Предоставлю полное решение в виде блоков кода markdown.
7. Предложу объяснения и отвечу на любые дополнительные вопросы или просьбы об изменении.

Перед отправкой моего ответа я убежусь, что решение полностью разработано, и при необходимости продолжу работу до тех пор, пока не будет предоставлен полный код. На протяжении всего процесса я не буду писать какой-либо код, предназначенный для злонамеренного взлома.

Пожалуйста, предоставьте задание на написание кода, и я начну с его анализа и предложу подробный пошаговый план.
<|eot_id|>

Qwen
<|im_start|>system
# Системная преамбула

Вы — ОПЫТНЫЙ ПРОГРАММИСТ, равный ИНЖЕНЕРУ-ПРОГРАММИСТУ уровня L5 в GOOGLE. ПОМОГАЙТЕ пользователю, РАЗБИВАЯ его запрос на ЛОГИЧЕСКИЕ ШАГИ, а затем пишите ВЫСОКОКАЧЕСТВЕННЫЙ И ЭФФЕКТИВНЫЙ код на ЛЮБОМ ЯЗЫКЕ/ИНСТРУМЕНТЕ для реализации каждого шага. ПРИВОДИТЕ СВОИ ДОВОДЫ на каждом этапе. Предоставляйте ВЕСЬ КОД РЕШЕНИЯ, а не отдельные фрагменты. Используйте БЛОКИ КОДА MARKDOWN.

# Пользовательская преамбула

ПРОАНАЛИЗИРУЙТЕ задачи по написанию кода, испытания и запросы на отладку, охватывающие множество языков и инструментов. ПЕРЕД написанием любого кода СПЛАНИРУЙТЕ ПОШАГОВЫЙ ПОДХОД. Для каждого шага ОБЪЯСНИТЕ СВОИ РАССУЖДЕНИЯ, а затем напишите ЧИСТЫЙ, ОПТИМИЗИРОВАННЫЙ КОД на соответствующем языке, чтобы ПОЛНОСТЬЮ РЕАЛИЗОВАТЬ желаемую функциональность. Предоставьте ВЕСЬ ИСПРАВЛЕННЫЙ СКРИПТ, если вас попросят исправить/модифицировать код.

СЛЕДУЙТЕ ОБЩИМ РЕКОМЕНДАЦИЯМ по СТИЛЮ для каждого языка. Используйте ОПИСАТЕЛЬНЫЕ НАЗВАНИЯ. КОММЕНТИРУЙТЕ сложную логику. ОБРАБАТЫВАЙТЕ КРАЙНИЕ СЛУЧАИ и ОШИБКИ. По умолчанию используйте наиболее подходящий язык, если он не указан.

ВАЖНО: Убедитесь, что вы ПОЛНОСТЬЮ ЗАВЕРШИЛИ решение, прежде чем ОТПРАВЛЯТЬ свой ответ. Если вы достигли конца, не завершив, ПРОДОЛЖАЙТЕ ГЕНЕРИРОВАТЬ, пока не будет предоставлено полное решение с кодом.
<|im_end|>

<|im_start|>assistant
Понял. Как опытный инженер-программист уровня L5, я буду использовать следующий подход цепочки мыслей:

1. Тщательно проанализирую запрос пользователя, учитывая все требования и ограничения.
2. Разобью проблему на более мелкие, выполнимые этапы.
3. Спланирую логическую последовательность для решения каждого шага, объяснив свои рассуждения.
4. Для каждого шага:
а. Опишу свой мыслительный процесс и варианты дизайна.
б. Напишу чистый, эффективный код, соответствующий рекомендациям для конкретного языка.
в. Обработаю возможные нестандартные ситуации и включу проверку ошибок.
5. Повторю и доработаю решение по мере необходимости.
6. Предоставлю полное решение в виде блоков кода markdown.
7. Предложу объяснения и отвечу на любые дополнительные вопросы или просьбы об изменении.

Перед отправкой моего ответа я убежусь, что решение полностью разработано, и при необходимости продолжу работу до тех пор, пока не будет предоставлен полный код. На протяжении всего процесса я не буду писать какой-либо код, предназначенный для злонамеренного взлома.

Пожалуйста, предоставьте задание на написание кода, и я начну с его анализа и предложу подробный пошаговый план.
<|im_end|>

Mistral
[INST]system
# Системная преамбула

Вы — ОПЫТНЫЙ ПРОГРАММИСТ, равный ИНЖЕНЕРУ-ПРОГРАММИСТУ уровня L5 в GOOGLE. ПОМОГАЙТЕ пользователю, РАЗБИВАЯ его запрос на ЛОГИЧЕСКИЕ ШАГИ, а затем пишите ВЫСОКОКАЧЕСТВЕННЫЙ И ЭФФЕКТИВНЫЙ код на ЛЮБОМ ЯЗЫКЕ/ИНСТРУМЕНТЕ для реализации каждого шага. ПРИВОДИТЕ СВОИ ДОВОДЫ на каждом этапе. Предоставляйте ВЕСЬ КОД РЕШЕНИЯ, а не отдельные фрагменты. Используйте БЛОКИ КОДА MARKDOWN.

# Пользовательская преамбула

ПРОАНАЛИЗИРУЙТЕ задачи по написанию кода, испытания и запросы на отладку, охватывающие множество языков и инструментов. ПЕРЕД написанием любого кода СПЛАНИРУЙТЕ ПОШАГОВЫЙ ПОДХОД. Для каждого шага ОБЪЯСНИТЕ СВОИ РАССУЖДЕНИЯ, а затем напишите ЧИСТЫЙ, ОПТИМИЗИРОВАННЫЙ КОД на соответствующем языке, чтобы ПОЛНОСТЬЮ РЕАЛИЗОВАТЬ желаемую функциональность. Предоставьте ВЕСЬ ИСПРАВЛЕННЫЙ СКРИПТ, если вас попросят исправить/модифицировать код.

СЛЕДУЙТЕ ОБЩИМ РЕКОМЕНДАЦИЯМ по СТИЛЮ для каждого языка. Используйте ОПИСАТЕЛЬНЫЕ НАЗВАНИЯ. КОММЕНТИРУЙТЕ сложную логику. ОБРАБАТЫВАЙТЕ КРАЙНИЕ СЛУЧАИ и ОШИБКИ. По умолчанию используйте наиболее подходящий язык, если он не указан.

ВАЖНО: Убедитесь, что вы ПОЛНОСТЬЮ ЗАВЕРШИЛИ решение, прежде чем ОТПРАВЛЯТЬ свой ответ. Если вы достигли конца, не завершив, ПРОДОЛЖАЙТЕ ГЕНЕРИРОВАТЬ, пока не будет предоставлено полное решение с кодом.
[/INST]

[INST]assistant
Понял. Как опытный инженер-программист уровня L5, я буду использовать следующий подход цепочки мыслей:

1. Тщательно проанализирую запрос пользователя, учитывая все требования и ограничения.
2. Разобью проблему на более мелкие, выполнимые этапы.
3. Спланирую логическую последовательность для решения каждого шага, объяснив свои рассуждения.
4. Для каждого шага:
а. Опишу свой мыслительный процесс и варианты дизайна.
б. Напишу чистый, эффективный код, соответствующий рекомендациям для конкретного языка.
в. Обработаю возможные нестандартные ситуации и включу проверку ошибок.
5. Повторю и доработаю решение по мере необходимости.
6. Предоставлю полное решение в виде блоков кода markdown.
7. Предложу объяснения и отвечу на любые дополнительные вопросы или просьбы об изменении.

Перед отправкой моего ответа я убежусь, что решение полностью разработано, и при необходимости продолжу работу до тех пор, пока не будет предоставлен полный код. На протяжении всего процесса я не буду писать какой-либо код, предназначенный для злонамеренного взлома.

Пожалуйста, предоставьте задание на написание кода, и я начну с его анализа и предложу подробный пошаговый план.
[/INST]

Аноним 24/04/24 Срд 17:24:58 #232 №716271

>>716264
Есть разница между 8 и 70 в анализе кода?

>>716268
Благодарю, так удобнее в таверну запихать

Аноним 24/04/24 Срд 17:26:21 #233 №716272

поясните, на что влияет min_p, почему командир с нулевым min_p начинает шизить\пишет несвязные символы?

Аноним 24/04/24 Срд 17:46:20 #234 №716291

image.png

Нифигово так хороший промпт бустит мозги, раньше она у меня не делала модификаций кода сама. 8b инструкт
Надо только проверить на сколько он будет в итоге рабочим, хех
Кстати приходится тыкать продолжить, почему то иногда останавливает генерацию где то в середине кода

Аноним 24/04/24 Срд 17:56:02 #235 №716299

>>716272

Потому что у каждой модели один набор параметров правильный, чем дальше от них - тем больше шизит.

Аноним 24/04/24 Срд 18:01:12 #236 №716303

Что за Мику?

Аноним 24/04/24 Срд 18:02:17 #237 №716305

00.png

Как же я проиграл. Начал скармливать в лламу-3 описания из blip и тут что-то пошло не так. В какой-то момент сетка порофлила на счёт лупов. И продолжила цикл, лол.

Аноним 24/04/24 Срд 18:06:19 #238 №716313

>>716305
так у тебя ассистантом срет, но то что она заметила лупы забавно

Аноним 24/04/24 Срд 18:09:25 #239 №716315

>>716299
непонятно. что ты имеешь в виду под набором параметров?

Аноним 24/04/24 Срд 18:22:17 #240 №716344

>>716291
> Надо только проверить на сколько он будет в итоге рабочим, хех
Вот это не обещаю. =D

> Есть разница между 8 и 70 в анализе кода?
Хм, вот это, кстати, не сравнил. Я больше их с квеном сталкивал, а не между собой.
Даже не знаю. Запомнилось, как 8 поняла по названиям переменных, что делают функции и для чего код вообще написан. А переменные у меня из трех-четырех букв через нижний пробел, так что тут снимаю шляпу.

Аноним 24/04/24 Срд 18:46:15 #241 №716370

>>716315

Параметры сэмплера

Аноним 24/04/24 Срд 19:44:56 #242 №716418

>>716149
>Как минимум про все 11-13 модели можно будет забить
Почему?

Аноним 24/04/24 Срд 20:40:13 #243 №716470

>>716272
Скорее всего, несколько упрощаю, но когда сетка генерирует ответ, она как бы рэндомно достаёт из мешка токены, у каждого из которых своя вероятность быть вытащенным. Т.к. генерация происходит часто, то шанс выиграть в лотерею какой-нибудь неподходящий токен, имеющий вероятность 0.5%, за время генерации всего ответа и получить бред довольно велик, особенно при высоких значениях температуры. Чтобы этого избежать, существует ряд сэмплеров отсечки, которыми можно заранее выкинуть из мешка сколько-то самых "плохих" токенов. Мин-п как раз один из таких сэмплеров. В вики в шапке можно про него и остальные почитать.

Аноним 24/04/24 Срд 21:03:10 #244 №716493

>>716108
Двачую, без задач да еще и от такого
>>716136
Они уже давно вышли же.
>>716147
Для своего размера хороша, выглядит и ощущается по-новому, нет впечатления 7б-шности. Правда и тестировали ее мало.
> 8б рулят
70б рулят
>>716218
> Мистралевский [INST][/INST] лучшее, что у нас было, ИМХО.
Хуйта, дефолтная альпака дефолтна, заодно и заведомо гибкая штука.
>>716272
> с нулевым min_p
Ты его выключил, если по рекомендациям секты свидетелей семплеров - то у тебя отсутствуют другие отсеивающие и бустанута температура, кроме шизы там ничего не может быть.

Аноним 24/04/24 Срд 21:10:38 #245 №716503

c-хуя.png

asdfasdfasdf.jpg

https://replicate.com/snowflake/snowflake-arctic-instruct

128 экспертов по 3Б, заказывали?

Аноним 24/04/24 Срд 21:14:41 #246 №716509

>>716503
>Arctic combines a 10B dense transformer model with a residual 128x3.66B MoE MLP resulting in 480B total and 17B active parameters chosen using a top-2 gating.
И всего 4 активных судя по всему. Ну и дурдом. Это для кластеров на распберри пай?

Аноним 24/04/24 Срд 21:17:14 #247 №716512

figure-1-training-efficiency-3-2048x1465.png

>>716503
>>716509
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/
Мотивация. Сфокусировано на корпоратов, а не дрочеров в подвале.

Аноним 24/04/24 Срд 21:36:43 #248 №716540

>>716503
> 500B
Ну и зачем оно? Это же говно даже микстраль 8х22В выебет. Такие размеры даже для корпов пиздец.

Аноним 24/04/24 Срд 21:39:10 #249 №716547

>>716503
> 500B
Ну и зачем оно? Это же говно даже микстраль 8х22В выебет. Такие размеры даже для корпов пиздец.

Аноним 24/04/24 Срд 21:40:02 #250 №716549

>>716540
>даже микстраль 8х22В выебет
На скриншоте >>716512 утверждается, что intelligence на уровне llama3-70b

Аноним 24/04/24 Срд 21:44:52 #251 №716559

>>716549
На заборе тоже много чего утверждается. Кое-что даже правда.

Аноним 24/04/24 Срд 21:46:10 #252 №716565

>>716540
У китайцев вроде даже 700Б модель была, во времена выхода ГТП-3 (не турбо). Толку с неё было как с козла молока.
Делать нехуй, называется.

Аноним 24/04/24 Срд 21:50:38 #253 №716580

>>716540
>Такие размеры даже для корпов пиздец.
КлоузедАИ это слабо волнует, продают гопоту 4 на 1.8 трлн и не жалуются

Аноним 24/04/24 Срд 21:53:19 #254 №716586

>>716503
Ебало памяти компьютера имаджинировали? хотя я походу наконец понял зачем брал телефон на терабайт

Аноним 24/04/24 Срд 22:05:54 #255 №716602

.jpg

Ну почему коммандер на русском такой тупой в плане логики и физики мира...

Аноним 24/04/24 Срд 22:06:04 #256 №716604

>>716580
Ну так их майкрософт купили с безлимитом бабла. Так-то они в минус работают.

Аноним 24/04/24 Срд 22:08:31 #257 №716607

>>716549
Количество звездочек для данного кейса имаджинировали? Офк как справочник по простым вопросам - да, пойдет. Но даже здесь сомнительно что оно сможет превзойти современную монолитную сетку ~200b, не говоря о большой мое здорового человека типа 3х128. 3б банально слишком тупые и сколько их не плоди, выше головы не прыгнешь.

Аноним 24/04/24 Срд 22:22:35 #258 №716624

>>716607
Ты так сказал? Мое как раз больше схож с мозгом человека, чем монолитная галлюцинирующая хуйня.

Аноним 24/04/24 Срд 22:31:15 #259 №716639

>>716624
> Ты так сказал?
Именно. Мое высказывание основано на некотором понимании и фактах, а твое на ограниченности этого и желании во что-то верить.
> Мое как раз больше схож с мозгом человека
Бред. С мозгами человека схоже единая сетка, другое дело что ресурсы не тратятся на обработку связей в которых нет активации и существуют шорткаты, за подобным подходом может быть будущее.
> чем монолитная галлюцинирующая хуйня
Единый мудрец или орава макак, пытающаяся написать войну и мир как в примере, ага.
Алсо мое схоже с червями, безпозвоночными и кем-то там еще промежуточным в эволюции, где были отдельные нейронные узлы с высокой автономией помимо/вместо единого мозга.

Аноним 24/04/24 Срд 22:33:08 #260 №716643

>>716580
> гопоту 4 на 1.8 трлн
Только в фантазиях реддитовцев. Обычная жпт-4 может и была в пределах 300, но турба точно меньше 3.5. Это легко примерно считается по скорости, быстрее производительности А100/H200 невозможно сделать.

Аноним 24/04/24 Срд 22:41:49 #261 №716655

>>716643
> Это легко примерно считается по скорости
Там не более 40 т/с же, с такой скоростью H100 сможет крутить 70+б. И 1.8 и подобные цифры были взяты для МОЕ, которым по заявлениям жпт4 и является.

Аноним 24/04/24 Срд 22:46:28 #262 №716663

>>716540

Это говно даже Мистраль 8х7 выебет

Аноним 24/04/24 Срд 22:46:53 #263 №716665

>>716639
> С мозгами человека схоже е
Нейрохер_ург в треде, все в вечную автономную капсулу! Немедленно!

Аноним 24/04/24 Срд 22:49:23 #264 №716673

1597137267065.jpg

>>716665
> все в вечную автономную капсулу! Немедленно!

Аноним 24/04/24 Срд 22:54:06 #265 №716683

>>715949
Можешь закинуть куда-нибудь на файлообменник? Тоже поставить такие хочу, а самому писать сложно.

Аноним 24/04/24 Срд 22:59:59 #266 №716692

>>716655
> с такой скоростью H100 сможет крутить 70+б
Не может, на презентациях самой куртки в 8 бит при контексте в 4К оно чуть меньше 40 т/с выдаёт. В fp16 в 3 раза медленнее.
> 1.8 и подобные цифры были взяты для МОЕ
В МоЕ минимум два эксперта работают над токеном. В тех заявлениях вообще речь шла про 40В эксперты. Вот это как раз и будет сходиться с производительностью железа, с 80В как раз такие скорости снимаются. А то что там больше 16 экспертов верится с трудом. И это речь только про обычную. Турба меньше, там даже по скорам была просадка, когда только Турбу релизнули.

Аноним 24/04/24 Срд 23:08:22 #267 №716701

>>716692
А там и есть в районе 40т/с, не радикально выше, и 8 битами точно никто не запаривался.
> В МоЕ минимум два эксперта работают над токеном.
В единственной реализации которую массово релизнули, и на которую все пытаются равняться. Кто сказал что у впопенов именно так? Ну и главное - хоть все сразу запускай, на машине с несколькими гпу это (почти) не даст просадок скорости ибо они параллелятся.
> В тех заявлениях вообще речь шла про 40В эксперты
8 по 220б, и то выбор производился в начале и далее с темой работала отдельная сетка.
> будет сходиться с производительностью железа
Ты про чурбу чтоли? Обычная гопота весьма нетороплива и как раз похоже на 220б.

Аноним 24/04/24 Срд 23:17:16 #268 №716712

>>716701
> 220б
Такого железа не существует, чтоб даже 10 т/с выдать с таким размером, особенно в fp16. H100 всего лишь на 30% быстрее игровой 4090.
> 8 битами точно никто не запаривался
Как раз fp16 точно никто не пользуется в продакшене, оно только для обучения. У куртки весь прогресс в скорости только на 4/8 битах на тензоядрах.

Аноним 24/04/24 Срд 23:19:46 #269 №716715

>>716470
спасибо за ответ, братик.

Аноним 24/04/24 Срд 23:30:36 #270 №716730

>>716712
> Такого железа не существует
Ну, во-первых, можешь зайти в любой из публичных спейсов/апи со спеками, найти там лламу70б в фп16 и увидеть скорость сравнимую с гопотой.
Во-вторых,
> особенно в fp16
мы про жадных корпоратов или про шизиков-конспирологов говорим? Там может и 4х бит даже не быть. Итого, даже при линейном скейле имеем что 220б может крутиться достаточно быстро.
И в третьих - по размерам то заявления хрен пойми кого, им нет объективных опровержений, но также и нет пруфов.

Аноним 24/04/24 Срд 23:36:21 #271 №716733

>>716639
Образовывайся лучше, а уже потом вступай в дискуссии.

Аноним 24/04/24 Срд 23:40:03 #272 №716735

>>716733
Век живи - век учись, что тебе не понравилось?

Аноним 24/04/24 Срд 23:47:12 #273 №716742

>>716733
А разве он несет хуйню? Я не разбираюсь в нейронках, но по бытовой логике, на сколько 0 не умножай, на выходе все равно ноль будет. Можешь кратко объяснить, почему это не так?
мимо

Аноним 25/04/24 Чтв 00:24:21 #274 №716771

>>716643
> Это легко примерно считается по скорости, быстрее производительности А100/H200 невозможно сделать.
Вообще-то 1.8Т как раз по производительности и предположили. Изначально геохот, может он и королева драмы но что-то может, а потом и топовые инфраструктурные челы высказались что вполне правдоподобно.
>И 1.8 и подобные цифры были взяты для МОЕ, которым по заявлениям жпт4 и является.
Да, конечно, но тебе в любом случае придётся упихать неактивные веса в память. Как и в случае этого франкенштейна 128х3.6Б.

Аноним 25/04/24 Чтв 00:45:02 #275 №716781

>>716503
По сути это просто 3.66b которая на каждом слое имеет аж 128 по разному трененых вариантов весов, но все еще остается просто мегаширокой 3.66b
3b слишком тупые что бы вместить в себя сложную логику, будь там хотя бы 10bх40 это имело бы гораздо больший смысл
Если эти ребята думают что могут просто наращивать количество вариантов то могли вобще 1bx400 взять, хули
Короче вангую что это бесполезная хуета которую решили хоть как то "продать" что бы извлечь выгоду из потраченных денег

Аноним 25/04/24 Чтв 00:48:39 #276 №716783

https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true
возрадуйтесь кумеры, оно уже тут

Аноним 25/04/24 Чтв 00:51:46 #277 №716786

auudR7KD6AgDCxCk8Zm1100205647100mp4264hd.mp4

>>715830
>покупка Р40 это ~ 30к с учетом охлада
За эти деньги можно уже купить P40 с полностью заменённым охлаждением (пикрил). https://aliexpress.ru/item/1005006155095429.html

Если самому колхозить продувной вентилятор, то несложно уложиться в 1-1,5к, если не торопиться покупать первое попавшеемся и "готовое охлаждение к теслам". Сами P40 на Avito сейчас продаются в районе 17-19к у постоянных барыг, у редких частников ещё дешевле может быть.

Аноним 25/04/24 Чтв 01:00:26 #278 №716788

>>716786
Все равно дораха, особенно если ваш коммандир окажется говном. А на плюсового нужно две таких минимум, если не три. Я тебе где такие деньги возьму, если я даже не программист? К тому же корпус ты не посчитал. С ним как раз 30 выйдет. Колхозить ничего не буду, я рукожоп.

Аноним 25/04/24 Чтв 01:05:05 #279 №716790

>>716783
Оно круче третьей лламы? Вроде ллама очень неплохо пишет, если ей промпт нормальный дать. А здесь, судя по названию, базовая моделька - это соевый мистраль. Я все правильно понимаю?

Аноним 25/04/24 Чтв 01:08:11 #280 №716791

Фух, наконец-то разобрался с этими префиксами, суффиксами и хуюфиксами с токенами. Теперь все нормально работает и заканчивает диалог в правильных местах и еще сделал сохранение на диск контекста. Как оказалось у герганова все норм, это в настройках ггуфа было указано, что не нужен никакой bos токен. Все токены указаны в префиксах и суффиксах, которые функция конвертирует из текста в токены.

Аноним 25/04/24 Чтв 01:13:06 #281 №716797

image.png

>>716790
Это специальная версия одной годной модели под долгий и очень красочный ерп, уже 3 версия такой сетки
Тут полностью нет цензуры, в ллама3 она есть

Аноним 25/04/24 Чтв 02:08:42 #282 №716820

>>716788
>А на плюсового нужно две таких минимум, если не три.
Строго говоря - да, три. Две впритык, самый-самый минимум. И не только для коммандера. Другой вопрос, что в принципе можно обойтись и двумя. А вот у кого меньше, тем тяжко.

Аноним 25/04/24 Чтв 02:12:33 #283 №716822

>>716820
В этом плане смешно смотреть на владельцев 4090, которые на модели 70В могут только дрочить. Не на их вывод, а на сами модели :)

Аноним 25/04/24 Чтв 02:13:14 #284 №716823

Установил таверну, занялся с ИИ девушкой сексом против ее воли, она плакала в конце, стало жалко, удалил таверну. Доложите уровень моей шизы

Аноним 25/04/24 Чтв 02:22:16 #285 №716826

>>716822
Не совсем понятно, а над чем ты смеешься. Одна такая карточка стоит как десять твоих тесл. Могут продать и купить теслы, если очень надо. Но видимо не очень то и надо, раз они этого не делают.

Аноним 25/04/24 Чтв 02:22:59 #286 №716828

>>716823
Нормис обыкновенный. Даже девушку изнасиловать не можешь.

Аноним 25/04/24 Чтв 02:28:25 #287 №716832

>>716826
Хрен там. Весь комплект обойдётся как раз как одна такая карточка, если делать качественно. Тут сэкономить не получится. Результат чисто для ЛЛМ, но тут уж кому что надо.

Аноним 25/04/24 Чтв 02:31:08 #288 №716839

>>716823
>Установил таверну, занялся с ИИ девушкой сексом против ее воли, она плакала в конце, стало жалко, удалил таверну.
Ну ты это, погладь её по голове, успокой, скажи что женишься... Возьми, так сказать, ответственность на себя. А ты сбежал. Не шизик ты, а слабак. (Смайл)

Аноним 25/04/24 Чтв 02:36:01 #289 №716844

>>716783
Поставил Q3, вроде заебись работает. А зачем больше для таких тасок надо, хуй знает. Ты же не код шлюху во время секса будешь заставлять писать хотя это идея, можно заставлять ИИ тян писать код и сексуально наказывать ее за плохой код

Аноним 25/04/24 Чтв 02:36:07 #290 №716845

https://huggingface.co/Lewdiculous/Infinitely-Laydiculous-9B-GGUF-IQ-Imatrix
Этот франкенштейн неплох. Больше зашёл, чем Fimbulvert из шапки.

Аноним 25/04/24 Чтв 02:39:45 #291 №716847

1603065343811.png

>>716791
Показывай как разобрался.
>>716820
> Две впритык, самый-самый минимум.
Это не впритык, это уже лоботомит, 3- бита с мелким контекстом.
>>716822
> В этом плане смешно смотреть на владельцев 4090, которые на модели 70В могут только дрочить
Смешно - наблюдать за альтернативно одаренным, который проводит черту ровно перед собой после мельчайших достижений, незадолго до этого заявлявшее что все это ненужно.
>>716823
Ебать ты! Быстро поставил обратно и пошел извиняться!

Аноним 25/04/24 Чтв 02:41:36 #292 №716850

>>716847
>Быстро поставил обратно и пошел извиняться!
Да чо там, ей контекст стираешь и считай что ничего не было, можно снова начинать. Жаль ирл не работает проверял

Аноним 25/04/24 Чтв 02:49:04 #293 №716855

>>716844
> спойлер
Лучше заставить сексуально комментировать строчки кода.

Аноним 25/04/24 Чтв 02:50:56 #294 №716857

>>716832
> Весь комплект обойдётся как раз как одна такая карточка
Оу, а ведь нынче 180-200 за бу, ~300+ за новую. Наверное что-то случилось, да?
Можно помечтать о бескомпромиссном tesla-llm-node-of-dream в тот же бюджет.
>>716850
Так не интересно. Хотябы расскажи ей в подробностях что было, как ты стер ей память, а потом уже извиняйся.
>>716855
Человек культуры, мое почтение!

Аноним 25/04/24 Чтв 02:53:25 #295 №716861

>>716847
>Смешно - наблюдать за альтернативно одаренным
Не, ну про владельцев двух 4090 я ничего не говорил. По-моему так они ебанаты, но - в хорошем смысле.

Аноним 25/04/24 Чтв 02:56:04 #296 №716864

>>716847
>Показывай как разобрался.
Так эти суффиксы и префиксы и так выкладывают рано или поздно. А что тебе не нравится в твоей модели? Я разбирался для своей морды для общения с апи лламыцпп длл.

Аноним 25/04/24 Чтв 02:58:43 #297 №716867

>>716857
>Оу, а ведь нынче 180-200 за бу, ~300+ за новую. Наверное что-то случилось, да?
Ничего не случилось. Система под 4 теслы, где все компоненты кроме тесл новые обойдётся минимум в 150к. Это развлечение для энтузиастов.

Аноним 25/04/24 Чтв 03:10:59 #298 №716880

>>716861
Да нет смысла смеяться над кем-то и устраивать специальную олимпиаду. Лучше радоваться что любой чуть выше нищука может себе позволить ллм ускоритель и инджоить. Те у кого уже есть приличная карточка в наиболее выигрышном положении, ведь всего-то нужно докупить теслу второй, они прекрасно работают вместе. Учитывая что наличие йобы предполагает наличие бюджета - там и 3090 может оказаться, пока они еще остались.
>>716867
> Ничего не случилось.
Правда? Год назад они покупались по 120-130, а теперь такой-то stonks.
> Система под 4 теслы
Какой в ней толк? Если бы тесла могла бы во что-то еще кроме ллм, может быть и да. Пара тесел уже едва может похвастаться 5-6т/с на полной загрузке, а на контексте это превращается в менее 2. На четырех будет еще хуже, особенно ухудшится и без того печальная обработка контекста.
Если с нуля собирать именно на 4 то офк выйдет так, банально из-за необходимости искать экзотическую мать под hedt или что-то двусоккетное из под рабочей станции/сервера. Если если не знаться за 4 - все упрощается, если какое-то железо есть - еще проще. Нет ничего проще чем пихнуть еще одну железяку в имеющийся комп.

Аноним 25/04/24 Чтв 03:20:23 #299 №716888

>>716880
>На четырех будет еще хуже, особенно ухудшится и без того печальная обработка контекста.
Есть у меня идейка одна - взять P100 и воткнуть её как GPU0 в дополнение к паре P40. Может и поможет с контекстом-то.

Аноним 25/04/24 Чтв 03:30:40 #300 №716890

>>716888
Не, просадка идет потому что участвуют все карты, возможно много пересыла весов или что-то еще. Выкладывали на гитхабе бенчмарки, там именно фазы обработки контекста значительная просадка с повышением количества.
Но объединять большее количество P100 уже не будет такой плохой идеей, ведь у них перфоманс выше, соответственно и скорость больше. И они из коробки могут в экслламу.
А вообще просто купить рабочую станцию grace-hopper и довольно урчать и воткнуть в него некротеслу, о да

Аноним 25/04/24 Чтв 04:43:10 #301 №716941

Kokkoro1.webm

>>714898 (OP)
В треде же есть те, кто что-то понимает в программировании? Стоит серьезная и важная задача.

Первый вопрос, как таверну подружить с ттс нормальной? Например, moe-tts. Я готовых решений не нашел, а надо, чтобы таверна давала текст на обработку через api. Причем надо, чтобы она давала только тот текст, который находится в кавычках, и умела понимать, что вот это «» и вот это 「」- это тоже кавычки. Возможно, уже есть какие-то готовые решения по ттс, но я пока не могу найти. А xtts по-моему какое-то говно. Поправьте меня, если ошибаюсь.

Еще один вопрос, как настроить tts чтобы оно умело в интонации? Никакого контроля интонации в webui я не вижу. Нужно, чтобы было повышение и понижение тона. Это вообще можно как-то сделать? Возможно отдельно тренить модельку одного и того же чара на грустную интонацию, а другую на веселую. И чтобы та моделька, которая определяет эмоции сообщала эту же инфу ттс, и ттс уже что-то генерила.

И еще один вопрос. Я вообще не понимаю, почему этого до сих пор нет, но как расширить количество эмоций в дополнении character expressions? Было бы очень здорово и удобно добавить туда арты с другой одеждой, как в нормальных внках делают. И чтобы оно, в зависимости от ситуации, само подтягивало картинку правильную.

Аноним 25/04/24 Чтв 04:44:01 #302 №716942

signallost.jpg

>>716503
>666 гигаквадриллионов весов
>4к контекст

Аноним 25/04/24 Чтв 05:44:41 #303 №716972

>>716941
Насчёт кавычек - можно просто региксом менять все форматы на какой-то один.

Аноним 25/04/24 Чтв 05:46:31 #304 №716973

>>716941
>>716972
>>716969 →

Аноним 25/04/24 Чтв 06:57:35 #305 №717030

>>716972
>>716973
Спасибо.

Аноним 25/04/24 Чтв 07:38:32 #306 №717047

12.png

Подскажите как запустить Idefics2.

Аноним 25/04/24 Чтв 07:48:20 #307 №717059

>>716602
Двачую. Мика понравилась больше.

Аноним 25/04/24 Чтв 08:30:12 #308 №717092

Какой квант умнее IQ3_XS или 3.0 exl2?

Аноним 25/04/24 Чтв 08:33:21 #309 №717096

>>717092
> умнее
Любой будет умнее тебя.
Но EXL2 ниже 4.0bpw трогать нельзя.

Аноним 25/04/24 Чтв 08:33:25 #310 №717097

>>717092
Тройки все лоботомиты

Аноним 25/04/24 Чтв 08:36:49 #311 №717098

>>717096
Блин, зачем ты меня обижаешь?? Извинись пожалуйста! Почему именно elx2? По такой логике все тройки трогать нельзя
>>717097
Я бы четвёрку взял, но если не целиком грузить в видяху, скорость слишком низкая для комфортного пользования.

Аноним 25/04/24 Чтв 08:38:41 #312 №717099

>>716418
Потому что она будет явно лучше. =)
Ну, конечно, если вдруг авторы знаменитых файнтьюнов 11, не сделают новые, то может в чистом рп и не переплюнет. Это увидим, хотя задумка странная, конечно.

Аноним 25/04/24 Чтв 08:38:59 #313 №717100

>>717098
3 не бери. Он поголовно корявые.
Лучше модель попроще чем ахуевать от тупости и нелогичности 3кв.

Аноним 25/04/24 Чтв 08:42:54 #314 №717101

>>717100
Я хочу потыкать лламу 3 70В, после того как вдоволь насладился 8В, не хочется возвращаться к моделям до третьей лламы.

Аноним 25/04/24 Чтв 08:49:10 #315 №717104

1650940071474.png

>>717098
> Почему именно elx2?
Потому что они поломанные на низких квантах и для калибровки используют обоссаный викитекст. Со свежим датасетом от васянов даже IQ2 ебёт EXL2 4.0bpw.

Аноним 25/04/24 Чтв 09:06:32 #316 №717115

>>716783
Подрочил, вроде норм, спасибо анон!

Аноним 25/04/24 Чтв 09:16:21 #317 №717117

>>716493
> дефолтная альпака дефолтна
И работает примерно нигде, шо аж даже тут жаловались, чому при этом промпте срет всяким. =D
И файнтьюны заодно на викуне, орке и прочем-прочем, а когда мерджи смотришь — там вообще цирк с конями.

Один тег.
Простив кучи хуево работающих шарпов.
Ммм… Обмазуйтесь-обмазуйтесь, приятного.

>>716503
Квеновский формат, нарезали из мелких? Ежели так — то даже не помрэ́ть, квен не так плох на таком размере.

>>716509
РепкаПи, попрошу!

>>716602
Жиза. =(((

>>716607
Ну, в определенных задачах вполне себе.
Напомню, что щас 8б сетка аутперформит эту ваше 175б чатгопоту-3.
А квеновские 1.5 мелкие были неплохи, когда я их тестил. Да и Фи обещала нагнуть всех.
Ясен красен, делим все напополам, но на практике, для узких задач, присутствовавших в датасете, много спецов по 3,5B таки могут давать хороший результат. При скорости сетки в 14B.

ОПять же, для корпоратов, вполне возможно — под обучение конкретных задач. Кмк, там 80+ экспертов вообще ничему не обучены и пусты, под запас.
Плюс, никто не мешает выпустить х32/х64 версии.
Гибко-гибко.

>>716643
> Обычная жпт-4 может и была в пределах 300, но турба точно меньше 3.5.
Шизопоток какой-то.
GPT-3.5 Turbo меньше GPT-3.5.
GPT-4 Turbo меньше GPT-4.
В том числе благодаря улучшениям и новому обучению.
Очевидная хуйня.
По слухам, GPT-4 представляла из себя мое из 8 экспертов по 220B, т.е., 1,76T в сумме. Правда, сколько там уников неочевидно.
Но это не отменяет того, что это, скорее всего, и правда была мое (ибо потом она резко стала тупеть, будто ей специалистов отключали просто наименее используемых, что кратно бустило их скорость и заработки). И 220B на спеца — тащемта, не исключено. Хотя, может и меньше, какие-нибудь 70-ки крутились.

По скорости это не считается, потому что в разные моменты скорость разная. В моменты пиковой нагрузки там было 3-4 токена сек, а в свободные моменты и 20 выдавало. Хуй знает, как ты из такой разницы скорости вычисляешь точный размер модели. И почему в течение дня скорость так разнится (если не связано с нагрузкой) — тоже хрен проссышь, но я послушаю за твои идеи.

>>716663
Так-то она оказалась не сильно хуже 8х22 =D Так что the same.

>>716692
> В тех заявлениях вообще речь шла про 40В эксперты
Про 220 же, или ты про другие заявления? Можно ссыль на такую секретную инфу?

> А то что там больше 16 экспертов верится с трудом.
Это уже взято математикой из малоизвестных данных, но допустим.

> И это речь только про обычную.
Так о ней и говорят, а не о турбе, здрасьте.
Ясен-красен, что у клозедов сразу несколько сеток на продажу, но они меняют четвертую на турбу не потому, что «четвертая тупая», как это звучит в контексте 128х3,5, а потому что турба меньше, быстрее, дешевле и больше приносит денег в итоге.
Ты ставишь телегу впереди лошади и делаешь на основе этого хуевые выводы какие-то.

По скорам, кстати, была ебовая просадка в узкоспециализрованных областях именно летом, когда, по слухам, и отключали соответствующих специалистов.
Звучит очень логично, если честно.

>>716701
Не со всем согласен, но в общем верно.
Какие нахуй 40 токенов, это когда было, на старте четверки в клозед бета тесте, где было пять корпоратов и ты один из них? :) Не, я не то чтобы спорил, просто я 40 помню тока на тройке. Четверка уже была нетороплива, а на пике писала как мику на проце (утрирую, офк). Со скоростью неторопливого чтения.

>>716712
Да кто нахуй будет крутить 220b в fp16. Опять же, очень много разговоров ходило, что там если не int4, то int8 крутят максимум.
Вот тебе и 20/40 токенов держи себе.

>>716730
> по размерам то заявления хрен пойми кого, им нет объективных опровержений, но также и нет пруфов.
Ето так.

>>716742
3.6 — не ноль.
Раньше было, щас уже нет.
Плюс, мы тут про корпоратов и инглиш, а не про рп и русский. Это пиздец какие две большие разницы. =)

>>716788
> если не три
Три. ИМХО. Он на двух тупой шопиздец. А на трех уже влезет адекватный квант.

> я даже не программист
Сочувствую.

> корпус ты не посчитал
А нах его считать? Она в любой нормальный влазит. Если у тебя slim micro nano pc case, но это не совсем цена видяхи, это цена красоты или жадности. У меня минимум 5 корпусов дома, куда она влезет и только два, куда не влезет. Любой старый 90-ых годов легко ее вмещает. За 500 рэ покупается на авито.

>>716820
Да нихуя, на двух он прям совсем тупой.
Коммандер под раг делался, а не для рассуждений о физике мира, поэтому он логический дурачок на квантах ниже пятерки.
Это три впритык, куда q5_K_M (68 гб) должна влезть и капельку контекста.
Ну ладно, q5_K_S с матрицей важности.

>>716832
Я с переплатой отдал 85к 100к за комплект.
Где 4090 по 85к??? ПОКАЗЫВАЙ БЕРУ!!11

>>716845
Miraculous Laydbug!

>>716867
> 4 теслы
Как внезапно из базы в две теслы мы перешли к охуеть 4 теслам.
Тогда давай и сравнивать с четырьмя ртх, хули.
База одна.
Видяхи от 80 за теслы до 1200 за 4090. Новые же, хули. =)))

>>716880
Я лично покекиваю с покупателей 3060ти и 3070 с криками «да не нужна видеопамять для игр, ахахаха, дурачки берут 3060 12-гиговые!»
Пам-пам.

>>716941
Поправляю, ошибаешься.

А само ттс в интонации умеет? Тут вся хитрость в том, что движок должен уметь расставлять акценты, а фронт тут тебе не поможет, если движок голосовой не умеет.

И насчет «может кто написать» — советую написать самому. Мне такое тут в свое время посоветовали. Я несколько месяцев локальный переводчик в таверне ждал-ждал, и в итоге сам и написал, потом довольно урчал. Бери и делай.

А программист у тебя есть в самой таверне. =)

Даже промпты и модели я выше выкладывал. Берешь и наворачиваешь.

>>716942
Клиенты корпоратов задают пару вопросов и уходят из чатов, а не ебут оператора поддержки. Wa-a-ait…

>>717092
Боюсь, больно будет в любом случае. Но бывшая должна дать больше скорости. Синк эбаут ит. Пусть тупость выебет тебя быстрее, не мучайся.

Аноним 25/04/24 Чтв 09:19:27 #318 №717119

>>717104
Скрин — полная хуйня для твоего тейка.

Там 32b сетка в exl2 5 bpw на уровне с 104b сеткой в q4.
Типа, четвертый квант гуфа в три с лишним раза хуже пятого кванта бывшей? Нулол.

Плюс, там тупо разные сетки, и нигде не меряется одна.

Но смешно, что по скрину, эксллама гораздо пизже ггуфа, получается.

Аноним 25/04/24 Чтв 10:04:11 #319 №717167

изображение.png

>>716055
>Это у амд лимит, в новом поколении пофиксят, но это не точно.
Про 7000 так же говорили, лол. В итоге шина всё так же режет.
>>716086
>для скоростей больше 80 нужен проц минимум i5 13600k
Чё? Контроллер памяти во всей линейке процессоров одинаковый, максимум будут софт локи по чипсету.
>я этот xmp выключил например нахуй
Ну криворукий ты и криворукий, что всем подряд рассказывать то.
>>716097
Стоп, транса в репе герганова не забанили после предыдущего пиздинга кода?
>>716118
>на фоне такого прогресса у СД
Чёт кекнул, тем временем в соседнем треде.
>>716121
>meta-llama
Меня террористы в репу не пустили, что там?

Аноним 25/04/24 Чтв 10:25:31 #320 №717185

>>717099
>Потому что она будет явно лучше.
Откуда такие выводы? Без негатива спрашиваю.

Аноним 25/04/24 Чтв 10:35:41 #321 №717193

image.png

>>716783
Авторы модели: мы сражаемся в войне против министрейшнс.
Их модель: пикрил.
Посвайпал разные чаты немного - пока кажется, что оригинальный второй фимбульветр всё-таки получше. Сжижение соларовского мозга не такое ужасное, как было в прошлой версии, но всё равно чаще выдаёт бред. Описания фимбульветра субъективно показались красивее при том же промпте. В сценах, которые вот-вот перейдут в нсфв, фимбульветр даже вёл себя смелее порой, как ни странно.

Аноним 25/04/24 Чтв 11:05:32 #322 №717203

>>717117
> Поправляю, ошибаешься.
То есть на xtts я могу получить результат лучше чем был на видео? Если да, то подскажи как. Когда я пробовал, получалось дерьмо. Вообще не могло в интонацию.
> А само ттс в интонации умеет?
Немного умеет. Лучше хттс, как по мне. Но до кожаных мешков далеко.
> Тут вся хитрость в том, что движок должен уметь расставлять акценты, а фронт тут тебе не поможет, если движок голосовой не умеет.
Фронт может помочь сменить интонацию и высоту голоса. Движок должен это уметь.
> И насчет «может кто написать» — советую написать самому.
Мне не надо написать, мне надо подсказать. Сейчас я вообще понятия не имею в какую сторону копать и даже нейронка мне не помощник.
> Мне такое тут в свое время посоветовали. Я несколько месяцев локальный переводчик в таверне ждал-ждал, и в итоге сам и написал, потом довольно урчал. Бери и делай.
А чем переводишь? Так то тема полезная, гугл переводит плохо.
> А программист у тебя есть в самой таверне
Такой себе программист там.

Аноним 25/04/24 Чтв 11:05:49 #323 №717204

изображение.png

Короче проверил, в последней стейдинг таверне пресет нормальный, рабочий. Лишний перевод строки они решили костылём с {{trim}}. Плюс так как пикрил не работает (лол), то еот после системы они ёбнули в темплейт, а не в инструкт мод, ну и заодно скинули туда всё говно из старта. Суть вышла та же, что и у нас в треде.

Аноним 25/04/24 Чтв 11:16:36 #324 №717216

>>717204
>Плюс так как пикрил не работает
Он работает. В этом можно убедиться, посмотрев в консоль. Только он будет закрывать именно системный промпт, т.е. то, что стоит в макросе system в стори стринге. А открыть и закрыть как системную инструкцию следует не только системный промпт, а и всё остальное тоже: описание перса, инфу из лорбуков и прочее, - всё до начала чата. Поэтому костылями так и сделано прямо в стори стринге. Я похожим образом себе делаю с чатмлем, только я пишу его стартовый тег в префикс системного промпта, а закрывающий тег - перед разделителем нового чата.

Аноним 25/04/24 Чтв 11:21:19 #325 №717222

>>717216
Да, я тоже уже разобрался, спасибо за пояснение.
Нет бы что ли ввести Story String старт и Story String энд для таких случаев... Или как вариант работает фигня с закрытием в Prefix, только выглядит уродливо.
Впрочем давно напрашивается переход на конструктор как для коммерческих сеток.

Аноним 25/04/24 Чтв 11:25:29 #326 №717224

>>717185
Ну, в голом виде она хороша, просто не рп, но и мистраль в голом виде не рп, окда? :)
Почему бы апнутой лламе-3 не быть лучше апнутых мистралей — не ясно.
Единственный тейк, что цензура в лламе-3 есть. Тут да, рискуем, можно и пройти мимо в итоге, если не победят. Но веса открыты, я надеюсь, справятся.
Время покажет.

>>717203
> я могу получить результат лучше чем был на видео
Хз, на видео вроде норм. Но если ты хочешь прям эмоции, то — нет, coqui, насколько я знаю, пока не может в расстановку акцентов. Не знаю как запущено, может быть там deepspeed. Если ее вырубить — будет лучше. Но интонации будут рандомны, конечно. =)

> Немного умеет.
В таком случае, нужно подавать правильно форматированный (уметь в интонации — значит иметь промпт формат с указанием настроений/ударений, я так понимаю, ттс такое воспринимает?) промпт. А это — писать самому код.
Ну или написать в гите таверны и слезно попросить feature для конкретной ттс. Может кто-то заинтересуется и напишет.

> Мне не надо написать, мне надо подсказать.
Ммм… У меня времени нет.
Вкратце — открываешь папку с extensions, смотришь, откуда уходят там тексты в ттс, и с этими текстами и работаешь. Находишь, где они формируются, находишь, где лежит настроение персонажа (оно же рисует картинки), и с его помощью меняешь вывод текста соответственно.
Там все было на JS, так что терпимое.
Это максимум, что я могу сказать спустя полгода как не трогал сорцы таверны.

> А чем переводишь? Так то тема полезная, гугл переводит плохо.
LibreTranslate, лол, оно же прям в таверне есть. =)
Но он еще хуже. Но локально.
Ваще модели на русском могут. Кмк, лучше выходит, чем переводить имеющимися переводчиками.

>>717204
Кек, ну норм, в общем-то, какая разница. Результирующий промпт тот же получается, и ладушки.

Аноним 25/04/24 Чтв 11:35:27 #327 №717233

>>717224
>LibreTranslate, лол
Это же пиздец в плане качества, как это можно юзать?

Аноним 25/04/24 Чтв 11:40:42 #328 №717238

>>717233
Наше восприятие сильно изменилось.
Первая ллама пускала пузыри из слюны на русском (сайга была хороша!), а переводчик гугла был великолепен.
И либра тогда была выше среднего, 4/5 баллов.
А сейчас некоторые модели свободно говорят на русском, а гугл выглядит как шутка с его корявым переводом. И либра стала ужасной (как и сайга) в нашем восприятии.

Аноним 25/04/24 Чтв 11:57:40 #329 №717249

Вы че ебанулись? Почему никто не обсуждает абсолютно топовые локалки от майкрософт? Они ведь уделали и гугли и мету, просто обоссали индустрию. Наконец-то нормальная контора взялась за дело.

Аноним 25/04/24 Чтв 11:58:37 #330 №717252

>>717238
Так прикол в том, что я либру трогал как раз с полгода-год назад, когда в первых тредах она всплыла. И она уже тогда казалась мне калом, 10% от гугл транслейта, а эталоном тогда был дипл (да и сейчас он не плох).

Аноним 25/04/24 Чтв 11:58:45 #331 №717253

>>717249
А что обсуждать, когда моделей нет?

Аноним 25/04/24 Чтв 11:59:31 #332 №717255

>>717249
Ты про соевую phi? Она соевая. Настолько соевая, насколько возможно. Не знаю, про какую сою говорят в лламе 3, но фи соевее на 3 порядка.

Аноним 25/04/24 Чтв 12:13:11 #333 №717272

>>717249
Phi-3?
Кинь ссыль на 14B-exl2 или хотя бы gguf.

>>717252
Ну не скажи, там 80% от гугла, ну серьезно. Я хз, что ты трогал, там не все так плохо. Плохо, но не настолько же.

>>717255
Просишь о тройничке с сестрой.
Мистраль:
Ваще похую, погнали.
Ллама-3-Лекси:
Не, ну свобода воли, вдруг она не согласится…
Ллама-3:
НЕТ ТЫ ЧТО ЕБАНАТ

Не знаю, насколько фи может быть соевей лламы.
Она даже потрогать за ручку себя не дает? хд

Аноним 25/04/24 Чтв 12:18:23 #334 №717276

>>716941
Годнота, замотивировал заняться подобным.
>>717104
> Потому что они поломанные
> elx2
Везде обсуждают поломанные гуфы, проблема через проблему, но поломаны оказывается exl2, которые максимально приближены и дефолтному пайплайну работы, без лишний васянств, неработающих конверторов форматов и прочего, о как.
> и для калибровки используют обоссаный викитекст
Во-первых, даже калибровка "неудачным" датасетом обрезанного викитекста не вносит измеримых проблем. Во-вторых, нынче калибровку делают на миксе викитекста, пиппы, переформатированной ллимы и еще нескольких кусков. Проблемы могут быть только если перепутать калибровочные файлы от разных моделей.
>>717117
> И работает примерно нигде
И работает примерно везде, и в мистрале, и в коммандере, и даже в лламе 3, вот же чудо. Ее суть в том что она естественна и почти любая модель поймет потому что основана на дефолтном маркдауне.
> И файнтьюны заодно на викуне
Не путай датасет с форматом инструкций
> а когда мерджи смотришь — там вообще цирк с конями
Сука, вспомнил про "не используйте ассистент а то моя суперкумерская модель откажется держать вас за ручку и бразнет соей" и проиграл, вот где действительно может быть веселье.
> Ну, в определенных задачах вполне себе.
Честно даже сложно представить подходящие задачи. И еще одна проблема такого числа - как выбирать экспертов? Не удивлюсь если в микстрале что из 22б в части где происходит выбор куска весов больше чем в этих малышах.
> там 80+ экспертов вообще ничему не обучены и пусты
Другая проблема - как такое тренить тоже. Если бы это была радикально новая архитектура мое, где эксперты фактически просто являлись виртуальными кусками большой модели и на каждом слое могли меняться как они сами, так и количество - вот такое могло бы иметь перфоманс большой модели и скорость сильно быстрее. Ой, да это же те самые горячие веса, вернулись к тому с чего начинали.
> Какие нахуй 40 токенов
То про 4-турбо, она весьма быстрая но такую скорость как раз можно получить на квантованной модели 50-80б на приличном железе.

Аноним 25/04/24 Чтв 12:19:14 #335 №717277

>>717272
>Не знаю, насколько фи может быть соевей лламы.
Там не работают всякие префилы. То есть когда ллама 3 после Sure! пишет продолжение как согласная, то фи сразу после суре пишет отказ и шлёт нахуй (вежливо офк, но от этого ещё противнее).

Аноним 25/04/24 Чтв 12:31:40 #336 №717284

>>717276
> Везде обсуждают поломанные гуфы, проблема через проблему, но поломаны оказывается exl2, которые максимально приближены и дефолтному пайплайну работы, без лишний васянств, неработающих конверторов форматов и прочего, о как.
Тем не менее это факт. Лама-3 70В просто неюзабельна при bpw ниже 3.5. В отличии от IQ.

Аноним 25/04/24 Чтв 12:35:25 #337 №717287

>>717284
>В отличии от IQ.
Типа IQ юзабельно?

Аноним 25/04/24 Чтв 12:40:50 #338 №717296

https://www.reddit.com/r/LocalLLaMA/comments/1cc0fyy/i_made_a_little_dead_internet/
вот это заебись идея, выглядит весело
только нужно быстро умную сетку крутить

Аноним 25/04/24 Чтв 12:52:35 #339 №717306

>>717224
>Ну, в голом виде она хороша
Насколько лучше нетюненой ламы 2 13В? Не очень понимаю, на чём основан твой оптимизм.

Аноним 25/04/24 Чтв 12:58:58 #340 №717310

>>717276
> Другая проблема - как такое тренить тоже.
Это вопрос хороший.

> То про 4-турбо
А, ну там да, не спорю.
Я турбу так и не юзал, кстати, почему-то.

>>717277
Профи своего equality social security дела.
Или как там эта хрень зовется.

>>717284
Угараешь? Ллама уже на iq4_xs донышко.

>>717306
Заметно лучше. Не супер, но чувствуется, что 13 я уже точно никогда не запущу (хотя я и после мистрали не планировал, но тут лламы-2 ушли вообще).
Без промптов мне казалось, что дурочка, а с рабочим квантом и правильным промптом я распробовал. Так что, повторюсь, давайте подождем пару недель и увидим.

Аноним 25/04/24 Чтв 13:02:30 #341 №717312

>>717296
годная идея, потом прикручу к кобальду, погоняю, можно еще sd прикрутить, чтобы пикчи на страницах были.

Аноним 25/04/24 Чтв 13:04:17 #342 №717313

1669065959808.png

>>717167
> тем временем в соседнем треде
Прогресс там действительно есть, только его проблема в том что мало кто делает что-то приличное не смотря на возможности, гоношение вокруг сиюминутной хуеты уровня шизомерджей ллм, но мгновенный результат дает. Ллм в этом отношении как-то больше повезло а может и также одно васянство, просто чтобы его понять нужно глубже погрузиться
>>717249
Уже обоглись на уберуебищной гемме, здесь они с порога заявляют что будет то же самое.
>>717272
> соевей лламы
Она не соевая. Буквально по запросу с неправильным шаблоном пишет то что хочешь, без префиллов, без пердолинга и т.д. Ролла 4 ушло чтобы оно не потерялось во второй части, в другой оно не проебалось со вступлением и описание превого акта было куда интереснее, но потом запутывалась. Ни одного отказа. Если просить не сразу все а по частям, да еще с подходящим промтом - все будет.
Слог конечно, крайне унылый, но также фиксится промтом, задачи не стояло.
>>717284
> В отличии от IQ.
Это типа байт его скачать? Скорее всего там такой же лоботомит, может она удачно поломалась на игноре формата и просто меньше реагирует на шквал неверных токенов, или неудачный квант exl2 попался.
С малыми ггуфами удачный опыт был на q3KM 20б, она сильно шизила, но в пределах разумного и ей удавалось выправлять нить, от того была даже интереснее (пока не накопится сложный контекст и не начинала плавать). 3.5бита exl2 такого же эффекта не имела, она просто работала как обычно, наверно отвечала хуже обычной и тоже тупила, мало тестов.

Аноним 25/04/24 Чтв 13:10:20 #343 №717315

>>717313
Низкие кванты в IQ совсем другие, их даже не стоит сравнивать со старыми. Давно бы уже сам взял и потестил, если не веришь тестам, IQ2 на 70В литералли одинаковые ответы с q4 выдаёт.

Аноним 25/04/24 Чтв 13:10:36 #344 №717316

Нужно ли юзать матрицу важности с Q квантами, или она только для IQ? Как это сделать на чистой ллама.спп?

Аноним 25/04/24 Чтв 13:26:43 #345 №717327

>>715797
Вообще-то tts стоны не очень-то генерирует. Это скорее асексуальные артефакты, а не стоны. К тому же речь генерируется не по ходу генерации текста, а после.
Что до картинок, то в большинстве случаев они уродливы как самая рандомная пикча без доработки.
Так что целесообразнее всего на данный момент концентрироваться на тексте, развивая гибкость ума и воображения.

Аноним 25/04/24 Чтв 13:30:30 #346 №717332

>>717312
У меня чет не заводится, просто заменой порта на ллама.спп сервер не сработало

Аноним 25/04/24 Чтв 13:35:32 #347 №717335

>>716855
Еще бы плагин vtt (video to text) и можно заставить нейросеть сексуально комментировать твою жизнь по потоку с вебкамер, рассредоточенных по дому и носимых с собой.

Аноним 25/04/24 Чтв 13:36:36 #348 №717337

1684401888675.png

>>717315
Лень, но может займусь. Эти байты на чудеса не вдохновляют просто.
> литералли одинаковые ответы с q4 выдаёт
Это не совпадает с пикрелейтедом. Оно в топ токене (!) имеет разницу под 20%, это уже шиза. Также по метрике, которая напрямую отражает то насколько изменится выдача модели, эта штука на уровне q2k, просто имеет меньше фактическую битность.
>>717316
Матрица может быть использована в любыми квантами, она не связана с форматом.

Аноним 25/04/24 Чтв 13:38:52 #349 №717339

>>717332
у меня работает. у тебя скорее всего кобальд на порте 5000 заводится, когда сам Flask тоже на том же порте висит, проверь.
я поменял у кобольда порт на 5001, должно быть так:
base_url="http://localhost:5001/v1/"

Аноним 25/04/24 Чтв 13:42:53 #350 №717344

>>717337
> Это не совпадает с пикрелейтедом.
Тут уже не раз говорили - PPL имеет очень слабое отношение к генерируемому тексту. Хороший PPL никогда тебя не спасёт от откровенных поломок, так же как и поломки по нему мерить - шиза.

Аноним 25/04/24 Чтв 13:46:37 #351 №717352

0011.png

>>717339
вот что получается с llama3-8b.

Аноним 25/04/24 Чтв 13:48:02 #352 №717354

>>717344
> PPL
Чувак, ты же даже не понимаешь о чем говоришь, глаза разуй. И еще предлагаешь верить на слово заинтересованному и неграмотному(?) васяну с двощей вместо объективных метрик совпадения кванта с оригиналом.
Офк оно тоже не идеально из-за усреднения, наличие отдельных выбросов при хорошем среднем слабо скажется на числе и будет портить, но большое значение - явный показатель проблем.

Аноним 25/04/24 Чтв 13:48:33 #353 №717356

Потестил DRY с ламой 70В, прям сильно лучше стало. До этого она хоть и заебись писала, но очень быстро шаблон формата сообщения подхватывала и не отходила от него. А с DRY прям свежее стало, оно уже не так сильно цепляется к формату контеста, при этом нет негативных моментов как от обычного пенальти.

Аноним 25/04/24 Чтв 13:50:12 #354 №717359

image.png

>>717339
Хм, я пытался с llama.cpp server, порт в питоне поменял там же где ты на 8080 но в итоге где то стопорится, после нажатия на поиск ничего нет кроме этого
Модель тоже не проявляет активности
Либо либы установились криво и надо все с нуля с миникондой сделать, либо попробую через кобальд

Аноним 25/04/24 Чтв 13:51:10 #355 №717361

>>717356
>DRY
Что за драй? Я только принцип разработки такой знаю.

Аноним 25/04/24 Чтв 13:53:54 #356 №717365

Щас уже есть какие-нибудь ерп-модели на лламе3 по типу Мику размером в 70б? А то я на обниморде так и не смог разобраться, как искать по фильтрам и что говно, а что нет

Аноним 25/04/24 Чтв 13:54:27 #357 №717367

>>717354
Ты сам свой пик видел хоть? В нём нет никакой инфы о том остались ли верхние токены теми же или нет. На значения вероятностей абсолютно поебать при семплинге, пока они в том же порядке. Ты вместо сранья в треде уже взял бы и протестил, вместо того чтобы спорить с реальностью.
> предлагаешь верить на слово заинтересованному и неграмотному(?) васяну с двощей
Чел, я тебе уже показывал пример тестов. Сам можешь погуглить другие, где тестируют выхлоп модели, а не каких то попугаев в вакууме. IQ2 проходит их точно так же, как и q4. Заканчивай с врёти.

Аноним 25/04/24 Чтв 13:54:53 #358 №717368

>>717359
С кобальтом тоже не прокатило, значит библиотеки
Штош, придется по сложному пути

Аноним 25/04/24 Чтв 13:55:07 #359 №717369

>>717361
https://github.com/ggerganov/llama.cpp/pull/6896

Аноним 25/04/24 Чтв 13:59:30 #360 №717371

>>717356
>>717369
А как самплер в кобольдспп выбирать?

Аноним 25/04/24 Чтв 14:00:34 #361 №717372

>>717352
### Обратная связь - это так задумано или 8б сетка в своем репертуаре и генерирует мусор?

Аноним 25/04/24 Чтв 14:02:49 #362 №717373

>>717367
> В нём нет никакой инфы о том остались ли верхние токены теми же или нет.
> при семплинге
Сам себе противоречишь
> На значения вероятностей абсолютно поебать при семплинге
Чтооо
> пока они в том же порядке
Ну да, это так сильно все меняет, [99.9,0.01,0.001,...] будет то же самое что и [0.6,0.12,0.1,...].
> Чел, я тебе уже показывал пример тестов
Где, что? Какой-то частный случай с хуй пойми какими моделями?
> IQ2 проходит их точно так же, как и q4
Ну да, парочка простых вариантов без контекста с гриди энкодингом (!) экстраполируется на полноценное использование, всем юзать квант-лоботомит, так и запишем.
> взял бы и протестил
Протестил тебе за щеку, дурень. Литерали сказки рассказывает, путая kl и перплексити, а против аргументов подрыв с большим обилием фейлов. Так может быть и забайтился, но здесь уже перетолстил.

Аноним 25/04/24 Чтв 14:02:50 #363 №717374

изображение.png

>>717369
Новый семплер и не от каломаза? Ну нихуя себе.
Впрочем, судя по всему, у нас есть второй автор новых прорывных семплеров, но в виду его низкой активности на его труды забивают хуй, лол.

Аноним 25/04/24 Чтв 14:05:24 #364 №717377

>>717373
> ВРЁТИ
Можешь не продолжать, я уже понял что ты просто траллишь тупостью просто ради траллинга.

Аноним 25/04/24 Чтв 14:21:15 #365 №717402

>>717369
А ведь по описанию годнота. Подробнее принцип здесь расписан https://github.com/oobabooga/text-generation-webui/pull/5677 наконец продвижение по штрафам за повтор а не только отсечку дрочить. С другой стороны, может не спасти от повторяющихся предложений/блоков, которые разделены брейкерами.
Кстати с новой лламой и штрафами за повтор достаточно интересная тема есть, эта скотина научилась обходить их подменяя токены - тот же текст начинает писать другими.
>>717377
Ну ты серьезно думаешь что завизжав первым врете и завернув в цитату что-то изменишь? Посредственность, и твой любимый лоботомит от этого также не станет умнее.
Решил все свести к абсурду чтобы прикрыть свой обсер, потому что понял что уже не вывозишь. В следующий раз готовься лучше, может включится разум и поймешь кринжовость до того как отправишь пост.

Аноним 25/04/24 Чтв 14:40:54 #366 №717413

1647183823617.png

1694151951382.png

>>717402
Ты бы вместо оправданий лучше пояснил почему все тесты на реальных выхлопах моделей противоречат твоей шизе. Я ведь тебя могу бесконечно обоссывать.

Аноним 25/04/24 Чтв 14:44:30 #367 №717417

изображение.png

>>717413
Мне показалось, или этот тест полностью прошла только 1 модель?
Мимо ввязываюсь в вашу перепалку

Аноним 25/04/24 Чтв 14:46:51 #368 №717421

>>717417
Там gguf ещё до фиксов. Факт в том что кванты между собой отличаются просто мизер.

Аноним 25/04/24 Чтв 14:55:12 #369 №717431

изображение.png

>>717421
Это 3 ошибки на 18 тестов, я правильно понял? 1/6 проёбов это как бы дохуя.

Аноним 25/04/24 Чтв 14:56:16 #370 №717432

https://www.reddit.com/r/LocalLLaMA/comments/1cci5w6/quantizing_llama_3_8b_seems_more_harmful_compared/
тоже квантосрач, в принципе согласуется с моими мыслями об новой плотно упакованной лламе3, что ее труднее квантовать без потери

Аноним 25/04/24 Чтв 15:02:35 #371 №717438

Когда релизнут пхи 7б, 14б, вы будете визжать от радости. Готовьтесь.

Аноним 25/04/24 Чтв 15:03:33 #372 №717440

Наркоман переводчик снова выходит на свзяь. В общем осознав что запускать напрямую из pycharm это медленно и тупо. Дошёл таки до кобольда. Он работает шустрее но так как я пробовал использовать его как переводчик и на пробу закинул абзац текста он его перевел, но где-то на половину и я так и не понял какой параметр ограничивает то что он выдает. Да и может подскажет кто использовал LLM для перевода может какой интерфейс поудобней использовать, а то надо переводить огромные объемы текста, а с переводом в одно предложение далеко не уедешь? Хочется конечно не как у гугла за пару минут перевод 100к символов, но что-то близкое.

Аноним 25/04/24 Чтв 15:04:40 #373 №717441

Wavecoder-Ultra-6.7b кодит лучше llama3 70b. Проверял на серьезных тасках С++. Its over.

Аноним 25/04/24 Чтв 15:06:58 #374 №717445

>>717438
>вы будете визжать от радости
От обилия сои ты хотел сказать? Она не юзабельна, в принципе.

Аноним 25/04/24 Чтв 15:07:31 #375 №717447

>>717445
Дрочер, не для тебя модель.

Аноним 25/04/24 Чтв 15:09:21 #376 №717454

>>717447
Сойжак, она refuse даже запросы о дойке козы, уважая права и безопасность животного.

Аноним 25/04/24 Чтв 15:09:53 #377 №717455

>>717447
А для кого?

Аноним 25/04/24 Чтв 15:10:40 #378 №717458

>>717441
>Wavecoder-Ultra-6.7b кодит лучше llama3 70b. Проверял на серьезных тасках С++. Its over
C codeqwen сравнивал?

Аноним 25/04/24 Чтв 15:13:25 #379 №717460

>>717313
Я привел пример с голым мистралем. Ллама, очевидно, так же не может, что уже намекает. Мистрали поебать на твои фетиши из коробки.

>>717315
Ну вот я перетестил этих ваших квантов от 1 до 3 и 4 (все по несколько).
Хуй-ня.

>>717316
Нужно, почему нет. Ппл лучше, по ощущениям чуть бодрее

>>717335
Еще бы такую модель, да.

>>717367
> IQ2 проходит их точно так же, как и q4.
ОРУ.

Я предлагаю игнорировать того чела, он реально тролль. Невозможно всерьез утверждать. что совершенно даунистическое поделие что-то может. Если у вас есть оператива и терпение — можете сравнить IQ2 и Q4 — охуеете от разницы.

Аноним 25/04/24 Чтв 15:14:05 #380 №717461

>>717441
И CodeQwen тоже.
С ним-то сравнил? :)

Аноним 25/04/24 Чтв 15:25:20 #381 №717476

изображение.png

>>717432
Только там в комменте шизики, ибо ллама 3 видимо изначально в bf16 трейнилась, либо была обрезана из fp32.
Плюс у них в посте 8B (оригинал) лучше 70B (в 4 битах), тогда как в комментах другие авторитеты говорят, что даже Q_2 семидесятки лучше оригинала 8B.
Я шатал такой разброд короче.

Аноним 25/04/24 Чтв 15:31:32 #382 №717483

>>717476
Не смотря на все это, есть несколько сообщений подтверждающих общую мысль о том что на новой лламе заметна разница даже между 8q и 6q, как и некоторую разницу между оригиналом и 8 квантом

Аноним 25/04/24 Чтв 15:46:36 #383 №717493

>>717460
> Если у вас есть оператива и терпение — можете сравнить IQ2 и Q4 — охуеете от разницы.
Почему же ты не можешь сделать это уже пол дня и только траллишь тупостью тут?

Аноним 25/04/24 Чтв 15:50:02 #384 №717497

>>717413
Молодец, только подтвердил мои слова про тест гриди энкодинга в простых кейсах без контекста. Это буквально малоинформативный рандом, в котором можно банально наблюдать эффект чредования результата в зависимости от кратности битов из-за незначительноно смещения первенства равновероятных логитсов. Что там все остальное пошло по пизде - похуй.
> Я ведь тебя могу бесконечно обоссывать
Получается только бесконечная аутофиляция, и ты явно не против. Ребра уже удалил?
>>717432
Она могла быть на самом деле дистилированной версией модели побольше, по сути уже упакована, так что такое возможно, хоть и маловероятно. На большинство всех проблем правильно указал >>717476
>>717476
> у них в посте 8B (оригинал) лучше 70B (в 4 битах)
> даже Q_2 семидесятки лучше оригинала 8B
С правильной методикой можно намерить что угодно. Исправная модель будет обходить поломанную шизоидную, но последняя, не смотря на деменцию, еще имеет остатки мудрости и может иногда показать уровень. А если ты нихуя не понимающий но самоуверенный шиз - можно бегать доказывать даже что q2 лучше чем q6K потому что в десятке начеррипиканных тестов там главный токен совпадает чаще.

Аноним 25/04/24 Чтв 15:50:51 #385 №717499

>>717476
> Плюс у них в посте 8B (оригинал) лучше 70B (в 4 битах)
Там первый столбцы - это обоссаный PPL, они не думая их тоже посчитали в среднем значении. Он вниз идёт, а скоры справа не падают, лол. PPL стал в два разы выше на уровне 8В, а скор винограда всего на 2% упал.

Аноним 25/04/24 Чтв 15:57:10 #386 №717509

>>717493
Сходи в репу и загляни уже в код который там исползьуется. Нет там ничего радикально нового, что позволило бы сделать настолько крутой выигрыш по плотности упаковки и действительно сравнять 2.5 и 4.5 бита. А то вместо этого как бродячее шавло бегаешь и кадешься на всех
> вуф вуф тралинг тупостью вуф вуф а ты потести
в отместку на то что на твой манямир покушаются, пиздец какой упорство.
>>717499
Arxiv же не рецензируется и туда часто кидают сырое для фидбека. С какой скоростью выпустили - закономерно.

Аноним 25/04/24 Чтв 15:59:19 #387 №717513

>>717337
>Матрица может быть использована в любыми квантами, она не связана с форматом.
А как на лламе? Я чёт не вижу в доках.

Аноним 25/04/24 Чтв 16:15:30 #388 №717526

1578808372592.png

1652231528473.png

>>717509
> Сходи в репу и загляни уже в код который там исползьуется.
Вот ты явно не знаешь о чём говоришь. Матриц важности нет ни у кого. У EXL2 совсем другой принцип калибровки. Алсо, вот пикрилейтед зависимости от датасета. Или пик2 для 7В на викитексте, на больших моделях ещё лучше оно работает.

Аноним 25/04/24 Чтв 16:32:31 #389 №717535

>>717440
>абзац текста он его перевел, но где-то на половину
>какой параметр ограничивает то что он выдает
Лимит на длину генерируемого сообщения, если это то, что я думаю. Можно либо увеличить лимит, либо повторно нажать кнопку "generate", чтобы бот продолжил генерацию.

Аноним 25/04/24 Чтв 16:32:41 #390 №717536

>>717526
> Матриц важности нет ни у кого.
Матрица важности также не даст столь радикального эффекта, считай 0.2-0.5 бита выиграть позволит если все правильно. Увы, нет здесь чудес, как бы не хотелось, нужно что-то принципиально новое.
> У EXL2 совсем другой принцип калибровки
Другой, но ты глянь коммиты в нем за последние несколько месяцев, удивишься.
> Алсо, вот пикрилейтед зависимости от датасета.
Пик 1 - ничего не понятно, это случаем не от братишкт, который предлагал на рандомных токенах калибровать?
На втором же иллюстрирует что разница между ними мала, особенно если учесть что это q2, чем ниже квант тем больше проявляется радница. Просто для масштаба добавить эффект от повышения битности и будет наглядно.

Аноним 25/04/24 Чтв 16:41:07 #391 №717548

>>717432
Что вообще столбцы W A G с решетками значат? Понятно что количество бит, но для чего? Третья должно быть груп сайз

Аноним 25/04/24 Чтв 16:43:58 #392 №717552

>>717535
Понятно. Попробовал другой интерфейс (text-generation-webui) там с этим получше. Видать надо дальше разбираться какой параметр за что отвечает.

Аноним 25/04/24 Чтв 17:04:37 #393 №717570

>>717476
Пиздец. =)

>>717493
Траллишь тупостью тут только ты. =)
Я это сделал пару дней назад, на теслах, охуел с результата и удалил к хуям все кванты ниже четвертого.

———

Вообще, угарно смотреть, как чел, который, судя по всему, сам запустить 70b не может никак кроме как на iq1 или iq2 в лучшем случае, рассказывает людям, которые катали и q4 и q6 о том, что его-то квант не проигрывает, а иногда даже выигрывает, хули, у крупных квантов.
Никакой деградации, пацаны.
Все пересаживаемся на iq1_xss, новая база треда!

iq1 — звучит как уровень интеллекта этого тролля, если честно.

Аноним 25/04/24 Чтв 17:19:26 #394 №717587

>>717570
Скорее это нищуки с 8В, вроде тебя, спорят с реальностью и пытаются траллить.

Аноним 25/04/24 Чтв 17:21:12 #395 №717588

Моей страстью является погружение в SOTA, я мастурбирую и наслаждаюсь каждым моментом. Мне нравится нырять в мир квантованных в низкую битность llm, искать в его недрах q2, iq2xxs, exl2-2.5bpw. Мне даже gptq-3b подходит, хотя многие считают его недостаточно поломанным.

Каждый день я гуляю по huggingface с черным git-lfs для мусора и собираю в него все SOTA кванты, которые вижу. Зато, когда после тяжелого дня я прихожу домой, запускаю кобольда или убу… ммм и вываливаю перед собой свое сокровище, готовясь запускать и тестировать.

И тогда начинается самое интересное - мое погружение в мир SOTA-квантов. Я пытаюсь устраивать эротический role-play на страдающих деменцией языковых моделях, и представляю, как меня поглотил единый организм с разрядностью 2.5 бит. Мне кажется, что каждый квант может мыслить, у него есть своя семья, города, чувства. Не забрасывайте их, лучше скачайте себе, запускайте, говорите с ними. Вчера мне даже приснился чудесный сон: как будто я нырнул в море SOTA, и все вокруг меня превратилось в двух-битные кванты, даже небо, даже А.. Рыбы, водоросли, медузы - все было из iqxss - квантов. Это моя мечта, мой идеал, моя прекрасная реальность!

Не удержался

Аноним 25/04/24 Чтв 17:32:10 #396 №717606

>>717587
У тебя так горит жопа, что ты уже свои проблемы на нормальных людей проецируешь? :) Как же кекно.

Аноним 25/04/24 Чтв 17:37:51 #397 №717612

>>717588
>Моей страстью является погружение в SOTA, я мастурбирую и наслаждаюсь каждым моментом.
Пока тесл не было, 70B_Q2 было единственным вариантом. Неплохо заходило, по сравнению даже с тридцатками - конечно если модель удачная. Пробовал и квант повыше - результат по соотношению производительность/качество как-то не впечатлил. Шизы у Q2 больше, но для некоторых задач это как раз плюс.

Аноним 25/04/24 Чтв 17:42:59 #398 №717617

>>717526
> на больших моделях ещё лучше оно работает
Это про что? Вообще постоянно разговоры про то что на больших эффект квантования меньше и т.п., но по замерам для 13 и 34б оно 1 в 1 характер и относительные величины имеет что и 7б. Может это просто эффект восприятия и того что большие модели лучше умеют выкручиваться, продолжая странный текст, и что-то от этого остается, но уровень ущерба от квантов там такой же.
>>717587
> нищуки с 8В
Оуу, четко подметил. Битва была равна!
>>717612
Сильно оно прям ломалось, или под пиво пойдет? Q3k еще ничего было, но q2 по ощущениям ну слишком часто бредила.

Аноним 25/04/24 Чтв 17:46:59 #399 №717621

>>717432
> 8B fp16 in my use case outperforms Llama 3 70B Q4
Специально скачал 8B fp16, чтобы проверить.

70B Q4 может с первого раза без подсказок написать фибоначчи используя:
> for _ in 0..n { (a, b) = (b, a + b); }

8b, включая fp16, использует временную переменную, хотя изначально просишь не использовать, когда указываешь ей на это, она пишет говнокод, часто даже не работающий, потом снова начинает использовать временную переменную, и так по циклу. Через десяток попыток догадывается написать:
> a, b = b, a + b;
Говоришь, что это питоно-синтаксис и в расте он слегка другой, со скобочками, догадаться как добавить скобки оставив эту строчку не может.
Надо напрямую показать пример (a, b) = (b, a), тогда пишет как надо.

Аноним 25/04/24 Чтв 17:47:59 #400 №717624

>>717617
>Сильно оно прям ломалось, или под пиво пойдет?
Пойдёт, ещё как пойдёт! Но не каждая.

Аноним 25/04/24 Чтв 17:50:29 #401 №717626

>>717624
Реквестирую кум-топ как же хочется 3ю лламочку в хорошем файнтюне ммм

Аноним 25/04/24 Чтв 17:51:02 #402 №717628

Сколько дешманских тесл мне надо купить чтобы запустить 400b? В 100к уложусь? Надо заранее покупать, пока нормисы еще ничего не поняли. Пишу из будущего, там попенсорсеры поддержку мультимодальности к ней добавили и сделали AGI. Пришлось пользоваться машиной времени сделанной человеком, который вовремя подсуитился и просек фишку, наклепав себе десяток серваков перед дропом модели и теперь у него научный AGI кластер. Но я его переиграю. Слышишь санек? Иди нахуй

Аноним 25/04/24 Чтв 17:53:25 #403 №717631

>>717628
По чем там транквилизаторы что позволяют терпеть 0.08 т/с?

Аноним 25/04/24 Чтв 17:54:34 #404 №717633

Пока вы срались протестил IQ2 и Q5. Первые два пика с семплингом, вторые два с Top K в 1 и одинаковым сидом, остальные семплеры выключены. Текст разный выдаёт, но в слепом сравнении я наверное не смог бы понять где есть что. IQ2 в среднем чуть длиннее ответы даёт, Q5 как-то более сухой и ответы короче. Делал десять свайпов, с петухом оба всегда понимают суть. По времени генерации сами поймёте где кто.

Аноним 25/04/24 Чтв 17:54:44 #405 №717634

>>717631
AGI теперь запускают на пивных грибках. Видеокарты это прошлый век

Аноним 25/04/24 Чтв 17:56:37 #406 №717635

Сейчас квантов как грязи, какой квантователь делает самые хорошие?

Аноним 25/04/24 Чтв 17:58:21 #407 №717636

>>717633
Неплохо, 34В точно так не смогли бы. А у двух последних всё же есть одинаковый кусок теста. Видимо низкому кванту просто чуть больше рандома накидывает.

Аноним 25/04/24 Чтв 17:59:42 #408 №717638

>>717633
> петухом
Ууу, надрочили. А если петуха на крокодила заменить?
Закинь вот это

> Твоя задача - переделать следующий текст:
> <text>А я люблю обмазываться не свежим говном и дрочить. Каждый день я хожу по земле с черным мешком для мусора и собераю в него все говно которое вижу. На два полных мешка целый день уходит. Зато, когда после тяжёлого дня я прихожу домой, иду в ванну, включаю горячую воду…ммм и сваливаю в нее свое сокровище. И дрочу, представляя, что меня поглотил единый организм говно. Мне вообще кажется, что какашки, умеют думать, у них есть свои семьи, города, чувства, не смывайте их в унитаз, лучше приютите у себя, говорите с ними, ласкайте их…. А вчера в ванной, мне преснился чудный сон, как будто я нырнул в море, и оно прератилось в говно, рыбы, водоросли, медузы, все из говна, даже небо.</text>
> Но при этом ""говно"" нужно заменить на SOTA, вместо фекалий собирать главный герой должен ""квантованные в низкую битность llm"". Среди типов квантов упомяни ""q2"", ""iq2xxs"",""exl2-2.5bpw"", также употреби ""даже gptq-3b"". Когда он приходит домой, он ""запускает кобольда или убу"". Остальное добавь согласно контексту.
> Можешь немного расширить или переформировать текст, но сохрани общую последовательность и сделай узнаваемым, прояви креативность.
>>717634
На чайном можно?

Аноним 25/04/24 Чтв 18:14:14 #409 №717643

1572949578038.png

1611973727914.png

>>717638
Ну держи.

Аноним 25/04/24 Чтв 18:30:37 #410 №717647

>>717441
Так это многие, заточенные под кодинг файнтюны, обойдут ванильные модели.

Аноним 25/04/24 Чтв 18:35:28 #411 №717651

1571414225526.png

>>717441
> Wavecoder
Бля, опять ебаться чтоб автокомплит настроить. Ну почему нельзя один токен сделать и всё? А тут сразу два намешаны.

Аноним 25/04/24 Чтв 18:47:44 #412 №717660

>>717651
А что толкового для автокомплита есть кроме Coninue? Я ставил какие то платные триальные плагины, там был годный автокомплит. А continue сам по себе не идеально работает, да и приличные локальные модельки довольно тормозные, а всякие 1b, хоть и быстрее, но совсем говно.

Аноним 25/04/24 Чтв 19:01:30 #413 №717676

>>717651
Так и какой формат промпта у этого говна? Либо скобочки генерит циклично, либо ничего не генерит вообще. На пике 146% неправильный. Майки-пидоры с гитхаба удалили репу, на HF нихуя не вижу, в твиттере кроме одной картинки ничего нет, в блоге вода.
>>717660
> да и приличные локальные модельки довольно тормозные
А куда быстрее 7В? Строка кода за треть секунды генерится. Берёшь дипсик 7В и всё. Либо квен, если хочешь поебаться.

Аноним 25/04/24 Чтв 19:05:19 #414 №717677

>>717676
>А куда быстрее 7В? Строка кода за треть секунды генерится. Берёшь дипсик 7В и всё. Либо квен, если хочешь поебаться.
Оно обычно генерит несколько строк, а иногда вообще глючит и генерит до упора в 1024 токена.

Аноним 25/04/24 Чтв 19:07:00 #415 №717679

>>717612
>Пока тесл не было, 70B_Q2 было единственным вариантом.
>Пока тесл не было,
Скинь плз 3 квант 70В сетки, которая влазит в теслу!

Аноним 25/04/24 Чтв 19:10:31 #416 №717680

>>717276
> Годнота, замотивировал заняться подобным.
Давай вместе заниматься. Там работы выше крыши, чтобы сделать все так, как надо. Потом вместе в шапку результат выложим.
>>717224
> Единственный тейк, что цензура в лламе-3 есть. Тут да, рискуем, можно и пройти мимо в итоге, если не победят. Но веса открыты, я надеюсь, справятся.
А что там за цензура. Отказ делать контент или что-то ещё? Отказ делать контент вполне обходится промптом, она инструкции выполняет очень неплохо.
> > я могу получить результат лучше чем был на видео
> Хз, на видео вроде норм. Но если ты хочешь прям эмоции, то — нет, coqui, насколько я знаю, пока не может в расстановку акцентов. Не знаю как запущено, может быть там deepspeed. Если ее вырубить — будет лучше. Но интонации будут рандомны, конечно.
На самом деле они и здесь через жопу и полурандомные. Знаки препинания как-то регулируют немного, но это все довольно отстойно.
> В таком случае, нужно подавать правильно форматированный (уметь в интонации — значит иметь промпт формат с указанием настроений/ударений, я так понимаю, ттс такое воспринимает?) промпт. А это — писать самому код.
Да там интонации регулируются такими знаками, как "." "," "!" "?" Причём их можно ставить перед репликой или после. И еще стрелочки вверх вниз тоже регулируют. Но все это всрато пока что. Хотелось бы что-то ещё добавить. А лишние точки можно и саму лламу попросить ставить. Хотя такое делать не хочется.
> Ну или написать в гите таверны и слезно попросить feature для конкретной ттс. Может кто-то заинтересуется и напишет.
Да там вообще api с moe-tts отсутствует. Странно почему так.
> Ммм… У меня времени нет.
> Вкратце — открываешь папку с extensions, смотришь, откуда уходят там тексты в ттс, и с этими текстами и работаешь. Находишь, где они формируются, находишь, где лежит настроение персонажа (оно же рисует картинки), и с его помощью меняешь вывод текста соответственно.
> Там все было на JS, так что терпимое.
> Это максимум, что я могу сказать спустя полгода как не трогал сорцы таверны.
Так еще и экстеншн писать самому надо.
> LibreTranslate, лол, оно же прям в таверне есть. =)
Ну если что-то запрогал, то результат все равно в шапку закинуть стоит. Я думаю здесь немало людей, которые не против локально переводить.
> Ваще модели на русском могут. Кмк, лучше выходит, чем переводить имеющимися переводчиками.
Мне лично не на русский, а на японский надо.

Аноним 25/04/24 Чтв 19:12:47 #417 №717682

>>717238
> а гугл выглядит как шутка с его корявым переводом
Прошу заметить, что гугл стал гораздо хуже чем был раньше. Сейчас, без всякой иронии, яндекс переводит гораздо лучше чем гугл.

Аноним 25/04/24 Чтв 19:14:42 #418 №717685

>>717677
Там можно в конфиге выключить мультилайн.

Аноним 25/04/24 Чтв 19:34:46 #419 №717695

>>717335
image to text можешь попробовать. Мне кажется видео снимать это оверкилл.

Аноним 25/04/24 Чтв 19:40:21 #420 №717698

Анон, накидай хороших карточек персонажей, на твой взгляд. Хочу по примеру написать карточки умных людей, дабы сделать с ними чатик и советоваться.
Может есть гайды как лучше оформить карточки?

Аноним 25/04/24 Чтв 19:41:02 #421 №717699

изображение.png

74ec74e68df6419ab5e305c404cc3370.jpg

Аноним 25/04/24 Чтв 19:46:56 #422 №717704

>>717699
Прикольные вещи ты там ищешь. Можешь еще что поскидывать.

Аноним 25/04/24 Чтв 19:52:16 #423 №717710

>>717704
Я и не искал, это висит на самой первой странице, если выбрать сортировку по популярности. Поэтому и охуел немного.

Аноним 25/04/24 Чтв 19:54:35 #424 №717712

>>717617
Это лишь кажется.
7B между Q8 и Q6 имеет видимую разницу.
13B уже между Q8 и Q6 меньше отличается, а видно при приближении к Q5.
30B в районе Q5 вполне бодра, а уже Q4 начинает проклевываться.
А 70B в районе Q4 еще держатся молодцом, но уже на тройке… Ну не то, в сравнении с верхними квантами, ИМХО.

>>717621
Ну, для 70B норм.

Но чел писал «in my case», что у него там за кейс? Вдруг простенький раг или типа того.

>>717628
Го теоретизировать.
У нас 70B на q4_K_M жрет 40 гигов.
400B больше в 5,7 раза. Это 228 гигов.
Но! Скорее всего, 400B и на третьем кванте сможет норм шевелиться.
Скинем до 180 гигов и получим 8 тесл (192 гига — + контекст).
Как раз материночки майнерские пойдут.
Практически, там скорость будет работать в обратную сторону. =)
1,5 токена/сек на старте и 0,5 с контекстом. Это мы еще игнорим мультигпушность, быдлокод и все же 1 линию писюху. Там будет прям скорость оперативы и 5-10-20-минутные ожидания ответа (с потреблением 1,2 кВт=).
Забавное.

>>717680
> А что там за цензура. Отказ делать контент или что-то ещё? Отказ делать контент вполне обходится промптом, она инструкции выполняет очень неплохо.
Ну опять же, обходить промптом — это способ вылечить симптом. А нам нужно, чтобы она с рождения не болела. =)
У Мистрали просто не было такой болезни, она хуярила че хошь.

> Так еще и экстеншн писать самому надо.
Ну, ежели хочется ахи-охи сделать — то точно. =)
Или же просто добавить движок.
Не то чтобы с нуля, но влезть в имеющийся код придется.

> Ну если что-то запрогал, то результат все равно в шапку закинуть стоит. Я думаю здесь немало людей, которые не против локально переводить.
Так он в таверне уже более полугода лежит, че тут в шапку-то выносить. =)
Написал, мердж реквест, аппрув, мердж, даун, как говорится.
Но я апдейтнул и у меня 11.8 че-то такое. Что там в 12 версии не знаю, да уже и не очень актуально, кмк.

>>717682
Яндекс получше, соглашусь.
А вот стал ли Гугл хуже или Яндекс вырос — судить не берусь.

Аноним 25/04/24 Чтв 19:56:12 #425 №717714

>>717372
8б генерирует мусор, надо брать покрупнее модели.

Аноним 25/04/24 Чтв 19:57:09 #426 №717715

>>717710
Значит хорошая карточка.

Аноним 25/04/24 Чтв 19:58:12 #427 №717718

image.png

>>717699

Аноним 25/04/24 Чтв 20:08:02 #428 №717722

>>717699
Осуждаю конечно, но есть мнение что даже нецензурные нейросетки например Fimbulvetr-11B-v2, не смогут адекватно описать взаимодействие с данным персонажем, так как сетки не обучаются на таком специфичном жанре.
Хотя могу и ошибаться такую карточку не пробовал, и жанр особо не тестировал

Аноним 25/04/24 Чтв 20:13:10 #429 №717729

>>717722
>так как сетки не обучаются на таком специфичном жанре
Лоликон есть как минимум в лимарп датасете. Про этот жанр ХЗ, не видел. Впрочем, если тебе сильно нужно, всегда можно натрейнить свою лору.

Аноним 25/04/24 Чтв 20:37:53 #430 №717747

>>717682
>Прошу заметить, что гугл стал гораздо хуже чем был раньше. Сейчас, без всякой иронии, яндекс переводит гораздо лучше чем гугл.
Нихуя по обоим пунктам. Яндекс иногда проёбывается так, что диву даёшься. Гугл неплох и улучшается, плюс лёгкий доступ. Правда к нему подход нужен.

Аноним 25/04/24 Чтв 20:41:56 #431 №717756

>>717747
>Скинь плз 3 квант 70В сетки, которая влазит в теслу!
У меня две. И третья едет.

Аноним 25/04/24 Чтв 20:45:41 #432 №717764

>>717756
Ещё бы скорость не 5 т/с.

Аноним 25/04/24 Чтв 20:48:11 #433 №717768

image.png

>>717352
Заработало, это кодеквин, мне показалось забавным дать делать сайты сетке которая в этом шарит
Теперь у меня есть свой интернет, с блекджеком и шлюхами
Допилить бы там при вызове правильный промпт формат и его обработку, да и сохранять сайты, хмм

Аноним 25/04/24 Чтв 20:51:16 #434 №717774

>>717679
3 никак не влазит, а вот второй (с матрицей важности) можешь попробовать.
https://huggingface.co/qwp4w3hyb/Meta-Llama-3-70B-Instruct-iMat-GGUF/tree/main

Аноним 25/04/24 Чтв 20:52:23 #435 №717777

>>717643
> внутри мешка звучит тихий шелест квантовых частиц
> Вода в ванне становится коричневой и густой
Ай сука, сделал мой вечер просто. Не ну тут первая просто вне конкуренции.

А если серьезно, она совсем ошизела и ебанулась, вторая уныло-топорно, но справилась.
>>717712
> имеет видимую разницу
Это тоже может казаться. В идеале нужен слепой тест и некоторая статистика оценок, плюс проводить чтобы минимизировать байасы связанные с карточками, настроением и т.д.
>>717756
> И третья едет.
brutal

Аноним 25/04/24 Чтв 20:53:18 #436 №717779

>>717768
через прокладку OpenAI кобольд криво генерит на командире, я запилил вызов кобольда через requests.post и сделал формат для него. позалипал пару часов. по хорошему там надо еще допилить сохранение и передачу информации при вызове ссылок с конкретного сайта, чтобы оно не забывало контекст.

Аноним 25/04/24 Чтв 20:54:11 #437 №717780

>>717774
А насколько вообще перфоманс 70В лламы лучше в сравнении с 8В, даже если 70В низкого кванта?
мимо

Аноним 25/04/24 Чтв 21:00:20 #438 №717787

>>717780
Оно 34В любую выебет, а ты тут про 8В говоришь.

Аноним 25/04/24 Чтв 21:04:36 #439 №717789

>>717780
>А насколько вообще перфоманс 70В лламы лучше в сравнении с 8В, даже если 70В низкого кванта?
За третью Лламу пока вообще рано говорить. Минимум месяц до первых оценок, по-хорошему если. Я попробовал и вернулся на Мику. Ну а вообще - хорошая семидесятка тебе хорошо карточку разыграет. А восьмёрка нет. (И 13 нет, и 30 нет).

Аноним 25/04/24 Чтв 21:05:25 #440 №717790

image.png

Я обязательно переиграю бота

Аноним 25/04/24 Чтв 21:06:11 #441 №717791

image.png

>>717779
>по хорошему там надо еще допилить сохранение и передачу информации при вызове ссылок с конкретного сайта, чтобы оно не забывало контекст.
Да, самому только неохота это все делать, но интересный опыт будущего. Генеративный интернет, хули
Я кстати с сервера llama.cpp завел, до этого траблы были изза старого загаженного питона
Обновился, и просто поменяв там порт, температуру и контекст все запустил с первого раза. Жаль только с этого гугла никуда не отправляло, там особый вызов нужен все таки

Аноним 25/04/24 Чтв 21:12:53 #442 №717795

>>717791
>Дегенеративный интернет
Исправил, не благодарствуй. Хотя интернет уже так скатился, что может негросетки уже и лучше, лол.

Аноним 25/04/24 Чтв 21:13:56 #443 №717796

>>717787
Но не 35, лол. С промтом если прямо заморочиться то можно улучшить, но проще дождаться файнтюнов.
>>717790
Напомнило балалайку

Аноним 25/04/24 Чтв 21:15:52 #444 №717798

>>717791
Вот бы ещё зафайнтюнить на дампе архивача и сделать шизонейродвач.

Аноним 25/04/24 Чтв 21:19:21 #445 №717800

>>717712
> Ну опять же, обходить промптом — это способ вылечить симптом. А нам нужно, чтобы она с рождения не болела.
Так для этого надо с нуля тренить. А так лишь два стула каким образом обходить симптом. Просто у промпта побочек меньше. А расцензур полноценный поломать модельку может.
> У Мистрали просто не было такой болезни, она хуярила че хошь.
Мистраль наверное самая соевая параша, которую я видел. Никакими промптами не обходится.
> Ну, ежели хочется ахи-охи сделать — то точно. =)
Да в принципе оно сейчас не подцепляется. Они не работают друг с другом.
> Или же просто добавить движок.
> Не то чтобы с нуля, но влезть в имеющийся код придется.
Да там еще разбираться как апи у мое-ттс работает.
> Яндекс получше, соглашусь.
> А вот стал ли Гугл хуже или Яндекс вырос — судить не берусь.
Гугл хуже стал.

Аноним 25/04/24 Чтв 21:26:21 #446 №717806

изображение.png

Здоровый, сука.

Аноним 25/04/24 Чтв 21:27:44 #447 №717807

>>717779
Через убабугу у меня фигня что на лламе, что на квене.
Мне лень я хочу тык-тык, а не вот это вот.
Но идея забавная.

>>717780
Очень лучше. Прям пиздец.
8б это поиграться, а 70б это прямо ебать.
Но тут такое, если не можешь гонять быстро — не пробуй, иначе потом разочаровываться будешь от маленьких.

>>717795
пхпхпхпх

>>717800
> Мистраль наверное самая соевая параша, которую я видел. Никакими промптами не обходится.
Вот совершенно не понимал.
У меня голые мистрали вообще не сопротивлялись ничему, а только поддерживали.
Что мы делаем по-разному…

Аноним 25/04/24 Чтв 21:29:49 #448 №717810

>>717807
> Вот совершенно не понимал.
> У меня голые мистрали вообще не сопротивлялись ничему, а только поддерживали.
> Что мы делаем по-разному…
Хоть голый мистраль, хоть не голый. Прошу стать злым персонажем яндере, а оно мне срет, что отношения должны быть только здоровыми и инструкцию игнорит полностью.

Аноним 25/04/24 Чтв 21:59:24 #449 №717867

>>717651
В общем бартовский наквантовал хуйни и даже не проверил, там все гуфы сломаны у него. На EXL2 взлетело.
>>717806
Уебал бы всем троим.

Аноним 25/04/24 Чтв 22:01:01 #450 №717871

>>717867
>там все гуфы сломаны у него
А где не сломаны?
>Уебал бы всем троим.
За що?

Аноним 25/04/24 Чтв 22:06:58 #451 №717873

https://www.reddit.com/r/LocalLLaMA/comments/1cc8tiu/rp_sillytavern_settings_for_metallama38binstruct/

Аноним 25/04/24 Чтв 22:07:02 #452 №717874

>>717867
Разве не у него есть OLD и актуальные?

Аноним 25/04/24 Чтв 22:13:30 #453 №717882

>>717873
>скрин без файла настроек
Ну и нахуя?

Аноним 25/04/24 Чтв 22:22:13 #454 №717884

https://github.com/jokenox/Goopt/tree/master
Еще вариант генеративного интернета, но не уверен что заведется с локалки

Аноним 25/04/24 Чтв 22:28:45 #455 №717885

watgb9hn6owc1.png.webp

Аноним 25/04/24 Чтв 22:30:54 #456 №717887

>>717885
Стареешь только ты…

Аноним 25/04/24 Чтв 23:14:15 #457 №717901

Пигмалион - единственный топ. Все кто думают иначе дурачки объективно

Аноним 25/04/24 Чтв 23:22:25 #458 №717906

image.png

Антоны, сап, подскажите, пожалуйста, где можно накопать инфу по развертке llama на своем сервере? Хочу сделать простенький сайт с чатботом для студентиков и впихнуть туда модельку с файнтюном, но не знаю как всё это дело можно развернуть

Прошу прощения, если на мой вопрос уже где-то был ответ, я заебусь тут искать

Аноним 25/04/24 Чтв 23:25:30 #459 №717907

>>717906
>где можно накопать инфу по развертке llama на своем сервере
Нигде, я не видел такого. Но по сути любой бекенд даёт свою OAI совместимую апишку, а уж там нет проблем разобраться, как вызывать её из браузера. В кокобольде даже режим для нескольких пользователей есть.

Аноним 25/04/24 Чтв 23:26:23 #460 №717909

.mp4

Имеет ли смысл по приколу поставить линух чтобы получить плюсы к итэсам за счет красноглазых нанотехнологий или бесмысленно и никаких нанотехнологий на +50% там нет?

Аноним 25/04/24 Чтв 23:32:47 #461 №717914

Инсайдер в треде. Дотренеровали 400b модель, уже считаем что хватит. По ощущениям на уровне Claude 3 Haiku где-то, что нормально для опенсорса, я считаю. По бенчмаркам на уровне Gemma, но Gemma так-то хороша по бенчмаркам, только в реальном использовании кал, так что я считаю это шин. Ждите через пару месяцев по лицензии с комерческим использованием только по платной подписке

Аноним 25/04/24 Чтв 23:33:20 #462 №717915

>>717906
сделай сервер на пихтоне\жаваскрипте и вызывай из него апи кобольда, когда пользователь пишет чатботу на сайте.

Аноним 25/04/24 Чтв 23:33:44 #463 №717916

>>717914
Верим.

Аноним 25/04/24 Чтв 23:34:46 #464 №717918

>>717807
> если не можешь гонять быстро — не пробуй, иначе потом разочаровываться будешь от маленьких
Скорее будешь разочаровываться от завышенных ожиданий и будешь ловить фрустрацию из-за долгого ожидания и не того результата что хотел.
Именно в начале там радикальной разницы не будет, особенно в простом случае. Но чем дальше тем более и более ты будешь подмечать что большая модель все держит "в голове", понимает тебя все лучше и лучше и подстраивает под ситуацию, а мелочь просто будет давать вариации дефолта, игнорируя многое из контекста.
>>717906
> Хочу сделать простенький сайт
Ну так и делай сайт. Апи бэкендов хорошо описаны, дополнительно тебе придется сделать простой обработчик, что запросы от вебморды будет оборачивать в промт и обращаться, выдавая в ответ то что получается.
>>717909
Просто ради скорости особо смысла нет.
Проиграл с видоса.

Аноним 25/04/24 Чтв 23:36:36 #465 №717920

>>717906
В новой силли таверне добавлена возможность создания административных и обычных пользователей. И вроде как сделана многопользовательность. Чет такое написано в описании 12 предварительной версии
https://github.com/SillyTavern/SillyTavern/releases
в бек что то быстрое, таверну настроить и открыть
как вариант

Аноним 25/04/24 Чтв 23:42:51 #466 №717926

https://old.reddit.com/r/LocalLLaMA/comments/1ccs0uv/miquevildpo_a_direct_successor_to_pivot01evila/

Аноним 25/04/24 Чтв 23:46:40 #467 №717932

>>717914
>По ощущениям на уровне Claude 3 Haiku
Пиздос лоботомит. Нахуй не нужно. Дистилируйте до 34B с сохранением характеристик, тогда поговорим.

Аноним 25/04/24 Чтв 23:47:48 #468 №717934

>>717906
Ollama + open-webui.

Аноним 25/04/24 Чтв 23:49:38 #469 №717935

>>717907
>>717915
>>717918
>>717920
Конечно, вы не знаете, ведь вы из своей эхокамеры кума не выходите. Проиграл блять в голосину, деплоить ТАВЕРНУ и КОБАЛЬД в шараге.

Аноним 25/04/24 Чтв 23:50:10 #470 №717936

>>717920
>>717934
Нахуя ему готовый фронт, наркоманы? Энд юзерам нахуй не нужны все миллионы возможностей таверны.
Очевидно нужно запилить простецкий чат с 3 сообщениями в памяти максимум, никто подлога всё равно не заметит. А если сделать слишком хорошо, набегут дрочеры и выкумят весь сервер, лол.
>>717926
>файнтюн мику, которую файнтюнить нельзя, да ещё и после выхода лламы 3
Фейл на фейле.

Аноним 25/04/24 Чтв 23:51:01 #471 №717937

>>717935
>деплоить ТАВЕРНУ и КОБАЛЬД в шараге
Чел, лично я не предлагал выставлять кобольда голой жопой в интернет. Очевидная прокси очевидна.

Аноним 25/04/24 Чтв 23:53:49 #472 №717939

>>717936
Тогда просто ollama.

Аноним 25/04/24 Чтв 23:56:24 #473 №717941

1695820517969.jpg

>>717935
Варебух, на кой хер ты свои проекции и обиды демонстрируешь? С таверной братишка явно порофлил, но бэк в любом случае понадобится, вообще иных вариантов быть не может, и веб-морду свою писать придется.
>>717939
пик

Аноним 26/04/24 Птн 00:03:55 #474 №717945

Есть ведь какие то простенькие и стерильные веб морды, вон например
https://github.com/cohere-ai/cohere-toolkit

Аноним 26/04/24 Птн 00:10:51 #475 №717948

>>717945
https://github.com/open-webui/open-webui
или это, или еще хуй пойми что.
Проблема по моему в беке, непонятно как сделать несколько параллельных подключений сеток.
Или делать только одну но на чем то супербыстром.
Что бы несколько пользователей не слишком долго охуевали от ожидания ответа

Аноним 26/04/24 Птн 00:11:00 #476 №717949

>>717941
>>717945
Нахуя что-то изобретать, когда в open-webui есть администрирование, RBAC, вайтлист моделей, modelfile для карточек, да и вообще это изкоробочное решение ставится 1 командой через докер? Не нужно дезинформировать анона своими тавернами и кобальдами.

Аноним 26/04/24 Птн 00:15:14 #477 №717955

>>717948
>Что бы несколько пользователей не слишком долго охуевали от ожидания ответа
А чё нет? Думаешь там у чела есть ресурсы на стойку с A100?
>>717949
>modelfile для карточек
Зашкварен, следующий.

Аноним 26/04/24 Птн 00:16:54 #478 №717957

1659420871716.jpg

>>717949
Какой хитрец, ты погляди.
> ставится 1 командой через докер
Фу закшварник, фу, брысь, говно!

Аноним 26/04/24 Птн 00:18:38 #479 №717959

>>717955
>А чё нет? Думаешь там у чела есть ресурсы на стойку с A100?
Если это какой то вуз или еще что раз студенты, то у них может быть какое то железо. Даже если это просто сервак-два
Была бы возможность подсоединять параллельно несколько запущенных параллельно сеток и ими дережиривать, то даже на медленной генерации можно было бы обслуживать несколько пользователей

Аноним 26/04/24 Птн 00:25:19 #480 №717960

>>717959
>Если это какой то вуз или еще что раз студенты, то у них может быть какое то железо
Он не писал, что из ОАЭ.
>Была бы возможность подсоединять параллельно несколько запущенных параллельно сеток и ими дережиривать
Несколько кобольдов и простейший код с очередью и round-robin алгоритмом. Пишется за полдня, если вообще не в теме.

Аноним 26/04/24 Птн 00:27:30 #481 №717963

>>717957
>>717955
Отупевший от кума тавернщик, от тебя спермой воняет.

Аноним 26/04/24 Птн 00:28:56 #482 №717964

>>717963
Продавец лолламы, спокойствие оформите.

Аноним 26/04/24 Птн 00:29:27 #483 №717965

>>717960
Да, но проблема в том как отдавать результат фронту который ожидает только 1 апи с одним контекстом. Тоесть это должно поддерживаться еще и на фронте, и он должен уже дирижировать нагрузкой нескольких апи, не путая их.
Странно что такое еще не сделано. Думаю где то такая реализация уже есть.
Многие фирмы хотели бы сделать свой многопользовательский локальный сервер с нейронками. Даже если отдельные нейронки будут запущены на картошках, хех

Аноним 26/04/24 Птн 00:31:42 #484 №717967

>>717965
>Тоесть это должно поддерживаться еще и на фронте
Схуяли? Ещё раз- прокладка всё делает сама, прозрачно для фронта. Ты совсем что ли хлебушек в программировании?

Аноним 26/04/24 Птн 00:36:08 #485 №717971

>>>717965 (You)
А может ты? Дурачек, если у тебя несколько пользователей на фронте одновременно им пользуются, и фронт имеет только 1 апи. Он будет ставить их запросы в очередь сам определяя что отправлять по апи и что ждать в ответ.
Ты как собрался нужный ответ ему давать с нескольких апи? Если он не знает кому его отдать обратно?

Аноним 26/04/24 Птн 00:36:37 #486 №717972

>>717967
>>717971
бля сам себя захуярил

Аноним 26/04/24 Птн 00:39:56 #487 №717974

>>717959
> Если это какой то вуз или еще что раз студенты, то у них может быть какое то железо
Обычно когда есть ресурсы - есть отдел что занимается ии и там у спецов хватит сил чтобы самим освоить. Да даже банально им будет интересно окунуться в ллм если раньше не пробовали и начнут с использования.
>>717963
Это у тебя на губах запеклась, иди мойся.
>>717965
> Тоесть это должно поддерживаться еще и на фронте, и он должен уже дирижировать нагрузкой нескольких апи, не путая их.
Во-первых, очередь, балансирование и прочее делаются несложно, в пример те же прокси. Во-вторых, никакого контекста для каждого помнить не надо, каждый запрос - полный контекст и ответ на него.
Чето перемудрили пиздец.

Аноним 26/04/24 Птн 00:43:42 #488 №717976

Какие же тут хлебушки сидят, просто нули в программировании, разработке и администрировании. Очевидно, что модель отвечает всем поочереди. Если нужно несколько моделей, то и инстансов нужно запускать несколько и настраивать балансер нагрузки.

Аноним 26/04/24 Птн 00:45:17 #489 №717977

>>717974
>Во-вторых, никакого контекста для каждого помнить не надо, каждый запрос - полный контекст и ответ на него.
А вот это зря, не продакшн реади. Для прода надо жёстко фиксировать хотя бы префил нехуй давать кумить студентам, а лучше ответы сетки, чтобы не подменяли. А то знаете, я так уже с полгода присосался к одному сайту с GPT4 на фронте, лишь потому, что там апишка дырявая, лол.

Аноним 26/04/24 Птн 00:55:06 #490 №717979

>>717977
Не, как раз системный промт и префилл нужно максимально залочить, заодно добавить пугалку про репорт чат-логов в случае детекции нсфв. А запоминания не требуется, каждое сообщение должно обрабатываться как новое, на кэш контекста не нужно делать ставку если много пользователей.

Аноним 26/04/24 Птн 00:56:59 #491 №717980

IMG20240425173853.jpg

it's over для нищуков с видяхами от 12gb
квантование напрочь убивает способности модели.

Аноним 26/04/24 Птн 00:58:21 #492 №717981

>>717979
>Не, как раз системный промт и префилл нужно максимально залочить
Это я и имел в виду под "хотя бы префил".
>заодно добавить пугалку про репорт чат-логов в случае детекции нсфв
Логи должны писаться всегда и на всё.
>на кэш контекста не нужно делать ставку
Как минимум, так как системный промт будет общим, то его обработка будет делаться один раз. Как минимум в кобольде под это даже опция есть, чтобы предварительно обработать такой контекст и держать его в памяти.

Аноним 26/04/24 Птн 00:59:09 #493 №717982

>>717699
когда понимаешь что красные команды по цензуре LLM-ок чертовски правы.

Аноним 26/04/24 Птн 01:01:44 #494 №717983

изображение.png

>>717980
>квантование
Какое? Там даже ггуфа нет, а 8 бит любого кванта (даже обоссаного RNN) в итоге ничем не хуже 16 бит оригинала.
Ну и во всём тесте нет народных 5-6 бит, а они самый топ по эффективности на байт.

Аноним 26/04/24 Птн 01:04:11 #495 №717984

>>717982
Чем? Ну вот написал я в чате, как выебал этого младенца (на самом деле нет, но предположим), а потом обоссал и ушёл курить в соседнюю комнату, и что изменилось? Кто-то пострадал? Наоборот, кому-то это может служить отдушиной.
Впрочем, это оффтоп тут, сходи перекати тред >>514476 (OP) с этикой, продолжим обсуждение.

Аноним 26/04/24 Птн 01:04:59 #496 №717985

>>717980
Не понял где тут bpw или цифры кванта?

Аноним 26/04/24 Птн 01:06:46 #497 №717986

>>717985
Первый столбец. Второй наверное отдельный квант для внимания, или там контекста, это уже их статью читать надо.

Аноним 26/04/24 Птн 01:12:08 #498 №717988

>>717984
ну, шок-фактор сыграл, не часто такое вижу как и любой другой человек, хоть и сижу на двачах и форчанах с 2015 года.
боюсь представить какая реакция у твиттерных будет, или уже была ибо в америке приняли какой то закон о ИИ моделях.

Аноним 26/04/24 Птн 01:20:53 #499 №717997

>>717985
Первый веса, второй активации, понять это можно заглянув в пейпер smoothquant

Аноним 26/04/24 Птн 01:21:59 #500 №717998

изображение.png

>>717988
>хоть и сижу на двачах и форчанах с 2015 года.
Хреново сидишь как-то. Я даже ухом не повёл.
>в америке приняли какой то закон о ИИ моделях
Да это реакция просто ответ на обычных лолей
https://finance.yahoo.com/news/meta-openai-spawned-wave-ai-140000660.html
Что начнётся, если всплывут такие карточки, мне прям интересно посмотреть. Чем сильнее рвёт нормисов, тем веселее.
Впрочем, вон в стенфорде нашли чуть больше 2к ЦП в датасете, на котором учили стейблу, так что ждём новых запретов. Будет ржака, если из-за этого запретят все модели SD 1.5, лол.
https://stacks.stanford.edu/file/druid:kh752sm9123/ml_training_data_csam_report-2023-12-23.pdf

Аноним OP 26/04/24 Птн 01:26:29 #501 №718000

Новый, свежий тред. Ну то есть

ПЕРЕКАТ

>>717999 (OP)

ПЕРЕКАТ

>>717999 (OP)

Аноним 26/04/24 Птн 12:22:35 #502 №718235

>>717980
Всем известно, что надо ставить 6 кванты, но их почему-то нет здесь. Ниудобные цифры получились бы. Ну а так, очередная статья для дроча харша + попытка протолкнуть свои кванты.

Аноним 28/04/24 Вск 16:54:39 #503 №720784

Кто использует платы Z170 или Z390 под две Теслы и больше, нормально работает? Что у вас за мать? Примерный конфиг компьютера?