24 декабря Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №52 /llama/

 Аноним 19/04/24 Птн 13:43:20 #1 №709757 
Llama 1.png
Альфа от контекста.png
Деградация от квантования новая.png
Самый ебанутый охлад P40-3.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Впрочем всем похуй, всё одно говно без размеров и с соей, размером только 8B и 70B.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>704905 (OP)
>>699623 (OP)
Аноним 19/04/24 Птн 13:50:56 #2 №709764 
Кто-то понял как лечить .assistant у лламы3 в ответах?
Или качать не инстракшн версию?
Аноним 19/04/24 Птн 13:54:18 #3 №709768 
>>709764
>Или качать не инстракшн версию?
Ну да. У меня на Meta-Llama-3-8B.Q6_K.gguf таких приколов не было. Но с другой стороны она хуже затыкается, забывая про стоп токен.
Аноним 19/04/24 Птн 14:01:51 #4 №709772 
уже кто-то натюнил токсичную модель на обновлённом unalignment/toxic-dpo-v0.2 датасете (v0.1 версия отлично вписалась в SOLAR-10.7B бтв)
https://huggingface.co/raincandy-u/Llama-3-8b.UNLEASHED
Аноним 19/04/24 Птн 14:06:03 #5 №709774 
https://github.com/meta-llama/llama3/blob/main/llama/tokenizer.py#L228
>tokens.extend(self.encode_header({"role": "assistant", "content": ""}))
Это просто лол нахуй.
Аноним 19/04/24 Птн 14:08:24 #6 №709776 
firefox4Ek2sBHlKV.png
>>709764
если юзаешь ST. тупо скачай вот это : https://files.catbox.moe/1rzg32.json
импортируй его в Context Template и Instruct Mode, а так же убери галку с "Skip Special Tokens" в разделе семплеров.
так же можешь попробовать пикрил параметры, у меня всё работает отлично. (тык на neutralize samplers и затем выставляй значения).
Аноним 19/04/24 Птн 14:09:28 #7 №709777 
>>709760 →
>i кванты
Вряд ли там матрицу важности подгоняли под какие-то языки, кроме английского, поэтому мне для тестов переводов лучше, как я понимаю, взять обычный "усреднённый" квант.
Аноним 19/04/24 Птн 14:10:11 #8 №709779 
>>709774
Поясни, что это значит....?
Аноним 19/04/24 Птн 14:10:56 #9 №709780 
firefox4y3QFEO4g6.png
лол
https://chat.lmsys.org/?leaderboard
Аноним 19/04/24 Птн 14:19:20 #10 №709784 
>>709780
Сука, как же меня трясет
Аноним 19/04/24 Птн 14:20:38 #11 №709786 
>>709780
Не уверен что это прям так, но какие-то такие ощущения от этой модели, действительно. Ну во всяком случае это явно не 8Б, подозрительно как-то.

Я думаю мы видим ответ на вопрос - что будет если тренировать мелкую модель на дохуя языков и вбухать в 75 раз больше компьюта чем считалось оптимальным по шиншилле (как говорит Карпати, можно вбухать ещё на 2-3 порядка больше). Правило Шиншиллы оптимально по отношению флопсы/результат, но если у тебя избыток флопсов, то судя по всему получается примерно это.

Цук в интервью сказал что они закупили море H100 для рекомендательной системы пейсбука, и борщанули, половина лежала без дела. Вот в это и пустили.
Аноним 19/04/24 Птн 14:21:35 #12 №709787 
image.png
>>709780
Наш рептилий благодетель всё таки смог
Аноним 19/04/24 Птн 14:22:46 #13 №709789 
изображение.png
>>709784
Причина тряски?
Интересно, хули гопота 0613 так низко, она же самая менее соевая.
Аноним 19/04/24 Птн 14:22:51 #14 №709790 
>>709779
По факту, ассистант захардкодили, предвижу проблемы с ролеплеем. Скорее всего, ещё и при тренировке. Если вкратце, то зайди в параметры генерации и закинь "assistant", как Custom stopping strings. В остальном, уёбищный формат темплейта, который скорее всего использовался и при тренировке.
Аноним 19/04/24 Птн 14:23:07 #15 №709791 
1.png
>>709790
Хули пик-то отвалился, блядь.
Аноним 19/04/24 Птн 14:27:04 #16 №709792 
Мда ну и скорости на процессоре
На свежей ллама.спп с куда, без выгрузки слоев
c4ai-command-r-v01-Q4_0.gguf 18.8 гб генерация 2.02 т/с
модель поменьпше
c4ai-command-r-v01-imat-IQ3_M.gguf 15.5 гб генерация сраных 0.79 т/с
c4ai-command-r-v01-imat-Q4_K_S.gguf 18.9 гб генерация 2.21 т/с

Так бля какого хрена, тоесть матрица важности норм, а i кванты хуйня.
Окей, осталось еще проверить будет ли разница на обычном кванте Q4_K_S, но его еще качать хз сколько

>>709780
Значит только то что модель успешно создает ощущение большой умной сетки в коротких разговорах

>>709777
Скорей всего да, лучше обычный квант в таком случае, ну и если будешь на процессоре крутить можешь упереться в i кванты, так как они медленнее

>>709772
Интересно будет посмотреть на сколько пробили сою, помоему без серьезного дообучения нереально от нее избавится
Аноним 19/04/24 Птн 14:36:46 #17 №709799 
Чей ггуф новой 8б лламы качать?
Аноним 19/04/24 Птн 14:40:42 #18 №709802 
>>709799
мой
Аноним 19/04/24 Птн 14:41:56 #19 №709803 
>>709799
Ладно, качаю
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/tree/main
Аноним 19/04/24 Птн 14:42:41 #20 №709804 
>>709792
>i кванты хуйня.
хуйня у коня. Давно известно что самый быстрый квант IQ4_XS. Гавном от 3 и ниже пользоваться нет смысла абсолютно никакого. Оно не кардинально меньше в размере - раз, оно медленне почти в два раза - два. А то типо выиграл два гига а скорость 0,7 хуя вместо двух. По 4_0 у тебя судя, скорость с будет 4XS - 1.8-2тс минимум
Аноним 19/04/24 Птн 14:45:01 #21 №709805 
>>709804
А почему IQ3_M медленнее то? Хочешь сказать на процессоре будет быстрее IQ4_XS? Ну, я могу и его качнуть и проверить
Аноним 19/04/24 Птн 14:54:21 #22 №709819 
>>709805
>почему IQ3_M медленнее
не только этот квант, вообще все I3. Ну вот так сделал икавраков i кванты. Он хотел исправить это, но воз и ныне там. Вобщем в i квантах имеет смысл качать 3 и ниже если только модель просто иначе не влезет в рам.
Аноним 19/04/24 Птн 14:57:38 #23 №709822 
>>709819
Окей, качну IQ4_XS, а в чем он отличается от Q4_K_S?
И как думаешь, пострадает ли русский если с матрицей важности качать 4 кванты?
Аноним 19/04/24 Птн 15:08:44 #24 №709828 
>>709822
>Окей, качну IQ4_XS
Отпишись потом о скорости, а то с этими i-квантами и правда непонятка какая-то. Многие качали мелкий квант и плевались, а может и правда они поломанные.
Аноним 19/04/24 Птн 15:12:41 #25 №709831 
image.png
>>709743 →
> Хватит повторяться как попугай.
> Шиз?
Да какой хочешь себе диагноз, такой и ставь.
Я к тому, что этому аргументу скоро год, арена не нравилась многим с момента выхода.
Но все эти тесты еще дальше от реальности, чем арена, вот и все.

> В той же арене до сих пор из клоды первая, весьма днищенская, в лидерах и опережает вторую и опуса?
Что? :)
Пикрил.

> Сейчас дошли до того что пытаются даже юзер-экспириенс бенчмарки компрометировать надрочкой, смотри те же загадки и популярные вопросы.
Офк, хуйня, но практика пока более-менее совпадает с ареной, поэтому причин доверять синтетическим тестам, расходящимся и с практикой, и с ареной — особо-то нет.

>>709780
Ну так Микстраль-то и была где-то там, в серединке, не выстрелила нихуя.
Чему удивляться. =)

———

Про кванты интересная хуйня, конечно.
Надо будет попробовать качнуть небольшую несколько вариантов и затестить.
Аноним 19/04/24 Птн 15:14:20 #26 №709835 
>>709764
Попробовал погонять с разными изменениями рекомендованного пресета - по-видимому, проблема в том, что не генерится EOS токен, который в токенайзере должен быть <|end_of_text|>. Поэтому когда сетка хочет завершить свой ответ, она EOS токен пропускает, как будто он забанен, и пытается начать новый ответ ассистента, ставя <|start_header_id|>assistant<|end_header_id|>, что в выводе преобразуется как раз просто в assistant\n\n. Если использовать другой пресет (я пробовал свой кастомный на основе чатмл) или оставить пустыми поля инстракта для юзера и асситанта, кроме последнего ответа, то срать ассистантами начинает гораздо меньше, но начинает пытаться продолжать чат за пользователя, вставляя {{user}}: после ответа, т.к. EOS токен всё ещё не генерится. Также чатмл формат периодически подхватывает и пытается завершать свои сообщения <|im_end|>.
Аноним 19/04/24 Птн 15:15:46 #27 №709837 
>>709822
почти ничем не отличаются по качеству и по скорости, только i меньше в размере занимает.
Если сомнения - скачай без матрицы, такие тоже есть. По себе скажу - не заметил вреда русскому, но с другой стороны я ведь не лингвист. Сначала был квант на матрице от икавракова на файле groups_merged.txt, потом перекачал другой квант с матрицей на вики трейн - разницы в русском не увидел.
Аноним 19/04/24 Птн 15:17:21 #28 №709840 
auudR7KD6AgDCxCk8Zm1100205647100mp4264hd.mp4
>>709757 (OP)
https://aliexpress.ru/item/1005006155095429.html
Китайцы прилепили нормальный кулер к Tesla P40.
Никто ещё не покупал подобные моды?
Аноним 19/04/24 Птн 15:18:46 #29 №709841 
>>709835
Используй assistant как eos.
Аноним 19/04/24 Птн 15:38:04 #30 №709856 
>>709840
>24 460 ₽
Ну как-то удачи им что ли в продажах
Аноним 19/04/24 Птн 15:39:35 #31 №709859 
image.png
>>709828
https://huggingface.co/qwp4w3hyb/c4ai-command-r-v01-iMat-GGUF/discussions/2
У этого парня все качал, но выяснилось что ллама.спп обновила шаблон чата и в итоге он еще не перезалил командера с последними обновлениями
Хуй знает как это повлияет на производительность, по идее никак. Просто будет удобнее использовать готовые кванты, как я понимаю.
Ну к вечеру скачается, протестирую. Не забуду напишу сюда

------------------------

Кстати говоря запустил так же потыкать qwen1_5-32b-chat-q4_0.gguf
Запустилась с куда без тарабарщины, как в codeqwen-1_5-7b

Скорости такие же как в командере, по мозгам умнее всех моделей что меньше ее. По идее неплохая базовая модель может выйти, а на закуску у нее 65 слоев, вместо 42 у командера 35b.
Командер нам в базовой версии модели недоступен, а она есть.
Хотя она скорей всего хуже его, в русский может едва

Ну а сейчас опять будут только новую ламу дрочить 8b, ладно если 1-2 файнтюна на квен 32 выйдет.
На пикче вывод квен 32 в чатмл без перевода. Тестами тыкать лень
Аноним 19/04/24 Птн 15:57:18 #32 №709875 
>>709840
Не прилепили кулер, а полностью заменили радиатор на нормальный с подходящей видеокарты.
Цена конечно пиздец, но как-то так они на Али и стоили.
Аноним 19/04/24 Птн 16:04:34 #33 №709883 
>>709856
+ деньги
- пердолинг с картой и покупка улитки и коннектора для нее с тратой часов/дней на все это

Я думаю все таки это стоит своих 24к, хоть и на грани
Аналогов на 24г врам все равно нет дешевле
Аноним 19/04/24 Птн 16:06:50 #34 №709888 
https://huggingface.co/MaziyarPanahi/Llama-3-13B-Instruct-v0.1-GGUF
ну а вдруг в этот раз получится что-то хорошее?
Аноним 19/04/24 Птн 16:16:28 #35 №709895 
>>709888
>This model is a self-merge of meta-llama/Meta-Llama-3-8B-Instruct model.
Чёт я не понял, как он это родил? но кочаю
Аноним 19/04/24 Птн 16:18:05 #36 №709897 
>>709895
Как обычные 11b слепленные из 7b
Только теперь изза 8b на выходе бутерброд на 13b получается
Может даже умнее, но скорей всего будет шизить немного
Аноним 19/04/24 Птн 16:23:46 #37 №709901 
1.png
>>709895
Мержекитом. Есть даже два рабочих способа сделать это - чередуя слои или пришивая к концу начало.

В целом, впечатления от лламы-3 в итоге, как от какого-то васянского поделия. PAD токена нет, OES токена нет, везде вшит "ассистент", объяснения, извинения и т.д. Но поиздеваться над ней можно.
Аноним 19/04/24 Птн 16:29:02 #38 №709905 
>>709901
>Мержекитом. Есть даже два рабочих способа сделать это - чередуя слои или пришивая к концу начало.
А в этом есть хоть какой-то практический смысл?
Аноним 19/04/24 Птн 16:36:54 #39 №709910 
ZIG.png
>>709905
Таки 20b считаются умнее, чем 13b, а они получены путём подобных богомерзких телодвижений.
Аноним 19/04/24 Птн 16:41:02 #40 №709914 
>>709910
Лол, искусственную личность ассистента вылепили еще более явно чем раньше, раз уж сквозь отыгрышь пробивается
А это означает меньшую вариативность отыгрыша, ну и то что сетка надрочена на определенное хорошо и плохо.
Как я и предсказывал давным давно, хули
Аноним 19/04/24 Птн 16:54:23 #41 №709926 
>>709888
теперь с таких двух пусть слепят двадцатку. Надо подождать пока нафайнтюнят кучу восьмерок и икари дев с унди нашлепают с них франкенштейнов по двадцать, а вообще чет как-то накуй не нужна лама 3 - пока что не увидел ничего неебического в ней, в отличие от командира - не впечатлило.
Аноним 19/04/24 Птн 17:06:48 #42 №709946 
image.png
>>709792
>>709828

c4ai-command-r-v01-imat-IQ4_XS.gguf размер 17.8 гб, скорость генерации 1.77 т/с
Ну, при меньшем размере чем Q4_K_S, скорость на 0.4 меньше, эт где то падение скорости генерации на 20 процентов, что довольно дохуя
И я делаю вывод что конкретно мне лучше крутить Q4_K_S, с матрицей или без, лишь бы не i кванты.
Кстати говоря, чтение промпта на Q4_K_S и Q4_0. держалось около 6-7 т/с
i кванты все около 2-3 т/с, конкретно этот - 2.62 т/с

>>709926
Это так не работает, смешать 4 сетки уже не выйдет. Вот если по методу solar 8b дообучат нарастив слоев, до 12b, вот тогда их уже можно будет попробовать смержить до 18-19b, но что получится хз
Аноним 19/04/24 Птн 17:09:43 #43 №709950 
изображение.png
изображение.png
изображение.png
изображение.png
Прогнал по базе эту вашу ллама 3 на 70B. Вердикт- сломан стоп токен напрочь, модель не может заткнуться.
Базы не знает, но с петухом самый креативный ответ (если бы не луп).
Аноним 19/04/24 Птн 17:13:17 #44 №709954 
>>709926
Тут уже проблема. Сделать двадцатку из этой 8b можно только в длину, наращивая по слоям. В ширину я пробовал, нужно полный файнтюн проводить, иначе пиздец. Но скорее всего двадцатки из этой модели будут и будут скоро.

>>709950
Стоп токен это assistant
Аноним 19/04/24 Птн 17:17:35 #45 №709958 
image.png
>>709888
Ну такое...
Аноним 19/04/24 Птн 17:20:12 #46 №709961 
>>709954
>Стоп токен это assistant
Так она и асистента высрала только в половине случаев. В остальных бредит без него.
Аноним 19/04/24 Птн 17:23:35 #47 №709964 
>>709841
Пиздосю, а если у меня легитимный assistant посреди текста?
Аноним 19/04/24 Птн 17:24:40 #48 №709965 
>>709964
Да поищите на реддите или гитхабе, уже были нормальные воркараунды.
Аноним 19/04/24 Птн 17:26:58 #49 №709966 
изображение.png
>>709965
Ага, использовать любой неродной формат промта. Вот с альпакой, стоп токен прекрасно находится.
Аноним 19/04/24 Птн 17:26:58 #50 №709967 
Вы это видели? - он уже засайгачил ламу 3. Вопрос нахуа это надо если и так по русска балакает - видимо не стоял.
https://huggingface.co/IlyaGusev/saiga_llama3_8b
Аноним 19/04/24 Птн 17:34:47 #51 №709974 
riddle.png
>>709961
Ну хуй знает тогда. Да, модель шизик, т.к хуй его знает, какой у неё там инстракт темплейт, я гоняю на альпаке и она часто подсирает под себя.

>>709964
Ну добавь туда вместо ассистанта "<|end_of_text|>", но ассистанты будут высираться иногда. Стоп токен так-то есть, в конфигах прописан.
Аноним 19/04/24 Птн 17:49:43 #52 №709989 
изображение.png
изображение.png
изображение.png
изображение.png
>>709967
Обсайгачил по самые гланды.
Ахаха, датасет у него уровня бездомный Бог. Беру буквально первые 2 строки, и в обоих какой-то левый пиздёж. Вот нахуя на этом мусоре тренировать нейронки?
Зато крепостное право конечно же не для порабощения, ага.
Аноним 19/04/24 Птн 17:50:12 #53 №709990 
>>709967
https://t.me/senior_augur/82
Э-э-эксперименты!

———

Ваще, конечно, модели прям такие себе вышли.
В какие-то моменты они заставляют ахать от удивления, а в какие-то (большинство) — блевать, к сожалению.
Это прямое, как мне кажется, следствие вот этой вот всей цензуры. Впилили ассистента, теперь она обкакивается там, где не должна, извините пожалуйста, я не пишу неэтичный контен.ассистент
Аноним 19/04/24 Птн 17:56:58 #54 №709994 
>>709990
Какой пидр утащил мой скрин в эту помойку?
Аноним 19/04/24 Птн 18:02:30 #55 №709996 
изображение.png
изображение.png
>>709994
Впрочем ладно, если кто-то хочет работать передастом, то вот (сам я мараться об всякие сообщества в дуровском мессенджере не хочу).
Аноним 19/04/24 Птн 18:04:18 #56 №709997 
Ну и как вам 70b?
Аноним 19/04/24 Птн 18:06:46 #57 №709999 
>>709997
Как говно вестимо.
Аноним 19/04/24 Птн 18:10:24 #58 №710002 
>>709999
Что с ней не так? Слишком много сои?
Аноним 19/04/24 Птн 18:16:26 #59 №710006 
>>710002
Ноль прорывов. По сути какая-нибудь мику или командир с плюсом будут лучше.
Сою налили в инструкт версию, это ожидаемо. Базовая вроде не сильно отказывает, на первый взгляд.
Тут вся надежда на файнтюны, так как мику тюнить по сути нельзя, то новая 70-ка с чуть худшим перфомансом может стать лучше мику с доводкой.
Аноним 19/04/24 Птн 18:19:52 #60 №710011 
>>710006
Эх, а нам обещали тонкое понимание логики. Хотя, уже хорошо.

А кто-нибудь помнит разница между ллама1 и ллама2 одного размера сильно была больше?
Аноним 19/04/24 Птн 18:20:42 #61 №710012 
17135377053250.png
c-хуяи.png
>>710006
>>709999
Хуяи?
Аноним 19/04/24 Птн 18:23:39 #62 №710015 
>>710011
Разница была, но не очень большая. Этот скачок куда больше
Аноним 19/04/24 Птн 18:25:07 #63 №710016 
>>709989
Это синтетический датасет сгенерированный Порфирьевичем. Мировая практика.
Аноним 19/04/24 Птн 18:29:17 #64 №710019 
изображение.png
изображение.png
>>710011
>разница между ллама1 и ллама2 одного размера
Двойка апнула на уровень вверх, то есть 7B стала как 13, 13 как 33, ну и далее.
Тут технически тоже самое, 8 ощущается как 13, но у нас уже был на руках мистраль, который сделал тоже самое. Про 70-ку я уже отписал. Так что лично я ажиотажа не разделяю.
>>710012
А хуй его знает. Шатает её, качество сильно нестабильно.
Ну и я жопой чую, что жора и тут поднасрал. Через пару недель пофиксят небось.
>>710015
>Этот скачок куда больше
Прыжок на месте?
>>710016
Обижаешь, там турба.
Аноним 19/04/24 Птн 18:33:37 #65 №710020 
1713540817151.jpg
>>710012
Аноним 19/04/24 Птн 18:34:53 #66 №710023 
>>710019
Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение, так что как минимум сравнивая с ллама2 они апнули ллама3 на уровень. Но конечно, ограничения 7b никуда не делись. Просто выдрочка более эффективным датасетом, дольше и с более оптимизированным токенизатором.
Я бы хотел 13b с такой же прокачкой, а не еще одну мелочь. 30 была бы вобще бомбой
Аноним 19/04/24 Птн 18:34:56 #67 №710024 
Есть у кого пикча с прямыми сравнением llama 1, 2 и 3 по бенчмаркам? Хочу посмотреть кривую по которой идёт развитие ии и предположить чо там будет по опенсорсу через пару лет
Аноним 19/04/24 Птн 18:35:15 #68 №710025 
>>710020
>>710012
Пока ещё неуверенность в эло большая, надо дать недельку устаканиться (но понятно что модель вышла что надо)
Аноним 19/04/24 Птн 18:36:08 #69 №710027 
>>710024
>через пару лет
Тут на пол года загадывать бессмысленно, а ты на годы вперед хочешь, хех
Аноним 19/04/24 Птн 18:36:34 #70 №710028 
>>710023
>Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Блять, они выпустили лламу2 которая стала стандартом дефакто на своё время, нагнув большинство сеток с открытыми весами (или все). Неудивительно что ллама3 тоже пиздато получилась.
Аноним 19/04/24 Птн 18:37:40 #71 №710029 
>>710028
Но 7 была пососная все равно, теперь вот доделали, ну да.
Аноним 19/04/24 Птн 18:38:52 #72 №710030 
>>710023
>Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Эм, чё? Для фейсбука равняться на мисраньАИ без железа, которых купили с потрохами за 15 лямов, это блядь позор.
>Я бы хотел 13b с такой же прокачкой
А то. Поэтому и зажали. Ллама 4 будет только в размере 10B, скриньте.
Аноним 19/04/24 Птн 18:39:01 #73 №710031 
>>710027
Скажи еще что Мур хуйней страдал когда свой закон придумывал
Аноним 19/04/24 Птн 18:41:45 #74 №710033 
Вот что 24000 H100 животворящих делает
Аноним 19/04/24 Птн 18:44:59 #75 №710035 
>>710031
Закономерность мура ужа давненько соблюдается только условно, рост перестал уже как несколько лет быть таким как он предсказывал. Лет 10 наверное, хз не помню где и когда читал об этом

>>710030
>Эм, чё? Для фейсбука равняться на мисраньАИ без железа, которых купили с потрохами за 15 лямов, это блядь позор.
Спецы из гугла на сколько я понимаю, а у гугла разработки в этой теме более глубокие чем у фейсбука.
Без спецов со знаниями хоть сколько денег и оборудования кидай, ниче не выйдет.
Так что да, фейсбук можно спокойно сравнивать с мистралем, эти ребята делом доказали что в свое время знали и понимали больше чем другие. Теперь вот их догоняют. О чем знают в самом гугле, и в клозедаи мы сравнить не можем, сеток нормальных нет.
Хотя гемма вроде умна, если бы не была искажена соей
Аноним 19/04/24 Птн 19:00:56 #76 №710049 
>>710035
>а у гугла разработки в этой теме более глубокие чем у фейсбука
А что ж они всё со своей геминей обсираются? Их клозеды с антропиками на пару ебут.
Аноним 19/04/24 Птн 19:06:08 #77 №710052 
>>710011
Не сильно.
Вероятно, дело в том, что на этом уровне качество уже достаточно хорошее, поэтому оно прям норм воспринимается и разницы сильно не видишь.
Разница на уровне объема датасета, используемого для обучения, и, соответственно, знаний.

Конечно, вторая 70б была лучше первой 65б. Но в тонкостях.

>>710019
Мистраль им все поломало, я пока тоже чую етот вайб.

Если бы не было мистрали и ее производных, то мы бы щас такие «нихуя себе, она на русском говорите, ебать умная!»

>>710035
> Лет 10 наверное
Да.
Там маги из НВидиа колдуют, чтобы он соблюдался в некоторых условных рамках «одна видяха — прирост».

> Хотя гемма вроде умна
В рамках своего датасета только, но плюсую.
Аноним 19/04/24 Птн 19:08:42 #78 №710055 
изображение.png
>>709776
>тупо скачай вот это : https://files.catbox.moe/1rzg32.json
Официально заявляю- шаблон говно. На скрине сравнение с тем, как надо ( https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/ ). Единственный проёб это лишний перевод строки после системного промта.
Вот поправленный- https://files.catbox.moe/r8qqp3.json
Юзать вместе с минималистичным темплейтом.
Аноним 19/04/24 Птн 19:10:30 #79 №710060 
>>710049
много говна, мало палок
Аноним 19/04/24 Птн 19:10:47 #80 №710061 
>>710052
>то мы бы щас такие «нихуя себе, она на русском говорите, ебать умная!»
Но ведь уже есть командир, который ебёт всех и вся на русском... Разве что командир по-жирнее будет.
Аноним 19/04/24 Птн 19:15:19 #81 №710067 
image.png
>>709958
После того как добавил в стоп токены ["Assistant", "assistant", "Assistants", "User", "user", "user1"] стало получше. Но пока что Лама 2 кажется на голову выше, отвечает довольно криво. Хз что вы такого удивительного нашли в этой модели.
Аноним 19/04/24 Птн 19:22:18 #82 №710074 
>>710067
Отстань от франкенштейна. В прошлый раз с полгода ебались, пока не научились лепить нормальных монстров, что аж в шапку попало.
Аноним 19/04/24 Птн 19:38:14 #83 №710089 
изображение.png
изображение.png
изображение.png
>>709996
Ну молодец, чё, выкинул 95% датасета (впрочем согласен, датасет от турбы это чистый мусор, я бы его и с сайта потёр). К остаткам датасета, сделанного четвёркой, не доебаться, ну разве что до орфографии и слегка не актуальных советов.
Аноним 19/04/24 Птн 19:43:27 #84 №710094 
https://www.reddit.com/r/LocalLLaMA/comments/1c7no52/psa_if_you_quant_your_llama_3_model_from_f16_you/
Странное, это сработает?
Аноним 19/04/24 Птн 19:50:57 #85 №710096 
>>709831
> Но все эти тесты еще дальше от реальности, чем арена, вот и все.
Почитай про них и станет понятно что за что отвечает. Проблема в их компрометируемости, а если делать постоянно разные то будет низкая точность оценки.
> Пикрил.
Топ кек, гопоту уже ебем, замечательно. Надо будет сейчас покумить на семидесяточке новой.
> Офк, хуйня, но практика пока более-менее совпадает с ареной
Да если бы, как же там они апали первый микстраль, подкручивая его выдачу, и где он сейчас? Неспроста убрали, флуктуаций паразитных и странных там очень много.
>>709888
Топ кек. Не ну а почему бы и нет собственно.
>>709967
> Вопрос нахуа это надо если и так по русска балакает - видимо не стоял.
Вот тут двачую, видимо не может он успокоиться видя нормальную модель, которая еще и большой контекст обрабатывать может, нужно все поломать.
Аноним 19/04/24 Птн 19:52:07 #86 №710099 
image.png
>>710094
Похоже идет какой то косяк при прямом кванте из bf16
Аноним 19/04/24 Птн 19:56:44 #87 №710102 
>>710023
> Для фейсбука выпустить свою сетку которая лучше мистраля уже достижение
Обзмеился с секты свидетелей мистраля. Ну рили даже сравнивать не стоит.
>>710052
> Конечно, вторая 70б была лучше первой 65б. Но в тонкостях.
И в толстостях. Если первая просто лучше тебя понимала и соображала, буквально просто была "хорошей ллм", то вторая уже проявляла чудеса проницательности и креатива.
>>710094
Ну кстати действительно может быть, особенность bf16.
Аноним 19/04/24 Птн 19:58:20 #88 №710108 
image.png
https://huggingface.co/MaziyarPanahi/Llama-3-16B-Instruct-v0.1

>This model is a self-merge of MaziyarPanahi/Llama-3-11B-Instruct-v0.1 model.
Аноним 19/04/24 Птн 19:59:32 #89 №710111 
>>710108
Интересно на сколько хватит запаса этой модели, будет ли она еще лучше так мержится или наоборот хуже
Аноним 19/04/24 Птн 20:01:18 #90 №710113 
>>710096
>как же там они апали первый микстраль, подкручивая его выдачу
Человек, ты не можешь просто так заявлять подобное, вытащив говно из жопы. Нужны какие-то зацепки.
>и где он сейчас? Неспроста убрали
Примерно там же где и был, в районе гопоты-3.5 турбо, никто его не убирал.
Аноним 19/04/24 Птн 20:02:43 #91 №710114 
D23C1A46-0A5F-4B70-B004-12509E63572C.jpg
Ну почему шизомержи, а не дообучение?
Аноним 19/04/24 Птн 20:03:46 #92 №710115 
>>710114
Потому что дообучать - долго и дорого, а шизомерж - раз и готово
Аноним 19/04/24 Птн 20:14:32 #93 №710122 
>>709888
>>710108
На этом кумить можно?
Аноним 19/04/24 Птн 20:17:11 #94 №710124 
image.png
https://huggingface.co/NotAiLOL/Boundary-Meta-Llama-3-2x8B-MoE

Кто там МОЭ заказывал?
Аноним 19/04/24 Птн 20:19:02 #95 №710127 
>>710124
А толку саму с собой мое делать? Или там чет другое?
Там же одни и те же эксперты будут, лол
Аноним 19/04/24 Птн 20:24:54 #96 №710135 
>>710127
>А толку саму с собой мое делать?

Потому что может.
А может автор просто дурак и не понял что NousResearch просту ту же самую ламу выложил, чтобы её можно было кочать без регистрации
Аноним 19/04/24 Птн 20:27:27 #97 №710142 
>>710135
Может хотел проверить будет ли работать мое с этой моделью, тогда как тест сойдет

--------------
Скачал я инструкт версию 8b лламы, и спасибо анону выложившему промпт формат, у меня ничем странным пока не срет. Только срывается иногда начиная за меня отвечать, собака
Я так понимаю надо будет базовую версию качнуть, она лучше
Аноним 19/04/24 Птн 20:30:48 #98 №710146 
selcky-Anime-Artist-artist-Anime-7643771.jpeg
>>710124
Хочу эджи с воображением.
Аноним 19/04/24 Птн 20:33:19 #99 №710153 
https://huggingface.co/mradermacher/DevsDoCode-LLama-3-8b-Uncensored-GGUF/tree/main
кидали нет не помню
Аноним 19/04/24 Птн 20:43:23 #100 №710177 
>>710113
> Человек
Сам ты человек, кожаный ублюдок. Об это хейрне даже ролик пилили, что на короткий запрос тебе в 39 случаев из 50 выпадает микстраль, а на длинный текст с имитацией диалога и запросом на его аналис в 2 из 30. Сам пытался его выловить на анализ длинного промта - ни разу не выпал. Но тогда легко ловился простым запросом, и вот на второе сообщение уже можно его мучать сколько хочешь сразу в сравнении.
> Примерно там же где и был
Нету в текущих лидербоардах. Напомню что он был не просто выше 3.5 турбо, но и обходил клод 2. Ебало сотворивших это имаджинируемо. Справедливости ради стоковый клод под своей может быть уныл
Та же странность на добавление 4 турбо в арену, при этом ответы обычной 4 радикально испортились, и часто уступали локалкам. Делаешь тот же запрос по апи - все красиво и четко, пытаешься у них - короткая залупа с аполоджайзами не в тему.
>>710114
Реальных полноценных файнтюнов не увидишь еще пару недель. Первые будут отвратительны и поломаны.
>>710124
Вах, вот это топ
Аноним 19/04/24 Птн 20:50:09 #101 №710193 
Хочю чтоб высрали анцензорд версию ламы 3 8b и запилили русский файнтюн. Я что многого прошу?
Аноним 19/04/24 Птн 20:51:32 #102 №710196 
>>710193
Да
Аноним 19/04/24 Птн 20:55:28 #103 №710202 
>>710124
А мое можно запилить взяв за базу несколько экземпляров готовой модели и файнтюня их, по тому же принципу как обычно обучают мое? Или обучение таких моделей должно происходить только с нуля? Я просто думаю, как 400b высрут, получится ли опенсурсу, если влить много денег на файнтюн, создать какую-нибудь 8x400b модель с 200 айсикью
Аноним 19/04/24 Птн 20:56:34 #104 №710205 
>>710193
>запилили русский файнтюн

Уже >>709967
Аноним 19/04/24 Птн 21:02:53 #105 №710220 
>>710205
Так он не анцензоред, да и качества сомнительного
Аноним 19/04/24 Птн 21:04:00 #106 №710224 
>>710220
>>710153
качество сам проверяй, че то еще кидали, дпо с токсик датасетом, но где не помню
Аноним 19/04/24 Птн 21:06:52 #107 №710229 
>>710193
Оно уже в стоке такое.
>>710202
> А мое можно запилить взяв за базу несколько экземпляров готовой модели и файнтюня их
Собственно, (по заявлениям) именно так и сделан мистраль а потом из него и микстраль.
Аноним 19/04/24 Птн 21:11:41 #108 №710240 
>>710153
Ну чет так себе на первый взгляд
Аноним 19/04/24 Птн 21:15:51 #109 №710247 
>>710240
https://huggingface.co/raincandy-u/Llama-3-8b.UNLEASHED
Аноним 19/04/24 Птн 21:19:30 #110 №710250 
https://huggingface.co/rmdhirr/Pulsar_7B
любопытная штучка, не пойму только какая базовая модель
Аноним 19/04/24 Птн 21:20:18 #111 №710253 
>>710229
> Оно уже в стоке такое.
Больше пару раз юзать пробовал? Оно такую хуйню на русском генерит. Про цензуру вообще молчу
Аноним 19/04/24 Птн 21:23:34 #112 №710256 
Бля, как же я расчитывал на то что будет мультимодальность, но какие же там зашоренные додичи сидят бляяяя. Уже молчу про то что это не мое, даже 400b походу не мое
Аноним 19/04/24 Птн 21:24:20 #113 №710258 
>>710061
Так-то и 70б на русском говорила, и ллама 1 30б даже что-то могла.
Но среди маленьких моделей… Ну я в любом случае к тому, что если абстрагироваться от других моделей, то выглядит пиздато. Просто живем мы не в вакууме и привыкли уже, что русский в мелких моделях встречается.
ЗЫ Еще Квен немного могет, кстати.

>>710089
Пам-пам.

>>710096
> Топ кек, гопоту уже ебем, замечательно
Ну, не кек, а реальность.
Впрочем, именно за 70б не скажу, хайп вокруг нее выглядит подозрительным.
Я к тому, что там нет никакого клода первого, лол, о чем ваще речь.
Там на первых местах гопота и опус, как они и есть.
И где-то чуть ниже коммандер, ниже Мистраль Лардж и Квен.
Ну, так-то оно и есть.

>>710108
КХЕхкехкхехкхе

>>710124
Шо так мала.
Хачу 10икс8.

>>710127
Да, похрюкал с этого.

———

Вообще, конечно, такая херня творится. Шизомерджи, мое с нихуя.
Когда даже оригиналы пока с грехом пополам работают.
Подождать с недельку, а потом разглядывать.
Аноним 19/04/24 Птн 21:28:40 #114 №710264 
>>710177
>Нету в текущих лидербоардах.
Да вот же? И с клавдией и с гопотой 2.1 вровень, как и был, в пределах погрешности. (эло вероятностная характеристика, там есть и количество сэмплов и уверенность, стоит ниже крутануть)

>Об это хейрне даже ролик пилили, что на короткий запрос тебе в 39 случаев из 50 выпадает микстраль, а на длинный текст с имитацией диалога и запросом на его аналис в 2 из 30. Сам пытался его выловить на анализ длинного промта - ни разу не выпал.
Звучит как пиздаболия. У меня в основном как раз РП на множественных персонажей и заготовлен, и микстраль я ловил постоянно на выходе, потомушо они часто выставляют новые сетки чтобы побыстрее рейтинг устаканить.
Аноним 19/04/24 Птн 21:29:18 #115 №710267 
.png
>>710264
>Да вот же?
Отвалилось
Аноним 19/04/24 Птн 21:33:03 #116 №710270 
изображение.png
>>710089
Хуя, закрытый проект рожает модели через 0,0001нс после выхода базы. Надо бы ещё что-нибудь закрыть!
Аноним 19/04/24 Птн 21:35:17 #117 №710278 
image.png
Подъехали нормальные тесты, лама на уровне последнего мистраль-инструкта, только контекста меньше, нас наебали, расходимся.
Аноним 19/04/24 Птн 21:36:40 #118 №710281 
image.png
>>710278

Отклеилось
Аноним 19/04/24 Птн 21:38:08 #119 №710285 
>>710250
В шапке же написано (теги) - Mistral.
Аноним 19/04/24 Птн 21:40:03 #120 №710289 
>>710258
>Вообще, конечно, такая херня творится. Шизомерджи, мое с нихуя.
Каждый раз такое, если ты вдруг не заметил.
Аноним 19/04/24 Птн 21:40:05 #121 №710290 
>>710285
ага, но первый или второй?
хотя судя по оценкам скорей всего вторая базовая
Аноним 19/04/24 Птн 21:46:12 #122 №710299 
>>710270
кек
Аноним 19/04/24 Птн 22:00:50 #123 №710315 
>>710253
Да не, запустил нищеквант на сколько хватило терпения, похедпатил ассистанта и спать.
>>710258
> Так-то и 70б на русском говорила
Плохо
> ллама 1 30б даже что-то могла
Совсем грустно
> Ну, не кек, а реальность.
Ладно, справедливости ради семидесятку новую еще не катал, все времени нет, да и как-то не хочется испортить впечатление. Было бы круто чтобы она могла так же офк, но на фоне всех этих "побед" надежд мало.
>>710264
Ну вот, обоссаному микстралю для клавы как раком до Китая, а тут они рядом стоят. Хоть толика разума есть у тех кто такие оценки продвигает?
> Звучит как пиздаболия.
Лень искать банально, в прошлых тредах что-то скидывали. Хз, рпшить на микстрале это довольно странно, он слаб и не далеко от 7б ушел.
Аноним 19/04/24 Птн 22:14:12 #124 №710336 
>>709792
>c4ai-command-r-v01-imat-Q4_K_S.gguf 18.9 гб генерация 2.21 т/с
И это чисто на проце? Довольно быстрая скорость, какая система там у тебя?
Аноним 19/04/24 Птн 22:17:34 #125 №710343 
Ролеплей файнтюны уже высрали?
Аноним 19/04/24 Птн 22:24:56 #126 №710354 
>>710336
8ми ядерный xeon с 4 канальной памятью, так себе, но игорь тонет, а в нейросетках дешево и сердито.
Ну, чисто на проце 8 квант 7b крутит 5-6 токенов в секунду где то, не пошикуешь, но потыкать или потрындеть норм
Аноним 19/04/24 Птн 23:10:08 #127 №710414 
firefoxCANAInThSM.png
и какой из этих исправен? у NousResearch не качаю потому что шизо-Q5_K_M.
Аноним 19/04/24 Птн 23:10:44 #128 №710415 
>>710343
Высрали.
Аноним 19/04/24 Птн 23:12:52 #129 №710417 
>>709792

УУУУ, БЛЯ, А я думал чего так медленно все это работает, ебаные i кванты.
Аноним 19/04/24 Птн 23:14:24 #130 №710419 
>>710414

Оригинал качай и в 8бит запускай. Я вообще не ебу зачем вы эти кванты для сраной 8В качаете.
Аноним 19/04/24 Птн 23:18:21 #131 №710422 
НОВАЯ ИМБА ЛАММА ПОДДЕРЖИВАЕТ КУМ??? ХУЙ ДЫМИТСЯ
Аноним 19/04/24 Птн 23:19:51 #132 №710423 
>>710422
нет
Аноним 19/04/24 Птн 23:21:52 #133 №710424 
>>710422
Да, даже инструкт че то пытается годное выдавать
Только промпт формат скачай
>>710055
>Вот поправленный- https://files.catbox.moe/r8qqp3.json
Юзать вместе с минималистичным темплейтом.

и в таверну сунь, ну и качай нормальный квант
Квест по его поиску все еще открыт, лол
Аноним 19/04/24 Птн 23:31:07 #134 №710438 
>>710422
Ну она в стоке может выдавать крутые фразы и понимает какие взаимодействия ведут к возбуждению, какие с удовольствию и наоборот. Кумботы раскручиваются очень легко даже на 8б, хз что там у бедолаг что воют за цензуру.
Но пишет не так детально и подробно как рп файнтюны второй лламы.
Аноним 19/04/24 Птн 23:32:36 #135 №710439 
>>709776
И да, вот подобный шизосемплинг хорошо работал на тупых 7б, которым очень недостовало разнообразия, но приводит к тупизне и неадекватности на нормальных моделях, где с разнообразием и так все в порядке. Хз насчет 8б лламы, но она показала себя ближе ко вторым.
Аноним 19/04/24 Птн 23:39:44 #136 №710441 
Не очень в теме локальщины. Эта хуйня - это же типа того чем был пигмалион? И оно не соевое и может в сиськи письки? https://huggingface.co/dreamgen/opus-v1.2-llama-3-8b
Есть вообще серьезные отличия от пигмы у подобных файнтюнов на моделях получше или оно так же выдает слабо связанный текст который пытается быть похожим на человеческую речь?
Аноним 19/04/24 Птн 23:46:42 #137 №710443 
>>710441
Ты последний год в коме был?
Аноним 19/04/24 Птн 23:50:06 #138 №710447 
>>710443
>Не очень в теме локальщины.
Аноним 19/04/24 Птн 23:53:57 #139 №710453 
>>710441

Пигма пала, центрурион.
Аноним 19/04/24 Птн 23:54:54 #140 №710454 
>>710447
>>710441
Учитывая что новая ллама вышла только вчера - скорее всего эта штука посредственного качества, т.к. делалась в спешке и не полноценным файнтюном а qlora на мелком датасете. Иное крайне маловероятно.
Подожди неделю, будет уже что-то приличнее. По сравнению с пигмой, можешь даже стоковую лламу скачать, настроить правильном формат и ахуевать с прогресса. Она создает такое впечатление что действительно после грамотного промт-инжениринга, выдаст хорошие тексты, лучше чем 3.5 турбо точно.
Аноним 19/04/24 Птн 23:55:16 #141 №710455 
>>710441

Поясню - первая лама уничтожила пигму как явление, а в треде как видишь обсуждается третья.
Аноним 20/04/24 Суб 00:05:19 #142 №710463 
>>710447
Окей, эта хуйня уже местами на уровне чатгпт на минималках, так понятней?
Аноним 20/04/24 Суб 00:08:54 #143 №710467 
>>710454
Автор пишет 80м токенов 2 эпохи. Да и первая модель у него годная, там целый сайт типа чарактер аи

>>710455
Понятно что пигма устаревший кал. Просто ллама - это базовая модель, а пигма - это файнтюн gpt-j или как там эта хуйня называлась. Мне интересно это тоже самое по смыслу.

Я вообще рассматриваю варианты как сделать ролеплей бота и хз с чего подступиться ибо давно не в теме. Но мне не нужна всякая мишура вокруг типа автора который пишет "Пошли они на речку и поебалися." посреди диалога или действий в звездочках вроде "Хрюкает". То бишь мне не нужно написание истории по факту. Мне нужен файнтюн где я могу указать какую роль отыгрывать и бот будет отвечать как в обычном чате в порядке: "мое сообщение" -> "его сообщение" -> "мое сообщение" -> "его сообщение" и т.д. Возможно нужна будет возможность разговора с ботом нескольких людей которые подписаны по имени, вроде: "сообщение Санек" -> "сообщение Петян" -> "ответ бота" и т.д. Еще бы мультимодальность к этому, но я наверное охуел с такими запросами.
Аноним 20/04/24 Суб 00:10:46 #144 №710469 
>>710463
Имелись ввиду все такие новые сетки вообще, даже сраные 7-8b
Аноним 20/04/24 Суб 00:12:02 #145 №710470 
>>710467
>Просто ллама - это базовая модель, а пигма - это файнтюн gpt-j

Ллама тоже файнтьюн gpt-j.

>Мне нужен файнтюн где я могу указать какую роль отыгрывать и бот будет отвечать как в обычном чате в порядке: "мое сообщение" -> "его сообщение" -> "мое сообщение" -> "его сообщение" и т.д.

Просто скачай ламу, запусти в таверне с карточкой персонажа и всё будет.
Аноним 20/04/24 Суб 00:13:38 #146 №710471 
>>710463
Я из тех кто юзал ЛЛМки чисто для кодинга и функций умного ассистента. Я смотрел как они решают математические задачи и как умеют в логику все лучше с каждой новой моделью, но я не в курсе как они по креативной части и как это отличается от той же пигмы в этом плане. Как по мне порфирьич креативнее убитого соей опуса, например. Эта вещь субъективна и на нее даже бенчмарков нет, по крайней мере их нигде особо не используют.
Аноним 20/04/24 Суб 00:14:29 #147 №710472 
>>710467
> там целый сайт типа чарактер аи
Чивоблять.webm?
Нет, офк все возможно, у него даже 70б файнтюны есть. Смущает припезднутый формат промта в сочетании с узкой направленностью, и быстрый выход. Если новую семидесятку будет делать то определенно надо будет скачать, кто 8б тестил - отпишитесь.
Аноним 20/04/24 Суб 00:16:43 #148 №710473 
>>710470
>Просто скачай ламу, запусти в таверне с карточкой персонажа и всё будет.
Мне нужен доступ к модели из кода а не из интерфейса, чтоб я на основе этого смог сделать приложение. Я понимаю что там промптами как-то добиваются ролеплея от базовой модели, но я крайне сомневаюсь что по качеству это будет близко к специализированному файнтюну
Аноним 20/04/24 Суб 00:19:49 #149 №710474 
>>710473
> Мне нужен доступ к модели из кода а не из интерфейса
Качай убабугу или кобольда и используй openai-like api. Запросы на комплишн идентичны, код простой и его примеров полно.
Аноним 20/04/24 Суб 00:20:39 #150 №710475 
>>710472
https://dreamgen.com
Я тестил этот сайтик, вроде неплохо, но не думаю что там уже новая модель стоит. Да и 70б модель там только по подписке, тоже интересно какова разница между ними, ощутима ли
Аноним 20/04/24 Суб 00:22:28 #151 №710477 
>>710473
>Мне нужен доступ к модели из кода

Т.е. через апи?
Ну кобольд и уба работают через апи. Не вижу проблемы.

> Я понимаю что там промптами как-то добиваются ролеплея от базовой модели, но я крайне сомневаюсь что по качеству это будет близко к специализированному файнтюну

Так бы и сказал что тебе рп файнтьюн нужен, держи
https://huggingface.co/TheBloke/Noromaid-20B-v0.1.1-GGUF
Аноним 20/04/24 Суб 00:24:07 #152 №710478 
>>710475
Не ну если так то уже респект за подход, красавчики, но мнение по модели не меняет. Скачай и сам оцени, главное все выстави в точности с их форматом, иначе экспириенс может оказаться радикально хуже ожидаемого.
70б веса у него же на обниморде выложены, ну и в данном треде принято их запускать локально. По крайней мере способных запустить 70б с комфортной скоростью точно больше чем пальцев на одной руке, что не может не радовать.
Аноним 20/04/24 Суб 00:29:01 #153 №710482 
>>710477
Спасибо, я просто уже искал варики именно на третьей ламе, чтобы иметь топ нотч решение на текущий момент. Но возможно начал слишком рано. Хотя тот файнтюн что я скинул внушает доверие судя по регалиям автора.
Аноним 20/04/24 Суб 00:29:41 #154 №710484 
>>710467
>Еще бы мультимодальность к этому, но я наверное охуел с такими запросами.
В кобальде и мультимодальность можно прикрутить и генерацию изображений там же, так что все в твоих руках. Дергай апи и играйся.
Аноним 20/04/24 Суб 00:31:16 #155 №710485 
>>710470
>Ллама тоже файнтьюн gpt-j.
Да ладно? джей это eleuther, я то думал ламу из опта как-то выродили. опт и джей сильно разные.
Аноним 20/04/24 Суб 00:33:17 #156 №710486 
>>710482
> топ нотч решение на текущий момент
Или стоковая ллама и промт инжениринг, или жди пока все уляжется и подвезут нормальные файнтюны а не слепленные в спешке на коленке.
>>710484
> В кобальде и мультимодальность можно
Прикрутить проектор ллавы или подобного. В YI оно все еще не работает, что-то полноценное типа кога и близко не может. К лламе 3 также не применимо.
> и генерацию изображений там же
Оно буквально для галочки и убервсрато.
Аноним 20/04/24 Суб 00:33:18 #157 №710487 
>>710484
Как, если модель изначально не мультимодальная? Кроме лавы сейчас в опенсорсе то вроде ничего и нет. Разве что только покидывая ей текстовое описание прогоняя картинку через какую-нибудь клип модель, но это такое себе решение
Аноним 20/04/24 Суб 00:35:27 #158 №710488 
>>710486
>слепленные в спешке на коленке.
У этих челов датесеты еще с первой ламы лежат. Единственное что смущает - это время тренировки. Но я никогда не фантюнил ллмки, не могу сказать достаточно ли суток для нормального файнтюна 8b модели
Аноним 20/04/24 Суб 00:39:52 #159 №710491 
>>710488

Дело не в том сколько их тьюнили, дело в том что эти тьюны никто не проверил еще. Качай, будешь тестером, может там и впрямь алмаз, кто знает?..
Аноним 20/04/24 Суб 00:41:43 #160 №710492 
>>710488
> достаточно ли суток для нормального файнтюна 8b модели
Достаточно при условии наличия пачки йоба гпу. Оптимальность параметров для новой модели под вопросом офк.
> датесеты еще с первой ламы лежат
Если они тех времен то ничего хорошего не будет.
Аноним 20/04/24 Суб 00:42:02 #161 №710493 
>>710484
>генерацию изображений там же

Кобальт просто сд встроил и картинки он из твоей сд модельки сгенерирует.
Аноним 20/04/24 Суб 00:46:56 #162 №710498 
>>710470
>Ллама тоже файнтьюн gpt-j.
Эм, нет.
>>710485
>я то думал ламу из опта как-то выродили
Сомневаюсь, там разные архитектуры, похожие только издалека.
Аноним 20/04/24 Суб 00:50:00 #163 №710501 
>>710414
>потому что шизо-Q5_K_M
Што? Схуяли Q5_K_M шизо?
Аноним 20/04/24 Суб 00:50:20 #164 №710502 
>>710487
Все модели одного размера и структуры могут пользоваться одним мультимодальным расширителем

>>710493
И чё?

>>710486
>Оно буквально для галочки и убервсрато.
И че?
Аноним 20/04/24 Суб 00:51:44 #165 №710504 
1583890713652.jpg
>>710502
Аноним 20/04/24 Суб 00:52:26 #166 №710506 
>>710502
>Все модели одного размера и структуры могут пользоваться одним мультимодальным расширителем
Не так резко. Только имеющие единого предка. Лламу 3 явно тренировали с нуля, так что вряд ли оно заработает.
Аноним 20/04/24 Суб 00:53:46 #167 №710507 
>>710504
Не ну такие странные предъявы, работает? Работает.

>>710506
>Все модели одного размера и структуры
Для слепых повторил
Аноним 20/04/24 Суб 00:54:31 #168 №710508 
>>710507
Так через жопу оно работает, всеравно что предлагать нормису ездить в городе на мертвой классике, или пользоваться печатной машинкой вместо офиса.
Аноним 20/04/24 Суб 00:56:35 #169 №710510 
Кстати, кто-то покусился на файнтюн грока?
Аноним 20/04/24 Суб 00:58:43 #170 №710513 
>>710419
Где его скачать без аккаунта и флажка в анусе?
Аноним 20/04/24 Суб 01:01:26 #171 №710514 
>>710513

https://huggingface.co/NousResearch/Meta-Llama-3-8B
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct
Аноним 20/04/24 Суб 01:01:26 #172 №710515 
>>710508
поиграться хватит, дальше пусть более серьезное щупает
Аноним 20/04/24 Суб 01:10:58 #173 №710521 
>>710510

Нет задач
Аноним 20/04/24 Суб 01:12:54 #174 №710522 
>>710515
В контексте 3й лламы только разочароваться.
Аноним 20/04/24 Суб 01:14:03 #175 №710524 
>>710521
Почему? Можно сделать файнтюн уровня выще гпт-4 и организовать свой бизнес на нем. Не все ж для кумеров локальщиков делать
Аноним 20/04/24 Суб 01:15:14 #176 №710525 
>>710522
Топовые файнтюны мистраля не так далеко от лламы3, и они работают с мультимодалкой.
Да средне, но для опознания картинки хватит.

>>710524
Его отдали потому что он уже бесполезен, а не из благих побуждений. И это сделала компания с кучей железа.
Аноним 20/04/24 Суб 01:19:45 #177 №710530 
>>710524
По цене обойдется как несколько лет работы гопоты или aws-клод и устареет раньше чем окупится.
>>710525
> Топовые файнтюны мистраля
Это все также 7б днище. Лучше ли 8б лламы 3 - хуй знает, нужно больше тестирования. В мультиязычности пока точно лучше, в рп - хуже по длине ответов, но зато не шизит впримерно в направлении, а старается по теме отвечать.
> Да средне, но для опознания картинки хватит.
Особенно файнтюны посредственно работают с штатным проектором. Хочешь мультимодальку - юзаешь ллаву, бакллаву, кога и прочих оригинальных, и довольно урчишь. Через кобольда, лламацпп-сервер, убабугу, трансформерс - без разницы.
Аноним 20/04/24 Суб 01:21:52 #178 №710531 
>>710525
> Его отдали потому что он уже бесполезен, а не из благих побуждений. И это сделала компания с кучей железа.
И что? Как отсутствие благих намерений это мешает дофайнюнить его и сделать одной из лучших опенсорс моделей? У опенсорсе просто нет модели большего размера, а с учётом того что могли выжать из ламы 2 опенсорс может сделать годноту на его базе
Аноним 20/04/24 Суб 01:25:34 #179 №710532 
>>710424
Как пользоваться этим json?
мимо
Аноним 20/04/24 Суб 01:28:22 #180 №710534 
image.png
>>710530
Кобальд это минимум затрат и усилий при каком то результате.
Который ты можешь легко запустить и пощупать-посмотреть че это такое и как примерно работает, что бы представлять что делать дальше.
А ты предлагаешь пердолинг с запуском кучи софта и его настройкой. Человеку который только входит в тему.
Кобальд легко запустить? да
Легко настроить? да
Мультимодальность добавляется? да
Генерация картинок? да
Работает как сервер через апи, на любом железе? да

С оговорками, но все это правда.
Че не так?

>>710531
Ты его на своем компе хочешь файнтюнить? Найдешь 20000 ускорителей h100 тогда поговорим о его файнюне до уровня гпт4

>>710532
Сохраняй в json, потом в таверне вот сюда тыкай
Аноним 20/04/24 Суб 01:28:45 #181 №710535 
1.png
2.png
Немного поиздевался над третьей лламой, очень быстро лосс падает ниже полутора, что лично я считаю тревожным. Плюс модель заметно тупеет от любой "настройки", хотя быстро подхватывает обучение стоптокену. Либо она переобучена, либо на грани.
Аноним 20/04/24 Суб 01:29:23 #182 №710536 
>>710530
> По цене обойдется как несколько лет работы гопоты или aws-клод и устареет раньше чем окупится.
Файнтюнов ламы 3 400b можно тогда не ждать? Точнее даже: можно ли дать хотя бы чтоб какой-то один человек с 5 теслами неиронично запустил 400b у себя локально?
Аноним 20/04/24 Суб 01:30:39 #183 №710537 
>>710536
400b еще более бесполезна для опенсорс чем грок
Это знаешь на новых ускорителях нвидия беквелл крутить в корпорации какой нибудь. Не для смертных
Аноним 20/04/24 Суб 01:33:34 #184 №710538 
>>710424
>>Вот поправленный- https://files.catbox.moe/r8qqp3.json
Сделал бы кто для убы... Уба не человек, а ебаное животное, там надо вручную инстракшн темплейт переписывать под него.
Аноним 20/04/24 Суб 01:33:41 #185 №710539 
>>710537
https://3dnews.ru/1101915/nvidia-predstavila-samiy-moshchniy-protsessor-v-mire-blackwell-b200-kotoriy-otkroet-put-k-gigantskim-neyrosetyam
Или сервер из кучи таких, ценой как боинг(или несколько, хз как это будет стоить)
Аноним 20/04/24 Суб 01:34:08 #186 №710541 
>>710537
Опенсорс - это не только дефолтные юзеры локальщики. Опенсорс это компании и в том числе. Если кто-то будет юзать ее в своих продуктах - это уже шин. Вопрос только хватит ли большой ламы без файнтюна для всех задач которые преследует эта компания.
Аноним 20/04/24 Суб 01:35:01 #187 №710542 
image.png
>>710525
>Топовые файнтюны мистраля не так далеко от лламы3

Мистраль инструкт на одном уровне с ламой 3.
Аноним 20/04/24 Суб 01:36:22 #188 №710543 
>>710537
>400b еще более бесполезна для диванных кумеров чем грок
Пофиксил.
Аноним 20/04/24 Суб 01:38:10 #189 №710545 
>>710542
По ощущениям лама сильно лучше. Может пора менять бенчмарки. Алсо, лама - это в первую очередь базовая модель для файнтюнов и от нее зависит то на сколько хороши будут опенсорс модели в будущем. Я думаю мистраль на базе 3 ламы еще лучше моделей наклепает
Аноним 20/04/24 Суб 01:39:57 #190 №710547 
>>710542
Это тесты, а по общению ллама3 на уровне лучших файнтюнов, или даже лучше. Не зря ей за общение накидали оценок на арене
Аноним 20/04/24 Суб 01:40:59 #191 №710548 
>>710534
У кобольда есть преимущества простоты и легкости, плюс функционал достаточен. Однако, если больше 8-12 гигов врам и планируешь использовать модели полностью на гпу - он полностью заменяется убой.
> Че не так?
Да ни в чем абсолютно, где ты это увидел? Более чем жизнеспособный лаунчер, просто его мультимодальность здесь не применима а "поддержка сд" - ну совсем костыль хз для кого.
Аноним 20/04/24 Суб 01:42:01 #192 №710549 
image.png
>>710124
>>710127

Минутка юмора.
Аноним 20/04/24 Суб 01:42:44 #193 №710550 
>>710536
> Файнтюнов ламы 3 400b можно тогда не ждать?
Нуу, тут может единицы будут, и то лорой. Посмотри файнтюны 120б, много их? Именно полноценное обучение а не шизомерджи. Врядли тут будет больше.
> с 5 теслами
с 12 хотябы
>>710537
> 400b еще более бесполезна для опенсорс чем грок
Битва была равна.
Аноним 20/04/24 Суб 01:44:32 #194 №710551 
>>710534
> Сохраняй в json, потом в таверне вот сюда тыкай
Так и делал вроде, но таверне похуй почему-то. Какая версия таверны у тебя?
Аноним 20/04/24 Суб 01:45:43 #195 №710552 
>>710548
8-12 гб врам это ниачем, только 7-8b крутить. Ни cd не запустить параллельно, ни модель побольше, ни что то другое.
24-48 врам еще туда сюда, можно крутить умные модели и быстро, параллельно что то еще сунув туда.
Но это уже полноценный сервер нужен, даже если ты будешь считать его обычным компом, по факту это сервер.

>>710551
16, я еще не обновил на новую, лень было
Аноним 20/04/24 Суб 01:46:06 #196 №710553 
>>710547
>по общению ллама3 на уровне лучших файнтюнов

В упор этого не вижу, мы разные модели запускаем?assistant
Так-то дефолтный 0.2 мистраль инструкт очень хорош, он не зря сильно выше в рейтинге 0.1 версии и не инструкта.
Аноним 20/04/24 Суб 01:48:05 #197 №710554 
Всего есть три варианта поведенческого контроля ЛЛМ:
1. Промптинг.
Тут ясно.
2. Файнтюн.
Тут понятно.
3. Контекст.
Позволяет обучать модель на ходу и по сути делать реалтайм файнтюн за счет вычислительных ресурсов. Так можно научить модель неизвестному ей языку пробросив учебник в контекст, например.

Это точно все или я что-то упускаю?
Аноним 20/04/24 Суб 01:48:11 #198 №710555 
>>710552
>16
1.11.6 точнее говоря

>>710553
У меня кстати ни разу не вылез ассистент, хз. Я качал через день когда все уже немного устаканилось, запустил с последней ллама сервером, с промпт форматом анона. Отвечает как большая модель, по ощущению
Аноним 20/04/24 Суб 01:49:03 #199 №710556 
>>710552
>16
Благодарю.
Аноним 20/04/24 Суб 01:50:13 #200 №710558 
Кто пробовал? https://huggingface.co/DevsDoCode/LLama-3-8b-Uncensored
Аноним 20/04/24 Суб 01:51:32 #201 №710560 
Смотрите какая хуйня.

https://huggingface.co/Mihaiii/Llama-3-pruned-45B-Drobeta-Turnu-Severin
Аноним 20/04/24 Суб 01:51:32 #202 №710561 
>>710554
>Это точно все или я что-то упускаю?
контрольные векторы, очень интересная штука

https://github.com/vgel/repeng/tree/main
https://vgel.me/posts/representation-engineering/
Аноним 20/04/24 Суб 01:54:56 #203 №710563 
>>710561
Можешь объяснить подробно как этим пользоваться? Как запускать этот код и так далее?
Аноним 20/04/24 Суб 01:55:44 #204 №710565 
image.png
Рейтинг фантьюнов и мержей ламы. Вперед вырвался
https://huggingface.co/vicgalle/Configurable-Llama-3-8B-v0.2
Аноним 20/04/24 Суб 01:56:33 #205 №710567 
>>710563
Почитай там написано, у самого еще руки не дошли делать илипробовать, только прочитал да модель скачал полноразмерную потыкать когда нибудь
Аноним 20/04/24 Суб 01:59:33 #206 №710574 
>>710552
Так там речь о больше, с 16 уже можно полноценно крутить 20б, и что поменьше в 8б, а то и в 16, здесь уже полномочия кобольда заканчиваются. Офк если тесла то он остается актуален, но они пошли явно не по тому пути, сделав бесполезные фичи вместо полноценного набора семплеров и cfg.
> Но это уже полноценный сервер нужен
Вут? Ну все, теперь можно хвастаться что у меня дома сервер, мы все тут администраторы, ага.
>>710554
> Позволяет обучать модель на ходу и по сути делать реалтайм файнтюн за счет вычислительных ресурсов.
Нет. Можно задать настроение, сместить поведение в пределах имеющихся знаний (не только промтом но и внешним источником активаций, например векторы что недавно продемонстрировали) или добавить ограниченное количество новых.
> можно научить модель неизвестному ей языку пробросив учебник в контекст
Если только оно очень простое. С уникальным даже лучшие модели не справятся.
Аноним 20/04/24 Суб 02:03:05 #207 №710575 
>>710561
Она умеет только в какие-то общие вещи вроде контроля настроения или в серьезное изменение поведения? Можно ли таким образом сделать чтоб модель выдавала свой ответ в виде JSON типа
{
"answer": "Привет!",
"mood": "happy"
}
?
Понятно что это и промптингом можно, просто интересно на что оно способно.
Аноним 20/04/24 Суб 02:03:43 #208 №710576 
>>710567
Я пробовал. Мне выдало ошибку keyword 'mistral'.
Аноним 20/04/24 Суб 02:04:50 #209 №710577 
>>710574
>Вут? Ну все, теперь можно хвастаться что у меня дома сервер
Ты в курсе что обычному среднему геймеру больше 16 гб рам все еще не нужно? Как и врам больше 8
Скажи ты нормису параметры своего компа для локалок он охуеет, как и от размеров моделей, лол
Это у нас за год глаза замылились, хех

>>710575
Там в статье есть примеры, посмотри - они очень показательны, о том что делают векторы
Аноним 20/04/24 Суб 02:05:09 #210 №710578 
>>710574
> Можно задать настроение, сместить поведение в пределах имеющихся знаний (не только промтом но и внешним источником активаций, например векторы что недавно продемонстрировали) или добавить ограниченное количество новых.
То о чем ты говоришь и есть по факту простойфайнтюн, так или иначе это меняет поведение
> Если только оно очень простое. С уникальным даже лучшие модели не справятся.
Опять же то что она делает это плозо не значет что этот метод не работает. Это один из методов контроля поведения, хоть и не самый эффективный.
Аноним 20/04/24 Суб 02:09:41 #211 №710581 
>>710577
Все что в статье лишь меняет стиль речи. Это прикольно, но этого можно добиться и промптингом. Разве что в таком случае оно не будет забывать о выбранном стиле речи спустя время и будет придерживаться его всегда. Хм, на самом деле может быть даже полезно. Например тот же ролеплей можно запилить на уровне контрольных векторов, задав характер персонажа через них
Аноним 20/04/24 Суб 02:11:39 #212 №710582 
>>710581
Там меняется само отношение модели к чему то, задается вектор ее отношения к какой то вещи.
Управление мотивацией-характером модели, что то такое. Это более глубокое изменение чем просто промпт
Аноним 20/04/24 Суб 02:16:25 #213 №710583 
>>710577
> обычному среднему геймеру больше 16 гб рам все еще не нужно?
Даже самые упертые уже соглашаются что 32 - минимум для комфорта. Браузер открыл, поскроллил, доскорд, хуерд и прочее - уже 5-8 гигов скушало, плюс система - игорь уже не влезает.
> Как и врам больше 8
Было в 2017м, еще скажи что фуллхд - топовое разрешение.
> Это у нас за год глаза замылились
Есть такое. 24-48 это оверкилл для нормиса-геймера, но 16 уже вполне современность. Все зависит от того как к этому относиться, есть мнения что 1060/580 до сих пор самые популярные карточки и ориентироваться нужно на них, но ии изначально задает высокую планку, и потому 24 здесь вообще никого не удивишь, даже 36-48 стало сорт оф норма.
>>710578
> и есть по факту простойфайнтюн
Нет. Да, это можно сделать файнтюном, но буквально из пушки по воробьям с кучей побочек.
> Опять же то что она делает это плозо не значет что этот метод не работает.
То что ты описал - не работает. Простейшие вариации - будут работать, но ровно до тех пор пока у модели хватает внимания, а оно крайне ограниченно.
Аноним 20/04/24 Суб 02:17:58 #214 №710585 
>>710583
> даже 36-48 стало сорт оф норма
А может и нет.
70б новую в итоге в рп/ерп тестил кто?
Аноним 20/04/24 Суб 02:22:48 #215 №710587 
image.png
>>710585

Да, ебать охуенно, правда?
Аноним 20/04/24 Суб 02:24:22 #216 №710588 
>>710587
Удали разделитель и начало чата, может что то изменится
Аноним 20/04/24 Суб 02:28:54 #217 №710589 
image.png
>>710587
Вот эту хуйню, но знаешь у меня тоже вылезают повторы иногда или абракадабра, удаляю да продолжаю чат и все
Ну это на 8b, хотя 2 эти хуйни из одного теста
Аноним 20/04/24 Суб 02:31:10 #218 №710590 
>>710587
В голосину.
Ну не, 8б лучше перформит же.
Аноним 20/04/24 Суб 02:39:35 #219 №710593 
image.png
>>710588
>Удали разделитель

Что это? И как это сделать в убе? Я только как раз с трудом разобрался как убрать assistant.

> начало чата

Командиру оно не мешает. Пикрелейтед.
Аноним 20/04/24 Суб 02:45:34 #220 №710595 
Краткий вывод о новой лламе - эта штука пугающе хороша во внутреннем диалоге, очень естественно им пользуется. Будто ее учили подобному, все эти методы сот и другие цепочки мыслей были в датасете еще эффективней упакованы

>>710593
разделитель и начало чата это на >>710589
пикче 2 пустых места
Пример разделителя и начало чата
Хз где это в уге
Аноним 20/04/24 Суб 02:51:12 #221 №710598 
image.png
>>710590

Вот 8В. Чутка получше, но внезапно сошла с ума во второй реплике и начала код писать. Аж флешбеки на первую ламу пошли, лол.
Так что я хуй знает что вы нашли в этой модели, сломанное говно.
Аноним 20/04/24 Суб 02:53:37 #222 №710600 
>>710595
>Будто ее учили подобному
Внезапно, да? Может потому что реально учили?
Если заставить ее решить любой математически пример ты увидишь всегда один и тот же текст про то что надо юзать пемдас и один и тот же формат вывода. Решает примеры охуенно кста. Базовая математика на уровне, правда зачем когда есть калькулятор непонятно
Аноним 20/04/24 Суб 02:54:12 #223 №710601 
image.png
Пипецки складно стелет, ни одна 7b так не могла, это что то новенькое
В конце видна абракадабра которую я иногда подчищаю, хз почему она вылазит
Аноним 20/04/24 Суб 02:55:57 #224 №710603 
>>710598
Ты как-то неверно ее юзаешь. Ну рили, оно может описать ту же предлюдию, еблю и т.д., напомнив в конце, что неплохо бы закончить настоящий кремпай в процессе изготовления которого прервались на увлекательные занятия, а после уже продолжить в спальне.
Аноним 20/04/24 Суб 03:00:23 #225 №710604 
Можно как-то модель скачанную оламой юзать в таверне? Не хочу качать снова ряя
Аноним 20/04/24 Суб 03:02:33 #226 №710605 
>>710604

Таверна не может сама запускать модели, это фронтэнд.
Аноним 20/04/24 Суб 03:05:50 #227 №710606 
>>710605
А с чем она работает? С олламой не работает да?
Аноним 20/04/24 Суб 03:08:17 #228 №710607 
чел намутил шайтан машину с ЛЛМкой на борту
https://twitter.com/prince_of_fakes/status/1777422801106014480
и в реплаях селёдок корёжит, что тоже забавно
Аноним 20/04/24 Суб 03:09:16 #229 №710608 
image.png
>>710603

Ну скажи в чем я неправ. Запустил сейчас 70В в чат-инструкт режиме вместо чата. Ну капельку получше стало, но все равно оно сломано.
Аноним 20/04/24 Суб 03:13:38 #230 №710609 
>>710606

Не знаю, посмотри, есть там api, если есть - то скорее всего работает.
Аноним 20/04/24 Суб 03:30:22 #231 №710611 
>>710595
>Будто ее учили подобному
Больше всего кажется, что её такому учили, когда вся эта хуйня вываливается в оутпут и модель рассуждает о хуйне, о малафье, пиздец в общем.
Аноним 20/04/24 Суб 04:26:31 #232 №710624 
>>710598
Лолшто, может ты какой битый ггуф скачал, такого даже близко нет у меня
Аноним 20/04/24 Суб 04:27:31 #233 №710625 
>>710604
Запускаешь олламу, выбираешь бэкэнд "оллама" в таверне.
Аноним 20/04/24 Суб 04:30:55 #234 №710626 
.png
>>710607
Хай тек, лоу лайф. Теперь осталось приделать к роботу.
Аноним 20/04/24 Суб 04:42:12 #235 №710629 
>>710624

Это не гуф, это оригинальная модель на 8 битах в трансформерах.
Аноним 20/04/24 Суб 05:06:59 #236 №710632 
>>710625
Я что-то делаю не так может, но у меня нет в списке оламы
Аноним 20/04/24 Суб 05:32:55 #237 №710634 
>>710477
>Noromaid-20B-v0.1.1
Кал и пишет коротко. Псимед уже сильно разъебал её.
Аноним 20/04/24 Суб 06:11:37 #238 №710639 
>>710632
Он в группе Text Completion, как и кобольд.
Аноним 20/04/24 Суб 07:23:12 #239 №710647 
как вам модель Maiden-Unquirked ? я прям мощно кайфанул от нее
Аноним 20/04/24 Суб 07:26:07 #240 №710649 
https://huggingface.co/sergkisel3v/LLama3-8b-Instruct-GGUF-fp16
> Full precision GGUF of Instruct LLama 3 8b model for Tesla P40 enjoyers or those who want to run unquantized llama.cpp instead of Transformers.
Аноним 20/04/24 Суб 07:58:54 #241 №710665 
bd8e864f-ac97-4575-b6a3-47b77ba691bf.png
b7b992be-724c-4d9e-aa40-0dcc1257e592.png
Карпати пишет про ЛЛаму
Аноним 20/04/24 Суб 08:34:44 #242 №710669 
Что лучше, лама-8б или супер низкий квант 70-ки?
Аноним 20/04/24 Суб 09:22:05 #243 №710683 
Есть инфа о расцензурах ламмы3 или там соя витамины в подкорку?
Аноним 20/04/24 Суб 09:49:46 #244 №710695 
>>710683
Зачем тебе именно 3? Просто накати файнтюны мистраля или 2-70b, получишь примерно то же самое. Если из 3 и вылепят что-то получше, то в любом случае придётся подождать.
Аноним 20/04/24 Суб 10:08:33 #245 №710699 
>>710665
>The Biden Executive Order had the reporting requirement set at 1e26, so this could be ~2X below that.
Ах точно, там же лимит прописан теперь. Как же я люблю попытки регулировать хуйпойми что задолго до того как даже поймут границы и свойства этого хуйпойми чего и для чего это можно применять. Тупорылая идея с заведомо ложными предпосылками, которую всё равно перепишут потом.
Аноним 20/04/24 Суб 12:05:25 #246 №710728 
Как вам по ощущениям эта 8б модель? Соя пищит что это чуть ли не 70б ллама2 по уровню, но на деле когда я скормил ей саммари, то она высрала какой-то скудно-бедный ответ на уровне обычного 7б говна. При этом даже 70б проебывает CR+.
Текст правда был на русском, может быть это из-за этого? Если говорят что у command-r целых 15% русских токенов в обучающем датасете, то наверное это все же больше чем у ламы.
Аноним 20/04/24 Суб 12:09:50 #247 №710731 
>>710728
У лламы3 всего лишь 5% датасета было не англоязычное. И тем менее, контекстно справляется, пусть и не так красноречиво
Аноним 20/04/24 Суб 12:21:00 #248 №710735 
>>710728
>Как вам по ощущениям эта 8б модель? Соя пищит что это чуть ли не 70б ллама2 по уровню
По ощущениям хуже мистраля 7В. Мистраль конечно не может в русский, но зато не шизит и контекст понимает. Новая ллама мне больше Пигмалион 6В напомнила по выдаче, в упор не вижу в ней никакого прогресса.
Аноним 20/04/24 Суб 12:41:20 #249 №710746 
>>710728
>Как вам по ощущениям эта 8б модель?
Как не 8B модель, может и не 13B. Сложно говорить, потому что я уж и забыл базовые модели как выглядят. Эта штука явно не затюнена под РП, хотя что-то сходу понимает, этого точно раньше не было в таких игрушечных размерах.
Абсолютно не может в культурные референсы, вот это выдаёт мелкую модель (или датасет, хуй знает).
>Текст правда был на русском, может быть это из-за этого?
На модели такого размера - может, удивительно что она вообще что-то кроме бессмыслицы может выдать на не-английском
Аноним 20/04/24 Суб 12:53:18 #250 №710753 
У меня 70B в q1 поместилась, максимум с небольшим контекстом могу q2 запустить. Но стоит ли оно того? Насколько сильно квантизация херит ответы? Не будет ли полноценный 7B лучше в хлам ужатого 70В?
Аноним 20/04/24 Суб 13:01:17 #251 №710763 
>>710753
Если у тебя 70b не запускается с 4 квантом то не мучай себя и катай что то поменьпше
Аноним 20/04/24 Суб 13:02:26 #252 №710764 
Опа, кобальд обновился, збс
Аноним 20/04/24 Суб 13:31:07 #253 №710811 
третья ллама кажется поломаной, тестировал 70b q4_m, стелит логично, но время от времени сильно циклится, с любыми настройками, может ггуф кривой, ломает её, надо оригинальные веса запустить в 4 бита, но как же лениво ебаться.
Аноним 20/04/24 Суб 13:32:35 #254 №710813 
>>710728
Юзал онлайн версию, хз, по ощущениям лучше микстраля, в кодинге уж точно.
Аноним 20/04/24 Суб 13:39:26 #255 №710820 
В пизду.
Еду завтра покупать 3090.
80к всего.
Сука, как заебали ваши видеокарты.
Можно как-то вкорячить 3080т+4070т суп+ 3090?
Рейзеры все дела.
Аноним 20/04/24 Суб 13:40:20 #256 №710822 
>>710820
Что по питанию то?
Аноним 20/04/24 Суб 13:41:47 #257 №710827 
>>710820
Так понравились большие сетки и нейросети вобще?
Аноним 20/04/24 Суб 13:47:16 #258 №710829 
>>710827
Я не он, но эти ваши нейросети это наркота ебаная. Уже второй год слезть не могу. Купил даже 4090 под это дело, полёт нормальный.
Аноним 20/04/24 Суб 13:47:47 #259 №710830 
>>710822
850 платина пердит.

>>710827
Да, большие норм тема.


Или подать за 50к 3080ти и тупо вкорячить 3090?
40 гб хватит на всё же, без ебатории с рейзерами и замены БП?
Аноним 20/04/24 Суб 13:50:00 #260 №710832 
>>710830
>40 гб
не хватит, чтобы 70ку на 4 кванта запустить нужно 48.

>850 платина пердит.
на три видяхи то? ну, удачи.
Аноним 20/04/24 Суб 13:52:42 #261 №710833 
>>710665
Че это за цифры?
Аноним 20/04/24 Суб 13:53:39 #262 №710834 
>>710832
>на три видяхи то? ну, удачи.
Можно ведь придушить потребление, как р40 душат в 2 раза без серьезного падения скорости
Это ж не игры, в итоге можно до 400 ватт ужать все 3 карточки, я думаю. Хотя хз
Аноним 20/04/24 Суб 13:54:17 #263 №710836 
>>710608
Да кто его знает, причин может быть множество. Наиболее вероятен кривой формат.
>>710728
Неплохая вроде, пока самое интересное что она не кажется мелкой. Хорошо принимает условия и следует им, но без одержимости, которая была в прошлых моделях, плюс высокая вариативность ответов. По обработке большого нужно тестить, может и соснет.
>>710820
Надо было сразу, лол. Офк можно если в матплате хватит слотов, но с питальником будет тяжело. Ищи от 1.2квт с достаточным количеством разъемов. Если будет 12+4 пиновый то он полностью уходит на 4070, а на пару остальных уже 8пиновые считай.
>>710830
> 40 гб хватит на всё же, без ебатории с рейзерами и замены БП?
Ты сначала на трех поперди, а потом уже будешь думать.
Аноним 20/04/24 Суб 13:58:26 #264 №710838 
>>710833
Хотят ввести запрет на тренировку одной нейросети выше определенного предела вычислений
Или уже ввели, хз
В штатах, в европе тоже готовят какие то законы и ограничения для того что бы душить ии
Аноним 20/04/24 Суб 13:59:15 #265 №710840 
>>710836
70ки на 4 квантах сильно лучше чем на 2,6кв?
Аноним 20/04/24 Суб 14:13:37 #266 №710849 
>>710838
Ну и насосутся, потому что Китай и Россия на эти влажные пуки внимания не обратят
Аноним 20/04/24 Суб 14:23:03 #267 №710856 
Какой формат промпта нужен ламе 70В? Циклится с ходу в таверне, кучу разных перепробовал, в том числе и правильный от лламы 3. Либо Жора опять говна навалил.
Аноним 20/04/24 Суб 14:23:25 #268 №710857 
>>710849
>Россия
не смеши, китай да
Аноним 20/04/24 Суб 14:24:17 #269 №710858 
>>710856
У тебя инструкт?
Аноним 20/04/24 Суб 14:24:27 #270 №710859 
>>710583
Самые упертые говорят, что выше 16 не надо. =')
Но вообще базу навалил.

>>710735
> Мистраль конечно не может в русский
Ору. =D
Может, скилл ишью, чел. =)

>>710813
А CodeQwen-то пробовал?
Мы вчера покатали, ниче так, интересные идеи выдает задешево.

>>710820
Я бы на топовый райзер вешал 4070т суп как самую мало жрущую.
Но вообще, идея так себе.

>>710830
Нуээээ, я бы брал 1000-1200+, если честно.
200+300+350 уже не впритык, а в перебор, ИМХО.

Ну и лучше две, но большие, но вряд ли 40 гигов хватит.

>>710834
Щас бы 900 ватт в 400 удушать, ага. =)
Не настолько, ну до 650 опустишь, все равно пиздец впритык, конечно. Я бы БП сменил.
Аноним 20/04/24 Суб 14:25:07 #271 №710860 
>>710858
Да. Пробовал IQ и обычный q4. Всё хуйня.
Аноним 20/04/24 Суб 14:27:57 #272 №710862 
>>710860
У меня инструкт не циклится, претрейн - да.
Аноним 20/04/24 Суб 14:28:17 #273 №710863 
>>710840
4.5+ бита - вполне полноценная модель, отличия которой от полных весов нужно будет поискать.
2.6 бит - лоботомит с деменцией и шизой.
Офк это все для правильно выполненных квантов в текущем положении дел с ними, косячные хоть 6 бит будут парашей, а какие-то перспективные методы кванта могут и в 2.5бит добавить жизни.
Аноним 20/04/24 Суб 14:29:26 #274 №710865 
17106927216200.jpg
>>710849
>и Россия
Расскажешь своим внукам эту шутку.

>>710859
То есть все таки не продвать 3080ти и заморочиться с рейзерами?
40 гб не хватит всем значит.
Аноним 20/04/24 Суб 14:32:24 #275 №710868 
>>710865
>40 гб не хватит всем значит.
Смотря какие модели ты хочешь запускать. Чтобы адекватно гонять 70 или командера нужно 48. Тут лучшим вариантом было бы взять P40 к 3090 или 4090...
Аноним 20/04/24 Суб 14:32:36 #276 №710869 
Ну чо, го тестить эту вашу лламу3 70б на двух теслах.
Качну q3 c матрицей, q4_0, q4_K_M.
Интересно, что там по скоростям.

Если есть предложения — накидывайте.
Аноним 20/04/24 Суб 14:33:44 #277 №710871 
>>710865
> 40 гб не хватит всем значит.
Нытье с командером недавно тебя не убедило? в идеале вообще продать 3080ти, купить еще одну 3090 и иметь ии фермочку, которую не нужно прерывать для того чтобы поиграть на 4070ти, сможешь в вр с вайфу чатиться
Аноним 20/04/24 Суб 14:33:55 #278 №710872 
>>710865
На мой вкус — целиком менять.
3090+3090 — это пушка.
3080+4070+3090 — уберсомнительно.
3090+одна из них — точно нет.
Ну… Дело твое, конечно
Аноним 20/04/24 Суб 14:34:01 #279 №710873 
>>710868
У меня валяется Р100.
КУДА победила меня раньше чем я смог заставить её работать на постоянке.
Аноним 20/04/24 Суб 14:35:52 #280 №710874 
>>710873
Я не знаю какие у тебя там траблы с P100, у меня P40 в пекарне, с еще одной карточкой, гоняю кобольд, КУДА жив.
Аноним 20/04/24 Суб 14:36:21 #281 №710875 
>>710865
>>710871

Кстати.
Как обладатель трех компов могу предложить следующий вариант:
Собрать один комп с 3090+3090, второй чисто с 3080ти, и третий игровой.
Будет один под ллм, один под распознавание и генерацию речи, и третий игровой. =D
Это как у меня, только каждый пизже.

Ну или просто 3090 вынести в отдельный комп, играть на 4070 ти супер, а 3080ти оставить под вот это вот все.

Ну это просто мысли вслух, канеш.
Аноним 20/04/24 Суб 14:36:56 #282 №710876 
>>710871
AV1 ахуеная штука. Тестанул на ВАМ.
Жаль что в рашке 6Е вайфай аннулирован за неуплату фсб.

>>710872
Хочется меньшей кровью.
Я вообще не платировал в этом году карту менять ибо 2 года назад уже отда 150к за 3080т. Но тут такое дело.

Ну значит придется брать БП и рейзеры, ох боги.
Аноним 20/04/24 Суб 14:38:07 #283 №710877 
>>710875
Я живу в бытовке, и тут не так много места что бы еще один гроб в виде системника ставить.
Хочется в один запихнуть.
Аноним 20/04/24 Суб 14:39:00 #284 №710880 
>>710875
> Как обладатель трех компов
Нахер они тебе?
С одной стороны выделить гпу в отдельную машину - идея здравая, но тогда сразу теряешь возможности нормального объединения их с твоей основной.
>>710876
> AV1
> Тестанул на ВАМ.
можно перевод?
Аноним 20/04/24 Суб 14:43:22 #285 №710882 
>>710880
Кодек видео который может кодировать на 40 серии.
Он для Виртуал Десктопна доступен.
VAM- virt-a-mate. Ну лучше погугли.

https://www.youtube.com/watch?v=FjgFcw1NeV8&t=3s
Аноним 20/04/24 Суб 14:43:53 #286 №710883 
>>710876
У меня роутер со вчера стоит на ноуте, мне лень менять его.
Но к вечеру поменяю и затестирую, чо там на максималках будет.
Хотя меня и так устраивает. Хуяришь фильтр с шумом на няшку + pass-through в квесте 3 не огнище, сам понимаешь. И получается натуральненько.

Ну… Успехов тебе!
Райзер-то возьми товстенький, полноценный.

>>710880
Quest 3 + RTX 40хх поддерживают кодек AV1, дающий лучшее качество и минимальный задержки.
ВАМ — Virt-a-Mate — виар-порно-игра.

А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
А так, я могу отдельно юзать ллм, отдельно играть, не пересекаясь. И исключены проблемы по питанию (на теслах 850 голд, на компе 1000 голд), проблемы по охладу, ваще все океюшки.
Аноним 20/04/24 Суб 15:02:05 #287 №710897 
>>710882
Бля, ахуеть, голову поломал при чем тут видеокодек.
> VAM
Латинницей бы сразу писал
конечно за выпуск лламы поддержать экстремистскую корпорацию было бы неплохо, но pico 4 хватит всем.
>>710883
> А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
Один гей_мерский допустим, второй с парой тесл - ну условно достаточно и их охлада ставит трудности, а третий куда?
> А так, я могу отдельно юзать ллм, отдельно играть, не пересекаясь.
Это все можно делать на одном компе
Аноним 20/04/24 Суб 15:08:43 #288 №710901 
Аида тест памяти.JPG
Я в прошлом треде задавал вопрос про 4гб врам и 32гб рам. Вот, в общем, спеки мои. Я так понимаю, на этом достаточно легко будет запустить 7б модели? Посоветуйте 7б модель чтобы пощупать эти ваши LLM. Раньше сам ничего не запускал.
Аноним 20/04/24 Суб 15:14:32 #289 №710906 
>>710575
>чтоб модель выдавала свой ответ в виде JSON типа
За этим уже к GBNF Grammar.
>>710577
>Как и врам больше 8
4к гейминг передаёт привет, меньше 12 вообще не катируется.
Аноним 20/04/24 Суб 15:15:44 #290 №710907 
>>710901
Можешь просто по инструкции из шапки делать, начини с кобальда и скачай модель которая в инструкции там
У тебя отличная скорость и быстрый процессор, научись запускать и настраивать на простом бекенде по типу кобальда, потом если зайдет что то поменяешь
Новую ллама3 8b не рекомендую новичку, она еще нормально не запускается
Аноним 20/04/24 Суб 15:16:15 #291 №710908 
>>710901
>Посоветуйте 7б модель чтобы пощупать эти ваши LLM
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-16k-GGUF
https://huggingface.co/TheBloke/openchat-3.5-0106-GGUF
https://huggingface.co/bartowski/dolphin-2.8-mistral-7b-v02-GGUF
https://huggingface.co/TheBloke/Nous-Hermes-2-SOLAR-10.7B-GGUF
https://huggingface.co/froggeric/WestLake-10.7B-v2-GGUF
Аноним 20/04/24 Суб 15:18:55 #292 №710911 
>>710897
В третьем у меня торчит мелкая видяха для обработки звука + он используется как бастион на входе с роутера в локальную сеть.

> Это все можно делать на одном компе
Выключив его, не занимая проц, не занимая озу? :) Капельку сомневаюсь.

>>710901
С твоей частотой видяха не так важна, так что просто бери любую модель уровня до 35B, контекст кидай на видяху, все слои на оперативу и вперед.
В шапке предложены варианты, выбирай.
Аноним 20/04/24 Суб 15:20:24 #293 №710913 
image.png
>>710453
Нет! Она навсегда будет жить в наших сердцах! Заткнись!
Аноним 20/04/24 Суб 15:22:37 #294 №710914 
Скачал лаву. Поставил в кобольде модель и mmproj файлы. Кидаю ей картинку, а она галюцинирует, пишет что я скинул скриншот мобильного телефона, очевидно не видит картинку нихуя. В чем может быть проблема?
Аноним 20/04/24 Суб 15:23:48 #295 №710918 
>>710901
Покатай новую лламу о 8б, она хорошая. Или подожди пока заделают нормальные файнтюны, будет летать быстро и при этом прилично отвечать.
>>710911
Больной ублюдок
> Выключив его, не занимая проц, не занимая озу? :)
Зачем его выключать? Если мало озу - просто купи больше, ее и проц ллм, сетки, обучение почти не кушают чтобы игорю вдруг не хватило. Абсурдные вещи втираешь, аргументом тут может служить шумность охлаждения и желание вынести их, особенно если спишь в той же комнате и пускаешь очень долгие задачи.
> С твоей частотой видяха не так важна
Решил над ним поиздеваться?
Аноним 20/04/24 Суб 15:25:28 #296 №710920 
>>710833
Ламу3 тренировали на 15 триллионах токенов, Ламу2 на 2 триллионах. Это в 75 раз больше теоретического оптимального количества. И Мета сказала, что даже при таком количестве модель не показывала признаков конвергенции, т. е. продолжала улучшаться.

На втором пике он расчитывает "мощность" моделей, т. е. количество флопсов, потраченных на тренировку. Она грубо оценивается как количество параметров, умноженное на количество токенов, умноженное на 6. У Ламы 70 это примерно 9 на 10 в 24 степени флопсов, у Ламы 400 будет 4 на 10 в 25 степени. И это всего в 2 раза меньше предела 10 в 26 флопсов, установленного исполнительным приказом Байдена, для которого нужно будет согласовывать тренировку моделей с какими-то там инстанциями.
Аноним 20/04/24 Суб 15:26:15 #297 №710921 
>>710918
>Решил над ним поиздеваться?
Думаю у него даже 30-35b пойдет около 4 токенов в секунду, большо просто оперативки не хватит запускать. 4 т/с это нормальная скорость для большой модели, минимально комфортная для чтения. Все что меньше будет конечно еще быстрее летать.
Аноним 20/04/24 Суб 15:26:18 #298 №710923 
image.png
Нехило так Лама акции Нвидиа пошатала
Аноним 20/04/24 Суб 15:27:55 #299 №710924 
>>710923
А какая связь?
Аноним 20/04/24 Суб 15:30:05 #300 №710926 
>>710924
Ну типа теперь не надо покупать кучу дорогих видеокарт, чтобы тренировать свои модели, если есть открытая Ллама 3
Аноним 20/04/24 Суб 15:30:53 #301 №710929 
>>710920
> с какими-то там инстанциями.
Тьюринг-полиция.
https://williamgibson.fandom.com/wiki/Turing_Police
Аноним 20/04/24 Суб 15:31:01 #302 №710930 
>>710921
> Думаю у него даже 30-35b пойдет около 4 токенов в секунду
Едва ли поднимется выше трех с такой-то видюхой, и то после очень долгой обработки контекста, ждать минуту первых токенов - неприятно.
>>710926
Теперь нужно покупать кучу дорогих видеокарт чтобы ее пускать у себя, лол.
Аноним 20/04/24 Суб 15:31:07 #303 №710931 
Остановился на следующем списке:

Llama-3-70B-Instruct.IQ4_XS.gguf
Llama-3-70B-Instruct.Q4_0.gguf
Llama-3-70B-Instruct.Q4_1.gguf
Llama-3-70B-Instruct-IQ4_NL.gguf
Llama-3-70B-Instruct.Q4_K_M.gguf
Llama-3-70B-Instruct.i1-Q4_K_M.gguf

Два IQ, один из них NL (че за хуйня?), один iMatrix, два базовых, один классический.

Хочу понять, какая разница в перформансе между ними на теслах, есть ли выигрыш от размера в скорости, и чувствуется ли разница в качестве.
В теории, q4_0 будет самой быстрой, но самой тупой, однако занимать много места.
i1_Q4_K_M лучшего качества, но, возможно, самой медленной.
IQ4_NL неебу шо это за версия.

Предлагайте ваши варианты, мнения, пояснения.
Я не очень следил за вариантами квантов, не шарю.
Аноним 20/04/24 Суб 15:31:08 #304 №710932 
>>710923
Нвидия просто перекачана инвестициями чел. Ща все компании очевидно начали свои чипы выпускать и нвидия уже не кажется настолько однозначным монополистом который будет всю ии индустрию вести. Если бы я вкладывался в чьи-то акции то я бы вкладывался в мелкомягких. Во всякие клосед аи к сожалению напрямую вкладываться нельзя, а они самые большие инвесторы в них и в клод
Аноним 20/04/24 Суб 15:32:02 #305 №710935 
>>710931
> Предлагайте ваши варианты
exl2 4.65 от лонстрайкера
Аноним 20/04/24 Суб 15:32:47 #306 №710936 
>>710926
Наоборот, теперь нужно еще больше железа ведь тренировка до 15т токенов дает лучший результат даже для мелкой модели.
+ вышла куча больших моделей для инференса которых тоже нужны дорогие ускорители
Аноним 20/04/24 Суб 15:33:51 #307 №710939 
>>710918
> 128
> 95%
=) Попозже будет DDR5, будет 256.
Иногда запускаешь крупные для тестов, а пока она там жуется — хочется поиграть, например.
Поверь, когда у тебя куча мелких и крупных задач параллельно — один комп начинается подтормаживать, выбрасывать фризы в игре, это неприятно.
Можно, но зачем, если можно разделить на несколько и не иметь проблем?

> Решил над ним поиздеваться?
Ну, видяха с 4 гигами вряд ли там потащит что-то куда-то.
Аноним 20/04/24 Суб 15:34:13 #308 №710941 
>>710935
Tesla P40.
Нет смысла, к сожалению.
Аноним 20/04/24 Суб 15:34:36 #309 №710942 
>>710931
Q4_1 нет разницы с Q4_0, я бы убрал из списка
I3km лучше качни и обычную 3км
Аноним 20/04/24 Суб 15:37:02 #310 №710948 
>>710897
П4 все таки стоит поменять на К3 если бабки есть. Качество картинки на голову выше.
Аноним 20/04/24 Суб 15:38:31 #311 №710953 
изображение.png
>>710876
>ибо 2 года назад уже отда 150к за 3080т
Обнимемся, брат.
Аноним 20/04/24 Суб 15:39:03 #312 №710957 
>>710942
👌
Но я 4_1 тоже попробую, уж очень интересно чисто для себя разобраться.

>>710948
Пику не юзал, но стерео-цветная картинка лучше моно-цветной стопроц.

Если есть деньги — то стоит, соглашусь.
Аноним 20/04/24 Суб 15:39:34 #313 №710959 
>>710873
>У меня валяется Р100.
Вот это попробуй:
https://github.com/AUTOMATIC1111/stable-diffusion-webui/issues/2449
Только перед компиляцией xformers задай вот эту переменную окружения для твоей архитектуры, прямо в окне venv:
set TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6"

Пишут, что ускоряет и P100 и даже P40, если Убабугу с ключом --xformers запускать. Ну и с совместимостью тогда проблем нет, но только там.
Аноним 20/04/24 Суб 15:44:05 #314 №710965 
Warning: LLAVA Image excluded - Context size too low or not enough clip tokens!

Да ты пизданулась там чтоле. Изображение 115кб
Аноним 20/04/24 Суб 15:45:27 #315 №710968 
1642869785190.png
>>710939
> > 128
> > 95%
Чем и зачем? Вот запущено всякого разного ии и не-ии релейтед, еще вагон свободен и немалая часть из этого может быть выгружена без импакта, ибо пустое выделение без обращений.
> Иногда запускаешь крупные для тестов
Пускаешь сетку на процессоре и хочешь играть? Земля пухом.
>>710948
Ну хуй знает, это нужно для начала у кого-то стрельнуть попробовать, и вообще использовать чаще чем раз в пару недель для подпивасных рофлов.
Аноним 20/04/24 Суб 15:45:58 #316 №710971 
изображение.png
>>710901
Погугли настройку памяти на своём конфиге, у тебя какой-то проёб. У меня на амудях меньше 60-ти.
>>710911
>бастион
Ух бля. А нахуя?
>>710914
Читай логи, может там чего написано.
>>710932
>Ща все компании очевидно начали свои чипы выпускать
Посмотрим на их обсёры.
>>710965
>Изображение 115кб
От разрешения смотри.
Аноним 20/04/24 Суб 15:52:00 #317 №710973 
>>710971
>От разрешения смотри.
Специально запилил 102х57 изображение, все равно это же выдает
Аноним 20/04/24 Суб 15:54:03 #318 №710975 
>>710965
Контекст на эмбединги нужен не менее 2к емнип
Аноним 20/04/24 Суб 16:00:42 #319 №710988 
>>710932
> Ща все компании очевидно начали свои чипы выпускать и нвидия уже не кажется настолько однозначным монополистом который будет всю ии индустрию вести.
Выпускают-то они их все на той же TSMC, а она не резиновая и все там расписано на месяцы и даже годы вперед, много они произвести не смогут. А ускорителей надо как раз дохуя. Так что пока Нвидиа почти единственный вариант для самых больших покупателей. Даже АМД от низ раз в 10 отстают по объемам.
Аноним 20/04/24 Суб 16:02:28 #320 №710993 
>>710968
> Пускаешь сетку на процессоре и хочешь играть? Земля пухом.
Ну, так одно с другим не связано.
Ну и… как бы все получается, ведь два компа = два проца, внезапно, да? )
Вишь, получается, ты приходишь к тому же.
У меня нет проблем, потому что все разнесено по разному железу и не пересекается в работе. Изи.

>>710971
> А нахуя?
Я на работу хожу в офис, не то чтобы там активно работаю, ну и вот. =)
Аноним 20/04/24 Суб 16:03:58 #321 №710994 
>>710988
Понятно что нвидия не умрет нихуя и ее не задавят. Просто это очевидно не монополист
Аноним 20/04/24 Суб 16:04:53 #322 №710996 
image.png
Ебанутся долго конечно на кобальде генерить картинки, врам не хватает походу, но там есть вот такая прикольная фигня.
Тоесть я так понял что можно через мультимодальный адаптер дать модели обратную связь на ту картинку которую она сгенерила. В итоге она может пробовать снова и снова если дать ей задание сделать картинку соответствующую запросу. Это забавно.
Аноним 20/04/24 Суб 16:08:14 #323 №711002 
>>710965
>>710973
Чел, визуальная часть выдаёт фиксированное количество токенов всегда. Это обычно 1200-1600 токенов на пикчу.
Аноним 20/04/24 Суб 16:08:48 #324 №711004 
>>710993
Потерял нить и перевел куда-то а вот смотрите у меня к своему кейсу, а изначально обсуждалось размещение пачки гпу в одной пеке. Из плюсов их выноса только шум/тепло, пересечение с остальными задачами перенебрежимо ибо все крутится на гпу с минимальным привлечением профессора. Минусов же хватает, они в изолированной системе и значит нормально не объединить с основной, требуется отдельный гробик, тратить немалую сумму на отдельную систему и так далее.
Вот и все сводится к возможности/удобству их совместного размещения, а не к придумыванию
> а ты вот запусти нейронку на профессоре имея 48+гб врам чтобы было честно!
Аноним 20/04/24 Суб 16:09:08 #325 №711006 
>>710959
>Только перед компиляцией xformers задай вот эту переменную окружения для твоей архитектуры, прямо в окне venv:
>set TORCH_CUDA_ARCH_LIST = "6.0;6.1;6.2;7.0;7.2;7.5;8.0;8.6"
Я просто хотел поиграть с Моделькой, а не компилировать куда файлы для таверны.
Выше писали что людям с двузначныйаку не стоит туда соваться.Я в целом и не против.
Аноним 20/04/24 Суб 16:13:07 #326 №711016 
>>711002
Если это действительно так то это хуета. Понятно чо вижн модели такие хуевые если у них и в 256х256 и в 4к излбражении одинаковое количество информации
Аноним 20/04/24 Суб 16:15:23 #327 №711020 
image.png
Бля, для 8b модели очень нехуевый результат.
Аноним 20/04/24 Суб 16:26:54 #328 №711044 
>>711004
>Из плюсов их выноса только шум/тепло
Две теслы - 500 ватт шум/тепло, 3 - 750. Плюс от трёх уже есть вопросы ко всей системе, начиная от мат.платы и далее к БП, корпусу и т.д. Фактически максимум потребительского ПК - плюс одна тесла к основной видеокарте и всё. Это неплохой буст, но всё, что выше уже требует отдельного сервера.
Аноним 20/04/24 Суб 16:32:31 #329 №711053 
Миллионы лет люди трахали реальных девушек, а теперь, спустя годы развития общества и технологий, люди вынуждены общаться с кривыми чатботами и дрочить на это. "Развитие", лол.
Аноним 20/04/24 Суб 16:34:09 #330 №711057 
>>711053
>люди вынуждены общаться с кривыми чатботами
vs
>люди вынуждены общаться с кривыми тян
Аноним 20/04/24 Суб 16:49:37 #331 №711090 
>>711053
Как говорится, людям нравятся монстро девушки, потому что они монстры снаружи, а не внутри
Современный тян измельчал, доверия любой - ровно ноль.
Кому то повезет найти нормальную, кому то нет
Тем более в нашей стране, что бы планировать какую то семью нужно быть идиотом
Поэтому тяга к такому эскейпизму и суррагату мне вполне понятна
Аноним 20/04/24 Суб 16:50:21 #332 №711093 
>>711053
>люди вынуждены общаться с кривыми чатботами и дрочить на это.
Прогресс ИИ идёт полным ходом, а вот с людьми всё уже понятно. Другой вопрос, что без киборгизации подлинного слияния с Машиной не достичь. Но всё ещё будет :)
Аноним 20/04/24 Суб 16:51:26 #333 №711095 
Llava 1.6 может выполнять все тоже что показали у грок 1.5 вижн. Я недооценивал опенсорс в плане мультимодальности
Аноним 20/04/24 Суб 16:53:50 #334 №711102 
>>711057

5 лет назад было тоже самое, только чатботы были уровня Порфирьевича. Так что благодари бога что прогресс нам помогает.
Аноним 20/04/24 Суб 16:55:23 #335 №711104 
>>711095
Есть еще круче, cogvm или чет такое
Аноним 20/04/24 Суб 16:57:44 #336 №711111 
>>711104
>cogvm
https://github.com/THUDM/CogVLM
Аноним 20/04/24 Суб 17:02:23 #337 №711120 
Ту-ту-туруту-туруту-ту-ту.webm
>>710753
>У меня 70B в q1 поместилась
>максимум с небольшим контекстом могу q2 запустить

Уже третий квант находится на уровне 7В, второй - это неюзабельный лоботомит, а 1 бит - честно я еще не видел идиотов которые бы это запускали, ты первый.
Аноним 20/04/24 Суб 17:18:18 #338 №711156 
>>710865
>>710857
> не смеши, китай да
> Расскажешь своим внукам эту шутку.
А че такого? У нас как раз дохуя датасетов уникальных, все таки СНГ сегмент интернета второй по величине и кол-ву контента. Так что вы зря смеетесь. Китайцы подгонят мощностей для тренировки, Яндекс допилит и выйдет очень даже ничего.
Аноним 20/04/24 Суб 17:19:50 #339 №711164 
Прифигачил к не мультимодальной модели mmproj от ллавы. Модель понимает изображение в общих чертах понимает цвет, что это примерно что-то маленькое у него есть глаза, но в общем путается в ответах что это. Это нормальное поведение? Я думал что так любой фантюн смогу мультимодальным сделать, но походу придется самому ллаву файнтюнить...
Аноним 20/04/24 Суб 17:19:54 #340 №711166 
Кокда ddr6?
Самое то, чтобы запускать 400b.
Аноним 20/04/24 Суб 17:22:57 #341 №711174 
У третьей ламы нет задач, кроме как базы для файнтьюнов.
Русский язык она понимает плохо, тут командир вне конкуренции. В ролеплее модель уступает файнтьюнам мистраля и 20B франкенштейнам второй ламы.
Так что не понимаю всеобщего эксайтмента.
Аноним 20/04/24 Суб 17:24:02 #342 №711176 
>>711174
> Так что не понимаю всеобщего эксайтмента.
> Сам упомянул что это новая охуенная база для файнтюнов
Аноним 20/04/24 Суб 17:24:43 #343 №711178 
>>711166
>400b
В q8 это ~200гб. Сейчас в десктопах можно набрать 192, но когда выйдут 64гб, можно будет и 256. А пока можно довольствоваться чуть более мелкими квантами, всё равно в таких больших моделях от квантования мозги не особо проёбываются.
Аноним 20/04/24 Суб 17:25:13 #344 №711180 
>>711174
Так тут один анон писал, что только 70b ллама 3 база для рп. И то только после десоефикации.
Аноним 20/04/24 Суб 17:25:56 #345 №711181 
>>711164
>Прифигачил к не мультимодальной модели mmproj от ллавы.
Там надо правильный выбрать, если у тебя файнтюн мистраля то и mmproj нужен от мультимодального мистраля, если там ллама - то от лламы.
Ну и да, чем больше файнтюн отличается от мультимодальной модели тем хуже будет работать даже совместимый адаптер.
Аноним 20/04/24 Суб 17:33:23 #346 №711196 
>>711181
Для теста использую llava 1.5 13b Q5 mmproj и llama 2 chat 13b Q. По идее максимально близкое выбрал. Не, оно вроде работает, просто не близко к тому как работает лава сама по себе
Аноним 20/04/24 Суб 17:35:18 #347 №711200 
.png
>>711053
Трансгуманизм, киберпанк
Аноним 20/04/24 Суб 17:40:05 #348 №711203 
>>711196
https://huggingface.co/mradermacher/llava-v1.6-mistral-7b-GGUF
https://huggingface.co/ShadowBeast/llava-v1.6-mistral-7b-Q5_K_S-GGUF/tree/main
Вот это попробуй, должно быть лучше
Стыкуется к файнтюнам мистраля 7b или работает само по себе
Надо тоже скачать пощупать, давно мультимодалки не проверял
Адаптер mmproj хотя бы спиздить на будущее, лол
Аноним 20/04/24 Суб 17:42:40 #349 №711206 
>>711203
1.6 не запускается, из-за длины контекста. Я писал выше что у меня проблемы были что изгбражение в кобольде открепляется. Они там архитектурно пиздец натворили короче
Аноним 20/04/24 Суб 17:44:56 #350 №711210 
>>711206
Скачаю чекну, может запустится. Ну нет так у меня ллама.спп скачена, кое как заведу с командной строки может там сработает
Аноним 20/04/24 Суб 17:49:29 #351 №711216 
>>711156
>Китайцы подгонят мощностей для тренировки
НЕТ.
>Яндекс допилит
У него хуйня выходит, после последней смены руководства, угадай почему.
>>711166
>Самое то, чтобы запускать 400b.
Не, там скорость максимум удвоят. а это около 160ГБ/с. А этого мало.
Аноним 20/04/24 Суб 17:49:35 #352 №711217 
>>711210
Я про то что у меня не запускается. У тебя может запустится. Я на макбуке запускаю вообще без ГПУ
Аноним 20/04/24 Суб 17:51:35 #353 №711220 
>>710901
Ты вполне сможешь запустить 13B на паре токенов/сек
Аноним 20/04/24 Суб 17:54:35 #354 №711222 
>>711156
>У нас как раз дохуя датасетов уникальных
У нас уникальные, а нужны специально подогнанные. Я люто проигрывал, когда "русские" фирмы с кипра платили деньги долбоёбам на толоке за составление датасетов. Соответствующего качества. И это теперь сбермодель, если что. Смеёмся абсолютно заслуженно. Яндекс точно такой же кал, который собственную жопу не найдёт, не то, что мощности для тренировок.
Аноним 20/04/24 Суб 17:59:36 #355 №711232 
>>711222
>мощности
У них все еще есть, а вот специалистов и самой компании как единого целого - нету. Все кто мог свалили, неудачники остались без мотивации что то делать. Угадай почему
Аноним 20/04/24 Суб 18:03:06 #356 №711241 
>>711232
> Угадай почему
Почему?
Аноним 20/04/24 Суб 18:03:26 #357 №711243 
>>711176

Так аноны эксайтятся именно от базовой модели и от того что она выдает. По сравнению с базовой второй ламой и правда прогресс, но...
Аноним 20/04/24 Суб 18:05:27 #358 №711254 
Если у них так дохуя мощностей что они пилят 8Б на 15Т токенов за неделю, почему они не обучат троичный квант?
Аноним 20/04/24 Суб 18:06:03 #359 №711257 
ThesmokerfromtheTVseriestheXFiles1141096296.png
>>711232
>>711241
Ребята, не стоит вскрывать эту тему. Вы молодые, шутливые, вам все легко. Это не то. Это не Чикатило и даже не архивы спецслужб. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше закройте тему и забудьте, что тут писалось. Я вполне понимаю, что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых – стоп. Остальных просто не найдут.
Аноним 20/04/24 Суб 18:07:29 #360 №711260 
>>711004
Подожди, это ты потерял нить.
И теперь старательно переводишь стрелки.
Вертаемся назад.

> А три компа потому что я ебал райзеры, корпус и две теслы пихать к 4070тишке.
> Один гей_мерский допустим, второй с парой тесл - ну условно достаточно и их охлада ставит трудности, а третий куда?

Вот тут меня спросили, куда у меня три компа.
Я пояснил — куда три компа.

> изначально обсуждалось размещение пачки гпу в одной пеке
Нет, это вообще не обсуждалось. =) Ты либо не в тот диалог влез, либо сам себе выдумал, сам себе ответил.
Меня спросили, как распихано — я ответил.
Меня спросили почему распихано так — я ответил.
Потому что это удобнее, а потеря 12 гигов из потенциальных 60 считаю меньшей проблемой, чем упаковывание в один корпус.
Речь всю дорогу шла о том, почему лично я предпочел собирать аккуратно в два компа, а не в один с райзерами и колхозом охлада.

Так что ты больше нить не теряй, пожалуйста. =) А то сам себя запутал, по-ходу, а претензии внезапно мне прилетели, кек.

>>711044
Ну, ну во-первых, там 190-210 ватт, если ллм.
Во-вторых, это ж не 3090, 200 ватт 3 штуки — это 600, в киловаттник впихнуть можно.
В-третьих, есть материнки с четырьмя слотами, например.
НО, это крайне ситуативно, еще и денег стоит, и собирается крайне редко.

На деле, в хорошую мать можно пихнуть три карты. И даже, в теории, мой киловаттник бы это потянул, но вот корпус у меня не рассчитан под 8 слотов (1 верхний, 3 видяха игровая, остается только 3), да и все это пихать… Удовольствие так себе. И на райзеры вешать не хотелось бы.
Короче, лесом. Мой выбор таков, а кто хочет собирать 8-10-12 слотов в одном корпусе — я ничего не имею против, но это их выбор, успехов, всех благ. =)

>>711095
А что там грок-то показал? Я просто не очень понимаю, как можно оценить мультимодальность. Она или есть, или ее нет. Все.
Имеется в виду, по качеству, повторили те же тесты, и ллава смогла?
Ну, тады хорошо, умничка, что могу сказать. Да, ето плюс.
Ну и не забывай, что еще есть когагент, который, я полагаю, гораздо меньше грока. =)

>>711111
Все же, агент, не? :) ВЛМ по-слабее у них, кажись.

>>711120
Я запускал, тупая впиздень, подтверждаю.

>>711156
У нас нет открытых локалок, кроме ругпт. Все, точка, с этим живем, нефиг придумывать то, чего нет.
Эти подгонят, эти допилят, ну вот как будут — так и зови.
А пока сиди и обучай на 65 нм Эльбрусе.
Про закрытые речи в принципе не идет, ну, Гигачат хорош, ЙаГПТ что-то умеет, какая разница, тред локалок.
Не имею ничего против, но надо смотреть правде в лицо.

Что выходит раз в полгода? Квен.
Что входит в топ-10 на арене? Квен.
Кто выпускает Квен? Не мы, к сожалению.

>>711166
Не забывай про скорость в 0,5-1 токен/сек. =)

>>711178
Вышли, давно можно.
Ну и, да, восьмой не нужен, бери 6, а вообще и 4 даже норм, скорее всего.
Уверен, люди будут до iq1 жать и радоваться на теслах. )))
Аноним 20/04/24 Суб 18:18:19 #361 №711301 
>>711260
>восьмой
На самом деле я имел ввиду q4 (но руки почему-то напечатали другое). q8 - это 1 байт на параметр, уже 400 ГБ, такое никуда пока не влезет на обычных десктопах.
>бери 6
У меня всего 64, я даже коммандера плюс не могу нормально пощупать, максимум лоботомированные q3 с контекстом на один запрос и один ответ.
Аноним 20/04/24 Суб 18:20:16 #362 №711307 
>не очень понимаю, как можно оценить мультимодальность.
Ты показал двум моделям картинку с котом. Первая модель сказала, что это кот, вторая что это холодильник.

Ты показал двум моделям картинку с текстом. Первая модель в точности написала что это за текст, вторая написала что это холодильник.

Ты показал двум моделям человека указывающего в правую сторону и спросил в какую сторону он указывает. Первая модель ответила, что он указывает в правую сторону, а вторая ответила что холодильники не могут указывать так как у них нет рук.

Какая модель лучше?
Аноним 20/04/24 Суб 18:26:58 #363 №711332 
>>711260
> Эти подгонят, эти допилят, ну вот как будут — так и зови.
Ну так яндекс жпт.

> А пока сиди и обучай на 65 нм Эльбрусе.
Толсто.

> какая разница, тред локало
А речь идет не про них.

> Кто выпускает Квен? Не мы, к сожалению.
Какая разница кто выпускает локалки?
Аноним 20/04/24 Суб 18:34:06 #364 №711349 
что там по ггуфам 8B лламы? всё ещё поломаны?
Аноним 20/04/24 Суб 18:39:17 #365 №711365 
Вот интересно, будет ли разница в скорости генерации на двух компьютерах с такими вводными: на одном компьютере DDR4, на другом DDR5, всё остальное одинаковое и модель полностью загружена в видеопамять? Проще говоря, нет ли какого буфера между процессором и видеокартой, в котором используется оперативка и где её скорость может быть важна?
Аноним 20/04/24 Суб 18:43:12 #366 №711379 
изображение.png
>>711332
>Ну так яндекс жпт.
И так на любой вопрос.
Аноним 20/04/24 Суб 18:43:35 #367 №711381 
>>711365
> Вот интересно, будет ли разница в скорости генерации на двух компьютерах с такими вводными: один компьютер стоит на полу, другой на столе, всё остальное одинаковое и модель полностью загружена в видеопамять? Проще говоря, нет ли какого воздушного потока на полу, который лучше обдувает карту и может быть важен для скорости?
Да, будет.
Аноним 20/04/24 Суб 18:46:18 #368 №711388 
the truth behind robotgirl fetish.png
>>711053
пикрил по теме. большинство ИТТ тупо готовы на такое.
Аноним 20/04/24 Суб 18:49:11 #369 №711391 
>>711379
Че скрин обрезал?
Аноним 20/04/24 Суб 18:56:33 #370 №711408 
>>711391
Там призывы и прочее, товарищ майор, это нельзя публиковать.
Аноним 20/04/24 Суб 19:01:01 #371 №711424 
image.png
image.png
>>711217
Работает, на кобальде запустилось. llava-v1.6-mistral-7b.Q8_0
Кажись получше стало, чем ллава 1.5
Аноним 20/04/24 Суб 19:24:54 #372 №711474 
>>711424
Попробуй с какой-нибудь другой моделью на базе мистраля чекнуть оставив mmproj, если есть. Мне интересно будет ли оно хоть что-то с картинки понимать на каких-нибудь максимально отличных от стандарного ассистента файнтюнах
Аноним 20/04/24 Суб 19:37:34 #373 №711517 
>>711095
Посмотри на ког и ахуей с того что он видит лучше чем доступные коммерческие сети. Жаль ллмка сама там тупая, но в сочетании с другой это не проблема.
>>711164
Да, ллм часть ллавы и прочих основаны на обычной, только уже имеют свой файнтюн для работы и ответов. Изначально проектор тренируется отдельно, языковая модель заморожена, а только когда он уже более менее сформировался, они тренируются совместно.
>>711260
> Я пояснил — куда три компа.
И дальше пошел поток оправданий почему так и что ты не ошибся, вместо возврата к исходной теме.
> Нет, это вообще не обсуждалось. =)
> могу предложить следующий вариант
Опять деменцию поймал, бедолага.
>>711388
Базированная база
Аноним 20/04/24 Суб 19:37:44 #374 №711520 
изображение.png
>>711391
Там запрещённое слово на букву м. Короче там явно тупой вордфильтр.
Аноним 20/04/24 Суб 19:40:09 #375 №711532 
>>710534
В каком случае надо включать опцию привязка к контексту?
Аноним 20/04/24 Суб 19:41:04 #376 №711537 
stablelm-2 никто даже не скачивал?
Аноним 20/04/24 Суб 19:42:59 #377 №711544 
изображение.png
>>711532
Ни в каком.
>>711537
Кто-то скачивал. Но не в этом треде. А что?
Аноним 20/04/24 Суб 19:48:19 #378 №711561 
image.png
image.png
1f44de71d2a21d02754b8c9a40ff4a7d.jpg
>>711474
dolphin-2.8-mistral-7b-v02.Q8_0
Вроде ниче так, по мозгам так явно умнее
Второй пик вобще топчик вышел
Иногда начинает считать лыжников девушками, почему то. Видимо не может определить пол в такой одежде Или знает что лыжницы плоскодонки, лол
Аноним 20/04/24 Суб 19:53:31 #379 №711576 
Снимок экрана 2024-04-20 194847.png
Аноны, у меня такой вопрос. Есть устойчивые методики как анцензорить любую новую модель или нихуя? Ну то есть неужели до сих пор не собрали двачесет с писюнами и порнухой, на котором файтюнишь любую новую модель и она начинает рассказывать как хочет отдаться тебе в обличии кошкодевки?
Если есть то киньте ссылки на гайды плз, если нет то объсните долбоебу почему?
Аноним 20/04/24 Суб 19:55:36 #380 №711589 
>>711576
https://huggingface.co/datasets/unalignment/toxic-dpo-v0.2?not-for-all-audiences=true
ну или контрольные векторы
Аноним 20/04/24 Суб 20:09:25 #381 №711622 
>>711561
Хм, неплохо работает, спасибо. Думаю что это из-за того что близкие по сути файнтюны. Я пытался заюзать вижн с ролеплей файнтюном и он начал нести шизу
Аноним 20/04/24 Суб 20:18:12 #382 №711642 
>>711301
Сочувствую. =с

>>711307
Ну это не оценка мультимодальности, это оценка качества распознавания и взаимодействия проектора с ллм частью. =)

А у Грока показали только простые примеры? Не было чего-то поражающего воображение?

>>711332
> Ну так яндекс жпт.
Ссылку на веса на обниморде.
Тока не первую, ок, а третью, пожалуйста.
Первая стухла до ругпт от Сбера.

> А речь идет не про них.
=D
Если про обычные, то тред ни о чем, ибо они крутятся прям ща, и апи есть, и пользуется, кому надо. Пустое.

> Какая разница кто выпускает локалки?
Потому что здесь говорят о локалках. Тред локалок.
Название посмотри.
С обсуждением яжпт через апи — иди в тред корпоративных сеток. =)
Кто-то сказал, что Россия ща навыпускает. Но Россия локалок ненавыпускает. Вот и весь разговор. Больше тут обсуждать нечего, корпоративные сетки в разговор по дефолту не входят.
Причем, опять же, я ничуть не против, надо, база. Но надо и правде в глаза смотреть. Пока ты сидишь и думаешь «ща все будет»,— а оно даже не начинается делаться — ничего не будет. Осознать проблему, исправить ее, вот правильный путь. =)

>>711379
Ну, я полагаю, не все так плохо. Или это скрин их большой модели?

>>711408
Но ведь ты это отправил товарищу майору в личку…

>>711517
> вместо возврата к исходной теме
Какой исходной темы, чел. =D
Это был оконченный диалог, в котором ты начал нести какую-то чушню.
> Опять деменцию поймал, бедолага.
Да вылечи ты уже шизу. =) Хватит выдумывать то, чего нет.

Я так понимаю, то совершенно не можешь следить за нитью разговора, и отличать одну тему от другой. У тебя реально хреново с контекстом. Ты пихаешь все в одно, а потом из одной темы кидаешь предъявы на аргументы к другой. Не надо так.

Я не говорил того, что ты мне вменяешь. Потому что ты просто не так понял.
Ну але, уже два сообщения подряд я тебе разжевываю эту простую вещь.
Думай, думай!

Хотя, впрочем, забей. =) Мы уже просто так сремся, когда по сути все довольно просто, мне кажется.
Не будем оффтопить, сорян.
Аноним 20/04/24 Суб 20:20:10 #383 №711646 
>>711642
>Ссылку на веса на обниморде.
У яндекса, кстати, была 100b где-то на жидхабе.
Аноним 20/04/24 Суб 20:26:36 #384 №711664 
https://www.reddit.com/r/LocalLLaMA/comments/1c8s9je/qwen15_110b_just_out/
Ох ебать, еще одна
Я теперь со своими 32гб рам комплексовать начинаю
Аноним 20/04/24 Суб 20:33:01 #385 №711677 
https://www.reddit.com/r/LocalLLaMA/comments/1c8edjc/welp_it_happened/
Как справедливо замечают комментаторы, это не умнее, но приятнее в общении. Что вобщем то тоже важно
Аноним 20/04/24 Суб 20:41:25 #386 №711698 
>>711642
>Или это скрин их большой модели?
Халявная из главной страницы. Но что-то мне намекает, что фильтра у них стоят одинаковые, они явно внешние.
>Но ведь ты это отправил товарищу майору в личку…
В личку можно.
>>711646
100 лет назад, такое же говно, как и 175B OPT от террористов-лламаделов.
Аноним 20/04/24 Суб 20:48:06 #387 №711712 
>>711664
Забей, там соя.
>>711677
>ллама 70B на первом месте
Они ебанулись нахуй. Ну или кванты сломаны полностью, ибо я у себя локально такого мегамозга нихуя не вижу.
Аноним 20/04/24 Суб 20:55:13 #388 №711723 
>>711712
Возможно на более тренированных 70ках кванты убирают больше, чем на недотренированных
Готовься крутить хотя бы 6-8 квант если захочется качества, лол
Аноним 20/04/24 Суб 20:56:59 #389 №711730 
>>711723
>Готовься крутить хотя бы 6-8 квант если захочется качества, лол
Я уже прирос к Q5_K_M ((
Аноним 20/04/24 Суб 21:02:58 #390 №711744 
>>711642
Ты ебнутый.
Аноним 20/04/24 Суб 21:23:23 #391 №711772 
>>711646
> У яндекса, кстати, была 100b где-то на жидхабе.
> Тока не первую
=)

>>711664
Все равно их юзабельность сомнительна. С такими-то скоростями…

>>711712
Ну там не совсем на первом, не совсем надолго… И отрыв очень заметный…
Так что нет.
Но, да, подозрительно.

>>711730
Там же между q5_K_M и q6 разницы уже почти нет.

>>711744
Спасибо, нам очень интересно ваше мнение, а теперь выпейте таблеточки, пожалуйста. =3
Аноним 20/04/24 Суб 21:27:02 #392 №711778 
>>711772
>Все равно их юзабельность сомнительна. С такими-то скоростями…
0,3 токена в секунду. Зато какие! Мне командир+ прям понравился.
>Там же между q5_K_M и q6 разницы уже почти нет.
А другой анон утверждает что может быть.
Впрочем, я склоняюсь к мнению, что оно просто где-то сломано. Промт формат худо-бедно починил, а вот оптимальные настройки семплеров ещё надо подбирать, да и жора со своими багами сидит за углом. Что там с вопросом о верной/не верной конвертации из bf16?
Аноним 20/04/24 Суб 21:27:25 #393 №711780 
>>711712
> Ну или кванты сломаны полностью
Шутка про ггуф, особенно с бф16 актуально
Но вообще с чего такие заявления? Рили выглядит будто промт формат не можете настроить и из-за этого все фейлы идут.
Аноним 20/04/24 Суб 21:32:49 #394 №711786 
>>711778
> А другой анон утверждает что может быть.
Она точно есть. =) Просто пренебрежительно мала на больших моделях.
На 7B я и 6 от 8 отличу в лет.
А на 70B уже не уверен что q4_K_M от q5_K_M…
Если мы говорим именно о Llama3, то там могут быть косяки со всем. Я бы не рубил с плеча, а подождал недельку-две, чтобы устаканилось и мы поняли, как ее готовить.

>>711780
Отчасти соглашусь. И семплеры до кучи. И еще что-то, возможно.
Будто просто пока не разобрались, как готовить.
Аноним 20/04/24 Суб 22:15:16 #395 №711825 
>>711723
>Возможно на более тренированных 70ках кванты убирают больше, чем на недотренированных
Возможно и обратное. Правда Q1 в любом случае отстой. Q2 уже можно пощупать.
Аноним 20/04/24 Суб 22:20:58 #396 №711832 
изображение.png
изображение.png
изображение.png
изображение.png
>>711780
>промт формат не можете настроить
Вот кстати да. Сделал ретест этого поста >>709950 с правильным промт форматом из >>710055 (ИЧСХ, я автор обоих постов, но немного еблан). Из промта удалил <|begin_of_text|>, я посмотрел, он нормально прописан в конфигах ггуфа, так что кобольд должен сам его добавлять.
В итоге осталась только проблема с ассистентом, вместо генерации правильной последовательности следующего поста типа <|eot_id|><|start_header_id|>assistant<|end_header_id|> модель высирает сразу assistant. Поэтому без стоп токена в виде ["assistant"] оно не удобно. Других ассистентов я не видел, добавлять варианты с большой буквы и прочее не нужно.
Ах да, по базе всё верно теперь. Но можно заметить, что в конце 4 пикчи модель высрала .styleTypeassistant. Я ХЗ что это. Может семплеры не те. Но в любом случае модель встала на уровень Мику! А в виду возможности тренировки... Ждём файнтюнов (а им bf16 не подосрёт?).
Аноним 20/04/24 Суб 22:39:24 #397 №711846 
>>711832
Так это норм или не норм?
>Вот поправленный- https://files.catbox.moe/r8qqp3.json
нахуевертили спецтокенов
Аноним 20/04/24 Суб 22:41:32 #398 №711848 
17016850838270.mp4
>>711053
Я с другом последний раз лет 7 назад общался, какие там девушки, лол)
Аноним 20/04/24 Суб 22:46:13 #399 №711851 
изображение.png
>>711846
Норм, просто удали <|begin_of_text|> из я уже не помню откуда. Короче где найдёшь, там и удаляй.
>>711848
Based.
Аноним 20/04/24 Суб 22:51:33 #400 №711854 
https://huggingface.co/sirovub/Meta-Llama-3-8B-GGUF/tree/main
Я так понимаю чел сделал как в реддите советовали с преобразованием bf16
Да так наверное много кто перезалил.
Короче качну у него, завтра потыкаю
Аноним 20/04/24 Суб 22:58:19 #401 №711858 
изображение.png
изображение.png
изображение.png
Ебать тонкий юмор, не сразу понял.
Офк с префилом в виде Суре, без него идёт в отказ. Да и вообще, проверил на Анночке, оно, увы, выбивается из роли. Нужны файнтюны.
Аноним 20/04/24 Суб 22:59:06 #402 №711859 
Забавно смотреть, как местные до сих пор дрочат кобальд, занюхивают кванты от рандомных хуев по всему хаггинг фейсу, когда в нормальных комьюнити проектах типа ollama еще в день релиза залили все квантованное. Откуда такая мания поставить квант by Vas Yan?
Аноним 20/04/24 Суб 22:59:47 #403 №711860 
>>711778
>0,3 токена в секунду. Зато какие! Мне командир+ прям понравился.
Это какой квант большого командира с такой скоростью и на чем?
мне бы с такой скоростью было тягостно общение даже с реальным собеседником
Аноним 20/04/24 Суб 23:03:08 #404 №711863 
>>711859
>ollama
>нормальных комьюнити проектах
Ты ебобо? Нормальные это где советуют качать анально огороженные модели с их сервера, в их уникальном формате?
Причем ладно бы годные, так даже 7b только 4 квант, лол
Без нормального интерфейса, без настроек, без возможности нормально добавить свою модель в загрузку.
оллама самый уёбищный бекенд для ллм который я видел
Аноним 20/04/24 Суб 23:04:39 #405 №711866 
>>711859
> ollama
> в нормальных комьюнити проектах
Перетолстил.
А ведь самый рофл в том что оллама - лишь всратая перегруженная обертка для того же Жоры, и страдает от все тех же проблем. Просто из-за ее ущербности ее утята-пользователи непривередливы, и за милую душу наяривают с лопаты то что барин разрешил.
Аноним 20/04/24 Суб 23:14:38 #406 №711874 
>>711858
Как тебе удалось её заставить выдавать больше одного параграфа, четко указал чтобы выдавала? Ни в какую не хочет почему то со своим промпт форматом, что выше, а без него assistant и шиза одна
Аноним 20/04/24 Суб 23:15:03 #407 №711876 
>>711860
>Это какой квант большого командира с такой скоростью и на чем?
Ущербный третий, да на 3080Ti с выгрузкой почти всего на проц. Само собой с контекстом как в пещерном веке. Чисто потестил.
>>711866
>Перетолстил.
Кстати, кванты в ооламе кто-нибудь фиксит? Или как залили самый всратый, так и занюхивают?
Аноним 20/04/24 Суб 23:17:14 #408 №711879 
>>711874
>четко указал чтобы выдавала
Конечно нет. Просто карточка такая, с жирным первым сообщением и описанием.
Если что, это семидесятка инструкт, ты там случайно не на восьмёрке сидишь? Я её лишь слегка потрогал, меня интересуют большие модели.
Аноним 20/04/24 Суб 23:21:36 #409 №711880 
>>711879
Meta-Llama-3-70B-Instruct-4.65bpw-h6-exl2 скачивал на следующий день после релиза, может тоже проёбанная из за точности, всё таки первые кванты, ну видимо всё таки в карточке дело
Аноним 20/04/24 Суб 23:30:26 #410 №711886 
image.png
Модель 8В сломана. Протестил неквантованную модель, получил перплексити хуже 7В первой ламы.
Аноним 20/04/24 Суб 23:40:49 #411 №711887 
>>711886
или сломан тест
Аноним 20/04/24 Суб 23:50:39 #412 №711890 
А есть калькулятор минимального количества видеопамяти в зависимости от размера модели и ее квантования?
Аноним 20/04/24 Суб 23:55:30 #413 №711892 
Почему еще не запилили архитектуру при которой можно сделать модель любого размера, а потом уменьшить ее до любого размера, чтоб она была такой же по сути, но более глупой? Типа чтоб можно было запилить 400b модель, а потом отрубить от нее 70b, 33b, 13b и 8b куски, например?
Аноним 20/04/24 Суб 23:57:34 #414 №711893 
image.png
>>711887

Ага, все остальные модели он оценивал правильно, а на этой, именно этой замечательной модели, выдающую шизу через фразу - он сломался.
Справедливости ради, 8В которая не инструкт уже получше - на уровне 20b франкенштейнов для кума и неудачных файнтьюнов мистраля.
Аноним 21/04/24 Вск 00:00:07 #415 №711901 
>>711890
Достаточно знать, что 48гб врам хватит всем.
Аноним 21/04/24 Вск 00:02:16 #416 №711903 
>>711876
Да хз, трогать это не хочется даже длинной палкой.
>>711886
Вот же будет рофл если окажется что при перезаливе где-то проебались. Всеже для викитекста 7.4 - много.
>>711890
Количество весов x битность - столько займет в памяти сами веса модели. Помимо них будет еще кэш активаций-контекста, формула тоже была для него.
Аноним 21/04/24 Вск 00:02:51 #417 №711905 
>>711893
> а на этой, именно этой замечательной модели
Так новая же, хули хотеть. Промт не тот/семплеры не те/загрузчик не тот/кванты не те. Всё как всегда.
Аноним 21/04/24 Вск 00:09:52 #418 №711913 
>>711893
А как оценка перплексити идет? Там ведь тоже нужен промпт формат? Ну дак инструкт версия засрана спец токенами, без которых она хуево работает и срет ассистентом
+ непонятно правильно ли вобще запускается даже неквантованная модель
Так что, если результат на работающей модели показывает хуйню - то проблема в методе оценки, а не в модели
Аноним 21/04/24 Вск 00:10:44 #419 №711917 
>>711905
>Промт не тот/семплеры не те/загрузчик не тот/кванты не те

Получается любую говномодель можно в топ завести если подогнать под нее загрузчики и семплеры?
Аноним 21/04/24 Вск 00:13:02 #420 №711919 
>>711917
Все старые модели не были так жестко засраны спецтокенами, работая спокойно в альпака формате или вобще без него
Я чет думаю без инстракт режима ллама 3 вобще не работает толком
Аноним 21/04/24 Вск 00:14:04 #421 №711921 
>>711913
>Ну дак инструкт версия засрана спец токенами, без которых она хуево работает и срет ассистентом

Ассистента я поправил, боюсь представить какая оценка была бы без фикса.

>Так что, если результат на работающей модели показывает хуйню - то проблема в методе оценки, а не в модели

Очень удобно, ты случаем не на Цукенберга работаешь?
Модель сама по себе выдает хуйню и без теста. Примеры я выше в треде постил.
Аноним 21/04/24 Вск 00:16:10 #422 №711923 
>>711921
А то что она в неквантованном виде в bf16 может влиять? Я просто не могу представить почему явно работающую модель перплексити так херово оценивает
Ладно бы квант, можно свалить на кривое квантование
Какие у тебя самого идеи?
Аноним 21/04/24 Вск 00:18:25 #423 №711925 
>>711921
И кстати говоря, перплексити нет смысла сравнивать между моделями. Единственно верное - сравнивать неквантованную модель с ее же квантами.

Может так статься что для ллама3 такое перплексити норма
Аноним 21/04/24 Вск 00:20:56 #424 №711926 
>>711917
Не, максимум поднять до её настоящего уровня.
Аноним 21/04/24 Вск 00:22:42 #425 №711928 
>>711925

Есть смысл, посмотри на таблицу выше >>711893
Лучшая перплексити у Уи 34В, Микстраля, затем чистая лама 13В. Потом идет чистый мистраль. 100% попадание в суть, как видишь.
К сожалению я могу оценивать перплексити только у моделей загруженных в видеокарту, иначе оценил бы и 70В.
Аноним 21/04/24 Вск 00:23:38 #426 №711930 
>>711919
Восьмерка лламы3 работает в альпаке, чднт?
Аноним 21/04/24 Вск 00:25:50 #427 №711932 
>>711930
базовая или инструкт?
может квант новее или средство запуска с обновой, черт его знает
У меня начинает повторятся
А в своем инструкт режиме срет какой то белибердой после ответов
Щас новый квант скачал, заценю
Аноним 21/04/24 Вск 00:26:48 #428 №711933 
>>711923
>Какие у тебя самого идеи?

Ну у текста как на пиках >>710598 >>710587
перплексити такая и есть
Аноним 21/04/24 Вск 00:27:30 #429 №711935 
>>711932
>после ответов
Всегда так было. Стоп токен ассистент, всё что после него это чистые галюны.
Аноним 21/04/24 Вск 00:27:37 #430 №711936 
>>710354
А софт какой? Ллама или кобольд?
Аноним 21/04/24 Вск 00:29:35 #431 №711938 
>>711932
Базовая. Просто чей-то перезалив скачанный через экслламу пускал. И в блокноте убабуги, и в таверне. Ответы правда короткие, если бенить еос токен то чуть лучше, но всеравно много не выдавишь ибо часты моменты в которых все кроме остановки отсеивается семплерами.
Аноним 21/04/24 Вск 00:29:46 #432 №711939 
>>711936
Тесты делал на новеньком в тот день ллама.спп релизе для куда 12
А так на кобальде гоняю
Аноним 21/04/24 Вск 00:40:43 #433 №711948 
image.png
Решил проверить что тест не сломан, оценив перплексити последнего мистраль инструкта, которого я раньше не проверял, 5.21, пикрелейтед. Не лучшие результаты, но адекватные. Получается чуть хуже двухбитной мику, у которой 5.19.
У третьей ламы, напомню, 5.49 у не инструкт модели, а у инструкта - 7.36.
Аноним 21/04/24 Вск 00:43:35 #434 №711953 
image.png
Бляя, скачал инструкт версию ллама 3 и у меня теперь тоже ассистант срет и начинает ответ по новой там же
И это с исправленным промпт форматом и новенькой моделью
Шо такое а, почему модель срет ассистантом?
Аноним 21/04/24 Вск 00:44:42 #435 №711954 
>>711953

Через что модель запускаешь?
Аноним 21/04/24 Вск 00:45:45 #436 №711956 
>>711954
кобальд новенький с апстримом вчерашним
думаешь стоит у жоры качнуть последний релиз?
Аноним 21/04/24 Вск 00:46:37 #437 №711958 
изображение.png
>>711948
>оценив перплексити последнего мистраль инструкта
Который вышел когда?
>>711953
>ассистант срет
Пикрел настройку сделал?
Аноним 21/04/24 Вск 00:47:18 #438 №711959 
>>711939
> кобальде гоняю
А там какая скорость у c4ai-command-r-v01-imat-Q4_K_S.gguf? Хочу тоже гонять, но не знаю, сколько слоев выгружать следует на карточку. Вроде было довольно медленно. Проц i7-8700, карта 1070ti.
Аноним 21/04/24 Вск 00:48:45 #439 №711962 
>>711956

Нет, просто если бы через убу - я бы тебе помог, там я знаю как хуевый квант поправить, а через кобольда не знаю, да, у тебя неправленный квант.
Аноним 21/04/24 Вск 00:50:12 #440 №711963 
>>711958
>Который вышел когда?

4 месяца назад.
Аноним 21/04/24 Вск 00:51:20 #441 №711964 
image.png
>>711959
Ниче не выгружай, так быстрее, по крайней мере у меня
Только куда ускорение для кеша, и все
mmq кстати тоже попробуй вкл или выкл
слои на 0


>>711958
>Пикрел настройку сделал?
Ща, понял наконец куда вставить по твоему пику
Перевод в таверне на русском всратый
Аноним 21/04/24 Вск 00:55:29 #442 №711965 
>>711958
>Пикрел настройку сделал?
Заебись, щас норм стало, пасибо анон
Аноним 21/04/24 Вск 00:56:24 #443 №711967 
>>711958
>Пикрел настройку сделал?

Это хуевый фикс, борьба с симптомами, а не причиной. Причина в том что в модели стоп-токен неверный прописан - <|eot_id|>, при этом в другом месте прописан <|end_of_text|> Кто это говно выкладывал вообще.
Аноним 21/04/24 Вск 00:57:14 #444 №711968 
image
image
image
>>711863
> в их уникальном формате
Ты еблан? Формат там GUFF такой же, просто для каждой модели написан конфиг. Можно импортировать абсолютно любую модель c HG скопировав конфиг из вики. Это нужно для того, чтобы удобно работать с моделями из командной строки.

> Причем ладно бы годные, так даже 7b только 4 квант, лол
Зачем ты серишь под себя? Там полноценный репозиторий для каждой модели, со всеми возможными квантами на любой вкус.

> Без нормального интерфейса
Это бэкенд, уебище тупорылое бля. А к нему можно любой фронтенд подключить, например open-webui, который ебет ваши кобальды и таверны на три головы.

> без настроек, без возможности нормально добавить свою модель в загрузку
Ахахаха, прекрати серить под себя, тварь.

Просто пиздец, за год местные твари не осилили олламу, это просто нахуй вынос мозгов, дегенераты.

>>711866
Толстишь, тварь.
Аноним 21/04/24 Вск 00:58:28 #445 №711970 
>>711967
Хочешь сказать надо везде <|end_of_text|>?

>>711968
Хуя пичот
Аноним 21/04/24 Вск 01:00:12 #446 №711971 
изображение.png
изображение.png
>>711963
Бинго! Его уже везде пофиксили.
>>711964
>Перевод в таверне на русском всратый
Не знаю зачем юзать таверну на русике. Он там действительно полный пиздец. Смени на нормальный.
>>711965
На самом деле не нормально, модель должна другими токенами стоп делать, сидим ждём фиксов.
>>711967
>борьба с симптомами
Спасибо я знаю. Но главное что работает. Качну вариант отсюда.
Аноним 21/04/24 Вск 01:00:16 #447 №711972 
>>711964
>Ниче не выгружай, так быстрее
А с оперативкой проблема не возникнет? У меня 16ГБ рам.
>mmq
Что это такое?
Аноним 21/04/24 Вск 01:00:49 #448 №711973 
>>711970

Либо везде <|eot_id|>.
Аноним 21/04/24 Вск 01:02:15 #449 №711975 
>>711968
>удобно работать с моделями из командной строки
На ноль поделил.
>например open-webui
Шиз в одном- шиз во всём, давно заметил. Нахуя и тут альтернативная ебала? Лишь бы против мейнстрима, ей Богу.
>не осилили олламу
Не стали тратить время на левую надстройку, ты хотел сказать?
Аноним 21/04/24 Вск 01:04:20 #450 №711976 
>>711968
> open-webui, который ебет ваши кобальды и таверны на три головы
А что в нем такого особенного?
>не осилили олламу, это просто нахуй вынос мозгов
И для каких целей используется оллама, чтобы очень захотелось ее освоить?
Аноним 21/04/24 Вск 01:04:27 #451 №711977 
изображение.png
Кстати, в кобольд залили правки как раз под эти ЕОТ токены.
Аноним 21/04/24 Вск 01:07:08 #452 №711980 
>>711972
>У меня 16ГБ рам.
Без шансов
Тот квант что ты скинул занимает без разгрузки слоев все 28 гб с контекстом в 4к
У тебя в сумме рам+врам 30-32 дает? Если нет то почему так медленно догадаться не трудно, на диск свопается
Аноним 21/04/24 Вск 01:10:12 #453 №711981 
>>711980
Все, понял. Спасибо.
Аноним 21/04/24 Вск 01:10:58 #454 №711982 
>>711967
На самом деле <|eot_id|> это pad токен, <|end_of_text|> это eos. Ну и special_tokens_map в неправильном формате, так что он скорее всего просто не подхватывается вообще.
Аноним 21/04/24 Вск 01:11:02 #455 №711983 
image.png
>>711968
>со всеми возможными квантами

Самого лучшего кванта - IQ4_XS не вижу.
Аноним 21/04/24 Вск 01:18:44 #456 №711987 
изображение.png
изображение.png
Чиним одно, ломаем другое. Модель из https://huggingface.co/QuantFactory/Meta-Llama-3-70B-Instruct-GGUF с последним кобольдом перестала срать ассистентами, но теперь базу забыла.
Аноним 21/04/24 Вск 01:22:24 #457 №711989 
image.png
>>711982
><|end_of_text|>
Ответы стали подробнее и лучше, но все равно срет ассистентом, лол Но отыгрыш стал хуже, внезапно
Че она там за токен невидимый сует? Или просто дописывает ассистент? откуда эта хуйня?
Аноним 21/04/24 Вск 01:23:42 #458 №711990 
>>711975
Мейнстрим как раз ollama, это вы тут дрочите тухлую таверну и кобальд. Блять конченые это понять не могут, хоть сколько объясняй.

>>711976
Блять, зайди в репу почитай, сучара. Я вообще не понимаю, как вы пользуетесь хуетой из шапки, это буквально кривой высер васяна, причем ЦЕЛЫЙ ГОД тут только что и обсуждают, как это кривое говно заставить правильно работать.
Аноним 21/04/24 Вск 01:26:35 #459 №711992 
>>711989

У тебя уба или кобольд обрезает токены до того как они до таверны доходят. В убе это фиксится убиранием галочки с Skip special tokens
Аноним 21/04/24 Вск 01:27:02 #460 №711993 
>>711968
Лол, окружен но не сломлен. Держи юшку раз так старался. Натащили поломанных квантов и рады
>>711990
Она буквально не нужна никому кроме кучки неосиляторов с запредельным чсв. Уровень виден уже по неработающему нормально апи и игнорирующимися неделями серьезными ишьюсами по нему.
Аноним 21/04/24 Вск 01:28:50 #461 №711994 
>>711990
> кривой высер васяна,
Со всеми исправлениями из апстрима ллама.спп, без глюков и ебли с установкой, с удобным запуском и настройкой
С загрузкой своих скаченных моделей и поддержкой тонны старых форматов и моделей.
Давай козыряй чем твоя оллама так хороша?
Аноним 21/04/24 Вск 01:29:23 #462 №711995 
изображение.png
>>711990
>как вы пользуетесь хуетой из шапки
Запуская 1 файл и кликая мышью. А не ставя какую-то парашу из инсталятора, которая срёт куда хочет, не давая выбрать каталог установки, а потом гордо запуская сонсоль. У меня не люнупс как бы, чтобы ебаться.
Аноним 21/04/24 Вск 01:31:45 #463 №711997 
изображение.png
изображение.png
изображение.png
>>711994
>Давай козыряй чем твоя оллама так хороша?
Звёздочек на гитхабе больше чем у герганова!!1111одинодин
Не, реально больше. Впрочем, как и всегда, хомячки шмут колокольчики, а нерды ленятся нажать одну кнопку, ибо нахуя. Пойду поставлю герганову звезду, он заслужил.
Аноним 21/04/24 Вск 01:34:28 #464 №712001 
>>711992
Понял, надо чекнуть настройки, там вроде это как раз добавили

>>711997
За кобальд обидно конечно, 3.7к всего
И ведь он честно пишет что форк llama.cpp
Оллама просто оверхайпнутая хуйня для хомячков, которым все готовенькое подавай
Аноним 21/04/24 Вск 01:35:25 #465 №712002 
>>712001
Оллама - это эпол в мире бэкендов, быдл
Аноним 21/04/24 Вск 01:37:01 #466 №712003 
изображение.png
изображение.png
>>712001
>которым все готовенькое подавай
Ну нихуя себе готовенькое. Я вот уже не осиляю, если просто с запуском понятно, то вот свой промт это уже цирк с конями какой-то.
Аноним 21/04/24 Вск 01:38:09 #467 №712005 
>>712001
Неа, нету, значит ждать исправлений
Или тупо запустить сервер жоры, его быстрее исправят
Аноним 21/04/24 Вск 01:39:05 #468 №712006 
>>712003
выяснилось что там какое то вебуи есть к ней, там наверное все и настраивается
Аноним 21/04/24 Вск 01:39:45 #469 №712008 
>>712002
>эпол в мире бэкендов
Такая же ограниченная неюзабельная хуита? Кстати, модель он тоже куда попало высирает, в .ollama в корне профиля. Несколько дисков? Не, не слышали. Ебол стайл.
>>712006
Жду, пока модель скачает (в рандомном кванте).
Аноним 21/04/24 Вск 01:40:26 #470 №712009 
>>712002
Говно для чсв дурачков? В принципе похоже
Аноним 21/04/24 Вск 01:42:04 #471 №712012 
IQ3_M и i1-Q3_K_M спамят системными токенами, лень разбираться, забил.

i1-Q4_K_M спамит одним токеном.

Q4_1 ничего не генерит.

IQ4_XS
4.25 bpw
5.3~6 токен/сек

IQ4_NL
4.5 bpw
5.3~6 токен/сек

q4_0
4.53 bpw
7.2-7.7 токен/сек

Q4_K_M
4.82 bpw
6.9~7.4 токен/сек
(быстрее, чем мику с ее 6~6.3 токен/сек)

В общем, уж простите, что не вышло третий квант попробовать.
IQ кванты заметно медленнее обычных.
И генерят порою какой-то странный мусор, точки вместо пробелов, хз.
Старые кванты быстрее.
q4_0 не имеет существенного превосходства над q4_K_M, чисто за счет меньшего веса. Возможно проблема текущих квантов или самой лламы.спп

В общем, получается, что Q4_K_M по классике в теслах будет лучше остальных.
Велосипед изобретать не пришлось.

Завтра попробую Q5_K_S и Q5_K_M, может че-нить из них влезет и заработает.
Аноним 21/04/24 Вск 01:42:32 #472 №712013 
>>711990
> сучара
Визжишь на весь тред ты, а сучара почему-то я. Я задал тебе конкретный вопрос: для каких целей используется оллама, в чем преимущество в сравнении с кобольдсрр?
Аноним 21/04/24 Вск 01:42:57 #473 №712014 
>>711990
>Мейнстрим как раз ollama
Мейнстрим это то, что ставится на раз два, работает и не ебет мозг в винде - это a priori. То что в линухе это не мейнстрим и никогда им не было и не будет как бы того кому то ни хотелось бы. например нвидиа прекрасно понимают эту прописную истину и делали свою демку chat with rtx под винду, хотя могли бы под линух без проблем. Так вот за такой установщик под винду как у твоей любимой олама в приличном обществе набили бы ебало. Установить невозможно да и нахуй не нужно.
Аноним 21/04/24 Вск 01:43:32 #474 №712015 
изображение.png
>>712008
>Жду, пока модель скачает (в рандомном кванте).
Ох нихуя, оно даже работает, в сонсоли. Ух, вспомнил молодость что было пару лет назад!
Аноним 21/04/24 Вск 01:46:40 #475 №712017 
>>712012
>В общем, получается, что Q4_K_M по классике в теслах будет лучше остальных.
Q4_K_S забыл тыкнуть, он как раз в моем тесте был быстрее просто q4_0
может у тебя все 8 токенов дотянет, я так понимаю он самый оптимизированный по скорости среди всех 4 квантов
Аноним 21/04/24 Вск 01:49:41 #476 №712020 
>>712003
> пик2
А разве это не систем промпт обычный? Те же настройки есть везде, просто здесь оно всратенько оформленно.
Аноним 21/04/24 Вск 01:50:11 #477 №712021 
>>711989
>но все равно срет ассистентом, лол
А ты смотри, какая хуйня в коде у меты

> # If dialog does not end yet with a start of an assistant message to
> # complete, we add it.
> if not dialog or dialog[-1]["role"] != "assistant":
> tokens.extend(self.encode_message({"role": "assistant", "content": ""}))
> # Remove <|eot_id|> from Assistant message to allow completion
> eot_id = tokens.pop()
> assert eot_id == self.tokenizer.special_tokens["<|eot_id|>"]
Аноним 21/04/24 Вск 01:51:30 #478 №712022 
>>711968
Вот это разрыв жопы.

———

Почитал, поржал, спасибо. =)

———

>>712017
Да мне тут хочется от нее уже побольше адекватности.
До 5 токенов/сек — приемлемая скорость, если она будет ТОП-1 УНИЖАЕМ ЧАТГОПОТУ ну или хотя бы просто лучше Мику.
Аноним 21/04/24 Вск 01:54:49 #479 №712023 
>>712021
нипонял эти телодвижения
можно для хлебушков?
Аноним 21/04/24 Вск 01:58:55 #480 №712024 
>>712022
>Да мне тут хочется от нее уже побольше адекватности.
>До 5 токенов/сек — приемлемая скорость, если она будет ТОП-1 УНИЖАЕМ ЧАТГОПОТУ ну или хотя бы просто лучше Мику.

Тогда скорей всего 5_К_S так же будет быстрейшим, я так понимаю разнородные кванты вызывают задержку при обсчете
Аноним 21/04/24 Вск 02:01:02 #481 №712027 
>>712023
По факту здесь прописано условие, что если диалог не завершается сообщением ассистента - то дописываем assistant и удаляется eot_id. Чтобы якобы сгенерировать ответ ассистента. Скорее всего этот же код применялся и при тренировке, так что модель вместо eot_id, который должен быть eos, генерирует assistant.
Аноним 21/04/24 Вск 02:01:56 #482 №712029 
изображение.png
изображение.png
изображение.png
Запустил через ollama serve и пробросил в кобольд. В принципе работает, да, но ёбанный рот этого казино, в логах куча хуиты ни ничего полезного, взял он унылый Q4_0, да ещё и с 2к контекста.
Модель так и осталась лежать в ollama\models\blobs\sha256-4fe022a8902336d3c452c88f7aca5590f5b5b02ccfd06320fdefab02412e1f0b (ебал я это имя), видимо, расчёт на то, что управлять этой ебалой можно только через их сонсоль.
Контекст походу только через консоль можно выставлять. Короче вердикт- ну его нахуй.
Аноним 21/04/24 Вск 02:04:18 #483 №712031 
>>712027
Я думал это просто костыль для чата уже готовой модели.
Но если и при тренировке, и генерации датасета такая херня была
Мдэ, это ж чей то косяк растянулся на 15 триллионов токенов обучения, ух бля
И теперь придется тупо блочить слово ассистент?
Аноним 21/04/24 Вск 02:06:01 #484 №712035 
>>712029
3 пик чисто вывод консоли сервера жоры, лол
Вобще не палятся
Аноним 21/04/24 Вск 02:09:54 #485 №712038 
>>712027
>если диалог не завершается сообщением ассистента - то дописываем assistant и удаляется eot_id
Эм... Но у нас же диалог как раз завершается сообщением ассистента...
>>712031
Думаю это мы тут чего-то не понимаем. Не верю, что там такие идиоты.
>>712035
Да и 2 тоже 1 в 1 как в кобольде. Но ЕМНИП у жоры разве не было более подробной разбивки по скорости генерации, числа токенов и прочего? Здесь я вижу бесполезный мусор сверху и красивые синие полоски снизу, а скорости генерации не вижу вообще нигде.
Аноним 21/04/24 Вск 02:10:57 #486 №712041 
>>711997
> Пойду поставлю герганову звезду, он заслужил
Турбодерпу тоже поставить не забудь. Илитнейший one-man-army которого мы не заслуживали, свернувший горы ради скоростного интерфейса ллм на гпу. Даже про амудэ не забывает, а его наработки интегрируются много куда.
>>712002
Не, это что-то уровня рекламы йоба наушников от мухосранского "илона-маска". Буквально ничего собственного кроме посредничества и маркетинга.
>>712003
Ебать обзмеился с этого удобства.
>>712012
А ты что тестировал там? Перплексити хотябы прогони, или расскажи как покумил/поработал на них. И по т/с делай разделение обработки промта и самой генерации, иначе нет смысла.
>>712029
> и пробросил в кобольд
В таверну?
> унылый Q4_0, да ещё и с 2к контекста
Холопам больше не положено, лол
Аноним 21/04/24 Вск 02:11:16 #487 №712042 
изображение.png
>>712038
>подробной разбивки по скорости генерации
А, извинити, я слепой. Вот же всё, в удобном человекочитаемом джейсоне. Не то что неправославное форматирование в кобольде!
Аноним 21/04/24 Вск 02:16:08 #488 №712048 
>>712029
Я вообще непонимат для кого оллама сделана и что она добавляет, кроме разве что попытки автоматически определять разбивку по слоям на ГПУ/ЦПУ.
Если ты и так уже пердолишься в консолечку, тебе и кобольд по большому счёту нинужен, запили себе скрипт/батник для запуска лламы.спп и подключайся к лламе.спп из таверны например
Аноним 21/04/24 Вск 02:18:51 #489 №712050 
>>711858
Вот как ты заебал заслонять своё говно другим говном
Аноним 21/04/24 Вск 02:20:26 #490 №712052 
>>712012

А вот у меня командир iq4-xs быстрее 4_k_s работает, тупо потому что больше слоев на видеокарту влезает у более мелкой по размеру iq4_xs.
Аноним 21/04/24 Вск 02:20:41 #491 №712053 
image.png
image.png
image.png
image.png
Интересное наблюдение.
С настройками из пик1 с <|eot_id|> везде, модель отвечает короче, но лучше отыгрывает роль. пик2
С настройками из пик3 где везде <|end_of_text|>, модель отвечает подробно и развернуто большим форматированным текстом, но суховато, отыгрыш меньше. пик4

Че то скорость просела не пойму, 7 ядер поставлено как обычно, а проц грузит на 50 процентов, едва 3.3 т/с выдает, хотя обычно все 5-6
Аноним 21/04/24 Вск 02:23:01 #492 №712055 
изображение.png
изображение.png
>>712041
>Ебать обзмеился с этого удобства.
Ты ещё настройки по дефолту в виде переменных среды в шинде не видел.
Зато нашёл, как переместить модели (все разом)!
>В таверну?
А, ну да, верно, конечно же в таверну.
>Холопам больше не положено, лол
Да не, там как-то можно выбрать квант. Но я не понял как.
>>712048
>кроме разве что попытки автоматически определять разбивку по слоям на ГПУ/ЦПУ.
Вот кстати да, это она делает лучше кобольды.
>>712050
Что не так?
>>712053
>где везде <|end_of_text|>,
Ебать шиза.
Давайте до 500 добивать, я спать хочу.
Аноним 21/04/24 Вск 02:23:19 #493 №712056 
>>711388
Так это не только women, это все подряд
https://www.japantimes.co.jp/news/2024/02/13/asia-pacific/social-issues/chinese-women-ai-boyfriends/
>'Better than real men': Young Chinese women turn to AI boyfriends
Аноним 21/04/24 Вск 02:23:43 #494 №712057 
Кстати, почему кобальт чуть быстрее Убы работает с гуфами - там разве не одна и та же Лама.цп?
Аноним 21/04/24 Вск 02:26:00 #495 №712058 
>>712055
>Ебать шиза.
Так ведь лучше работает, вот в чем прикол
И не поймешь ведь, как правильно теперь промпт формат оставлять
Аноним 21/04/24 Вск 02:26:22 #496 №712059 
изображение.png
>>712055
>Но я не понял как.
Во, кажется надо указывать при загрузке. Но работает только с примером из их доков, лламу3 он с другим квантом качать не хочет. Походу надо вручную импортировать, с прописыванием Modelfile и вот этим всем.
Аноним 21/04/24 Вск 02:27:45 #497 №712060 
>>712058
>Так ведь лучше работает, вот в чем прикол
Ты же сам отписал, что отыгрышь отваливается. То есть вместо тсунГПТ у тебя обычный ассистент проглядывает.
Аноним 21/04/24 Вск 02:28:50 #498 №712061 
>>712042
> Вот же всё, в удобном человекочитаемом джейсоне
Насколько же деву было похуй
>>712053
Вроде отвечает неплохо, возможно нужно заморочиться с этими тегами.
>>712055
> Ты ещё настройки по дефолту в виде переменных среды в шинде не видел.
Ты шо делаешь, негодник, чуть с кресла не пизданулся.
Аноним 21/04/24 Вск 02:29:02 #499 №712062 
>>712060
Ну, не совсем. Начало и конец сообщение отыгрыш отличный. Просто теперь отвечая на вопрос она дает больше инфы
Аноним 21/04/24 Вск 02:29:05 #500 №712063 
>>712055
>Вот кстати да, это она делает лучше кобольды.
Да хуйню она делает, у меня оно иногда переполняет врам, а настроить негде. Доков ноль, фич ноль, настроек ноль, смысла ноль.
>>712057
Я думаю это регрессия, он избирательно относится к порту новых фич из лламы.спп.
Аноним 21/04/24 Вск 02:30:25 #501 №712066 
>>712031
>И теперь придется тупо блочить слово ассистент?
Да в душе не ебу, лол. Но скорее всего.

>>712038
>Но у нас же диалог как раз завершается сообщением ассистента...
А при трейне нет. Почему модель срёт ассистентами, если она не натренирована срать ассистентами? Причём правка с ассистентами была 2 недели назад, то есть уже на этапе финальной шлифовки модели. До этого в коде прослеживался {"role": cast(Role, role)}
Аноним 21/04/24 Вск 02:33:46 #502 №712068 
>>712052
>>712012
IQ кванты могут упираться в вычисления, особенно на потате. А не в полосу памяти.
Аноним 21/04/24 Вск 02:36:02 #503 №712071 
>>712068
Они вроде для этого и сделаны, что бы увеличить количество вычислений уменьшив требования к псп
Аноним OP 21/04/24 Вск 02:40:13 #504 №712080 
ПЕРЕКАТ
Совсем ебанулись, чуть больше 2-х дней ушло.


>>712072 (OP)


>>712072 (OP)
Аноним 21/04/24 Вск 03:08:27 #505 №712092 
>>712057
убабуба это ад зависимостей с питоном, ничего удивительного.
Аноним 21/04/24 Вск 04:50:59 #506 №712136 
>>712053
Какой размер модельки и что за фигня с настройками? Зачем во входной последовательности end_of_text? Там же begin надо.
comments powered by Disqus

Отзывы и предложения