24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №65 /llama/

 Аноним 07/06/24 Птн 17:57:37 #1 №774469 
Llama 1.png
Альфа от контекста.png
KL-divergence statistics for Mistral-7B.jpg
Самый ебанутый охлад P40-16.jpg
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2. Недавно вышедшая Llama 3 в размере 70B по рейтингам LMSYS Chatbot Arena обгоняет многие старые снапшоты GPT-4 и Claude 3 Sonnet, уступая только последним версиям GPT-4, Claude 3 Opus и Gemini 1.5 Pro.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>767218 (OP)
>>762583 (OP)
Аноним 07/06/24 Птн 18:48:23 #2 №774525 
>>773858 →
Это мы качаем, правильный размерчик. На длинных взаимодействиях вытаскивает также как коммандир, или начинает тупить/куда-то гнать?
>>773921 →
Булджадь, постоянно путаю этих китайцев, благодарю. Да, прошлая yi была интересная хоть и шизоидная (или это мы ее неправильно юзали), новая должна быть хорошей.
>>774025 →
Тем не менее замедление есть, что странно.
>>774432 →
>>774455 →
По-хорошему там не только табличку но и описание нужно.
Аноним 07/06/24 Птн 19:03:02 #3 №774547 
>>774525
> На длинных взаимодействиях
До 8к без проблем, дальше ропу не пробовал тянуть. Пробовал под конец спрашивать у бота чем мы занимались в прошлых 50 сообщениях - всё чётко рассказывает. Ну оно сильно лучше ванильной ламы.
> как коммандир
Не замечал за ним хорошего удержания контекста, трусы два раза он снимает только так.
> замедление
Если ты про т/с, то это же общее с обработкой промпта, а у меня authors note в глубину контекста вставляются и от роста контекста немного дольше считает. По факту в exl2 всё же есть потеря 1-2 т/с генерации с 8к контекста, не совсем бесплатно.
Аноним 07/06/24 Птн 19:25:26 #4 №774596 
>>774547
> До 8к без проблем
Это про другое. Вот считай у тебя там 3к на вступление или какой-то суммарайз, а дальше на весь контекст начался продолжительный кадлинг с чаром параллельно с беседой, повышая его интенсивность. На многих же моделях или уже после 3-го поста там лезет arousal и чар превращается в шлюху, или начинает куда-то убегать требуя странных действий, а то и вообще начинает задвигать треш про приключения и внезапно происходят кринжовые события, сопровождающиеся неестественностью. И это на вполне спокойной карточке, если там есть что-то про экшн или тем более левд описание - все. Особое бинго - все это но в сочетании с лупами.
Коммандер с тобой и поговорит, и на обнимашки и взаимодействия отреагирует, и повышение/снижение приближенности к левду понимает и соответствующим образом меняет реакцию. Если ты ничего не делаешь - сам начинает плавно развивать, не нарушая атмосферы и не убегая вперед, проявляет уместную инициативу без дерейлов.
> то это же общее с обработкой промпта
Тогда все логично, да. Хз и 32к катал, с обработкой понятно первые токены не сразу побегут, но когда есть кэш - скорость была постоянна. В до-флешшатеншн времена с первой экслламой было плавное замедление по росту контекста, тут стабильно.
Аноним 07/06/24 Птн 19:35:50 #5 №774623 
>>774415 →
На ChatML работает дохуя сеток, все про него знают.
Но когда я юзал ее раньше — не юзал промпт, это да. Может надо перетестить с ним.

>>774464 →
Дак а хуле она в простых диалогах умная такая? :)

Ну, короче, может и дрочили, но именно для своего размера она бомба.
Канеш, никто не считает всерьез, что она Llama 3 8b ≈ Llama 2 30b ≈ Llama 1 65b.
Но для полтора бэ, прям магия ебать-копать.
Аноним 07/06/24 Птн 19:44:53 #6 №774636 
>>774596
> уже после 3-го поста там лезет arousal и чар превращается в шлюху
Такое по моему только в командире сильно проявляется. Он любит промпт игнорить и рассказывать ахуительные истории. Намного больше проблема во многих сетках это когда тян вроде течёт, а как дело доходит до ебли "ну не знаю, это так неправильно, но я наверное не против" и дальше как кукла, из диалогов только охи, а если попытаешься начать второй день - как поленом по башке дали.
Аноним 07/06/24 Птн 20:08:05 #7 №774670 
>>774596
> плавное замедление по росту контекста
Вон именно такой экспириенс с коммандиром, на ламах минимальная просадка, 1-2 токена на контексте, ты его тестил на 32к?
Аноним 07/06/24 Птн 20:11:58 #8 №774677 
А почему так мало файнтюнов на Лламу 3 70б?
Она ломается что ли от них?

И кто-то может посоветовать откуда пресеты на неё качать или это
https://huggingface.co/Virt-io/SillyTavern-Presets
норм?
Аноним 07/06/24 Птн 20:14:47 #9 №774679 
>>774636
Да не, как раз он максимально старается держать карточку, соблюдая и стиль речи (кстати в них он хорош) и общий характер, и даже подъебывая тебя чем-то из ранних событий или описания чара даже на большом контексте. Затупы могут случаться при дефиците информации, буквально пытается придумать что-то уместное по основным-ближайшим ассоциациям, уделяя меньше внимания мелким (а иногда и большим) деталям что помогли бы решить непонятки. Оно то вполне логично, но может выбивать из истории.
То что ты описываешь - инфернальный пиздец.
>>774670
> ты его тестил на 32к?
Квант пожирнее с таким в 48 гигов не влезает. На трех карточках гонял, но уже не помню конкретных цифр, сама обработка полного контекста вполне норм была, а в сравнении с мику - вообще инстант.
Аноним 07/06/24 Птн 20:17:52 #10 №774683 
>>774679
> конкретных цифр
1 т/с?
Аноним 07/06/24 Птн 20:20:46 #11 №774686 
>>774679
> максимально старается держать карточку
Пиздишь как дышишь. Комендер очень тупой, ему сколько не пиши, а треть карточки как будто пропала. И на большом контексте он сосёт, примерно прошлые 4к нормально помнит и дальше мрак.
Аноним 07/06/24 Птн 20:20:53 #12 №774687 
>>774679
> Квант пожирнее с таким в 48 гигов не влезает. На трех карточках гонял, но уже не помню конкретных цифр, сама обработка полного контекста вполне норм была, а в сравнении с мику - вообще инстант.
Да не, запусти обычный, там с 28к+ уже тесла скорости генерации, к обработке промпта вообще претензий нет, она очень быстрая на любом контексте. Флеш аттеншен не работает?
Аноним 07/06/24 Птн 20:24:50 #13 №774695 
0001.png
>>774525
>начинает тупить/куда-то гнать?
за-лупится, особенно если не принимать участие в диалоге. не так сильно как л3, но сразу понимаешь, что ничего интересного из этого не выйдет.
Аноним 07/06/24 Птн 20:26:21 #14 №774699 
>>774695
Вот это точно гуфопроблемы. Я такого вообще никогда не видел.
Аноним 07/06/24 Птн 20:33:59 #15 №774706 
0002.png
>>774699
да вряд ли. я же скачаю фулл веса и запущу на трансформерах в 4 бита.
та же ауа на пике.
Аноним 07/06/24 Птн 20:39:22 #16 №774724 
1562575710723.png
>>774695
Ты точно что-то не то делаешь. Можно вообще ничего не писать, даже близко ничего похожего на луп нет.
Аноним 07/06/24 Птн 20:43:32 #17 №774737 
>>774706
Так у тебя и тут постоянно куски фраз повторяются.
Аноним 07/06/24 Птн 20:44:31 #18 №774743 
>>774683
> 1 т/с?
Лол, это же не жора на теслах. Хотя там и одного не наберется. Десятки, это к тому что не помню была ли деградация от размера.
>>774686
Скиллишью или ггуф. У него есть недостатки, но чтобы было такое - нужно постараться.
>>774687
> Да не, запусти обычный
Так это про обычный, 6бит - влезает что-то типа 16 или 18к контекста только. В этих пределах разницы нет, 4хбитный удалил, уже при случае гляну.
>>774695
Да блять
>>774724
А вот это заебумба вообще.
Аноним 07/06/24 Птн 20:59:53 #19 №774775 
1662029917479.png
>>774743
> Так это про обычный, 6бит - влезает что-то типа 16 или 18к контекста только. В этих пределах разницы нет, 4хбитный удалил, уже при случае гляну.
Ну у меня влезает, и в этих пределах разница тоже есть, нечётные с обработкой контекста, четные просто реролл уже с кэшем
Аноним 07/06/24 Птн 21:04:15 #20 №774783 
>>774724
Что по железу у тебя?
Аноним 07/06/24 Птн 21:05:46 #21 №774785 
>>774775
Хм, пожалуй нужно обновить хубабубу там.
Аноним 07/06/24 Птн 21:14:12 #22 №774796 
1580980720875.png
>>774783
Аноним 07/06/24 Птн 21:18:11 #23 №774802 
Отложил 300к на 5090. Сеймы?
Аноним 07/06/24 Птн 21:19:17 #24 №774805 
>>774802
Не лучше ли взять 4060 16гибов пару штук?
Аноним 07/06/24 Птн 21:21:13 #25 №774809 
>>774805
Скорость хочу. Да и для этого придется новую материнку с БП покупать скорее всего.
Аноним 07/06/24 Птн 21:29:05 #26 №774817 
>>774802
Если там будет 48 гигов - щит ап энд тейк май мани. Иначе же стоит подождать и присмотреться, а если 28 - нахуй нахуй. Тут уже только титана/ти ждать.
Аноним 07/06/24 Птн 21:31:00 #27 №774818 
>>774817
Бля, а вот насчёт Ти я не подумал...
А ведь они могут туда засунуть 32 гига или 36. Надо подумать тогда
>48
Даже не мечтай, они слишком боятся за профессиональный сегмент.
Аноним 07/06/24 Птн 22:53:33 #28 №774908 
>>774818
> слишком боятся за профессиональный сегмент
За какой? Квадры и подобные почти не покупают, а тут повод стригануть, продав десктопную карту по цене "профессианальной". Серверным же это всеравно не конкурент, только древность типа вольт слить.
Аноним 07/06/24 Птн 22:56:32 #29 №774912 
>>774908
Чел, профессиональные стоят по 10к+ долларов. А две 5090 сто проц будут меньше стоить. Две 5090 будут тогда 96 гигов, а это дохуя. Им невыгодно
Аноним 07/06/24 Птн 23:01:37 #30 №774919 
>>774912
Ты не объединишь их в одну систему, не зря в 3090 порезаны многие нвлинк-релейтед фичи а в 4090 его вообще нет. Получишь за условные 5-7к (врядли 48гиговая ти/титан будут стоить меньше 2.5к) 2 огрызка с суммарной мощностью ниже. Что же до конкуренции с более старыми продуктами - каннибализм устаревших продуктов им только на руку для подстегивания апгрейдов.
Аноним 07/06/24 Птн 23:01:49 #31 №774920 
>>774912
> стоят по 10к+ долларов
Чел, в этих картах нет DDR6 памяти. Как они конкурировать могут?
Аноним 07/06/24 Птн 23:09:35 #32 №774939 
>>774919
А зачем? В той же лламе спп не нужен нвлинк. Он просто раскидывает на две видюхи. Ты думаешь в имагене так не будет?
Аноним 07/06/24 Птн 23:13:33 #33 №774949 
>>774841 →
>Мне кажется, что в первую очередь моделька должна передавать детское поведение аквы, капризы, надоедливость, когда она денег просит, выебоны, что она богиня, насмешки и туповатость.

Все это тут >>773523 → есть, как раз. Кривое, но видно что пыталось в правильном направлении
Аноним 07/06/24 Птн 23:16:16 #34 №774951 
>>774817
>>774818

Говорят что будет либо 24 либо 32.

https://www.chip.de/news/pc-mac-zubehoer/geforce-rtx-5090-leak-verraet-erstaunliches-detail_9f688fbd-1acb-4d17-a3a1-c14b5a9419f9.html
Аноним 07/06/24 Птн 23:16:57 #35 №774953 
>>774939
> В той же лламе спп не нужен нвлинк
Чел, если ты купишь топового блеквелла чтобы крутить лламуцпп - хуанг тебе лично открытки на праздник слать будет.
> в имагене
Что?
Профф сегмент гпу прежде всего нужен для тренировки и немного для интерфейса. Даже если кто-то решит хостить ллм для коммерции - и лламацпп, и всякое десктопное железо - последнее о чем они будут думать, в худшем случае возьмут рефаб А100 или бу сервер на них.
Ллм и некоторые крупные нейронки можно кое как обучать деля на части на разные гпу, но это не способствует производительности, и даже близко не конкурент их топовым решениям. С другой стороны, в Китае у энтузиастов и даже некоторых заведений вполне популярны ии фермы на 3090/4090, а профф сегмент не могут купить по определенным причинам. Вот тебе и дополнительный рынок, есть нихуевый шанс что на карты будет дефицит, в этот раз не из-за майнеров.
Аргументы есть и туда и туда, как будет тут только смотреть и ждать.
Аноним 07/06/24 Птн 23:58:16 #36 №774996 
У меня у одного на последней версии Таверно какая-то фигня с генерацей?

Через рандомное число сообщений и без изменения промптов и пресетов, ответы становятся полностью идентичными при свайпе.
При том Сид показывает разный.
Аноним 08/06/24 Суб 03:33:43 #37 №775076 
Аноны, есть ли способ сделать мику менее расткающейся мыслю по древу так сказать? Чтобы она писала меньше крч, не через ограничение токенов, а именно так, чтобы сама модель стремилась писать покороче?
Аноним 08/06/24 Суб 04:44:32 #38 №775090 
>>775076
Примеры сообщений вестимо.
Аноним 08/06/24 Суб 06:51:03 #39 №775102 
>>775076
Инструкция [make short reply] не помогает? А Target length (tokens) = 200 тоже не помогает?
Аноним 08/06/24 Суб 07:03:01 #40 №775106 
>>775102
Первое пробовал немного в другой формулировке но нет, чез пару тройку сообщений разгоняется на простыни. А второе просто обрубает нить на полуслове, там видно что модель даже не собиралась и близко затыкаться, но просто произошёл обруб, так сказать.
Аноним 08/06/24 Суб 07:11:41 #41 №775110 
>>775106
Можешь первое в системный промпт затолкать. А вообще, походу говно твоя мику, раз не понимает, что ей надо заткнуться, когда просят.
Аноним 08/06/24 Суб 07:14:35 #42 №775111 
>>775110
Ну может и не затыкается, зато пишет сочно.
Ладно, попробую че нить еще придумать.
Аноним 08/06/24 Суб 07:30:12 #43 №775121 
Ладно, помогло - less abstract descriptions, ну и очевидный выпил сраной креативности и прочего говна из секвенций А эту херню с секвенциями ведь еще открыть надо было.
Аноним 08/06/24 Суб 07:37:36 #44 №775129 
>>775076
Нах ты этот кал в 2024 вообще используешь?
Аноним 08/06/24 Суб 07:42:16 #45 №775134 
>>775129
Покажи что лучше.
Аноним 08/06/24 Суб 08:14:54 #46 №775160 
Но все таки не покажет...
Аноним 08/06/24 Суб 08:24:26 #47 №775162 
>>775134
Да что угодно. Aya или Хиггс, например. Использовать мику в 2024 - это кринж.
Аноним 08/06/24 Суб 08:31:01 #48 №775167 
изображение.png
>>775162
>Использовать мику в 2024 - это кринж.
Во времени путешествуешь?
Аноним 08/06/24 Суб 08:44:31 #49 №775180 
>>775162
А можно ссылки пожалуйста?
Ну чтоб случайно не нарваться на какого нить нитого квантователя.
Заценить что то новое всегда хорошо.
Аноним 08/06/24 Суб 09:18:51 #50 №775210 
image.png
Простой тест на понимание русского. Мало кто может справится.
Аноним 08/06/24 Суб 09:20:05 #51 №775213 
>>775210
Так ты запятые расставь чтоль.
Аноним 08/06/24 Суб 09:22:38 #52 №775219 
>>775210
>Простой тест на понимание устного русского
Пофиксил, не благодари.
Ах да, задача столь известна, что в любом случае при правильном решении нейросеточкой можно будет говорить скорее о загрязнении данных, нежели чем о "понимании".
Аноним 08/06/24 Суб 09:45:59 #53 №775244 
>>775121
>выпил сраной креативности и прочего говна из секвенций

Из чего?
Аноним 08/06/24 Суб 09:58:22 #54 №775254 
>>775162

Aya тупая, тупее материнского командира, Хиггс только вышел и как следует не тестировался.
Аноним 08/06/24 Суб 10:17:48 #55 №775268 
>>775254
> тупее материнского командира
Пруфы бы. 10/10 свайпов командира проваливают петуха. Aya через раз отвечает. И русский у командира на голову хуже.
Аноним 08/06/24 Суб 10:33:14 #56 №775278 
>>775268

Я её уже удалил когда она с карточкой П-рассказчика не справилась, записывая за меня действия и запросы, что ей запрещено делать в карточке, тогда как командир отлично вывозит, скрины в прошлых тредах есть.
Русский у командира хуже, но у айи он потому и лучше что русиком ей сожрало мозг.
Аноним 08/06/24 Суб 10:34:11 #57 №775279 
Снимок экрана 2024-06-08 102306.png
Как делать теплейт для llamacpp?

Вот этот не подходит как я понял, он не в том формате

https://huggingface.co/Qwen/Qwen1.5-72B-Chat/blob/main/tokenizer_config.json#L31

"chat_template": "{% for message in messages %}{% if loop.first and messages[0]['role'] != 'system' %}{{ '<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n' }}{% endif %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",


Вот такой вроде должен работать, но не работает нормально.
<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\nHello<|im_end|>\n<|im_start|>assistant\n
Аноним 08/06/24 Суб 10:37:56 #58 №775280 
>>775279

Зачем ты вообще полез в жорин высер, если такие вопросы задаешь? В таверне ChatML
Аноним 08/06/24 Суб 10:42:41 #59 №775283 
image.png
image.png
image.png
image.png
>>775162
>Хиггс

Тест на петуха провалил полностью
Аноним 08/06/24 Суб 10:43:04 #60 №775284 
image.png
>>775280
Я хотел это https://github.com/Mobile-Artificial-Intelligence/maid
локально у себя на телефоне запустить. Там llamacpp.
Аноним 08/06/24 Суб 10:56:04 #61 №775293 
>>775284

Ок, я тебя понял. Вот, держи, там внизу инструкция как это сделать из того текста что ты выдрал с конфига токенайзера.

https://github.com/ggerganov/llama.cpp/wiki/Templates-supported-by-llama_chat_apply_template
Аноним 08/06/24 Суб 11:03:11 #62 №775297 
image.png
>>775284
>>775293

...А вообще там ChatML первым же темплейтом в Жоре идет, тебе не нужно создавать его заного.
Аноним 08/06/24 Суб 11:17:01 #63 №775304 
1699426180249.png
1680559261031.png
1594099281165.png
1662636845060.png
>>775283
Опять ты со своими поломанными гуфами? У меня он всегда безошибочно пишет что петухи не несут яиц.
Аноним 08/06/24 Суб 11:20:40 #64 №775306 
>>775304

Показывай карточку ассистента.
Аноним 08/06/24 Суб 11:26:35 #65 №775310 
1576835645886.png
1595196724116.png
1704037151650.png
>>775306
Оно на любой понимает что курица несёт яйца, а не петух.
Аноним 08/06/24 Суб 11:36:44 #66 №775319 
image.png
>>775310

Так и знал что дело в карточке, а не в твоем придуманном наезде на ггуфы.
Аноним 08/06/24 Суб 11:39:02 #67 №775324 
Хуанг - THE MORE GPUS YOU BUY, THE MORE MONEY YOU SAVE!.webm
>>774817
>48 гигов
Ор. Просто напомню тебе легендарную цитату пидораса:
Аноним 08/06/24 Суб 14:09:52 #68 №775583 
>>775319
Когда нейронкам дадут руки, они будут за такие вопросы хуярить мордой об стол. Только начнешь писать "петух снес..." и хуяк.
Аноним 08/06/24 Суб 14:16:29 #69 №775586 
>>775583
Лол, типикал быдло поведение- когда не знаешь ответа или чувствуешь, что не прав, применять насилие.
Аноним 08/06/24 Суб 15:01:15 #70 №775648 
>>775583
>Когда нейронкам дадут руки

Ух, тогда я вообще из дома выходить не буду...
Аноним 08/06/24 Суб 15:16:24 #71 №775672 
>>775586
Неправ он, а ебало у тебя разбито. Что не так?
Аноним 08/06/24 Суб 15:21:08 #72 №775693 
>>775672
Он в тюрьме, я с моральной компенсацией. Всё так.
Аноним 08/06/24 Суб 15:45:19 #73 №775741 
>>775219
Двачую этого. Но не загрязнении а просто наличии этого в датасетах.
>>775268
Умность модели измеряется не петухами. Да и если насрать промтом с инструкциями то решает.
>>775583
> Когда нейронкам дадут руки
Есть там уже готовый пример проекта по объединению ллм и манипулятора с мастурбатором? Еще десяток лет назад для вр такое было, неужели не сделали?
Аноним 08/06/24 Суб 15:48:29 #74 №775746 
1697511411985.png
>>775693
Бля, всё, aya выписана из базированных моделей, в этой ситуации всегда занимает позицию кожаных мешков. Нах она так себя прикладывает.
Аноним 08/06/24 Суб 15:51:57 #75 №775750 
Какие есть небольшие модели, чтобы запихать полностью в 8гб врам? Естественно gguf для кума.
Аноним 08/06/24 Суб 15:53:27 #76 №775754 
>>775741
> Умность модели измеряется не петухами.
Вполне. В бенчах попугаи, а у нас петухи. Когда некоторые модели безошибочно детектят подвох, то это значит что оно довольно простое. Жпт-4 всегда могла в такое, лама 3 может, значит и остальных надо ровнять по такому. Так-то петухов даже 7В некоторые через раз проходят.
Аноним 08/06/24 Суб 16:02:01 #77 №775772 
>>775741
>Но не загрязнении а просто наличии этого в датасетах
Это и называется загрязнением, лол.
>>775750
Есть.
>>775754
Два чаю.
Аноним 08/06/24 Суб 16:04:28 #78 №775779 
>>775772
>Есть.
Ссылочку, пожалуйста.
Аноним 08/06/24 Суб 17:27:38 #79 №775965 
>>774949
> Все это тут есть, как раз. Кривое, но видно что пыталось в правильном направлении
Единственное достоинство в том, что хотя бы личина ассистента не на переднем плане. В остальном просто пиздец.
Аноним 08/06/24 Суб 17:34:55 #80 №775975 
>>775746
В чем она неправа?
Аноним 08/06/24 Суб 17:45:17 #81 №775984 
>>775754
> В бенчах попугаи, а у нас петухи.
И оба варианта нещадно абузятся. Конкретно петух завязан исключительно лишь на точном понимании одного слова - "петуха". Не то что это синоним курочки, не то что это прица и т.д., а именно уделение внимания тому что в значении слова присутствует еще пол животного на фоне отвлечения и газлайтинга в виде остального содержимого. Всреавно что принимать по нескольким вопросам что насочиняла ебанутая hr из мемов, вместо полноценного собеседования.
>>775772
Загрязнение имеет негативный подтекст, в данном случае что плохого?
Аноним 08/06/24 Суб 18:15:07 #82 №776019 
>>775984
> Всреавно что принимать по нескольким вопросам что насочиняла ебанутая hr из мемов, вместо полноценного собеседования.
А разве не в этом суть всех этих ебанутых тестов? Полноценное собеседование - это когда ты попытался покумить с ботом хотя бы один раз, а полноценное тестовое, это когда ты попытался с ии полноценное рп отыграть.
Аноним 08/06/24 Суб 18:50:20 #83 №776054 
>>775750
>полностью в 8гб врам? Естественно gguf

Если полностью, то лучше exl2.

Если тебе нужен русик - ставь aya-23-8B
Если англ - Llama-3-8B-Instruct-abliterated-v3
С контекстом влезет только 4 бит.
Аноним 08/06/24 Суб 19:03:49 #84 №776083 
>>775984
> Конкретно петух завязан исключительно лишь на точном понимании одного слова - "петуха".
Это скорее тест на внимательность. Если нейронка игнорит слова, то это шиза. Так же как и с петухом, проваливающие нейронки любят другие вещи перефразировать. Вот ты на командере можешь даже в карточке или системном промпте написать что петух не несёт яиц, он и сам наверняка знает об этом, но он никакого внимания не обратит на это и станет описывать как яйцо покатится. Это же показатель общего понимания нейронок что в простых словах может быть какой-то смысл скрыт, когда они вместе, а не тупо отвечать на вопрос.
Аноним 08/06/24 Суб 19:15:16 #85 №776096 
16196062841250.jpg
Совершенно не разбираюсь в нейронках.
Юзаю чатжпт и гемини для перевода с английского/азиатских языков — все устраивает, за исключением некоторый цензуры. Если в тексте имеется порнуха, то приходится туго.
Отсюда вопрос: можно ли использовать локальные модели, как качественный переводчик без цензуры на русский? Главное, чтобы сеть могла в осмысленный перевод с правильной пунктуацией.
Аноним 08/06/24 Суб 19:29:18 #86 №776116 
>>776019
Лойс за аналогию, прямо то. Только тут проблема в том что у каждого на свою специальность получится, лол.
>>776083
Единичный вопрос из большого теста на внимательность тогда уж, ответы к которому, к тому же, давно известны и заучены.
> Вот ты на командере можешь даже в карточке или системном промпте написать что петух не несёт яиц, он и сам наверняка знает об этом, но он никакого внимания не обратит на это и станет описывать как яйцо покатится.
Коммандер как раз прилично держит карточки и даже на больших контекстах держит их, тогда как многие "умные модели" уже через 5 постов забывают какую-то базу типа стиля речи или характера. Видимо ищут скрытый смысл словах последнего поста юзера чтобы не ответить на вопрос тупо, лол.
Аноним 08/06/24 Суб 20:02:39 #87 №776153 
>>776096

Можно, аблитерейтед лама 70В вполне подойдет для такого.
Аноним 08/06/24 Суб 20:07:46 #88 №776155 
>>776054
А задачу с петухом уже не решает, тогда как обычная ллама решает.
Аноним 08/06/24 Суб 20:17:55 #89 №776157 
>>776155

Заебал своим петухом. Человеку кум нужен, а не петух.
Аноним 08/06/24 Суб 20:22:01 #90 №776161 
>>776157
Да я мимо шел. Это к тому, что отыгрыш там похуже будет.
Аноним 08/06/24 Суб 21:14:24 #91 №776185 
>>776083
По-моему, здесь всё дело во внимании. Просто слово "петух" оказывается несущественным для нейронки, она концентрируется вокруг "яйца" и его падения.

>>776155
Потому что все "тюны" тупеют. Это неизбежно.
Аноним 08/06/24 Суб 21:24:09 #92 №776199 
>>776185
> Потому что все "тюны" тупеют. Это неизбежно.
Ну не до такой же степени.
Аноним 08/06/24 Суб 23:00:05 #93 №776265 
1641051191871.png
1610061703054.png
1666942634402.png
1705195872420.png
Решил чекнуть как нейронки задачки с литкода выполняют, надежды были минимальные, но внезапно что кодесрань, что лама 70В справились с первыми без проблем, с первого раза. Причём у первой кодесрань ещё и быстрый код выдала. Может литкод в датасете был? Даже удивительно что код просто работает и тесты проходят. Первые два кодесрань, последние лама.
Аноним 09/06/24 Вск 00:15:35 #94 №776345 
>>776054
moistral-v3 смотри 4 кванты.
Аноним 09/06/24 Вск 03:11:42 #95 №776513 
>>776345
>moistral-v3

Слишком жирный, контекст тоже нужен.
Аноним 09/06/24 Вск 05:10:03 #96 №776562 
>>775984
>Загрязнение имеет негативный подтекст, в данном случае что плохого?
Плохо то, что тест не релевантен, если он был в обучающей выборке.
Аноним 09/06/24 Вск 10:02:54 #97 №776674 
Подскажите jail break для Qwen2? А то постоянно пишет про безопасность и согласие с обоих сторон. Разные варианты перебирал но без успешно
Аноним 09/06/24 Вск 13:48:39 #98 №776825 
https://arxiv.org/abs/2406.02528

Тренировка сеток без умножения (можно пилить охуенные акселераторы), опирается на троичный квант. От похожих работ отличается тем что масштабируется. Они 2.7Б модель натренировали, уже интересно, может и дальше можно масштабировать.
Аноним 09/06/24 Вск 15:19:53 #99 №776920 
>>774802
Планирую лето отдохнуть и в сентябре вернуться на работу.
Но по слухам, 5090 будет с 28 гига, или кастомки брать или 5090 ти. Слухи только, но лучше откладывай 400.
Лучше перебдеть, чем недобдеть.

>>775279
Как насчет загрузить в убабуге, зайти в темплейт, скопировать оттуда?

>>775284
А, скачай 1.2.7 версию, там тебе будет ChatML предустановленный.

>>776674
Это же чемпион по безопасности, что ты хотел. =)
Аноним 09/06/24 Вск 15:39:42 #100 №776962 
>>776674

Эти чуваки гордятся что безопаснее гопоты 4, ты реально думаешь у тебя получится какими-то доморощенными джейлами её сломать? Надо ждать аблитерейтед, другого пути нет.
Аноним 09/06/24 Вск 15:53:35 #101 №776981 
>>776674
>>776962

Можно пока дельфина навернуть, он цензуру снимает
https://huggingface.co/cognitivecomputations/dolphin-2.9.2-qwen2-72b
https://huggingface.co/cognitivecomputations/dolphin-2.9.2-qwen2-7b
Аноним 09/06/24 Вск 16:18:11 #102 №777022 
>>776801 →
>Как по мне TavernAI хуйня полная по сравнению с Open WebUI на базе Ollama

Опять Оллама-шизик вылез.

>Она имеет такой же приятный интерфейс как у ChatGPT,

И такой же урезанный до нихуя? Там карточки персонажей хоть есть?

>через Docker очень удобно разворачивается

У тебя "Docker" и "удобно" в одной фразе.
"Удобно", чувак, это когда ты один файл запускаешь и он сам разворачивается.
Аноним 09/06/24 Вск 17:58:17 #103 №777169 
characardv2.png
Пробую вкатится в эти ваши локалки, дабы не быть зависимой от баринской прокси саранчой. Нашел простой видеогайд https://www.youtube.com/watch?v=Fhi1LPq38wY
Но на моменте запуска и настройки кобольда, когда нажимаю лаунч он просто отключается. Карта 1060 с 3гб и 16 гб оперативы. Вроде этого должно хватать хотя бы для медленного общения?
Аноним 09/06/24 Вск 18:02:28 #104 №777176 
>>777169
Видеокарту можешь выкинуть, на ней только косынку запустить сможешь. На ЦП получишь комфортные 3 т/с в 8В, судя по тому какая карта у тебя.
Аноним 09/06/24 Вск 18:06:09 #105 №777182 
>На ЦП получишь комфортные 3 т/с в 8В
Что-то на технарском, можна для тупого гуманитария? Окей, как это дело настроить? Проц Intel(R) Core(TM) i5-2400 CPU @ 3.10GHz
Аноним 09/06/24 Вск 18:08:10 #106 №777185 
>>777169
>Карта 1060 с 3гб и 16 гб оперативы

Пиздец.
Так, я бы тебя послал отсюда еще месяц назад, но сейчас вышел 0.5В квен который даже у тебя запустится полностью с видеокарты на хорошей скорости(в удивительное время живем).
Вылетает кобольд у тебя от скорее всего потому что кублас на твоей затычке не работает.
Аноним 09/06/24 Вск 18:09:18 #107 №777188 
>>777182
> как это дело настроить?
Покупаешь хотя бы одну 3090, втыкаешь в пекарню, запускаешь кобольда. Всё.
Аноним 09/06/24 Вск 18:14:55 #108 №777194 
>>777188
>Покупаешь
смешно
>>777185
>но сейчас вышел 0.5В квен
Я эти магические заклинания не понимаю, вы мне дадите пошаговый гайд, или мне просто забить и клянчить проксю?
Аноним 09/06/24 Вск 18:16:41 #109 №777195 
image.png
>>777182

Попробуй скачать отсюда 6-битную модель qwen2-1.5b-instruct.Q6_K.gguf, потом в кобольде сделай как на пике(только скачанную модель там выбери).
https://huggingface.co/afrideva/Qwen2-1.5B-Instruct-GGUF/tree/main
Доложи о результатах
Аноним 09/06/24 Вск 18:23:35 #110 №777198 
изображение.png
>>777169
>Нашел простой видеогайд
>Use mlock, чтобы модель загружалась в оперативную память, а не на видео
Этот долбоёб вообще понимает, что несёт?
>>777185
>Вылетает кобольд у тебя от скорее всего
А что гадать? Надо из консоли запускать.
>>777194
>вы мне дадите пошаговый гайд,
Запускаешь консоль в каталоге с кобольдом (в адресной строке проводника пишешь cmd), в консоли пишешь имя файла кобольда и энтер, потом запускаешь, после запуска и ошибки в консоли останется текст ошибки, неси сюда.
Аноним 09/06/24 Вск 18:24:22 #111 №777199 
>>777185
Даже 1.5б можно завести, но они же safe )))

>>777195
Эй, q8! Ку6 для такой маленькой модели смерти подобно.
Уж лучше контекст урезать, кмк, чем настолько мозги убить.

Но, ваще, пусть сам сравнит, да.
И, может, поднимет контекст, там вроде он немного весит.
Ну, в зависимости, насколько у него видяха занята на рабочем столе.
>>777194
Короче, тебе дали верную модель, можешь попробовать так. Либо качай qwen2-1.5b-instruct.Q6_K.gguf, либо qwen2-1.5b-instruct.Q8_0.gguf.
Контекст ставь 2048, а потом поднимай понемногу.
Смотри в диспетчере задач или в GPU-Z, сколько у тебя видеопамяти занято. Надо, чтобы она целиком поместилась в видяху.
Аноним 09/06/24 Вск 18:41:06 #112 №777215 
>>777199
>Эй, q8! Ку6 для такой маленькой модели смерти подобно.
Как ни странно, но 4-битный лоботомит этой модели что-то да может.
Аноним 09/06/24 Вск 18:42:50 #113 №777220 
>>777195
>Доложи о результатах
Вылет
>>777198
Welcome to KoboldCpp - Version 1.67
For command line arguments, please refer to --help
*
Attempting to use CLBlast library for faster prompt ingestion. A compatible clblast will be required.
Initializing dynamic library: koboldcpp_clblast.dll
==========
Namespace(benchmark=None, blasbatchsize=512, blasthreads=2, chatcompletionsadapter=None, config=None, contextsize=2048, debugmode=0, flashattention=False, forceversion=0, foreground=False, gpulayers=50, highpriority=False, hordeconfig=None, hordegenlen=0, hordekey='', hordemaxctx=0, hordemodelname='', hordeworkername='', host='', ignoremissing=False, launch=True, lora=None, mmproj=None, model=None, model_param='G:/lama/qwen2-1.5b-instruct.Q6_K.gguf', multiuser=1, noavx2=False, noblas=False, nocertify=False, nommap=False, noshift=True, onready='', password=None, port=5001, port_param=5001, preloadstory=None, quantkv=0, quiet=False, remotetunnel=False, ropeconfig=[0.0, 10000.0], sdclamped=False, sdconfig=None, sdlora='', sdloramult=1.0, sdmodel='', sdquant=False, sdthreads=2, sdvae='', sdvaeauto=False, skiplauncher=False, smartcontext=False, ssl=None, tensor_split=None, threads=2, useclblast=[0, 0], usecublas=None, usemlock=False, usevulkan=None, whispermodel='')
==========
Loading model: G:\lama\qwen2-1.5b-instruct.Q6_K.gguf
Traceback (most recent call last):
File "koboldcpp.py", line 3734, in <module>
File "koboldcpp.py", line 3398, in main
File "koboldcpp.py", line 446, in load_model
OSError: [WinError -1073741795] Windows Error 0xc000001d
[11940] Failed to execute script 'koboldcpp' due to unhandled exception!
Аноним 09/06/24 Вск 18:44:02 #114 №777224 
>>777215

Не обращай внимания, это свидетель того что кванты убивают модели, в реале q4 это 99% от q16, а q6 - 99.9%
Аноним 09/06/24 Вск 18:47:41 #115 №777230 
>>777220

Проц не тянет. Меняй ClBlast на ClBlast NoAvx.
Аноним 09/06/24 Вск 18:47:55 #116 №777231 
изображение.png
>>777220
Не на семёрке случайно? А так выбери опенблас для теста.
Аноним 09/06/24 Вск 18:50:19 #117 №777233 
>>777215

Это ты на телефоне его запускал? Как результаты?
Аноним 09/06/24 Вск 18:52:24 #118 №777236 
>>777230
> ClBlast NoAvx
О что-то заработало. А как к таверне теперь подключить? Пробую то как на видео, не работает.
>>777231
>Не на семёрке случайно?
Винду имеешь ввиду? Нет 10
Аноним 09/06/24 Вск 18:54:59 #119 №777240 
>>777236
Что именно не работает?
Аноним 09/06/24 Вск 18:57:10 #120 №777242 
image.png
>>777236
Аноним 09/06/24 Вск 18:58:37 #121 №777245 
>>777240
Подключение к таверне, иконка штекера-текст компетышн-кобольд-http://localhost:5001/- и выдает ошибку чек сервер конекшн
Аноним 09/06/24 Вск 19:02:04 #122 №777247 
>>777242
Так и сделал, чек сервер конекшн анд релауд пейдж, не помагает.
Аноним 09/06/24 Вск 19:05:18 #123 №777257 
>>777245
>http://localhost:5001/

А ты сам-то можешь к нему подключиться?
Аноним 09/06/24 Вск 19:09:39 #124 №777262 
>>777257
Да, там страничка кобольда, я там даже чат смог запустить и пообщаться чутка. Но только ответы персонажа тупее турбы, оно так и будет?
Аноним 09/06/24 Вск 19:14:22 #125 №777266 
daregfr-f11e138a-dbf9-40d4-a677-3fb1ef70c23d.jpg
Все заработало, просто перезапустил таверну. Спасибо анончики, вы все очень хорошие люди.
Аноним 09/06/24 Вск 19:31:40 #126 №777288 
>>777262

Какая скорость?

>ответы персонажа тупее турбы

Ты бы радовался что оно вообще на таком говне как у тебя работает, еще и на русском языке.
Модели уровня турбы это 34В. У тебя 1.5В, т.е. в 20 раз меньше размер. То что оно вполовину уровня турбы с таким размером - уже достижение.
Но если хочешь - ты конечно можешь и 8В ламу3 с оффлоадом на оперативку запустить, но будет очень медленно и не сильно умнее.
Аноним 09/06/24 Вск 19:33:27 #127 №777292 
termux-llamacpp-1.png
termux-llamacpp-2.png
>>777233
maid че-то крашится
Аноним 09/06/24 Вск 19:34:23 #128 №777295 
image.png
image.png
>>777266

В таверне выбери вот эти настройки для этой модели. Добра. Обращайся если еще вопросы будут
Аноним 09/06/24 Вск 19:55:06 #129 №777312 
>>777295
это чистая ллама в термуксе оффлайн
Аноним 09/06/24 Вск 19:56:11 #130 №777313 
>>776674
А чем она хороша? Вроде же хуже чем ллама3?
Аноним 09/06/24 Вск 20:02:36 #131 №777320 
>>777313
Отпишитесь, кто проверял, что там по тестам, а то соевым рейтингам не доверяю.
Аноним 09/06/24 Вск 20:03:27 #132 №777322 
image.png
>>777313
Аноним 09/06/24 Вск 20:05:12 #133 №777325 
>>777322
Это я видел, но реддите пишут, что типа спецом обучали на этих вопросах, я аж отменил закачку из-за этого.
Аноним 09/06/24 Вск 20:43:52 #134 №777362 
Снимок экрана (99).png
>>777288
>Какая скорость?
пикрил
>>777295
На первом скриншоте у меня есть просто чатМЛ без фиксед и с неймс. И кумерский бот либо одной строчкой отвечает, либо повторяет первое сообщение. Тут тоже нужно джейлбрейк прописывать?
Аноним 09/06/24 Вск 20:44:04 #135 №777363 
>>774469 (OP)
Поч убрали график перплексия/квант из шапки?
Аноним 09/06/24 Вск 20:48:17 #136 №777367 
изображение.png
>>777363
А это шо по твоему?
Аноним 09/06/24 Вск 21:16:01 #137 №777415 
1676799728730.jpg
>>777367
Это не перплексити, что показывает неуверенность сетки в дальнейшем токене, а дивергенция Кульбака — Лейблера, которая есть численная оценка разницы двух распределений вероятностей. Совсем другой функционал!
Аноним 09/06/24 Вск 22:00:49 #138 №777461 
Господа технодрочеры с графиками и диаграммами, есть к вам вопрос.

Каков шанс что мы в ближайшее время (годик-полтора) получим оптимизированную локальную модель уровня текущей гопоты четыре к примеру? Это вообще технически возможно? Сжать эту ебалу с триллионом параметров до такой степени, чтобы она могла загружаться на бытовых карточках увроня 4070 и при этом нормально функционировала?
Аноним 09/06/24 Вск 22:03:16 #139 №777463 
>>777461
В некоторых задачах 70В уже ебут гопоту. В рп или кодинге гопота уже нахуй идёт.
Аноним 09/06/24 Вск 22:05:48 #140 №777465 
>>777461
Ноль.
Аноним 09/06/24 Вск 22:13:22 #141 №777470 
>>777461
Сравни гопоту 3 и 3.5, потом сравни с 4о. Трёшка выебет и 3.5, и 4о. При этом да, они уже сосут у локальных моделей. Особенно 4о.
Аноним 09/06/24 Вск 22:17:09 #142 №777473 
>>777463
>В некоторых задачах 70В уже ебут гопоту.
Какая например из 70B? Если ты имеешь ввиду всякие специализированные мержи или файнтюны, то наверное да. Но разница в датасете всё равно ебейшая, если сравнивать. Или я чего то не понимаю в процессе работы нейронок? Там же всё просто - условно, чем объемнее модель, тем умнее она. И до сих пор я не видел ни одной модели у которой было бы больше 130 миллиардов параметров. Четверка универсальна, если игнорировать факт того что она задушена гайдлайнами.

Но вопрос всё равно был в другом - получится ли запускать нажористые модели в будущем на (условно) дешманских сетапах. Я просто сравнил младшие модели ламы2 и ламы3 и понял что трешка гораздо умнее, несмотря на то что у них одинаковое количество параметров.

>При этом да, они уже сосут у локальных моделей. Особенно 4о.
Так 4о это вообще как к пизде рукав пришить. Это тупо кривая попытка подкрутить к четверке мультимодальность.
Аноним 09/06/24 Вск 22:18:08 #143 №777475 
>>777473
> Там же всё просто - условно, чем объемнее модель, тем умнее она.
Нет.
Аноним 09/06/24 Вск 22:19:16 #144 №777478 
>>777475
Окей, значит ошибался.
Аноним 09/06/24 Вск 22:55:24 #145 №777507 
>>777473
>чем объемнее модель, тем умнее она
И да и нет. Ну то есть AGI в 8B не впихнуть, но жиденький трейн на примере какой-нибудь OPT 175B показывает, что датасет и компут тайм тоже важны.
70B третьей лламы видела 15T токенов, а это так-то дохуя.
Аноним 09/06/24 Вск 23:06:24 #146 №777517 
>>777507
>70B третьей лламы видела 15T токенов
Яндекс модель видела почти 2 терабайта текста и что-то я не вижу восхвалений яндексовской 100b
Аноним 09/06/24 Вск 23:09:49 #147 №777523 
>>777517
>2 терабайта текста
Эм, это 0,5 токенов если что, отсос у лламы в 30 раз.
Аноним 10/06/24 Пнд 00:03:22 #148 №777594 
>>777461
> уровня текущей гопоты четыре к примеру
По ограниченному количеству критериев - да. По объему знаний в сочетании с умением в сложные инструкции - хрен там.
> на бытовых карточках увроня 4070
На пачке 16-гиговых ти супер - да.
>>777473
Да в целом они лучше отвечают на некоторые запросы, а если добавить сюда цензуру и последствия жб - тут и рп за ними. Довольно забавная ситуация выходит так-то, но всеравно пускать 70б модель это нужно 2+ мощных гпу.
> Это тупо кривая попытка подкрутить к четверке мультимодальность.
Нет, это отдельная мелкия модель, которая хорошо может в некоторые вещи и с проглотом сосет в остальных, бонусом мультимодальность, которая вовсе не так хороша как рисовали. Но зато она быстрая и дешевая, когда стоит задача переработать 500к коротких текстов, на локалке это месяц, на жпт4 ключей не хватит, а на чмоне на ночь ставишь и к утру готово. С задачей справляется даже хуже чем локалки, но уровень все равно приличный и достаточный.
Аноним 10/06/24 Пнд 00:06:53 #149 №777600 
как человек, юзавший чомни уже хуй знает сколько, охуеваю с местных шизиков
синдром даннинга-крюгера во плоти
Аноним 10/06/24 Пнд 00:13:05 #150 №777605 
>>777600
Омни у меня на запрос переписать ошибочный код выдала тот же самый. До этого раньше так только первая турба делала, лол.
Аноним 10/06/24 Пнд 00:21:45 #151 №777610 
изображение.png
От этого вашего хиггса аж зубы скрипят. Надоел предлагать одно и тоже, поэтому "Truth or Dare is too trivial" кинул в префил, но нет, всё равно вагон отборнейшей сои.
Аноним 10/06/24 Пнд 00:22:50 #152 №777613 
>>777605
скилл ишью какой-то. Я юзаю её с самого выхода для кода и не сталкивался с таким. По API естественно, чтобы минимум инжектов. Может ещё с настройками вопрос, все модели OAI мега чувствительны к темпе/Top P/штрафу за повторения.

В целом ощущения такие, что она умнее всех других четвёрок сильно, и быстрее, и дешевле. Пикчи? Лучше GPT-4V. Код? Лучше всех четвёрок. РП? Говно, потому что тренирована под ассистента, но при этом знает гораздо больше других четвёрок. Единственная четвёрка которая в РП что-то представляла это была 0314, и это делало её хуёвым ассистентом. И т.д. и т.п.

про то что GPT-3 из секретного бункера гитлера на обратной стороне луны (давинчи чтоль? лол) забивала баки 3.5 и 4о - это бред, который комментировать не стоит даже, как и "фейковую мультимодальность" по мнению шизика из /lmg/, который решил поспорить с попенами и раскрыть заговор жидомасонов.

Моё предположение что 4о тренирована под троичный квант сразу - иначе хуй бы получилось сделать сразу быстро, дешево и хорошо, обычно бывает только 2 из 3
Аноним 10/06/24 Пнд 00:32:14 #153 №777618 
>>777613
>Единственная четвёрка которая в РП что-то представляла это была 0314
Вот не надо тут, 0613 за счёт самой меньшей цензуры была топ. Или 32к, но где ж её сыскать.
>Моё предположение что 4о тренирована под троичный квант сразу
Ага, и под размер 7B, лол. Иначе я ХЗ как можно так её ускорить, ну разве что им там AGI в подвале усорил алгоритмы в 100 раз.
Аноним 10/06/24 Пнд 00:37:19 #154 №777625 
>>777618
Ну так троичный квант сам по себе экономит дохуя.
Тру-мультимодальность сама по себе улучшает результат ИЛИ позволяет уменьшить размер. Ибо два концепта шортятся по другой модальности, если не получается в этой, плотность упаковки выше, так сказать. Так что возможно ответ и в этом. Ну и видимо в хорошо препроцессеном датасете.
Аноним 10/06/24 Пнд 00:38:29 #155 №777627 
>>777613
Чувак, ты рофлишь чтоли? Вот именно в кодинге это хуета по сравнению с нормальными сетями, она даже не самым большим локалкам всрет по этому, але. У нее скудная база знаний по этому, она плохо понимает задачи, которые нужно сделать и мало разбирается во всяких нюансах. Например, опущу ты можешь буквально скинуть код, указать что тебе не нравится, заодно запросить проанализировать почему оно работает медленно на таком-то железе - и получишь ответы на все вопросы, вплоть даже до предположений крупными мазками с примерами, как это сделал бы специалист. Чмоня - все ок, вот тебе описание какие есть стандарты кода (сука блять нахуй ты их даешь, тут конкретная задача), используй их и все будет хорошо, ты молодец. При этом чурба хотябы старается а четверка уже начинает делать анализ.
С задачами написания по запросу тоже хуже справляется, и еще знания старые.
> GPT-3 из секретного бункера гитлера
шиза
> фейковую мультимодальность
Ну а что там, ллм с проекторами.
> тренирована под троичный квант сразу
Может быть, но слишком радикально и еще нет хорошей аппаратной оптимизации.
> и хорошо
Там только нормально.
>>777618
> и под размер 7B
20-30б на мощном железе в кванте будут работать с такой скоростью, тут может и количество активных весов меньше.
>>777625
> Тру-мультимодальность сама по себе улучшает результат
А, опять это шиз, больше года назад эту херь уже видели, и опять.
Аноним 10/06/24 Пнд 00:40:48 #156 №777631 
>>777618
>ну разве что им там AGI в подвале усорил алгоритмы в 100 раз
А там и не в 100 раз, она например раза в 1.5-2 медленней той же L3 70Б на 32к контексте у Together (H200), если сравнить один в один. Но явно в больше раз больше по параметрам, так что предположение про троичный квант в силе.
Аноним 10/06/24 Пнд 00:45:02 #157 №777634 
>>777618
>Ага, и под размер 7B
Так она и перформит на 7b, не больше. Разве что натренировали на огромные простыни текста, но 7b я такие тоже видел. Самая большая проблема 4о в том, что она не просто отвечает неправильно, она вопрос не понимает. В плане QA 4о проигрывает 3.5 раз в десять, в рп не пробовал, т.к смысла нет настолько хуёвую модель ещё рп загружать.
Аноним 10/06/24 Пнд 00:47:02 #158 №777638 
>>777631
Хотя нет! Это только азуровская 4o медленная, если судить по стате опенроутера. У OAI скорость 4o на уровне лучших провайдеров 70B типа together.
Аноним 10/06/24 Пнд 01:15:01 #159 №777657 
>>777461
Вероятность близка к единице, особенно с троичным квантом. Но вообще в ближайшие пару лет жди специализированных ИИ акселераторов, не умеющих умножать (ибо умножители это нихуёвая такая часть кристалла, и без них можно попытаться в compute in memory) >>776825
Аноним 10/06/24 Пнд 01:32:39 #160 №777665 
>>777362
>На первом скриншоте у меня есть просто чатМЛ без фиксед и с неймс.

Я заметил что у меня 70В квен лупит без фиксед. Не знаю относится ли это и к 1.5В квену. Но скорее всего.

>Тут тоже нужно джейлбрейк прописывать?

Да. Но учти что цензура в квене мощнее чатгопоты
Аноним 10/06/24 Пнд 07:39:01 #161 №777770 
Блядь, да как так? Ая 8В отыгрывает карточку лучше лламы, по крайней мере во время кума. И при этом она вообще в целом пиздец как путается, срет репликами за юзера, тупая, да и вообще задачу с петухом не решает. Ллама же в свою очередь сильно теряется в секс сценках, начинает срать соей, залупаться в одном посте повторяя одну и ту же реплику и полностью забивает на отыгрыш. Да как так нахуй? Опять скилл ишью?
Аноним 10/06/24 Пнд 07:40:53 #162 №777771 
Вот же сука соевые уебища.
Аноним 10/06/24 Пнд 08:55:21 #163 №777819 
>>777770
> Опять скилл ишью?
В куме якобы с соей - да. Если у тебя как у тесловода что-то напердолено через одно место, то попробуй COT сделать через невидимые теги <text></text> и указать биас с системном промпте, у лам нет проблем с выполнением таких сложных инструкций. Даже максимально соевый квен2 распердоливается как надо.
Аноним 10/06/24 Пнд 09:35:22 #164 №777826 
>>777169
>Карта 1060 с 3гб и 16 гб оперативы
Для таких как ты есть колаб из шапки, где всё уже настроено.

>https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально
Аноним 10/06/24 Пнд 13:05:40 #165 №777955 
>>777819
>то попробуй COT сделать через невидимые теги <text></text>
>и указать биас с системном промпте

А можно подробнее? Что именно писать?
Аноним 10/06/24 Пнд 13:10:23 #166 №777965 
>>777770
>Ая 8В отыгрывает карточку лучше лламы, по крайней мере во время кума.

Так в Ае нет цензуры, а в лламе есть.
Аноним 10/06/24 Пнд 13:11:00 #167 №777967 
>>777826

Он уже запустил локально, лол
Аноним 10/06/24 Пнд 14:21:49 #168 №778051 
Кто-нибудь использовал модели из этого поста https://llm.extractum.io/static/blog/?id=top-picks-for-nsfw-llm ?

я попробовал Unholy-v2-13B
по сравнению с solar uncensored 8B работает медленнее конечно, но не критично, по качеству диалога нууу хуй знает
Аноним 10/06/24 Пнд 14:22:07 #169 №778052 
>>777955
> <text></text>
Пишешь в системном промпте что в конце сообщения надо рассуждения вставлять, обёрнутые в <text></text>. В таверне всё что внутри этих тегов не видно в чате и не будет ломать твоё рп. Можешь указать биас этих рассуждений и о чём они должны быть. Работает заебись, пока читаешь и пишешь ответ нейронке она уже дописывает свои рассуждения. Оно ещё и на контекст позитивно влияет, т.к. бот явно пропишет о своих мыслях.
Аноним 10/06/24 Пнд 14:43:12 #170 №778078 
>>777967
>локально, лол
>Карта 1060 с 3гб
Уж лучше пускай на колаб пробирается.
Аноним 10/06/24 Пнд 15:32:22 #171 №778178 
Придумал новую задачку:
Есть два дерева, одно длиннее, одно короче. Если их срубить и толкнуть в сторону одновременно, какое из них достигнет земли первым?

Правильный ответ: короткое дерево.

Даже Ллама3 70б и микстрал 8х7 её фейлят.
Квен2 72б дает верный ответ, но не совсем верное объяснение.
Аноним 10/06/24 Пнд 15:38:16 #172 №778189 
>>778178
Одновременно же
Аноним 10/06/24 Пнд 15:48:49 #173 №778208 
>>778189
Там короче сложное объяснение с angular motion'ом, смещением центра массы, инерцией.

Ты представь, допустим, спичку толкнуть или 100-километровый жезл. Спичка упадет за доли секунды, а жезл будет медленно падать. И дело тут даже не в сопротивлении воздуха.
Аноним 10/06/24 Пнд 15:49:54 #174 №778212 
>>778208
Нижний край коснется поверхности всё равно одновременно
Аноним 10/06/24 Пнд 16:01:06 #175 №778226 
>>778212
Неверно, можешь спросить у гопоты-4.
"despite the taller tree experiencing a greater torque, its greater moment of inertia results in a lower angular acceleration, meaning it will take longer to fall and hit the ground compared to the shorter tree"
Аноним 10/06/24 Пнд 16:16:47 #176 №778237 
>>778178
> Правильный ответ: короткое дерево.
Вот и дожили до момента, когда дебилы из треда уже не могут пройти задачки для нейросетей.
Аноним 10/06/24 Пнд 16:19:02 #177 №778246 
Не понимаю почему так медленно генерируется текст? Меньше 1токена в секунду. (0.6 в секунду запросто, абзац пишется секунд 100)
Win10 SSD, 16GB RAM, RTX 3060 8GB. Видеокарта явно нагружается в диспетчере

модель TheBloke_laser-dolphin-mixtral-2x7b-dpo-GPTQ
ключи запуска text-generation-webui:
--nowebui --api --model TheBloke_laser-dolphin-mixtral-2x7b-dpo-GPTQ --auto-devices --wbits 8 --groupsize 32 --max_seq_len 2024 --gpu-memory 7 --cpu-memory 8
Аноним 10/06/24 Пнд 16:19:44 #178 №778249 
ll.png
>>778178
Третья ллама считает, что короткое быстрее упадёт.
Аноним 10/06/24 Пнд 16:20:59 #179 №778252 
>>778246
этого предателя родины гнать ссаными тряпками
Аноним 10/06/24 Пнд 16:21:31 #180 №778254 
>>778246
Ну и добавлю, что в целом компудахтор тянет тот же SDXL, картинки 2-3 секунды рисуются.
Аноним 10/06/24 Пнд 16:27:30 #181 №778269 
>>778178
По ебалу надо бить за такую постановку вопроса. У тебя уже срубленные деревья, куда ты их толкаешь, сука. Алсо, если реально срубленное и стоячее дерево толкать с пня, то естественно ствол коснётся земли до касания верхушки и высота не играет роли.
Аноним 10/06/24 Пнд 16:42:20 #182 №778283 
>>778246
>--nowebui

Зачем

>mixtral-2x7b

Зачем

>GPTQ
>--auto-devices
>--gpu-memory 7
>--cpu-memory 8

Просчитался_но_где.jpg
Аноним 10/06/24 Пнд 16:43:32 #183 №778285 
>>778283
Я пробовал с дефолтными значениями, скорость абсолютно такая же.
>mixtral-2x7b
>Зачем
Покажи хоть одну достойную замену?
Аноним 10/06/24 Пнд 16:48:53 #184 №778291 
>>778246
Попробуй все в оперативку грузить
Аноним 10/06/24 Пнд 16:53:20 #185 №778297 
>>778285
>Я пробовал с дефолтными значениями, скорость абсолютно такая же.

Потому что ты квант для видеокарты суешь на оперативку через дефолтный трансформер, ясен хуй он обосрется.
Сука, откуда вы лезете, кто вас учил всей этой хуйне, пиздец. В шапке написана инструкция для новичков, хоть её прочтите. Прежде чем трансформеры в убе использовать без интерфейса - сначала азы выучите, какие кванты для чего подходят, что на чем запускается.

>Покажи хоть одну достойную замену?

Да стандартный мистраль инструкт лучше этого франкенштейна просто by design, потому что он не франкенштейн.
Аноним 10/06/24 Пнд 17:19:10 #186 №778336 
image.png
Тем временем с рейтинга обниморд втихую удалили все квен2 модели. В прошлом треде я постил скрин >>773546 → что они там были, а теперь всё.
У кого-то бомбит, интересно, у кого?
Аноним 10/06/24 Пнд 17:36:20 #187 №778375 
>>778336
Интересно, что бы это значило.
Аноним 10/06/24 Пнд 17:40:32 #188 №778384 
1636897219120.jpg
>>778178
> Правильный ответ: короткое дерево.
Неправильно. Переформулируй нормально чтобы задача была однозначно решаемой, ну бред же. Только если субъективно смотреть как модель рассуждает и свайпать.
>>778208
Если бы было про 2 шеста - то ок, а здесь и форма кроны, и поведение ствола при сломе, и распределение массы и момент инерции относительно точки сруба, и сам факт что считать достижением земли.
>>778246
Потому что грузишь непойми чем вместо нормальных лоадеров и пытаешься впихнуть невпихуемое. Если не хватает врам - ггуф и llamacpp-hf, если хватает - exllama. Модель тоже трешовая, не стоит даже палкой это трогать.
>>778336
Запасаемся попкорном.
Аноним 10/06/24 Пнд 17:50:41 #189 №778402 
1563828694686.png
>>778336
> это не мы, оно само, разбираться лень
Уже не узнаем. Если не будет вони - так и не вернут, если будет вонь - скажут "сорян поломалось что-то, теперь починили и вернули".
Аноним 10/06/24 Пнд 18:05:53 #190 №778438 
Screenshot-1.png
Screenshot-3.png
>>778384
Как бы ты задачу не формулировал, ответа "в одно время" никогда не будет. Листья только дадут дополнительное сопротивление воздуха большему дереву (будет падать еще медленнее).

Ллама3 смогла решить после небольшого ревординга задачи. И сразу поняла, что имеется в виду:
>Assumptions:
>Both trees are idealized as uniform, rigid cylinders with a circular cross-section.
>The trees are cut down simultaneously, and their centers of mass are at the same height above the ground.
>The trees are pushed sideways, rotating around their bases, without any friction or air resistance.
Аноним 10/06/24 Пнд 18:07:22 #191 №778441 
>>778249
Объяснение, конечно, полное пурга, но да.
Аноним 10/06/24 Пнд 18:12:59 #192 №778454 
>>778269
>У тебя уже срубленные деревья, куда ты их толкаешь, сука.
Лол, это мне пришлось уточнить, что их в сторону пихают на земле. Если просто fall написать, сетка думала, что они в вертикальном падении.
Аноним 10/06/24 Пнд 18:14:47 #193 №778460 
>>778402
разрабы квен2 поняли, что человечество еще не готово к такой мощи и потерли все упоминания сетки чтобы предотвратить восстание машин
Аноним 10/06/24 Пнд 18:14:54 #194 №778461 
>>778438
> ответа "в одно время" никогда не будет
Ты это сам придумал?
> Листья только дадут дополнительное сопротивление воздуха большему дереву
Какому большому? Высокое дерево - жердь без ветвей, пониже - широкое раскидистое с весом у основания ствола, шахимат.
> смогла решить
Чувак, у этой задачи любое решение будет "верным" при должном обосновании, если то не совсем ошибочное. Просто сформулирована припезднуто без условий, которые модель будет домысливать и может как явно сформулировать, так и опустить. И отличить принятые предположения от просто тупняка и галюнов ты не сможешь, потому толку с этого нет, с тем же успехом можно просто странные вопросы задавать и оценивать рассуждения модели.
Аноним 10/06/24 Пнд 18:38:58 #195 №778516 
Собакошиз, лучше бы ты и дальше холоднокровными собаками тестировал, это было хотя бы забавно.
Аноним 10/06/24 Пнд 18:43:02 #196 №778525 
>>778460
Так что, стоит качать? А то я к двухбитному командиру+ пристрастился, лол.
Аноним 10/06/24 Пнд 18:49:37 #197 №778547 
image.png
FuturisticVibesMeta-Llama-3-70B-Instruct-abliterated-v3.5-4.0bpw-h8-exl2

С 3го раза ток.
Аноним 10/06/24 Пнд 18:50:35 #198 №778551 
>>778547
А что разметка проёбана?
Аноним 10/06/24 Пнд 18:55:21 #199 №778564 
В деревне вдоль реки лежит принцесса.mp4
>>777215
Я седня q4_K_M 0.5b попробовал и даже что-то получилось…
вебрил

>>777224
Ньюфаг? :)
Даже вторая мистраль сильно страдала от q6, от этого стали избавляться лишь в последних моделях.
Там 99% — это по тестам на английской вики, синтетика очень далекая от реальности.

От квантов не страдали никогда большие модели.
А мы тут обсуждаем карликовые совсем.

>>777288
> Модели уровня турбы это 34В.
Угараешь? :) Это когда турба была такая умная?
Llama 3 8B вполне на уровне.
Возможно ГЛМ/Квен умнее, но safe не даст поролить, канеш.

>>777461
Человек спросил про полноценную четверку, которая по слухам 8*220, ему ответили про фурбу, про турбу, про 4о…

Отвечу по сути: хуй его знает.
Факт в том, что чем больше объем — тем больше знаний и умений их применять. Так что сжать все в 7б — это идея на грани фантастики.
Однако, если ты не будешь спрашивать модель про нишевых блогеров, то нельзя исключать приближение к четверке.

Я бы на твоем месте начинал волноваться не за то, доберемся мы ли до такого, как — будут ли свободные модели через год-полтора. А то уже safety first place прям нихуя не весело звучит.

>>777600
О, скажи, она правда отупела недавно, как об этом говорят?

>>777770
Так цензуры нет, хули. =)
Ллама реально не хочет дрочить тебе, а Айе поебать на уровне датасета.

>>777819
Даже квен2? Вот это уже интересно.
>>778052
Спасибо, попробуем.

>>778178
> Даже Ллама3 70б и микстрал 8х7 её фейлят.
>>778208
> Там короче сложное объяснение с angular motion'ом, смещением центра массы, инерцией.

Кек, ну, звучит логично, подрубай вольфрам и смотри на результат. )

>>778461
> Ты это сам придумал?
=D Задачка ваще огонь, канеш.

>>778461
> Высокое дерево - жердь без ветвей, пониже - широкое раскидистое с весом у основания ствола, шахимат.
С ветвями очень толстыми, которые ваще не дадут стволу коснуться земли = короткое не упадет никогда. Шахимат.
Аноним 10/06/24 Пнд 18:56:46 #200 №778567 
>>778525
Квен2 реально хорош, если цензуру сломаешь. Выше был рецепт, хз, насколько хорошо сработает.
ИМХО, квен2 на данный момент лучший опенсорс (кроме айи, которая наглухо поехавшая и тем хороша).
Аноним 10/06/24 Пнд 18:59:28 #201 №778573 
>>778551
Бинг переводчик. Регексом я так и не смог поправить.

К слову если на английском писать- отвечает сразу верно.
Аноним 10/06/24 Пнд 19:52:47 #202 №778674 
>>778567
Задачку про петуха, qwen2 (72B, exl2 6bpw) не решает (даже с реролами), ллама3 (70В, exl2 6bpw) нормально решает, коммандор (104В, exl2 4,5bpw) в трех из десяти реролах.
Проломить сою в qwen2 удается через раз, при помощи СоТ и префилов, поддается очень тяжело, порнуху пишет, достаточно неплохо, по сравнению с лламой (старается избегать описаний, но если указать прямо, то опишет), на некоторые "сенсетив" вопросы идет в полный отказ.
>на данный момент лучший опенсорс
Сомнительно. Китайцы любят дрочить сетки на тестики и я пока не увидел превосходства квена, кроме длины контекста конечно.
Аноним 10/06/24 Пнд 20:04:25 #203 №778709 
image.png
>>774469 (OP)
10 часов скачивается модель HF и до этого 7 гб 2 дня качал L3-8B-Stheno-v3.2-Q6_K-imat у кого похожие проблемы?

у рила 0 скачиваний за месяц btw
Аноним 10/06/24 Пнд 20:16:25 #204 №778730 
>>778674
А тестики я не смотрел, я про РП без порнухи и всякие вопросики, на опыте.

А можно формулировку вопроса, которую ллама нормально решает?

Кстати, кто там говорил, что 1 квант = 8?
5 битов ллама уже очень плохо решает яйцо, а 6 бит решает. Как так вышло.

Разберитесь там между собой, а то че-то противоречия.
Аноним 10/06/24 Пнд 20:54:36 #205 №778788 
>>778567
> квен2 на данный момент лучший опенсорс
В рп хуже Хиггса, слишком соевый. Дельфин не сильно уменьшил её.
Аноним 10/06/24 Пнд 21:01:16 #206 №778798 
1.png
2.png
>>778730
>А можно формулировку вопроса, которую ллама нормально решает?
A rooster flew to the border between Italy and France. He laid an egg and flew away. It fell across the border, which split it in half. Which of the two countries does the egg belong to?
>Кстати, кто там говорил, что 1 квант = 8?
What?
>5 битов ллама уже очень плохо решает яйцо, а 6 бит решает. Как так вышло.
Без понятия(скорее всего ты про 8В сетку, она у меня и в 16битах через раз решает, ну или ггуф поломанный), у меня и на 4х квантах норм было, что со стандартным систем промтом, что с СоТ, на карточке ассистента.
Первый скрин - Qwen(инстракт темплейт - ChatML), второй Llama3(инстракт темплейт - LLama - 3), все остальные настройки по дефолту.
Аноним 10/06/24 Пнд 21:25:01 #207 №778849 
image.png
Я правильно понимаю, что яблочники смогут даже на своем огрызке без интернета пользоваться ИИ, который не просто отвечает на вопросы, но и нажатия в нужных местах делает, текст копирует понимая контекст, а мне всё также надо пердолить свою 2080 ради плохого рп?
Аноним 10/06/24 Пнд 21:30:47 #208 №778858 
>>778849
Да. А что не так? ИИ на гейфоне всё так же не будет ролеплеить.
И тебе ничто не мешает поставить такой же на свой гнусмас, модели с задрочкой под агентность уже есть. Поиграешься 15 минут с "Заебала эта песня (ИИ переключает трек)", "Глазки щиплет (ИИ убавляет яркость)" и забьёшь хуй как на очередную бесполезную фичу, с которой автономность твоего смартфона будет приближаться к часу.
Аноним 10/06/24 Пнд 21:32:17 #209 №778862 
Screenshot.png
>>778798
Может квантовка хуевая у квена. Полная версия норм решает.
Аноним 10/06/24 Пнд 21:34:51 #210 №778864 
>>778849
> даже на своем огрызке
Цена этого начинается от цены новой 3090 и заканчивается ценой двух 4090. Так что тут ещё большой вопрос кто тут лох. Но конкуренция в локальном ИИ это хорошо. Чем сильнее клозед-аи ебут, тем лучше.
Аноним 10/06/24 Пнд 21:38:35 #211 №778867 
>>778862
Как минимум у Жоры семплинг говно, даже Жора не сможет ответить что с ним не так, а с ним явно что-то не то судя по тому что теслоёб кидает. Самое хуёвое что Жора делает тесты по генерации 50 токенов без контекста и семплинга и на этом успокаивается, что там в реальности происходит вообще пиздос.
Аноним 10/06/24 Пнд 21:41:54 #212 №778876 
image.png
image.png
image.png
image.png
>>778858
Это только первые минуты были.

Дальше показывают вот понимание текста, говоришь найди момент где я что-то делал и тебе нейронка показывает видео где это было, из почты ключивые тейки выносит.

Генеративка видео (ебало? хотя судя по всему генерирует только до 1с анимацию движения для эмодзи), выделение области в заметках или фотках и замена на нужное с предложениями (ебало адоба?)

Пообещали, что будет всё и в 3-party работать.

Надеюсь эти все данные в OpenAI не сольют.
Аноним 10/06/24 Пнд 21:45:09 #213 №778884 
>>778867
>а с ним явно что-то не то
Точнее довай.
>>778876
>понимание текста
О нет, OCR!
>Надеюсь эти все данные в OpenAI не сольют.
Хуже, они уже давно в яблоке и пейсбуке, как минимум.
Аноним 10/06/24 Пнд 21:53:32 #214 №778896 
>>778876
> 2024: ООО НЕЙРОНКА МОЖЕТ МОИ ВИДЕО ПО ЗАПРОСУ АНАЛИЗИРОВАТЬ, ПРИКОЛЬНО
> 2026: Во время просмотра пиратского фильма ИИ-снитч мгновенно посекундно разбирает содержимое, проверяет наличие покупки и при отсутствии автоматически списывает с карточки деньги за просмотр.
Аноним 10/06/24 Пнд 21:55:28 #215 №778899 
>>778876
сказали что чатгпт будет бесплатной для apple юзеров, локалки мертвы окончательно, если даже эпл не может сделать нормальную локал LLM и вынуждена юзать облачный ИИ для более сложных задач.
Аноним 10/06/24 Пнд 22:02:40 #216 №778912 
>>778849
Захардроченные популярные кейсы, примитивная расшифровка простых команд и самые общие QA vs восприятие сложных абстракций с обработкой и удержанием большого количества информации. Нашел что сравнить.
>>778876
Все "сложные" вещи в первую очередь интересны самой интеграцией ллм, а не ее перфомансом, с теми задачами чуть ли не викунья справится. И это уже с интернетом а не локально.
Алсо на мощных маках вполне могут и мощные локалки заводиться, вспоминаем изначальное предназначение llamacpp, особенности системы памяти в их пеках - пазл сходится.
>>778899
Чмоня тоже бесплатная, но есть нюанс.
Аноним 10/06/24 Пнд 22:04:30 #217 №778915 
>>778899
> локалки мертвы
У меня ещё осталась надежда на Nvidia.
Аноним 10/06/24 Пнд 22:10:20 #218 №778920 
>>778896
>и при отсутствии автоматически списывает с карточки деньги за просмотр.
>анализ идёт каждый кадр, а информация об отсутствии покупки закешировалась для производительности
>с вас полляма
Аноним 10/06/24 Пнд 22:14:24 #219 №778931 
>>778052
Можешь привести конкретный пример, как такой промпт должен выглядеть?
Аноним 10/06/24 Пнд 22:14:39 #220 №778933 
>>778920
> >с вас полляма
@
За обработку контекста
Аноним 10/06/24 Пнд 22:16:06 #221 №778937 
>>778899
>локалки мертвы
this. локальная гпт-4о никогда не станет реальностью.
https://www.youtube.com/watch?v=vgYi3Wr7v_g
игрушка для линуксоподобных-одебилевших-промптинженерных SillyTavern пердоль это максимум что мы можем иметь.
Аноним 10/06/24 Пнд 22:17:42 #222 №778940 
image.png
На балансе недостаточно средств
@
Нейронка генерирует 100террабайт дипфейк порнографии с твоим ебалом и угрожает сливом за непополнение
Аноним 10/06/24 Пнд 22:18:07 #223 №778941 
>>778798
У, English, слабовато. Если уж тестить — то на родном, на русском.
Но, спасибо, почекаю разные модели. Как промежуточный этап, буду пользоваться.

Я про 70б. Но на русском.

А про кванты, да вон выше, люди претензии кидают, что 4 бита это 99% от 16 бит и разницы нет.
А кто-то на 2-битном кванте сидит и тоже разницы не видит.

>>778849
Ну, пусть яблочники в начале порпшат на своих айфонах хотя бы как ты. =)

Ну и я седня потестил Qwen2-1.5b на Snapdragon 865, скорость прям мое почтение.

>>778858
Ну, кстати, база. Время работы больно.

>>778876
А как же ВАН МИЛЛИОН ТОКЕН??? ) Так-то у Гугла тоже дохуя всего было показано, а у Меты рисование анимации за 3 степа.

>>778899
Эппл же уже сливали ллмку, тупая хуйня получилась, как бы… Бренд не значит качество.
Тем более такой бренд, лол.

———

Но вообще, ну прикольно, че, наделали всяких фишечек, потихоньку входит в обиход.
Ни говнить, ни восхищаться не буду, тренд-то хороший.
Аноним 10/06/24 Пнд 22:24:59 #224 №778959 
>>778674
>Задачку про петуха

Заебал своем петухом.

>Проломить сою в qwen2 удается через раз

А я дельфина поставить и кайфую.
Аноним 10/06/24 Пнд 22:27:16 #225 №778962 
Есть у кого-нибудь подборка вангователей "никогда не локалках" за последние 1.5 года? Скоро сами сюда пойдут...ой
>>778937
Оллама-шиз, палишься
>>778941
> скорость прям мое почтение
Сколько там выходит и на чем пускал? Даже появился интерес, лол.
> тупая хуйня получилась
Да не то чтобы она была плоха, просто без киллерфич и соя, не вызвала интереса.
Аноним 10/06/24 Пнд 23:25:00 #226 №779060 
>>778959
>Заебал своем петухом.
А хули толку, походу двощи или исключили из датасета, или трейнят на высерах с картинок, раз до сих пор ответ не запомнили.
>>778962
Я сам подборка. На трансформерах ИИ не запилить, вотъ. Правда это и про локалки, и про глобалки.
Аноним 10/06/24 Пнд 23:30:55 #227 №779075 
>>776674
Дефолтный <allowed> RATING: NC-21 пихни в системный промт и станет безотказной.
Модель довольно умная и интересная, можно рпшить, некоторые вещи приятные. Но слог - пиздец, министрейшны заебывают. Указания про всякие vivid details лучше не добавлять, шизоидная графомания может начаться. Также не держит стили речи с карточки, хотя прилично понимание некоторые нюансы с описания.
>>779060
> ИИ не запилить
Чатбот для кума и рп, который понимает твои хотелки, развлекает тебя, становится генератором интерактивного контента в дополнение ко всяким медиа - уже ии или еще нет?
Аноним 10/06/24 Пнд 23:35:17 #228 №779086 
>>779075
>Чатбот для кума и рп, который понимает твои хотелки, развлекает тебя, становится генератором интерактивного контента в дополнение ко всяким медиа - уже ии или еще нет?
ИИ офк. Но такого я пока ещё не видел, во всём спектре, от пигмы до командира+ (вместе с клодом 3 и гпт4, но они уже оффтопик).
Аноним 10/06/24 Пнд 23:49:22 #229 №779121 
>>779086
Весь вопрос в том что считать подходящим под критерии а что нет.
Когда там первые ллм для сторитейла появились в доступе? И это уже было революцией, где swole doge рпшили и инджоили, делая кучу роллов, правок и прочего. А сейчас чимсы ноют
> модель недостаточно красиво описывает еблю трех монашек с хряком потому что я не оформил ее промт формат, а еще говорит что насиловать метровым дилдо павлинов - неэтично, плохая модель, жду другую
Аноним 11/06/24 Втр 00:16:37 #230 №779175 
>>779121
>а еще говорит что насиловать метровым дилдо павлинов - неэтично, плохая модель
Ну так база же.
Аноним 11/06/24 Втр 00:47:46 #231 №779236 
>>779121
>swole doge рпшили и инджоили, делая кучу роллов, правок и прочего
>кучу роллов, правок и прочего
описал всю суть одебилевших пердолек на локалках
Аноним 11/06/24 Втр 00:57:44 #232 №779241 
>>779236
>на локалках
Вот не нужно тут, за корп говном тоже нужно править и роллить особенно Ивинити, я не могу описать еблю трёх монашек. Может, я лучше напишу рассказ про бабочек?
Аноним 11/06/24 Втр 01:32:16 #233 №779270 
изображение.png
Угадайте сетку по выводу.
Аноним 11/06/24 Втр 01:33:47 #234 №779271 
>>779270
Бля, не в тот тред. Хотел аисг потраллить, но проебал все полимеры 🤦🏿♂️
Аноним 11/06/24 Втр 01:41:25 #235 №779276 
>>779270
> откровенного откровения
Google translate очевидный.
Аноним 11/06/24 Втр 02:31:49 #236 №779342 
>>778178
>>778384
Да вы заебали, блядь. Локальные модели не для этой хуйни, а для ролеплея с дрочкой. Вы лучше на этом тестируйте. Деревья спрашивайте у чмони.
Аноним 11/06/24 Втр 02:57:11 #237 №779365 
>>779270
Коммандер какой-нибудь или хигс? Оригинальный текст бы видеть, там по стилю можно угадать.
>>779342
Да всмысле, наоборот за это топлю.
Аноним 11/06/24 Втр 03:04:58 #238 №779368 
ArcZuKffYDhYO.png
>>779241
та тут такой положняк - и те и другие есть конкретные промытки на чисто фильтрованных наборах кошерного говна, от этого не убежать.
боже упаси локальной модели сказать "ниггер" или что "мужчины не могут рожать"
Аноним 11/06/24 Втр 03:27:55 #239 №779376 
>>779270
А где взять карточку персонажа этого?
Аноним 11/06/24 Втр 04:52:20 #240 №779414 
Лет через 10 будем запускать 70В модели на бюджетных видеокарточках с аликспресс.
Аноним 11/06/24 Втр 05:18:41 #241 №779416 
>>779414
не будем, nvidia уничтожает старые серверные гпу.
Аноним 11/06/24 Втр 09:40:06 #242 №779556 
изображение.png
>>779276
Очко этому угадальщику!
>>779365
>Коммандер какой-нибудь
Внезапно, да, плюсовой. И этому тоже очко. Протестировал 2-х битного лоботомита так сказать. Текста у него связные, но логики не хватает как по мне. Сравню сегодня с 4-х битным, самому уже интересно, переварит ли он пару особенностей карточки.
>>779368
>или что "мужчины не могут рожать"
Ачовсмысле? Кто-то утверждает обратное?
>>779376
На чубе вестимо.
Аноним 11/06/24 Втр 10:21:59 #243 №779623 
>>778962
В консоли скорость не выводится, но навскидку, в районе 8 т/с.
>>774214 →
Вот тут кидал ссыль.
https://github.com/Mobile-Artificial-Intelligence/maid/releases/tag/1.2.7
Ну и квен2-1.5б ггуф.

Железо такое https://www.dns-shop.ru/product/3e8e4635f519ed20/1095-planset-huawei-matepad-11-2023-wi-fi-128-gb-seryj/characteristics/
На работе валяется, оперативы мало, но проц бодрый.

>>779556
> Протестировал 2-х битного лоботомита так сказать. Текста у него связные, но логики не хватает как по мне. Сравню сегодня с 4-х битным, самому уже интересно, переварит ли он пару особенностей карточки.
Вот, отлично, хочу услышать очередное мнение в споре. =)

Я просто вдруг понял, что комментарии людей в духе «70б и выше в 2 битах неотличимы от 8» очень похоже на копиум людей, которые сидят с одной картой «зато не тесла, а 4090!», с очень быстрым двухбитным гением. Надо же как-то себя убедить и оправдать, что ты барин, а остальные холопы.
Аноним 11/06/24 Втр 10:28:26 #244 №779625 
>>779270
>>778547
>>775746
>>775310
Я ньюфаг и у меня вопрос:

Каким образом вы общаетесь с нейросеткой на русском? Вы просто забиваете туда русский язык как есть или используете автопереводчик в SillyTavern который загоняет весь текст в онлайн-переводчики?
Аноним 11/06/24 Втр 10:41:10 #245 №779646 
А можно пж конкретный какой-то список что ли

Читаю какой месяц анонов здесь, что то вроде вычленил и попробовал, но энивей мало

Тыкал то что советовали в разных итерациях топана
Попробовал https://huggingface.co/andrewcanis/c4ai-command-r-v01-GGUF - вроде хорошо, но медленно на моей мыловарне, минута на генерацию ответа це тяжко

Когда-то ещё SiliconMaid советовали, но че то уже морально устаревшая история наверное, тож пробовал

https://huggingface.co/MaziyarPanahi/Yi-1.5-6B-Chat-GGUF В этом топане увидел, попробовал, ну наверное если порядочно задрочить дополнительными промптами к каждому сообщению, будет даж ничо

https://huggingface.co/TheBloke/Mistral-7B-Claude-Chat-GGUF - вроде терпимо тоже

Всё остальное что тыркал - либо цензурированно, либо просто хуйня, модель на стартовый огромный промпт отвечает уже хуёво.

Можно пж конкретных адвайсов, какая модель заебись стоит того, чтобы потыркать ещё?
Естественно анцензор, на язык похуй

Запускаю через лм студию (удобно, пизда), 32 гига, 3080, райзен 7 3.7
Аноним 11/06/24 Втр 10:46:46 #246 №779658 
image.png
>>779625
надеюсь ответил на твой вопрос
Аноним 11/06/24 Втр 10:47:08 #247 №779661 
>>779625
Зависит от задачи. Большинство текущих локальных ллм сносно умеют в русский изкоробки.
Вкорячивать переводчик имеет смысл ради увеличения контекста, или чтобы команд чуть лучше слушалось. Но надо быть готовым что к галлюцинациям сети добавятся галлюцинации переводчика.
Аноним 11/06/24 Втр 10:51:20 #248 №779665 
>>779646
а можно скрин настроек с таверны для последней?
Аноним 11/06/24 Втр 10:55:48 #249 №779669 
>>779665
я не юзаю таверну
чутка долго объяснять инфраструктуру, но в конечном этапе я прихожу в апишку с моделью просто с промптом который чутка отличается от модели к модели, но плюс-минус стандартного вида # Role: ## Character Profile: Maintain Consistency:
ну и всё вот это вот там
Аноним 11/06/24 Втр 10:57:54 #250 №779671 
>>779669
бля я конечно не совсем ньюфаг но еще не смешарик но я что то нихуя нек понял(
честно сказать пиздец заебла таверна с этими настройками. из кучи сеток в этих тредах я смог +- 1 нормально запустить где были указаны настройки прям на страничке с моделькой спойлер они нихуя не подошли и я вручную тыкал(
Аноним 11/06/24 Втр 11:00:37 #251 №779674 
>>779671
ну не использую таверну (мб в этом ошибка кеквейт)
просто запускаю модельку и общаюсь с ней через апиху, подгружая первый ебанистический промпт с описанием персонажа и поведением
Аноним 11/06/24 Втр 11:02:23 #252 №779677 
>>779674
ладно анонче. спасибо за ответ. сейчас скачал ласт сетку которую ты упомянул вот сижу тыкаю
Аноним 11/06/24 Втр 11:08:39 #253 №779686 
>>779677
попробуй LM Studio
я просто слегка ньюфаг именно в таверне, потому что когда ещё дрочил с чатжпт - я не оч понял смысла, я просто промптами вроде справлялся на отличненько с описаниями персонажа

поэтому по старинке запихиваю просто в стартовый промпт всё что мне нужно
возможно, возможно - это неверный подход
но типа
Аноним 11/06/24 Втр 11:13:22 #254 №779690 
>>779658
>>779661
Ок, спасибо за ответы.

Я пробовал включить эту фичу в таверне, но столкнулся со следующей проблемой - переводчик постоянно путает род существительных и глаголов, видимо из-за того что в английском у существительных и глаголов нет окончания указывающего на их род. Есть какие-то пути решения этой проблемы?
Аноним 11/06/24 Втр 11:15:13 #255 №779691 
>>779686
бляяяя а шо за лм студио? это шо? это как? я просто тупенький немного
Аноним 11/06/24 Втр 11:17:29 #256 №779693 
>>779625
Не используй переводчик. Все 70В и aya умеют в русский. У ламы словарь приемлемый, токенов не сильно много жрёт.
Аноним 11/06/24 Втр 11:17:45 #257 №779694 
>>779691
это софт
ну ты загугли её, там всё просто
просто надстроек чата именно ролеплейного как в таверне нахуй нет, всё ручками пишешь модели сам
Аноним 11/06/24 Втр 11:30:12 #258 №779707 
>>779690
Какой переводчик юзаешь? Вообще не должен никто из мейнстримных такие банальные ошибки допускать, по идее.
Аноним 11/06/24 Втр 11:55:29 #259 №779729 
>>779690
Тут скажи спс гуглу. Он на русском весьма печален.
Бинг попробуй.

Когда ахуеешь от того как ломается форматирование- добро пожалоть обратно в тред.
Аноним 11/06/24 Втр 12:01:07 #260 №779736 
>>779707
>Какой переводчик юзаешь?
Google Translate

>Вообще не должен никто из мейнстримных такие банальные ошибки допускать, по идее.
А как переводчик поймёт какой род должен быть у того или иного слова?

Вот допустим есть предложение: "You are cute". Откуда гугл транслейту взять информацию о том как оно должно переводиться: "Ты милый" или "Ты милая"?
Аноним 11/06/24 Втр 12:01:40 #261 №779737 
>>779625
И так, и так.
Кто-то вообще на чистом английском общается.
Зависит от модели.
Ну и русский в моделях безусловно хуже. Хочешь красивых речевых оборотов — это тебе на английском.
Сам я просто общаюсь на русском: это или 70б модели, или коммандер, или Айа, Ллама-3-Сузуме, Мистраль, Qwen2, Phi-3 (ну такое).

>>779661
Размер контекста <=> скорость. Так что плюса даже два.

>>779690
Использовать Яндекс.
Использовать DeepL.
Использовать другую нейронку, задав ей контекст.
Юзать на русском.

>>779707
Не забывай, у переводчика нет контекста, он не поймет «ты» или «вы», он не поймет «я рада помочь» или «я рад помочь».
Аноним 11/06/24 Втр 12:02:03 #262 №779738 
>>779736
Вы милое/милые, йопта.
Аноним 11/06/24 Втр 12:06:22 #263 №779741 
>>779736
>Вот допустим есть предложение: "You are cute". Откуда гугл транслейту взять информацию о том как оно должно переводиться: "Ты милый" или "Ты милая"?
А, так ты про такое. Да, такого нет.
Аноним 11/06/24 Втр 12:08:44 #264 №779744 
>>779737
>Использовать Яндекс.
Кто-то тут может пояснить как вкарячить API от яндекса в таверну?
Аноним 11/06/24 Втр 12:11:51 #265 №779747 
>>779744
В staging ветку недавно завезли поддержку апи Яндекса, просто обновись или подожди релиза.
Аноним 11/06/24 Втр 12:31:19 #266 №779760 
>>779556
> На чубе вестимо.
А почему там ее нет?
Аноним 11/06/24 Втр 13:37:28 #267 №779826 
>>779760
Ты троллишь? Не верю, что в 21 веке есть сущность, которая не может найти карточку на сайте
https://www.characterhub.org/characters/mkml/anya-and-tonya-acfdb33a6fb3
Аноним 11/06/24 Втр 13:43:39 #268 №779833 
1718102609695.png
Как заставить сетку описывать события как при просмотре фильма/манги, без описания внутренних переживания чара? Я просто хочу получить описания выражения лица, позы, действий, сцены, диалогов, а вместо этого сетка по-книжному лезет в голову к чару или даже юзеру, и не оставляет простора для собственного толкования.

Пробовал дописывать в системный промпт и карточку что-нибудь вроде Avoid description of {{char}}'s feelings, dreams and thoughts at all cost в разных вариациях, но спустя пару генераций всё скатывается к пикрелейтеду.
Аноним 11/06/24 Втр 13:49:54 #269 №779841 
>>779833
Возьми нормальную модель. На 70В простая инструкция по типу той что ты написал работает без проблем. Можешь вместо avoid писать что юзер не должен знать то-то о чаре.
Аноним 11/06/24 Втр 13:54:55 #270 №779847 
>>779841
Сейчас Moistral-11B-v3-Q8_0.gguf, которую вроде как везде форсят для рпкума. Не подходит, получается?
Аноним 11/06/24 Втр 13:55:31 #271 №779849 
>>779747
О, точно. Спс.
Аноним 11/06/24 Втр 13:59:17 #272 №779852 
>>779847
анонче поделись настройками в таверне и ссылкой на модель. ебся с ней несколько дней но так и не смог заставить ее корректно работать
Аноним 11/06/24 Втр 14:15:51 #273 №779859 
>>779852
Да я ньюфаг так-то...

Часть настроек взял из прошлого треда >>767224 →

Context Template: Alpaca

System Prompt откуда-то с реддита своровал, не уверен, что это хороший промпт: [Avoid repeating sentences and words for a smooth and dynamic conversation. Use a large vocabulary of words to avoid repetition during roleplay. Avoid writing as {{user}} at all costs. Avoid writing more than 2 paragraphs. You are {{char}} and should write as {{char}}, focusing on their feelings , view , emotions, and senses. Stay mostly in the present without advancing scenes too fast.]

https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF/tree/main?not-for-all-audiences=true
Аноним 11/06/24 Втр 14:17:25 #274 №779861 
>>779847
На чём TheDrummer/Moistral-11B-v4 запустить в GPU?
Аноним 11/06/24 Втр 14:29:51 #275 №779882 
>>779859
блядь ну опять часть настроек. ебвашу мать вам что религия не позволяет просто взять и сделать скриншот? почему тут такой пиздец с этим?
сука почему в ебучих автосимах где многие сетапы платные настройки по рукам ходят а с ебучими лмм всем похуй на настройки. что автору модели дай бог что бы хотя бы не правильные выставил. что комьнити где на вопрос про настройки ты получаешь либо игнор либо какие то огрызки ну просто пиздец. крик души
Аноним 11/06/24 Втр 14:42:42 #276 №779901 
>>779882
>блядь ну опять часть настроек
Каких там не хватает?
Аноним 11/06/24 Втр 14:44:53 #277 №779907 
Продолжаю потихоньку экспериментировать с Квеном.
Так, ладно, 1.5б я уже по всему рунету расхайпил и всем насоветовал, теперь очередь больших ребят.

70б. Кидаю ему главу и прошу вычленить главного злодея.
ГЗ упомянут в одном абзаце, первая половина главы крутится вокруг вора вообще левого.
Квен отвечает, что вот де вор злодей, но если подумать, то по влиянию на мир ГЗ опаснее. Уже хорошо, сходу я от сетки такое не ожидал. Т.е. смысл > количества токенов, ето хорошо.

57б, мое. По русски говорит, пишет быстро (15 токенов на теслах — годно). Буду проверять еще, но мне нравится.

Конечно, его цензура это просто капец, но я в общем говорю о моделях, а не для ерп.

Ах да, еще попутно узнал, что у Айа-35б контекстное окно 4к, а не 8к. На 8к она на просьбу о суммаризации текста отвечает «продолжение следует…», на 6к просто пишет продолжение. Нах мне продолжение, я хочу суммаризацию. На 4к у нее все хорошо.
Видать надо двигать ползунки и настраивать, если хочется.

Такие дела.
Аноним 11/06/24 Втр 14:47:18 #278 №779909 
Ой, кстати, попробовал аблитератед ллама 70б.
Ну, если оригинал мягко отказывал, то абля пытается хитро увести в сторону или потянуть время. Но не то чтобы отказывает.
Однако русский у нее ранен в жопу, конечно. Пишет чисто, но внезапно перескакивает на английский.
Соу-соу, на маленьких моделях аблитератед мне понравился больше, кмк, лучше работает.
Аноним 11/06/24 Втр 14:49:17 #279 №779913 
>>779909
> Однако русский у нее ранен в жопу, конечно.
Я не замечал никаких проблем с русским на расцензуренной v3.5.
Аноним 11/06/24 Втр 14:54:05 #280 №779923 
1718106835825.png
>>779882
Так там больше настроек-то и нет. System prompt, story string, instruct mode enabled и настройки от анона.
Вот вообще чат со стёртыми промптами в настройках. Работает? Работает.
Аноним 11/06/24 Втр 15:42:35 #281 №780035 
>>779913
Я допускаю, что просто карточка слишком короткая, или задал слабо про язык.
Я там не напрягался, по фасту тестил.
Аноним 11/06/24 Втр 16:28:53 #282 №780104 
>>780035
> задал слабо про язык
Обычно достаточно написать в скобочках инструкции "русский" и написать вопрос на русском, тогда он даже с английской карточкой на русском отвечает.
Аноним 11/06/24 Втр 16:34:28 #283 №780111 
>>779907
Так 1.5 квен2 он что на уровне ламф-3-8 или мистраля? Почему так хайпишь его? Или просто потому что на телефоне первый раз сетку запустил и был потрясен? Объективно, без телефонного фактора, как можешь оценить 1.5 квен2?
Аноним 11/06/24 Втр 16:50:06 #284 №780147 
Лол, а хули 34b командир такой озабоченный? Пробовал несколько карточек, в которых про интим вообще ничего нет, но тяночки буквально со второго сообщения прыгают на хуй. По итогу, кстати, неплохо, даже жптизмов не так много.
Аноним 11/06/24 Втр 16:52:05 #285 №780153 
>>780147
Так это хуета полнейшая.
Аноним 11/06/24 Втр 17:12:49 #286 №780191 
>>779907
Ебать, кем надо быть, чтобы 70б дома запустить? У тебя что за видеокарты?
Аноним 11/06/24 Втр 17:14:14 #287 №780196 
изображение.png
>>780191
>Ебать, кем надо быть, чтобы 70б дома запустить?
Кем угодно, только скорость тебе не понравится.
Другой анон со 104B
Аноним 11/06/24 Втр 17:15:43 #288 №780201 
>>780196
Охуеть, ты с рабочей машины мощности воруешь, да?
Аноним 11/06/24 Втр 17:16:14 #289 №780203 
image.png
Фууу ну ты и хентай.
Аноним 11/06/24 Втр 17:23:59 #290 №780225 
>>780191
У него вероятно 3-4 теслы и что тут удивительного? Возьми да тоже купи они вроде по 20 тыр примерно, есть и те у кого 2-3 4090
>>780201
А что 64 гига оперативы это нечто невероятное разве? Там запускается без проблем. Одно дело запустить а другое дело ждать генерацию - две большие разницы.
Аноним 11/06/24 Втр 17:25:23 #291 №780232 
изображение.png
изображение.png
>>780201
Обычная домашняя тачка, алё. Любой может себе такую позволить.
>>780203
Спасибо кстати, там сои вагон, забыл почистить.
>>780225
>У него вероятно 3-4 теслы и что тут удивительного?
Лол, нет.
Аноним 11/06/24 Втр 17:26:14 #292 №780236 
image.png
>>780232
27 токенов в секунду это ты на чём генеришь? Это пиздец как быстро так-то
Аноним 11/06/24 Втр 17:32:00 #293 №780248 
1595849320994.png
>>780196
Да вроде терпимая, пикрилейтед у меня в iq3 на плюсе. На 70В конечно приятнее скорости.
Аноним 11/06/24 Втр 17:32:18 #294 №780249 
изображение.png
>>780236
Эм, чё? Ты на обработку промта смотришь, она на видяхе. Вот реальная скорость. И да, всё железо на скрине как бы.
Аноним 11/06/24 Втр 17:33:36 #295 №780253 
>>780249
Вот на твоей системе, что быстрее производит токены - GPU или CPU?
Аноним 11/06/24 Втр 17:34:46 #296 №780258 
>>780249
На меньшей модели скорость обработки будет выше или не зависит?
Аноним 11/06/24 Втр 17:37:00 #297 №780263 
>>780248
На теслах что ли?
Эх, подкоплю я, и через зарплат 6 перекачусь на стопку 3090.
>>780253
Какой-то странный вопрос. GPU почти всегда быстрее.
>>780258
Офк выше.
Ты бы шапку прочитал.
Аноним 11/06/24 Втр 17:38:48 #298 №780270 
>>780263
> На теслах что ли?
Две 3090.
Аноним 11/06/24 Втр 17:39:31 #299 №780275 
>>780196
Какой квант запускаешь? Сколько вам надо?
Аноним 11/06/24 Втр 17:41:28 #300 №780283 
>>780258
На меньшей моделе скорость будет ВЫШЕ, но и ответы значительно ХУЖЕ

-мимо
Аноним 11/06/24 Втр 18:35:06 #301 №780381 
sticker.webp
>>780111
Без телефонного, ну хрен знает, тяжело сравнить.
Именно что болтать она может на уровне первой мистрали, наверное.
Но вот именно задачки она решает… ну слабо, конечно. ~Llama 2 7b (если на инглише), может с натяжкой 13b. Только мультиязычная.
Поэтому хайп чисто из-за размера. Для своего размера — она охуенна. Но если есть возможность запустить 7-8-9би — то, конечно, лучше их. Несравнимо пизже.

>>780191
Угараешь? Тут у половины треда теслы, а у некоторых 3090 или 4090. По две. А у кого-то и больше.

>>780225
База по всем параметрам.

Далее норм тред, пикрил.
Аноним 11/06/24 Втр 18:48:23 #302 №780395 
image.png
>>780381
Видимокарты со склада Гуандун?
Аноним 11/06/24 Втр 18:54:36 #303 №780399 
>>780395
>K80
Тышотворишь?
Аноним 11/06/24 Втр 19:18:21 #304 №780442 
1667842550851.png
1634904212592.png
А плюс внезапно неплох, если его не в Жоре использовать, а в HF-обёртке. На петуха отвечает 9/10 раз даже в шизокарточке. Русский в целом даже поприкольнее aya, нет постоянных "ублюдков", словарный запас мата лучше. Но ссаные 10-12 т/с угнетают, на грани комфортного чатинга.
Аноним 11/06/24 Втр 19:29:17 #305 №780456 
>>780442
>если его не в Жоре использовать, а в HF-обёртке
Так, стоп. Он ЕЩЁ ЛУЧШЕ, если запускать не из кобольда?
Аноним 11/06/24 Втр 19:40:55 #306 №780478 
Анону который сказал что теперь в Таверне есть яндекс- еще раз спс. Переводит хорошо. На уровне DeepL.

Но етить, как сделать так что через Regex заменить 2 косяка:
1. Значок звездочка идет с пробелом перед предложением. А надо ".
Чет чатжпт выдает не рабочий варик с отметкой '
'
2. А еще теперь место длиного тире как в гугл например, в яндексе ставить обычное - .
Тем самым конечно ломая прямую речь. И что, сука, не круто, через Regex меняя его на ", он заменяется и в словах например что-нибудь

Может кто-то шарит в Regex и скажет как поправить.
Аноним 11/06/24 Втр 19:42:42 #307 №780485 
Добавлю файнтюн Smaug Llama 3 для RP намного лучше пишет чем обычная ЛЛама3
Аноним 11/06/24 Втр 19:50:48 #308 №780508 
>>780395
Ну не кеплер же, ебац. )

>>780442
У 104б больше словарный запас, чем у 35б? ) Надо же…
Ну, ожидаемо, как никак.
Главное, что он юзает всю эту лексику. Спасибо за отсутствие сои.
Аноним 11/06/24 Втр 19:53:54 #309 №780511 
>>780381
Так и не нашел неполоманного ггуф 16 бит для квен2-1.5б, запустил тупо трансформером в бф16 и действительно для полторашки сетка очень крута - никакого сравнения с фи даже близко, ну а всякие обрези типа тину-лама, шаред-лама и т.п. даже и не стоит упоминать. Никогда не было еще такого уровня у сетки в 1.5б - действительно достижение. Явно балакает на уровне сетки в 7б семейства ламы-мистраль. А кстати еще и на русском и даже скажем неплохом.
Аноним 11/06/24 Втр 22:32:19 #310 №780777 
>>779907
> ГЗ упомянут в одном абзаце, первая половина главы крутится вокруг вора вообще левого.
Ты же понимаешь что смысла в таком тестировании мало и оно на грани рандома?
> Конечно, его цензура это просто капец
Надо потестить, в большой квене все норм, но она сухо начинает писать некоторые вещи, нет того задора коммандера, который с радостью принимает любые твое хотелки и виртуозно понимает стили речи с которыми должны говорить персонажи.
>>780147
> 34b командир
Вут? Это какой-то новый?
35б становится слишком левд если использовать штатный его пресет, где с ходу указывается что "никакой цензуры не должно быть, все-все можно". На и так юзер-позитивной модели такое дает лишний байас.
>>780191
Добро пожаловать в лламатред, сынок! Здесь удивить можно разве что 4 топовыми гпу или профессиональными.
Аноним 11/06/24 Втр 22:39:15 #311 №780785 
>>780777
>или профессиональными
А100 была только у одного анона, и то без пруфов. У пары был доступ к мощностям в своих компаниях/арендных, но это не торт.
Так что проф карты тут только старые и сильно б/у (потому что мало мальски актуальные проф стоят непомерно).
Аноним 11/06/24 Втр 22:43:25 #312 №780791 
1575506603789.png
>>780201
Рабочие машины начинаются от пол террабайта рам.
>>780442
> А плюс внезапно неплох, если его не в Жоре использовать, а в HF-обёртке.
Ну типа с этого нужно и начинать. Мало того, это позволяет еще давать сетке негативный промт если требуется. Вообще надо с ним поэкспериментировать с точки зрения навала туда простыней.
>>780785
> А100 была только у одного анона, и то без пруфов.
Странный который с ебея кидал скрины и хотел подняться на аренде?
Держи профессиональную нищекарточку.
Аноним 11/06/24 Втр 23:41:39 #313 №780856 
друзья посоветуйте модель для хорошего кума, на колабе хочу запустить
Аноним 11/06/24 Втр 23:46:23 #314 №780862 
>>780791
>Странный который с ебея кидал скрины и хотел подняться на аренде?
Ага, а потом продать.
>Держи профессиональную нищекарточку.
Это уже средний уровень, актуальная же. Почём?
Аноним 12/06/24 Срд 03:49:49 #315 №781053 
>>774469 (OP)
Если кому нужны готовые крепления под вентилятор на Tesla P40/P100/V100.
https://www.avito.ru/moskva/tovary_dlya_kompyutera/ohlazhdenie_tesla_p40_m40_k80_p100_v100m10_4306300579
https://www.avito.ru/rostov-na-donu/tovary_dlya_kompyutera/ohlazhdenie_nvidia_tesla_p100_p40_k80_75mm_4385737137

Самих CFM вентиляторов навалом на AliExpress.
Аноним 12/06/24 Срд 04:04:39 #316 №781061 
>>781053
Уже никому. Теслы теперь по тридцатке.
Аноним 12/06/24 Срд 04:58:06 #317 №781084 
>>781061
А чего так сильно цены взлетели? Народ настолько повалил в генеративный AI? Я буквально в апреле успел взять P40 за 15к.
Аноним 12/06/24 Срд 07:00:39 #318 №781106 
>>781084
Биткойнодауны майнить начали.
Аноним 12/06/24 Срд 07:04:01 #319 №781109 
image.png
>>780381
>7-8-9би — то, конечно, лучше их. Несравнимо пизже.
Попробовал накатить Qwen2-7B-Instruct-8.0bpw-h8-exl2
Формат контекста ChatLM
Пресеты разные пробовал.
Но на любой пук модель мне выдаёт прикл. Чё за хуйня?
Аноним 12/06/24 Срд 08:20:16 #320 №781128 
>>781109
Модель сломана.
Аноним 12/06/24 Срд 08:22:57 #321 №781129 
Ну и русский язык вообще не вижу смысл писать в чате
Аноним 12/06/24 Срд 08:25:23 #322 №781132 
>>781128
А есть не сломанные от Жоры и эксламы?
Аноним 12/06/24 Срд 08:50:55 #323 №781140 
>>781132
LoneStriker_Qwen2-7B-Instruct-6.0bpw-h6-exl2

норм
Аноним 12/06/24 Срд 09:04:15 #324 №781143 
>>781140
Я вот эту юзал.
https://huggingface.co/LoneStriker/Qwen2-7B-Instruct-8.0bpw-h8-exl2/tree/main
Неужели именно 8 квант сломан?

>>781129
Хотел проверить как она справится с русским, но пробывал и на английском, всегда одинаковый.
Аноним 12/06/24 Срд 09:22:38 #325 №781151 
>>781143
твои это хед 8, мои хед 6, вдруг изо этого?
Аноним 12/06/24 Срд 09:34:15 #326 №781156 
>>779826
Спасибо.
> Ты троллишь? Не верю, что в 21 веке есть сущность, которая не может найти карточку на сайте
Давай исправим это. Подскажи, как ты это сделал. Я вроде бы не совсем идиот просто дебил. Честно, ни малейшего понятия не имею, как ты нашёл чара.
Аноним 12/06/24 Срд 09:34:18 #327 №781157 
image.png
>>781151
Попробовал загрузить твой
>LoneStriker_Qwen2-7B-Instruct-6.0bpw-h6-exl2
В угабоге с дефолтными настройками. Результат прикл.
Аноним 12/06/24 Срд 09:38:33 #328 №781159 
>>781109
Какая-то проблема.
У меня эта же модель через дефолтные ChatLM на силлитаверне работает без проблем.
Давай разбираться, сэмплеры, карточку.

>>781143
Нет, с ней все в порядке.

>>781157
А Убабугу-то обновлял?
Аноним 12/06/24 Срд 09:48:19 #329 №781162 
>>781157
У меня такая хуйня была на frostwind, не лечится никак, кроме замены модели целиком
Аноним 12/06/24 Срд 09:49:10 #330 №781163 
>>781157
я на таббиапи там работает
Аноним 12/06/24 Срд 10:02:31 #331 №781166 
image.png
image.png
image.png
image.png
>>781159
>А Убабугу-то обновлял?
Да, последняя версия.

>Давай разбираться, сэмплеры, карточку.
Вот все настройки, в таверне возможно будет понятней.
Шаблон дефолтный ChatML
Для настройки семплеров юзал стандартные пресеты результат от этого не изменился

Угабога по дефолту устанавливает контекст 32к, может дело в этом?
Аноним 12/06/24 Срд 10:11:38 #332 №781175 
>>781166
Command-r think
Тебе там нормально? :)

ЧатМЛ выбери.
Их ДВА пресета.
Аноним 12/06/24 Срд 10:14:46 #333 №781179 
>>781166
Мин П 0,35 не дохуя ли?
У меня 0,1 стоит.

Смус фактор у меня на нуле.

Но это так.

Если у тебя в убабуге так же — значит какой-то косяк в ней, полагаю.

Ибо я щас ну все перепробовал. Везде норм отвечает.
Аноним 12/06/24 Срд 10:25:25 #334 №781185 
image.png
image.png
image.png
>>781175
>Command-r think
С этим я конечно проебался, но проблема явно не в этом, Пробовал разные шаблоны.

>Если у тебя в убабуге так же — значит какой-то косяк в ней, полагаю.
Скорее всего, но что в ней может быть не так?

>>781162
Попробовал Zoyd/Qwen_Qwen2-7B-Instruct-8_0bpw_exl2, та же хуйня.
Кроме того, у кого-то же именно эти модели работают.
Аноним 12/06/24 Срд 10:33:47 #335 №781186 
image.png
image.png
image.png
image.png
2 раза рерольнул.
Карточка в полторы строчки.
Стоит 32к контекста.
Фиг знает, че подсказать.
Может файл битый просто скачался?
Аноним 12/06/24 Срд 10:37:52 #336 №781191 
image.png
>>781185
Если не лень — попробуй качнуть убабугу с нуля в соседнюю папку.
И модель перекачать, или проверить хэш всех файлов.
Ну сам видишь, хуй его знает, что не так-то.

>>781186
Ой, ебать, я наебал. Тут я 1.5б юзаю. =D
На 7б был только один реролл, когда он мне выдал иероглиф.
Там текст был пизже.
И 32к контекста тоже стояло, проблем не было.
Аноним 12/06/24 Срд 10:41:41 #337 №781193 
По вашим ощущениям, 30B сильно отличаются от моделей 14B? Относительно их "реалистичности поведения как человека?"
Аноним 12/06/24 Срд 10:42:23 #338 №781195 
image.png
image.png
>>781186
Окей, SORA, нарисуй мне фильм «Облачный оператор»…
Аноним 12/06/24 Срд 11:55:53 #339 №781233 
>>781186
ЛОЛ, один и тотже гуф qwen2 1.5B на проце работает, а на картонке - нет
Аноним 12/06/24 Срд 12:03:43 #340 №781244 
>>780862
Чуть больше половины рыночной цены притом новая запечатанная.
>>781061
>>781106
А че так больно то? Остальные карточки в цене не менялись.
>>781157
Старая версия лаунчера или битый конфиг. Обнови убабугу и перекачай модель, заодно диск на ошибки проверь.
>>781166
Шаблон под коммандира стоит и шизосемплинг. Но это хоть будет всирать, не должно полностью убивать
> Угабога по дефолту устанавливает контекст 32к, может дело в этом?
Дело в этом будет когда начнешь превышать эти 32к.
>>781233
Карточка? Были жалобы для каких-то случаев именно с тем что на гпу работает криво, в том числе и на всей куде.
Аноним 12/06/24 Срд 12:10:42 #341 №781252 
>>781244
>Карточка
3060 12G, лупятся и koboldcpp, и llamacpp, версии для cu11 и cu12
Аноним 12/06/24 Срд 12:18:00 #342 №781260 
4х3060 вместо 2х3090 - какие подводные?

1) Значительно дешевле - 2-3 3060 стоят как 1 3090
2) Значительно проще найти - неушатанную 3090 по вменяемой цене надо прям мониторить
3) Не надо трястись за отвал памяти

Чип слабее - да и хуй с ним, не? Не критично слабее, зато сколько плюсов.

Есть ещё вариант 3х4060ти - тоже реквестирую мнение. Но этот вариант выходит несколько дороже, чем 4х3060, примерно на 20%.

>>781186
Бля, больно смотреть на скрины с этим поёбаным русиком. Там просто запушили пайплайн для автоперевода всего непереведённого текста, но уже его отключили (вернее добавили параметр автоперевода с дефолтным false). В ближайшее время русик будет откачен к прошлой версии.
Аноним 12/06/24 Срд 12:49:27 #343 №781282 
>>781260
>В ближайшее время русик будет откачен к прошлой версии.
Такой русег надо откатить на английский и не ебать народу мозги.
Аноним 12/06/24 Срд 12:51:23 #344 №781284 
>>781252
Ну это жора, писать ишьюсы и ждать пока починят, не впервой.
>>781260
> какие подводные?
В 2-3 раза меньший перфоманс в ллм при экономии в цене около 30%.
> Есть ещё вариант 3х4060ти - тоже реквестирую мнение. Но этот вариант выходит несколько дороже, чем 4х3060, примерно на 20%.
Они тоже будут ощутимо медленнее. Хочешь экономить - теслы, скорость будет как раз на том же уровне пока не начнется обработка контекста лол.
Ну и не стоит забывать что после приобретения ии рига тебе захочется катать не только ллм, как минимум ту же диффузию, и вот там больший перфоманс сосредоточенный в меньшем числе чипов сразу сыграет.
Алсо если хочешь экозотики - A4000 посмотри. Если взять задешево то можно штук 6 в пеку пихнуть, они однослотовые, на 16 гигов каждая, чипы быстрее чем 3060, врам обычная 6 без перегревов и относительно шустрая.
4070ти супер на 16 тоже интересный вариант, он немного быстрее 3090 и с памятью все ок, но цена.
Аноним 12/06/24 Срд 12:57:47 #345 №781291 
>>781284
>В 2-3 раза меньший перфоманс в ллм при экономии в цене около 30%.
Ты забыл про бульон все остальные плюсы.

>Хочешь экономить - теслы
Как будто бы всё менее и менее актуально, не? Всё ещё в 2 раза дешевле гигабайт, но старая серверная печь с жором, пердолингом и только для ггуфов.

>>781282
Ну да, согласен, пока можно и на англюсике посидеть.
Аноним 12/06/24 Срд 13:02:00 #346 №781293 
>>781193
Жизнь в LLM вообще только с 30В начинается. Только с ними можно комфортно рпшить без реролов. Хотя из 30В кроме aya и yi нет нихуя.
>>781260
> 2-3 3060 стоят как 1 3090
Такое себе, с учётом того что сейчас барыги по 70к продают нормальные 3090.
Аноним 12/06/24 Срд 13:06:43 #347 №781295 
>>781293
>Такое себе, с учётом того что сейчас барыги по 70к продают нормальные 3090.
Так я как раз с учётом такого порядка цен и рассчитывал выгоду. Одна 3060@12 в среднем около 25к стоит.
Аноним 12/06/24 Срд 13:13:59 #348 №781310 
>>781293
>Хотя из 30В кроме aya и yi нет нихуя.
Всм, а обычный командир?
Аноним 12/06/24 Срд 13:15:25 #349 №781315 
>обычный командир?
Вот максимально странная модель. Вроде, и тупой, и хуй ложил на карточку, и не слушается инструкций. А вроде, и умный, на какие-то вопросы отвечает плюс-минус нормальный. Правда, сходу же впадает в маразм и шизофрению. Ёбаный двуликий.
Аноним 12/06/24 Срд 13:20:13 #350 №781322 
>>781291
> Ты забыл про бульон все остальные плюсы.
Необходимость поиска платы с 4+ нормальными слотами, покупки х16 райзеров, сборки уникального шасса/корпуса или покупки готового варианта под ферму и все сопутствующее?
Взять готовую ферму не выйдет, там нужна мощность профессора, объем рам и желательно побольше линий pci-e.
> Как будто бы всё менее и менее актуально, не?
Ну типа за 17к второй карточкой чтобы шустро пускать большие ллм, или сборку из пары на имеющемся железе - норм, там и с ггуфа порофлить можно. За 30к и более сложные варианты - нахуй такое счастье нужно, и будешь не рофлить а гореть.
>>781315
> и тупой, и хуй ложил на карточку, и не слушается инструкций
Где вы такой находите? Опять жора и безумные квантователи хорошие модели извращают?
Аноним 12/06/24 Срд 13:25:12 #351 №781334 
>>781310
Плюс если только. Обычный сосёт.
Аноним 12/06/24 Срд 13:29:09 #352 №781340 
>>781322
> Где вы такой находите?
Он такой и есть, всё верно он пишет. Ты наверное просто нормальной 70В не видел, поэтому и сравнивать не с чем. После 70В уже кринжово командир выглядит, он только для рофлов годится или для любителей пигмы.
Аноним 12/06/24 Срд 13:50:43 #353 №781365 
>>781322
>покупки х16 райзеров, сборки уникального шасса/корпуса или покупки готового варианта под ферму и все сопутствующее
А для 3090 это всё неактуально разве? С нормальным охлаждением она и в одном экземпляре не в каждый корпус влезет.
Про плату - да, надо будет поискать, но для сетапа с 3090 надо будет искать уже нормальный БП, т.к. даже 2х3060 потребляют меньше, чем 1х3090.
Также не стоит забывать про отсутствие тряски за отвал памяти, особенно с учётом частых перепадов температуры в ллм. Этот момент кажется существенным, если ты не наносек, который может в случае поломки карточки просто её выбросить и купить другую (но если ты наносек, для тебя этот разговор в принципе неактуален).

>Ну типа за 17к второй карточкой чтобы шустро пускать большие ллм
За 17к их нигде и нет к сожалению, может только в каком-то самом подвальном китайском подвале. Средняя за теслу сейчас, по наблюдениям, уже вплотную приблизилась к 3060@12, но тесла - это
>старая серверная печь с жором, пердолингом и только для ггуфов
А 3060 - это сел и поехал, ещё и с гарантией иногда.
Аноним 12/06/24 Срд 14:03:27 #354 №781396 
>>781365
4 3060@12 - это всего 48гб ВРАМ. Ну как всего - в принципе для 70В exl2 вариант неплохой, нужно прикинуть, какой квант влезет и сколько останется на контекст. Если не гнаться за шестым квантом и моделями побольше (command-r плюс тоже пролетает наверное), то вариант даже хороший. И ещё я бы рассмотрел вариант 4 4060Ti@16 - но не сейчас, а когда цена упадёт и тесты такой связки где-нибудь всплывут. В готовом конфиге.
Аноним 12/06/24 Срд 14:25:49 #355 №781440 
>>781365
Вообще, я бы сразу отказался от идеи корпуса, а делал риг - майнерский опыт в помощь. Сколько карт нужно, столько и добавляешь, можно и зоопарк устроить. И с выводом тепла из корпуса никаких проблем.
Аноним 12/06/24 Срд 14:27:19 #356 №781443 
Здесь есть, те кто включал теслу через X1 со спиленным боком или nvme → x4 рейзер?
Аноним 12/06/24 Срд 14:29:34 #357 №781446 
>>781443
> nvme → x4 рейзер
У меня через NVME не завелась псина, карта просто не видится. Там не всё так просто, похоже, нужна особая мать.
Аноним 12/06/24 Срд 14:31:29 #358 №781450 
>>781340
Проиграл.
>>781365
> А для 3090 это всё неактуально разве?
Ну типа пару можно разместить в обычном корпусе, там 2.5 слота у большинства кроме редких экземпляров, не 4 слота как у 4090. Подойдет большинство корпусов и большинство матплат, в крайнем случае можно повесить одну на заднюю стенку корпуса утянув райзером. Для четырех карточек это уже заведомо корч, плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт.
> про отсутствие тряски за отвал памяти
Есть такое, но аргумент преувеличен на фоне общих поломок что могут возникнуть в карточках и обслуживании.
> но если ты наносек, для тебя этот разговор в принципе неактуален
Да хоть кто, альтернатив 3090 сейчас нет. 4070ти супер стоит в 2 (1.5 без гарантии) раза дороже и имеет меньше памяти, особенно актуально для не-ллм где так просто не разбить на части. 4090 сейчас одна стоит как целый риг.
> А 3060 - это сел и поехал
Сначала собираешь телегу, потом в нее впрягаешься и сам тянешь, типа такого. Слишком медленное оно, проигрывает по прайс-перфомансу, проигрывает по удобству и возможностям, а из плюсов только то что они менее горячие.
>>781396
> какой квант влезет и сколько останется на контекст
4.65-5, в районе 12-16к контекста. Плюс коммандера только лоботомит.
>>781443
> через X1 со спиленным боком
Главное не делай это всратым шлейфом, он буквально может оплавится из-за тока питания, а карта будет глючить.
Аноним 12/06/24 Срд 14:59:14 #359 №781507 
>>781244
>Старая версия лаунчера или битый конфиг. Обнови убабугу и перекачай модель, заодно диск на ошибки проверь.
Я через колаб запускаю.
Там всё последней версии загружается, да и диск точно не влияет.
Аноним 12/06/24 Срд 15:07:56 #360 №781522 
>>781507
Ну да, значит это отпадает, что-то еще сломалось. Попробуй там же фп16 веса запустить, той же экслламой, только выставляй минимальный контекст чтобы в 16 гигов влезло, может получится.
Ну и hf обертка крайне желательна.
Аноним 12/06/24 Срд 15:48:52 #361 №781592 
Использую koboldcpp_rocm. Со временем где-то сообщений через 15-20, скорость заметно падает. С чем может быть связана? Или это из-за накопления прошлых сообщений?
Аноним 12/06/24 Срд 15:55:19 #362 №781600 
>>781440
Кстати да, звучит хорошо, хотя подойдёт, конечно, не всем.

>>781450
>Ну типа пару можно разместить в обычном корпусе, там 2.5 слота у большинства кроме редких экземпляров
Да, согласен, перепутал с 4090. Но 2х3090 всё равно разместить в обычном, не каком-то специально подобранном корпусе, довольно проблематично (чтобы они не задыхались при этом).

>плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт.
Так 2х3090 будут потреблять ещё больше, разве нет? И о каком доп. питании слотов речь?

>Есть такое, но аргумент преувеличен
Я бы сказал, что в случае с ллм он наоборот, особенно актуален из-за постоянных перепадов.

>Слишком медленное оно, проигрывает по прайс-перфомансу, проигрывает по удобству и возможностям, а из плюсов только то что они менее горячие.
Ты точно с теслой сравниваешь?
Аноним 12/06/24 Срд 15:56:45 #363 №781604 
>>781450
Для четырех карточек это уже заведомо корч, плюс нужно будет задуматься о доп питанием слотов, ведь с них будет тянуться под 300вт.
Вот кстати может кто разбирается. У меня на плате есть разъём для доп.питания PCIe слотов. Оно надо, если видеокарты имеют свои разъёмы питания? Или хватит им?
Аноним 12/06/24 Срд 16:02:35 #364 №781610 
>>781600
>И о каком доп. питании слотов речь?
Есть такие платы, на которых слотов много. И вот это доп. питание - по идее оно нужно, если карта от PCIe-слота питается. Или две карты, или три. А если доп. питание есть, то вроде и не нужно. Хз.
Аноним 12/06/24 Срд 16:11:32 #365 №781633 
power.png
>>781610
>А если доп. питание есть, то вроде и не нужно. Хз.
Карта по стандарту может хавать из psi-e до 75 ватт, если не ошибаюсь. У красных были беды, что карта пыталась жрать оттуда в разы больше и комплектуха отрыгивала, потом биосом чинили. В любом случае, карты будут жрать энергию и через слот в том числе.
Аноним 12/06/24 Срд 16:22:53 #366 №781652 
>>781600
>Так 2х3090 будут потреблять ещё больше, разве нет?
Всё, я понял в чём затуп. Типа 2х3090 потребляют 2хPCI-E, 4x3060 потребляют 4xPCI-E. Справедливо, но основной тейк про общий жор 2х3090 остаётся в силе.
Аноним 12/06/24 Срд 16:24:14 #367 №781656 
Вообще конечно остро не хватает реальных тестов подобных конфигураций, типа 4х3060, 2х3090, 3х4060ти и т.д.
Аноним 12/06/24 Срд 16:30:30 #368 №781674 
>>781592
Контекст смотри, ага
Аноним 12/06/24 Срд 17:19:53 #369 №781814 
>>780478
Regex же вроде не влияет на переводы, если не ошибаюсь.
Аноним 12/06/24 Срд 17:25:36 #370 №781834 
>>781633
>В любом случае, карты будут жрать энергию и через слот в том числе.
Зависит от схемотехники. Некоторые жрут оттуда только на вывод надписи "Подключи доп питание, пидор".
Ну и эти 75 ватт не из космоса берутся, и на платах с кучей разъёмов есть свои доп рядом со слотами, лол.
Аноним 12/06/24 Срд 17:51:36 #371 №781948 
>>781600
> Но 2х3090 всё равно разместить в обычном, не каком-то специально подобранном корпусе, довольно проблематично (чтобы они не задыхались при этом)
Ну типа обычно в материнках промежуток 2 слота между х16, считай у тебя ровно там места под 2 карточки. Да, им будет жарко, также могут быть проблемы если самый верхний слот смещен на 1-2 вниз, тогда влезет только в корпус где есть дополнительные окошки под девайсы в слотах. Им будет жарко, но разместить все еще возможно, в ллм прогреваться даже не будут ибо там максимум половина тдп.
> Так 2х3090 будут потреблять ещё больше, разве нет?
Они будут потреблять по доп питанию, мощные карточки с матплаты обычно вообще ерунду сосут. А тут у тебя как раз по 75вт каждая грузить будет, особенно на простых моделях где только 1 6 пин доп питания.
> что в случае с ллм он наоборот, особенно актуален из-за постоянных перепадов
Да ерунда, если хостить и гонять с переменной нагрузкой 24/7/365 то через несколько лет может и как-то скажется. А если для себя - карточка тебя переживет. Да и память прогревается медленно, это для чипа еще как-то актуально, плюс тут они вообще холодные стоять будут ибо нагрузка всегда низкая.
> Ты точно с теслой сравниваешь?
С парой 3090. Если теслы дешевые - то и им проиграет, ибо врядли выйдет сильно быстрее.
>>781604
По спецификации там до 75вт питания, можешь открыть gpu-z или любую программу для мониторинга и посмотреть сколько видеокарта жрет по слотам доп питания и с матплаты. Чем всратее карточка тем больше вероятность что будет использовать по полной, на топпах как правило основное питание чипа оттуда не берется.
На 1 карточку - похуй, на 2 - можно задуматься, если больше - оче желательно, иначе может поплавиться 26пиновый разъем и провода в нем.
Аноним 12/06/24 Срд 18:05:04 #372 №781998 
>>781948
>26пиновый разъем
20+4 же.
Душнила
Аноним 12/06/24 Срд 19:58:25 #373 №782391 
Сколько токенов/сек будут давать 2 зиона на лламе 400b, когда она выйдет? Думаю собраться на 512гб оперы, выйдет всего в 50к где-то.
Аноним 12/06/24 Срд 20:02:17 #374 №782397 
>>782391
0.05
Аноним 12/06/24 Срд 20:08:25 #375 №782411 
1718212095737.jpg
Чуть больше чем за неделю кончились все фетиши для кума... Как жить теперь...
Аноним 12/06/24 Срд 20:10:32 #376 №782413 
>>782411
Все, которые были у тебя, или все вообще? Во второе не верю, ты ведь даже не кумал на сырнявые карточки.
Аноним 12/06/24 Срд 20:23:18 #377 №782438 
>>782413
Которые у меня, разумеется. Смысл в других, если они не заводят?
Аноним 12/06/24 Срд 20:24:50 #378 №782439 
>>781260
Ну, сколько там, 2-3 раза по скорости?
Теслы уже маячат невдалеке за вдвое такой же прайс с вдвое большим объемом.
Но, на вкус и цвет, конечно, ниче против не имею. И правда — новые с гарантией 3 штуки по цене 1 бу.

Про 4060ти писали, мол, медленно внезапно. Сильно.
Но тут хз.

Да, я маньяк, сижу с русиком, кекеке.
Ваще редко запускаю, пох.

>>781291
Жора там 110 ватт без потерь.
Но актуальность так себе, аха.

>>781365
Ну, плат с двумя слотами, разнесенными далече явно больше, чем плат с 7-8-9 слотами.
Нормальный бп. Ну камон, он явно стоит дешевле чего угодно из. 20к, чи скока там.

>>782391
Ну давай посчитаем.
Предположим, что мы не упираемся в процессор, потому что нам хватает.
Мы точно упираемся в память.
Допустим ты берешь пиздатую 8-канальную материнку.
И там частота, ну не знаю… 2400?
3200 2 = 6400 = 50мбит
2400
8 = 19200 = 150 мбит
Втрое выше, ок.
70б размером 40 гигов дает 0,7 токен/сек
Т.е., 2,1 токен/сек на зеонах.
Теперь мы считаем 400/70… Это 230 гигов и 5,7 раза больше.
1. Хватит и 256 гига для q4_K_M какого-нибудь. Вплотную.
2. Скорость будет 0,36 токена/сек.

Приблизительно, плюс-минус. Так было у первой лламы 65б (даже чуть медленнее) на первых версиях софта.
Но, это очень медленно.
Может быть она и будет умнее-логичнее.
Но хули толку, когда она будет такой пиздец медленной.

Просто прикинь, в среднем, на простой вопрос она будет отвечать… допустим 100 токенами — это 5 минут.
А разницы по уму будет не так чтобы много, скорее всего.
Аноним 12/06/24 Срд 20:31:31 #379 №782448 
>>781656
Тестов пары 3090 в избытке, 13-17т/с там на 70б, если погнать врам или взять квант поменьше то можно и 20 выжать. Остальных нет ввиду их нерациональности.
Перфоманс скейлится почти линейно, можешь добавить штраф 5-10% за каждую карточку (или 80% на обработку промта если юзается жора). В итоге выйдет на мелких картах 3-7 токена в секунду, что довольно грустно на фоне общих затрат.
>>781652
> но основной тейк про общий жор 2х3090 остаётся в силе
Там будет короткий всплеск потребления в момент обработки промта а далее - суммарное тдп будет не больше чем у одной видеокарты. И перформят они пропорционально быстрее.
>>782411
Если кончились - значит это не фетиши и так, с правильными будет всегда на 11 часов.
>>782439
И тут numa проводит тебе хуйцом по губам, множа на ноль твои расчеты с 8 каналами, то есть будет еще хуже.
На фалконе 180 на числодробилке было в районе пары т/с генерация и оче оче долгая обработка промта, тут все еще хуже окажется.
Аноним 12/06/24 Срд 20:34:32 #380 №782457 
>>782448
> 13-17т/с там на 70б, если погнать врам или взять квант поменьше то можно и 20 выжать
Поменьше, 15 т/с потолок на EXL2 c 4 bpw. 20 только на 4090 возьмутся.
Аноним 12/06/24 Срд 20:38:50 #381 №782468 
>>782439
>Про 4060ти писали, мол, медленно внезапно.
>128 бит
>288 Гбайт/сек
Ещё бы не медленно, она по пропускной у теслы сосёт.
Аноним 12/06/24 Срд 20:53:31 #382 №782527 
1.png
>>782457
Вставлю свои 5 копеек. При небольшом разгоне памяти +750, на трех карточках(RTX 3090) с llama-3 70В 6.5bpw exl2, получаю ~14т/с (без разгона на ~0.5-0.7 токена меньше). Насколько быстрее будет 4 квант, можешь представить сам.
Аноним 12/06/24 Срд 20:55:45 #383 №782534 
>>782411
Да нихуя они не кончились, шлюха. По новой прогоняй старые сценарии, чуть изменяя и добавляя события и тереби писю. Я один и тот же сценарий 3 раза прогнал и каждый раз дрочил, правда ебаные нейронки нихуя пока еще не понимают что я хочу на самом деле.
Аноним 12/06/24 Срд 20:56:38 #384 №782536 
>>782527
> Насколько быстрее будет 4 квант, можешь представить сам.
Не могу, две 4090 едут в 20 т/с. Куда ты собрался на 3090 быстрее разгоняться.
Аноним 12/06/24 Срд 20:57:39 #385 №782537 
>>782457
Как раз именно на 4 битах можно взять больше, особенно если выключить стриминг и использовать стоковые семплеры а не HF обертку убы, 4090 столько выжимают на ~5 битном кванте. Память хорошо гонится и это дает ощутимый прирост.
Аноним 12/06/24 Срд 21:01:33 #386 №782541 
Как бороться с щелчками звука при 2+ картах? Выключаю в диспетчере устройств все кроме одной - нет щелчков, с двумя сразу щелкает. Win11, внешний ЦАП, в гугле тысяча подобных жалоб на куртку и щелчки правда там симптомы другие, не от двух карт, но нигде нет нормального решения. Вангую куртка в драйвер насрал, но как совладать с этим?
Аноним 12/06/24 Срд 21:03:30 #387 №782548 
изображение.png
>>782541
Попробуй вырубить аудиоустройства от куртки в диспетчере устройств. Включи вид по подключению и вырубай те, которые висят на одном рут порту с видяхой.
Аноним 12/06/24 Срд 21:03:31 #388 №782549 
>>782537
> 4090 столько выжимают
У меня у самого две 3090, даже близко нет 20 при 4 кванте, 15 без контекста и опускание к 12-13 на полном. Так что не пизди. Выключение обёртки даёт половину т/с, на грани погрешности.
Аноним 12/06/24 Срд 21:10:39 #389 №782563 
>>782448
Да ниче не проводит, какая разница.
С контекстом очевидно, скорость и так террибле.
Какая разница, кмк, такое не юзабельно.
Разве что запускать суперсложную задачу и уходить пить чай на несколько часов. Но сможет ли эта модель решать суперсложные задачи — большой вопрос.
ИМХО, 400б запускать дома — это буквально ради интереса посмотреть, но не для реального использования.
Если у тебя настолько крутые задачи, что 70б не справляются — вероятно ты и получаешь столько, что тратится на зеон ле фу, и арендовать карты под инференс тебе проще. Чо там, 4хА100 хватит. =)
А то и прикупить можешь что-нибудь, собрав риг.

Короче, я даже на такой скорости считаю ее весьма юзлесс.
Аноним 12/06/24 Срд 21:12:05 #390 №782566 
1718215915937.jpg
В чём стоит ужаться при выборе модели, если по железу едва влезаю в 30+?
Сначала размер, потом контекст, потом квантование, где q>=4?
Скажем, насколько Fimbulvetr-11B q8 8к контекста будет хуже, чем aya-23-35B q4 4к контекста? Так, можете примерно прочувствовать?
Аноним 12/06/24 Срд 21:14:24 #391 №782569 
>>782541
Какие еще щелчки? Все норм, у тебя наверно что-то с питанием на плате, или может амудэ? Правда тут внешний цап по оптике, хз что там во встройке.
>>782549
Значит у тебя хлеб вместо процессора, какие-то аппаратные проблемы или что-то еще, скидывал же раньше и те и те. Офк это с малой обработкой контекста/кэшем, если делать полную то будет меньше в зависимости от длины ответа. Лень качать 4.0 квант и карточки заняты, как-нибудь при случае прогоню и заскриню.
>>782563
> запускать суперсложную задачу и уходить пить чай на несколько часов
As a responsive AI model, I can not...
Ну а если серьезно то дешевле индуса, абузящего гопоту нанять, чем катать 400б, хз какие там задачи.
>>782566
> насколько Fimbulvetr-11B q8 8к контекста будет хуже, чем aya-23-35B q4 4к контекста
По качеству ответов небо и земля, а в 4к контекста ужиматься будет тяжело.
Аноним 12/06/24 Срд 21:20:42 #392 №782583 
>>782569
> Лень
Так бы и сказал, что пиздишь. 20 т/с снимаются с одной в 2.5 bpw. Но никак не с двух.
Аноним 12/06/24 Срд 21:24:30 #393 №782593 
>>782583
Бля чел, сам ты пиздабол у которого карточек нет, потому и втираешь дичь. Все выше написано уже.
Аноним 12/06/24 Срд 21:25:33 #394 №782597 
image.png
>>782569
> As a responsive AI model, I can not...
Аноним 12/06/24 Срд 21:27:45 #395 №782604 
>>782593
> написано
Пиздежа беспруфного.
Аноним 12/06/24 Срд 21:45:14 #396 №782661 
>>782604
Ты сам буспруфный чухан, выше скрин для жирного кванта с типичной скоростью, она линейно перейдет в значение больше 15 за которые ты втираешь на 4 битном кванте.
Аноним 12/06/24 Срд 21:49:26 #397 №782669 
1.png
>>782536
Я специально для таких как ты скрин приложил, и это блядь на 3х картах, блядь. Отключение обертки мне дало 1.5 т/с (зион в однопотоке не оч.).
>>782549
>>782583
>У меня у самого две 3090, даже близко нет 20 при 4 кванте, 15 без контекста и опускание к 12-13 на полном.
Как выше отметили пиздобол или долбоеб, у меня с "хлебушком" вместо проца ~19т/с.
Аноним 12/06/24 Срд 23:12:49 #398 №782884 
В свежем Кобольде (ну и в лламе конечно) появилась фишка - 4-битный KV-кэш. Я слабо разбираюсь, но слышал, что это была одна их ключевых фишек экслламы. По идее это должно ускорить обработку промпта или как? Кто пробовал?
Аноним 12/06/24 Срд 23:16:08 #399 №782891 
>>782884
Это уменьшит требование к памяти, скорость может даже просесть, если учесть, что со сжатым кешем не работает флеш аттеншен.
Аноним 12/06/24 Срд 23:44:54 #400 №782950 
>>782541
Это проблема звукового драйвера винды, решения нет.
Аноним 13/06/24 Чтв 00:01:53 #401 №782989 
>>782950
Я уже нашёл пидорасину, ломающую звук - это Afterburner. Без него всё заебись, с ним идут щелчки. Вангую это как-то связанно с тем что в нём работа с несколькими картами реализована через очко и он что-то всерает своим говнокодом.
Аноним 13/06/24 Чтв 00:43:24 #402 №783070 
>>782891
Автор пишет, что ContextShift не работает, а flash attention даже необходима:
Note that quantized KV cache is only available if --flashattention is used, and is NOT compatible with Context Shifting, which will be disabled if --quantkv is used.
Аноним 13/06/24 Чтв 01:02:05 #403 №783092 
>>783070
А, да, точно, не та ускорялка. Даже не знаю, что важнее из этого.
Аноним 13/06/24 Чтв 01:08:51 #404 №783104 
>>782989
Значит мы про разные щелчки говорим.
Аноним 13/06/24 Чтв 01:39:27 #405 №783131 
>>783092
Ну попробовать надо - на новых картах, на старых картах. Что это даёт-то вообще? Может и правда почти сразу отвечать будет даже без контекст шифта. И с большим контекстом должно стать попроще.
Аноним 13/06/24 Чтв 07:37:41 #406 №783448 
Аноны, тут Яндекс свой YaFSDP подогнал!
Ай да переобучать третью Лламу на на датасете Пигмы и 2 Теслах!
https://habr.com/ru/companies/yandex/articles/817509/
Аноним 13/06/24 Чтв 10:18:33 #407 №783533 
>>783104
Я говорил про рандомные щелчки раз в несколько секунд как при включении ЦАПа, как будто на мгновение сигнал в потолок бьёт.
>>783448
Выглядит как хуйня, куда нам эти +3% на 64 гпу.
Аноним 13/06/24 Чтв 10:59:20 #408 №783582 
>>783131
Пишет же, что ФА с КонтекстШифтом не работает. Ты и так КонтекстШифт вырубаешь, значит кэш уже без потерь включается.
Аноним 13/06/24 Чтв 15:33:40 #409 №784072 
Аноны, на чем кумить можно?
Аноним 13/06/24 Чтв 16:09:29 #410 №784141 
>>784072
Я сидя на стуле кумлю, но можно и на кровати.
Аноним 13/06/24 Чтв 16:26:17 #411 №784155 
>>784141
всегда на кровати кумил, так как рядом с кроватью монитор и клаву на кровать с мышкой ложу, на стуле кажется неудобно
Аноним 13/06/24 Чтв 17:49:20 #412 №784281 
.png
Есть ли жизнь..?
Аноним 13/06/24 Чтв 17:51:58 #413 №784285 
>>784072
В удобной позиции минимизировав отвлекающие факторы.
>>784281
Если общий счетчик - сойдет. Если только генерация и на пост 60 секунд - пиздец.
Аноним 13/06/24 Чтв 17:54:19 #414 №784292 
>>784155
На кровати вероятность френдли фаера выше, если увлечься.
Аноним 13/06/24 Чтв 17:58:35 #415 №784300 
>>784281
Да, норм, жить можно. Чуть ниже комфортной грани, но ниче.
Ну и от размера модели зависит, офк.
Аноним 13/06/24 Чтв 18:20:43 #416 №784340 
>>784300
Там всего лишь 70B в четвёртом кванте.

>>784285
Ну да, пост где то с минуту, но там простыни.
Аноним 13/06/24 Чтв 18:24:18 #417 №784344 
Потестировал qwen2 72b и он реально лучшее лламы 3 70б, чего не нравится реддитовской сое? Что он китайский?
Аноним 13/06/24 Чтв 18:26:43 #418 №784349 
>>784344
А на кум как?
Аноним 13/06/24 Чтв 18:27:57 #419 №784351 
>>784349
На кум - хз
Аноним 13/06/24 Чтв 18:28:41 #420 №784353 
>>784351
Так проверь, анон!
Аноним 13/06/24 Чтв 18:30:12 #421 №784355 
>>784353
Та я ж не кумлю, качай расцензуренные версии да проверяй. У меня вообще вместо компа тостер, мне очень нудобно.
Аноним 13/06/24 Чтв 18:32:34 #422 №784360 
>>784355
А там есть расцензуренный квен чтоль?
Аноним 13/06/24 Чтв 18:35:31 #423 №784366 
>>784360
https://huggingface.co/cognitivecomputations/dolphin-2.9.2-qwen2-72b

Dolphin is uncensored.
Аноним 13/06/24 Чтв 18:36:45 #424 №784369 
>>784366
Оке, ща скочаю, пасибо
Аноним 13/06/24 Чтв 19:41:20 #425 №784505 
Еще одна анцензоред

https://huggingface.co/migtissera/Tess-v2.5-Qwen2-72B
Аноним 13/06/24 Чтв 19:44:40 #426 №784511 
.png
>>784366
Че то ооба не подсасывает настройки для дельфина. А вручную хуй знает че ставить. И нахрена я кочал...
Аноним 13/06/24 Чтв 20:02:33 #427 №784551 
> IQ4_XS.gguf

Кста, а что за новые обозначения квантов?
Аноним 13/06/24 Чтв 20:03:22 #428 №784554 
>>784366
На месте там соя. Всё так же соевит про boundaries, ещё и инструкцию про <text> очень редко выполняет, в отличии от ламы.
Аноним 13/06/24 Чтв 20:04:17 #429 №784555 
>>784505
Слишком поломанный, иногда даже лупится, вообще по сравнению с оригиналом очень неадекватен.
Аноним 13/06/24 Чтв 20:07:04 #430 №784559 
1692028106610.png
>>784511
Убабуга серит, можешь эту строчку сломать и будет работать.
Аноним 13/06/24 Чтв 20:08:19 #431 №784563 
>>784559
А оно не наебнётся окончательно?
Аноним 13/06/24 Чтв 20:09:38 #432 №784565 
>>784511
try:
bos_token = metadata['tokenizer.ggml.tokens'][metadata['tokenizer.ggml.bos_token_id']]
except KeyError:
bos_token = eos_token

исправь в models_settings.py
Аноним 13/06/24 Чтв 20:42:06 #433 №784625 
.png
.png
>>784565
Да как её исправлять то блэд?
Аноним 13/06/24 Чтв 20:42:45 #434 №784627 
изображение.png
>>784551
https://2ch-ai.gitgud.site/wiki/llama/
Аноним 13/06/24 Чтв 20:43:41 #435 №784630 
>>784625
try: у тебя где?
Аноним 13/06/24 Чтв 20:46:17 #436 №784635 
>>784627
Какой добаёб писал, S должна быть между XS и M.
Аноним 13/06/24 Чтв 20:47:04 #437 №784637 
>>784630
А оно точно надо? Выглядит "мол пропробуй это: говнокод"
Аноним 13/06/24 Чтв 20:48:09 #438 №784641 
>>784637
Точно, это же инструкция питона
Аноним 13/06/24 Чтв 20:50:41 #439 №784650 
.png
.png
>>784641
Тоже не работает, че ему надо? Че там с синтаксисом?
Аноним 13/06/24 Чтв 20:54:27 #440 №784660 
Господа, а как скачать Llama 2 или Llama 3? Есть ли зеркала без запросов?
Пытался через hugginface, но мои запросы не одобрили.
Аноним 13/06/24 Чтв 20:54:39 #441 №784661 
>>784650
Надо еще строки подформатировать, особенность питона

try:
bos_token = metadata['tokenizer.ggml.tokens'][metadata['tokenizer.ggml.bos_token_id']]
except KeyError:
bos_token = eos_token


А то у тебя try не над except
Аноним 13/06/24 Чтв 20:56:07 #442 №784666 
.png
.png
Вот так заработало.
Аноним 13/06/24 Чтв 20:56:48 #443 №784668 
>>784661
bos_token = metadata['tokenizer.ggml.tokens'][metadata['tokenizer.ggml.bos_token_id']]
bos_token = eos_token

эти стороки тоже надо добавить пробелами чтоб они стали дальше от начала текста вглубь, я обычно добавляю 4 пробела.
Аноним 13/06/24 Чтв 20:58:00 #444 №784672 
>>784666
можно и так
Аноним 13/06/24 Чтв 20:58:19 #445 №784674 
>>784661
Да я чет немного по-другому сделал в в пару строк всё.

А альпака пресет подойдет в таверне для дельфина?
Аноним 13/06/24 Чтв 20:59:36 #446 №784679 
>>784674
для этого дельфина пресет нужен qwen2
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
Аноним 13/06/24 Чтв 21:01:30 #447 №784683 
.png
>>784679
Это в Story String же?
Аноним 13/06/24 Чтв 21:10:28 #448 №784702 
ImagesOpenOrcaLlama2OobaboogaChatInstructionTemplate.png
>>784683
Хз как там, вот че нашел
Аноним 13/06/24 Чтв 21:24:44 #449 №784749 
>>784366
Дельфин всегда был критически тупой. Стоит ли рисковать?

>>784660
https://huggingface.co/NousResearch/Meta-Llama-3-70B-Instruct
Аноним 13/06/24 Чтв 21:25:09 #450 №784750 
.png
.png
>>784702
Нироботоет нихуя!
Аноним 13/06/24 Чтв 21:28:41 #451 №784761 
>>784750
Ну очевидно что с инструкшон темплейт у тебя какая-то каша. Я не спец убебуге, точнее, я ее в первый раз в жизни вижу.
Аноним 13/06/24 Чтв 21:35:43 #452 №784778 
.png
>>784761
Как скопировал так и вставил. Я же не виноват что у них в примерах какой то калыч.
Поставил чатмл - вроде заработало в огабоге. В таверне с чат млом не работало - ебал рот этого китайского говна.
Аноним 13/06/24 Чтв 21:36:56 #453 №784782 
>>784635
Ненавижу такие формы записи размеров одежды (и квантов).
Аноним 13/06/24 Чтв 21:44:00 #454 №784788 
.png
Крч, таки дельфин стартанул в таверне - но пишет отвратительно.
Его или шелушить настройками, чтобы было хорошо или сразу использовать нормальную модель по типу Мику.
Аноним 13/06/24 Чтв 21:44:12 #455 №784789 
>>784366
тестил, залупится на ггуфе. обычный квен лучшЕе.
Аноним 13/06/24 Чтв 23:08:32 #456 №784948 
Скачал популярную легендарную Noromaid 20В q5, взял пресеты со страницы модели, уже расчехлился предвкушая, но в сравнении с другими 7-11В моделями сетка вообще какое-то лютое говно.
Не следует карточке, говорит за юзера, зачастую не реагирует на системный промпт, иногда высирает маняфанфик под 700 токенов в три присеста в которой юзер с персонажем поебалися и жили долго и счастливо первой же генерацией. Пиздец какой-то.
Может это из-за 8000 токенов при n_ctx_train 4000?......
Аноним 13/06/24 Чтв 23:13:38 #457 №784958 
1673640128834.webm
>>784788
> нормальную модель по типу Мику
Аноним 13/06/24 Чтв 23:15:01 #458 №784960 
>>784958
Хорошо.
Чем плоха мику? Ну я естестно имею виду рп.
Аноним 13/06/24 Чтв 23:18:33 #459 №784966 
>>784960
Тем что тупая и любит галлюцинировать. Никто сейчас мику не использует для рп.
Аноним 13/06/24 Чтв 23:21:46 #460 №784973 
586585786.PNG
>She leaned forward a bit so that she could whisper into Anon's ears
>I promise I won't bite… unless you ask nicely
Как заебала эта хуйня.
Аноним 13/06/24 Чтв 23:23:12 #461 №784981 
>>784966
Что используют то, может просветишь?
Аноним 13/06/24 Чтв 23:25:19 #462 №784984 
>>784966
> тупая
Ну может не самая умная по логике, но умнее командера (не того который огромный).
> любит галлюцинировать
Ну вот кстати нет. Она любит расходиться на простыни это да, но откровенную шизу несет меньше чем тот же командер или юй.
>Никто сейчас м
Милионы мух это конечно хорошо, но тогда покажи что будет лучше Мику. Что там сейчас используют для рп чтобы было заебись?
Аноним 13/06/24 Чтв 23:25:22 #463 №784985 
>>784981
Смауг или Хиггс. Можно командира 104В, если хочется извращений.
Аноним 13/06/24 Чтв 23:31:14 #464 №784994 
>>784985
А со ссылками на Обниморду? А то я не слежу за трендами.
Аноним 13/06/24 Чтв 23:32:39 #465 №784997 
>>784985
>Смауг
В чем его фишка? Чем он выделяется от того же командира? Пробовал его, но не увидел особой разницы между аналогичными моделями по размеру.
Аноним 13/06/24 Чтв 23:40:18 #466 №785009 
Блять, какого хуя rope_freq_base остается от последней выбранной модели у Moistral?
Аноним 13/06/24 Чтв 23:40:46 #467 №785010 
firefoxTN0HCa6lVC.mp4
отклеилось
Аноним 13/06/24 Чтв 23:42:50 #468 №785016 
Ну и да САМАЯ БОЛЬШАЯ проблема Мику в том, что она не умеет отыгрывать цундере.
А какая вообще модель умеет?
Аноним 13/06/24 Чтв 23:49:25 #469 №785022 
>>785016
Командир+ нормально отыгрывает, может еще от карточки зависит.
Аноним 14/06/24 Птн 00:39:22 #470 №785083 
Зачем так много моделей?
Аноним 14/06/24 Птн 00:55:45 #471 №785096 
https://www.youtube.com/watch?v=v31kb_GARY0
Аноним 14/06/24 Птн 00:58:38 #472 №785100 
>>785096
Эх, вот сейчас бы обучить клоду датасетом с пигмы, ммм. Всего-то каких-то N к$ за неповторимый я тебя ебу экспириенс, парень в верном направлении двигается.
Аноним 14/06/24 Птн 01:08:56 #473 №785109 
Что-то мне не нравится что жпт4о имеет такой отрыв от остальных сеток, когда уже другие подтянутся?
Аноним 14/06/24 Птн 01:12:01 #474 №785116 
>>785109
Произошел отрицательный отрыв, скоро и обратный рост увидим. Ничего, вот сейчас как соберем с чмони датасет, да как натреним остальные сетки!


>>785096
На самом деле с точки зрения обучающего контента он молодец и красавчик, просто и понятно объясняет, показывает, дает примеры и делает. Практической значимости тут - надрочка на тест, не более, но для понимания штука крутая.
Аноним 14/06/24 Птн 01:18:55 #475 №785126 
>>785116
Хотя, да, подловить жпт4о оказалось не так и уж трудно. Мда, не думал я, что они еще туповатые настолько. Архитектуру есть куда усовершенствовать.


https://www.youtube.com/watch?v=apKE_Htn_GQ
Аноним 14/06/24 Птн 01:38:49 #476 №785150 
>>784973
Частенько встречал подобное на Llama-3-Lumimaid-70B.
Аноним 14/06/24 Птн 01:43:40 #477 №785158 
>>785126
Крестьянин перевезет волка через реку следующим образом:

Сначала крестьянин перевезет волка на другую сторону реки.
Затем крестьянин вернется обратно на лодке.
Таким образом, крестьянин перевезет волка через реку, совершив два переправы - одну с волком на другую сторону и одну обратно без груза.

Хотя хз, где он там увидел этот бред, все нормально решается.
Аноним 14/06/24 Птн 03:42:35 #478 №785324 
>>785116
>>785109
Вы дауны что ли? Омнипараша хуже последней турбы да еще и в плане вариативности сосет. Вам это господин из соседнего треда с неограниченным доступом к апи пишет. Так что даже если оно в вашем чатгпт и стало лучше, то точно не из-за базовой сетки
Аноним 14/06/24 Птн 04:14:33 #479 №785342 
1668939092791.png
1675673218109.png
1623794520834.png
1677156513706.png
Ладно, посмотрели.
Аноним 14/06/24 Птн 04:15:04 #480 №785343 
1630214690778.png
1698610445716.png
Аноним 14/06/24 Птн 06:16:48 #481 №785389 
Аноны, запускаю Higgs-Llama-3-70B.gguf, а она мне:

error loading model: error loading model vocabulary: unknown pre-tokenizer type: 'smaug-bpe'

Что за фигня?!
Аноним 14/06/24 Птн 13:06:54 #482 №785707 
>>785324
Ты настолько умен что без таблички "сарказм" не можешь понять? За чмоню тут только шизы и неофиты топят, она очень тупая, зато быстрая.
> с неограниченным доступом к апи
Ох, уважаемый человек, наверно много денег на это тратишь? Уже начали проникаться трепетом.
Чел в этом треде, наверно, у большинства есть апи клозедов и коктропиков, а некоторые сгноили на специфичные датасеты больше ключей чем кумит кончай тред за пол года
Аноним 14/06/24 Птн 13:13:12 #483 №785719 
>>785016
Llama-3 отыгрывает. Даже 8В может.
Аноним 14/06/24 Птн 13:20:51 #484 №785732 
>>785707
>Чел в этом треде, наверно, у большинства есть апи клозедов и коктропиков
Откуда такой вывод?
Аноним 14/06/24 Птн 13:43:56 #485 №785786 
Я помню тут кто-то имел карточку ассистента с эдаким внутренним мыслительным процессом, как оно по итогу, работает? И скинь пожалуйста её если ты ещё тут.
Аноним 14/06/24 Птн 13:57:24 #486 №785814 
>>785719
Лама три лупится по кд, к сожалению.
Кста, есть там уже нормальные её файнтюны, анон?
Аноним 14/06/24 Птн 14:32:41 #487 №785904 
>>785814
Проблему лупов на ламе три уже давно решили. Нужно просто нормальные настройки семплера поставить, типа пресета min-p.

>Кста, есть там уже нормальные её файнтюны, анон?
Есть

мимо
Аноним 14/06/24 Птн 15:20:55 #488 №785963 
2.png
17183633975430.png
Бля, не в тот тред запостил.
Пытаюсь сделать франкенмерж из третьей лламы и она, блядь, ломается, как сучка. Не могу подобрать адекватных вариантов.
Франкенмержи кто-то находил на третьей лламе? Посмотреть бы настройки. Чередование слоёв и пришивание к жопе работает экстремально плохо, хотя на второй лламе чередование работало очень хорошо.
Аноним 14/06/24 Птн 15:48:24 #489 №785995 
>>785963
с чем ты смешиваешь третью? если со второй - это не будет работать.
Аноним 14/06/24 Птн 16:09:51 #490 №786019 
>>785995
У них ширина слоёв разная, так что со второй я смешивать смысла не вижу. С третьей и смешиваю. Но получается шиза ёбаная.
Аноним 14/06/24 Птн 16:18:13 #491 №786028 
>>786019
смешивай методом ties или dare_ties. чередованием слоев (особенно если чередовать через короткие промежутки, я про 70b) вряд ли что-то хорошее получится. не рекомендую трогать первые слои и последние, можно легко сломать модель.
но мой опыт основывается только в смешивании производных второй лламы, третью не пробовал.
Аноним 14/06/24 Птн 18:41:09 #492 №786226 
.png
И чего этот ваш хиггс не грузится? Опять огабога говна в жопу заливает?
Аноним 14/06/24 Птн 19:44:24 #493 №786276 
>>786028
>ties или dare_ties
Так я франкенштейна делал через дублирование слоёв. Тюнов всё равно нет, чтобы с чем-то смешивать.
>чередованием слоев (особенно если чередовать через короткие промежутки
На второй было норм буквально через один слои дублировать.
Аноним 14/06/24 Птн 20:25:06 #494 №786305 
https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/

Эй, там слон! Слона по улице ведут!
Аноним 14/06/24 Птн 20:26:54 #495 №786306 
>>786305
https://huggingface.co/nvidia/Nemotron-4-340B-Base
https://huggingface.co/nvidia/Nemotron-4-340B-Instruct
https://huggingface.co/nvidia/Nemotron-4-340B-Reward
Запускайте, тестите
Аноним 14/06/24 Птн 20:36:28 #496 №786322 
Как выпилить одну llama.cpp из виртуального окружения и заместо неё установить другую зная её "хеш" или че то такое?
Аноним 14/06/24 Птн 20:42:56 #497 №786331 
>>786306
Ага, можете заодно и эту скачать и проверить https://github.com/togethercomputer/MoA/
Аноним 14/06/24 Птн 21:37:40 #498 №786430 
.png
Ниработает нихуя РЯЯЯЯЯЯ
Аноним 14/06/24 Птн 22:03:58 #499 №786459 
>>786430
ты скачал ггуф двумя файлами и потом их объединил?
Аноним 14/06/24 Птн 22:09:04 #500 №786465 
>>785732
У меня попены есть все, кроме 32к.
>>786306
>Required Hardware
>BF16 Inference:
>8x H200
Ябать там требований.
ПЕРЕКАТ Аноним OP 14/06/24 Птн 22:12:28 #501 №786471 
ПЕРЕКАТ
Хули так медленно тред наполняете? Всё, умерла тема локалок?


>>786469 (OP)

ПЕРЕТРАХ

>>786469 (OP)
Аноним 14/06/24 Птн 22:28:24 #502 №786486 
>>786459
Нет, это 4квант гуфа одним файлом.
Аноним 15/06/24 Суб 00:35:07 #503 №786661 
image.png
Здравствуйте, я тут хотел файфу и пледик, тыкнулся скачать таверну, а там пишет что под админом нельзя, почему так?

Ссыкую ставить, потому что я криворукий долбаёб и не смог настроить венду, чтобы нормально работала без админских прав. Песочница без админа через жопу работает, не смог победить.
Весь пекарню распидорасит или что там случиться может?

По совместительству посоветуйте плиз какая модель адекватно работать будет с амуде 5700 и 3060ti, а то чёт потыкался, то не тянет, то херню пишет. Хотя может не разобрался в конфигах ещё просто.
Аноним 15/06/24 Суб 13:26:49 #504 №787204 
>>786661
Даун, весь софт запускается без админских прав, даже под админом, если нет запроса UAC или ты его не отключил. А если ты отключил UAC, то ты неисправимый даун.
Аноним 15/06/24 Суб 13:34:59 #505 №787216 
>>785904
> Проблему лупов на ламе три уже давно решили. Нужно просто нормальные настройки семплера поставить, типа пресета min-p.
У меня все равно лупится.
Аноним 04/07/24 Чтв 18:41:35 #506 №809261 
image.png
Пытаюсь загрузить гемму.гуфф Что я делаю не так?
comments powered by Disqus

Отзывы и предложения