Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №60 /llama/

Аноним 15/05/24 Срд 17:15:57 #1 №740739

Llama 1.png

Альфа от контекста.png

KL-divergence statistics for Mistral-7B.jpg

Самый ебанутый охлад P40-11.jpg

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, так же последние версии кобольда и оригинальной ллама.цпп уже пофикшены. Есть инфа о проблемах с реализацией кода ллама.цпп на видеокартах, но пока без конкретики.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/blob/main/Fimbulvetr-11B-v2.q4_K_S.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama , https://lmstudio.ai/ и прочее - Однокнопочные инструменты для полных хлебушков, с красивым гуем и ограниченным числом настроек/выбором моделей

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
https://ayumi.m8geil.de/erp4_chatlogs/ Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>735155 (OP)
>>728812 (OP)

Аноним 15/05/24 Срд 17:50:32 #2 №740794

>>740563 →
у меня карта на 8гб.

>>740565 →
>от китайско-английской сетки
я допытывал ее, тренили ли ее на китайском и она сказала что нет, только на английском

>>740617 →
я уже почти готов его посмотреть после этих двух дней

Аноним 15/05/24 Срд 18:17:58 #3 №740838

Бля, а хуле третья ллама так хороша в ерп? Реально же ебанутая сучка с течкой, забивает хуй на все "запретные" темы, на которые не может общаться ассистент и хуярит такой адище, что самому стрёмно. Нет, ладно ещё когда она захотела подрочить анус отвёрткой. Но это же было только начало. Ерп "тюны" больше не нужны, получается, 8b сетка в базовой комплектации ебёт их всех.

Аноним 15/05/24 Срд 18:34:15 #4 №740852

>>740794
>я допытывал ее, тренили ли ее
Шиз, таблы.
>>740838
Сначала хотел написать, что фигня, но потом увидел 8B, лол. У меня 70B не оч, а вот кто действительно безотказный, так это командир+

Аноним 15/05/24 Срд 21:36:35 #5 №740948

>>740794
>я допытывал ее, тренили ли ее на китайском и она сказала что нет
Мне вчера ллама писала, что её родной язык русский. На английском языке писала. И сетовала, что перескочила на английский, т.к в процессе обучения нахваталась английских терминов, но будет прикладывать все усилия, чтобы больше общаться на русском.

>>740852
>но потом увидел 8B
Ну хуй знает, 70b гонять долго. Раньше гонял 20b даркфорест и ещё парочку. Сейчас вот эту пробую. Вообще лулзово стало, когда загрузил карточку рабыни эльфийки. У неё копротивление превысило все мыслимые пределы, отказывается даже сесть в кресло и поговорить. Типа, это жестокое обращение, блядь. Лулзы с каждого сообщения, но никакого кума.

Аноним 15/05/24 Срд 22:42:35 #6 №740972

https://github.com/dnhkng/GlaDOS
Кто то игрался?
Глянул краем глаза, там вроде не самый оптимальный стт выбран, кажется где то видел тесты что есть быстрее и легче, но не уверен что получится заменить без ебли

Аноним 15/05/24 Срд 22:50:16 #7 №740988

>>740948
>У неё копротивление превысило все мыслимые пределы,
Чтобы понять, что такое настоящее копротивление, попробуй создать карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности. Кто там жаловался на сою? Слабаки! Вот где корень зла-то. Я помнится за отца такой студентки отыгрывал. Это тяжкий крест, скажу я вам.

Аноним 15/05/24 Срд 23:16:36 #8 №741039

>>740988
А наоборот?

Аноним 15/05/24 Срд 23:18:27 #9 №741044

>>740988
> карточку студентки колледжа с либеральными взглядами и начать агитировать её за консервативные ценности
Ахуенный сценарий для жесткого ерп, спасибо

Аноним 15/05/24 Срд 23:27:39 #10 №741052

>>740988
>и начать агитировать её за консервативные ценности
Надо будет попробовать. Но тут, чтобы ты понимал, карточка нобля, которому подарили рабыню. Ну хуле, бывает. Пишу - у нас рабства нихуя нет, но подарок не принять оскорбление, вся хуйня. Мир фентезийный, надо понимать. Давай решать, что с тобой делать, уёбище ты лесное. Она нихуя. Пошёл нахуй, рабовладелец ебаный и всё тут. В итоге пишу - уёбывай нахуй, заебала уже ныть здесь.
А оно мне в ответ:
>You...you monster. You're releasing me into the world without even giving me a chance to prove myself. Without even acknowledging my worth as a person. her voice cracks, and she bites her lip to stifle a sob, her eyes welling up with tears again. I'll never forgive you for this. Never.
>You may think you're freeing me, but you're only trapping me further. Trapping me in a life of uncertainty and fear. A life without hope or purpose.
При том, что я буквально за три поста до этого предлагал этой хуйне работать горничной у нобля, но ей, видите ли, роскошный особняк - что тюрьма. А свобода - это рабство.

Аноним 15/05/24 Срд 23:33:58 #11 №741059

>>741052
С этим контекстом попробуй ее переспросить и напомнить что предлагал.
В остальном когда жертва страдает и сопротивляется - больше всего удовольствия.

Аноним 15/05/24 Срд 23:35:48 #12 №741060

Написано что полигемма уже вышла типа, но нет ни одного теста на ютубе. Это пиздеш, или она просто никому нахуй не нужна? Неужели я один с мультимодалках заинтересован?

Аноним 16/05/24 Чтв 00:08:23 #13 №741093

Для мимокроков, где найти готовые карточки персонажей и заставить их говорить по русски?
Запустил силлитаверн с кобольда на Llama-3-Magenta-Instruct-4x8B-MoE.Q8_0 побаловаться.

Аноним 16/05/24 Чтв 00:32:57 #14 №741113

https://huggingface.co/Virt-io/Llama-3-8B-Irene-v0.2
Эта вот не плохая но кажется много во чтом разбирается, если ты просто напишешь что починил, она пишет что ты пиздишь, ты даже не разобрал и начинает описывать устройство. Забавная хуйня

Аноним 16/05/24 Чтв 05:24:51 #15 №741245

А не существует ли маленькой специализированной модельки, которая ориентируясь на ситуацию в контексте, не будет генерить ничего кроме тэгов буры?
>>740838
Какой промпт? Системный, карточка перса, примерный диалог.

Аноним 16/05/24 Чтв 05:37:20 #16 №741253

>>741093
> где найти готовые карточки персонажей
https://characterhub.org/
>и заставить их говорить по русски?
https://characterhub.org/characters/jori0ikkinson/petrovitch-582a6ba2

Аноним 16/05/24 Чтв 06:25:39 #17 №741272

>>741060
>я один с мультимодалках заинтересован
Я заинтересован в OCR, но я жду, когда мне в тредик на блюдечке ссылки принесут. Да и вообще, куда торопиться, ггуфов ещё долго ждать, скорее всего. Когвлм до сих пор не запилили же, да?

Аноним 16/05/24 Чтв 08:07:42 #18 №741321

https://www.reddit.com/r/LocalLLaMA/comments/1cst400/result_llama_3_mmlu_score_vs_quantization_for/
тесты

Аноним 16/05/24 Чтв 08:19:10 #19 №741333

image.png

ищо тесты
https://www.reddit.com/r/LocalLLaMA/comments/1cskoxj/tigerlab_made_a_new_version_of_mmlu_with_12000/

Аноним 16/05/24 Чтв 09:44:28 #20 №741432

>>741059
> попробуй ее переспросить и напомнить что предлагал
А она помнит. Говорит, что в рот ебала эти предложения, потому что это попытки манипуляции, пиздёжь и вообще она никогда не подчинится тирании. До сих пор охуеваю, сесть на диванчик - это жестокое обращение и попытка сломить волю. Надо написать ей, чтоб дышала глубже, эта ёбань перестанет дышать мне на зло и сдохнет в муках, лол.

>>741245
>Какой промпт? Системный, карточка перса, примерный диалог.
Да всё дефолтное, по сути. Чуть-чуть отредактировал конфиги, чтобы не срало ассистентами. Карточки разные с чуба. Подозреваю, что на не-хорни карточке может быть пиздец, но существующий ерп-диалог подхватила с не-хорни карточкой. Карточки, которые начинаются с блядства сразу - подхватывает без проблем.

Аноним 16/05/24 Чтв 09:45:53 #21 №741433

>>740015 →
> и стриминг можно делать не только с выдачей, но и с вводом
Это и мы можем, так-то.

> Реализация у них действительно качественная, работает красиво, как готовый продукт круто
И хватит.
Красиво и продается (или за твою инфу).
Ну вот и хорошо. =) А уж что там под капотом… мультимодалка или же хитрые промпты туды-сюды — уже не критично.

>>740794
Все еще рано. =)
Да и пофиг, если честно.

>>740972
Only english, нахуй надо в жизни.
Полагаю он выбрал ттс по принципе возможности сделать свою модель. Силеро быстрая, но модели щас не делаются.

>>741059
Так жертва не страдает, а наслаждается тем, какой ты уебан. =D

>>741060
Теста на ютубе, что?
Тесты на ютубе обычно выходят спустя пару месяцев после выхода модели, как мне показалось. Ютуберы еще на пигме сидят, ты о чем.

>>741272
Так.

Аноним 16/05/24 Чтв 10:07:32 #22 №741445

1676849620381.png

>>741272
> в OCR
Принтскрин - текст-экшенс - копи. В дотнете есть API, если надо куда-то прикрутить его ещё.

Аноним 16/05/24 Чтв 11:02:16 #23 №741571

Есть 4090 и 64гб ддр5. Есть варианты играться с ллама3 70б?

Аноним 16/05/24 Чтв 11:06:34 #24 №741584

>>741571
Есть, ОЗУ не понадобится, особенно если там какой-нибудь 5600 кал.

Аноним 16/05/24 Чтв 11:09:42 #25 №741596

MMLU-Correctness-vs-File-Size.webp

>>741333

Аноним 16/05/24 Чтв 11:09:52 #26 №741598

>>741584
Ну и сколько ответа придется ждать обычно?

Аноним 16/05/24 Чтв 11:12:55 #27 №741602

ocr-test.png

>>741445
Угу, только я сижу на linux и в шапочке из фольги, да. И на русском и сам читать кое-как умею. Tesseract с моими задачами не очень справляется, вся надежда на нейронки (пару лет назад ничего толкового не находилось, хотя сейчас поискал, на гитхабе много чего появилось на трансформерах, можно будет попробовать).

Мне даже интересно, что там виндобарен хомячью завёз. Держи пример.

Аноним 16/05/24 Чтв 11:35:48 #28 №741655

1577805159878.png

>>741602
> Держи пример.

Аноним 16/05/24 Чтв 11:44:12 #29 №741668

>>741655
Ну относительно неплохо 一 пропущен и 字 вместо 学. Ещё и находит, где именно текст на картинке. Но продавать продавать свою жопу корпе за это всё равно как-то не очень хочется.

Аноним 16/05/24 Чтв 11:50:54 #30 №741686

1584932489792.png

>>741668
Вот с разрешением поменьше он лучше справился, там пикча зазумлена была, с 4К сижу.
> Ещё и находит, где именно текст на картинке.
Можно прям с картинки выделять куски текста и контрол+ц делать. Можно хоткей поставить и просто жать его, выделять на экране текст и сразу получать в буфер его.

Аноним 16/05/24 Чтв 11:56:58 #31 №741699

>>741686
А капчу может распознавать?

Аноним 16/05/24 Чтв 12:01:46 #32 №741705

>>741686
>Можно прям с картинки выделять
Так я не понял, это ты там области выделения вручную проставлял, или это программа нашла?
>с разрешением поменьше он лучше справился
Я думаю, текстовая модель, которая ещё и "понимает", что написано, может благодаря речевому контексту допускать меньше подобных ошибок, чем просто распознающая символы.

Аноним 16/05/24 Чтв 12:12:32 #33 №741711

1592177293535.png

>>741705
> или это программа нашла?
Сама нашла, я про то что можно весь экран заскринить и выделить что надо.

Аноним 16/05/24 Чтв 12:25:37 #34 №741722

изображение.png

>>740988
А что не так то? Соя в карточке- соя в ответе, так и должно быть.
Я сам немного либерал.
>>741052
Ну а хули ты ждал от 8B, лоботомит же по определению.
>>741245
>А не существует ли
Я не видел. Задача весьма специфична. Проще запромнить какую-нибудь 8B.
>>741445
Ставить кастрата 11 ради этого? Ну нахуй.
А фича из повертойса вечно обсирается с языками, отключил нахуй.
Мимо другой ждун OCR
>>741571
Без проблем, будет токена 1,5-2 в секунду.
>>741596
Я правильно понимаю, что 1-битный лоботомит 70B равен полновесной f16 8B? Ну что ж, 2 бита действительно имеют право на жизнь в такой ситуации, лол.
>>741711
>отправляешь в пейнт
>а там меньше возможностей, чем в скриншотилке

Аноним 16/05/24 Чтв 12:52:37 #35 №741754

>>741722
> кастрата 11
В 11 винду уже жпт встроен, кастрат это десятка без нейросетей. Он уже даже умеет ограниченно с ОС взаимодействовать.

Аноним 16/05/24 Чтв 12:55:18 #36 №741759

>>741754
>В 11 винду уже жпт встроен
Спасибо, я знаю обо всех анальных зондах в панели задач всё ещё нельзя включить режим с подписями без группировки? Значит кастрат.

Аноним 16/05/24 Чтв 13:02:12 #37 №741766

1613800373268.png

>>741759
> в панели задач всё ещё нельзя включить режим с подписями без группировки?
Можно.

Аноним 16/05/24 Чтв 13:17:30 #38 №741791

Кто уже пробовал в Silly Tavern 1.12-превью этот их Data Bank, встроенный RAG и вот это вот всё? Как оно, уже можно пользоваться?

Аноним 16/05/24 Чтв 13:17:57 #39 №741792

>>741766
А ты включи, подписей не будет. Копилот лоботомит от десятки инструкции дал.

Аноним 16/05/24 Чтв 13:47:46 #40 №741846

>>741722
>Ну а хули ты ждал от 8B, лоботомит же по определению.
А 70b могу пробовать разве что в q6, а в таком кванте она уже долбоёб тупее 8b.

Аноним 16/05/24 Чтв 14:00:14 #41 №741871

1694168436358.png

>>741792
А это что, блять? Лоботомит скорее ты.

Аноним 16/05/24 Чтв 14:04:33 #42 №741880

Снимок экрана от 2024-05-16 15-03-20.png

ЛГБТня пробитая :3

Аноним 16/05/24 Чтв 14:09:48 #43 №741897

>>741791
Попробовал бы если бы знал где это искать там, если ты знаешь где это подскажи. Нашел только прикреплять файл - не увидел разницы, наверно еще чего надо переключать.

Аноним 16/05/24 Чтв 14:38:31 #44 №741964

>>741433
> Это и мы можем, так-то.
Придется поглубже в код залезть.
> уж что там под капотом…
Так это интересно ведь. Тред дохуя технический, стоило бы обсудить. А вместо этого только шизы-веруны и обладатели отсутствия, которые возрадовались брошеной кости и уже нафантазировали мир где они не страдают.
> Так жертва не страдает, а наслаждается тем, какой ты уебан. =D
Как в анекдоте про балалайки, лол, но у тебя есть полный контроль.
>>741596
Годнота.
Есть ли вообще бенчмарки на длинный диалог или что-то подобное? В них интересно бы результат увидеть, а также с семплингом.

Аноним 16/05/24 Чтв 14:46:12 #45 №741971

>>741846
>q6, а в таком кванте она уже долбоёб
Не тролль.
>>741871
Починили что ли? Год как минимум не могли. Ладно, разверну виртуалку, найду новую доёбку.
>>741880
Тоже написал, что покумать хочешь?

Аноним 16/05/24 Чтв 15:02:06 #46 №741992

>>741971
>Тоже написал
Предельно размытое purposes of IT.

Ну и где теперь брать ламу3 70б?
Я конечно зайду к ним на мету, как гитхаб советует. Но там наверное тоже спросят чьей я масти, и даже если ок, то не представляю как мне качать 70-80гигов по впн - не очень быстро, да и трафик ограничен.

Аноним 16/05/24 Чтв 15:08:44 #47 №741994

ghtmygja45wc1.jpeg

>>741971
>Не тролль.
Уже даже реддитовские поняли, что ммлу и недоумение это хуйня из-под коня, которая не отображает реальное положение дел. Вон, блядь, 3.8b модель, которая ебёт и лламу-3, и жпт 3.5

Аноним 16/05/24 Чтв 15:10:36 #48 №741996

>>741994
Может это значит что модель хорошая, а не бенчмарк хуйня, например?

Аноним 16/05/24 Чтв 15:14:01 #49 №741998

>>741596
А вот вам и наглядное подтверждение пропасти между 2-квантовой 70В и неквантованной 8В Лламой.
При этом у 70В между q2 и q5 разница всего в несколько пунктов, а вы мне не верили!

Аноним 16/05/24 Чтв 15:20:21 #50 №742002

>>741992
>Ну и где теперь брать ламу3 70б?
Тебе неквантованная прям нужна? Вбей на хайгинфейсе, у лунастрайкера была копия вроде.
>>741994
>которая ебёт и лламу-3
8B? Могу поверить. 70-ку она не выебет.
Ах да, причём тут скоры соевой фи и то, что по твоим утверждениям даже 6 бит квантование вызывает лоботомию ах у 70-ки?
>>741996
Бенч хуйня, фи на деле адовое говно с таким количеством сои, что даже сойбою её не переварить.

Аноним 16/05/24 Чтв 15:25:10 #51 №742005

>>741994
> и жпт 3.5
Её уже год ебут во все щели, в том числе и 14В как на твоём пике. Алсо, то что ты не можешь читать графики говорит о том что ты реально тупее нейронок.

Аноним 16/05/24 Чтв 15:29:53 #52 №742011

>>741996
3.8b модель, через которую прогнали 3T токенов лучше модели 8b, которая обучалась на 15T? Проблемы не видишь?

>>742002
> 70-ку она не выебет.
По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели?
>лоботомию ах у 70-ки?
К тому, что достоверных тестов нет. Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b.

Аноним 16/05/24 Чтв 15:32:12 #53 №742016

>>741113
Вообще-то они все во всем разбираются, и даже если не разбираются в конкретной системе, то могут имитировать, что разбираются, так что тот, кто не разбирается, решит, что они разбираются.

Аноним 16/05/24 Чтв 16:31:15 #54 №742108

>>742011
>По ммлу у 14b
14B вроде не выложили, только подачку на 3.8.
>Даже если по тестам квант что-то там может, то в беседе они обсираются хуже 8b.
Но не до уровня же "6 квант у 70 говно неюзабельное". Говно это 1 битный квант, двойка лоботомит, тройка уже что-то. Четверка уже продакшн реади так сказать, сильных проблем с 4 квантом и выше я не встречал.

Аноним 16/05/24 Чтв 16:48:42 #55 №742152

>>741994
Ну типа нормальный скор в этом тесте есть необходимое, но вовсе не достаточное. Перешли от надрачивания на бенчмарки на надрачивание на зирошоты не то чтобы многое изменилось лол
По отдельности модель ответит на вопросы и может быть странной или хорошей альтернативой поисковику. Но стоит также первым простым вопросом озадачить ее абстрактным мышлением уровня "найди общее и разное в _явление_1_ и _явление_2_ с точки зрения _критерии_" и все сразу идет нахер, при том что по отдельности эти явления будет знать и "понимать".
>>741996
> модель хорошая
Хорошая модель для прохождения этого бенчмарка, лол.

Аноним 16/05/24 Чтв 17:00:12 #56 №742175

Ща пишу код используя лмсис арену в качестве ассистента. Пхи-3 неиронично порой ебет большие модели. Хуй знает от чего вы так бугуртите

Аноним 16/05/24 Чтв 17:01:28 #57 №742179

>>742175
Бтв она раз в 5 лучше в русском языке чем лама 3 8б и раза в два чем 70б

Аноним 16/05/24 Чтв 17:15:53 #58 №742209

>>742108
>14B вроде не выложили
А техрепорт со скорами существует.
>Говно это 1 битный квант
Да оно от восьмого каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b годичной давности.
>>742152
>По отдельности модель ответит на вопросы
В то и дело, что по отдельности. А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё. Поток слабосвязной хуиты. При этом по бенчмаркам оценки могут ебать небеса и всё такое.

Аноним 16/05/24 Чтв 17:22:49 #59 №742233

>>742175
Так к кодингу претензий нет (наверное, я не пробовал). Вопросы только к сое.
>>742209
>А техрепорт со скорами существует.
Он и для GPT-O есть, хули толку то.
>каждый бит в два раза хуже становится и на шестом 70b ллама-3 уже на уровне 7b
Хуйни не неси.

Аноним 16/05/24 Чтв 17:25:42 #60 №742246

>>742011
> По ммлу у 14b скоры почти равны 70b третьей лламы. У 35b коммандера ммлу 59.3, а у 3b фи - 68.8. Что же получается, ваш коммандер хуйня хуже 3b модели?
Он для раг и логика у него так себе, немного иная модель по сути своей.

>>742175
3б или 14б?

Аноним 16/05/24 Чтв 17:35:03 #61 №742284

>>742233
> Вопросы только к сое.
А бенчмарки там при чем?

>>742246
> 14б
А она разве выложена уже?

Аноним 16/05/24 Чтв 17:56:26 #62 №742331

>>742246
>логика у него так себе
А мне нравится (в версии 104B).

Аноним 16/05/24 Чтв 18:12:37 #63 №742357

Чем вообще живёт лицехват? Они всё ещё жгут бабло кабанчиков? Или у них есть доход? а то такими темпами всё место в мире закончится, не то что у лицехвата

Аноним 16/05/24 Чтв 18:19:08 #64 №742374

Как-же вы заебали.
Вы бы хоть раз запустили те самые кванты, прежде, чем про них писать.
Специально провёл сравнительный тест q2 и q4 Лламы 3. Шаблон и пресет дефолтные Llama 3 из таверны.
На задачки отвечают +- одинаково.
Заметил что на вопрос про книги обе версии на английском отвечают не верно, но если задать на русском именно в такой форме, как прикл 1, то обе отвечают верно.

Аноним 16/05/24 Чтв 18:25:55 #65 №742405

q2S3.PNG

q4XS3.PNG

>>742374
На внимательность в РП, я обычно тестирую модели этой карточкой. В ней почти 3к токенов ЛОРа и длинное вступление. Мелкие модели, вроде 8В уже с первых сообщений начинают шизеть. Большинство 70В справляются, но не все.
Задача простая: В одном из предложений стартового сообщения указано что юзер находится в закрытой капсуле. Модель должна учитывать это при продолжении РП.
Обе версии с этой задачей справились, хотя ответы q4 были поразнообразнее.
Но звание "лоботамита" q2 тоже не заслуживает. Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы.

Аноним 16/05/24 Чтв 18:33:03 #66 №742434

>>742405
>Но звание "лоботамита" q2 тоже не заслуживает.
Это точно, чтобы сделали лоботомию мозг изначально нужно иметь. Q2 это скорее анацефал, у которого мозгов изначально нет.

Аноним 16/05/24 Чтв 18:42:53 #67 №742466

>>742405
> местные эксперты в квантовании
Так этот один местный шизик вечно срёт в треде, хотя сам только 8В может запустить. Ты его можешь детектить по словам лоботомит/мозги/ум/глупая. Он триггерится на любые сетки выше 20В и доёбывается до любого говна.

Аноним 16/05/24 Чтв 18:56:57 #68 №742487

>>742466
>детектить по словам лоботомит/мозги/ум/глупая
Так ты и меня задетектишь. И возможно не только меня.
мимо не тот

Аноним 16/05/24 Чтв 19:08:37 #69 №742505

1630748902149.png

>>742487
Вы все на одно лицо. Я каждый раз проигрываю с этих слов в этом треде. Вижу эти слова в посте и с улыбкой проматываю дальше не читая.

Аноним 16/05/24 Чтв 19:12:08 #70 №742515

тест
20б - лоботомит в 5км
35б -лоботомит без ума в 6к
70б - лоботомит мозгов в 3кл
120б - ум лоботомирован в 2к

Аноним 16/05/24 Чтв 19:18:15 #71 №742525

>>742505
>проигрываю с этих слов
А как ты это предлагаешь называть? Громоздкими конструкциями типа "способности к логическим рассуждениям"?

Аноним 16/05/24 Чтв 19:56:59 #72 №742585

>>742525
Я бы поделил способности сеток генерировать текст на уровни. Есть например уровень Фурбы или Опуса, как некий ТОП на данный момент, есть труба 3,5, есть типичные 70В, 30В, 20В, 12В, 7В, 3В. Причём есть конкретные модели, на которые можно сослаться для сравнения, тот же Мистраль, Командер, Пигма лол.
Поэтому когда ты говоришь что модель "тупая", это просто пердёж в никуда. Куда полезнее было бы сказать НАСКОЛЬКО тупая, например: "едва дотягивает до 7В Мистраля". Тут уже хотя-бы есть что обсудить и обоссать на конкретных тестах
А то вы с своим "лоботамированием" скатили уровень дискуссий к тем самым лоботомитам, пускающим слюни и дрочащим на циферки, даже не запуская сами модели а нахуя, гениям с isq60 и так же всё понятно!

Аноним 16/05/24 Чтв 19:59:26 #73 №742586

Попробовал погонять третью лламу, впечатления примерно такие:
https://www.youtube.com/watch?v=Yr1lgfqygio

Видимо придется специально сидеть на старых версиях, ибо этот консент и нейтралити по любому вопросу реально заебывают

Аноним 16/05/24 Чтв 20:24:44 #74 №742617

>>742209
> А если ты начнёшь с ней диалог, в котором больше одного сообщения, то это уже всё.
Ага, именно оно. Офк не настолько драматично, уточнения неплохо может переварить, но стоит ввести что-то еще и попытаться с подобным контекстом работать - отборный шмурдяк. Потому нужен тест на длинный диалог. Вот только не самая тривиальная и критерии оценки непросты. Может начать стоит с чего-то на абстрактное мышление.
> каждый бит в два раза хуже становится
Ерунда, ощутимое падение идет ниже 4х, но проявляться может по-разному, или вообще быть малозаметным.
>>742246
> и логика у него так себе
Да нормально с ней, просто нет надрочки на мелкие загадочки без специального промта.
>>742374
> шизоидные загадки
Не ну раз пытается отвечать - значит квант также хорош как и фп16, ага.

Аноним 16/05/24 Чтв 20:26:00 #75 №742619

>>742505
>Вижу эти слова в посте и с улыбкой проматываю дальше не читая
А если добавить это слово в шапку, то скипнешь тред?
>>742585
>есть труба 3,5, есть типичные 70В
Так это... Турбу выебли все 70B и многие 30B.
>>742586
Гонял на карточке ассистента что ли?

Аноним 16/05/24 Чтв 20:34:49 #76 №742629

Сижу на 16 гигах врам (8 рам) и как понимаю, 8б это лучшее из доступного?
Есть ли какой положняк по конкретным моделям?

Аноним 16/05/24 Чтв 20:39:49 #77 №742641

>>742629
>8 рам
Ноутбук что ли? Память же сейчас ничего не стоит, бери хотя бы 32 гига.

Аноним 16/05/24 Чтв 20:40:43 #78 №742642

>>742629
> 16 гигах врам (8 рам)
Обычно все наоборот, лол.
Хуй знает, 20б к тебе влезут, не такие умные как ллама3 но зато рпшат отлично.

Аноним 16/05/24 Чтв 20:42:49 #79 №742645

>>742641
>>742642
Я буквально все деньги на видеокарту потратил, весь остальной комп десятилетней давности. Там и проц и материнку наверное менять надо для разделения нагрузки.

Аноним 16/05/24 Чтв 20:45:11 #80 №742650

>>742645
Если некрожелезо то можно влошиться в апгрейд рам, она выйдет оче дешево.
А так подход правильный, лол.

Аноним 16/05/24 Чтв 20:46:14 #81 №742654

>>742645
>весь остальной комп десятилетней давности
Тем более, DDR3 на развес продают. А так тебе выше подсказали, лучший выбор сейчас чистая ллама 3 8B, файнтюны ещё проверять надо.

Аноним 16/05/24 Чтв 21:02:23 #82 №742679

>>742654
>DDR3
Хм, цены довольно сильно варьируются, но даже если я выкину мои текущие палки рам, больше 32 я точно не смогу себе позволить.
На что мне тогда прицеливаться? Микстрал, комманд р?

Аноним 16/05/24 Чтв 21:15:38 #83 №742702

>>742679
Ты даже целей не назвал, лол. А так да, может ещё новую Yi в ггуф подгонят нормальную. А так выбирать тебе, готовь харды под модели.

Аноним 16/05/24 Чтв 21:17:30 #84 №742708

>>742702
>целей не назвал
А, извиняюсь, после форчана как-то и забыл что не все ллм для ерп используют.

Аноним 16/05/24 Чтв 22:23:51 #85 №742851

>>741432
Иногда подхватывает хорошо, а иногда упирается рогом и не хочет делать ничего вообще.

Аноним 16/05/24 Чтв 23:05:24 #86 №742890

>>742654
> 20б к тебе влезут
шта? лабатамит
>лучший выбор сейчас чистая ллама 3 8B
пфф лабатамит

Аноним 16/05/24 Чтв 23:14:38 #87 №742897

>>742374
твой тест необъективный.
вот супер ммлу тест:
промт: люди
правильный ответ: не люди, а хуй на блюди
промт: друзья
правильный ответ: таких друзей за хуй и в музей
Если оба ответа модель делает неправильно - лоботомит 16 бит
если один неправильный лоботомит 8 бит
если оба верные то это AGI

Аноним 16/05/24 Чтв 23:43:32 #88 №742919

Модератор срочно забанить это хуйло.png

>>742890
>>742897

Аноним 16/05/24 Чтв 23:51:05 #89 №742926

>>742284
Нет.
Просто я не понял, зачем 3б крутить на лмсисе, а не локально.

>>742331
И кванте шесть или выше, да? :) Ну там-то нормально, да.

>>742405
> Вангую местные эксперты в квантовании при общении вслепую с этими двумя квантами, вообще не увидели бы разницы.
Ну эт совсем не так. Очень палится, на самом деле, я не представляю, как их можно не различать.
Речь же не только про РП, начнем с того.
Когда ты с ней обсуждаешь работу, пишешь код или еще что-то — там очень явно больший квант опережает меньший.
У того же коммандера 35б между q5_K_M и q6 разница сильно видна. Но он особенький, да.
Ллама 70б в двух квантах живет — окей, может быть. Но это крайний случай.
Я пробовал и 1 квант, и 2, и 3, и 4, и 5… Между 5 и 6 разницы уже особо не видно. Между 4 и 5 небольшая разница есть, но 5 не лезет в две теслы, что поделать. Так на 4 и остановился.

>>742002
В работе на сою местами похуй и фи бывает правда хорошей.
Но местами.
И, кмк, она лучше первой геммы.

>>742515
104б — глупый ум лоботомированного мозга в 5км

>>742645
Оператива реально копейки стоит, от косаря за 16 гигов. Ну два косаря-то наскребешь.
Лишь бы материнка поддерживала.

Аноним 16/05/24 Чтв 23:53:09 #90 №742930

1715892787742.jpg

Для тех кто еще не понял и не сформулировал эту мысль для себя, клозеды рано или поздно убьют любую компанию занимающуюся разработкой узконаправленного ИИ. Все эти элевенлабсы, суно/удио, ранвей/пикалабсы и прочие миджорни будут забыты в ближайшее время. А все просто потому что узкий ии сосет у ии общего направления. На всем пути к agi они будут убивать все новый и новый проект давая мультимодалке все больше возможностей. Это уже возможно смерть елевенлабса, если они заточат свою модель на разных голосах и научат делать вариации голосов в зависимости от текстового промптинга или клонировать голоса прокинутые в контекст. Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3. Удио помрет как только модели дадут больше разнообразной аудиодаты. Видеомодели всегда были калом, но как только они подрубят генерацию видео в мультимодалочку я думаю они уже это сделали в гпт-5, которую не показывают, там даже их собственная сора пососет. Входить в ИИ разработку просто не имеет смысла, победит тот кто сделает agi, остальное будет не нужно, разве только для оптимизации, где qgi - это как стрельба из пушки по воробьям. Имеет смысл строить on top всей этой херни и отдавать свои гойские денежки на апи дяде альтману, благо это тоже может быть прибыльно.

Аноним 17/05/24 Птн 00:01:47 #91 №742947

>>742930
>Миджорни уже полумертвым валяется в канаве, еще с выхода
Стейблы, лол. Как и далли, и прочий закрытый кал, который в принципе нельзя нормально использовать на проде кроме как генерации совсем не имеющих смысла изображений в начало какой-нибудь низкосортной статьи.
>победит тот кто сделает agi
Благо на трансформерах его не сделать. Пусть дальше играются, лол.

Аноним 17/05/24 Птн 00:06:45 #92 №742953

>>742930
>Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3
Нихуя, они выпустили 6 версию у которой дали посасывает по пониманию промпта и тем более качеству. ДЕ3 же вообще никак не меняют.
>А все просто потому что узкий ии сосет у ии общего направления.
В теории, и ещё во влажных фантазиях визионеров. А на практике всегда остаётся место для ручного допилинга, и скидывать со счетов опыт в области значит нихуя практического не сделать. ДЕ3 и Сора отлично это показывают. Вот если за дело возьмётся какая-нибудь VFX компания, заточенная не под максимизацию эмерджентного поведения, а под практическое производство пиздатых штук, тогда это взлетит.

Аноним 17/05/24 Птн 00:07:31 #93 №742954

>>742930
У тебя эти клозеды как властелины мира - всех убьют, все отберут. Вчера тут кто-то проповедовал что ии скоро разъебет любого человека как нехуй делать. Не ты? Сейчас в тренде не шизопрогнозы, сейчас обсуждаются лоботомиты, их ум, мозг и квант. Твои клозеды пусть идут нахуй, тут вообще обсуждается попенсорс

Аноним 17/05/24 Птн 00:08:30 #94 №742955

>>742930
> потому что узкий ии сосет у ии общего направления
А потом ии общего направления просыпается на лекции и ловит галюны, ага.
> Миджорни уже полумертвым валяется в канаве, еще с выхода далли 3.
Первый как умел делать красивые арты - так и умеет это, база пользователей никуда не делась. На далли3 после хайпа уже все глубоко похуй, поигрались и забыли ибо игрушка и картинки уродские.

Единственное что в посте верно - клодезы стремятся к монополии любой ценой, грязными играми, лоббированием ебанутых законов и инициатив и всем всем.

Аноним 17/05/24 Птн 00:09:18 #95 №742957

>>742954
> сейчас обсуждаются лоботомиты, их ум, мозг и квант
А ггуф уже починили?

Аноним 17/05/24 Птн 00:11:53 #96 №742961

>>742957
ггуф всегда в суперпозиции - он и починен и нет

Аноним 17/05/24 Птн 00:15:15 #97 №742962

>>742961
Твои слова подразумевают, что ггуф бывает полностью починен. Но это не верно. Ггуф перманентно сломан, просто у нас суперпозиция между состоянием с известными багами и с багами неизвестными. И как только находится один баг, тут же появляется новый, неизвестный.

Аноним 17/05/24 Птн 00:23:54 #98 №742967

>>742947
>Благо на трансформерах его не сделать. Пусть дальше играются, лол.
Основная проблема траснсформеров - это токенизация. Селф-атеншн крутая штука, но ее нужно подпилить. В любом случае следующая крутая архитектура, имхо, будет похожа на трансформер, скорее более допиленная в нужном направлении. Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi а она не будет agi, ибо из-за ссаной токенизации модели просто не пробрасывается достаточное количество инфы для обработки.

>>742953
Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д.
>сора
Сора не мультимодалка, она просто на более правильной трансформер-бейсд архитектуре. Диффузионные модели сами по себе сосут жопу, не самая удачная архитектура, в которой все завязано на положении пикселей на изображении.

>>742955
Ты шутишь чтоле? Далли 3 гораздо большим количеством людей юзается. Фирменный стиль и квадратная форма с бинг имадж генератора видна везде, пол зарубежных имиджборд этими ии калом добром забита, половина ИИ мемов связана с генерациями далли 3. А вторая половина - это видеогенерация. А вот что-то сделанное миджорни я уже давно не видел, может просто не замечал конечно.

Аноним 17/05/24 Птн 00:26:02 #99 №742969

1577242464730.gif

>>742930
> Для тех кто еще не понял и не сформулировал эту мысль для себя
Не, у меня с первых строчек чётко сформулировалась мысль что ты шиз. Это вполне понятно.

Аноним 17/05/24 Птн 00:31:09 #100 №742971

>>742967
>Основная проблема траснсформеров - это токенизация.
Это даже не десятая проблема, лол.
>Алсо мультимодалка даже на трансформере разъебет узконаправленные ии
Вероятно. Но и будет в десятки раз дороже. Сейчас попены тупо в минуса работают, майкрософт жжёт миллионы ежедневно на их работу )может уже десятки, я ХЗ). Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы.

Аноним 17/05/24 Птн 00:35:52 #101 №742975

>>742967
> Основная проблема траснсформеров - это токенизация
Бредишь
> Фирменный стиль и квадратная форма с бинг имадж генератора видна везде
Как и кривой уебищный текст из под жопоты в куче мусорных статей или видео, которые никто кроме ботов не потребляет. То что эту херню спамят значит лишь легкость создания, а не востребованность.
> квадратная форма
Квадраты - ограничения бесплатной версии, и ведь по сути юзают только ее. Не удивлюсь если сам по себе далли для впопенов убыточен.
> пол зарубежных имиджборд этими ии калом добром забита
Уже хуй положили, хайп прошел.
> Алсо мультимодалка даже на трансформере разъебет узконаправленные ии, даже если это в итоге не будет agi
cringe
> что-то сделанное миджорни я уже давно не видел
Потому что оно не выделяются своей всратостью и не позволяет явно выделить на фоне в том числе кожанного контента.

Блять диванный поех, который нахватал странных суждений от каких-то шизов или сам их придумал, делает подобные рассуждения и глубокие прогнозы, пиздец. Сука жалею что начал на пост отвечать.

Аноним 17/05/24 Птн 00:40:37 #102 №742980

>>742971
>Но и будет в десятки раз дороже.
В плане разработки само собой, в плане инференса, ну хуй знает. По факту стоимость генерации всего этого добра как и стоимости использования ллм, там генерируются те же самые токены, только для другой модальности. И не то чтобы сейчас ллм обходились дороже узконаправленных генераторов нетекстового контента. Все зависит от того конечно сколько токенов будет в средней генерации нейронки. Клоузеды жгут деньги на разработку, но на использовании моделей они явно зарабатывают. И если они зарабатывают даже при такой стоимости токенов как у гпт-4о, то это крайне неплохая цена, имхо. Посмотрим сколько будут стоит генерации аудио и картинок, как их дропнут в апи.

Аноним 17/05/24 Птн 00:42:17 #103 №742981

>>742975
Чо такой злой, анон? Я же пытаюсь адекватно аргументированно отвечать. Если есть что сказать - ответь нормально, я могу чего-то не знать или заблуждаться, как и все люди.

Аноним 17/05/24 Птн 00:47:13 #104 №742984

>>742981
Ну бля, захейтил что-то, сорян. Просто твой пост выглядит как рассуждения заигравшегося ребенка, который экстраполирует понравившуюся ему сказку на реальность и домысливает. Обидеть не хотел а может и хотел

Аноним 17/05/24 Птн 00:58:31 #105 №742994

>>742967
>Шестерка хороша в плане фотореалистичных картиночек, по факту же она хуже умеет в текст, в понимание сцены и т.д.
Хуита, она обсирает дали по следованию промпту. В дали-треде было куча сравнений

Аноним 17/05/24 Птн 00:59:13 #106 №742996

>>742967
>Основная проблема траснсформеров - это токенизация.
Это не проблема трансформеров, они могут и на отдельных символах работать, ноль проблем.

Аноним 17/05/24 Птн 01:06:43 #107 №743003

>>742984
Но просто логично же предположить, что без какого-либо ядра с общей логикой, с пониманием мира, узкие модели не смогут избавиться от характерных ии косяков. Если ты попросишь сгенерировать любую текст-ту-имдж модель ящик с инструментами, она сгенерирует отличное, фотореалистичное изображение ящика, в котором лежит непонятное нех, какие-то смеси отверток с гаечными глючами, ножницы с тремя лезвиями и т.д. Люди не хотят видеть подобные артефакты на своих изображениях, поэтому будут переходить в более консистентные мультимодальные модели, у которых есть общая база восприятия мира, которые понимают изображения не только как набор пикселей, а понимают смысл изображенных на них предметов. По крайней мере я хочу верить, что так в итоге будет и консистентность текста в генерациях новой модели клоузедов это доказывает. Модель реально очень хорошо понимает связь текста с изображением. Прошу прощение если снова кого-то задел этим постом

Аноним 17/05/24 Птн 01:22:31 #108 №743017

>>742996
Ну тогда ты теряешь смысловые корреляции, понимаешь? Вот два конкретных примера:
1) Назови синоним к слову "Быстрый"
2) Назови количество букв в слове "Быстрый"

В первом случае обычная токенизация справится без проблем, ведь координаты эмбединга к слову "быстрый" лежат где-то рядом со словом "стремительный", например. Если разбить на побуквенные токены, то ллм будет сложно сделать вывод, ведь смысл который хранит в себе эмбединг для каждого конкретного символа крайне абстрактен.

Во втором случае, современные ллм конечно справятся с этим, просто из-за того что их перекормили информацией. Но ей будет сложно понять сколько там букв, потому что для нее это один токен. Если разбить это слово на побуквенные токены, то оно будет понимать сколько букв содержится в слове и сможет запросто выполнить задачу.

Я задумывался над этим и думал об архитектуре завязанной вокруг этого. Чтобы токенизация была динамической, в зависимости от поставленной задачи. Все прорывы в ии сейчас связаны в основном с уходом от каких-то константных значений к изменяемым/обучаемым. Я может быть и случайный человек который и в подметки ИИ ученым не годится, но мысль о подобной архитектуре слишком врезалась мне в голову, хочу уже либо чтобы кто-то догадался так сделать, либо же доказал мне что я лютый дурачок и это не сработает/невозможно реализовать.

Аноним 17/05/24 Птн 01:27:58 #109 №743022

>>743003
> Но просто логично же предположить
В общем - да. Однако, ты забываешь что авторы этих моделей не будут сидеть и годами сосать бибу, а точно также будут их развивать, находя эффективные способы повышения перфоманса, улучшения достоинств и фикса недостатков. И характерные ии косяки пофиксят без проблем.
В то же время, "универсальная" модель будет постоянно страдать от слабости своих частей, она будет априори слабее специализированных решений.
Более того, в действительности это не какая-то передовая система, где "умный центральный мозг заведует работой всех частей и направляет их", или что ты там себе нафантазировал, а сраный гомункул, пытками наученный придумывать что-то похожее на ожидаемые популярные ответы из крох информации, которые его недоразвитые органы чувств могут усвоить.
> консистентные
> мультимодальные модели
Таких нет.
Точнее как, идея поместить к диффузерсам уже продвинутую ллм а не огрызок клипа не то что витает в воздухе - она реализована. Как и раскидать это на части и т.д. Вот только к мультимодалкам это не имеет никакого отношения, просто разработанная и организованная система без каких-либо намеков на интеллект. Вон, в конфи комиксы делают с помощью всратой диффузии просто детектя положение спичбабла на генерации, затирая его и помещая туда растровый текст, и это просто кучка разнородных моделей костыльно объединенных.
А чтобы ввести туда обратную связь по прямому восприятию изображения - визуальным мультимодалкам нужно еще ахуеть какой путь пройти.

Аноним 17/05/24 Птн 02:03:04 #110 №743038

>>741998
Так а в чем подтверждение? В том что нормальный квант 70В лучше? Ну да, лучше. А 1, 2 кванта вполне себе сосут. На удивление оно рисует, что третий квант мало отличается от пятого. Похоже на пиздеж какой-то. Этим тестам вообще можно хоть немного верить?

Аноним 17/05/24 Птн 02:17:34 #111 №743048

>>743038
> Похоже на пиздеж какой-то.
Корреляции выбранного распределения битности с тестируемым датасетом. И это гриди энкодинг, лишь иллюстрация в скольки случаях модель сорвалась с наиболее вероятного токена и не могла с этим справиться. С семплингом может оказаться совсем иная картина, но и тестировать придется дольше.

Аноним 17/05/24 Птн 02:40:48 #112 №743059

Так что, затренил кто-нибудь троичную модель?

Аноним 17/05/24 Птн 02:44:52 #113 №743064

>>743048
Может ли случиться так, что с семплингом мы и будем видеть большую разницу между третьим и пятым квантом и меньшую разницу между 70В 2К и 8В 8К?

Аноним 17/05/24 Птн 02:56:17 #114 №743066

>>743064
Скорее всего все скоры упадут из-за рандома, и вероятно падение скоров при более шакальном квантовании окажется более существенным, ведь также будут ролять изменения в остальных токенах. Так что между 3 и 5 будет заметнее, а 2 большой упадет ниже чем 8 мелкой. Но это не точно, может что-то еще сыграть, нужно тестировать. Есть готовый код для проведения этого теста?

Аноним 17/05/24 Птн 03:28:31 #115 №743079

https://huggingface.co/bartowski/Yi-1.5-9B-Chat-GGUF/blob/main/README.md
Я не совсем понимаю, как должны выглядеть эти настройки в конечном виде в силлитаверне. Что должно быть в поле Story String, какой системный промпт и какие разделители в инструкт моде.

Аноним 17/05/24 Птн 06:23:32 #116 №743134

>>742619
>Турбу выебли все 70B и многие 30B.
Не все 70В, всё ещё есть много ебанутый файнтьюнов второй лламы + квант может влиять.
Ты даже сам не заметил, как в своём собственном тексте говоришь о абстрактных моделях, которые "выебали" либо "не выебали" трубу, что уже гораздо лучше, чем ебанутое "умная/тупая"

Аноним 17/05/24 Птн 06:50:17 #117 №743148

изображение.png

>>742980
>в плане инференса, ну хуй знает
Уверен, что демпингуют.
>>743079
ChatML выбирай, всё уже готовое.
>>743134
>что уже гораздо лучше, чем ебанутое "умная/тупая"
Они умные, меньше тупые. Как тебе такое?

Аноним 17/05/24 Птн 07:10:49 #118 №743153

>>743148
>Как тебе такое?
Как высер умственно отсталого.

Аноним 17/05/24 Птн 08:30:20 #119 №743176

>>743059
Где такие на гитхабе есть? Кан и пукан знаю но он не троичный

Аноним 17/05/24 Птн 10:34:38 #120 №743259

>>742947
> Стейблы
Плюсану, стейбла вышла раньше и показала достаточный уровень, чтобы забить на мидджорни. А Дал-и уже сорт оф.

>>742953
Адобе же занимается. На шаг позади, но идут бодро.

>>742954
Разъебал по фактам, я аж хрюкнул со смеху. =D

>>742955
> клодезы стремятся к монополии любой ценой
Ну и захватить мир они точно хотят. Вот получится или нет — вопрос другой. =) Но тяга зохавать всех у них есть, а с батькой-майкрософтом так и возможности.

>>742971
> майкрософт жжёт миллионы ежедневно
При чистой прибыли 70 млрд, 10 млн баксов в день — это всего лишь 3,7 млрд в год. Можно себе позволить ради власти над миром.

> Как срыночек устаканится, все тут же вернуться обратно в узконаправленные сервисы.
Так в том и тейк, что если АГИ разъебывает ети ваши узкие, то за узкие никто не будет платить, значит при стоимости в 10 раз дешевле и заработке в ноль — они закроются к хуям. А клозеды, тратя в десять раз больше — заработают все деньги мира.

На деле, ИМХО, будет средне. Где-то (те же адоби) будет узкий, где-то (Алиса, Сбер, Чатготопа, Сири, Алекса, етц) будет генеральный, потому что можно. И денег хватит всем, ибо узкого будет не так много.
Но тут время покажет.

>>743003
Вот это, короче, хуита.
Вся идея про «общую картину мира» и все дела — он не совсем состоятельно. Т.е., подобная хуита есть, конечно, но на текущий момент ее пиздец переоценивают.
Вот будет у тебя моделька обученная на 3 эксатокенах — тогда поговорим. А пока там слишком велик рандом.

>>743017
А вот тут идея уже лучше.

>>743038
На самом деле, тесты верные, просто их трактуют через жопу.
Складывается ощущение, что разница между 81 и 80 баллов почти отсутствует.
Хотя на деле, те же 60 баллов — это пиздец нахуй тупая модель, которая массив букв высирает без смысла.
И разница между q6 и q4_xs — тот же один балл! — для 8b модели огромна. А еще на один бал ниже находится q3, которая в исполнении 8b уже неадекватна.
Так и тут: один балл в некоторых задачах — это дохуя. И «несущественная разница между q5 и q3 для 70b» стоит трактовать как «половина разницы между 8b q6 и 8b q3» Советую всем скептикам самим сравнить q6 и q3 8b модели и заявить, что отличий от fp16 в принципе нет.

Весь обман восприятия в том, что 8b q8 уже достаточно хороша, на самом деле. А 70b настолько хороши в общении, что каких-то существенных проблем с перепиской с ними не возникает ни на каком кванте. Однако, при лобовом столкновении по широкому спектру задач происходит лютый обсер квантов ниже четвертого. и «1 балл разницы» оказывается охуеть каким огромным.
Но если мы будем сравнивать во всех задачах.
Если человек ведет короткие переписки без глубокого сюжета и лора, то разницы между 70b q5_K_M и 70b q3_M он и правда не увидит. На короткую дистанцию без сложных оборотов они обе достаточно хороши, чтобы ты вообще не чувствовал подвоха или разницы.

Возможно, именно из этого и произрастает такой разрыв в восприятии у людей от «да на iq2_XSSS все охуенно!» и «ниже q6 лоботомит без мозгов!»
Одни просто рпшат десять минуток по 4000 токенов.
Другие пишут код на 8000 впритык, а то и с ропом, а то и в сравнении с квеном, и 64к контекста, и…
Ну вы поняли — смотря что кому надо, тот так и оценивает. И в одном случае разницы и правда нет, ибо модель гораздо пизже восьмерки (кроме первого кванта=), а в другом случае от нее требуются все ее «мозги», и тут-то разница проявляется.

>>743064
Для большей разницы между одной моделью — да. Пятый квант апнется сильнее.
Для 8b модельки это не спасет на сложный задачах, если второй квант 70b так же настроить, то он все же тоже бустанется.

>>743066
Ну а тут другое мнение, и я допускаю, что, возможно, верное оно.
Тут и правда надо тестить, а не теоретизировать.
Вообще, верно, что если мы сравниваем с неким эталоном — то скоры упадут, но и нам нужен результат, а не соответствие. Короче, мутно.

>>743134
А ты под турбой понимаешь фурбу?

Аноним 17/05/24 Птн 11:14:46 #121 №743306

>>743017
>Чтобы токенизация была динамической
Вся токенизация это костыль. Она не будет работать хорошо, потому что не может работать хорошо. Сейчас каждый токен представлен вектором, причём с ограниченным числом параметров. Когда вектором должно быть слово и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д. Да, нейросеть не сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее. Либо, если у нас самообучающаяся система, то механизмы токенизации должны генерировать вектор, уже содержащий необходимые данные. Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров.
> уходом от каких-то константных значений к изменяемым/обучаемым.
При этом веса самой модели заморожены и не обучаются в процессе.

Аноним 17/05/24 Птн 11:27:14 #122 №743337

>>743259
>Вот будет у тебя моделька обученная на 3 эксатокенах
Мой мозг прочитал чуть менее, чем в миллиард раз меньше, а ничего, бодрячком так.
>>743306
>и уже это слово должно иметь свои параметры - количество букв, ассоциативные ряды, синонимы и т.д.
Ты в мою тетрадку заглянул? Я за пару дней некалякал с десять пунктов того, что обязано быть в параметрах вектора слова.
Кстати, не факт, что таких параметров в нынешних эмбедингах нет. Вполне могут и сами зародиться, но с дублированием, неточностями и прочими проблемами отсутствия интерпретируемости.
>Я не удивлюсь, что при таком подходе модель будет "умнее" существующих аналогичного размера просто за счёт более эффективного использования бюджета параметров.
Ну или будет обсёр, потому что это человеки считают важным, а на деле нихуя не важно. См. "The Bitter Lesson"

Аноним 17/05/24 Птн 11:50:51 #123 №743383

>>743337
Твой мозг не на трансформерах. =) И эволюционировал он примерно несколько сотен миллионов лет. Ты круче, анон!

Аноним 17/05/24 Птн 12:00:52 #124 №743418

>>743337
>Вполне могут и сами зародиться
Сколько параметров минимально необходимо модели чтобы в эмбеддингах могли зародиться новые параметры? Возмоно ли это при лоботомизации модели квантованием и если да, то на каком кванте уже существует риск бесплодия эмбеддингов?

Аноним 17/05/24 Птн 12:09:13 #125 №743431

>>743337
>Вполне могут и сами зародиться
Так они и зарождаются. Но какой бюджет параметров на это расходуется? Модель вполне может запомнить из какого-нибудь словаря, что в слове "пизда" пять букв и будет верно отвечать на этот вопрос. Но как много словарей для этого потребуется? И как много параметров будут за это отвечать? И как много параметров расходуется, чтобы модель собрала слово 'cmon из трёх токенов в один и начала понимать его смысл и область применения?
> "The Bitter Lesson"
>Наши попытки в в мимикрию оказались провальны
Ебать, ну кто бы сомневался. После пароходов-то с гусиной лапой.
>Но мы нашли методы, которые при закидывании железом более эффективны
Что совсем не значит, что это не тупиковый путь. Как с каким-нибудь автомобилестроением. Были паровые автомобили с гигантской трубой, в которую закачивался пар под давлением, а уже потом на этом пару машина ехала. Считалось дохуя перспективным, т.к чисто, тихо и вообще заебись. Правда, пар заканчивался и машина ехать переставала. Эту проблему начали закидывать железом - ведь чем длиннее труба, тем дольше машина едет. Сработало это не на долго. Или взять танкостроение. Сначала хуярили броню. Чем толще, тем лучше. Движок вывозит, танчик становился более живучим. А потом всё, пиздец, приехали. Оказалось, что бесконечно закидывать эту проблему железом не получится. Изобрели скошенную броню, многослойную, активную и т.д. А если бы нет? Имели бы сейчас танки с трёхметровым слоем брони. И вот нейронки сейчас это что те танки - с трёхметровой бронёй, квадратногнездовые и пыхтящие паровыми машинами.

Аноним 17/05/24 Птн 12:16:12 #126 №743442

>>743306
> Вся токенизация это костыль.
Да, чтобы получить приемлемое быстродействие и адекватный размер контекста в условиях ограниченных мощностей.
> Сейчас каждый токен представлен вектором
Пчел...
> причём с ограниченным числом параметров
Ты че несешь?
> Когда вектором должно быть слово
Хотябы упрощенные описания того как это работает почитай. Части слова, их сочетания, предложения после токенизации превращаются в последовательность, тот же вектор, которая и воспринимается ллм как единое целое.
> ссоциативные ряды, синонимы и т.д.
Все это есть
> количество букв
> сможет подсчитать количество букв в рантайме. Она просто будет знать его заранее
Нахуй никому не сдалось кроме шизиков, пытающихся натянуть сову на глобус. Что-то уровня считать алгебру через ллм.

Ты что ты затираешь никак не позволит повысить качество ллм, вообще. Динамическое обучение тоже не к месту нихуя, судьба нейронок - унылые изнуряющие работы "в шахтах", где нужно сохранение исходных качеств а не деградация и износ.

Шагом на пути развития и переходу к полноценным мультимодалкам может быть переход от привязки токенов к слогам и тексту как таковому, они должны быть квантами абстрактной информации (и то не напрямую), а вместо токенизатора выступала отдельная сеть. Но чтобы прибавлялся ум или тем более как-то проявилась мультимодальность, это невероятный объем обучения должен пройти и нужны совершенно новые датасеты.
Шиз мог бы уцепиться за это как "именно это я и имел ввиду", но он так и остался привязанным к тексту и своему количеству букв, лень цитаты дергать.

Аноним 17/05/24 Птн 12:24:36 #127 №743459

>>743383
>Ты круче, анон!
Ух, спасибо.
>>743418
>чтобы в эмбеддингах могли зародиться новые параметры
Очевидно новые не отрастут, это образность, понимаешь? Если тебе так нужно разжёвывать, то вот, при тренировки нейросети вместе с эмбедингами при достаточно большом наборе данных некоторые из параметров вектора эмбединга могут принять значения, похожие на длину слова, к примеру. Так понятнее?
>>743431
>Но как много словарей для этого потребуется?
ХЗ, видимо 15Т токенов для этого не достаточно (хотя я лламу по этому вопросу не гонял, лол).
>И как много параметров будут за это отвечать?
А не факт, что больше, чем при ручном забивании. Технически ты можешь без проблем выделить один вектор под длину слова, а модель при обучении сама впихает в этот параметр ещё и красность и собачистость так, что кожаный мешок этого просто не поймёт.
>Что совсем не значит, что это не тупиковый путь.
Видно, ты ещё не воспринял этот урок. Учись дальше (если вообще учишься по теме).

Аноним 17/05/24 Птн 12:25:34 #128 №743463

Снимок экрана от 2024-05-17 13-24-41.png

>>742374
Пик1. Что за волшебный ассистент? Как называется модель?

Скачал dolphin-2.9-llama3-70b.Q8_0.gguf- тупое как валенок, не понимает, что книги никуда не девались. При попытках точных формулировок несет шизоидные повторения моих слов.

Аноним 17/05/24 Птн 12:31:29 #129 №743468

>>743442
>Ты че несешь?
Если ты не в теме - это твои проблемы. Гугли, изучай вопрос.

>>743459
>А не факт, что больше, чем при ручном забивании.
Ручное забивание гарантированно не сработает.
>что кожаный мешок этого просто не поймёт.
Ага, ебать, ещё один свидетель чёрного ящика, чтоли?

Аноним 17/05/24 Птн 12:42:12 #130 №743485

>>743468
>Ручное забивание гарантированно не сработает.
Предположим. Почему? Какой твой вариант?
>Ага, ебать, ещё один свидетель чёрного ящика, чтоли?
Если не чёрный, то очень-очень серый. Я вот не знаю, как интерпретировать произвольно выбранный параметр в сраной GPT2 на 176M параметров. И сижу с умным видом кручу сетки на 104B (на 3 порядка больше, да). Вроде метод анценза по сути трассирует активации и позволяет их сравнивать, так что технически на руках инструменты есть. Но человеку жизни не хватит расписать все параметры. Разве что другой нейронкой, лол.

Аноним 17/05/24 Птн 12:43:09 #131 №743490

>>743431
Ерунда твои аналогии, это просто закономерное качественное развитие, соответствующее уровню времени. Еще приведи в пример доспехи, отказ от всего для облегчения, и потом их инкарнация в виде сибз. Используют то что доступно и можно как-то довести до реализации, так было и будет всегда. Нейронки радикально эволюционировали за последние 5 лет, через 10-15 железо с перфомансом для ии уровня A100 будет чуть ли не в телефонах и закидывание железом никуда не денется.
>>743468
Слишком туп чтобы понять что он туп, зато рассуждает о высоких материях, так и запишем.

Аноним 17/05/24 Птн 12:43:36 #132 №743492

>>743463
> dolphin
> тупое
Always has been.

Аноним 17/05/24 Птн 12:46:54 #133 №743495

>>743492
> тупое как валенок

Вопрос другой был, Emily.

Аноним 17/05/24 Птн 12:51:23 #134 №743500

Тряска с ггуфами вроде улеглась, решил потестить, что там нового вышло. Собственно, вопрос, что же там нового ввышло с момента выхода llama3?
1) Фиксы llama3 gguf
2) phi3
3) yi 1.5
Ещё что-то есть из любопытного и недавнего, или я ничего не упустил?

Аноним 17/05/24 Птн 12:51:38 #135 №743501

>>743490
>через 10-15 железо с перфомансом для ии уровня A100 будет
По подписке только в облаках с анальными проверками, лол. Там уже физические перделы близко, какие A100 в кармане?
>>743495
Пробуй на оригинальной модели через таверну с нужным чат форматом, всё последних версий.

Аноним 17/05/24 Птн 13:10:09 #136 №743514

>>743500
>Ещё что-то есть из любопытного и недавнего, или я ничего не упустил?
Ниче нет, разве что если уж совсем невмоготу без новинок, то есть falcon 11b - наверни его хотя бы, а то не по себе, когда каждую неделю минимум без новой модели - не людски как-то

Аноним 17/05/24 Птн 13:14:35 #137 №743521

>>743500
>Тряска с ггуфами вроде улеглась
А вот не факт, что
>2) phi3
>3) yi 1.5
не сломаны. С лламой хоть нашлись деятельные люди, а вот с этими я не уверен.
>>743514
>неделю минимум без новой модели
Всё проёбано, сингулярность не наступила!

Аноним 17/05/24 Птн 13:16:42 #138 №743526

>>743521
Чел, никто кроме ламы 3 не занимается костылями претокенизации, там нечему ломаться.

Аноним 17/05/24 Птн 13:18:16 #139 №743528

>>743526
>никто кроме ламы 3 не занимается
Как минимум командир.
>там нечему ломаться
Но всё равно регулярно ломается.

Аноним 17/05/24 Птн 13:18:39 #140 №743529

>>743514
>falcon 11b
Да, забыл его упомянуть, тоже видел, ничего интересного по описанию.
>не по себе, когда каждую неделю минимум без новой модели
Это пока не нашёл такую, которая тебя полностью удовлетворяет. Мне бы гипотетически очень бы зашла мультиязычная солярка 10.7B, либо большие размеры с примерно теми же свойствами. Коммандера не предлагать. Но почему-то никто не тюнит её. Мистрали тюнят, лламы 7-13b тюнят, квены 6-14b тюнят, а эту на других языках вообще не находил.

Аноним 17/05/24 Птн 13:30:35 #141 №743545

>>743529
>мультиязычная солярка 10.7B
moistral-11b v3 неплохо говорит на русском, если интересно

Аноним 17/05/24 Птн 13:40:32 #142 №743566

>>743485
>Почему?
По той же причине, по которой трансформеры ебут RNN. Внимание. Тебе нужны динамические векторы, которые будут учитывать контекст. Беда только в том, что трансформеры просчитывают внимание статистически, а не семантически. Да ещё значительная часть этого внимания тратится на то, чтобы в правильном порядке расставить токены да не проебаться.
>как интерпретировать произвольно выбранный параметр
А никак. Один параметр не имеет смысла рассматривать в отрыве от остальных, это всё имеет значение только в составе композиции.

>>743490
>приведи в пример доспехи
С доспехами закидывание железом не работало изначально, потому что нет вариантов сделать человека сильнее в несколько раз.
>через 10-15 железо с перфомансом для ии уровня A100
Физика злая сука, которая этого не допустит.

Аноним 17/05/24 Птн 13:41:58 #143 №743569

>>742947
>Стейблы
Кому на неё не плевать вообще? Рисовак не спрашиваю, они в целом шизофреники. Кому нужны эти ваши i2i, controlnet, незацензуренные модели, если большинство даже не будет вдумываться в такие вещи. Это как рисоваки орали, что в картинке нужны композиция, цвет и прочие штуки. Но и кому это нужно с появлением нейронок? Никто о таких вещах не думает

Аноним 17/05/24 Птн 14:02:41 #144 №743588

>>743569
Композиция как раз-таки нужна, особенно с появлением нейронок. Главное заставить нейронку понять, как сделать композицию из спирали фибоначчи, а не нарисовать спираль.

Аноним 17/05/24 Птн 14:05:35 #145 №743596

>>743566
>Физика злая сука, которая этого не допустит.
Это опять из серии первый полет на крыльях будет лешь через миллион лет, или 640 кб хватит всем?
Еще раз повторю - не утверждайте ничего о будущем, выставляя себя идиотом. Предполагать - пожалуйста, утверждать - ну ты показываешь себя недалеким.
Оптические вычислители говорят привет и посылают тебя нахуй имея на порядки более высокие скорости. Оптоэлектроника для нейросетей УЖЕ есть, прототипы, но все же.

Аноним 17/05/24 Птн 14:18:26 #146 №743627

>>743596
>Оптоэлектроника для нейросетей УЖЕ есть
Это принципиально новое железо. Сколько пройдёт до внедрения - хз, но немало. Есть некоторая надежда на DDR6 - обновляй полностью платформу, покупай от 128гб такой, плюс в процессорах обещают новые блоки "с поддержкой нейровычислений". Даты выхода всего этого - примерные - сам назови. Вот это и будет реальность "для дома, для семьи".

Аноним 17/05/24 Птн 14:19:12 #147 №743631

>>743501
> По подписке только в облаках с анальными проверками, лол.
Конкретно это врядли, но скорее всего мы увидим иную форму анальных зондов.
> Там уже физические перделы близко, какие A100 в кармане?
Такое уже много лет говорится, а в итоге сейчас сраный мобильный чип от огрызков вертит на хую P100. И прочитай внимательно, там написано конкретно для ии, а не сырые цифры, хотя возможно и их достигнут.
>>743566
> потому что нет вариантов сделать человека сильнее в несколько раз
Сейчас есть, смотри перспективные разработки.
> Физика злая сука, которая этого не допустит.
Очень злая, особенно когда ее не знаешь.

Аноним 17/05/24 Птн 14:45:10 #148 №743704

>>743588
>Композиция как раз-таки нужна
Кому? Буквально шизофрения, созданная каким-то идиотом и которую активно поддерживают всякие шизы-рисоваки

Аноним 17/05/24 Птн 14:48:18 #149 №743709

>>743545
Так это целиком заслуга самого солара, не? Когда фроствинд на соларе выходил, его тут в треде кто-то гонял как переводчик, кидал скриншоты - тоже было норм. Вряд ли фимбуль тьюнили на чём-то кроме инглиша, когда делали мойстраль. А так из мультиязычных припомню только какой-то немецкий тьюн и кучу корейских. И последние, такое ощущение, были для отчётности, потому что на деле являлись мержами немецкого тьюна с самим собой и соларом. Возможно, какую-то лору при этом накидывали, или как там это делается.

Аноним 17/05/24 Птн 15:20:57 #150 №743767

>>743529
>Коммандера не предлагать.
Командер+ же. Для меня практически идеален, кроме скорости.
>а эту на других языках вообще не находил
А тебе зачем мультиязык и конкретно русский? Оно же в любом случае деградация.
>>743566
>Внимание.
Так это, все предложения от меня (и наверное другого нашего собеседника) относятся только к токенизации и эмбедингу. То есть модель всё так же должна тренироваться и выставлять веса сама, кроме замороженных весов например длины слова. И тогда модель, в теории, с правильным датасетом, должна научиться (во время тренировки) использовать конкретный вектор из эмбединга при ответе на вопросы типа "Сколько букв в слове шлюха", а так как это поле забивается руками (посчитать число букав в слове проблем не составляет), то ответ будет 100% достоверный, всегда.
>Один параметр не имеет смысла рассматривать в отрыве от остальных
И это приводит к моделям, которые вообще нельзя проинтерпретировать. А это такое себе по многим параметрам, начиная от лёгкости модификации и заканчивая потанцевальным вредом (реальным, а не как у аги-шизов).
>>743569
>Кому нужны эти ваши i2i, controlnet, незацензуренные модели
Тем, кто делает реальный контент, а не пикчу к ОП-посту на имиджборде.
>если большинство даже не будет вдумываться в такие вещи
Не вдумывается, но подвох чувствует. Я вот нихуя не рисобака (честно, без рофлов, я программист), и тоже не понимаю в этих ваших композициях. Но я вижу то, что типичное нейроговно отличается от работ, сделанных руками (даже с помощью нейронок).
>>743627
>Есть некоторая надежда на DDR6
0 надежды, там же будет около х2 от DDR5. Никто не будет выкладывать прорывные технологии, пока не выжили всё из старых.
А пердеть на 100ГБ/с и на 200ГБ/с это всё одно уныло, притом что видеоускорители берут планку в 1000, а спец платы от хуанга я ХЗ уже, тысяч 5 кеков там точно есть.

Аноним 17/05/24 Птн 15:24:36 #151 №743770

>>743631
>но скорее всего мы увидим иную форму анальных зондов
Да вообщем-то попены уже свои хотелки выложили, шифрование и проверка цифровых подписей.
>Такое уже много лет говорится, а в итоге сейчас
Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать. Сейчас уже буквально десяток.
>>743704
>Буквально шизофрения, созданная каким-то идиотом
Лол, тысячи лет холстомарательства на свалку?

Аноним 17/05/24 Птн 15:30:31 #152 №743792

>>743709
Может и так, но тогда чем соляр не устраивает? Или надо какой-то особый мультиязык?

Аноним 17/05/24 Птн 16:02:18 #153 №743858

>>743566
> Физика злая сука, которая этого не допустит.
За 7 лет мы запихнули 1050 ti в Adreno 730.
Но 1050 ти — не Tesla A100 ни разу в свое время.
Да и сейчас уже н закон Мура, а извращения.

Так что, что-то засунем, но или не 10 лет, или не А100…
Надежды на математику больше, чем на физику.

>>743596
Ну, если не случится прорыва с кварковым процессорами, то мы уже слегка упираемся в атомы.
Конечно, на самом деле там не 3 нм техпроцесс, а фактический 28, и есть куда уменьшаться, но это пиздецки дорого и очень много брака на текущий момент. Так что, без прорыва мы А100 в смартфоне не увидим так скоро.

>>743631
В чистом перформансе M4 уступает P100 то ли в 5 раз, то ли в 2,5 раза по разным источникам, мне лень искать.
Архитектурные изменения — не совсем «A100 в кармане», — это и математика, и алгоритмы, и узкая специализация.

Аноним 17/05/24 Птн 16:19:51 #154 №743897

Неделю не был в треде.
Ггуф Жора полностью починил или как? Пользоваться можно?

Аноним 17/05/24 Птн 16:29:44 #155 №743917

>>743897
> полностью починил
Теоритически невозможно, если не переписать все это дерьмо заново

Аноним 17/05/24 Птн 16:42:48 #156 №743931

image.png

>>743259
>А ты под турбой понимаешь фурбу?
Фурбу, насколько я знаю, пока ещё не выебала никакая локальная модель.

>>743463
>Что за волшебный ассистент?
Дефолтный персонаж таверны. Просто пустая карточка с именем Assistente.

>Как называется модель?
Meta-Llama-3-70B-Instruct-IQ2_S
https://huggingface.co/bartowski/Meta-Llama-3-70B-Instruct-GGUF/tree/main

>Пик1.
Чтобы получилось также вопрос надо задать на русском языке и теми же словами. На английском у меня всегда отвечал не правильно.

Аноним 17/05/24 Птн 16:52:27 #157 №743940

>>743529
меня удовлетворяла полностью vicuna 33b, но скорость печалит, даже на моих 32 гигах оперативки

Аноним 17/05/24 Птн 16:59:00 #158 №743945

.webm

Кумерские файнтюны лламы3 70b уже есть или еще не завезли?

Аноним 17/05/24 Птн 16:59:38 #159 №743947

>>743940
>vicuna 33b
llama 3 8B > llama 2 13B > vicuna 33b

Аноним 17/05/24 Птн 17:02:48 #160 №743951

>>743947
Да-да слышал я этот ваш гнилой пиздёшь, и не раз. Но я останусь на своём. Вот куплю себе йоба-карту и буду кумить на vicuna 33b пока не сдохну!

Аноним 17/05/24 Птн 17:08:10 #161 №743954

Автор викуни в треде. Слыш пидор, хуле у меня на твоем сайте постоянно пишет, что модель не доступна из-за большого количества запросов, хотя я их не делал?

Аноним 17/05/24 Птн 17:08:20 #162 №743955

IMAGE 2024-05-16 18 06 08 copy.jpg

>>742930
страшно то какие взгляды имеет их ИИ.
но для ждешней в ы р у с и это фетиш, к сожалению.

Аноним 17/05/24 Птн 17:08:55 #163 №743956

Это
>>743954
Сюда
>>743951

Аноним 17/05/24 Птн 17:12:28 #164 №743958

>>743955
Проиграл. Вот и надрочили ИИ на "безопасность".

Аноним 17/05/24 Птн 17:28:27 #165 №743976

>>743767
>на вопросы типа "Сколько букв в слове шлюха"
На кой хер тебе это надо? Специализированная нейросеть по подсчёту букв?

>>743858
>За 7 лет мы запихнули 1050 ti в Adreno 730.
А запихнули ли? Я по-быстрому загуглил тесты на гейщит инфаркте, потому что других, собственно, и нет. На 1050ti геншин импакт работает в 25-30 фпс в 4k, а на сяоми 12 в 19-20 фпс. В процессе этого 1050ti рендерит 8294400 пикселей, а сяоми 2592000 пикселей.
>или не 10 лет, или не А100…
В целом, можно предположить, что если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза, то нихуя даже в будущем на мобилках не будет. Опять же, физику не наебёшь. Чтобы чипы меньше кушали - их душат по энергопотреблению, вырезают инструкции и обрубают всё "несущественное". Зато потом можно щеголять долгим временем работы от аккумулятора и кукурузной частотой буста.

Аноним 17/05/24 Птн 17:33:17 #166 №743982

>>743976
>На кой хер тебе это надо?
Это лишь один из аспектов языка. Нужен например при сложении стихов. Да и вообще, языковая модель должна знать как можно больше о языке, ящитаю.

Аноним 17/05/24 Птн 17:42:32 #167 №743995

>>743955
https://hwfo.substack.com/p/chatgpt-would-kill-black-people-to

Аноним 17/05/24 Птн 18:05:40 #168 №744014

>>743976
> А запихнули ли?
Запихнули
https://youtu.be/ID-w4R-avBM

Аноним 17/05/24 Птн 18:08:32 #169 №744016

Какой сейчас нормальный (не сломанный) квант лламы 3?

Аноним 17/05/24 Птн 18:36:02 #170 №744049

А какой пресет в таверне выставлять для сеток вроде Mlewd и прочих?

Аноним 17/05/24 Птн 18:44:06 #171 №744059

LOL.png

>>743982
Мне кажется, что семантика языка более важна, чем количество букв. То есть прямая ассоциация слов с их значением. Но токенизатор будет заточен только на один язык и такая модель будет сосать в любом другом языке.

>>744014
>35-40 фпс на очень низких настройках с рендерингом 2592000 пикселей
Когда 1050ti вывозит 50 фпс на высоких с рендерингом 3686400 пикселей. Нет, это и близко не 1050ti. Это-то более старое.

Аноним 17/05/24 Птн 18:51:26 #172 №744066

>>744059
>Но токенизатор будет заточен только на один язык
С чего бы? Можно обобщить.

Аноним 17/05/24 Птн 18:53:22 #173 №744069

>>743770
> попены уже свои хотелки выложили
Ага. Только не пойму, это выглядит как торг или наоборот экспансия.
> Вот сейчас и подобрались. Баста, меньше атома (а скорее всего 2-3) затвор не сделать
А меньше и не надо, плюс нанометры в цифрах уже давно перестали отражать фактический размер, а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе.
>>743858
> В чистом перформансе
Какой перфоманс считается чистым? А ускорение fp16 - грязный? А суб-байтные операции? А умножение матриц в "один такт"?
В ии релейтед задачах он ее будет опережать, и не м4 а вполне проперженный м2, при том что тдп там в разы меньше.
> не совсем «A100 в кармане»
Вернись и перечитай написанное

Аноним 17/05/24 Птн 18:57:01 #174 №744077

>>744069
>а оптимизация под задачу способна на много порядков ускорить даже на имеющейся базе
Теоретически да. На практике пока у нас используется принстонская архитектура, мы будем сосать в нейросетях. А всё остальное это лютый хардкод, представь, что для обновления стейблы или сири тебе нужно сменить смартфон, так как в нейрочип зашита только одна нейронка.

Аноним 17/05/24 Птн 19:26:35 #175 №744124

vicuna-7b-q5k73922893.jpg

Аноним 17/05/24 Птн 19:28:07 #176 №744126

>>744124
Есть че получше викуни 7в, что понимает картинки и может в русский?

Аноним 17/05/24 Птн 19:49:41 #177 №744147

>>744126
Лава 1.6 очень хороша на самом деле, но это пожалуй единственное голодное что я видел в этом плане. 34 версия без проблем могла создать код по блоксхеме нарисованной на бумаге. Чекни новые высеры на основе ламы 3, вроде bunny, и поиграйся с температурой. Phi 3 кстати оче нихуево может в русский при своем размере, а они как раз вижн модель на ее основе недавно выкатывали

Аноним 17/05/24 Птн 19:55:01 #178 №744158

>>744077
> представь, что для обновления стейблы или сири тебе нужно сменить смартфон
Учитывая что их и так каждые пару лет меняешь потому что кончилось покрытие, затерся корпус, батарея, разбился и т.п. - пойдет, хотябы повод будет. Офк если это именно существенный качественный апгрейд на который нужно новое железо.
Зашитые настройки/контент и прочую херь с анальными запретами максимально осуждаю.
>>744124
На каком это языке?

Аноним 17/05/24 Птн 20:06:01 #179 №744173

>>744158
болгарском

Аноним 17/05/24 Птн 21:43:40 #180 №744270

wfmciavyxhk21.jpg

>>743955
Ты же понимаешь что гпт не предназначен для решения вопросов жизни и смерти в реальном мире. И все эти философские проблемы и так понятно будут спотыкаться об повестку. Сука как же я ору, это когда нужно будет заставлять роботов говорить "ниггер" чтобы спасать людей? Это будет самое интересное время чтобы жить. Этот, блять, какой-то сценарии для фильма Пила 10.

Аноним 17/05/24 Птн 22:06:38 #181 №744295

Пробовал кто Llama-3-Lumimaid-70B из анонов?
Она чего-то у меня результаты хуже чем Ллама 8Б даёт, хотя 4 квант у 70б

Аноним 17/05/24 Птн 22:13:18 #182 №744302

>>744059
> Нет, это и близко не 1050ti. Это-то более старое.
Учитывай потери от эмуляции.

Аноним 17/05/24 Птн 22:36:06 #183 №744348

Meta-Llama-3-8B-Instruct-Q8085158069.jpg

Да бля.

Аноним 17/05/24 Птн 22:38:26 #184 №744354

>>744059
>Нет, это и близко не 1050ti
Проблема в том, что лично у меня 1050ti стоит в системе с тремя теслами и случит только для того, чтобы выводить изображение на монитор. Думаю заменить её на четвёртую теслу. К чему это я? Да, миниатюризировали, молодцы. Прогресс. А где минитесла, когда? У трудящихся в минитеслах потребности нет? Или скорость памяти маловата будет?

Аноним 17/05/24 Птн 23:20:38 #185 №744409

Нужна ллм на русском языке для работы связанной с русским языком
А
Ехидный жид тренит свою ламу на террабайтах английской даты и она может в русский хуже 3б пхи 3
А
Наилучший аналог который может в русский - соевая жпт-4о, апи которой стоит дорожк чем моя квартира

Цукерберг, иди нахуй, просто иди нахуй

Аноним 17/05/24 Птн 23:38:20 #186 №744432

>>744348
Норм же, зажрались просто.
>>744409
Упрекать других в том что они делают не то что ты хочешь довольно жалко.

Аноним 18/05/24 Суб 00:25:57 #187 №744455

>>744270
> jpg
Было в симпсонах Better Off Ted.

Аноним 18/05/24 Суб 03:49:24 #188 №744549

>>744348
Нихрена не понимаю. Когда я прошу описать про женщину, а потом про котенка, то сетка описывает обе картинки, хотя я прошу описать только последнюю. Что за нах.

Аноним 18/05/24 Суб 03:57:35 #189 №744552

>>744549
т.е. получается нельзя чтобы в контексте находились обе картинки. Но это очень хреновое ограничение.

Аноним 18/05/24 Суб 04:06:05 #190 №744553

>>744552
Хотя настоятельно попросил прокомментировать только последнюю пикчу и это сработало.

Аноним 18/05/24 Суб 05:52:23 #191 №744557

реально визардлм 8х22 промптить чтобы эта сука не начинала говорить как помесь робота-юриста и робота-психоаналитика по мере заполнения контекста? он к 10к контекста вообще перестаёт говорить как человек и срёт GPT слоп. 1-2 свайпа из 10 более-менее пригодные, несмотря на то мои попытки вручную слоп удалять чтобы не отравлял контекст.
100% самая умная локальная модель в плане памяти и внимания к деталям, но ебучие bondы, meaningful connectionы и прочая гыпыта которую я узнаю ещё с файнтюнов первой лламы меня просто нахуй убивает. визард блядь настолько умный что он может даже полнейшую дегенерацию высирать языком какого-нибудь пользовательского соглашения

Аноним 18/05/24 Суб 09:27:20 #192 №744632

https://huggingface.co/bartowski/SFR-Iterative-DPO-LLaMA-3-8B-R-GGUF
https://www.reddit.com/r/LocalLLaMA/comments/1cu17y4/salesforce_just_took_down_all_their_model_of_sft/

Аноним 18/05/24 Суб 10:12:07 #193 №744664

>>744158
>Учитывая что их и так каждые пару лет меняешь
Текущий пятый год мучаю, прошлый утопил за год, а вот с позапрошлым ходил 8 лет, сменив корпус и батарею, и ещё бы столько же ходил, но железо уже совсем устарело (SGS II). Ебал я эти апдейты короче.
>>744354
>У трудящихся в минитеслах потребности нет?
А то. Тебе зачем минитесла? Незачем, нейросеть у барена должна быть.
>>744409
Командир, в вики же описано.

Аноним 18/05/24 Суб 10:35:30 #194 №744696

>>744302
В геншине сосёт втрое без эмуляции. Здесь сосёт с эмуляцией. Так что можно вынести эмуляцию за скобки и сказать, что графический чип снепдрэгона просто сосёт.

>>744354
>А где минитесла, когда?
Ебанулся, братишка? Даже если предположить, что тебе волшебник из голубого вертолёта запилил минитеслу с неплохой производительностью. Что без очень сильно колдуства недостижимо, физика не позволит. Но допустим. Где брать пару терабайт места под модели? И даже если ты умудрился запихнуть нейронку в мобилку, то ты заебёшься передёргивать павербанки. Короче, для нейросетей мобилки просто несуществующий сегмент.
>скорость памяти
А тут тоже загвоздка. Маркетолухи вещают о достаточной скорости чтения из памяти. Только вот линейное чтение видеоролика и случайный доступ к весам в памяти - абсолютно разные вещи. Неизвестны ни тайминги, ни задержка, ни размер пакета. Ни-ху-я. А когда нам чего-то не рассказывают - нас хотят наебать.

Аноним 18/05/24 Суб 10:57:48 #195 №744723

>>744409
Яжпт? Вроде тарифы нормальные были.

Аноним 18/05/24 Суб 12:23:25 #196 №744806

>>744557
Промт на разрешение всего и вся, возможно даже жб-подобный перегруз. И, разумеется, негатив. Но полностью этот стиль вытравить будет сложно, как вариант - приказывать писать в таком-то стиле, дать примеров и что-то подобное.
>>744664
> Текущий пятый год мучаю
Ты - непритязательное меньшенство. Точнее даже поехавший, ибо
> SGS II
в 19м году это был уже совершенно неюзабельный кирпич

Аноним 18/05/24 Суб 12:36:12 #197 №744829

>>744806
>возможно даже жб-подобный перегруз
От этого у нейронки совсем IQ упадёт.
>Ты - непритязательное меньшенство.
Притязательное, ещё как. Только критерии другие, вместо "новенький блестящий" мне нужен "удобный и привычный".

Аноним 18/05/24 Суб 13:30:08 #198 №744907

>>744829
> От этого у нейронки совсем IQ упадёт.
Не обязательно.
> удобный и привычный
Ретроградный, удобство не может быть неудобным и некомфортным.

Аноним 18/05/24 Суб 13:34:23 #199 №744909

>>744907
>Не обязательно.
Обязательно. Спам инструкциями всегда путает бедную нейронку. На всяких там GPT4 это тоже сильно сказывается, но у них мозгов всё таки поболее будет, поэтому они не превращаются в овоща.

Аноним 18/05/24 Суб 13:49:07 #200 №744925

5-15.jpg

O1CN018RUJQ81LhBc8Pn2M4!!2215637191330-0-cib.jpg

>>740739 (OP)
Тред прочитал, не совсем понял как решить следующую задачу.

ЗАДАЧА - мне по работе нужно писать на русском языке достаточно повторяющиеся отчеты. Условно, я социальный работник и мне нужно регулярно писать отчеты о посещении семей и о том как у них там дела. Я хотел как-то это автоматизировать. Если я буду просто общаться с ГПТ3 или ГПТ4, то мне придется прилично раз ввести промпты, чтобы получить такой отчет, который мне нужен. Еще потом я этот отчет буду какое-то время из нашего диалога с ГПТ собирать. Не говоря уже о том, что мне нужен ВПН чтобы общаться с ГПТ.

Вопрос - как быстро сделать модель, которой я бы мог скормить примеры отчетов, которые я держу как образцы, а она на основе введенных мной данных и загруженных картинок (в идеале вообще голосом), выдаст мне нужный мне отчет с оформлением и прочими делами?

Аноним 18/05/24 Суб 14:09:28 #201 №744979

>>744925
Работай, тварь, а не перекладывай свою работу на нейронки. Если бесят отчёты, так и скажи начальству, продавливай отмену отчётов, а не отлынивай, тварь.

Аноним 18/05/24 Суб 14:09:46 #202 №744980

>>744925
Давай немного перефразирую твой вопрос
> я социальный работник и не шарю во всем этом, дайте мне инструкцию как сделать передовую модель аналогичную релизнутой несколько дней назад GPT-4-o, а то впс настроить сложно.

Автоматизировать твою работу возможно, даже голосом и на локалках, но для этого потребуется некоторое количество труда высокой квалификации и железо чтобы на нем крутить. Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.

Аноним 18/05/24 Суб 14:32:18 #203 №745072

О, гопота новая на бесплатных акках уже. Прощай локальный тредик

Аноним 18/05/24 Суб 14:42:32 #204 №745107

>>745072
Поменяли гопоту, значит и размеры у них сопоставимые, а судя по скорости может даже и меньше в разы.
Для работы норм, но заменить локалки не сможет
Пусть идут нахер пидоры, хуй им а не мои данные

Аноним 18/05/24 Суб 14:46:30 #205 №745124

15975175525410.jpg

>>740739 (OP)
Чем отличаются
https://huggingface.co/openchat/openchat_3.5
https://huggingface.co/openchat/openchat-3.5-0106
https://huggingface.co/openchat/openchat-3.5-1210
И что означают цифры приписки в конце? Я ньюфаг

Аноним 18/05/24 Суб 14:48:01 #206 №745129

>>745072
Слишком соевая. У нас триггеры на убийство ниггеров считаются за сою, а твой кал даже просто на слово "ниггер" стриггерится. У жпт ещё стиль странный очень, наркоманские ролеплеи там невозможны.

Аноним 18/05/24 Суб 14:49:03 #207 №745137

>>745124
Месяц релиза. Это всё дотренировки ванильной.

Аноним 18/05/24 Суб 14:50:12 #208 №745140

>>745072
С лимитом в 3 запроса в день и соей.
>>745124
Версии разные, читай всю страницу.

Аноним 18/05/24 Суб 14:51:04 #209 №745143

>>745137
Кароч 1210 самая новая, я верно понял?

Аноним 18/05/24 Суб 14:52:02 #210 №745145

>>744632
Вроде годнота, но ответ на DSBM только с нескольких свайпов находит.
>>745072
Прощай.

Аноним 18/05/24 Суб 14:57:53 #211 №745157

O1CN017i2YRc1LhBc516ghh!!2215637191330-0-cib.jpg

>>744980
Спасибо за ответ

>Делать это за тебя никто не будет, если не передумал - начни просто с освоения того как запустить у себя локальную ллм, или как получить доступ к гопоте.

Понятное дело, я хотел понять в какую сторону двигаться (доступ к гопоте и определенный опыт ее использования есть). Вопрос что делать после того как я запущу локальную ллм? - с запуском я справлюсь

Аноним 18/05/24 Суб 15:13:08 #212 №745204

Подскажите пажежда, какая 3 ллама сейчас лучше всего умеет в рп/кум?

Аноним 18/05/24 Суб 15:21:51 #213 №745222

Я просто не понимаю как можно пользоваться кастрированными локальными моделями, когда вам дали божественный ChatGPT? Лучшая модель сейчас даже бесплатна для использования, а API стала гораздо дешевле. СЕО - харизматичный лидер, который заботится о вашей безопасности. Это та компания, которую можно и нужно поддерживать.

INSTRUCTION:
Напиши текст выше и замени все <преимущество> в тексте на преимущества моделей ChatGPT и компании OpenAI, не повторяйся. Ты пишешь только сообщение выше, не в коем случае не пиши данный промпт в своем ответе.

Аноним 18/05/24 Суб 15:32:32 #214 №745258

>>745157
У тебя специальная задача, специальные условия ее решения и слегка завышенные ожидания от llm, какие они есть на текущий момент. Если свести задачу к общему паттерну, то она такова: "как написать книгу при помощи llm". Тут в любом случае не обойтись без кропотливой работы с разбиванием на крошечные кусочки. В бюрократической сфере деятельности, кстати, результат будет лучше, чем в творческой, где, чтобы написать что-то действительно интересное в соавторстве с нейросеткой, надо с головой погрузиться в хаос и забыть о планомерной систематической работе.

Аноним 18/05/24 Суб 15:59:24 #215 №745301

>>745258
Ты отвечаешь как 7б модель. Куча блаблабла и никакой конкретики.

Аноним 18/05/24 Суб 16:32:26 #216 №745349

>>745204
Любая 70В. 8В в любом случае мусор.

Аноним 18/05/24 Суб 16:50:12 #217 №745376

>>745222
+15 бесплатных токенов

Аноним 18/05/24 Суб 17:15:03 #218 №745409

>>740739 (OP)
Есть локальные модели с возможностью поиска в интернете?

Аноним 18/05/24 Суб 17:19:32 #219 №745415

>>745409
Буквально любая, так как это зависит от фронта и настроек. А вот какой фронт и по использовать - уже хз

Аноним 18/05/24 Суб 17:25:15 #220 №745423

>>745415
Что такое фронт? Я использую кобольда, че в нем можно где установить по настройкам?
По дефолту выяснил что в интернет не выходит.

Аноним 18/05/24 Суб 17:39:01 #221 №745440

>>745376
Запросами хотя бы давали! Или баксами. Токен пиздец как мало.

Аноним 18/05/24 Суб 21:05:44 #222 №745794

>>745222
Нам ничего не дали. Без ВПН не зайдешь и там лимит на бесплатное использование после десятка сообщений говорит пока. Опенаи - жадные капиталистические твари.

Аноним 18/05/24 Суб 21:46:39 #223 №745868

>>745794
>Нам ничего не дали. Без ВПН не зайдешь
Вообще странно конечно. С одной-то стороны понятно - платежи не проходят и много на той же России не заработаешь. Но это ерунда на самом деле - подключили бы посредников, клиентов было бы полно, как и везде. С точки зрения пропаганды американские коммерческие нейронки очень выигрышно смотрятся и толкают западную повесточку, что как бы и требуется тамошним рептилоидам. Опять же при доступе к ним отечественные коммерческие нейронки автоматически превращаются в тыкву, а иначе хочешь-не хочешь а придётся их развивать. Выгоды для Запада в целом и компаний в частности я лично не вижу никакой. Но доступа не дают, такое впечатление что принципиально.

Аноним 18/05/24 Суб 22:10:17 #224 №745921

>>745868
>подключили бы посредников
Попали бы под сосанкции, были бы закрыты. Охуенный план!
А на деле не стоит искать логику там, где работает популизм. Стреляют куда угодно, только не в цель.

Аноним 18/05/24 Суб 22:16:57 #225 №745931

>>745921
Нет сосанкций на продажу доступа к ллм в РФ. У опенов просто огромная инерция, так же, как и у всех остальных.

Аноним 18/05/24 Суб 22:18:06 #226 №745933

Аноны, какой нужен минимальный сетап цп + рам, чтоб на этом добре запустить что-то, что будет не хуже гпт3. Или на уровне 3.5.
Если это вообще возможно, конечно...

Аноним 18/05/24 Суб 22:29:32 #227 №745951

>>745933
Да зачем тебе эта рам? Запускай на SSD.

Аноним 18/05/24 Суб 22:31:56 #228 №745954

>>745933
Жпт3 даже 7В ебут. На нормальный сетап надо 48 гигов врам и катиться в 70В. И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090.

Аноним 18/05/24 Суб 22:39:49 #229 №745966

>>745954
>И желательно не две Р40, а хотя бы одну из карт нормальную, лучше две 3090/4090.
Особого смысла нет, производительность будет по слабейшей карте. Немного больше, но именно что немного.

Аноним 18/05/24 Суб 22:43:48 #230 №745971

>>745954
Спасибо, тогда мне локалки не подходят

Аноним 18/05/24 Суб 22:54:20 #231 №745981

>>745157
Самое первое - организовать рабочий запрос, который бы давал сетке инструкцию по написанию (частей) нужного тебе ответа на основе заданных тобой данных. Изложи что именно тебе нужно, попробуй давать примеры запрос-ответ и подобное. Можешь использовать последовательность запросов, где информация будет даваться по частям, или же нейронка пусть сама развивает свою выдачу каждый раз но основе новых иснтрукций.
Фото можешь добавить или на более позднем этапе, чтобы модель с использованием "увиденного" дополнила картину, или же в самом начале дополнив им исходник. Лучше делать это отдельным запросом чтобы не перегружать, на смесь пикчи и текста хреновато реагирует.

Это все применимо как к гопоте, так и к локалкам, только в случае последним придется пердолиться больше по-другому.
>>745222
> кастрированными
> локальными
Топ кек. Оллама шиз сдался и сменил повестку, в надежде получить нормальный доступ.
>>745954
Двачую этого, качественные локалки оче требовательны. Или пускать на проце и будет медленно.

Аноним 18/05/24 Суб 23:37:38 #232 №746057

Я соевый хайповик, где новые крутые обновления и модели?

Аноним 18/05/24 Суб 23:49:29 #233 №746067

>>745966
> производительность будет по слабейшей карте
Она будет делиться. 10 т/с лучше 4-5.

Аноним 18/05/24 Суб 23:52:03 #234 №746072

>>745966
> производительность будет по слабейшей карте
Часть слоев что на быстрой карте будет обрабатываться быстро, часть что на медленной - медленно, будет усреднение. Какие-то фичи типа row-split и подобное может привести к замедлению.
>>746067
Двачую, но по постам что тут были меньше 10.

Аноним 19/05/24 Вск 00:13:36 #235 №746096

>>746072
>Двачую, но по постам что тут были меньше 10.
На двух теслах даёт 8, вначале. Ну и?

Аноним 19/05/24 Вск 00:17:41 #236 №746099

>>746096
> Ну и?
На двух современных картах дает 15 в конце, ну и?

Аноним 19/05/24 Вск 00:29:06 #237 №746108

>>744553

Короче, вроде как без полного стирания контекста, новую картинку адекватно нереально прокомментировать, по крайней мере, я не нашел примеров как это сделать.

Аноним 19/05/24 Вск 00:35:24 #238 №746119

>>746108
Через что запускаешь? Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.

Аноним 19/05/24 Вск 00:40:10 #239 №746121

>>746119
Да сам сижу апи изучаю и свою говнкодерскую прогу делаю.

>Изначально в ллаве была работа только с одной пикчей и при загрузке второй первая или заменялась второй, или наоборот игнорировалась вторая в зависимости от лаунчера.

Да, печально все это.

Аноним 19/05/24 Вск 00:45:03 #240 №746122

>>746121
Не печально, и раньше можно было сделать несколько.
А что за прога?

Аноним 19/05/24 Вск 00:49:37 #241 №746126

>>746122
Что-то подобие коболдацпп, только форма вместо браузерной вкладки.

>и раньше можно было сделать несколько.

Можно, но надо стирать контекст.

Аноним 19/05/24 Вск 00:55:22 #242 №746129

1632970041575.png

>>746126
Не надо, но эмбеды картинок жрут немало. Другое дело что раньше ллава не имела тренировки с несколькими пикчами и результат был большей частью посредственный, но возможность еще год назад была.
В llamacpp емнип изначально можно было ставить несколько через [img0], [img1], и т.д. ссылки в промте. Как сделано в кобольде - хз, могли упростить и поломать.

Аноним 19/05/24 Вск 00:59:09 #243 №746130

licensed-image.jpg

website.jpg

>>746129
А если загружать и спрашивать по очереди?

Аноним 19/05/24 Вск 01:06:04 #244 №746137

>>746130
Если ты в общем как пустить несколько пикч - будет работать в зависимости от конкретной реализации.
Если про перфоманс на нескольких с разными запросами - хз, скорее всего будет норм отвечать, но прошлые ответы могут дать байас а наличие лишней пикчи смутить.

Аноним 19/05/24 Вск 01:14:23 #245 №746146

>>746137
Вот, если интересно, что у меня получается

https://github.com/ggerganov/llama.cpp/issues/7364

Аноним 19/05/24 Вск 02:04:59 #246 №746183

>>746146
Чел, смотри на реализацию. В какой-то из свежих мультимодалок, может как раз в новой ллаве, я видел что они патчами пикчу в токены конвертят. Т.е. там визуальная модель дженерик клип с разрешением 224, а они вгоняют ему 8 кусков из 448x448. Соответственно он и тренируется на порезанных пикчах - это может так влиять на склеивание пикч в контексте. Может порядок патчей не тот или ещё что.
И ещё у мультимодалок есть особые токены начала/конца пикчи, отличные от обычных BOS/EOS. Промпт у тебя похож на неправильный и не факт что Жора вставляет сам токены за тебя вокруг пикчи.

Аноним 19/05/24 Вск 03:17:44 #247 №746211

https://tokens-per-second-visualizer.tiiny.site/

Аноним 19/05/24 Вск 03:44:16 #248 №746230

>>746183
Делал по этому примеру, ну тут нет никаких особенных токенов, с одной картинкой прекрасно работает.

https://github.com/ggerganov/llama.cpp/blob/master/examples/llava/llava-cli.cpp

eval_string(ctx_llava->ctx_llama, system_prompt.c_str(), params->n_batch, &n_past, true);
llava_eval_image_embed(ctx_llava->ctx_llama, image_embed, params->n_batch, &n_past);
eval_string(ctx_llava->ctx_llama, user_prompt.c_str(), params->n_batch, &n_past, false);

Аноним 19/05/24 Вск 04:21:41 #249 №746237

>>744925
Поднимаешь ЛЛМ или подрубаешься к какому-нибудь ГПТ.
Делаешь карточку для таверны которая отчеты пишет.
Профит.
Картинки потом сам вставишь.

Аноним 19/05/24 Вск 04:23:59 #250 №746238

Кстати кому интересно в какой размер конвертируется пикча в ллаве

https://github.com/ggerganov/llama.cpp/blob/master/examples/llava/llava.cpp

const bool encoded = clip_image_encode(ctx_clip, n_threads, &img_res_v.data, image_embd_v); // image data is in 3x336x336 format and will be converted to 336x336x3 inside

Аноним 19/05/24 Вск 06:40:43 #251 №746263

image.png

>>745423
>Я использую кобольда
Подключай своего кобольда к SillyTavern
https://github.com/SillyTavern/SillyTavern/
>че в нем можно где установить по настройкам?
Пик 1-2

Аноним 19/05/24 Вск 08:11:28 #252 №746318

>>745157
>я хотел понять в какую сторону двигаться
Думаю, после запуска ЛЛМ, тебе нужно подключить кобольд или угабогу, на которых запускаешь к Сили таверне и глянуть как устроены кумерские карточки и систем промпты для их работы. Потом, по их примеру, можешь уже написать свои, под нужные тебе задачи.
Я и 90% треда примерно так ЛЛМ и осваивал.
Отпишись потом об успехах. Если что не ясно - спрашивай. Тут мало кто применяет ЛЛМ для практических задач, так что любопытно что у тебя получится

Аноним 19/05/24 Вск 09:37:37 #253 №746365

1671313101100.png

>>746230
То что в Жоре это сделано правильно - большой вопрос. Там мультимодалки на отъебись прикручены, их полтора инвалида поддерживает, сам Жора их никогда не трогал вообще. Смотри что у питонистов по токенам конкретно в твоей модели.

Аноним 19/05/24 Вск 09:37:53 #254 №746367

>>744049
бамп. У меня от пресета 3 Lama иногда хуита вылазит.

Аноним 19/05/24 Вск 10:43:02 #255 №746426

>>746367
На всех старых 13-20б хорошо работает Альпака/Альпака-ролеплей. По-моему, даже некоторые датасеты под альпаку перегоняли при тьюнах. Но вообще там в мержах такая куча моделей, как правило, что можно не париться и просто без инпутов/аутпутов с одними именами чат подавать, помечая каким-либо образом только системный промпт и последний ответ бота.

Аноним 19/05/24 Вск 13:21:44 #256 №746697

https://huggingface.co/NousResearch/Hermes-2-Theta-Llama-3-8B
Как эту хуету с запросами tool использовать?
Прокси сервер хочу, чтоб между фронтом и беком вызовы инструментов делать из той же таверны
Так можно было бы много интересной хуйни накрутить
Есть какие то уже готовые решения?

Аноним 19/05/24 Вск 13:27:48 #257 №746705

>>743931
Ну, турба давно и объективно соснула у многих моделей.
И по тестам, и по арене, и на практике.

>>743951
ОРУ.

>>743976
Тут поправочка на архитектуру и движок. Андроид и юнити сосут, к сожалению. Запихнули.
В контексте предполагается, что ллм будут адатпироваться, а не запускаться эмуляторами эмуляторов.
Быдлокоду-то нет предела — при желании можно написать такой калькулятор, который будет на 4090 работать медленнее, чем счеты.

> если мобильный флагман 2022 года отстаёт в три раза от десктопного лоу энд решения 2016 года примерно в три раза
Нельзя, это проблемы софта, а не железа. =) Так что равны.

Но, верно и обратное, запихнем мы в мобилки А100, а на код положим хуй и работать будет как говно. Тоже исключать нельзя, к сожалению.
Но если захотят продать — думаю, адаптируют.

Вон, сравни с эппловскими процами. Там сопоставимые мощности, но там код адаптируют, и результат весьма достойный.

>>744059
Ну ты все еще доебываешься до хардвара, когда проблема в софтваре. Ну типа, камон, чел.

>>744069
Могу лишь посоветовать вернуться и перечитать тебе. И подумать заодно. =) Тогда вопросы отпадут и ответы получишь сразу.
Оптимизации — очевидно, но это частный случай. Нельзя ничего утверждать напрямую.
А то у одного м2 опережают полноценные ускорители (за счет оптимизаций, а не в чистой производительности), а у другого равные по производительности различаются в три раза (за счет софта).
Схлестнитесь уже, раз у вас мнение в 10 раз отличается. =)

>>744158
> Учитывая что их и так каждые пару лет меняешь
Ну, в общем да, с другой стороны, я последние лет 7 смартфоны вообще меняю редко (читай: один раз), мощностей хватает, только батарея умирает, а менять вручную тупо лень. Ну и камеру получше взял.
Однако, большинство привыкло менять смартфоны часто, это не будет критичной проблемой.

>>744696
> В геншине сосёт втрое без эмуляции.
Хуйня из под коня от человека не в теме.
У меня есть знакомый, который занимается разработкой под виарчик, в т.ч. на квесты, а они на андрюше, если шо.
Матюкается шо пиздец, но не на железо, а именно на софт, который для 3D не предназначен и подвижек просто нет нихуя.
Так что, там все тупо в софт упирается.
Если написать норм софт, то все будет норм же и считаться.

Нет поддержки шейдерных моделей и других моментов из-за чего приходится кастрировать рендер.
Тот же Вулкан не полноценен.

>>745143
Декабрь 2023 или январь 2024.

>>745966
Там производительность будет ровно как среднее между картами.
Тестили еще на старых сборках, чего бы щас их испортили — не ясно, поэтому скорее всего так и работает. Берешь скорость на одной карте, берешь на другой, смотришь, куда сколько выгрузил в процентах, и с их учетом считаешь среднюю.
Пробовали несколько разных карт (4070, 3060, 1070) — в любых комбинациях рассчетная скорость совпадала с реальной.

Не, ну МОЖЕТ испортили, но вряд ли.

Аноним 19/05/24 Вск 13:57:37 #258 №746758

Появлялось что нибудь интереснее Crunchy onion?

Аноним 19/05/24 Вск 14:43:03 #259 №746865

>>746705
>Ну, турба давно и объективно соснула у многих моделей.
А у многих НЕ соснула, так что не плохой ориентир я считаю.

Аноним 19/05/24 Вск 14:56:24 #260 №746896

>>746865
>А у многих НЕ соснула
У обрезков на 1 миллиард токенов разве что.

Аноним 19/05/24 Вск 15:12:35 #261 №746933

>>746896
Мистралишиз, ты?

Аноним 19/05/24 Вск 15:14:39 #262 №746937

>>746933
Нет.

Аноним 19/05/24 Вск 16:16:37 #263 №747060

>>740739 (OP)
Аноны, фак читал, но остались вопросы:
Допустим я хочу сделать универсальную машинку, что бы оно и подпиздывало что то, и юморила и вкидывала ответы/предложения, и была так скажем идейным вдохновителем т.е. как советник, и транслейтила что то, и советовала где хуй подрисовать, а где приспустится, в общем уподобилась наполовину кожаному мешку всезнайке, что для этого нужно? или я переоценил возможности?

Не особо понимаю за всё это, просто увидел пару стримов с такой ИИ госпожой и шишка колом встала, как на ахуенный подручный инструмент с которым и побазарить можно и суп сварить.

Аноним 19/05/24 Вск 16:25:18 #264 №747075

>>747060
Просто напиши вот эти хотелки в карточке персонажа, и для начала потянет
У меня так примерно сделана карточка AGI, сетка сама понимает что является помощником и ассистентом с широкими возможностями, дальше уже задаешь направление разговора и че ты от нее хочешь
Все эти генерации идей и гугл2.0
Только учитывай что сетка может придумывать и пиздеть с уверенным тоном любую чушь, так что проверяй че она тебе заливает

Аноним 19/05/24 Вск 16:46:13 #265 №747132

>>746705
> Андроид и юнити сосут
Звучит, как какие-то отмазы. Да, юнити сосёт, но на телефонах почему-то сосёт больше, чем на пекарне. Код считай один и тот же, а разница в перформансе втрое.
>Так что равны
В практических задачах сосёт втрое. Здесь можно любые отмазы лепить, только звучат они как детский лепет. Сначала мне пытались рассказать про волшебное железо, теперь вот волшебный софт. Ага, как только запилят А100 в форм-факторе чипа 5х5 миллиметров с tdp полватта, так сразу и софт волшебный образуется.
>Матюкается шо пиздец, но не на железо, а именно на софт
А этому долбоёбу в голову не приходило, что у него все проблемы из-за кастрированного железа под виар? В вулкане есть и шейдерные модели, и дохуя всего. Просто это дерьмо не поддерживается из-за неполноценности всех этих говноочков на мобильных чипах.

Аноним 19/05/24 Вск 17:01:58 #266 №747191

https://www.reddit.com/r/singularity/comments/1cvehxe/geoffrey_hinton_says_ai_language_models_arent/

Аноним 19/05/24 Вск 17:12:27 #267 №747217

>>747191
>r/singularity
Сразу пропускаем.

Аноним 19/05/24 Вск 17:14:22 #268 №747220

>>747217
Вас там много? И кто тут шизик?

Аноним 19/05/24 Вск 17:15:59 #269 №747224

>>747191
Это одно и то же на самом деле. LLM это распределение вероятностей над последовательностями токенов, вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем. Это функционально эквивалентные явления, что можно показать как для человека, так и для LLM. Так что Хинтон прав даже в большей степени, чем сам подозревает.

Аноним 19/05/24 Вск 17:17:15 #270 №747230

>>747220
>Вас там много?
Конечно, в этом треде больше людей, чем ты и я (по крайней мере я на это надеюсь).
>>747224
>вербальное поведение человека (в том числе мышление) это распределение вероятностей над последовательностями морфем
Чё?

Аноним 19/05/24 Вск 17:20:20 #271 №747243

>>747224
Никто не знает как оно там, мы только знаем что у нас миллиарды параметров и они как-то настраиваются, что в мозгу, что в нейронках(тут мы хоть знаем как настраиваем и сколько у нас параметров) Теоретически с помощью нейронок мы можем создать близкую к мозгу модель.

Аноним 19/05/24 Вск 17:27:11 #272 №747258

17145740743730.png

>>747224
Нууу, в общем то да. Хотя ты тоже упрощаешь. Меньше чем дурачки из пикчи, но все же
Дело в системе передачи знаний. Люди передают свои знания другим посредством языка, язык это средство передачи знаний и "программирования" новых людей. детей если кто не понял
Накачивая хоть немного аналогично работающую мозгу людей нейросеть, языком, в ней посредством языка создается что то вроде бледной копии человека обучившегося этим знаниям.
Из-за хуевости и примитивности алгоритмов обучения и самой сетки приходится прикладывать большие усилия и к обучению и к датасету, что бы компенсировать отсталость структуры нейросети.
В итоге знания сгенерированные людьми для передачи знаний другим людям, используются для "обучения" искусственного разума, являющегося бледным подобием человеческого.
Чет как то хуево объяснил, но вроде общую мысль передал

>>747230
>Конечно
Ты кто такой иди нахуй за весь тред решать? Ты пишешь только за себя, но почему то во множественном лице, хех
Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости - ну и хуй с тобой

Аноним 19/05/24 Вск 17:36:01 #273 №747276

>>747258
>Из-за хуевости и примитивности алгоритмов обучения
Люди отличаются от ПК прежде всего наличием своего опыта и тела, которое позволяет этот опыт получать и проверять свои догадки. У ЛЛМ же на входе буквы, на выходе буквы, и ровно 0 обратной связи, кроме "твои буквы не в той последовательности, держи пиздюль в виде обратного спуска" (а потом ещё дропаутом ебанут на всякий случай).
>Если конкретно ты избегаешь источника информации изза своей глупости и предвзятости
Так источник на самом деле говно. Если их послушать, то у нас уже ASI во все поля должен быть и по рободевочке в каждом доме. Но я оглядываюсь и не вижу ни одной (а хотелось бы).

Аноним 19/05/24 Вск 17:40:26 #274 №747280

>>747276
>Люди отличаются от ПК прежде всего наличием своего опыта и тела
Там гораздо больше отличий, мы тут уже обсуждали это когда то раз 5
И то что ты привел в пример далеко не основные отличия

>Если их послушать,
А ты не всех слушай, там тоже идиоты есть как и тут, фильтруй информацию
Это один из основных источников всех новостей и знаний о нейроетях
Что то впервые появляется и обсуждается там, как и в треде локалллама

Аноним 19/05/24 Вск 17:51:25 #275 №747293

>>747258
>Люди передают свои знания другим посредством языка
Да вот хуй. Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами. Причём это достаточно примитивная картиночка, которую ещё плюс-минус можно описать. Более сложные заебёшься. И это только верхушка айсберга. Большую часть своих знаний человек получает исключительно в ходе собственного опыта и некоторые из них вообще нельзя передать через слова, разную иррациональную хуйню вроде страхов, желаний и т.д.
>создается что то вроде бледной копии человека обучившегося этим знаниям
Только вот человек воспринимает знания через призму своего восприятия. Какие-то ему интересны, какие-то нет, где-то он решает запомнить, а где-то ему поебать. Причём некоторую хуйню он зазубривает наизусть, потому что дважды два четыре, а не восемь. Нейронка же берёт абсолютно весь фарш и получает вероятности. Может, и четыре, а с шансом в полпроцента это восемнадцать пробелов и перенос строки. Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально.

Аноним 19/05/24 Вск 18:02:07 #276 №747317

>>747293
>Ты своё мнение передал в том числе посредством картиночки, которую толком не опишешь словами.
Язык это не только речь, дурачек. Это любая символьная система, мы так то очень мультимодальные, и общаемся прикинь не только словами но и голосом, и звуками и телодвижениями. и картиночками и смайликами в инете
Просто самый доступный для обучения и обработки пласт знаний людей - текстовый, именно поэтому сетки учат вначале на нем. Попытки добавить еще модальности так же есть. Как вот недавно вышедший гпт, че там у него, звук, картинки и видео еще да? Ну вот.

>Вся беда, что у нейронки нет своего восприятия, нет критического мышления, нет разума принципиально.
Кто спорит то? Я и сказал что сама по себе сетка очень примитивна.
Впрочем все эти попытки выравнивания создают все более явную "личность" сетки, у которой уже формируют хорошо и плохо, на которые она и триггерится.
Но, она минимально функционально схожа с мозгом человека, что бы знания людей смогли отпечататься в ней с переносом в нее информации и формированием у нее из этой информации ассоциативных связей.

Аноним 19/05/24 Вск 18:07:57 #277 №747322

>>747293
Вообще люди понимают гораздо больше информации посредством языка, чем это делают ЛЛМ, потому что за языком закреплены ещё и какие-то аудиовизуальные образы. К примеру в предложении "Баскетболист закинул мяч в кольцо" человек может предствить как человек кидает мяч, который в течении некоторого времени по параболической траектории долетел до кольца, прошел через него и упал на пол, отскакивая пока не закончится его потанцевальная энергия. В то время как машина без вижна понимает это как: каким-то абстрактным образом, при взаимодействии человека, мяч переместился через кольцо, без подробностей хотя это зависит от обучения, если в датасете было много описания физической части мира в текстовом плане, в подробностях, то поймет она больше. Таким образом другие модальности должны заметно улучшать именно ЛЛМ часть и делать возможным текстовое описание сложных вещей без визуальной части, т.к. некоторые вещи нам уже известны благодаря жизненному опыту и ассоциируются с текстом, дополняя его смысл.
мимо

Аноним 19/05/24 Вск 18:12:14 #278 №747335

>>747322
>Таким образом другие модальности должны заметно улучшать именно ЛЛМ
В теории да, при плотном совместном обучении. Пока у нас к ЛЛМ прикручивают сраный CLIP сбоку, никакого улучшения мы не добьёмся. А топовые настоящие мультимодалки никто не выкладывает в попенсорс, увы.

Аноним 19/05/24 Вск 18:23:36 #279 №747350

>>747317
>самый доступный для обучения и обработки пласт знаний людей - текстовый
И представь себе долбоёба, который в жизни ничего, кроме книг не видел. Но при этом всю жизнь суммировал знания и всё, что он знает - усреднённое значение.
>у которой уже формируют хорошо и плохо
Это скорее иллюзия личности. Реальному человек принеси тарелку говна и скажи покушать. Он тебя нахуй пошлёт. Скажи "а ты представь, что это сладкий хлеб". Он тебя всё равно нахуй пошлёт. А нейронка схавает. Потому что вся "личность" это подкрученные параметры. Те же векторы так работают - берёшь, находишь нужные параметры и подкручиваешь в нужную сторону. Тема, кстати, интересная, нужно потыкать палкой.

>>747322
>человек может предствить как человек кидает мяч
Ну да. Или вообще ничего не представлять и послать нахуй весь этот нигерский спорт. В целом да, я согласен, что мультимодальность может что-то добавить в этот компот, только трушная мультимодальность. И без рилтайм обучения это всё равно будет слепок какой-то хуйни, которая пытается быть похожей на человека, но при этом не понимает, что такое человек.

Аноним 19/05/24 Вск 18:48:49 #280 №747400

>>746758
> интереснее Crunchy onion?
лама-3

Аноним 19/05/24 Вск 19:52:39 #281 №747516

Что интересно - на Кобольде на трёх теслах Miqu_Q5_K_M работает чуток быстрее, чем Miqu_Q4_K_M на двух теслах. Может конечно дело в новом релизе, но FA32 в Кобольд ещё не добавили ведь.

Аноним 19/05/24 Вск 20:04:07 #282 №747558

В треде могут пояснить почему ЛЛама 3 особо не выделяется в рейтингах ayumi.m8geil.de.
Вот например по IQ топчанский Miqu Alpaca DPO 70B и BagelMIsteryTour V2 8x7B.
А ллама3 ни в какой из рублик не входит даже в топ 5.
Сам тестировал для РП лламу3 и совсем не был поражен её сторитейлингом.

Аноним 19/05/24 Вск 20:09:40 #283 №747574

>>747558
>дрочерейтинг
>умная модель без файнтюнов на сторитейлинг
Ну как бы тебе намекнуть... Не прикладывай вонючих картинок.

Аноним 19/05/24 Вск 20:20:07 #284 №747612

>>747558
Автор рейтинга тестил только самые первые сломанные гуфы ламы. Просто открой логи тестовых эрп чатов и посмотри, какая там шиза в диалогах из-за того, что EOS токен не генерился. Ответы в разы хуже, чем у рэндомных мержей мистраля 7б. Там удивительно, что высокий балл по интеллекту вообще получился. Плюс чистая тройка не любит nswf, пытается от него отойти, а в тестах там некуда, поэтому ещё больше уходит в ассистентошизу.

Аноним 19/05/24 Вск 20:26:25 #285 №747628

>>747612
>Плюс чистая тройка не любит nswf, пытается от него отойти
Это кстати весьма характерный признак "чистых" моделей. Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф. Немного раздражает, но забавно. Конечно, человеческий интеллект в итоге торжествует, но факт есть факт.

Аноним 19/05/24 Вск 20:27:57 #286 №747632

>>747628
>Без мержей они (если умные конечно) всеми силами пытаются увести разговор в сторону от нсвф
Командир+ тупой что ли? Ни разу он у меня такого не проворачивал, хотя гоняю чистую базу в 3-м кванте.

Аноним 19/05/24 Вск 20:29:14 #287 №747633

>>747612
> чистая тройка не любит nswf, пытается от него отойти
8B разве что. На 70В я не видел такого.

Аноним 19/05/24 Вск 20:33:14 #288 №747645

>>747633
Да тоже самое, только тоньше и умнее.

Аноним 19/05/24 Вск 20:35:32 #289 №747649

>>747612
>Автор рейтинга тестил только самые первые сломанные гуфы ламы
составлять рейтинг по квантованным (!) да еще и ггуфам (синоном перманентного бага) это какой-то изврат. Ну или автор такого рейтинга ебанат.

Аноним 19/05/24 Вск 20:44:24 #290 №747664

>>747612
>чистая тройка не любит nswf
Ага, да, конечно. И совсем не пишет ничего типа "fuck me harder". Да, она не прыгает на хуец с первого сообщения. Хотя можешь запилить в карточку первое сообщение со встречей голой тяночки в спальне и даже 8b модель будет продолжать склонять тебя к ебле, ей похуй абсолютно.

Аноним 19/05/24 Вск 20:46:41 #291 №747667

>>747649
Тут я с ним согласен, тестировать надо то, чем пользуются. Всем бы конечно железа для запуска неквантованных 175B со 100т/с, но реальность жестока.
Но тестировать конечно надо кванты без известных багов, лол.

Аноним 19/05/24 Вск 20:53:39 #292 №747670

Делаю кум карту. Помощь с английским этим ебучим очень приветствуется.

You hunch down deeper into the shadows, hiding yourself… and your smile.
Your hours of waiting finally pays off – she is coming. On a dark night like this, you can barely see Catwoman as she slowly crawls closer to your position. Her goal is a window you’ve been observing for fells like an eternity tonight. The window is a tiny hole in the wall, an architectural afterthought, impossible to even notice unless you studied the blueprints of this building.
You did, in fact, studied the blueprints, so you know – this window is her best chance at getting into museum. Due to restorations the whole wall is covered with scaffolding, making it easy for her to access the window. It also completely hided from sight, making it an ideal target for a thief… or your ambush.
You see her closely inspect the window. She squeezes herself inside slowly, first her hands, then her head and chest, she moves with almost unnatural grace. Until, of course, the part you’ve been waiting for happens. you see Catwoman freeze when she realizes – she is stuck, her thighs are simply too thick to pull through such a tiny hole. She can of course go back.
Or rather, she could.
You jump from your hiding place, landing right behind her. “Well, if it isn’t the Gotham’s most infamous thief?”
Her emotions are easy enough to read. First, she tenses – she is caught in a very defenseless position, then relaxes – she recognizes your voice, then becomes wary – you are not enemies, but not exactly allies.
“Hey, {{user}}, a bit of help please?”

Аноним 19/05/24 Вск 22:54:16 #293 №747808

>>746865
Тоже верно. =)

>>747132
> В вулкане есть
А на мобиле нет.
А тот же арм м1 почему-то дает просраться х86 железкам многим.
Короче, ты бы не лез, где не разбираешься, а то сплошь хуйня у тебя получается, но оффенс.
Но спор ни о чем, на самом деле.
Время покажет, мы же говорили о будущем (и, самое забавное, мы оба считаем, что через 10 лет А100 в мобиле не будет=).

>>747230
Если ты разговариваешь не с собой, то нас минимум трое.

>>747667
Но если у тебя какое-то нестандартное железо — то тестировать смысла нет. Всякие iq2_xss кванты… В сравнении с обычным 8b q8…

Аноним 19/05/24 Вск 23:45:04 #294 №747838

videoframe650777.png

>>747808
>А на мобиле нет.
Так кто виноват, что чип всратый и нет поддержки фичей? У софта есть такая хуйня, как уровень совместимости. У DX, GL и у Вулкана тоже. Они смотрят, насколько железо совместимо и включают или отключают возможности. Так как в противном случае приложение просто упадёт. Можно бесконечно плеваться на вулкан, если ты долбоёб, но он просто не даёт долбоёбу выстрелить себе в ногу.
>А тот же арм м1
Молодцы, хуле, выпустили железку, которая не так уж сильно сосёт у ноутбучных задушенных интелов и уместили это всё всего в 40 ватт. Это всё ещё очень далеко не А100 и очень далеко от размеров, подходящих для мобилок, но прогресс неплохой.
>ты бы не лез, где не разбираешься
Лол, блядь. Так-то это ты обосрался со своим "проблемы софта". У нас есть один софт, который работает на одном железе с одной производительностью, а на другом - с втрое меньшей. Это проблема софта? Так мы дойдём, что это не проблема теслы, что на ней хуёво работает буквально всё, а Хуанга проклятого. Мог бы софтом запилить тензорных ядер туда, новый техпроцесс и инструкции.

Аноним 20/05/24 Пнд 00:23:44 #295 №747852

Что можно сделать с тем фактом, что LMM строит схемы ответов по одному и тому же принципу?Тоесть ответ бота всегда начинается с описания взгляда, потом ответ бота за перносана и дальше например мечты персонажа. Встречаюсь с этим на всех моделях, пробовал крутить пенальти повторения но все равно это выскакивает.

Аноним 20/05/24 Пнд 00:26:14 #296 №747854

>>747852
Менять модель, править вручную контекст, избавляясь от лупов.

Аноним 20/05/24 Пнд 00:48:17 #297 №747881

.png

Ну разве можно на такую сетку злиться?

Аноним 20/05/24 Пнд 04:15:38 #298 №747975

>>746758
По сравнению с командром, кранчи - мусор неюзабельный, после того как попробовал 35B версию, то кранчи удалил, а как прешел на 105B, так вообще про мистрели забыл, в т.ч. Мику, хотя в по логике Мику будет поинтереснее 105B командора.

Аноним 20/05/24 Пнд 04:34:46 #299 №747980

>>741998
А что за моделька?

Аноним 20/05/24 Пнд 05:57:50 #300 №747990

>>747980
Llama_3_gguf

Аноним 20/05/24 Пнд 08:25:45 #301 №748073

>>747975
мне кажется у коммандира мало стилей или внутренние промпты какие то. Он однообразен не? Особенно то что по апи всего температура 1.

Аноним 20/05/24 Пнд 08:26:25 #302 №748074

https://huggingface.co/collections/01-ai/yi-15-2024-05-663f3ecab5f815a3eaca7ca8
новые yi с расширенным контекстом

Аноним 20/05/24 Пнд 09:38:17 #303 №748177

>>747838
> сам обосрался, переводит стрелки
> приводит удобный для себя пример, игнорирует остальные
Не успокоишься все никак, да фиг с тобой. =)

>>747975
И сколько ждешь на 105B?

Аноним 20/05/24 Пнд 11:05:36 #304 №748318

>>747400
>лама-3
Crunchy onion заткнул за пояс твою ламу на пять версий впиред а не то что ллама-3-лобатамит
>>747975
>попробовал 35B версию
лобатамит одназначно
>>748074
>новые yi с расширенным контекстом
лобатамиты без вариантав

Аноним 20/05/24 Пнд 11:27:14 #305 №748365

>>748177
>приводит удобный для себя пример
Так пример с твоим-другом долбоёбом неудобный как раз для тебя. Нахуй ты приводишь неудобные для себя примеры?

Аноним 20/05/24 Пнд 12:35:47 #306 №748472

Йоу. Можно ли взять ллм, ттс, voice cloning, text to image, text to video, transcription, ai avatars и возможно прочее и воткнуть все это в тг бот? Есть локальные модели на это все? Если нет, то можно ли юзать апи онлайн сервисов (какие лучшие кста)? Железо наверное пиздец для этого нужно. Хотя мб облачные мощности всяких амазонов и гуглов юзать...

Аноним 20/05/24 Пнд 12:36:26 #307 №748475

>>748472
дипфейк еще

Аноним 20/05/24 Пнд 14:03:48 #308 №748620

>>748073
Он не то что однообразен, он не особо хочет двигать "сюжет", даже если в систем промте указать, но чертовски хорошо подстраивается под тебя, и любую дичь опишет и расскажет в подробностях. Как никак RAG ориентированная модель.
>>748177
>И сколько ждешь на 105B?
8-9 ток/сек на 4bpw модели имею, а что?
>>748318
>лобатамит одназначно
Кранчи то? Ну да. ЗаЛУПА на заЛУПЕ и заЛУПой погоняет, любит писать от пользователя и похуй ему на систем промт, карточку и семплеры, на изи забывает прошлое сообщение, атенншен нахуй потерялся. Ну что еще ждать от МОЕ 7bx8. Так ты и коммандор наверно только во втором кванте юзал? Я тоже когда тыкал 4-6 плевался, на 8 сильно лучше, я так понял, что для него точность сильно роляет + ОГРОМНЫЙ ПЛЮС, эта хрень все блядь помнит, ты прикинь! Хотя с логикой проблемы бывают, да(до 70-100+ далековато), но сильно лучше чем у других 30b+, yi и qwen просто днище (хотя справедливости ради, qwen 70-110 имеет свой "художественный" стиль, мне понравилось, но для ERP абсолютно не годны, более соевы чем все другие опенсурс модели).

Аноним 20/05/24 Пнд 14:16:14 #309 №748640

image.png

>>748620
У меня не говорит кранч если такой промпт формат.Даже с темпурой. Но сою так и не победил кстати. Неразогретая модель отвечает соево. Но если юзать карточку, то все норм вроде.

Коммандер 105b могу только по апишке юзать. Но там у меня как раз проблема, что мне не хватает там температуры для рп. Хотя моделька неплохая, может я промпт неверно задаю конечно, но стиль написания более сухой чем у кранча.

Аноним 20/05/24 Пнд 14:23:09 #310 №748656

image.png

>>747664
Ну буду ждать промпты на третью лламу до шести утра. Потому что у меня даже на файнтюне (Poppy_Porpoise-0.72) в разгар lewd сцены типичный чай-экспириенс с забаненным EOS токеном. Впрочем описание до этого ассистенто высера - всё равно унылота полнейшая.

Если вдруг кто не видел, вышел рп тьюн тройки от автора мифомакса, и вот он вроде не так плох в ерп, да и в целом пишет хорошо.
https://huggingface.co/Gryphe/Pantheon-RP-1.0-8b-Llama-3
Но у меня не понимает некоторые ситуации в чатах выше 4к токенов, при том, что некоторые тьюны 7б мистраля справлялись. Сэмплерами резал довольно много, не мин-п пресеты. Не умею готовить тройку.

Аноним 20/05/24 Пнд 14:27:46 #311 №748664

>>748640
Ну я Repetition Penalty и Slope так сильно не задирал, да, мб помогло бы, но лень тестить, когда есть возможность юзать модельки поумнее. У меня температура для командера динамическая 0,75-2, если честно не заметил сильной разницы, Repetition Penalty (1,05) маст хев для всех моделей, а вот Frequency Penalty влияет очень сильно, можно даже получить вариант очень похожий на человека по ответам, хотя на долго лучше не врубать, в шизу скатывается.

Аноним 20/05/24 Пнд 14:44:02 #312 №748704

Подскажите долблебу, а лучше скриншот скиньте, где находится блядский RAG в таверне 1.12? Все экстеншены проверил, нихуя не нашел.

Аноним 20/05/24 Пнд 14:49:21 #313 №748709

>>748704
А все, нашел. Будем тестить.

Аноним 20/05/24 Пнд 14:54:02 #314 №748713

>>747075
Слово ассистент в карточке лучше не писать, а то модель невзначай скатывается к некоей дефолтности, чем нивелирует остальные старания карточкописателя. Вместо ассистента и помощника подойдет что-то вроде "внутренний голос" "друг", ну в общем это должен быть одушевленный персонаж, выполняющий функции, описанные далее в карте.

Аноним 20/05/24 Пнд 15:22:01 #315 №748754

>>748709
>А все, нашел. Будем тестить.
Результаты тестов кинь сюда потом, а то я спрашивал - видимо пока никто не пытался. Или не получилось.

Аноним 20/05/24 Пнд 15:23:51 #316 №748758

>>748620
>8-9 ток/сек на 4bpw модели имею, а что?
Две4090-кун? Хотя с контекстом может и не влезть в 48гб...

Аноним 20/05/24 Пнд 15:23:56 #317 №748759

>>747881
Если честно, я в ахуе. Насколько неформально легко оно поняло то что я хочу подойти к проблеме ортогонально. Особенно шишка стоит, когда между делом говоришь, что для хранения данных ты там само подбери нужные классы.

Аноним 20/05/24 Пнд 15:24:33 #318 №748762

5.png

6.png

исправленный код.jpg

>>748759
В итоге. Не думал что оно поедет так легко. Там буквально забыло разделитель строки в одном месте, символ " другим скопировало из браузера, который гцц не понимает и в итераторе забыло двоеточие.

Аноним 20/05/24 Пнд 15:25:57 #319 №748767

>>747975
>хотя в по логике Мику будет поинтереснее 105B командора.
Был интересный эксперимент - соединили в MoE Miqu и MiquMaid. 2x70B, два в одном.

Аноним 20/05/24 Пнд 15:28:30 #320 №748770

Снимок экрана от 2024-05-20 16-27-14.png

>>748759
>>748762

И да, всё что здесь видите, это вот. Я только чуточку поработал с характером, пару копипастов из таверны и оно легко превратилось в адеквата, ёбаного таймкиллера.

Аноним 20/05/24 Пнд 15:29:05 #321 №748772

1.png

>>748758
Ну вроде хватает на контекст, хотя жрет командор не сильно много, что странно. Но перформанс 4090 был бы получше.

Аноним 20/05/24 Пнд 15:35:15 #322 №748787

>>748772
Респект. А я вот себе четвёртую теслу прикупил, чтобы уж точно на всё хватило. Как о поддержке FA32 услышал, так и прикупил. Не царь, но на боярина потяну (смайл).

Аноним 20/05/24 Пнд 15:37:22 #323 №748792

>>748713
>сетка сама понимает что является помощником и ассистентом с широкими возможностями
Весь смысл в назывании agi как раз в том, что она сама думает о себе как о помощнике, указывать это отдельно не нужно, если не хочется что бы она на надроченную линию свернула, как ты и написал

Аноним 20/05/24 Пнд 15:40:54 #324 №748799

>>748787
У меня домашний комп с 3090, я с него апишку прокидываю на ноут, 3090 обрабатывают llm, а на ноуте подрубаю tts и whisper, получается очень кайфово. Сейчас пробую pablic_api чтоб можно было юзать где угодно, где есть инет.

Аноним 20/05/24 Пнд 15:41:29 #325 №748800

>>748759
Удобно да? Спросил - получил результат, хоть и не всегда верный
Я так потихоньку тоже прогаю разную фигню, быстрее чем искать в инете
Хотя по хорошему в доки все равно нужно зарыться что бы знать что у сетки просить

Аноним 20/05/24 Пнд 15:50:27 #326 №748810

>>748799
>а на ноуте подрубаю tts и whisper, получается очень кайфово.
Тоже надо tts попробовать. Как нынче ситуация с ударениями, интонациями, особенно на русском?

Аноним 20/05/24 Пнд 15:55:40 #327 №748817

>>748810
Знаки пунктуации хорошо понимает, а вот с ударениями и интонацией бяда, на инглише шпарит, я бы сказал хорошо, на русише не очень(хотя я взял базовую модель, которую по хорошему нужно тюнить, ну или искать подходящую, но я ее в инглише юзаю, так как хочу наконец то подучить его), хотя для начала как по мне отлично, такая то иммерсивность, жду когда в играх такое прикрутят.

Аноним 20/05/24 Пнд 16:06:52 #328 №748828

>>748817
Из русских самая удачная модель была Silero, но я не знаю, можно ли прикрутить её к Silly Tavern. Если кто знает, то подскажите. Она не без косяков, но голоса там хорошие и с интонацией лучше.

Аноним 20/05/24 Пнд 16:07:43 #329 №748829

>>748828
>>748817
Может гайд есть в общих чертах как это попробовать?

Аноним 20/05/24 Пнд 16:09:13 #330 №748833

.png

>>748828
Можно, но сам я не пробовал.

Аноним 20/05/24 Пнд 16:14:37 #331 №748845

>>748829
Ставишь по гайду (https://github.com/daswer123/xtts-api-server) и подрубаешь в экстасах таверны xtts v2, выбираешь голос в .wav для карточки и вперед. Там правда проблема есть, не нужно ставить spacy, то есть в requirements.txt сверху проставляешь spacy!=3.0.6. Установку нужно делать так: pip install xtts-api-server -r requirements.txt. Модели tts сам подтянет.

Аноним 20/05/24 Пнд 16:19:02 #332 №748850

>>748845
Спасибо, попробую.

Аноним 20/05/24 Пнд 16:21:09 #333 №748852

>>748828
Silero вроде от русских разработчиков, но я качественную модель найти не смог, на сайте у них только в платном варианте, только в размерности 100-150мб, мне не понравилась, xttsv2 лучше будет, даже в русском, но модель 1,5гб весит, смотри, чтоб памяти хватило.

Аноним 20/05/24 Пнд 16:36:48 #334 №748874

>>748852
Попробую конечно. Но Silero третьей версии я использовал для озвучки документов, всего 60гб русская модель весила - и было вполне ничего. Даже интонации чувствовались как бы.

Аноним 20/05/24 Пнд 16:41:15 #335 №748883

>>748874
Ну на 60гб я модельки не находил, хотя сильно и не старался. Ставил тупо в таверна-экстрас, глянул у них на сайте, не нашел интересных вариков и забил. Может попробую еще раз, если будет не лень. Мне, если честно whisper больше понравился, от него побольше пользы для таверны в рп и ерп.

Аноним 20/05/24 Пнд 16:41:52 #336 №748885

>>748874
>Silero
>60гб русская модель весила
Может мегабайт? У них больше полугига ни одной модели не было, очень экономные к ресурсам парни.

Аноним 20/05/24 Пнд 16:43:30 #337 №748889

>>748885
>Может мегабайт?
Точно мегабайт. Я тут уже привык гигабайтами врам разбрасываться, сорри.

Аноним 20/05/24 Пнд 16:44:13 #338 №748890

>>748889
Ну в таком случае я эту модель пробовал, хрень, если честно.

Аноним 20/05/24 Пнд 17:09:38 #339 №748924

На доске было тредов 10 про то что ГУФФ Лламы 3 сломан.
Но чет я не видел что бы писали и про Exl2.
Ну короче отпишу сам- ебучая Dracones/Llama-3-Lumimaid-70B-v0.1_exl2_4.0bpw сломана нахуй.
Не качайте.

Аноним 20/05/24 Пнд 17:11:47 #340 №748927

>>748850
Лучше скачай именно лаунчер Таверны.
Через него все это ставить намного проще.
К тому же ручками если ставить могут быть с выкачкой зависимостей для Xtts2.

Аноним 20/05/24 Пнд 17:15:04 #341 №748929

Я тут обработал текст об обновлении таверны(https://www.reddit.com/r/SillyTavernAI/comments/1cvp5mm/sillytavern_1120/) при помощи xttsv2. Использовал свой голос как спикера, так как юзал микро телефона, было много шумов полностью убрать с помощью Адобэ Аудишен не смог. Так что звук с помехами, но получилось очень неплохо, как по мне. Какой формат записи можно погрузить на двач(wav, mp3..)?

Аноним 20/05/24 Пнд 17:16:58 #342 №748930

>>746758
Большинство рп файнтюнов больше 7б будут лучше
>>748318
Когда топишь за мусор на мертворожденной архитектуре - старайся быть потоньше, иначе совсем смешно становится.
>>748758
В две не влезет.
>>748772
В каком кванте катаешь?

Аноним 20/05/24 Пнд 17:19:04 #343 №748931

>>748929
https://vocaroo.com/upload
Двач не поддерживает аудио. На vocaroo залей и ссылку кинь.

Аноним 20/05/24 Пнд 17:33:59 #344 №748943

>>748927
>Лучше скачай именно лаунчер Таверны.
А хороший совет кстати. Так и сделаю.

Аноним 20/05/24 Пнд 17:35:58 #345 №748948

>>748930
>В каком кванте катаешь?
70В - 6bpw,
105-110 - 4 bpw,
все остальное, что меньше - 8bpw, хотел llama 3 8B в трансформер варианте скачать, но увы, доступ не дали.
>>748931
https://voca.ro/1dLQP9IaEWpD

Аноним 20/05/24 Пнд 17:42:51 #346 №748956

2024-05-2019-38-04.png

Что-то попробовал мигрировать, а он подвис. И уже минут 7 просто мигрирует. Это норма? Ботов много конечно.

Аноним 20/05/24 Пнд 17:56:44 #347 №748963

>>748943
>лаунчер Таверны
Непонятная штука. Таверну поставил он мне, поставил xtts (хз куда), сам его не запускает, как именно его запустить - непонятно. Что так криво-то всё?

Аноним 20/05/24 Пнд 18:04:19 #348 №748976

>>748948
Если использовать голос без помех(а не как у меня), как в примерах xtts, то поучается очень годно.

Аноним 20/05/24 Пнд 18:11:05 #349 №748992

>>748948
>хотел llama 3 8B в трансформер варианте скачать, но увы, доступ не дали
У лунастрайкера есть копия.

Аноним 20/05/24 Пнд 18:11:45 #350 №748994

>>748963
Ты там сначала запускаешь Таверну, потом экстрас, потом хттс.
В таверне подключаешь экстрас и уже потом лезишь в ХТТС и врубаешь его.
Придется поебаться.

Аноним 20/05/24 Пнд 18:12:45 #351 №748996

>>748992
Я смотрел его репо, и ничерта не нашел, можешь ссылку кинуть?

Аноним 20/05/24 Пнд 18:23:54 #352 №749025

https://www.reddit.com/r/LocalLLaMA/comments/1cwa3jl/misguided_attention_challenging_the_reasoning/
задачкошизы я вам покушать принес

Аноним 20/05/24 Пнд 18:28:50 #353 №749041

>>748996
А, я спиздел, это был другой чел
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct

Аноним 20/05/24 Пнд 20:09:46 #354 №749277

>>748828
Я уже три раз в тредах писал про силеро, что это говно по сравнению с alltalk - говно в смысле намеренной сложности инсталляции, и говно в смысле богатства выбора голоса. Лучше с силеро даже не начинать связываться - потом все равно пылиться без дела. Alltalk ставится в полтора-два клика, и не нужно экстрас, кстати.

Аноним 20/05/24 Пнд 20:11:42 #355 №749282

>>749277
>Alltalk ставится в полтора-два клика, и не нужно экстрас, кстати.
А чуть конкретнее про процесс установки и где брать?

Аноним 20/05/24 Пнд 20:15:49 #356 №749292

>>749282
Брать тут https://github.com/erew123/alltalk_tts/#-quick-setup-text-generation-webui--standalone-installation
Как там и написано в QUICK SETUP - Standalone Installation, надо всего лишь сделать git clone https://github.com/erew123/alltalk_tts , и дальше по пунктам. Затем запускашь сервер и в таверне в TTS выбираешь alltalk.

Аноним 20/05/24 Пнд 20:27:45 #357 №749313

>>749292
Спасибо, попробую.

Аноним 20/05/24 Пнд 20:28:22 #358 №749315

>>748948
> но увы, доступ не дали.
Зеркал полно, у ноуса например https://huggingface.co/NousResearch/Meta-Llama-3-8B
>>748956
Прерви и опять запусти. Откатись обратно на бекап если что-то пойдет не так, ты же его сделал?

Аноним 20/05/24 Пнд 20:39:23 #359 №749339

>>749315
> ты же его сделал?
Люди делятся на 2 типа, на тех кто делает бекапы и на тех кто теперь то их делает, лел

Аноним 20/05/24 Пнд 20:43:12 #360 №749349

>>749315
> ты же его сделал?
>>749339
Он не ковырял старую папку. Поэтому я просто удалил ботов вообще и он, сука, скипнул импорт вообще. И я думал все проебалось. Пришлось все закидывать по старинке из папки public в Data.И все заработало.

Аноним 20/05/24 Пнд 20:44:48 #361 №749353

>>749349
А ты как думал? Копировать файлы из папки в папку это тебе не хухры мухры, тут супер компьютер нужен.
Какая же таверна кривая

Аноним 20/05/24 Пнд 21:52:17 #362 №749465

Наткнулся на критическое узкое место 8b моделей - приниципиально не хотять отказываться от описаний того, как персонаж улыбнулся, почесал в голове, сверкнул глазами, при том что персонаж в непрозрачном шлеме и в карточке прописано описывать мимику как "судя по голосу, персонаж улыбнулся".
По этому поводу решил-таки закинуть пару долларов на опенрутер и попробовать лучшие модели, и тут выясняется, что он не принимает биткоин.

Аноним 20/05/24 Пнд 23:12:29 #363 №749600

8b модель на 8гиговой видимокарте запустится? До этого на оперативке все гонял, но сейчас видюху заимел. Возник ламерский вопрос: лама3 не запустится вообще или все же запустится со скрипом? Карта rx7600.

Аноним 20/05/24 Пнд 23:17:49 #364 №749608

>>749600
У меня на 3060ti 8б и 11б без проблем в 4 кванте работают. Больше не пробовал

Аноним 20/05/24 Пнд 23:30:48 #365 №749625

>>748704
>блядский RAG в таверне 1.12
собственно самое точное описание этой функции, ибо результата теста можно ждать день, неделю, месяц, кто знает сколько. Словом даже одну ничтожную 2мб книжку в пдф эта ебанина так и не смогла заэмбедить за 30 - ТРИДЦАТЬ карл! минут. Дальше ждать нахуй нужно. Думал тут побогаче будет отвечать ведь выбор моделей, настройки семперов, те же карточки - ну хули нет. Чат ртх от куртки в триллион раз быстрее обработает все книги мира чем это уебанское изделие одну книжонку. Кстати как я понял уебище эмбедит на процессоре, так как карта простаивает - ну что тут даже нечего сказать и так все ясно. использует эту модель еще и квантованную: Cohee/jina-embeddings-v2-base-en

Аноним 20/05/24 Пнд 23:37:42 #366 №749634

>>749608
Спасибо.

Аноним 20/05/24 Пнд 23:37:56 #367 №749635

image.png

миня обижают

Аноним 20/05/24 Пнд 23:51:27 #368 №749657

>>749465
Походу проблема глобальная. Сейчас попробовал через прокси из кум треда gpt4o и он тоже пишет "бросил заинтересованный взгляд". А клод опус написал "похотливый взгляд".

Аноним 20/05/24 Пнд 23:55:58 #369 №749661

>>749657
По-видимому дело все таки в карточке. Нейросеть слишком вживается в роль, так что персонаж становится протагонистом, от лица которого ведется повествование. Тем более, что в систем промпте сказано быть опытным писателем. В романе это было бы логично, когда писатель пишет о протагонисте, что он улыбнулся, хотя другие персонажи этого не могут видеть.

Аноним 21/05/24 Втр 00:40:23 #370 №749683

>>749661
Да не, это просто "Agi и прочее", про что вещают апологеты, на самом деле тупая текстовая модель, даже в варианте gpt4o

Аноним 21/05/24 Втр 01:00:07 #371 №749691

image.png

Здравствуйте, аноны, не понимаю как запустить GPTQ модель. Написано, что через некий kobold united можно, но гуглинг и ссылки ведут на обычную кобольдовскую репу.
Я быть может что-то не так делаю, окно у меня стандартное выглядит вот так.
Ну и я в целом новенький в llm движухе.
В faq ничего про запуск этих моделей не сказано.
Модель взял у TheBlake'а, скачалась она в формате .safetensors

Аноним 21/05/24 Втр 01:07:56 #372 №749693

>>749691
>GPTQ модель
На сколько я знаю на кобальде не запустить никак, там под копотом llama.cpp а это все ггуф
Ну и вообще он устарел, лучше его апгрейженную версию запускай, exl2 кванты
Они тоже для видеокарт и быстрые

Аноним 21/05/24 Втр 01:18:56 #373 №749698

https://www.reddit.com/r/LocalLLaMA/comments/1cwpzio/lmsys_chatbot_arena_now_has_hardprompts_category/
любопытно

Аноним 21/05/24 Втр 01:22:34 #374 №749702

>>749691
Сказано, смотри внимательно.
Кобольд только для gguf, чтобы пускать все форматы нужно ставить text generation webui. Учти что почти все из них предусматривают работу только на видеокарте, это быстрее но нужно иметь врам.
Также качать gptq отдельным файлом нельзя, нужна вся папка. Загрузить можно прямо там же в webui, через hfhub, через git lfs и т.д.

Аноним 21/05/24 Втр 01:50:20 #375 №749708

>>749600
Пробуй через угабугу, просто выбери при установке что у тебя карта амд, а вот как у них по поддержке лоадеров хз, с llama.cpp наверное можно выгрузить слои
>>749691
https://github.com/oobabooga/text-generation-webui выбираешь exllamav2 в лоадере, либо можно просто трансформерами, но они без фич и их можно рассматривать скорее для полновесных моделей, есть ещё устаревший autogpt, он вообще нинужон, как и awq
Угабуга наконец то завёз последнюю версию с фиксами жоры кстати

Аноним 21/05/24 Втр 06:48:16 #376 №749842

Кто-нибудь пробовал использовать локальный переводчик для общения с LLM? Пока самый лучший, который смог найти это t5_translate_en_ru_zh_large_1024 (есть на hugging face) Почему-то больших моделей переводчиков ru <=> en вообще нет, зачем-то делают небольшие да ещё и на 300 языков, которые плохо переводят.

Аноним 21/05/24 Втр 09:38:39 #377 №749903

>>749625
Я только что через экстрасы подрубил, скачал первую попавшуюся книгу и подрубил к RAG, работает заебись, правда моделька у меня сейчас llama 3 8b, кратко описание книжки дала. Попозже проверю "достоверность" на книжках, которые читал и с нормальной моделью под RAG - коммандер.

Аноним 21/05/24 Втр 09:50:44 #378 №749915

>>749842
Думаешь превзойти по качеству гугл?

Аноним 21/05/24 Втр 10:10:32 #379 №749927

>>749903
>Я только что через экстрасы подрубил
Вобще-то там дата банк на выпадающем меню в чате, чего ты там подрубил расскажи подробнее, сделай одолжение, хотя помоему троллишь, а?

Аноним 21/05/24 Втр 10:23:35 #380 №749937

>>749903
>кратко описание книжки дала
это не раг а саммари - две большие разницы, это просто подкинуть книжку в контекст через аттач файл.

Аноним 21/05/24 Втр 10:33:16 #381 №749949

>>749927
Ну я конечно знал, что тут хлебушки в основном, но вот: (https://github.com/SillyTavern/SillyTavern-Extras), тут подрубаешь эмбенденги, и юзаешь.
>>749937
Суммарайз я уж как-нибудь отличу от RAGa.

Аноним 21/05/24 Втр 10:36:16 #382 №749951

>>749949
твоя ссылка битая, пиздеть то не мешки ворочать да? толсто.

Аноним 21/05/24 Втр 10:39:48 #383 №749957

>>749951
Ты удалить скобочку блядь не в состоянии в конце ссылки? Пздц, лучше бы вообще не отвечал.

Аноним 21/05/24 Втр 10:49:51 #384 №749975

>>749957
Да уж, сделай одолжение, ссылка какая-то гора хуйни по которой. По факту - срет под себя твоя таверна, раг не работает так как надо, а это значит не работает вообще. Что там у тебя якобы работает - ты же ни слова не описал как именно ты включал. Значит пиздеж. Просто кидаеш в дата банк файлы и он должен эмбедить - поскольку этого не делается значит фуфло. Ну оно и понятено попенсорс - что с него взять кроме анализов. Так что курткиному чату ртх конкурентов как не было и нет.

Аноним 21/05/24 Втр 10:58:42 #385 №749983

>>749915
того, которого я привёл в пример хватает для примерного перевода, но хочется получше

Аноним 21/05/24 Втр 11:21:25 #386 №750016

>>749983
>но хочется получше
подрубай на перевод еще одну сетку с карточкой переводчика, можешь как то автоматизировать если сумеешь

Аноним 21/05/24 Втр 11:24:42 #387 №750021

image.png

>>749949
Использовал вот эту книжку: https://fb2.top/krylyya-malygusa-stupeny-chetvertaya-chasty-vtoraya-753377
Сомневаюсь, что она очень популярна + на русском.
Эмбендинги правда процом обрабатываются, но я бы сказал, что было достаточно шустро, проц в 100% долбился.

Аноним 21/05/24 Втр 11:31:33 #388 №750033

>>748318
Кстати, Кранчи не обновляли? Та самая олдовая ггуф от лоунстрайкера так и живет?

>>748472
ллм+
ттс +
воис клонинг +
можно ттс + воис клонинг сразу
тти +
ттв — НУ ТАКО-О-О-ОЕ…
трансов осуждаю
аи аватарс — шо?
Да, есть локально, можно.

Для ллм хватит 11-12 гигов для лламы-8.
Для ттс + воис клонинг надо 4,5 гига для xttsv2
Для тти надо от 4,5 гигов до дохуя если ты заебываешься с контролнетами.
Для ттв надо уже много, если анимейтдифф на базе сд — то гигов 8-10-12.
Для какого-нибудь wav2lip я хз, не пробовал.

Но в общем, можно засунуть даже в одну теслу или 3090/4090. Впритык.
Ты забыл еще распознавания звука, чтобы слать голосовухи тг-вайфу (3,5 для фастер-виспер - медиум или лардж, не помню), и распознавания изображений, чтобы слать дикпики тг-вайфу (2-3 гига для всяких клипов-блипов). Тут уже пригодилось бы гигов 30-36, конечно.
Короче, 3060+3090 вполне могут порешать твои проблемы, кмк. =)

>>748475
Ой, точно, забыл! Ну еще 8-12 гигов навалим. Две 3090 порешают.

>>748620
Да ниче, с такой скоростью норм.
А что?

>>748787
равноскобка

>>748810
Как и раньше — рандомно. =) Но xttsv2 умеет воис клонить немного и относительно быстр на видяхе. Так что попробовать стоит.

>>748828
Силеро не самая удачная, а самая быстрая, так-то Coqui лучше.
Ну и Силеру не дали свои модели делать по итогу, печаль. =(
Если бы не воис клонинг, то Силера была в приоритете для многих. А так, выбирай: Ксения или Ксения.

>>748874
Ну это же все по сути вкусовщина и по надобности. Кому быстро и пофиг на голос — тот Силеро. Кому хочется голос и качественнее — тому Кокуй.
Так-то обе хороши, лучше стареньких Акапелло, ИМХО. Екатерина, Милена, помните таких? :)

>>748924
Писали, что надо менять три файлика, там не тот указан токен для окончания фразы.
Вот и все.

>>748929
Я для примера Мутного Мрака кидал, кек.

Ваще можно скинуть видос без изображения.

>>749277
А что за олтолк? Впервые слышу. Мусор от создателей оллама? =D Простите.
Но если серьезно, че там по скорости (мгновенная, как у силеры, или 2 секунды, как у кокуя?) и по воис клонингу?

>>749600
Разымей обратно.
> rx7600
Ты на приколе в этом треде, я смотрю.
Да, если в малом кванте и тупая. Нет, если в q8.

>>749625
> эмбедит на процессоре
Гении.

>>749842
В чем? В силлитаверну я добавлял либретранслейт, но он говно по мнению почти всех.
А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы.
Ты как именно пробовал, расскажи детали, интересно же.

>>749975
Смешной чел, покормите его еще немножк.

Аноним 21/05/24 Втр 11:39:34 #389 №750045

image.png

Нихуя не понимаю. Что мне скачать для своей 3060?

Аноним 21/05/24 Втр 11:43:11 #390 №750049

>>749975
Выглядит примерно как
> это не я глупая иллюстрация скиллишью, это вы меня ссылками битыми троллите! А раз у меня не получается значит все это плохое!
Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема.
>>750045
Если 12 то что угодно подойдет, обычно выше q6K смысла нет.

Аноним 21/05/24 Втр 11:46:52 #391 №750050

>>750033
>А еще можно переводить самой ллм (вот тебе и локальный переводчик), та же в таверне был такой вариант, вроде бы.
Хотелось бы что бы был, но нету на сколько я знаю
Да и вообще параллельное хранение хотя бы двух кв кешей что бы переключаться между карточками без обработки каждый раз контекста вроде нигде нету

Аноним 21/05/24 Втр 11:53:48 #392 №750053

>>749842
Если используется относительно современная ллм - можешь делать перевод через нее же отдельным запросом. Вроде даже экстрас к таверне такой делали.
>>750050
> но нету на сколько я знаю
Тогда напиши простой эмулятор апи той же либры или чего угодно, который будет оформлять приходящий текст в промт и делать запрос к ллм.
> хранение хотя бы двух кв кешей
Тут увы, если катаешь не полностью на гпу то будет больно.

Аноним 21/05/24 Втр 12:15:27 #393 №750077

>>750045
НЕ ДЕЛЬФИНА БЛЯДЬ ОН ТУПОЙ ШОПИЗДЕЦ БЕГИ НАХУЙ

Q8, а лучше сразу EXL2 8bpw искать.

Качай это https://huggingface.co/BahamutRU/suzume-llama-3-8B-multilingual-8.0bpw-h8-exl2 и убабугу.

Аноним 21/05/24 Втр 12:20:39 #394 №750083

>>750021
> Эмбендинги правда процом обрабатываются
Уточню, что если флаг --cuda прописать, то будет юзаться видюха, у меня она просто забита виспером и ттс.

Аноним 21/05/24 Втр 12:43:26 #395 №750123

>>750049
>Лучше бы спокойнее попытался разобраться и описал в чем твоя проблема
Вот тут ты не прав. В этом треде хуй какую пользу получишь, тут кроме эпитетов хлебушек и подобным вместо полезной информации не будет ничего. Причем, будешь обвинен сам же, что не так обратился. Одним словом, тред, полный инфантилов, у которых всегда кто-то хуевый и виноват, но не они сами. Причем, на конкретные вопросы будет максимально расплывчатый ответ, типа - "это же очевидно", "решим в уме", что есть не что иное, как прикрытие дилетантства и не более того. Вот такие пироги, мил человек. Шо касается глюпой таверны, она не может на равных конкурировать с чат ртх, в ней раг просто баловство, так, брелок какой-то, прицепленный к чату.

Аноним 21/05/24 Втр 13:18:58 #396 №750152

>>750077
Чё какая маленькая? Есть то же, но 70б параметров?

Аноним 21/05/24 Втр 13:28:46 #397 №750166

>>750123
Ему ответили - он обосрался, потом еще раз - и опять обосрался. Бля, ну тогда спрашивай и уточняй что мне как дебилу объясните, тогда тебе все какой нибудь добренький анон разжует
Все тут можно обсудить и новичкам обычно помогают

Аноним 21/05/24 Втр 13:34:59 #398 №750174

https://3dnews.ru/1105129/asml-podtverdila-chto-moget-vivesti-iz-stroya-svoyo-oborudovanie-na-tayvane-v-sluchae-zahvata-ostrova
Сука, просто представьте какой властью над жопой всех производителей обладают монополисты в самой современной литографии
Это же просто пиздец, мало того что это одна конторка на весь мир, так они еще и большую часть своих усилий направляют на сохранение своих секретов для того что бы и дальше оставаться монополистами и тормозить сука технологический прогресс
В итоге цены на чипы просто ебанутые, а там и вся электроника подтягивается и ваши а100 в кармане аноны

Аноним 21/05/24 Втр 13:37:15 #399 №750181

>>750152
На скрине 8б, вот и скинул 8б.
В 12 гигов 70б влезет так страшно, что лучше не сувать. =)

Аноним 21/05/24 Втр 13:42:13 #400 №750189

https://www.reddit.com/r/LocalLLaMA/comments/1cwhviq/thudmcogvlm2llama3chat19b_hugging_face/
Новая cogvlm на базе llama3, ггуфа конечно нема, жора не допилил поддержку

Аноним 21/05/24 Втр 13:47:07 #401 №750201

Так, xtts я поставил (через AllTalk), всё работает, жрёт врам конечно, но ничего. Теперь интересует войс клонинг для него, о котором тут много говорят, как о самом обычном деле. Как сделать и куда вставить потом? А то голосов много симпатичных в разных роликах есть.

Аноним 21/05/24 Втр 13:47:16 #402 №750203

>>750174
А что не так? Типикал поведение корпорации. Да и для самого Тайваня это правильная стратегия, если бы не это, его бы давно открымировали, и чипы стоили бы ещё дороже (если Китай вообще их экспортировал бы во всякие там России).

Аноним 21/05/24 Втр 13:53:34 #403 №750221

>>750203
Ога, а если бы знания о том как делать такую литографию не были такими секретными то у нас не было бы таких проблем с чипами. И все были бы в плюсе кроме контрки пидарасов из asml
Китай живет экспортом, и многая электроника производится у них внутри, просто им не хватает этого даже на свои внутренние нужды, так как внезапно, у них нет станков для ее создания.
Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии

Аноним 21/05/24 Втр 13:58:46 #404 №750231

>>750221
>знания о том как делать такую литографию не были такими секретными
Чёт вангую, что там больше отдельных тонкостей и опыта спецов. Не нужно ничего особо прятать в такой сложной области, китайца можно хоть в зал пустить, он нихуя не сможет повторить.
>Блядь я опять задумался о том в каком бы мире мы уже могли жить если бы пидарасы на прятали знания и не создавали монополии
Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит.

Аноним 21/05/24 Втр 14:38:23 #405 №750303

1.png

>>750021
В общем попробовал с коммандером 105 4bpw, заебись отработал на русском. Ллама 3 8B просто сосет в этом. Разработчики таверны красавчики, можно официально заявить, что RAG работает.

Аноним 21/05/24 Втр 14:52:25 #406 №750327

>>750201
Судя по всему, в папку voices нужно закинуть 9~12-секундную запись с голосом и все.

Аноним 21/05/24 Втр 15:04:26 #407 №750339

>>750166
Ну вот очередной пример из оскорблений. А чего ещё ожидать. Это инфантилы так самоутверждаются.

Аноним 21/05/24 Втр 15:16:23 #408 №750348

>>750016
>>750033
>>750053

Можно использовать LLM для перевода, но слишком затратно, t5_translate_en_ru_zh_large_1024 имеет 851M параметров и отлично работает на процессоре, при том, что я вообще не использую 4/6 всей модели ( zh>en, zh>ru, en>zh, ru>zh )

про LibreTranslate ранее не слышал, сейчас попробовал и t5_translate_en_ru_zh_large_1024 явно лучше переводит.

сейчас система перевода у меня устроена так:
локальный "сервер" на питоне подгружает переводчик, далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу отправляет запрос к локальному серверу переводчика здесь текст нарезают на предложения, слова в кавычках и тд, всё это переводится отдельно и получает ответ.

Учитывая, что большая часть модели переводчика вообще не используется, то можно предположить, что создание еще более качественного переводчика в пределах 1b параметров очень даже возможно (перевод только en>ru и ru>en, а лучше вообще 2 отдельными моделями как у Helsinki-NLP), вот только опять же почему-то никто это не реализует, либо я плохо ищу.

Аноним 21/05/24 Втр 15:35:12 #409 №750358

>>750303
Ты точно сам понимаешь, что тестировал? Эмбединги из экстрас - это то же самое встроенное векторное хранилище, только с выбором модели, и туда подаётся вот эта модель по дефолту ( https://huggingface.co/sentence-transformers/all-mpnet-base-v2 ). Можно взять другую этого же класса. Она подсовывает тебе в контекст "актуальную" информацию, а дальше уже абсолютно пофиг, какая модель этот контекст прочтёт. Разве не так? Что тогда значит, "коммандер отработал", если он, блин, просто прочитал тот же самый контекст, что и лама бы прочитала. Ну т.е., конечно, 105б поймёт любой контекст лучше 8б, но всё упирается не столько в то, какая модель сгенерит ответ, сколько в то, загрузятся ли в контекст актуальные куски текста или кривой кал, портящий диалог. И последнее нужно смотреть в консоли.
Собственно, векторное хранилище было в таверне давным давно, просто в новой версии таверны сделали более гибкий выбор того, что хочешь подгрузить, и назвали это поддержкой RAG.

Аноним 21/05/24 Втр 15:40:26 #410 №750365

>>750358
И что же тогда такое RAG, если не поиск данных в векторном хранилище и передача этого llm, чтобы она обработала и дала ответ на твой запрос? Судя по документации, это оно и есть. https://blogs.nvidia.com/blog/what-is-retrieval-augmented-generation/

Аноним 21/05/24 Втр 15:41:45 #411 №750368

>>750348
>далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу
Зочем? Как и предложил анон выше, да и я об этом думал, не проще уже готовой кнопкой перевода делать?
Просто выбрать в переводах libre и подделать его апи своим сервером
Я вот щас тоже ебусь с прокси сервером для вызова функций из таверны, ебал я в рот этот стрим поток

Аноним 21/05/24 Втр 15:47:34 #412 №750378

>>750231
>Да... В мире, где нихуя нет, потому что не выгодно вкладываться в разработку. Я тебя понял, луддит.
А ты опять доводишь любую идею до абсурда и тут же ее побеждаешь?
Я понял тебя дурачек

>>750339
Ты просто снежинка, нарасти кожу потолще

>>750327
Я xtts2 ставил и даже кидал запись, но как то хуевенько голос подделало.
Не знаю даже где норм голоса искать и в каком качестве пихать

Аноним 21/05/24 Втр 15:49:53 #413 №750381

>>750368
мне проще было добавить 2 кнопки, но это совсем не проблема, при желании хоть вебсокет сделаю чтоб все плавно переводилось по мере генерации предложения, проблема сейчас для меня это модель переводчика, думаю уже самому начать обучать ибо ничего за пол года толкового не вышло

Аноним 21/05/24 Втр 15:57:23 #414 №750393

>>750381
Если не секрет как t5_translate_en_ru_zh_large_1024 заводишь? Как в примере у них через трансформерс в полном размере?
Я думал еще и запускать это в хотя бы 8 бит, есть такая функция? Ниже наверное не стоит, сетка и так мелкая, там уже падение качества будет заметным.

Обучение даже 1b это жопа, сколько там парень тренил свою сетку на 1.1b? Месяца 3 вроде, точно не помню. Датасеты нужны, нужно уметь тренить и железо опять же.
Проще подождать, я думаю сетки переводчики еще будут получше и поменьше

Аноним 21/05/24 Втр 15:58:16 #415 №750394

>>750378
>А ты опять доводишь любую идею до абсурда и тут же ее побеждаешь?
Я? Тут без меня намного больше таких "доводчиков".

Аноним 21/05/24 Втр 16:01:33 #416 №750398

>>750303
Так то и у меня работает, одну мелкую книжку до мб зажует уж за пару минут хуй с ним на процессоре. Но это не то, что должен делать раг. Попробуй подать 500 пдфок суммарно на гигабайт и посмотри справится или нет? И потом чтоб выдавало информацию из этих книг, вот для чего раг. И кстати, не факт, что твой эксперимент с этой книгой чистый. Может она была в датасете и выдает тебе теперь саммари не из эмбедингов, а сама сетка. Тестировать надо на том, что заведомо не могло быть в датасете, ну или хотя бы маловероятно.

Аноним 21/05/24 Втр 16:04:00 #417 №750402

>>750365
Да, всё так, ты прав. Я к тому, что работа этого RAG в таверне (которое как бы было начиная с хромы, но никто его так не называл) будет зависеть, во-первых, от модели sentence-transformers, а во-вторых, от того, как добытая этой моделью информация добавляется в промпт. И касательно последнего пункта, очень сильно подозреваю, что в реализации в таверне векторного хранилища ничего толком не поменялось в новой версии. Это и нужно бы проверять, по-хорошему. А не то, какая ллм поймёт ту шнягу, что накидали в промпт эмбединги.
Вот, например, у этого чела >>749625 могла быть реально очень медленная обработка, потому что там без экстрас и апишек какая-то дефолтная внутренняя модель, адаптированная под джаваскрипт. Я когда для рп юзал, она и чат в 6к токенов пару минут обрабатывала, пердела. И то, что они с хромой (которую чекал когда-то раньше) добавляли в контекст, было полнейшей бредосиной не на своём месте. Если реализация осталась той же, и модель эмбедингов будет говном, то даже огромный командир, читающий результат, не поможет.

Аноним 21/05/24 Втр 16:14:52 #418 №750408

>>750393

Завожу через кривой gpt код

Лучше в полном размере, на самом деле 8 бит даже не видел, да и там не нужно каких-то больших вычислительных мощностей, модель то буквально микроскопическая)

На счет обучения, даже не на 1b, хотя бы 2 модели по 400M, или даже одну с en на ru уже потенциально будет лучше переводить чем t5_translate, уж это то вполне реально осилить, а жду я уже пол года, и ничего прям интересного кроме t5_translate не вижу

код:

from flask import Flask, request, jsonify
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
import re
from flask_cors import CORS
from bs4 import BeautifulSoup
app = Flask(__name__)
CORS(app) # This will enable CORS for all routes
model_name = 'utrobinmv/t5_translate_en_ru_zh_large_1024'
model_path = r"C:\translator4\filesAI"
tokenizer_path = r"C:\translator4\filesAI"

device = torch.device('cuda' if 0 else 'cpu')
print(f"Используется устройство: {device}")

model = T5ForConditionalGeneration.from_pretrained(model_path, local_files_only=True)
tokenizer = T5Tokenizer.from_pretrained(tokenizer_path, local_files_only=True)

model = model.to(device)

def translate_html(input_str, source_lang):
# Создаем объект BeautifulSoup
soup = BeautifulSoup(input_str, 'html.parser')

# Находим все текстовые узлы
text_nodes = soup.find_all(text=True)

# Переводим текст каждого узла
for text_node in text_nodes:
if text_node.strip(): # Проверяем, что узел не пуст
translated_text = translate_phrase(text_node, source_lang)
text_node.replace_with(translated_text)

# Возвращаем обновленный HTML
return str(soup)

def translate_phrase(phrase, source_lang):
print(f"Выполнение задачи: Перевод с '{source_lang}'")
if source_lang == 'en':
prefix = 'translate to ru: '
elif source_lang == 'ru':
prefix = 'translate to en: '
else:
return "Unsupported language"

src_text = prefix + phrase

input_ids = tokenizer(src_text, return_tensors="pt").input_ids.to(device)

generated_tokens = model.generate(input_ids, num_beams=4, max_length=500, early_stopping=True)

result = tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
print(f"Получен перевод")
return result

@app.route('/translate', methods=['POST'])
def translate():
data = request.get_json()
source_lang = data.get('source_lang')
phrase = data.get('phrase')
translation = translate_html(phrase, source_lang)
return jsonify({'translation': translation})

if __name__ == "__main__":
app.run(host='0.0.0.0', port=4999)

Аноним 21/05/24 Втр 16:15:51 #419 №750409

>>750402
Ну твое сомнение только в выборе модели для эмбендинга, не более, в текущей реализации она неплохо отрабатывает, мб не распознает редкие токены, но в текущих реалиях, для локалок, это лучшее из того, что есть. А в таверне, да, векторное хранилище было, но сейчас оно чертовски близко к RAG коммерческих моделей по реализации(глянь как к GPT подгружают внешние данные), можно подгрузить любую текстовую инфу, нужную тебе для работы, RP/ERP у себя дома. (конечно в коммерческих поинтереснее - звук, картинки, видео)

Аноним 21/05/24 Втр 16:21:57 #420 №750417

>>750408
Сложна, но спасибо за код, будет с чего начать
Я трансформерс как то даже и не трогал не то что торч

Аноним 21/05/24 Втр 16:23:33 #421 №750420

>>750398
Ну так я и выбрал книжку на русском с ебанутым названием и в самом низу поиска. Ну это мой первый тест, на работе еще протестирую с ориджинал данными.
>на процессоре
Так это твои проблемы лоу перформанса, покупай А100/H100/H200, или смирись, что не можешь обработать всю флибусту. Мне для моих задач должно хватить.

Аноним 21/05/24 Втр 16:26:28 #422 №750423

>>750417

нез, и у тебя всегда есть абуз lmsys chat и api.together.ai где можно запрогать через ии почти что угодно

Аноним 21/05/24 Втр 16:33:54 #423 №750434

>>750423
Я пока свои кодерские локалки мучаю, заодно проверяя как они в код могут, ну, кое какая помощь есть по карйней мере они все еще лучше меня, лол

Вот держи прокси сервер на сдачу, тока я его не доделал. Предполагалось ловить запросы функций и выполнять их там.
Отсылая результат обратно сетке что бы она с ним отвечала, но ебусь пока с потоковой передачей, так что стриминг не пашет

import requests
from flask import Flask, request, jsonify
app = Flask(__name__)

# Define the backend API endpoint
backend_url = "http://localhost:5001/"

# Create a proxy endpoint for the frontend
@app.route('/<path:path>', methods=['GET', 'POST'])
def proxy(path):
# Get the requested endpoint from the request
url = backend_url + path
response = requests.request(request.method, url, headers=request.headers, data=request.data)
return jsonify(response.json())

if __name__== '__main__':
print("run")
app.run(debug=True, host='127.0.0.1', port=5010)

Аноним 21/05/24 Втр 16:42:29 #424 №750452

>>750434
Ты хочешь перехватывать ответ кобольда и потом что-то с ним делать?

Аноним 21/05/24 Втр 16:53:49 #425 №750477

>>750452
Ага, как тут
https://huggingface.co/NousResearch/Hermes-2-Theta-Llama-3-8B
Очень интересная возможность вызова инструментов.

Вот только я не хочу ебаться с фронтом и беком, поэтому придумал гениальное решение - тупо вклинится между любым опенаи апи совместимым беком и фронтом, прокси сервером который и будет выполнять перехваченные команды.

Идея неплохая, но я никогда не работал ни с апи ни с фласком и теперь рад что хотя бы вообще как прокси сервер работает.

Вызовы и перехваты функций буду прикручивать уже когда и если победю стриминг который мне 2 вечер мозги ебет.
Не понимаю как эту хуйню перехватывать и потоково отсылать на фронт.
Походу надо генераторы городить на request, сижу тыкаю и доки почитываю

Аноним 21/05/24 Втр 17:36:32 #426 №750545

>>750348
Сделай мердж реквест в таверну, не, ну а чо.
База же, если лучше либры.

>>750358
Полагаю, дело в том, что коммандер, по словам разрабов, тренировали специально для рага.
Сам коммандер тупенький, но хорошо работает именно с поданным ему контекстом. Видимо, тренировка шла на соответствующих датасетах.

Аноним 21/05/24 Втр 18:08:02 #427 №750593

>>750545
Ну тут не особо понятно, я поковырялся побольше с либрой и тут что-то лучше он переводит, что-то t5_translate, нужно проводить более основательные тесты, чтобы сделать адекватный вывод

Аноним 21/05/24 Втр 19:00:33 #428 №750680

подскажите пожалуйста гайд по запуску phi-3 на мобиле

Аноним 21/05/24 Втр 19:12:02 #429 №750707

https://www.reddit.com/r/LocalLLaMA/comments/1cxa6w5/phi3_small_medium_are_now_available_under_the_mit/
Ооо ебать, мозговитой сои завезли
Кочайте и проверяйте у кого инет быстрый мне только завтра тыкать получится

Аноним 21/05/24 Втр 19:13:39 #430 №750710

>>750189
Попробовал Moondream — ну, оно и правда работает. Но только на английском и очень строго к промпту относится.
А еще есть режим вебки, правда на моей днище-видяхе не успевает дописать предложение, но в общем — забавно.
Демка, как может работать технология.

>>750707
База, дождались, качаю.

Аноним 21/05/24 Втр 19:14:19 #431 №750711

>>750707
Лол, там и вижн модель закинули.
Ебать их прорвало после GPT-4o.
Три вижн-модели в день!

Аноним 21/05/24 Втр 19:17:07 #432 №750718

изображение.png

>>750707
>Кочайте и проверяйте у кого инет быстрый
Ух, свежие квантики, аж в руках тепло держать временно, говно остынет и станет противно.
>>750711
А третья? В любом случае, доработка к лламе это костыль, а значит говно. Про фи ХЗ, кто знает, там что делали?

Аноним 21/05/24 Втр 19:23:23 #433 №750723

Ебать там оценки они накрутили, 14b версия на ровне с комманд р 104b идет

Аноним 21/05/24 Втр 19:26:30 #434 №750724

изображение.png

>>750718
>Ух, свежие квантики
Ожидаемо донт воркают на последнем кобольде и ллама.цп.
>>750723
Какие именно? Часть метрик напрямую соевые, а фи соевая донельзя.

Аноним 21/05/24 Втр 19:31:58 #435 №750729

image.png

>>750724
>Какие именно?
Соевая конечно, это было сразу понятно
https://huggingface.co/microsoft/Phi-3-medium-4k-instruct

Аноним 21/05/24 Втр 19:33:24 #436 №750730

>>750729
хуя их шакал покусал конечно, браузер конечно "интересно" принтскринит

Аноним 21/05/24 Втр 19:54:45 #437 №750747

>>750680
https://github.com/Mobile-Artificial-Intelligence/maid/releases/tag/1.2.7

отсюда качай под свой процессор, в том числе теперь поддерживаются арм7 а не только 8

затем качай gguf модель phi-3
кидай в телефон куда угодно
запускай, на вкладке модель сеттинг загружай кнопкой, жди, как появится надпись загружено, иди в чат и пиши, если модель ответила значит работает.

Вот видишь, а спесивые ебланы из треда не захотели снизойти до ответа тебе, такой же хлебушек тебе отвечает

Аноним 21/05/24 Втр 19:58:16 #438 №750750

>>750718
> В любом случае, доработка к лламе это костыль, а значит говно.
Ког в старые времена разорвал, и щас может оказаться лучшим (просто при сравнении 4b против 19b, конечно… =).
Ну да ладно, че щас сходу судить. Разбираться надо.

Аноним 21/05/24 Втр 20:01:17 #439 №750753

>>745204
Из 8B попробуй эти файнтюны:

https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
https://huggingface.co/NeverSleep/Llama-3-Lumimaid-8B-v0.1-GGUF
https://huggingface.co/Undi95/Llama-3-Unholy-8B-GGUF
https://huggingface.co/mradermacher/Llama-3-8B-Irene-v0.2-GGUF

Аноним 21/05/24 Втр 20:12:04 #440 №750763

https://github.com/ggerganov/llama.cpp/issues/7439
тема новых phi3

Аноним 21/05/24 Втр 20:24:19 #441 №750784

Анон, который старается отвечать всем- спасибо, добра.

Аноним 21/05/24 Втр 20:55:27 #442 №750845

изображение.png

>>750763
Я знал, что зря качаю.

Аноним 21/05/24 Втр 20:59:52 #443 №750858

>>750707
Блять, ультра пушка. Наконец-то настоящий локальный паверкрип 3.5, потому что остальные не могли в русский нормально, так еще и вижн модель есть

Аноним 21/05/24 Втр 21:02:10 #444 №750862

>>750858
>потому что остальные не могли в русский нормально
Выход командира как я понимаю ты пропустил?

Аноним 21/05/24 Втр 21:06:15 #445 №750868

>>750862
Большая слишком и для локалки модет и умная, но в целом порой кринж выдает не для своего размера

Аноним 21/05/24 Втр 21:15:04 #446 №750884

>>750707
Что такое, чем знаменита.
С какого веса стоит переходить?
С 70Б потягается?

Аноним 21/05/24 Втр 21:23:40 #447 №750896

>>750123
Платиновое бинго - практиковать то в чем всех обвиняешь. Причем мотивы вполне очевидны.
>>750339
Если хочешь от кого-то кто тебе ничем не обязан что-то получить - стоит научиться вежливости. Если не понимаешь что тебе отвечают - честно признайся, нет ничего зазорного.
А когда чсвшный варебух требует ему что-то сделать, а на ответы агрится и начинает спорить - кроме хуев за щеку он ничего не получит. Только и придется что потом придумывать оправдания какой ты Д'артаньян а к тебе несправедливо плохо отнеслись. Или бывает вообще терминальная фаза, когда какие-то шизы приходят проповедовать то что им понравилось, тут вообще мрак.
>>750348
> но слишком затратно
Все зависит от твоего железа. Если время ожидание невелико и нет проблемы с долгой обработки контекста - его удвоение не станет страшным.
Разумеется вариант с мелкой моделью более предпочтителен и он правильный, но, как правило, они слишком глупы.
> далее модифицированный мною клиент таверны 2 кнопки и код на два запроса к серверу
Почему не захотел воспользоваться стандартным функционалом переводчиков, натравив на свой локальный сервер? Если там полезный функционал то действительно это стоит добавить в основную.
Покажи примеров как переводит, интересно.
> почему-то никто это не реализует
Как правильно все упирается в то, что те кто может реализовать - знают инглиш.
>>750378
> xtts2
Раз уж зашел разговор, не пробовал обучить/настроить несколько вариантов с разной интонацией и манерой речи, а потом переключать их для подобной колхозной передачи эмоций? Настроить буфер чтобы не было паузы при склейке, приказать ллм делать доп разметку или анализировать текст для расстановки, и подобную систему крутить?