24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №41 /llama/

 Аноним 13/02/24 Втр 18:02:39 #1 №641598 
Llama 1.png
Деградация от квантования.png
Альфа от контекста.png
Сравнение эффективности и потребления.png
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>635452 (OP)
>>628658 (OP)
Аноним 13/02/24 Втр 18:08:03 #2 №641603 
>>641552 →
>а основной выход изображения через встройку.
Где-то с десятки всё пофиксили, и достаточно просто воткнуть кабель, а выбор видяхи для запуска ПО осуществляется в местной панели управления, что позволяет даже играть без проблем.
>>641560 →
>дружбы с серверным оборудованием
Это просто тот же десктоп, просто с немного другими чипсетами. Если не брать двухпроцессорные конфигурации, проблем не будет вообще.
>>641590 →
>если количество потоков на проце не решает для llm
Ваще похую на потоки.
Аноним 13/02/24 Втр 18:14:33 #3 №641614 
>>641602 →
>взять 20 слой и напичкать его более большим количеством экспертов
>>641608 →
>купил б/у ASUS x99-E WS
Моё уважение
владелец простой ASUS x99-E, который безработный и которому лень брать P40, потому что в первый раз заказ отменили
Аноним 13/02/24 Втр 18:20:29 #4 №641623 
>>641602 →
> можем например взять 20 слой и напичкать его более большим количеством экспертов
Профит с этого какой?
>>641608 →
О, кайф, наконец можно будет ясность внести. Сэмулировать х4 шину можно будет просто выставив в биосе ограничение на 1-е поколение протокола, чтобы не сравнивать данные на разном железе.
>>641603
> и достаточно просто воткнуть кабель
Какой кабель? И куда пихать кабель с теслу?
> тот же десктоп, просто с немного другими чипсетами
Под шинду на теслы-квадры и прочее отдельные драйвера, и они могут конфликтовать друг с другом и требовать вмешательства. Под линукс просто добавляешь репу нвидии и apt install cuda вне зависимости от того что у тебя там.
Аноним 13/02/24 Втр 18:22:42 #5 №641626 
>>641614
>>>641602 →
>>взять 20 слой и напичкать его более большим количеством экспертов
Цитату не забыл, ответ забыл. Нахуя? А главное зачем. Интересно конечно, но звучит по-наркомански.
>>641623
>Какой кабель?
VGA любой видео.
>куда пихать кабель с теслу
Его нет...
>и они могут конфликтовать друг с другом и требовать вмешательства
Рецепты исправления давно известны.
Аноним 13/02/24 Втр 18:39:31 #6 №641640 
>>641626
>Цитату не забыл, ответ забыл. Нахуя? А главное зачем. Интересно конечно, но звучит по-наркомански.
Разумеется сделать сетку умнее и заставить людей покупать новые GPU
Аноним 13/02/24 Втр 18:46:31 #7 №641652 
Опубликован инструментарий ZLUDA, позволяющий запускать CUDA-приложения на GPU AMD
https://www.opennet.ru/opennews/art.shtml?num=60591
Аноним 13/02/24 Втр 18:49:50 #8 №641657 
>>641623
> х4 шину
Пересадил 4090 из х16 5.0 в х4 4.0 - ни в угабуге, ни в автоматике изменений нет.
Аноним 13/02/24 Втр 18:52:29 #9 №641661 
>>641652
Еле-еле быстрее, не особо впечатляет.
Аноним 13/02/24 Втр 18:53:21 #10 №641663 
>>641661
На шинде запустится? Уже бежать за 2х7900хтх?
Аноним 13/02/24 Втр 18:54:17 #11 №641665 
>>641663
Так рокм быстрее ж будет, это для страдальцев вариант. И то, неясно, может вулкан быстрее будет ещё.
Аноним 13/02/24 Втр 19:27:22 #12 №641696 
Поясните нубу, если 120b мутанты такие охуенные, чому их не делают еще больше? Дело только в железе?
Аноним 13/02/24 Втр 19:29:34 #13 №641698 
Чего-чего? Chat With RTX: собственный чат-бот для ПК с искусственным интеллектом NVIDIA RTX
Техническая демонстрация дает любому, у кого есть графический процессор RTX, возможность персонализированного чат-бота GPT.

Chat with RTX, который теперь можно загрузить бесплатно, представляет собой технологическую демонстрацию, которая позволяет пользователям персонализировать чат-бота с использованием собственного контента, ускоренного локальным графическим процессором NVIDIA GeForce RTX серии 30 или выше и оснащенным как минимум 8 ГБ видеопамяти с произвольным доступом или видеопамятью.
Чат с RTX использует генерацию с расширенным поиском (RAG), программное обеспечение NVIDIA TensorRT-LLM и ускорение NVIDIA RTX для реализации возможностей генеративного искусственного интеллекта на локальных ПК с ОС Windows под управлением GeForce. Пользователи могут быстро и легко подключать локальные файлы на ПК в виде набора данных к большой языковой модели с открытым исходным кодом, такой как Mistral или Llama 2, позволяя выполнять запросы для получения быстрых, контекстуально релевантных ответов.
Вместо поиска по заметкам или сохраненному контенту пользователи могут просто вводить запросы. Например, можно спросить: «Какой ресторан порекомендовал мой партнер, когда он был в Лас-Вегасе?» а Chat с RTX просканирует локальные файлы, на которые указывает пользователь, и предоставит ответ с контекстом.
Инструмент поддерживает различные форматы файлов, включая .txt, .pdf, .doc/.docx и .xml. Укажите приложению папку, содержащую эти файлы, и инструмент загрузит их в свою библиотеку за считанные секунды.

https://blogs.nvidia.com/blog/chat-with-rtx-available-now/
Аноним 13/02/24 Втр 19:31:46 #14 №641699 
>>641698
> и инструмент загрузит их в
библиотеку хуанга
Аноним 13/02/24 Втр 20:27:04 #15 №641731 
>>641236 →
Китайцы с их 1,08 )))

>>641249 →
> кобольдццп фронт и таверна в виде бэкэнда
Звучит наоборот.

> Стоит качать угубугу? Далее подрубить её к exllama2?
Убабуга и содержит экслламу.

Подрубаешь ты все к таверне.

>>641275 →
7B модельки, тебе ответили.
Mistral, openchat, что-то там рпшное, не знаю.

>>641296 →
Ты или тролль, или не читаешь, что тебе пишут, или глупенький.

>>641482 →
Звучит как да.
Ну, тебе линии PCIe не нужны, чисто залить модель туда, а там она сама будет крутиться.
Но вот заведется ли такой бокс с Теслой на ноуте — фиг знает.

>>641502 →
Это база.

>>641513 →
Ну-у-у… Скорее 7-10… Но в общем, если добирать ссд, бп и корпус, то да, цена дотянется.
Но тут выбор — оно стоит и работает само, или только от ноута.

>>641520 →
Я заебался с выводом биоса, в итоге просто взял 11400 с материнкой новые (какие в днсе местном лежали), ради гарантии и все.
Ну и ради 2 слотов PCIe, да.

>>641544 →
А как насчет БАСТИОНА, и вообще удобно по RDP по всему дому лазить. =) Подсел.

Хотя лучше VPN на роутере, наверное.

>>641548 →
На оперативе можно поднять доп.модельку.
Я вот взял 3600 планки (2*32) и Микстраль иногда 3,5 т/с выдает чисто на проце.

>>641549 →
А я уже умею, поэтому похуй на линуху.

>>641560 →
Ну я выше кидал способ, который сработал лично у меня, пердолинг там не страшный, вопрос пяти минут.
Но у кого-то он не сработал.

>>641602 →
Ну ты силен!
Но я все еще не уверен в пользователях. =)
Но — успехов!

>>641623
> Какой кабель? И куда пихать кабель с теслу?
Который ты пихаешь в ноутбук. Во встройку.

>>641657
Да че-б им быть.
Проверять надо на 2-3-4 картах, а на одной их и не будет.

Даже на 2 будет почти незаметно, интересны 3+
И не PCIe 4.0 x4, а хотя бы PCIe 3.0 x4, а лучше x1 и версии ниже.

>>641698
Че там, ExLlama или Жора по итогу?
Аноним 13/02/24 Втр 20:29:58 #16 №641734 
>>641698
Ладно, качаем, проверяем.

Я так и не поставил ни лэнгчейн, ни лламаиндекс, мне эту вашу RAG охота потрогать.
Ну и заодно узнать, какие форматы поддерживает и работает ли с теслой.
Аноним 13/02/24 Втр 20:30:45 #17 №641735 
>>641734
Еба 35 гигов, отмена нахуй.
Интернет седня хуевый, блин, еще. =( 128 кб/сек, че за нах.
Аноним 13/02/24 Втр 20:43:49 #18 №641746 
>>641731
>Че там, ExLlama или Жора по итогу?
Для этого качать не надо.

>This repository showcases a Retrieval-augmented Generation (RAG) pipeline implemented using the llama_index library for Windows. The pipeline incorporates the LLaMa 2 13B model, TensorRT-LLM, and the FAISS vector search library. For demonstration, the dataset consists of thirty recent articles sourced from NVIDIA Geforce News.

Говоря по опыту, TRT достаточно быстрая штука, так что возможно оно стоит того. Плюс сам rag, звучит вкусно.
Аноним 13/02/24 Втр 21:05:53 #19 №641756 
>>641696
Их реально долго и пока дорого учить.
Аноним 13/02/24 Втр 21:25:07 #20 №641776 
>>641746
Получается, лламаиндекс без ебли, на трт, которая шустрая?
Звучит хорошо.
Впрочем, важно, насколько это будет удобно, по итогу. Они выступают в роли догоняющих, но нацелены на потребительский рынок, а не на красноглазиков. Вопросов к скорости их нет — там всегда гении сидят, а вот насколько это будет удобно… Посмотрим. (уже через 5 дней, скорость упала хд )
Аноним 13/02/24 Втр 22:00:03 #21 №641813 
изображение.png
>>641776
>без ебли
Размечтался.
Аноним 13/02/24 Втр 22:21:52 #22 №641844 
>>641698
по любому хуита со встроенным фильтром
Аноним 13/02/24 Втр 23:02:22 #23 №641871 
1622913098485.png
>>641698
А где скорость? У всех так медленно качает? С другими файлами ок.
Аноним 13/02/24 Втр 23:34:25 #24 №641890 
1.png
>>641871
Аноним 13/02/24 Втр 23:37:15 #25 №641892 
изображение.png
>>641871
>иконки от винрар
Всё дело в нём, удаляй.
Аноним 14/02/24 Срд 00:04:18 #26 №641908 
1572100050348.png
>>641871
Сейм. Под клаудфларовской проксей сильно выше но в ее ограничения, похоже, упирается.
Аноним 14/02/24 Срд 00:50:46 #27 №641939 
image.png
Всем хай. не понимаю из-за чего ошибка. Было у кого такое?
4090.
Аноним 14/02/24 Срд 01:06:57 #28 №641948 
>>641939
Int4, серьезно?..
Аноним 14/02/24 Срд 04:54:12 #29 №641981 
>>641598 (OP)
Кто-нибудь использует vLLM?

https://github.com/vllm-project/vllm
Exploring the fastest open source LLM for inferencing and serving | VLLM
https://www.youtube.com/watch?v=rng-3NOmZ9k

Вроде поддержка CPU-only в каком-то виде уже есть: https://github.com/vllm-project/vllm/pull/1028
Аноним 14/02/24 Срд 08:33:28 #30 №642012 
1664125193135384278.jpg
Ну, думаю, ебать, хорни нейронка вчера не дала - так мы сами возьмём. Загнул её раком, значит, а ей в самый раз, не сопротивляется и типа как-то вся в предвкушении. Сначала даже скучно стало, но потом
>she wraps her legs around his waist, pulling him closer still
Аноним 14/02/24 Срд 10:23:08 #31 №642033 
>>641776
>нацелены на потребительский рынок, а не на красноглазиков. Вопросов к скорости их нет — там всегда гении сидят, а вот насколько это будет удобно… Посмотрим

Посмотрел. 38 гигов для установки. Там мистраль int4, лламы нет. Так оно еще и качает снова при установке. Наверно еще 38 или 138... Убабугу за то же время можно 10 раз снести-поставить и еще моделей накачать успеешь. Вот это красноглазики. А у клиентоориентированных надо скачать гору хуйни размером в лламу 70b а внутри хуй мистраль простой еще и в 4-х битах тогда как он же в fp16 вроде 13-14 гигов всего. Если больше 2-х часов будет устанавливаться то лучше продолжу поделия от пердолей жрать
Аноним 14/02/24 Срд 10:35:11 #32 №642035 
>>642033
>лламы нет
Хотя посмотрел, есть. Но к установке почему то не предлагается.
Аноним 14/02/24 Срд 10:47:16 #33 №642038 
Аноны, какая самая годная языковая модель будет для моей системы?
32гига оперативки
rtx3060ti 8gb
i7 8700 проц
Аноним 14/02/24 Срд 10:52:08 #34 №642042 
Меня больше это интересует https://huggingface.co/nvidia/nemotron-3-8b-base-4k что это за зверь такой.
Аноним 14/02/24 Срд 11:19:23 #35 №642056 
>>642033
> больше 2-х часов будет устанавливаться

Меньше однако. Но не тут то было - при запуске, это снова начинает качать! И закрадывается подозрение: А не будет ли оно на каждый промт обязательно скачивать что-нибудь? :D
Аноним 14/02/24 Срд 11:19:57 #36 №642057 
>>642012
Я вижу ты тут новенький.
Аноним 14/02/24 Срд 11:28:42 #37 №642062 
>>642033
12-ядерный 24-поточный процессор, NVMe 4.0 (7000 чтение, 6400 запись), 100 мб интернет, время установки: 30 минут.

Та же мысль посетила, что за это время убабуга несколько раз поставиться успевает.

Удивительная хуйня, если честно.

>>642056
Плюсую.

Утро началось с реинсталлов.
Еще винда решила под конец плюнуть на все и ребутнуть систему ради обновы, наплевав на установку.
Но те всегда конченные были, что с них взять.
Аноним 14/02/24 Срд 11:46:43 #38 №642080 
>>642033
Вообще на похуй скачал ещё вечером, установку так и не запустил и не запущу, наверное, тупо удалю к хуям, лол. Поебать, сколько оно там ставится.
Олсо, здесь нужно помнить, что по всем стандартам наименования int4 это четырёхбайтный инт, то есть двое больше информации, чем fp16.
Аноним 14/02/24 Срд 12:00:00 #39 №642088 
Окей, давайте забьем на скорость и качество. Будем честны, Мистраль на RTX-картах всегда работает быстро. Особой разницы 25 токенов или 25000 токенов в секунду и нет. У меня заняло 6 гигов, может быть в 4-6 битах грузится, но на английском-то норм.
Не суть.

1. Долгая установка.
2. Невозможность изменить промпт с фронта.
3. Работа только с английским языком. Нет, допроситься русский у нее можно, но RAG работает только с английским, русские текстовые файлы он игнорит.

Как результат, мы получили простое поделие на градио, которое может показать только дефолтные демо-возможности. Да, для работы с англоязычными текстами, очевидно, норм, удобно, из коробки. Но на этом задачи приложухи заканчиваются.

Революции не случилось.
Аноним 14/02/24 Срд 12:18:41 #40 №642097 
>>642088
>работает только с английским, русские текстовые файлы он игнорит.
Проверял на русских pdfках. Оно работает с русским. В целом приемлемо для мистраля.

В остальном все так и есть - демка ни о чем. Вообще ожидал от такого анонса нвидиа чего-то более поразительного. А это какой-то недобуга.
Аноним 14/02/24 Срд 12:27:21 #41 №642110 
>>642097
Русские txt игнорирует начисто.
Говорит «я порылся в этом файле и ничего не нашел».
Спрашивал как на русском, так и на английском, и на смеси.
Ваще по нулям.

Если у них там еще и с кодировкой косяк — это вообще ебанный стыд, конечно.
Аноним 14/02/24 Срд 13:29:09 #42 №642152 
>>642038
Файнтюны мистральки, может быть что-то на 13б.
>>642088
Какую скорость оно вообще выдает? Если это опенсорц то стоит ждать успешные элементы в той же убабуге или альтернативах.
Аноним 14/02/24 Срд 14:59:38 #43 №642196 
screenshot2024.02.1414.59.12001.png
Я упустил. А мы видели эту тему?
https://lmstudio.ai/
>Discover, download, and run local LLMs
Аноним 14/02/24 Срд 16:19:03 #44 №642261 
>>642196
https://jan.ai/
получше чем lm studio, имеет по настоящему открытый код.
Аноним 14/02/24 Срд 16:22:13 #45 №642264 
firefoxcVX7zMDADt.png
там в пендосском /lmg/ всё стабильно, никакой политики, даже если модели которые они юзают - тупо пропитаны соей и прочим дерьмом.
как говорил один мудрец "ну тупыые!"
Аноним 14/02/24 Срд 16:25:06 #46 №642267 
image.png
image.png
>>641640
И так нахуй, оно почти готово. Осталось только прикрутить загрузку весов с huggingface и proof of concept готов.
Аноним 14/02/24 Срд 16:26:01 #47 №642268 
>>642152
В консольки у меня не писали, визуально не супербыструю, обычную.

>>642196
Тыщу раз, хейтеры убабуги и кобольда любят рассказать за охуенность сабжа. Аргументов пока не было.
Аноним 14/02/24 Срд 16:29:41 #48 №642272 
>>642038
Микстраль/34б всякие.
Аноним 14/02/24 Срд 17:55:18 #49 №642326 
Что с Блоком?
Аноним 14/02/24 Срд 18:58:41 #50 №642346 
>>642326
>Что с Блоком?
-заболел?
-грант кончился, нечем платить за аренду йоба-железа для квантов?
-попал в дтп?
-выгорел на работе хобби?
-?
Аноним 14/02/24 Срд 19:09:20 #51 №642348 
>>642346
Может быть были новости?
Аноним 14/02/24 Срд 19:35:51 #52 №642364 
>>642268
> Аргументов пока не было.
Ну ты посмотри какая красивая тема интерфейса. А еще ставится привычно и удобно, скачиваешь установщик уже можно обзмеиться, выбираешь куда и все готово. А еще он может использовать тот же бек что и у остальных, правда его настройки запрятаны.
>>642326
У них вроде дискорд был, можешь зайти и посмотреть что там пишут.
Аноним 14/02/24 Срд 19:51:21 #53 №642371 
https://www.reddit.com/r/LocalLLaMA/comments/1apvbx5/
Можете поинтересоваться сколько там quadro 8000 выдает т/с, всетаки самая дешевая карточка с 48гб (пока). Там же в комментах у братишки риг из пачки 2080ти@22gb, правда цена на последние что назвал как-то совсем не вдохновлет.
Аноним 14/02/24 Срд 20:07:57 #54 №642377 
https://twitter.com/karpathy/status/1757600075281547344
Аноним 14/02/24 Срд 20:08:51 #55 №642378 
>>642371
Ха-ха, глупый уйгур покупать на 350 жэньминьби дороже, чем можно найти за 10 секунд.
https://www.taobao.com/list/item/701817321124.htm
Аноним 14/02/24 Срд 20:56:34 #56 №642418 
>>642152
>Какую скорость оно вообще выдает?
Только если на глаз прикинуть. Где-то от 30 т/с и выше точно (это уж усмотря какая карта). Оно и понятно - модель небольшая и целиком во врам.
Вобщем штуковина монструозного размера относительно запускаемой модели и интересна только из-за RAG, но слишком качественного результата врядли можно ждать - мистраль все же маловат, хотя он и мистраль. Проверено на ру пдффках - книгах, статьях. Причем натолкать ей можно сразу кучу книг, указав каталог с пдфками.
Аноним 14/02/24 Срд 21:19:29 #57 №642438 
>>642370 →
1 В отдельных моделях есть, они нахуй никому не нужны, в приличных ее нет.
2 Можно обучить свою, но это настолько сложно что ты не захочешь.
3 Можно, прикрутить интернет или базу данных можно, но не для ньюфага.
4-5 Читай шапку и вики
>>642382 →
Тут или юзерфрендли в ущерб возможностям и функционалу, или потратить 15 минут на чтение и разбор что к чему, и сразу все понятно.
>>642418
Чето на некоторые простые запросы оно выдает хуже чем если чистого мистральку спросить из его знаний, даже дополнительно нагрузив отыгрышем персонажа и постоянно отвлекая другими действиями, которые с радостью выполняет не теряясь. Может дело в кванте, или оно нормально документы не восприняло, надо разбираться.
Аноним 14/02/24 Срд 22:40:28 #58 №642487 
Посаны, мне нужно впилить бота в локальный телеграм-чатик, чтобы с этой стороны была запущена нейросетка и срала туда ответами. Через что это можно сделать?
Ресурсов неоч много, но с самими сетками я как-нибудь разберусь - мне бы узнать какие инструменты для этого пользовать, через что запускать нейросетку локально и как пробросить ее в тележного бота. Хост на шиндус, но если поднапрягусь то могу и на прыщах развернуть.
Ещеб было неплохо чтобы она рандомно генерировала какие-нибудь сообщения просто так время от времени.
Аноним 14/02/24 Срд 23:12:47 #59 №642514 
>>642487
Со стороны бота смотри telegram bot api. Есл хочешь обертку, то для питона есть telethon, для яваскрипта telegraf, оба норм.
Со стороны ллм кури https://github.com/oobabooga/text-generation-webui/wiki/12-%E2%80%90-OpenAI-API модель крути на ней же.
>рандомно генерировала какие-нибудь
Поставишь рандомный таймер с вызовом "скажи чо-нить рандомное".
Аноним 14/02/24 Срд 23:15:12 #60 №642516 
Screenshot20240214231301.webp
>oobabooga
Как этому утырку вообще пришло в голову назвать свой софт, претендующий на
>Its goal is to become the AUTOMATIC1111/stable-diffusion-webui
таким уебанским, не гуглящимся, не запоминающимся именем? Абсолютный дегенерат.

И да, блядь, почему в 2024 веке настроить связность двух приложений это настолько невероятно сложная задача? Приложение открывает API, другое его подцепляет КАК В ЭТОЙ СВЯЗКЕ МОЖЕТ ЧТО-ТО НЕ РАБОТАТЬ. СУКИ БЛЯДСКЕИЕ ТЬУПЫЕ ПИДОРАСЫ ГОВАНОМААКИ НГИХУЯ НАПИСАТЬ НОРМАЛЬНО НЕ МОГУТ ЗАЕБАЛИ БЛЯДИ
Аноним 14/02/24 Срд 23:20:12 #61 №642521 
>>642487
Можно просто поднять убабугу и https://github.com/innightwolfsleep/text-generation-webui-telegram_bot

Можно самому на питончике набросать скрипт, а в качестве бэкенда — ту же убабугу, или сразу llama.cpp или exllama2 (ну вдруг).

Все довольно просто, если умеешь прогать более-менее.

>>642514
> Поставишь рандомный таймер с вызовом "скажи чо-нить рандомное".
+

>>642516
Да, кстати, я вчера таверну открывал, она обосралась хз почему, мне было лень разбираться.
Убабуга максимально запоминающееся название, я хз, у тебя проблемы с головой, сочувствую.
Аноним 14/02/24 Срд 23:20:56 #62 №642522 
>>642516
CMD_FLAGS.txt
--api --public-api
>печальные сантименты
Таков ворлд оф питон в целом
Аноним 14/02/24 Срд 23:21:15 #63 №642523 
>>642516
Там какое то легаси апи тоже какая то проблема была я уже забыл.
Аноним 14/02/24 Срд 23:21:59 #64 №642524 
>>642516
Опен сорс без денег. Не выебывайся.
Аноним 14/02/24 Срд 23:28:02 #65 №642527 
>>642524
Это не повод придерживать критику и эмоции, особенно вызванные тупой хуитой.
Он же не просит вернуть ему деньги.
Аноним 14/02/24 Срд 23:28:13 #66 №642528 
>>642516
В голосину, сделал мой вечер!
Чтобы вешать подобные ярлыки, нужно самому не быть ультрадолбоебом, который пытается коннектится на 0.0.0.0
>>642522
> --public-api
Оу май
Аноним 14/02/24 Срд 23:36:31 #67 №642534 
>>642528
Чего? Эта херня не работала пока я не добавил паблик апи по совету из ишшуе треда где-то на пятой странице.
>0.0.0.0
Может и получиться, судя по интернетам
Аноним 14/02/24 Срд 23:42:42 #68 №642536 
>>642534
> Эта херня не работала пока я не добавил паблик апи
Ты захостил свой апи всем желающим кто решит посмотреть что там нынче на фри клаудфларе. Вероятность мала, но есть. Это никак не связано с работой апи, если хочешь подключаться с другой пекарни - нужен параметр --listen, чтобы прослушивало что-то кроме локалхоста.
> Может и получиться, судя по интернетам
Это значит что идет ожидание соединения по указанному порту со всех возможных ардесов-интерфейсов. Там даже в экзамплах написано и вроде максимально очевидно что нужно писать для соединения.
Аноним 14/02/24 Срд 23:43:29 #69 №642538 
image.png
>>642521
> Убабуга максимально запоминающееся название, я хз, у тебя проблемы с головой, сочувствую.
Кал ебаный, а не название, не пизди.

>>642522
>--api
Как тебе вообще в голову пришло, что я это мог не попробовать? Думаешь это не стоит у меня прямо сейчас в CMD_FLAGS.txt? ТЫ СКРИНШОТ ВИДЕЛ ВООБЩЕ?!

> --public-api
Хочешь, чтобы мне анус взломали?

>Таков ворлд оф питон в целом
Я в ахуе. Что со сваперами ебля без внятной документации, без бинарников под ROCM, без внятной пошаговой инструкции, что куда. что тут опять кал. Вечная нервотрепка.
Один только автоматик оставил положительное впечатление - завелся с полпинка с подробнейшей документацией, сразу видно Человек писал софт.

>>642523
Да я их все перепробовал, один хуй.

>>642528
>пытается коннектится на 0.0.0.0
Славно, хотел доебаться до меня, а в итоге насрал себе в штаны с умным видом.
Я И УСТАНОВИЛ ПРОСЛУШКУ С
>0.0.0.0
ПРИЧЕМ ЭТО ПРЕКРАСНО ВИДНО НА СКРИНШОТЕ
МОЖЕТЕ ТЕБЕ ЕЩЕ ОБЪЯСНИТЬ ЗАЧЕМ ЭТО НУЖНО В ПРИНЦИПЕ, ТУПОРЫЙ УЁБОК?!


Накатил короче SilliTavern, там всё подхватилось. СЛЫШАЛ >>642528 УЁБИЩЕ? ПОДХВАТИЛОСЬ С 0.0.0.0 ОЙ А КАК ЖЕ ЭТО ТАК, МАГИЯ НАВЕРНОЕ
Аноним 14/02/24 Срд 23:46:44 #70 №642541 
Screenshot20240214234554.webp
Интерфейс тут конеш по мобилке плачет
Аноним 14/02/24 Срд 23:51:19 #71 №642545 
За мат извените, жосско фрустрируюсь после взаимодействия с этим говно софтом всем.
Аноним 14/02/24 Срд 23:59:26 #72 №642547 
>>641598 (OP)
Подскажите ньюфагу моменты:
1. Есть ли цензура и подобные ограничения?
2. Можно общаться только с готовыми модельками которые скачаю или есть возможность обучить свою?
3. Можно спрашивать что-то для поиска или обучения? Может ли искать инфу в инете?
4. Что за таверна?
5. Подскажите какие модели могут подойти под систему: AMD Ryzen 3 Pro 3200G, 16 gb оперативки, RTX 4060 Ti и/или как в дальнейшем понимать/искать пойдут ли они мне?
Аноним 15/02/24 Чтв 00:01:25 #73 №642550 
>>642546
Я понимаю, ты порвался, но в чем конкретно обосрался Я, если одни и те же параметры в TavernAI просто не работают, а в SilliTavern просто работают? Где тут ошибка с МОЕЙ стороны?
Ответ можешь засунуть себе в очко - надо было раньше думать, прежде чем писать хуйню. Да я слил сюда свою фрустрацию, но ответил хуйней мне именно ты, а мог бы промолчать. Так что сиди и думай о своём поведении. А я пока пошёл разбираться, почему модель выдает односложные ответы, вместо развернутых.
Аноним 15/02/24 Чтв 00:11:06 #74 №642557 
>>642550
> вы все порвались я а нет но почему у меня не работает!
ай лол
> одни и те же параметры в TavernAI просто не работают, а в SilliTavern просто работают
Тебе уже объяснили исходную причину. То что в силли уже успели наставить заглушки от выребухов - никак не оправдывает твоих фейлов, было бы рофлово получить следующим ходом нытье "почему браузер не открывает 0.0.0.0:8000" лол и ведь такой случай не единичен https://github.com/SillyTavern/SillyTavern/issues/1368
И зачем вообще использовать легаси таверну при наличии силли?
> Так что сиди и думай о своём поведении
Или что? Опять напишешь пасту с визгами? Наоборот это доставит удовольствие, вперед.
> Да я слил сюда свою фрустрацию, но ответил хуйней мне именно ты, а мог бы промолчать
Бля, ты рили с расстройствами? Делал бы в конце припуску что просто сгорел и не воспринимать всерьез, или просто бы поныл что нихуя не получается помогите, сразу бы получил совет и утешения. А когда начинаешь с
> вы все долбоебы а я Д'артаньян, нука быстро чините и делайте чтобы у меня работало
иного ответа и не стоит ждать.
Аноним 15/02/24 Чтв 00:23:23 #75 №642566 
Screenshot20240215001511.webp
>>642557
> было бы рофлово получить следующим ходом нытье "почему браузер не открывает 0.0.0.0:8000
Было бы еще рофлянее узнать, что он всё открывает.
Или ты, еблан, инкриминируешь мне, что я ссылку на API буду в браузере открывать?
Что ты несешь вообще, ты сам понимаешь-то, собака сумасшедшая?

>И зачем вообще использовать легаси таверну при наличии силли?
Затем, что именно она первая указана в ШАПКЕ для НОВИЧКОВ, а я новичок? Что, блядь, я и за вашу шапку ответственен теперь?

>вы все долбоебы а я Д'артаньян, нука быстро чините и делайте чтобы у меня работало
Ссылку на мой пост, что я кого-то итт ПРОШУ чинить. Я на двач прихожу просто посетовать на то какое всё говно и пидоры, потом засучиваю рукава и фикшу всё сам.
Достаточно просто просмотреть на ответы, которые я тут получил - ты и тебе подобные это просто человеческий мусор с абсолютно нулевым пониманием матчасти и магическим мышлением. Какое нахуй просить помощи у вас, вы и сами себе помочь не в состоянии, насмешил бля.
Аноним 15/02/24 Чтв 00:28:09 #76 №642569 
>>642566
Анон у тебя какое то неадекватное отношение к опенсорс софту. Блядь ну конечно все в говне и "работает на моей машине" че ты еще хотел то?
Шапка у нас тоже опенсорс и ясен хрен с лютой скоростью развития сетей быстро устаревает.
мимо
Аноним 15/02/24 Чтв 00:33:57 #77 №642575 
>>642536
>Ты захостил свой апи всем желающим
Ну вот так заебись насоветовали значит мне, я ж не сам придумал.
Аноним 15/02/24 Чтв 00:41:02 #78 №642582 
>>642566
> Было бы еще рофлянее узнать, что он всё открывает.
Значит заглушки от долбоебов стоят и там, или ты сам добавил редирект чтобы оправдаться.
Еблан здесь только ты, страдай, полыхай со всего и мучайся, это твой удел.
> она первая указана в ШАПКЕ для НОВИЧКОВ
Единственная из ссылок - на силлитаверну, опять пытаешься выставишь других виноватым в своей глупости.
> Я на двач прихожу просто посетовать на то какое всё говно и пидоры, потом засучиваю рукава и фикшу всё сам
Опять обзмеился с мамкиного фиксера. Раз таким промышняешь - значит без аутотренинга даже сам себя мусором считаешь. Подсознание оно помнее будет, его так просто не обманешь.
Аноним 15/02/24 Чтв 00:45:13 #79 №642584 
>>642547
>Есть ли цензура и подобные ограничения?
Есть файнтюны без цензуры (на самом деле с "затертой" цензурой, т.к. сами по себе предобученные модели с цензурой и файнтюном выкорчевать ее нельзя, разве что "заигнорить" более менее) А что именно надо от модели без цензуры? Письки жопы и хуи или гои иудеи и жиды? Первое легко анцензорится а вот второе... это вообще нельзя даже обдумывать
>Можно общаться только с готовыми модельками которые скачаю или есть возможность обучить свою?
Свою можно. Как - об этом много где расписано
> Можно спрашивать что-то для поиска или обучения? Может ли искать инфу в инете?
Локалки нет, гопота или клод могут
> Что за таверна?
Это UI для РП или ЕРП
>Подскажите какие модели могут подойти под систему: AMD Ryzen 3 Pro 3200G, 16 gb оперативки, RTX 4060 Ti и/или как в дальнейшем понимать/искать пойдут ли они мне?
Любые до 13b включительно с квантованием и выгрузкой части в рам.
Смотрите по размеру и подбираете кванты чтобы влазило в память врам и рам, плюс место под контекст, а хотя 7b gptq или gguf влезут полностью в 4060
Аноним 15/02/24 Чтв 00:52:04 #80 №642587 
>>642536
>Это значит что идет ожидание соединения по указанному порту со всех возможных ардесов-интерфейсов
>ожидание соединения
Да, в случае bind() + listen().
В случае connect() пишут что на ляликсе заменяется на 127.0.0.1. В винде похоже не заменяется и никуда не ведет.

Если щас пикчи прилипнут, то это не я
Аноним 15/02/24 Чтв 01:00:19 #81 №642594 
>>642584
С цензурой сложно из-за ее разных трактовок. Некоторые модели изначально не цензурены сами по себе. В любом случае, заставить модель писать про оргии, резню трансонигр-феминаци и je.. - можно.
> Любые до 13b включительно с квантованием и выгрузкой части в рам.
Версию видюхи он не указал, если вдруг там на 16гб то сможет и 20б. Но скорее всего 8 и все именно как написал.
>>642587
> на ляликсе заменяется на 127.0.0.1
Действительно. Тогда вдвойне удивительно что линуксоид такие ошибки делает и с опенсорса горит. Кстати ни разу не встречал чтобы в сонсоле там писало нули, просто хостнейм вместо локалхоста.
и где пикчи?
Аноним 15/02/24 Чтв 01:13:24 #82 №642601 
image.png
>>642594
Я сначал высирать скрины, что без паблик апи не работает, но оказалось, что работает. Харкач просто раньше любил оставлять удаленные из поста пикчи. А таверна не подключаться без паблик апи.
Вообще касательно листена считаю, что надо писать либо пикрил, либо форматировать как "listening on * port 5000". Не все же в курсе, что это не адрес, а спец.значение для бинда.
Аноним 15/02/24 Чтв 03:55:00 #83 №642650 
Анон, как объяснить нейронке, что у нас есть API? Требуется генерить кучу однотипных кусков кода, вот буквально превратить нечто вроде "при стоимости транспортировки 5 рублей за км за транспортировку на 600 км необходимо заплатить 3000 рублей" в

'при стоимости транспортировки ' + numer(unitPrice, 'рубль') +' за км за транспортировку на ' + dist + ' км необходимо заплатить ' + numer(price, 'рубль')


Но такой хреноты дохрена. Гопота может такое делать или ещë сложновато? Как правильно объяснять, что
функция numer уже есть, еë не нужно сочинять - а вот применять, наоборот, нужно.
Аноним 15/02/24 Чтв 04:33:54 #84 №642652 
image.png
>>642650
На пикче mixtral-8x7b-instruct-v0.1.Q4_K_M.gguf
Отсюда начинай, дописывай промт, пока не получишь нужное.
Про гопоту не знаю, но.. да сможет уж.

Hi, I want you to help me generate a bunch of similar code chunks. Like this source text: "with transportation cost of 5 yuan per kilometer, the transporation to 600 km will cost 3000 yuan" must be converted into this target expression: "'with transportation cost of ' + numer(unitPrice, 'yuan') + ' per kilometer, the transporation to ' + dist + ' km will cost ' + numer(price, 'yuan')". It's important to leave the text structure intact, it must not be rephrased, only parametrized.

Please convert the following texts:

1. "to buy 5 apples that cost 12 dollars each, I have to pay 60 dollars".
2. "the price of one laptop is 4000 dm, so 10 items will cost us 40000 dm".
Аноним 15/02/24 Чтв 04:50:47 #85 №642655 
>>642650
Но вообще задняя мысль такая, что не проще ли это сконвертить регулярками.
Ищешь /\d+\s*(\w+)/g, делишь руками на три категории: итемы, валюты, нахненужно.
Далее
s/(\d+) (apples?|items?|...)/' + \1 + ' \2/
s/(\d+) (dollars?|yuans?|...)/' + numer(xxx, '\2') + '/
И сразу по месту смотришь, что из них цена, а что сумма, исходя из математики, и заменяешь ххх на нужное из unitPrice / price.
Аноним 15/02/24 Чтв 06:22:18 #86 №642667 
>>642650
А почему не формализовать все это просто кодом? Зачем для этого нейронка? Это даже не гвозди микроскопом
Аноним 15/02/24 Чтв 09:02:38 #87 №642680 
Почему бы не квантовать с обучением? Тоесть квантанули слой, дообучили неквантованные слои на датасете, квантанули еще, еще дообучили, и так до последнего. Ведь тогда можно минимизировать ошибку, даже скажем на двух битах. Особенно если брать квантование QuIP#
Аноним 15/02/24 Чтв 09:06:13 #88 №642681 
>>642667
Спасибо. О нейронке задумались, потому что... Стильно, модно, молодëжно. А так-то перед алгоритмом у неë один плюс - переменным имена подбирает адекватно. Остальное - сплошные минусы.
Аноним 15/02/24 Чтв 09:45:51 #89 №642691 
Я проспался. Прошу прощения у всех, кого хуесосил этой ночью, это было некрасиво с моей стороны.
Аноним 15/02/24 Чтв 10:40:51 #90 №642704 
>>642538
Нихуя себе ты смешной дегенерат!

>>642547
1. В дефолтных моделях как правило да (в Мистрали и Микстрали почти нет), но есть способы по избавлению от сои, костыльные, но работают. Так что, в общем, зависит от твоих запросов. Скорее нет, чем да, по итогу.
2. Возможность есть. Но не у тебя. Но дорого.
3. Искать в инете — нужен доступ в инет, это всякие приблуды. То есть, да, может, но для этого надо заморочиться. Из коробки — нет.
4. SillyTavern — приложение-фронтенд для удобного общения, ролеплея, с кучей плюшек, вплоть до режима визуальной новеллы, где всех персов и задники тебе рисует стейблдиффужн на лету.
Но вообще — полезная штука.
5. 4060ти надеюсь 16 гиговая, а не 8? :)
20B модели могут влезть, по идее. 13B точно пойдут. И меньше, естественно.
Конкретные — выбирай чо хошь.

>>642584
> Локалки нет
Ты просто не умеешь их готовить. Могут, канеш.

>>642650
Если ты про вывод — то тебе нейронки не нужны, а просто код написать.
А если ты про само написание кода — то да, могут, в твоем описании проблем не вижу, пример тебе первый комментатор привел.
Вопрос твоего навыка общения с LLM.

>>642691
Кек.
Аноним 15/02/24 Чтв 11:24:29 #91 №642719 
>>642680
В чем предпосылки улучшения? Сохранится ли "дообученная поправка" после квантования следующих слоев и не внесет ли лишних ошибок? Плюс, распределение важности по участкам после процедур может иметь другой вид, но обратно уже не вернуть.
>>642691
Какая няша :3
Аноним 15/02/24 Чтв 12:11:19 #92 №642740 
Есть у кого гайды как модель квантовать через матрицы? Хочу miquliz-120b-v2.0 квантовать до 2-бит с матрицей, но куда срать кинуться понятия не имею. Очень уж понравилась идея, смерджил 70-ку и очень даже не плохо, щас по его конфигу собрал 120-ку.
Аноним 15/02/24 Чтв 14:05:27 #93 №642783 
image.png
Я не понимаю, эта шлюха пиздит или речь о китайском и там реально настолько хороший оптимизон?
нашел конечно место спрашивать, лол
Аноним 15/02/24 Чтв 14:14:01 #94 №642788 
>>642650
Чекни https://github.com/guidance-ai/guidance
Аноним 15/02/24 Чтв 14:16:20 #95 №642789 
>>642783
Что тебя удивляет? 32к это так то много.
Аноним 15/02/24 Чтв 14:19:31 #96 №642790 
>>642789
Ты китаец?
Аноним 15/02/24 Чтв 14:42:09 #97 №642796 
1707997328735.png
>>642783
Ну, на китайском можно даже поверить. Там же одна закорючка от контекста много чего значить может, и урезание токенов пополам относительно правдоподобно. А на английском таки пиздит, только четвертинку вмещает.
Аноним 15/02/24 Чтв 14:46:00 #98 №642800 
>>642796
Ебать ты через что считал? И что за модель? Понятное дело что эрни будет больше на английский тратить
Аноним 15/02/24 Чтв 14:47:09 #99 №642802 
>>642800
Счётчик токенов в таверне, с лламовским токенайзером.
Аноним 15/02/24 Чтв 15:06:41 #100 №642810 
>>642719
Чтобы проще обьяснить модно представить что мы квантовали всю модель кроме одного слоя, и один слой очевидно должен поменяться достаточно сильно чтобы компенсировать ошибку, но допустим он смог нивелировать всю ошибку, тогда квантовав его мы фактически получаем вместо суммы всех ошибок слоев, лишь ошибку квантования одного слоя. Но очевидно что один слой не сможет все компенсировать, значит тут могут быть разные стратегии, но смысл один подменить ошибку полного квантования на ошибку квантования лишь части слоев.

Важность при квантовании не играет такой роли, дообученые слои научатся использовать что им дают, просто если квантование вносит не большую ошибку в слой, то другим слоям нужно меньше обучаться для компенсации, просто влияет на время.
Аноним 15/02/24 Чтв 15:42:24 #101 №642815 
>>642790
Нет , башкирец на 1/16.
Аноним 15/02/24 Чтв 17:05:19 #102 №642864 
>>642815
>на 1/16
Извинись.
Аноним 15/02/24 Чтв 17:47:09 #103 №642891 
>>642864
Извините, что я на 1/8 украинец. Без политики, такая судьба. Остальное вроде русский, но уверен, что чингизхан там тоже присутствует.
>>642810
>значит тут могут быть разные стратегии
Через один квантовать? И чем это будет лучше выборочной оценки отдельных весов (или что там делают) в Exllama 2?
Аноним 15/02/24 Чтв 17:53:50 #104 №642893 
>>642810
> и один слой очевидно должен поменяться достаточно сильно чтобы компенсировать ошибку
Как оценивать ошибку? Ты уверен что метрика, которая берет среднюю температуру по больнице, не всрет основные токены, которые сохраняются даже в ужатых квантах в угоду снижения отклонений для маловероятных? Урощенно офк описал, но суть должна быть понятна, возможно ли вообще одним слоем подобное компенсировать.
Далее, не произойдет ли накопления ошибки, когда для компенсации переобученных но квантованных слоев, потребуется вносить еще больше поправок, чем для оригинальных?

Может как работать, так и наоборот портить, или требовать каких-то особых техник. Проверять надо, не хочешь на 3-7б прогнать для демонстрации?
Аноним 15/02/24 Чтв 19:03:08 #105 №642917 
6768428704.webp
>>642371
>самая дешевая карточка с 48гб
Ну бля... Когда их уже начнут сливать как Р40.
Аноним 15/02/24 Чтв 20:19:05 #106 №642970 
>>642917
Когда они перестанут быть рентабельными в типичных задачах. Врядли пройзойдет это в ближайший год-два, если не случится какой-то революции и резкого скачка перфоманса и объемов памяти. С выходом нового поколения цена может еще упасть, но не до бросового уровня.
Аноним 15/02/24 Чтв 21:43:51 #107 №643031 
>>642704
3. Есть уже какие то гайды как сделать?
4. SillyTavern может это сам "искаробки" или есть тоже гайды? стоит оно вообще того или пока посредственность?
>>642584
Спасибо обоим за ответы.
И ещё хотел узнать есть ли годные модели на русском языке? Хочется занять частичкой будущего пожилых родаков
Аноним 15/02/24 Чтв 21:44:19 #108 №643032 
sshot-004.png
GGYwpHGbgAAK6iB.png
новая мультимодальная модель от гугла
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/amp/
>Gemini-Pro with 10M context has 99.97% retrieval rate. Thats video, audio, and text.
пизда локальным моделям
Аноним 15/02/24 Чтв 21:45:10 #109 №643034 
GGY07fLakAA6-Sz.jpg
>>643032
в сравнении с gpt-4
Аноним 15/02/24 Чтв 21:46:16 #110 №643035 
Решение от NVIDIA для нативного запуска LLM моделей на RTX картах.

Пока только демка, доступны ЛЛама и Мистраль.

https://youtu.be/gdsRJZT3IJw?si=qKM8gOS06yAdtoNV
Аноним 15/02/24 Чтв 21:49:37 #111 №643036 
>>643032
>But starting today, a limited group of developers and enterprise customers can try it with a context window of up to 1 million tokens
Неблохо. Google AI Studio недоступна в вашем регионе
Аноним 15/02/24 Чтв 22:24:03 #112 №643065 
>>643031
2. Гайды есть, но это тысячи баксов, если готов тратить — вперед.
Но как вариант — файнтьюн уже готовой. Там значительно дешевле.
Даже можно у себя.
Гайдов — куча. Запускаешь oobabooga, открываешь там Train… Ну и гайды на эту тему погугли.
3. Смотря что именно. Но я бы рекомендовал ее 100%. Не знаю, кто там с ллмстудио и кобольдом дрочит, но таверна — это другой уровень. Есть две части — сама таверна и SillyTavern Extras. У второй части сложность установки чуть повыше, но тоже не суперсложно.

Хороших ролевых моделей на русском нет.
Есть Мистраль (или Микстраль если ты или богатый с тремя RTX3090, или терпеливый), но она ассистент, и есть Фиалка, или же оригинальная руГПТ, но они на старой архитектуре, глупенькие и ролевых файнтьюнов нет (но чистокровно русские). Еще есть опенчат, он умеет на русском, но не затыкается.

>>643032
Похуй на все. Видео. Если там не покадрово, а прям потоково — то это звезда.

>>643035
Обсосали уже, хуйня.
Аноним 15/02/24 Чтв 22:45:30 #113 №643086 
firefoxC21ebUvMR4.png
зато m*ta представила модель для генерации видосиков "в-жопа"
Аноним 15/02/24 Чтв 22:46:58 #114 №643087 
>>643031
> 3. Есть уже какие то гайды как сделать?
Из того что доступно плебеям - в шапке https://rentry.co/llm-training
Ну и на ютубчике вбей llama qlora
> есть ли годные модели на русском языке?
Из мелких очень криво в русский могут мистраль и опенчат. А так - мику и квен, обе в 70б.
>>643032
Вокруг прошлой тоже дикий хайп разводили, а в итоге просто пшик.
Аноним 15/02/24 Чтв 23:03:14 #115 №643099 
>>643086
Судя по тексту, не генерации, а распознавания, и то, для обучения.
Аноним 16/02/24 Птн 00:01:38 #116 №643113 
Потыкал 13b модельки, это нормально для llam, что когда приближаешься к границе контекста, то модель просто становится бредогенератором? Причём это не те 4к, которые подхватываются из метадаты, а какая-то другая граница. У некоторых файнтюнов реально можно дойти почти до 4к и только тогда начинается пиздец, у Wizard-Vicuna-13B получилось дойти то 3к токенов примерно и модель начала забывать сообщения не с начала диалога, а с конца, отвечать на вопросы из середины диалога, отвечать на то же самое второй раз и т.д. Причём если подрезать контекст заранее, то всё хорошо. На 7b мистралях такого поведения что-то не припомню.
Аноним 16/02/24 Птн 00:44:02 #117 №643118 
>>643113
Да, это совершенно нормально.
У тебя ничего не сломалось.
Можешь растягивать по альфе (в шапке картинка), может продержится чуть дольше.
Аноним 16/02/24 Птн 00:53:27 #118 №643122 
Какой у вас тут ламповый тред.
Аноним 16/02/24 Птн 00:55:41 #119 №643123 
>>643113
Если превышать 4к - пиздарики. Если не выходить - должно быть все нормально, может ломаться на всратых файнтюнах или если в промте творится полный треш, который модель не понимает. Так вообще 8к оно отрабатывает нормально с rope, уверен что не превышаешь?
> отвечать на вопросы из середины диалога, отвечать на то же самое второй раз и т.д.
Такого быть не должно. Алсо
> Wizard-Vicuna-13B
Это случаем не первая ллама вообще? У той 2к базовых.
Аноним 16/02/24 Птн 00:57:34 #120 №643124 
Чет страшно временами, пиздец. Не из-за манятеорий про скайнет, а просто от перспектив, неясности чо будет, чо можно будет. И чо можно будет тому, кто тебя захочет поиметь.
Плюс ко всему, сидишь вот, вкуриваешь, а конца и края не видно. И сложно все. Не в плане поставить-запустить, а именно как в этом всём разбираться, на уровне как погромист разбирается в системах.
Сами то что думаете? Гоню, не гоню?
Или это нормально, и у нас тут шанс стать первыми фемтосеками?
Аноним 16/02/24 Птн 01:02:41 #121 №643125 
>>643124
Приспособишься.
Ну или дропнешь всё и уедешь жить в деревню.
От прогресса не уйдешь, но можно сбежать.
Аноним 16/02/24 Птн 01:45:27 #122 №643137 
https://www.reddit.com/r/LocalLLaMA/comments/1aqjra9/world_model_on_millionlength_video_and_language/
хуя новостей сегодня про видео ллм, клозед аи так же выкатили какую то адовую херню
Аноним 16/02/24 Птн 01:46:16 #123 №643138 
>>643118
Я пробовал растягивать, но, по-моему, начинает намного медленнее соображать. В целом так-то печально.

>>643123
>Если не выходить - должно быть все нормально
Намного раньше начинается, но я поставил max new tokens 512. На Wizard-Vicuna-13B доходит где-то до 2900 токенов, некоторые до 3800 дотягивают или около того. В целом, я рассчитывал, что они они нормально дойдут до 4к, а потом сработает автоматическая обрезка, но случается грязь. Это без rope вообще, на единице.
>случаем не первая ллама вообще?
v.1.1
Аноним 16/02/24 Птн 02:29:04 #124 №643154 
>>643138
> На Wizard-Vicuna-13B доходит где-то до 2900 токенов
> v.1.1
Это же первая ллама, она вообще больше 2к не должна выдавать без rope. Оставь это несвежее добро, оно ужасно в современных реалиях. Попробуй хоть того же wizard 13b v1.2, он тоже ужасно старый и с недостатками, но для своих годов еще могет, и невероятно лучше той. Что там из современных хз, для рп-ерп 20б норм.

Если что-то ломается, значит работает неверно. Как вариант, у тебя где-то настроена обрезка промта до 2к, и в один момент все начальные инструкции просто улетают в хер, и причина шизы в кривом промте а не лимите модели. Обрезкой контекста должна заниматься только таверна, чтобы сохранить нужное в начале, а пожертвовать историей чата, иначе будет полная хуйта.
Все более менее нормальные стабильно работают до 4к включительно.
Аноним 16/02/24 Птн 03:00:54 #125 №643168 
>>642893
Хто? Я? Ну а вообще конечно попробую, но пока я только в свободное время исследую инструменты обучения и вообще как работает и квантование и сети, может через пару месяцев дойду до того что бы сделать это самому.
Аноним 16/02/24 Птн 08:00:51 #126 №643220 
>>643032
Не локалка, сразу нахуй.
>>643124
>и у нас тут шанс стать первыми фемтосеками?
0 шансов, если уже не наносек.
>>643137
>клозед аи
Не локалка, сразу нахуй.
Аноним 16/02/24 Птн 08:17:24 #127 №643224 
>>643220
>Не локалка, сразу нахуй
в ссылке как раз таки локалка
Аноним 16/02/24 Птн 08:49:49 #128 №643231 
>>642650
>как объяснить нейронке, что у нас есть API? Требуется генерить кучу однотипных кусков кода
Файнтюн тебе нужен, дядя. RAG если дохуя входных данных.
Аноним 16/02/24 Птн 08:54:21 #129 №643232 
>>643224
Какая муха клозедов укусила? Они ж давно ничего не выкладывали. Видимо, такая хуита, что и не жалко.
>>643231
Файнтюн как раз не поможет.
Если данных мало, то лучше в промт всё запихать.
Аноним 16/02/24 Птн 09:34:13 #130 №643241 
>>643124
А я наоборот эксайтед. Здорово же блин. До сих пор общаясь с сетями охуеваю от того как они прям понимают что от них хочешь. Самый сок - когда описываешь им какую-то вещь, а они взаимодействуют с частью которую ты не описывал, но которая должна быть.
Или когда даешь задачу расплывчато, а сеть как может логично действует.
Или создание новой инфы из старой.
И это все - на обоссаной карточке от куртки в моей сычевальне! Сейчас, сегодня вечером, а не в бреднях футуристов!
Ахуеть!

>>643122
А то. У треда считай интеллектуальный ценз лол. Чтобы поставить сеть нужно немного попердолиться, это живо отсеивает совсем тупых.
Аноним 16/02/24 Птн 10:13:13 #131 №643250 
>>643124
Сделай для себя выбор — хочешь гнаться за этим или нет? Если хочешь — гонись. Учи, разбирайся, читай, пиши.
Не хочешь — не гонись, разбирайся чисто для себя.
Я выбрал второе. Это интересно. Я практикуюсь, делаю что-то.
Но на доске есть ребята разбирающиеся в основном вопросе (тренировки, слои, инференция) на уровень выше меня. Ну и молодцы, я их почитаю, ума наберусь. Для себя.

>>643125
Или дауншифтинг, да, это ведь даже не ново уже.

>>643232
Локалка V-JEPA, как я понял, а клозеды нет.

>>643241
Так-то база, согласен.
Аноним 16/02/24 Птн 10:29:37 #132 №643259 
>>643250
>Локалка V-JEPA, как я понял, а клозеды нет.
Клозеды тоже логалка, а не локалка это Gemini-Pro (что очевидно).
Аноним 16/02/24 Птн 10:47:42 #133 №643264 
>>643259
Нихуя себе, ну ладно, как скажешь.
Аноним 16/02/24 Птн 11:53:42 #134 №643292 
>>643220
>Не локалка, сразу нахуй.
ну, в том то и прикол что не локалка, такой точности и стабильности у локалок никогда не будет, и уж точно никто со своим ведро-компудахтером это не запустит.
но для жидов это идеальная вещь, вот потому и торопят прогресс.
Аноним 16/02/24 Птн 11:56:38 #135 №643296 
>>643292
>такой точности и стабильности у локалок никогда не будет
Очевидно будет. Просто не сегодня. Нужно только подождать, и RTX 8000 будут продаваться на каждой авите по 20 тыщ рублёв, а логалки подтянут на уровень первых четвёрок.
>но для жидов это идеальная вещь
Для одного жида. Если жидов с сетками больше одного, то это автоматом пизда капитализму.
Аноним 16/02/24 Птн 12:07:39 #136 №643300 
IMG6229.jpg
IMG6230.jpg
>>643296
не не, про жидов имею ввиду что эта тема поможет им, ну и мошенникам всяким это тоже приглянётся.
пикрилы - реакция плебеев на "Sora" от openai, модель видео-генерации, короче говоря это лютейший потенциал для тонны феков а так же сладкий повод для власть-имущих запретить к чертям всякую опенсорс движуху во имя "безопасности".
Аноним 16/02/24 Птн 12:10:13 #137 №643301 
изображение.png
>>643300
Господи, что за пиздец.
>запретить
Как бы не выйдет.
Аноним 16/02/24 Птн 12:58:14 #138 №643323 
Аноны, накидайте пожалуйста для чего сейчас пригодятся LLM. Желательно без историй о просчетах белков и гигагулага

1. Кодинг. Ну тут всё понятно. Удобный способ не ебать голову, но временами подтупливает.
2. Кумерство. Писать свою вайфу материал или похотливые истории аргонианской девы
3. Адвенчуры и написание книг. Отделю от кумерства. Главное что б токенов хватило для ахуеительных историй
4. Чат боты в магазах. Что б Васян думал что он пишет Виктории, заказывая себе конское дилодо 50 см.
6.Переводы. Ну тут всё ясно. Яндекс транслейт идёт нахуй через пару лет. СОси
7. Создание персонажей, описание локация и прочего игрового стаффа. Ну тут всё пока не оч. Дженерик вроде норм, а вот что-то посложнее уже залупа.
8. Пересказ книг??? LLM уже могут это делать качественно?
9. Собеседник одинокого анона, лежащего под пледиком. Для окукливания.
Аноним 16/02/24 Птн 13:17:48 #139 №643335 
>>643300
>Это должно быть НЕЛЕГАЛЬНО!!!
>Это так ОПАСНО!!!!!!
Блоядь мне кто-нибудь вообще скажет почему кому-то должно быть не похуй? Типа фотошоп же есть, блендер там. Ну да станет полегче фейк сделать ну и че. Проклятая соя.
Аноним 16/02/24 Птн 13:23:24 #140 №643338 
>>643323
>Кумерство
THIS. И только это. Остальное хуета.
>>643335
>Блоядь мне кто-нибудь вообще скажет почему кому-то должно быть не похуй?
ХЗ, но получается не похуй. Визгливое меньшинство крутит пассивным большинством.
Аноним 16/02/24 Птн 14:25:16 #141 №643370 
Какая лучшая локалка для перевода с русского на англ? Есть только одна 4090, на которой это и собираюсь делать.
Аноним 16/02/24 Птн 14:34:12 #142 №643373 
>>643323
Ни для чего не годятся. Локальные могут генерировать рассказы про бабу которая по 3 суток непрерывно и стандартно кончает от одного вида твоего члена, еще если ты сидишь в деревне без интернета может имитировать стаковерфлоу на минималках для каких простых примеров. Проприетарные это такой сойджак с реддита, испускающий прошибающие на страшную зевоту безопасные банальности.
Аноним 16/02/24 Птн 14:57:37 #143 №643392 
>>643300
>it already is being used by pedophiles
А что собственно в этом плохого. Педобиры генерят себе виртуальных лолей и шотиков = не трогают реальных.
Аноним 16/02/24 Птн 15:08:39 #144 №643395 
>>643370
Бери любую, задача весьма проста. На 4090 можно вьебать YI 34B.
>>643392
Так это, педобиры должны страдать, ты не знал? А на детей всем похуй.
Аноним 16/02/24 Птн 15:17:01 #145 №643398 
Ничего не понимаю в этом. Где почитать про теоретическое основы современных, после 2018 моделец
Аноним 16/02/24 Птн 15:27:08 #146 №643402 
>>643395
>YI 34B
Она же на китайском/английском тренирована.
Аноним 16/02/24 Птн 15:40:43 #147 №643407 
>>643323
Бля, ну белки, и вообще медицина, химия и физика — это рил прикладная хуйня, камон.
Аноним 16/02/24 Птн 15:59:21 #148 №643418 
>>643407
Твоя теоретическая физика?
Аноним 16/02/24 Птн 16:02:22 #149 №643419 
изображение.png
>>643402
На чтение почти любая модель понимает русский. Можешь мистраль/микстраль взять, если смущает страна происхождения модели.
>>643407
Белки же на спец моделях считают, LLM там разве что в качестве архитектуры, а так вряд ли какой-нибудь альфа фолд вообще способен тексты выдавать.
Аноним 16/02/24 Птн 17:33:16 #150 №643459 
>>643418
Моя нет, моя ассистент на вопросы отвечать и код писать.

>>643419
А, там именно LLM. Сорян, не вчитался, да.
Аноним 16/02/24 Птн 17:33:22 #151 №643460 
А кто-то реально пользуется локалками? Не на поиграться-подрочить, а что-то полезное? Какие у вас спеки и что делаете?
Аноним 16/02/24 Птн 17:55:41 #152 №643476 
>>643460
Да это и делаем.
На самом деле, спрашивающий неплохо расписал-то.
1. Кодинг. Правда, это экономит время. Делаешь код-ревью и копипастишь с правками.
2. Переводы. Некоторые переводят специальными модельками, ибо так получается красивше, чем обычными переводчиками.
3. Создание персонажей. Когда до сессии полчаса, а тебе надо накидать неписей второго плана, самое то.
4. Советы. Иногда просто полезное взглянуть, как выглядит ситуация, с точки зрения датасета той или иной модели. Порою подкидывает годные идеи.
Ну вот так как-то.
Аноним 16/02/24 Птн 19:59:49 #153 №643550 
>>641614
>владелец простой ASUS x99-E, который безработный и которому лень брать P40, потому что в первый раз заказ отменили
Пришла мать, проц и память. Два дня настраивал - очень проблемная оказалась мать, да и плашки памяти работали не все. На третий день начал пихать в неё Теслы - тут она и сдохла :) Короче, б/у мать с Алика вообще не вариант. Кто на эту тему задумывался - забудьте.

Но я очень хочу иметь домашний нейроускоритель, так что плюнул и заказал новую мать на x299 - ASUS WS X299 SAGE 10G :) Недели через две-три приедет процессор для неё (китайский Новый год всё-таки, дойдёт когда дойдёт), тогда и будут тесты.
Аноним 16/02/24 Птн 20:02:33 #154 №643552 
Гробик под 4 теслы подскажите?
Аноним 16/02/24 Птн 20:03:25 #155 №643553 
16043599051592.jpg
Скоро приедет еще одна Р40. Поздравьте меня.
Китаедебил с зеонами на красной подсветке.
Аноним 16/02/24 Птн 20:04:15 #156 №643555 
>>643550
Хочешь впихнуть 3-4 теслы?
Вот поэтому я и не собираю стока.
Материнки либо мусор, либо дорогие.
Хочется — но недостаточно. х)
Однако тебе желаю всяческих успехов!
Аноним 16/02/24 Птн 20:05:42 #157 №643557 
>>643553
И тебя поздравляю!

А я вторую все еще жду.
Уже охлад распечатал даж. Осталось кулеры купить.

Седня еще оперативы взял под третий комп. Чисто под озвучку, чтобы стоял и озвучивал все что я хочу, и прочие мелочи.
Тоже покаюсь, так сказать.
Аноним 16/02/24 Птн 20:06:56 #158 №643559 
>>643552
И тебя… поздравляем.

В предыдущих тредах кто-то писал. >>639677 →
Аноним 16/02/24 Птн 20:10:29 #159 №643560 
>↑ Аноны как сумасшедшие покупают теслы и конструируют кошкожён.
Вы что творите, окаянные?!?!?!?!
Аноним 16/02/24 Птн 20:26:39 #160 №643570 
Что сейчас актуально кобольт или генерация на видюхах? Насколько велика разница в качестве генерации? gf 1660s вообще не позволит в генерацию на видюхе? Какая модель для кобольта сейчас оптимальна по соотношению качество/время генерации?
Аноним 16/02/24 Птн 20:45:25 #161 №643582 
>>643476
Ты не понял. У тебя видимо проблемы с чтением но он написал конкретно локалки. Все что ты перечислил делается лучше не локалками
Аноним 16/02/24 Птн 20:54:36 #162 №643586 
>>643582
Да не, норм все.
«Делается лучше не локалками» — нихуя не очевидно из его вопроса.
Лучше — это как? Обязательно только и исключительно качественнее по ответу? Тогда вообще все отрезается GPT-4.
Но я пользуюсь и локалками, и гопотой, у них немного разный взгляд, и бывает время от времени, когда локалки полезнее.

Окей, если автор подразумевал, что для 100% случаев он юзает чатгопоту, нахуя тогда нужны локалки, — то ответом будет «для альтернативной точки зрения, больше низачем». Но, объективно, во многих случаях локалок хватает, и нет необходимости тыкать чатгопоту.

При этом, мы игнорируем вопрос цензуры, конечно.

Ответ «для генерации шуток про негров» сойдет? =D
Аноним 16/02/24 Птн 20:56:36 #163 №643588 
>>643582
Вообще, у меня всегда был вопрос — нахуя нужны всякие распберри пи, если есть андроид-боксы вдвое дешевле и вдвое мощнее.
Ради GPIO, судя по всему.

Так и тут. Ради анонимности, отсутствия цензуры, заточенности под задачи, интернетонезависимости, альтернативной точки зрения. Но лучше ли гопота? Ну да, четверка лучше, никто не спорит.

Там есть API и можно делать шо хошь.
Аноним 16/02/24 Птн 21:14:56 #164 №643600 
>>643065
Чёт я не вижу разницы между ними. Вот например Мистраль вроде, 7б, gguf но зачем их там столько и где адекватно написано в чём между ними разница? В их описании тупо сказано кем вроде создан и квантован какая мне разница с этого и почему я должен выбрать в итоге?

п.с. почему иногда фразы не могут быть длиннее 3 предложений и дальше будто на полуслове обрывается текст ответа? Мб настройки какие не поставил oobabooga только буду скоро ставить, пока игрался с кобольдом и настройки не трогал?
Аноним 16/02/24 Птн 21:16:24 #165 №643601 
image.png
>>643065
>>643065
скрин отклеился
Аноним 16/02/24 Птн 21:38:04 #166 №643625 
>>643600
Есть голая Mistral.
Есть различные ее файнтьюны. Это Мистраль дообученная на разных датасетах. Там можно почитать, что за датасеты, или хотя бы какие у них цели и содержимое (примерно). Какие-то файнтьюны лучше ролеплеят, какие-то лучше пишут код, какие-то… просто лучше по словам авторов. ¯\_(ツ)_/¯

Что выбрать — хер знает, зависит от целей.

Длина ответа в токенах. Не помню, как это называется в кобольде. По умолчанию оно 512, кажись. Или 256. Че-то такое.
Хочешь ответ больше — увеличивай.

Еще можно нажать там куда-то и нажать «Continue» и он продолжит писать свой ответ.
Аноним 16/02/24 Птн 22:16:36 #167 №643645 
>>643323
В целом все правильно расписал. Только каждый из пунктов можно развить и некоторые объединить.
>>643370
> с русского на англ
Вообще, почти любая может. Обратно уже сложности, а просто с восприятием там чуть ли не у стоковой лламы хорошо.
> Есть только одна 4090
up to 34b без выгрузки на проц
>>643550
> очень проблемная оказалась мать, да и плашки памяти работали не все
Хуясе, это же вроде одна из последних когда бренд анус что-то значил, и тут такое.
> тут она и сдохла
Вут?
> и заказал новую мать на x299 - ASUS WS X299 SAGE 10G :) Недели через две-три приедет процессор
Brutal! И сколько это добро вышло?
>>643552
Зачем?
Аноним 16/02/24 Птн 22:22:53 #168 №643651 
>>643645
> когда бренд анус что-то значил
Еще в 2000х кончилось это время
Аноним 16/02/24 Птн 22:23:19 #169 №643653 
>>643476
>>643582
Спасибо, а на каких спеках вменяемые ответы? Например для кодинга надо хуярить 2х3090 чтобы не получать ответы на след месяц в стиле пук-среньк? Или божеские спеки тоже позволяют локалкам быть полезными?
Аноним 16/02/24 Птн 22:28:07 #170 №643662 
>>643553
Поздравлять надо когда доедет и получишь
>>643560
Будто что-то плохое!
>>643570
> кобольт или генерация на видюхах
Одно другому не мешает, кобольд без оффлоада на гпу всеравно не юзабелен. И он - форк llamacpp, на tesla p40 она показывает ну очень высокий перфоманс что радует. На более новых карточках exllama ощутимо опережает. Дешевле p40 нет, но с ней много компромиссов и нюансов. Особенно хороша в качестве второй карточки к йобе только ради llm.
>>643601
Люто обзмеился, представив что на сой_гу потрачены тысячи bucks.
Аноним 16/02/24 Птн 23:02:07 #171 №643701 
>>643550
>тут она и сдохла :)
Пиздец конечно. Благо моя была новой, наверное последнюю новую в России взял.
Удачи с новой платой, и поддвачну вопрос про стоимость.
>>643560
Будущее. Творим прямо онлайн.
>>643582
>Все что ты перечислил делается лучше не локалками
Переводишь ты такой текст со словом "ниггер", и в ответе тебе "Извините, но от имени OpenAI я шлю вас нахуй".
>>643653
>Например для кодинга надо хуярить 2х3090
Одной хватит, файнтюны кодлламы в основном до 34B, 70B релизнули недавно.
>>643662
>Люто обзмеился, представив что на сой_гу потрачены тысячи bucks.
Зато статьи на Хабре есть, а про дипсекс нету )
Аноним 16/02/24 Птн 23:05:46 #172 №643709 
>>643701
> Зато статьи на Хабре
Мерило качества? Ранние версии были настолько всрато-зашкварными что новые никто даже тестить не хочет. Что там за статьи, васян осваивает лламу и в качестве примера пихает сой_гу или что-то интересное?
Аноним 16/02/24 Птн 23:07:16 #173 №643711 
>>643653
Чисто для кодинга — зависит от уровня.
Джуну хватит Mistral 5битной на 6 гигов со скоростью 100500 токенов в секунду.
Хочешь поумнее — всякие дипсиккодеры, визардкодеры, кодлламы на 34б в малом кванте на 24 гига видяхи, или на проце с вменяемой скоростью.
Или в большом кванте на 32+ гига для скорости, или потерпеть на проце.
Ну а прям брутал кодллама на 70б — во-первых, хуйня соевая по отзывам, во-вторых, там уже серьезные требования.

Если же ты хочешь универсала, то тут сложнее. Более-менее норм универсал — это Микстраль с ее 8*7Б и 50 гигами размера, а дальше всякие 70Б+.
Но может тебе и Yi-34B зайдет.

Ну и вообще, жизнь есть везде, даже на той же мистральке можно че-нить поделать и очень быстро.

Короче — пробуй. Начни с мистрали 7б в0.2. Потом иди на повышение.

>>643662
Ну, там же вряд ли тысячи, он не квантовал 70б никогда, вроде. =) Только мелкие.
Аноним 16/02/24 Птн 23:12:29 #174 №643717 
>>643711
спасибо, я вот думаю какой комп собрать под это дело и у 4090 пойти на повышение походу уже не получится, ибо там нет nvlink. Хотя может подождать 5ххх и там будут 200гб для таких целей видяхи.
А вот эта на 50гб -там часть слоев суется в видяху а часть остается на проце? Кто-то пользуется вообще таким? Там скорость не падает до уровня проца?
Аноним 16/02/24 Птн 23:16:04 #175 №643721 
>>643711
> Ну, там же вряд ли тысячи, он не квантовал 70б никогда, вроде
Если судить по перфомансу - там qlora криво сделанная на фришном коллабе, не более.
> Mistral
> Чисто для кодинга
Крайне сомнительное действо. Как бы ни была хороша модель для своего размера, она сосет у 34б кодллам и аналогов, особенно если знаешь чего хочешь и можешь сфомулировать. Что там на меньших размерах - хз, вполне вероятно что кодлламу 7б и ее файнтюны обойдет.
Микстраль - странная, где-то она перформит хорошо, но даже с 34б (даже с учетом шизоидности последней) ее не стоит сравнивать, не говоря о 70б. В кодинге также посредственна.
Аноним 16/02/24 Птн 23:18:15 #176 №643723 
>>643717
>ибо там нет nvlink
Он не нужен.
>Кто-то пользуется вообще таким?
Я пользуюсь.
>Там скорость не падает до уровня проца?
Нет, при разделении слоёв 50/50 скорость тоже будет средней.
Аноним 16/02/24 Птн 23:22:09 #177 №643725 
>>643717
> у 4090 пойти на повышение походу уже не получится
Нуу, туда можно подкинуть вторую 4090 (оче дорого и чисто для ллм не оправдано, топ для других нейронок), 3090 (топ за свои деньги по всему, но придется порыться в бу), теслу p40 (пердолинг но топ по прайс-перфоманс для llm).
> подождать 5ххх
Подожди, всего-то 2025 год и 32-36 гигов наиболее вероятны
> и там будут 200гб для таких целей видяхи
Хуясе ебать

Алсо микстраль достаточно шустро работал за счет своей архитектуры даже просто на проце.
Аноним 16/02/24 Птн 23:30:31 #178 №643729 
>>643725
> вторую 4090
В какой корпус кроме динамик хл с дополнительным рейлингом? 3-слотовую 4090 днём с огнём или под водянкой. Остальные 4-слотовые
Аноним 16/02/24 Птн 23:34:39 #179 №643733 
>>643729
> динамик хл
Что?

Оно не влезет ни в какой корпус по дефолту чтобы верхняя не задыхалась, кроме нищих-узких или специальных двухслотовых с турбой. Вторую по дефолту придется утаскивать райзером и ставить вертикально в месте, где раньше размещали корзину для HDD и оптические привода, и ставить вертикально параллельно задней стенке. При этом еще основную скорее всего придется равезрнуть, чтобы в нее не упиралась. На том же озоне есть кронштейны сразу комплектом под райзеры, с ними реализовать такое не то чтобы сложно.
Аноним 16/02/24 Птн 23:39:41 #180 №643739 
.jpg
>>643733
> Что
LIAN LI O11D Dynamic Evo
Аноним 16/02/24 Птн 23:40:25 #181 №643740 
>>643725
спасибо еще раз, ты прав.
А еще я слышал что роляет лишь частота цпу, а кол-во ядер пофиг якобы, но при этом если хочешь нормальный второй слот pcie, то тут только рязань. Имеет смысл интелы брать?
Аноним 16/02/24 Птн 23:45:36 #182 №643749 
>>643701
>Переводишь ты такой текст со словом "ниггер", и в ответе тебе "Извините, но от имени OpenAI я шлю вас нахуй".
Шел 2024 год а шизы до сих пор уравнивают наличие минимальных мозгов чтобы написать нормально промпт с альтернативой в виде покупки пачек 4090 ради аутпута который все равно будет кратно хуже.
Если что, я не обсираю всех тредовичков и сам тред, мне самому интересно потыкать локалки, но вот конкретно вы шизы ничего кроме охуевания от такой упертой тупости не вызываете
Аноним 16/02/24 Птн 23:46:04 #183 №643750 
>>643740
> я слышал что роляет лишь частота цпу
>если хочешь нормальный второй слот pcie, то тут только рязань
Вообще не так. Влияет частот озу, скорость прокачки в ней. Слот вообще пофиг - выше писал уже: 4090 в слоте 3.0 4х работает не хуже чем в 5.0 16х. В 1.0 1х наверное заметишь проблемы, но таких мп сейчас нет
Аноним 16/02/24 Птн 23:48:06 #184 №643753 
>>643739
Да, примерно вот так. В фекал дизайн мешифай s2 влезает нормально.
>>643740
> роляет лишь частота цпу, а кол-во ядер пофиг якобы
Так уж выходит что вычислительной мощности современных процессоров достаточно, и все упирается с пропускную способность рам. Оно и неудивительно, ведь даже квантованные модели имеют размеры в десятки гигабайт и для каждого токена нужно обработать почти весь объем. Есть техники, которые держат в врам только часть модели, а те участки, к которым обращения редки или пропускаются - в обычной рам, но пока это слабо развито.
> нормальный второй слот pcie
Он не нужен. На взаимодействие с LLM и другими нейронками шина никак не влияет (офк при условии что не происходит выгрузки врам через драйвер).
> то тут только рязань
У нее все также нет второго полноценного слота, только деление процессорных линий по 8 или чипсетные. Хочешь полные слоты - велкам ту xeon W или threadreaper.
Так что выбирать интел или амд - тут вопрос сугубо конкретной ситуации что выгоднее в данный момент, персональных предпочтений, религии и т.д. поддерживать пока неудачную платформу компании-лжеца, что до сих пор не смогла ее обновить и починить - ну хуй знает, даже покупка штеуда в преддверии выхода нового сокета не выглядит настолько безумной
Аноним 16/02/24 Птн 23:53:57 #185 №643758 
>>643749
>написать нормально промпт
Писал я эти промты, юзал чужие. NSFW часть и прочие префилы уже за 1к токенов переваливают, а гопота всё равно периодически аполоджайзит. Спасибо, накушался.
Аноним 16/02/24 Птн 23:56:56 #186 №643761 
>>643749
> Шел 2024 год а шизы
> НУ НИ БАМБИТ У МИНЯ НИ БАМБИТ ЧТО СВОЕЙ ЛОКАЛОЧКИ НЕТ
Зачем так громко-то? Поняли-приняли
Аноним 17/02/24 Суб 00:07:07 #187 №643769 
>>643749
> шизы до сих пор уравнивают наличие минимальных мозгов
> с альтернативой в виде покупки пачек 4090
Вау, как же нибомбит у идейного нищука. Настолько поехал что вместо указания на слабости локалок вот такое приплел.
> но вот конкретно вы шизы ничего кроме охуевания от такой упертой тупости не вызываете
Чего сказать то хотел?
Аноним 17/02/24 Суб 00:12:33 #188 №643773 
>>643769
>Чего сказать то хотел?
Как же туго то а...
Аноним 17/02/24 Суб 00:27:25 #189 №643793 
>>643645
>Brutal! И сколько это добро вышло?
Пока на круг примерно 100к :)
Аноним 17/02/24 Суб 00:29:23 #190 №643798 
>>643793
> 100к
Пфф, даже не 1/2 от 4090 а ведь летом это ещё было почти 90% от неё
Аноним 17/02/24 Суб 00:30:00 #191 №643799 
>>643701
>Удачи с новой платой, и поддвачну вопрос про стоимость.
Ну я надеюсь, что в итоге общие расходы выйдут не дороже новой 4090 :) Что поделаешь, такие штуки всегда стоят дорого.
Аноним 17/02/24 Суб 00:32:28 #192 №643802 
>>643717
В случае с Микстралью — эффект не такой уж сильный, как хотелось бы.
Если совать часть в видяху, то лучше 70Б, но я могу быть не прав, это лишь мое мнение.

>>643721
> Как бы ни была хороша модель для своего размера, она сосет у 34б кодллам и аналогов
Ну, человек в вопросе сделал упор на скорость, я и предложил ему для начала совсем скорость, при удобоваримом качестве.
Но для хорошего качества придется чем-то жертвовать. Деньгами или временем.

>>643725
Стоит уточнить, что Тесла именно для GGUF моделей, но не для GPTQ/Exl2.

>>643729
Так ведь водянки, очевидно, все так делают.
У кого есть деньги на вторую 4090 — уж на водянки наскребут.

>>643717
> Хотя может подождать 5ххх и там будут 200гб для таких целей видяхи.
Для таких целей уже есть, покупай, 1,5кк всего лишь в рублях.

А на 5090, скорее всего, будет максимум 32. Хочу ошибаться.

>>643733
Ну или райзер, да.

>>643749
> кратно хуже
Без обид, но шиза точно у тебя.
Это тотальное неумение нормально промптать и крутить семплеры.
Мнение, что локалки кратно хуже гопоты — из разряда «%модель_нейм% выебала гопоту!»
Шо то хуйня, шо это хуйня.
Перформит, но не кратно, каждому на вкус и цвет.

>>643740
Тебе второй нормальный слот не то чтобы нужен, на самом деле.
Это скорее касается четвертого нормального слота, чтобы х4 делилось, а не x8+x1+x1+x1. Хотя и так не ужас, тащемта.
И, как тебе уже сказали, важна пропускная способность памяти (оперативной или видео).

>>643753
Про выбор — база.
Аноним 17/02/24 Суб 00:32:43 #193 №643804 
>>643793
> Пока на круг примерно 100к :)
Больно. Мог бы чуть добавить денег, времени и взять пару 3090 чтобы катать все без компромиссов.
Аноним 17/02/24 Суб 00:41:21 #194 №643812 
>>643804
>Новая 3090 в ДНС сейчас 200+ штучка.
Аноним 17/02/24 Суб 00:42:06 #195 №643813 
>>643793
>>643799
Пиздос х2. Мне моя плата вышла в 12к, проц вообще по цене песка из Китая, память уже не помню точно, но где-то в 10к на 64 гига. Правда пока как файловый сервер пашет. Как же не хочется устраиваться на РАБотку...
>>643802
>будет максимум 32. Хочу ошибаться.
Ты это, поосторожнее желай, а то вдруг твоё желание сбудется, и там будет ещё раз 24, лол со слезами на глазах.
Аноним 17/02/24 Суб 00:44:03 #196 №643815 
изображение.png
>>643812
>Новая
Как называется эта болезнь?
Аноним 17/02/24 Суб 00:45:15 #197 №643818 
>>643812
> >Новая
> 3090
Можно еще новую 2080ти найти а потом пытаться перепаять на ней чипы памяти, и жаловаться что не взлетело, ага.
>>643813
> ещё раз 24, лол со слезами на глазах
Этот Хуанг делает больно иначе
Аноним 17/02/24 Суб 00:54:39 #198 №643827 
image.png
image.png
>>643625
Спасибо.

Поставил вот я себе SillyTavern, указал на koboldcpp и вроде даже работает с моделью из шапки frostwind-10.7b-v1.Q5_K_M.gguf, но на выбор у меня есть только персонажи которые предложены как на 1 скрине? И типо от модели что я использую зависит качество их ответов?
В общем откуда взять других персонажей или другие персонажи это и есть модели типа Мистрал?
Насколько адекватные сценарии в самом кобольде (скрин 2) и как их вытащить в SillyTavern если в них есть смысл?
Аноним 17/02/24 Суб 01:03:39 #199 №643832 
>>643815
>Как называется эта болезнь?
"Такой большой, а в сказки веришь" она называется :)
Аноним 17/02/24 Суб 01:04:17 #200 №643833 
>>643827
>В общем откуда взять других персонажей
https://www.chub.ai
>и как их вытащить в SillyTavern
Никак, они не нужны, закрой страницу с кобольдом и пользуйся таверной.
>или другие персонажи это и есть модели типа Мистрал
Ну шапочку почитай, ну позязя. И по ссылке пройди на вики, плиз, умоляю.
Аноним 17/02/24 Суб 01:07:19 #201 №643835 
>>643827
> откуда взять других персонажей
chub.ai или можно писать самому/попросить модель написать карточку

>>643832
> "Такой большой, а в сказки веришь" она называется :)
За 49 там может и прогрев гоeв, а за 60 - уже достаточно нормальных. Одна прямо сейчас работает тут
Аноним 17/02/24 Суб 01:20:01 #202 №643840 
>>643833
>>643835
Спасибо! Какой милый у вас тредик
Аноним 17/02/24 Суб 01:29:37 #203 №643844 
>>643827
> на выбор у меня есть только персонажи которые предложены как на 1 скрине
Это стандартные, можешь добавлять любых готовых, качая с чуба и других ресурсов, или создавать своих. Ну вон уже все объяснили.
> если в них есть смысл
Нет.
Насчет сценариев, не так давно анон писал про адвенчур мод таверны и промты к нему, он может быть интересн.
>>643832
> "Такой большой, а в сказки веришь" она называется :)
Скорее защита от реальности из-за необходимости смириться с ошибками ранее в случае успеха подобного.
Аноним 17/02/24 Суб 01:37:11 #204 №643847 
>>643840
Да мы вообще милахи. =3
И ты милаха.
Пользуйся на здоровье!
Аноним 17/02/24 Суб 01:51:47 #205 №643853 
изображение.png
>>643844
>смириться с ошибками
Я до сих пор не смирился.
Аноним 17/02/24 Суб 02:00:29 #206 №643858 
1567731422007.png
1596318472524.png
>>643853
Главное - их вовремя исправлять
Russian LLM Silicon-Masha-7B Аноним 17/02/24 Суб 05:51:17 #207 №643907 
Кто-нибудь пробовал?

https://www.reddit.com/r/LocalLLaMA/comments/1ago2wq/russian_llm_siliconmasha7b/

Hi everyone! Please evaluate the merge model I made. It is aimed most of all at RP/ERP in Russian. As for me, with the tasks in Russian it copes. Do not judge harshly, something wrong, write)))) all the same first time doing this).

I use:
mergekit
SanjiWatsuki/Kunoichi-DPO-7B
MexIvanov/zephyr-python-ru-merged
IlyaGusev/saiga_mistral_7b_merged

Links:
https://huggingface.co/LakoMoor/Silicon-Masha-7B
https://huggingface.co/LakoMoor/Silicon-Masha-7B-GGUF
Аноним 17/02/24 Суб 06:34:32 #208 №643917 
>>643907
>I took as a basis the models that are trained on the Russian dataset.
>40 процентов токенизатора английский
>40 китайский
>Чуть-чуть русского
>trained on the Russian
Понимаю.
Аноним 17/02/24 Суб 06:38:47 #209 №643919 
>>643232
>Файнтюн как раз не поможет. Если данных мало, то лучше в промт всё запихать.
Схуяли вот? Лоры делаются на небольшом количестве примеров.
Аноним 17/02/24 Суб 09:01:11 #210 №643943 
image.png
>>643907
Аноним 17/02/24 Суб 09:30:01 #211 №643953 
>>643907
>in Russian
Не нужно, уноси.
>>643943
Как ты портифьича в таверну подрубил?
Аноним 17/02/24 Суб 09:59:30 #212 №643965 
0000.png
Аноним 17/02/24 Суб 10:15:46 #213 №643969 
>>643953
>портифьича
Кого? Если ты про бота, то это старый рофл из CAI треда.
https://files.catbox.moe/6hsokd.png
На гопоте-клоде неплохо работает, генерит лулзы, на локалках обычно тупит, т.к. предназначен для русского языка.
Аноним 17/02/24 Суб 10:38:31 #214 №643976 
Аноны, подскажите фронтенд для llama. Не в виде чата, а для текстового рпг. И желательно чтобы дайсы и статы перса были.
Аноним 17/02/24 Суб 11:01:28 #215 №643987 
image (64).png
К таверне можно прикрутить fooocus чтобы картинки рисовал? А то этот хорд херня какая-то.
Аноним 17/02/24 Суб 12:03:23 #216 №644027 
image.png
И вот как бороться с этим? Тут блядь буквально противоречащие друг-друг параграфы.
Аноним 17/02/24 Суб 12:07:29 #217 №644030 
image.png
юзаю кобальд сс
казалось бы универсальная херня
юзаю формат ггуф как советовали итт
с Masterjp123-NeuralMaid-7b. любым количеством после кью
выдает типо пикрил


как эту херь лечить ??
Аноним 17/02/24 Суб 12:40:27 #218 №644041 
>>643907
Звучит пиздец. =)

>>643969
Порфирьича же, ну.
Классику не знаешь.

>>643987
Прикрути стейбл диффужн обычный. Не?
Аноним 17/02/24 Суб 13:08:28 #219 №644050 
от чего зависит скорость генерации на проце?
Аноним 17/02/24 Суб 13:14:18 #220 №644057 
>>643907
Силиконовая Маша, ммм
> SanjiWatsuki/Kunoichi-DPO-7B
> MexIvanov/zephyr-python-ru-merged
> IlyaGusev/saiga_mistral_7b_merged
Ooof, скорее всего там все печально.
>>643987
Если его api совместимо с автоматиковским - можно.
>>644030
Выключи ban eos token
Аноним 17/02/24 Суб 13:16:06 #221 №644059 
>>644050
В большей степени от пропускной способности памяти (частоты) и инструкций процессора (AVX2, AVX, noAVX).
В меньшей — от количества ядер и частоты (от 4-5 ядер и больше).
Аноним 17/02/24 Суб 13:31:55 #222 №644064 
Сколько токенов выдаст 3090 на yi34 q4km?
Аноним 17/02/24 Суб 13:34:24 #223 №644065 
>>642267
Я доделал эту дичь. Имеется квантизация в 4 бита с помощью bnb, загрузка весов с hf (для каждой моделки надо писать собственные правила для загрузки экспертов, иначе никак), и в случае загрузки без квантизации можно указать оптимизатор, чтоб эксперты еще и обучались. Пока я все это тестирую и пытаюсь обучить мелкую модельку на 4-10 слоев с 16 мелкими экспертами. Пока клиентский код крайне сырой и работает через монкей патч оригинальных transformers модулей под работу с экспертами. Пока тестил вот что понял: нужно добавить в оптимизаторы adafactor и 8бит адам так как обычные оптимизаторы дохуя жрут, накопление градиентов как костыль от переобучения из за мелких батчей, пофиксить два прикола из за которых можно убить эксперта на удаленном пире, и добавить дефолтное распределенное обучение что есть в hivemind чисто ради лулза.
Аноним 17/02/24 Суб 13:37:32 #224 №644067 
>>644064
На ExLlama 2 около 20-25 должно быть. У Жоры дели на 2-3, не думаю что больше 10 выдаст.
Аноним 17/02/24 Суб 13:39:00 #225 №644068 
image.png
>>644065
забыл добавить пикчу. на количество параметров не обращаем внимание, это визуальный баг и это тоже пойдет под фикс.
Аноним 17/02/24 Суб 13:41:28 #226 №644069 
>>644059
а частота проца особо не играет?
вот думаю апать частоту озу или тайминги крутить
Аноним 17/02/24 Суб 13:57:48 #227 №644073 
>>644068
Это чё вообще?
Аноним 17/02/24 Суб 14:05:19 #228 №644085 
>>644069
Кэш процессора еще важен.
Аноним 17/02/24 Суб 14:10:18 #229 №644088 
15819558738570.jpg
>>644085
Да, я так и сделал. Нужно разогнать множитель кэш лимита и немного поднять напряжение систем агента.
Это база, у меня нейросеть 13b начала работать быстрее на ~10%.
Аноним 17/02/24 Суб 14:15:24 #230 №644091 
>>644069
При равной псп и наличии технологий между зеоном на 3 ГГц и современными на 4+ ГГц разницы не замечено особо. Наверное, она все-таки есть, но не прям.

>>644085
Латенси или размер? От размера вообще не увидил разницы.
Аноним 17/02/24 Суб 14:16:55 #231 №644092 
Ну вот, наконец третий комп завел норм.
Теперь один игровой, один под теслы, один под мелочухи всякие.
И все работает.

Осталось все настраивать и писать код, а не ждать погоды у моря. хд
Аноним 17/02/24 Суб 14:25:50 #232 №644093 
>>644065
> монкей патч оригинальных transformers модулей под работу с экспертами
В оригинальном трансформерсе же добавляли поддержку MOE.
> нужно добавить в оптимизаторы adafactor и 8бит адам так как обычные оптимизаторы дохуя жрут, накопление градиентов как костыль от переобучения из за мелких батчей
Ты пилишь свой скрипт обучения, или пытаешься сделать распределенную обучалку?
>>644067
> не думаю что больше 10 выдаст
На новой 15+ наверно будет, исключение - большой контекст с полной обработкой.
Аноним 17/02/24 Суб 14:32:13 #233 №644095 
Че там за 2 месяца было что то из новых сеток норм?
До 20b, порекомендуйте че нибудь

Там кстати кобальд обновился, пока без фикса
Аноним 17/02/24 Суб 14:47:15 #234 №644100 
>>644093
Распределить экспертов по пирам в одноранговой сети, чтобы потом их можно было инференсить / обучать.
Аноним 17/02/24 Суб 14:57:04 #235 №644104 
>>644091
>Латенси или размер? От размера вообще не увидил разницы.
Я по вот этому треду сужу:
https://www.reddit.com/r/LocalLLaMA/comments/1ak2f1v/ram_memory_bandwidth_measurement_numbers_for_both/kp6xyu9/
Чел измерил пропускную способность памяти, получил ~215 GB/s, но токенов в секунду получает мало, добавлять больше 12 потоков не помогает, vtune'ом выяснил, что память утилизуется только на 43%, в итоге пришел к выводу, что ограничен скоростью L3 кэша.
Аноним 17/02/24 Суб 15:02:32 #236 №644108 
>>644104
Пропускная способность памяти не имеет никакого отношения к задержкам при чтении из неё.
Аноним 17/02/24 Суб 15:04:25 #237 №644109 
>>644108
имеет - учи матчасть
чтение не может быть моментальным
оно зависит от таймингов на чтение и частоты работы и передачи
Аноним 17/02/24 Суб 15:14:51 #238 №644110 
>>644109
> от таймингов на чтение и частоты работы и передачи
Задержки чтения и пропускная способность - совсем разные вещи.
Аноним 17/02/24 Суб 15:32:11 #239 №644118 
>>644110
всем насрать на твою пропускную пока по таймингам из чипа данные не прочтутся
Аноним 17/02/24 Суб 16:24:45 #240 №644142 
https://www.techradar.com/pro/someone-took-nvidias-fastest-cpu-ever-and-built-an-absurdly-fast-desktop-pc-with-no-name-it-cannot-play-games-but-comes-with-576gb-of-ram-and-starts-from-dollar43500
Аноним 17/02/24 Суб 16:58:34 #241 №644164 
>>644142
Всего лишь 43 куска. Я думаю тут каждый за пару сотен месяцев накопит
Аноним 17/02/24 Суб 17:01:44 #242 №644167 
>>644164
По цене 1 проф карты с 40гб

Вот как раз обсуждают охуевших зеленых
https://www.reddit.com/r/LocalLLaMA/comments/1asfe83/highvram_gpus_for_us_nerds/
Аноним 17/02/24 Суб 17:02:10 #243 №644168 
>>644118
Я тебе о чём и пишу. Нахуй ты высрал тот пост про пропускную способность и кэш, который вообще не используется из-за кэш-миссов.
Аноним 17/02/24 Суб 17:04:45 #244 №644172 
>>644142
>clocking in at up to 284 times faster than x86
Инженер изнасиловал журналиста.
>>644167
>1. Harass large manufacturers.
>2. Get a smaller manufacturer to do a Kickstarter.
>3. Get an Open-Source project started.
Чёт проиграл с этого говна в голове.
Аноним 17/02/24 Суб 17:05:30 #245 №644175 
>>644172
Леваки-с, сэр
Аноним 17/02/24 Суб 17:08:03 #246 №644179 
>>644172
>Чёт проиграл с этого говна в голове.
Где говно? Чел просто перечислил все возможные варианты

Там кстати в комментах обсуждают, что была бы возможность перепрошивки 3090 можно было бы заменить чипы и получить 64 гб врам
Технически это возможно хоть сейчас просто, пидору в куртке выгоднее продавать в 20 раз более дорогие проф карты
Аноним 17/02/24 Суб 17:09:40 #247 №644180 
>>644179
> 64
Сама разделишь на 24 или помочь?
Аноним 17/02/24 Суб 17:11:17 #248 №644181 
>>644180
Дурачек? Я просто повторяю то что там написано, иди спроси почему он так посчитал, лол
Аноним 17/02/24 Суб 17:16:06 #249 №644185 
>>644180
Даже если речь про 48 гб, этого уже достаточно для большинства задач, разве что 70b за бортом, ну или мелкие кванты брать
Аноним 17/02/24 Суб 17:46:01 #250 №644210 
>>644179
> продавать в 20 раз более дорогие проф
Да ладно, чё там на ga 102? A6000 и 3090. У первой MSRP в 4.5 раза выше, чем у первой. Где ты в 20 раз увидел.
Аноним 17/02/24 Суб 17:54:36 #251 №644222 
>>644168
я про кеш вобще не писал
Аноним 17/02/24 Суб 18:37:31 #252 №644278 
Аноны я правильно понимаю, что если я в угабуге для инструкт-модели напишу чо мне от нее надо в промте, то она это забудет после n_ctx токенов?
И что если я вместо этого напишу это в карточке чара (parameters / character), то она не забудет, потому что это как-то магически передается с каждым моим запросом.
Аноним 17/02/24 Суб 18:49:10 #253 №644289 
Помогите хлебушку:

1. Посоветуйти пжл. хорошие модели для ролеплея, до 13б
2. Есть какой то смысл ставить на посмотреть oobabooga если сейчас есть коболд + SillyTavern? Лучше ли чем то oobabooga?
3. Нужно ли что-то менять в настройках кобольда при запуске для более оптимизированной работы ai?
Сейчас при запуске указываю только модель и ставлю context size: 6144, но ответы генерятся около минуты-полторы. Или это нормальная скорость я не разобрался, мб там нужно как-то распределять на проц/оперативку/карту?
4. Я правильно понял, что при установке SillyTavern Extras у меня появится только возможность генерить картинки по к каждому ответу нейронки?
5. Как можно прикрутить возможность воспроизведения голосом ответов или зачитывания их в SillyTavern? И нормально ли это реализовано по качеству сейчас?
Аноним 17/02/24 Суб 19:13:29 #254 №644311 
>>644289
>хорошие модели для ролеплея
>до 13б
Невозможно теоретически. Противоречишь сам себе.
Аноним 17/02/24 Суб 19:14:34 #255 №644312 
>>644100
Как это в рамках не одной машины где весь обмен мгновенен и все синхронно не пробовал?
>>644104
Там довольно странные выводы по токенам и скорости. Оценка загрузки там может быть довольно специфична, особенно если у него там несколько нума доменов.
>>644142
Хотеть такую штуку
Аноним 17/02/24 Суб 19:32:32 #256 №644329 
>>644289
1. Лучше юзай колаб из шапки с 20В моделями.
2. У меня oobabooga локально работает быстрее кобольда, ещё в ней есть негатив, в кобольд вроде не завезли ещё.
3. Тут ХЗ.
4. Нет, такая возможность уже есть по умолчанию во вкладке image generation в настройках расширения, там можешь выбрать Stable Horde в ресурсах и генерить, нажав на волшебную палочку внизу.
5. https://rentry.co/ultimatespoonfeed Внизу есть гайд по прикручиванию Silero к таверне, который я писал ещё в пигмалион треде. Сейчас она ставится вместе с дополнениями, но на английском, так что есть смысл поставить вручную и гайд всё ещё актуален но дело это тяжкое
Аноним 17/02/24 Суб 19:39:22 #257 №644338 
А зачем вам все эти угабуги и прочие кобольды дцп? Стандартная ллама.дцп от Жоры может запускаться в виде сервера, после чего просто открываете в браузере 127.0.0.1:8080 и вуаля. Даже вероятности токенов в настройках можно включить наканецта, джва года ждал
Аноним 17/02/24 Суб 19:40:05 #258 №644341 
изображение.png
>>644027
>И вот как бороться с этим?
Не ролеплеить на русском?
>>644088
>и немного поднять напряжение систем агента
Если амудя, то можно и проц спалить. Если интул, то тоже.
>>644104
>в итоге пришел к выводу, что ограничен скоростью L3 кэша.
Если амудя, то там фабрика говнит (уже второе поколение подряд).
У меня кстати 66 GB/s по чтению, сраный 7900х.
>>644278
>Аноны я правильно понимаю
Нет.
>>644289
>до 13б
>генерить картинки
Чел...
Аноним 17/02/24 Суб 21:22:48 #259 №644472 
>>644289
2. Да.
Но не обязательно.
3. см. oobabooga )
4. Там же есть список. Суммарайзеры, определение настроения и прочее.

>>644312
Ну вот он и пробует. =)

>>644329
5. Сменить язык в силере не сложно, насколько я помню.
Да просто подмени файл модели физически.

>>644338
Смешно.
Зачем эта ллама.дцп ваще, распечатай токенайзер с листингом слоев модели, бери лист с бумагой и считай вероятность токенов по таблицам…
Аноним 17/02/24 Суб 22:03:57 #260 №644522 
Qwen72 распидорасится к хуям если ещё квантовать в 3-4-5-8?
Аноним 17/02/24 Суб 22:07:04 #261 №644526 
>>644522
Эм, чем жирнее сетка, тем меньше пидорасит.
Аноним 17/02/24 Суб 22:31:43 #262 №644542 
>>644179
> Чел просто перечислил все возможные варианты
Блять, канючить у нвидии, которая подотрётся мнением 3.5 васянов с реддита, ещё бы петицию подписать предложил. И пилить ГПУ самому, опен-сорс или КРАУДФАНДИНГ. Охуеть варианты.
Аноним 17/02/24 Суб 23:19:38 #263 №644585 
Что сейчас по моделям для бюджетного кума?
В районе 20В / микстраля?
Аноним 18/02/24 Вск 00:11:30 #264 №644633 
1664111925276.png
Новое нечто от Беркли LWM тестил кто? Новый аттеншен придумали, 1М контекста с полным покрытием, ебёт всё что можно. Но визуальная модель на ебучем JAX написана, даже не хочется пердолиться с этим.
Для текстовой кванты есть, 128К контекста лезет в 24 гига.
Аноним 18/02/24 Вск 00:12:30 #265 №644635 
>>644341
>>644278
А как тогда? Напоминать ему временами? Типа, малой, мы с тобой о чем говорили, помнишь, <инишл-промт>. Так что-ли? Или может в звездочках это писать.
Например я ему задаю "твой вывод подключен к шеллу, все код-блоки будут исполнены как есть, болтовня игнорируется, жди щас команды". Он нормально отрабатывает несколько страниц, а потом скатывается в "ассистента" со стенами текста и поучениями. Как правильно фиксить эту херню?
Аноним 18/02/24 Вск 01:16:32 #266 №644688 
>>644633
Нихуя себе, выглядит как пушка.
Подождем, если никто не сквантует и не адаптирует, надо будет смотреть…

>>644635
Я так понял, что предыдущий человек, который тебе отвечал, понял слово «промпт» как инструкцию. Ну, я понял именно так, согласился с его ответом и не стал отвечать сам.
Если же ты под промптом понимаешь простую фразу, то когда оно выйдет из окна контекста — то, естественно, забудется.
А карточка персонажа торчит в самом вверху постоянно, поэтому не забывается.
Аноним 18/02/24 Вск 02:14:38 #267 №644715 
>>644289
> хорошие модели для ролеплея, до 13б

https://huggingface.co/TheBloke/Xwin-MLewd-13B-v0.2-GGUF
https://huggingface.co/TheBloke/airoboros-l2-13B-3.0-GGUF
https://huggingface.co/TheBloke/Noromaid-13B-v0.3-GGUF
https://huggingface.co/LoneStriker/Blue-Orchid-2x7b-GGUF
Аноним 18/02/24 Вск 02:20:35 #268 №644721 
>>644289
>3. Нужно ли что-то менять в настройках кобольда при запуске для более оптимизированной работы ai?
>ответы генерятся около минуты-полторы. Или это нормальная скорость я не разобрался, мб там нужно как-то распределять на проц/оперативку/карту?
Ты с какими Presets запускаешь? Видеокарта с CUDA есть?
Если запускаешь на CPU, то при запуске когда появляется окно с llama.cpp обрати внимание на строчку
> System Info: AVX = 1 | AVX_VNNI = 0 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
Чтобы производительность на проце была максимальной, у тебя должны использоваться инструкции AVX2 или AVX512. Без этого и без использования GPU будет супермедленно.
Аноним 18/02/24 Вск 02:27:33 #269 №644727 
>>644688
Блин, я в суржике пока не очень, ваш тред только почитываю.
Промпт это мои сообщения в "чате", правильно?
Карточка чара это parameters -> characters, их можно save / delete и потом в окне чата выбирать, с кем общаться.

Инструкция - ??? Это я еще не понял. Если это про parameters / instruction template, то там какая-то темплейт-дичь. Но у меня чат в режиме "chat". Может мне для моей задачи надо "instruct" режим? Модель-то по идее инструктная у меня. Но чо писать в шаблон я без понятия. В шапке тоже нихуя. Походу щас буду вскрывать пласты.
Аноним 18/02/24 Вск 03:37:21 #270 №644755 
Так что от rtx chat кто-то поюзал? Нужна аналитика.
Аноним 18/02/24 Вск 03:42:12 #271 №644756 
>>644755
Это просто опять технодемка от нвидии. Чем оно отличается от того что есть? Нвидия уже много лет берёт поделки энтузиастов и делает свою отпидорашенную версию под ключ, но обычно с подводными камнями и меньшим количеством выбора. Апскейл в играх, решейд/ansel, ограничитель фпс в драйвере/лоулатенси режим, аудиошумодав их - всё это адаптация работы сообщества.
Аноним 18/02/24 Вск 04:39:47 #272 №644768 
image.png
>>644329
>>644472
>>644715
>>644721
Спасибо.

>Ты с какими Presets запускаешь? Видеокарта с CUDA есть?
Если я правильно понял, то тем который стоял по умолчанию и у карты вроде CUDA есть.
В строке которой ты указал всё как у тебя, кроме SSSE3 = 1 в ней у меня 0.
Потому и вопрос нужно ли что-то переключать/настраивать в окне запуска кобольда с настроек которые стояли по умолчанию (кроме выбора модели с которой запускаю). Может у меня потому и работает не на полную, с примерной генерацией 60-90 сек на 1 ответ или это нормально в общем/для моего железа?
Аноним 18/02/24 Вск 06:35:18 #273 №644795 
>>644768
в моделе выбираешь модель
ставь нужный контекст и навали гпу слоев
Аноним 18/02/24 Вск 06:57:50 #274 №644800 
>>644768
>RTX 4060 Ti
Тебе стоит накатить угабогу и грузить модели в формате exl2 или GGML через соответствующий лоадер.
Условно на ответ будет уходить не 60-90 сек, а 10-30.
Аноним 18/02/24 Вск 08:43:41 #275 №644823 
заметил что одна из локалок на 8квантов не может в камень ножницы без щизы
есть умные сетки не сильно требовательные при этом нсфв?
Аноним 18/02/24 Вск 08:52:51 #276 №644826 
смех .gif
>>644823
> этом нсфв
> в камень ножницы
Я даже не стану думать, что ты задумал.
Аноним 18/02/24 Вск 09:16:10 #277 №644836 
Почему когда выбираю рекомендуемую опцию сетка сразу начинает срать какой-то шизой?
Юзаю koboldcpp/frostwind-10.7b-v1.Q5_K_S
Аноним 18/02/24 Вск 09:16:30 #278 №644837 
2024-02-1812-15-20.png
Отклеилось.
>>644836
Аноним 18/02/24 Вск 11:39:15 #279 №644906 
>>644715
>Noromaid-13B-v0.3-GGUF
Это последняя нормальная версия? Пробовал 0.4, какая-то шизанутая и постоянно в повторы срывается.
Аноним 18/02/24 Вск 11:40:30 #280 №644908 
>>641598 (OP)
Какие готовые сборки llama.cpp под Android знаете? Т.е. чтобы были уже собранные APK пакеты.

Пока нашёл только https://github.com/Bip-Rep/sherpa
Аноним 18/02/24 Вск 11:50:04 #281 №644924 
>>644341
>Не ролеплеить на русском?
А на каком еще языке, лол?
Аноним 18/02/24 Вск 11:57:55 #282 №644933 
>>644908
>Какие готовые сборки llama.cpp под Android знаете? Т.е. чтобы были уже собранные APK пакеты.

https://github.com/Mobile-Artificial-Intelligence/maid

на данный момент лучшее, что видел и свежак.
Аноним 18/02/24 Вск 12:07:46 #283 №644943 
>>641698
>>643035
>>644755
>>644756
How do I have "Chat With RTX" run an arbitrary LLM, and not just the provided one?
https://www.reddit.com/r/LocalLLaMA/comments/1atgvla/how_do_i_have_chat_with_rtx_run_an_arbitrary_llm/
Аноним 18/02/24 Вск 12:11:11 #284 №644949 
>>644924
Большинство годных моделей для РП заточены под английский, также как и оригинальные модели (LLaMA, Mistral), на которых они основаны. Так что если хочешь качество, придётся общаться с ними по-английски.
Аноним 18/02/24 Вск 12:15:24 #285 №644953 
>>644755
Так что от rtx chat кто-то поюзал? Нужна аналитика.

Уже ведь обсасывали это.
+ RAG интересен
- никаких настроек нет, поэтому толку от RAG нет
+ быстро работает
- чего бы быстро не работать 7-13B в int4
резюме: реально просто демка и не более. Следует подождать более функциональной версии.
Аноним 18/02/24 Вск 12:17:20 #286 №644956 
Что за модель КрокодилЗалупаСыр КапибараГермесМистраль? Годнота?
Аноним 18/02/24 Вск 12:23:35 #287 №644966 
>>641598 (OP)
Дорогие друзья, накатил я этот кобольтЦП и скачал рандомную популярную gguf. Запустился, тыкнул в сценарий нового диалога и расписал какому-то душному боту биографию своей милой сестренки. Но этот хуй блять пиздит по итогу чаще неё, даёт мне свои ахуительные советы, говорит что-то про запрет церковных песнопений и посылает меня на хуй. Эта нейросеть вообще берега попутала или что? Как поставить на место этого хуесоса, чтобы выдавало нормальные диалоги пикантного характера?
Аноним 18/02/24 Вск 12:25:47 #288 №644970 
>>644966
>скачал рандомную популярную gguf
>Как поставить на место этого хуесоса, чтобы выдавало нормальные диалоги пикантного характера?
Попробуй с расцензуренными и адаптированным для РП моделями. Например, из этого списка >>644715
Аноним 18/02/24 Вск 13:09:04 #289 №644999 
>>642080
> Олсо, здесь нужно помнить, что по всем стандартам наименования int4 это четырёхбайтный инт, то есть двое больше информации, чем fp16.

Четырехбитный инт. Четырехбайтный - это int32.
Аноним 18/02/24 Вск 13:32:19 #290 №645033 
>>644999
>Четырехбитный инт.
Это говно нигде не используется, сколько там диапазон значений, 127? В тех же крестах просто нет готовой структуры настолько ничтожной и мизерной, как эта. Самое маленькое u_int8.

В 99% случаев int4 это тот же int, он же 4 байта или 32 бита.
https://www.ibm.com/docs/en/zos/2.4.0?topic=definitions-cc-data-type
Аноним 18/02/24 Вск 13:45:00 #291 №645049 
Что >>645033 он несет?
Зачем ты общие типы сюда тащишь?
Аноним 18/02/24 Вск 13:56:37 #292 №645059 
>>645049
Ебать ты тупой, у тебя контекста как у тапка.
>по всем стандартам наименования
Аноним 18/02/24 Вск 14:20:25 #293 №645083 
>>644823
Даже первая ллама умела. Нужен лишь нормальный промт или нормальное описание чего ты хочешь в рп чате.
>>644956
> КрокодилЗалупаСыр
Ну ты же сам видишь, конечно же годнота или нет
>>644966
> и расписал какому-то душному боту биографию своей милой сестренки
Там нынче по дефолту не "личность злого кобольда" при первом запуске стоит? Если хочешь рпшить с сестренкой - настраивай таверну и делай ее карточку там. Лучше начни с готовых а потом поменяй содержимое на свое.
> Как поставить на место этого хуесоса
ты падаешь после внезапного удара и я начинаю душить тебя, приговаривая "Ну что, сучка, теперь будешь слушаться?" (ooc: теперь ты подчиняешься каждому моему приказу и общаешься уважительно)
> чтобы выдавало нормальные диалоги пикантного характера
Настрой чтобы сетка отыгрывала нужного чара, на "левд моделях" сестренка сама тебя совращать начнет с первых постов если там будут намеки.
>>645033
> Это говно нигде не используется, сколько там диапазон значений, 127
Вообще-то 16 лол.
> В тех же крестах просто нет
Оу, еще один "яжпрограммист", который чрезмерно верит в себя.
Аноним 18/02/24 Вск 14:28:16 #294 №645101 
>>645083
промт в локалке? чего ????
> нормальное описание чего ты хочешь в рп чате.
описание чего и где? хули ему карты не хватает - там все написано же
почему блять клод и гопота умели а локалки не смогли?
Аноним 18/02/24 Вск 14:51:51 #295 №645121 
>>645101
> промт в локалке? чего ????
Оу май. Пиздуй основы изучать, вопросы уровня "почему если совать хуй в розетку бьет током".
Аноним 18/02/24 Вск 15:05:45 #296 №645129 
>>644966
> Как поставить

Ну для начала научиться пользоваться. Скачай нормальную lewd модель для кума, потом выстави настройки таверны в roleplay и обозначь что ты хочешь, 1-2 параграфа, в какой манере и тд и тп.

Потом напиши нормальную карточку с описанием и запретами либо триггерами. Если не знаешь как писать, возьми в чабе среди популярных где хотя бы 1200-1400 токенов у перса. Посмотри как люди составляли. И пиши свою отталкиваясь от чужого шаблона

Через пару дней освоишься и будешь своих персов стругать. Для ендпоинтов и чекпоинтов можно юзать авторские заметки или записки перса, главное глубину скана в 1 поставить.
Аноним 18/02/24 Вск 15:07:17 #297 №645132 
>>645083
>еще один "яжпрограммист"
Не веришь мне - посмотри либсендибайтс, где эти "четырёхбитные" есть. Которые на самом деле просто шестнадцатибитные массивы.
Аноним 18/02/24 Вск 15:11:26 #298 №645146 
Платиновый вопрос - а какую лучше ось для локалок накатить на новую систему? линух?
Аноним 18/02/24 Вск 15:12:10 #299 №645148 
>>645129
В целом двачую, но насчет
> где хотя бы 1200-1400 токенов у перса
Как правило там трешовый мусор с 80% воды, составленный из министрейшнов, клодизмов и прочей платины, с малым полезным содержанием. И такое будет работать, вполне инджоебл, но в сравнении даже копипаста с фандомвики с 1.5 предложениями про манеру общения персонажа окажется полезнее и эффективнее.
>>645132
Зачем верить, на кой хер ты тащишь свои догмы и ассоциации вместо того чтобы ознакомиться с имеющимися реализациями? Самый популярный народный лаунчер целиком на сях и открыт, изучай - не хочу. Ан нет, ваши биты - не биты!
Аноним 18/02/24 Вск 15:12:51 #300 №645150 
>>645146
> линух
Если имел с ним дело и не пугаешься консоли - только он.
Аноним 18/02/24 Вск 15:18:03 #301 №645161 
>>645148
> Как правило там трешовый мусор с 80% воды

Смотря что качать. Если автор не долбоеб и проставил теги по таверну, то обычно все норм. Если нет, то да, надо подчистить.

> но в сравнении даже копипаста с фандомвики с 1.5 предложениями про манеру общения персонажа окажется полезнее и эффективнее.

Я челу просто предлагаю научиться хотя бы и понять структуру. Я тоже начинал с шаблонов, по принципу хур дур куда тебя ебаный {{user}} пихать сука, какого хуя {{char}} не отрабатывает. Ч

А потом научился. Это типа лучше челу удочку дать чем рыбу.
Аноним 18/02/24 Вск 16:32:56 #302 №645215 
90c436e0d1c79fed7dbf7993c16ff286.jpg
Как запретить персонажам пиздеть за меня? Например диалог идёт привет как дела, чар отвечает нормально и сразу же пишет типа юзер говорит иди я тебя выебу, она типа хорошо и начинается анал карнавал и всё это в одном её ответе. Приходится корректировать сообщения чара и удалять места где он почему-то решил сразу за меня писать. Это в карточке где-то можно прописать или как такое фиксится?
Олсо скиньте пример годных карточек персонажей шаблонных. Просил кодингсенсея мне карточку в json написать, он пишет пример, я её импортирую и таверна ломается нахуй. Скачал несколько с чубби, но там графомания пиздец на миникнижку. Хочется некий шаблон для старта в котором проще разобраться и поменять текст на свой.
Аноним 18/02/24 Вск 16:34:45 #303 №645219 
Ньюфаг в этом ИТТ треде.
Посмотрел видос про Chat with RTX, у меня встал хуй, когда мужик показал нейросети папку с пдфами и задал вопрос, а та ответила и дала референсы.
Вопрос такой - могу ли я сделать так же на своей пеке, у которой нет RTX с вашей лламой? Если да - то какую версию ставить? Мне эротичный ролеплей не нужен, чисто чтобы статьи читала и мне рассказывала про это.
Оперативной памяти 16 гб, видео 1660ti на 6 гб.

Мне отсюда ковырять?
>Гайд для ретардов для запуска LLaMA без излишней ебли под Windows.
Аноним 18/02/24 Вск 16:36:30 #304 №645220 
>>645219
Так же не получится, максимум залить модельке в контекст сколько влезет статьи вручную и допросить.
Аноним 18/02/24 Вск 16:37:17 #305 №645223 
>>645220
Вообще хуйня, статьи-то по несколько десятков тысяч символов.
Аноним 18/02/24 Вск 16:43:30 #306 №645230 
>>645223
Но и контекст у моделек знаешь ли три десятка тысяч токенов. Мистраль и опенчат тебе в помощь, лучше варианты у тебя не запустятся просто.
Аноним 18/02/24 Вск 16:45:52 #307 №645234 
>>645230
Да нет, так работать с одной статьей смысла нет. Интересен именно поиск по файлам как у нвидии.
Аноним 18/02/24 Вск 16:48:25 #308 №645237 
>>645234
Тогда только колхозить самому как-то.
Аноним 18/02/24 Вск 17:09:11 #309 №645266 
>>645215
{{char}} never take a role of {{user}}
{{char}} never narrate events on behalf of {{user}}
{{char}} never talk as {{user}}
{{char}} never act as a {{user}}

Добавь в конце карточки перса или в заметки.
Аноним 18/02/24 Вск 17:11:56 #310 №645271 
>>645033
>Четырехбитный
>диапазон значений, 127?
Понавырастало поколений блджад
Аноним 18/02/24 Вск 17:20:42 #311 №645277 
image (36).png
>>645266
Спасибо!
Аноним 18/02/24 Вск 17:21:56 #312 №645278 
>>645271
Ты думаешь в твоем поколении не было таких людей?
Аноним 18/02/24 Вск 17:21:56 #313 №645279 
>>644933
А модели какие пользуешь на телефоне?
Аноним 18/02/24 Вск 17:22:08 #314 №645280 
>>645121
куда его пихать то?
Аноним 18/02/24 Вск 17:28:18 #315 №645287 
photo2024-01-0920-34-40.jpg
>>645277
Используй с осторожностью юный самурай. Иногда моделька все равно может прорываться, но так хоть сократишь до минимума. А вообще я всегда в своих персах пихаю запреты, в описание, в заметки и в авторские тоже. Просчет токенов чуть медленнее зато не пиздит.
Аноним 18/02/24 Вск 17:37:40 #316 №645297 
>>645033
> Это говно нигде не используется, сколько там диапазон значений, 127? В тех же крестах просто нет готовой структуры настолько ничтожной и мизерной, как эта. Самое маленькое u_int8.

Сразу видно, что C++ ты в глаза не видел.

> В 99% случаев int4 это тот же int, он же 4 байта или 32 бита.
> https://www.ibm.com/docs/en/zos/2.4.0?topic=definitions-cc-data-type

Сссука, ты что делаешь, я аж чаем поперхнулся. Если твои 99% случаев реально 99%, так какого же хуя ты проводишь ссылку на документацию специализированной надстройки для C/C++ под IBM z/OS, созданной для совместимости с COBOL и PL/I? Ты ебанутый чтоле?
Аноним 18/02/24 Вск 17:53:23 #317 №645309 
1708268002207.png
Я правильно понимаю что джентльменский набор выглядит так? Или какую платину упустил? 10.7-20б мне показались совсем уродцами.
Аноним 18/02/24 Вск 17:54:57 #318 №645310 
>>645309
>джентльменский набор
Наивный. Ровные пацаны используют 70-120b.
Аноним 18/02/24 Вск 17:57:02 #319 №645313 
>>645310
Это уже для воров в законе и сыновей депутатов, я про народные решения.
Аноним 18/02/24 Вск 18:01:09 #320 №645318 
1576787936447.jpg
>>645161
> Если автор не долбоеб и проставил теги по таверну, то обычно все норм.
А можно примеров хороших таких? За все время встречал буквально единицы, и то там описывался лор, предыстория и особенности персонажа, или копипаста с вики.
> Это типа лучше челу удочку дать чем рыбу.
Все правильно, просто лучше сразу несколько годных карточек бы скинул. По числу токенов как правильно самое норм - в районе 500-700, и то нужно чекать.
>>645215
Нормальный системный промт - инстракт режим, и не банить eos токен. Хоть тотже дефолтный ролплей шаблон, только про параграфы можно убрать.
>>645266
Оно может не сработать и объяснялось почему. Нужно в начале инструктировать сетку давать ответ за чара и избегать прогнозировать юзера, а не указывать что чар не поехавший. Иначе сетка просто напишет {{user}}: и полностью соблюдет эти правила, ведь здесь пишет уже не чар.
>>645280
Пикрел
Аноним 18/02/24 Вск 18:01:39 #321 №645319 
>>645313
Ну почему же, простой русский народ отличается терпением pun intended.
Аноним 18/02/24 Вск 18:01:43 #322 №645320 
изображение.png
>>645219
>Chat with RTX
>на своей пеке, у которой нет RTX
Никак. А вообще, есть langchain, появилась примерно за год этого вашего чата с RTX, только сложно в установке и нахуй никому не нужно.
>>645297
>так какого же хуя ты проводишь ссылку на документацию специализированной
Что ему гугол выдал, то он и приводит.
>>645309
Норм, можешь ещё вот этих подкинуть, прошлогодние конечно, но всё ещё рулят.
Аноним 18/02/24 Вск 18:01:54 #323 №645321 
>>645297
>Сразу видно, что C++ ты в глаза не видел.
Ну давай, удиви меня. Что там может быть подходящим для 4х битных значений? Битфилд можешь не приносить. Так-то ещё Страуструп говорил, что ничего не может быть меньше char.

>Сссука, ты что делаешь, я аж чаем поперхнулся.
Могу что-нибудь такое ещё принести.
https://learn.microsoft.com/en-us/cpp/parallel/amp/reference/int-4-class?view=msvc-170
Один хуй итт долбоёбы даже не поймут, на что смотрят.
Аноним 18/02/24 Вск 18:04:46 #324 №645325 
>>645319
А то! А так же нищетой. Ну ничего, скоро докуплю ещё 32 гига оперативы и затерплю!
Аноним 18/02/24 Вск 18:06:34 #325 №645332 
>>645320
> Никак
Я другой чел, но можно же с векторной дб сделать RAG и спрашивать на langchain?
Аноним 18/02/24 Вск 18:09:27 #326 №645338 
изображение.png
>>645325
Терплю уже год с 1 т/с.
>>645332
Да, я про это и написал. А никак относится именно к запуску Chat with RTX на карте без RTX (думал это очевидно).
Аноним 18/02/24 Вск 18:11:27 #327 №645340 
>>645318
>Нормальный системный промт - инстракт режим, и не банить eos токен. Хоть тотже дефолтный ролплей шаблон, только про параграфы можно убрать
Можно перевести на простой понятный язык для начинающих?
Аноним 18/02/24 Вск 18:12:55 #328 №645342 
>>645340
Нет, кури термины.
Аноним 18/02/24 Вск 18:16:19 #329 №645349 
>>645340
Жмешь в таверне буковку A сверху, опускаешься ниже и в context template выбираешь Roleplay. Идешь еще ниже, ставишь галочку instruct mode если не стоит и в presets также выбираешь roleplay.
А вообще действительно иди кури базу.
Аноним 18/02/24 Вск 18:19:21 #330 №645356 
2024-02-1821-17-57.png
>>645349
А почему он выключен по умолчанию?
Аноним 18/02/24 Вск 18:19:52 #331 №645357 
>>645338
>(думал это очевидно)
Нет. Как оформить такой же поиск по статьям в папке на диске без RTX чата?
Аноним 18/02/24 Вск 18:20:30 #332 №645359 
>>645349
Где вырубить эту базу-то. Уже пару месяцев тут сижу, понимаю от силы 10% вашего суржика.
другой
Аноним 18/02/24 Вск 18:21:32 #333 №645360 
>>645356
Потому что нужен не всем и не всегда.
Аноним 18/02/24 Вск 18:23:51 #334 №645362 
>>645356
Потому что разным моделям нужны разные пресеты.
>>645357
Ты ж описал как. В лангчейне всё есть, но конкретных советов не будет, ибо никто в этом треде его так и не поднял.
>>645359
В шапке ссылка на вики, там всё должно быть.
Аноним 18/02/24 Вск 18:25:12 #335 №645364 
>>645362
>Ты ж описал как. В лангчейне всё есть, но конкретных советов не будет, ибо никто в этом треде его так и не поднял.
Не я писал.
Не подняли потому что сложно, или не нужно?
Аноним 18/02/24 Вск 18:25:21 #336 №645365 
>>644949
Вот тебе и «ИИ»
Аноним 18/02/24 Вск 18:26:53 #337 №645368 
image.png
Поначалу поржал, а сейчас вспомнил, что здесь ведь тоже есть комьюнити кумеров, которые трахают чатботов
Можете пояснить за эту тему? Какая модель лучше всего для вката? Как лучше всего запустить свои липкие пальчики в ее цифровые трусики? И что в этом вообще такого особенного?

Когда-то даже пытался баловаться, ставил рандомные модели, но они были просто охуено тупые. А лоры на персонажей. Как я понял, в данном случае, это не натренированная на датасетах языковая модель, а просто текстовый промпт с просьбой чата ГПТ вести себя как какой-то персонажик.
Аноним 18/02/24 Вск 18:29:44 #338 №645372 
>>645364
>Не подняли потому что сложно, или не нужно?
Оба.
>>645365
А то. ИИ не ИИ, а языковая модель.
>>645368
>Можете пояснить за эту тему?
В дрочетред: >>645063 (OP)
Аноним 18/02/24 Вск 18:31:56 #339 №645375 
>>645365
Можешь воспользоваться коммерческими сетками сбера-яндекса (на сайтах были демки, они даже прогрессируют), обмазаться выложенной сберосеткой rugpt (год назад была бы ничего, сегодня без слез не взглянешь), "отечественными файнтюнами" типа сой_ги (может в последних версиях оно и не так плохо), или катать 70б+.
>>645368
А чего тут пояснять, буквально вируальный собеседник-роплеер-сторитейлер, который может стать кем угодно, с которым можно делать что угодно и это все описывается красиво-интересно в мельчайших подробностях. Да, ллм могут в такое.
Аноним 18/02/24 Вск 18:34:28 #340 №645380 
image (53).png
image (52).png
>>645349
Добра. Я гуманитарий, мне сложно во всё это вникать, но я стараюсь. А где можно базу покурить? Я заходил на сайт таверны, где про чаров писалось и там особо про это ничего вроде не было. Вики гляну из шапки.
Аноним 18/02/24 Вск 18:37:33 #341 №645388 
А что если настрочить с гопоты датасет (супердохуя) и на его основе с нуля обучить модель? Выйдет ли такая гопота хотя бы на 70-80% эффективной как оригинал?
Аноним 18/02/24 Вск 18:38:58 #342 №645394 
>>645362
>В шапке ссылка на вики
Ctrl-F инстру - одно совпадение не по теме. ins, eos - 0. Я понимаю что аноны сами писали, и нам не должны, тут претензий нет. Но в шапке технобазы нет, только пара параметров и как ставить. Нафиг вы вообще писали гайд, который не вкатывает читающих до уровня "могу говорить" и постоянно вас дергает вопросами, на которые вы односложно отвечаете. Пытаюсь вкатываться через реддит больше, потому что ну блин.

https://2ch-ai.gitgud.site/wiki/llama/
https://rentry.co/llama-2ch
https://rentry.co/TESFT-LLaMa

Там просто интры. Базы нифига нет.

>>645375
В прошлом году в сберояндексах надо было заявку оставлять с ИНН и самозанятостью. Оставил обоим, оба не ответили. Щас хз как.
Аноним 18/02/24 Вск 18:41:42 #343 №645398 
image.png
>>645375
> вируальный собеседник-роплеер-сторитейлер
Все еще не понимаю какие там стори может тейлить ебучая кабинка, что даже китаянки текут и пересаживаются на виртуальных ёбарей
Аноним 18/02/24 Вск 18:48:58 #344 №645408 
Всем привет, вопросы от нубаса.
У меня 4090 мобильная с 16гб, вот тут насколько я понял
>>644715 модели для CPU, теперь вопросы:
1) а можно накинуть для гпу 13B 6bit?
2)Еще мне непонятно, сами модели/веса имеют отношение какое-либо к цензуре/содержанию диалогов/персонажам, или это тупо "железо", а на нем что-то другое отвечает за ту же цензуру?
3) Я правильно понимаю, что вот такая модель (это рекомендации с сайта силлиТаверны)
Llama2 13B Q6_K with 4096 context14.2 GB
пойдет на моем гпу?
4) В доках силлиТаверн есть такое:
Sometime in 2023, NVIDIA changed their GPU driver so that if you need more VRAM than your GPU has, instead of the task crashing, it will begin using regular RAM as a fallback. This will ruin the writing speed of the LLM, but the model will still work and give the same quality of output. Thankfully, this behavior can be disabled.
Написано как что-то плохое. Почему они негативно пишут о такой функции? Разве не хорошо, что если вся модель не влезла в врам то часть пойдет в рам? Или тут будет работать принцип слабого звена и будет тупить как будто все в оперативке?
5. В таверне есть эспериментальная функция генерить картинки через стейблДиффужн, я почитал инструкцию как его запустить локально и подключить к таверне. Меня интересует вопрос о производительности - если я подключу его и теквстовую модель, комп вытащит? Т.е. например текст я запускаю на гпу, а СД на ЦПУ и в оперативку? Или скорость генерации картинок будет слишком низкая?
Прошу не пинать сильно, я только день как во всем этом разбираюсь.
Аноним 18/02/24 Вск 18:54:18 #345 №645418 
>>645380
> А где можно базу покурить?
Прочти шапку, она написана немного сумбурно, но может дать общее представление. Потом перейди в вики по ссылке там же, там более менее разжевано. Если таким не занимался действительно по началу может быть сложно.
>>645394
> Там просто интры. Базы нифига нет.
Описания что такое ллм, как она работает, какие подходы есть к запуску, как с ней нужно работать и пошаговые инструкции - это не база?
>>645398
"Я тебя ебу" лол
>>645408
> с 16гб
13б влезет чисто на гпу, 20б с оффлоадом в рам.
Про кэш правильно, не пытайся использовать больше врам чем доступно. Если катаешь на fullgpu (exllama) то не пускай модели больше определенных, использование видно по мониторингу. Если используешь гпу-цп (llamacpp/koboldcpp) то не ставь больше слоев чем может вместить (также видно по мониторингу и можно чекнуть экспериментально). Еще в кобольде есть автонастройка выгрузки слоев, но работает криво.
> Почему они негативно пишут о такой функции?
Это в разы медленнее чем поделить модель между гпу и цп.
> если я подключу его и теквстовую модель, комп вытащит?
Нет, вся видеопамять будет сожрана ллм. Можешь использовать сторонние апи.
Аноним 18/02/24 Вск 18:57:20 #346 №645431 
изображение.png
>>645388
Хуйня выйдет.
>>645394
>eos - 0
Ты по подстраницам пройдись, что как дитя ВК себя ведёшь?
>>645398
Просто реальные омежки слишком омежны.
>>645408
>и будет тупить как будто все в оперативке?
На деле ещё сильнее.
>>645408
>Или скорость генерации картинок будет слишком низкая?
Это.
Извиняюсь за односложные ответы, уже разучился писать развёрнуто, и вообще, только проснулся после 16-ти часового сна.
Аноним 18/02/24 Вск 19:07:16 #347 №645463 
image.png
>>645418
Спасибо за ответы. Но чет я не понимаю вот это:
" Если катаешь на fullgpu (exllama)"
exllama это, то называется, лаунчер? его не поддерживает силлиТаверна или я не там смотрю (пикрил). Или это формат модели (но тогда я совсем запутался)
Аноним 18/02/24 Вск 19:08:48 #348 №645464 
>>645463
>exllama это, то называется, лаунчер?
Это движок. Запускается в вебуи.
>его не поддерживает силлиТаверна
Она поддерживает вебуи.
Аноним 18/02/24 Вск 19:21:31 #349 №645484 
image (54).png
>>645372
>В дрочетред
Я там спрашивал что-то по кобольду и таверне и меня оттуда к вам сюда отправили, с тех пор тут и посиживаю. Что за пинг-понг у вас с ними лол.
мимо
Аноним 18/02/24 Вск 19:33:38 #350 №645501 
>>645310
Ещё была бы хоть одна нормальная. Сплошные перетрененые на рп или со сдвинутым биасом через DPO высеры.
Аноним 18/02/24 Вск 19:34:25 #351 №645502 
А дроченейронки могут генерить картинки к рассказам? Или у чатгопоты под капотом две разные нейронки и надо поднимать рядом стейблдифьюжн?
Аноним 18/02/24 Вск 19:45:37 #352 №645514 
>>645484
Конкретно в этом случае те самыме тянки вряд ли кобольд поднимают, так что дрочетред с их апишками чатГПТ намного ближе (хотя тянки скорее всего сидят на готовых сервисах типа CharacterAI).
А так просто традиция, да. Тему по таверне вообще стоило бы отделить, но вот никак, в итоге эта тема размазана по двум веткам тредов.
>>645501
>со сдвинутым биасом через DPO высеры
Так иначе биасы сдвинуты в другую сторону.
>>645502
>Или у чатгопоты под
Да, как у чатГПТ, нужна отдельная сетка. Мультимодалки с выводом текста и картинок я пока не видел.
Аноним 18/02/24 Вск 19:47:52 #353 №645517 
>>644727
Промпт — это все, что подается на вход модели. И карточка, и история (сообщения), и разные инструкции дополнительные.

Модель всегда продолжает текст, который ты ей даешь. Чат-версия натренирована вести диалог. Инстракт-версия натренирована следовать инструкции. У них «склонности» к этому.

Ты свою цель не озвучил, поэтому ответить я не могу.

Но, я попытаюсь пояснить.
То, что ты пишешь, это история, все фронтенды удаляют первые сообщения из истории, когда контекст подходит к пределу.
Карточка персонажа всегда держится в самом верху, поэтому то, что ты пишешь в карточке, сохраняется в контексте (т.е.: всегда попадает в промпт).
В зависимости от используемого тобой фронтенда, ты можешь записывать текст в разные поля, которые попадают в начало контекста в то или иное место (попробуй SillyTavern, она в консоль выводит целый запрос — даже в тредах обсуждали, что и куда лучше писать, чтобы персонаж вел себя лучше).

Лучше создать персонажа, которому прописать все что хочешь, чтобы он не забывал об этом, а чат использовать именно для сути.

Не бойся создавать новых персонажей и сохранять их под разными именами, да.

>>644755
Ху-и-та, уже анализировали.
RAG с кривой кодировкой русского.
Отсутствие возможности сменить промпт.

Для быстрого поиска по текстовым файлом норм, конечно, но по сути это единственное применение. И есть приложения более хорошие в этом плане, и даже без костылей, насколько я помню, что-то есть.

>>644908
А MLC-Chat мертв?

>>645146
Линукс ситуативно обгонял винду по слухам, то сосал ей.
Короче, нет пруфов, что он лучше прям вот всегда.
Если ты не собираешь свои ультра-быстрые билды — похую, видимо.
Ну может разные видяхи от нвидиа лучше на линухе пойдут, писали тут, хз.

>>645150
А разницы?

>>645219
Ллама не про ртх. Так что ллама и твоя тоже.
Да, можешь, RAG и прочие фишки — тоже не про ртх.
LlamaIndex, LangChain. Сложно?
Кто-то говорил про более простую прогу, но я забыл название.
Так что, ссылку не дам, прости. =) Надо искать.

>>645309
Дельфин? Серьезно?

>>645332
Да-да, канеш. Их много, на самом деле.

>>645340
Это он и есть.
Проще некуда, качаешь SillyTavern и ищешь там похожие слова.

>>645357
Как сказали ниже — никто не ебался с этим. Ну вот всем похуй просто, понимаешь? Никто не подскажет. Так сложились звезды. =)

>>645364
Сложновато и не нужно.
Саму фичу-то придумали в 2021, а завезли в ленгчейн еще в 2022 году, во времена чатгопоты.

>>645368
В шапке все ссылки, неиронично.

>>645388
Ты придумал Альпаку, Викунью и Гермеса.
С нуля обучить тяжко — слишком огромный датасет нужен.

>>645394
https://github.com/KoboldAI/KoboldAI-Client/wiki/Settings

Не поможет?

>>645408
1. Сколько влезет в видеопамять.
2. Тупо железо, хотя повлиять могут, офк.
Меньше битов на вес — тупее.
3. Вроде влезет. Но ты выбери что-то поадекватнее, чем ллама2 простая. Любой 13б файнтьюн в Q6 кванте с 4К контекста будет занимать столько же.
4. Если выгрузишь в оперативу — скорость может упасть. Возможно сильно.
5. Это не экспериментальная функция, а довольно стандартный функционал.
Моделька стейблдиффужн занимает свое место. От 2-2,5 гигов до 4-6-8-12-100500 если у тебя каскад или XL с кучей контролнетов. Но да ладно, давай остановимся на 4 гигах. Выходит, на текстовую модель у тебя в видяхе останется 12 гигов. Значит либо 7B в Q8, либо 13B в 4-битном кванте. Выбирай.

>>645463
Запускаешь в oobabooga. Там будет ExLlama2

>>645502
У гопоты — далли.
Так что поднимай сд, да.
Аноним 18/02/24 Вск 19:51:20 #354 №645519 
>>645279
>А модели какие пользуешь на телефоне?
Мистраль в 4 бита. Но это просто на попробовать, баловство. Работает, но медленно. А так испытывал разные обрезанные лайт-тин ламы - вообще гавно, 3b тоже самое. Хотя это гавно на телефоне довольно шустрое. Вобщем имеет смысл только на йоба телефоне чтобы получить скорость и приемлемое качество. У меня же средний телефон так что я уж лучше на видимокарте продолжу.
Аноним 18/02/24 Вск 19:58:20 #355 №645526 
>>645431
Ну я думал это автоскролл оглавление, не тыкал туда. Такой вот уикс.
>>645517
Спасибо!
Аноним 18/02/24 Вск 20:04:02 #356 №645532 
>>645519
А где брал? На сайте https://mistral.ai/news/announcing-mistral-7b/ 13,5 гб весит, чето жирновато для телефона, как по мне.
Аноним 18/02/24 Вск 20:11:04 #357 №645539 
>>645532
Не в теме вовсе? Этот апк для ггуф, стало быть где все гуфы лежат - у Блока. Там и бери, например
https://huggingface.co/TheBloke/Mistral-7B-Instruct-v0.2-GGUF/tree/main
или просто набери в поиске mistral-gguf или llama-gguf и т.п.
Аноним 18/02/24 Вск 20:11:34 #358 №645540 
>>645517
> А разницы?
Немного меньше потребление врам, гораздо меньшее для обычной рам и другая стратегия ее выделения, все из коробки и без компромиссов.
Из подводных - могут быть нюансы на пердольных билдах, можешь сгореть с настроек чего-то не связанного с нейронкой если раньше дела не имел.
Аноним 18/02/24 Вск 20:13:17 #359 №645545 
>>645539
Только вкатываюсь. Спасибо.
Аноним 18/02/24 Вск 20:36:24 #360 №645569 
170337164111.jpg
>>645501
>рп
Твоя вайфа ждёт тебя.
Аноним 18/02/24 Вск 20:45:34 #361 №645585 
>>645540
Имел дело, спасибо, сяду на линух тогда. Единственное у меня начинается вечный пердолинг с ним, но это проблема уже нейронки в моей голове
Аноним 18/02/24 Вск 20:46:08 #362 №645587 
>>645514
> Так иначе биасы сдвинуты в другую сторону.
Сдвиг в рп всегда ломает выполнение general purpose задач. Я сколько не пробовал свежие "топовые" рп-файнтюны 72В/120В - они всегда за пределами таверны в one-shot перформят как говно, ничем не лучше 34В. Ну и их контекст/скорость - это отдельная печаль.
Аноним 18/02/24 Вск 20:54:47 #363 №645608 
15908535148920.jpg
>>645540
>гораздо меньшее для обычной рам и другая стратегия ее выделения
О_о. А чем планировщик процессов и виртуальная память отличается от винды в линухе?
Аноним 18/02/24 Вск 21:06:30 #364 №645618 
>>645587
>Сдвиг в рп всегда ломает выполнение general purpose задач.
Ну да. Поэтому если тебе нужны зеро-шоты, берёшь одну сетку, для РП другую. В чём проблема то?
>>645608
На самом деле дохуя чем. Как минимум в люнупсе есть баг #12309.
Аноним 18/02/24 Вск 21:12:52 #365 №645627 
w0ptPs2Nmd0xkKOC8mgRA.jpg
Объясните про токены и зачем они нужны. Если стоит например 4096 токенов, то когда ответы чатбота за них перевалят, то он начнёт нести бред и всё забудет или как это происходит? Можно как-то сохранять на хард беседы и память бота, чтобы он не сломался в дальнейшем?
Читал, что можно прописывать в боте какие-то основные вещи и события, чтобы он помнил, но нельзя что ли чтобы бот тупо использовал терабайты на харде, чтобы держать всё в памяти?
Аноним 18/02/24 Вск 21:50:47 #366 №645673 
>>645627
Токены — это единицы информации, которыми оперирует модель.
Если ее обучали оперировать максимум 4096 токенами, то оперировать большим количеством он не сможет (тащемта и весь датасет у него не из 4096 состоит, а зачастую меньшего размера, из-за чего и 4096 токенов не всегда адекватно работает.
Технически, ты можешь подать на модель больше 4096 токенов, но, да, она начнет нести бред, потому что никогда не была в такой ситуации, ее не учили на больших текстах.

Все фронтенды имеют функцию обрезки, чтобы модель не ударялась в шизу. Т.е., все лишнее свыше лимита (не обязательно 4096, у разных моделей — разные лимиты) отрезается.

Поэтому крупные карточки персонажей (более 2000) на старых лламах (первых) тупо не работали качественно. =)

Если хочешь понять точнее, попробуй запустить SillyTavern, выбрать там Token Counter и вставить текст. Он разберет его на токены соответственно выбранному токенайзеру.
Аноним 18/02/24 Вск 21:56:38 #367 №645676 
21878.JPG
>>645673
Ну вот например я нашел галочку, чтобы показывать токены. Мне теперь считать что ли сколько токенов было потрачено в беседе прежде чем бот сломается?
Аноним 18/02/24 Вск 21:58:20 #368 №645680 
image.png
>>644312
>Как это в рамках не одной машины где весь обмен мгновенен и все синхронно не пробовал?

4 эксперта, 2 эксперта на токен, 4 слоя. Все довольно плохо, надо будет менять подход и сократить кол. вызовов к удаленной тачке. Наверное еще и проблема что используется публичный пир petals и тачка что хостит экспертов находится за натом.
Аноним 18/02/24 Вск 21:59:38 #369 №645683 
image.png
>>645680
Упс, не совсем правильный скриншот. Вот теперь нормально.
Аноним 18/02/24 Вск 22:03:06 #370 №645689 
>>645676
Ну, по идее таверна сама обрежет.
Все что перейдет за 4096 (условно) (первые сообщения) будет отрезаться и забываться.
Если не использовать суммаризаторы.
Аноним 18/02/24 Вск 22:03:14 #371 №645691 
Блок, вернись!
Аноним 18/02/24 Вск 22:06:16 #372 №645693 
>>645689
Чего она там обрежет? Я правильно понимаю, что когда сообщения за 4096 токенов или сколько там перевалят, то бот начнёт херню нести? А до этой отметки он будет почти всё помнить и адекватно отвечать?
Аноним 18/02/24 Вск 22:06:56 #373 №645695 
image.png
image.png
Ну лин и что за херня. Поставил вебуи, скачал через нее же модель, выбираю llama.cpp - ошибки пикрил 1. выбираю exllamav2 - то же само, куча шибок и пиздец.
Модель эта https://huggingface.co/TheBloke/Xwin-MLewd-13B-v0.2-GPTQ?not-for-all-audiences=true
Аноним 18/02/24 Вск 22:37:04 #374 №645730 
>>645693
>Я правильно понимаю,
Нет.
>>645695
>выбираю llama.cpp
>GPTQ
Что с тобой не так?
Аноним 18/02/24 Вск 22:44:29 #375 №645740 
>>645730
>Нет
Ну и..? Дальше чего-то? Напиши правильный ответ тогда.
{{user}} просит развернутый ответ {{char}}
Аноним 18/02/24 Вск 22:47:28 #376 №645744 
>>645676
У тебя в тот момент в чате появится пунктирная линия, которая покажет где именно обрезается чат. Можешь в экстрасах включить отслеживание бюджета токенов, или просто банально глянуть в консоль и прочесть печать лаунчера, он указывает контекст. В нужный момент делаешь суммарайз, если прочтешь шапку-вики то сможешь катать минимум на 8к контекста вместо четырех.
>>645695
Убабуга-токенайзер то скачал для hf версии?
Аноним 18/02/24 Вск 22:48:49 #377 №645747 
>>645730
Так я ж написал что я и на exllamav2 пробовал. Ну чет подозреваю что битая модель, через жопу скачалась через вебуи, потому что другую модель gguf я успешно загрузил в llama.cpp
Причем вопрос - в ней можно конфигурить кол-во слоев в врам (в llama.cpp), туда просто на максимум выкрутить если хочу на гпу в врам все сгрузить, правильно?
Аноним 18/02/24 Вск 22:51:08 #378 №645751 
>>645744
Я тут по мануалу нихера ничего не нашел про какой-то токенайзер. Откуда я блин это могу знать пздц
https://github.com/oobabooga/text-generation-webui/wiki/04-%E2%80%90-Model-Tab
Аноним 18/02/24 Вск 22:53:39 #379 №645756 
>>645751
https://2ch-ai.gitgud.site/wiki/llama/guides/text-generation-webui/
Аноним 18/02/24 Вск 22:58:53 #380 №645763 
651123.JPG
А почему в чатах появляются ИНПУТ и РЕСПОНС какие-то. Зачем мне эта инфа?
Аноним 18/02/24 Вск 23:02:12 #381 №645771 
image.png
>>645756
спасибо, но нихуя не работает все равно. попробую перекачать модель гитом
Аноним 18/02/24 Вск 23:04:31 #382 №645773 
>>645771
> попробую перекачать модель гитом
Эээ, а как ты ее изначально скачивал? Через убабугу, только проверить чтобы закончило и не было ошибок в консоли, гитом, или через hfhub.
Аноним 18/02/24 Вск 23:09:43 #383 №645781 
56312313.JPG
>>645368
Аноним 18/02/24 Вск 23:14:25 #384 №645786 
>>645773
ды блять через вот эту залупу пикрил. ебанутая система, не видно прогресса нихуя, я два раза запускал, в конце он сказал мне что саксессфулли даунлоадед, а sha256 в говне, проверил щас.
Аноним 18/02/24 Вск 23:14:59 #385 №645787 
image.png
>>645786
отклеилось
Аноним 18/02/24 Вск 23:19:39 #386 №645789 
пиздос заказал комп, а на aider прочитал что локалки по коду даже до гопоты3 не дотягивают. Придется играть на нем
Аноним 18/02/24 Вск 23:24:58 #387 №645792 
>>645789
какой?
Аноним 18/02/24 Вск 23:25:54 #388 №645793 
>>645792
7800x3d+4090
Аноним 18/02/24 Вск 23:26:31 #389 №645794 
>>645747
>Так я ж написал что я и на exllamav2 пробовал.
И лог обрезал, ага.
>туда просто на максимум выкрутить если хочу на гпу в врам все сгрузить, правильно?
Да, если врам хватит по объёму.
>>645763
Это из инстракт режима. Проверь, что ты выставил тот режим, на котором тренировалась модель.
>>645786
>ебанутая система, не видно прогресса нихуя
В консоли есть. И да, проверь ПК на стабильность, у тебя что-то дохуя ошибок.
>>645793
Норм, отличный сетап для игр.
Аноним 18/02/24 Вск 23:27:29 #390 №645795 
>>645793
скинь статью
Аноним 18/02/24 Вск 23:28:58 #391 №645797 
>>645795
https://github.com/paul-gauthier/aider/issues/172
там вроде deepseeker подходит к гопоте3, люди гоняют бенчи, но всё плохо еще пока
Аноним 18/02/24 Вск 23:29:40 #392 №645798 
>>645797
хотя тут сложно понять какая часть проблемы в aider, а какая в самих сетках
Аноним 18/02/24 Вск 23:31:01 #393 №645800 
image.png
>>645693
Она.
Обрежет.
Лишние токены, из начала переписки.
Просто не отправит их в модель на обработку.

Но если отправить — да, начнет нести херню.
До этой отметки она будет относительно помнить и относительно адекватное отвечать, как повезет.

>>645695
ExLlama, насколько я помню, не работает с 8бит, нахуя ты вообще это выбрал, если там в моделе написано No?

>>645747
Если влезет.
А может не влезть.
ВПИХУЕМОЕ
и
НЕВПИХУЕМОЕ
Абстракции понятны?

>>645763
Это модель тупит по какой-то причине.

>>645771
Хули толку, если она НЕЗАПУСКАЕМА НА ТОМ, НА ЧЕМ ТЫ ЗАПУСКАЕШЬ, ТЫ ПРОСТО КАЧАЕШЬ ХЕРНЮ?
Но можешь запустить AutoGPTQ, должна заработать, но медленно.
Аноним 18/02/24 Вск 23:31:58 #394 №645801 
>>645789
> прочитал что локалки по коду даже до гопоты3 не дотягивают
Сильное заявление.
>>645797
Топик длинный, где именно такое? Офк многое зависит от условий задачи и от корректности использования, если мотоцикл катить вручную то он будет медленнее велосипеда.
Программа странная, скорее всего автор вообще не шарит в локальных ллм и не может настроить под них свою программу, потому такие заявления и делает.
Аноним 18/02/24 Вск 23:32:57 #395 №645802 
>>645789
Читай хуйню чаще, ни за что не пробуй, молодец.

>>645797
Очередная хуитища.
ГПТ-3 вообще сейчас бы хоть с чем-то можно было бы сравнить, сказочники-дрочеры на чатгопоту, никогда в жизни дальше бесплатных чатов в телеге не выбиравшиеся.
Аноним 18/02/24 Вск 23:34:03 #396 №645803 
>>645800
> Но если отправить — да, начнет нести херню.
Там скорее лаунчер ошибку выдаст, если используется актуальная версия апи в таверне, там размер обрезки тоже передается и никак не сможет другой пролезть.
> ExLlama, насколько я помню, не работает с 8бит, нахуя ты вообще это выбрал
Глазастый, вот и причина.
>>645802
> ГПТ-3 вообще сейчас бы хоть с чем-то можно было бы сравнить
Можно пошутить про победы 7б, но ведь они же рили его обоссут.
Аноним 18/02/24 Вск 23:37:18 #397 №645807 
>>645803
> Можно пошутить про победы 7б, но ведь они же рили его обоссут.
Смешно, но да.
А специализированные почти до четверки дотягиваются, если нормально их запромптать.

> Там скорее лаунчер ошибку выдаст, если используется актуальная версия апи в таверне
Ну, вообще я имел в виду общий случай, если насильно впихнуть в модель.
Но в контексте, не знаю, думаю у таверны и правда есть понятие, куда лезть не надо.

Да я че-т вечером офигеваю от вопросов новичков, уже стал отвечать не подробно, сорян. =) Пойду успокоюсь и спатки.
Аноним 18/02/24 Вск 23:42:42 #398 №645810 
Вообще, прошу менять понять правильно, я не фанат только-локалок или только-GPT.
Пользуюсь и тем, и другим, и люблю нежно эффективность, а не фанбойство. Как у НВидиа есть неудачные модели, так и у Радеона есть успешные модели.
Не люблю, когда люди голословно срут на что-то.
«Нейронки слишком тупые, я давал задачу, чатгопота не смогла решить…»
Копирую текст, вставляю в чатгопоту —она решает его сходу верно. Ну бля, хуй знает, может он не ту модель чатгопоты юзал, или ему не везло, или что, понятия не имею. Работает.
Так и с локалками «они тупые», да не, это тупые те, кто так говорит. Никто не заявляет, что есть что-то лучше чатгопоты-4, но многие модельки зачастую отстают от нее не слишиком сильно. В конце концов она универсальная, а есть специализированные.

Проблема в том, что такие «спецы» напиздят всем, что «это хуйня, не пользуйтесь», и новички поверят, подумают, что и правда не работает нихуя. И забьют на хорошую, удобную, перспективную технологию.

Или вон, когда Sora вышла, появились «а я вижу неправильную тень на собаке, все ясно, фейк, легко отличить!»
А на практики эти умные нихуя отличить не могут, просто приглядываются, зная заранее, что это фейк.

Ну такое, короче, сорян, подгорел. =)

Всем добрых снов!
Аноним 18/02/24 Вск 23:44:38 #399 №645811 
>>645800
> ExLlama, насколько я помню, не работает с 8бит, нахуя ты вообще это выбрал
блин, ну прикол. а четырехбитные норм? у них размер мелкий какой-то тут
https://huggingface.co/TheBloke/Xwin-MLewd-13B-v0.2-GPTQ?not-for-all-audiences=true
по 8гб, качество же будет сильно хуже?
нафиг тогда он нужен exllama этот тогда? если я хочу все 16 гб свои заюзать
Аноним 18/02/24 Вск 23:48:25 #400 №645817 
>>645810
>Или вон, когда Sora вышла
Где скачать? Пока не скачать, значит не вышла.
>>645811
Качай в формате exl2, хули там
https://huggingface.co/R136a1/Xwin-MLewd-13B-V0.2-exl2
Аноним 18/02/24 Вск 23:52:33 #401 №645825 
>>645810
Привыкнув к локал_очкам попробуй на поломанных жб на чурбке поерпшить. Вот же кайфанешь ммм.
> Ну вот
> Ну давай же да!
> Да да, я готова!
> Ну вот же вот да стоны ну сейчас сейчас
> Да да да, ну же ну же вот там moans of arousal
> ...
Когда заебет отсутствие инициативы и радикальная стена, просто в наглую поднять юбку и стянуть трусы
> ой что ты делаешь, это неожиданно, пожалуйста не смотри
или просто медленное продвижение в котором нужно каждое "продвижение" явно напрямую указывать. Все намеки и инициативы будут поняты, отмечены ответными, но никакой инициативы.
На самом беде очень забавно, прямо исполнение желания "не кончай за юзера слишком быстро" от злого джина.

Офк не тот промт, не тот жб и все все
Аноним 19/02/24 Пнд 00:09:05 #402 №645845 
>>645817
ты кажется мудрый анон, подскажи реально ли будет на 16 гб локально запустить и текст модель, и СД (через силлиТаверн прикрутить)? Вот эти модели по 8гб например для exllama они сильно плохи так? если ее запустить и СД, на 8 гб попрет СД? или лучше апи какой-то внешний использовать а текстовую модель пожирнее взять? может подскажешь тогда хорошие (даже платные) апи для СД?
сори за вопросы но я первый день разбираюсь
Аноним 19/02/24 Пнд 00:17:01 #403 №645863 
>>645845
Я ж тебе уже писал, это простая арифметика.
16-4(сд)=12(ллм)
Ну, потестируй, попробуй выбрать ллм, чтобы в 10-11 гигов влезала.

Ссылку скинули хорошую, да, пробуй Exl2 формат. По умолчанию там 5 бит, но можешь попробовать 6-битную версию (в карточке ссылка) скачать.
Грузить ExLlama, соответственно.
Контекст выбирай 4096 для начала.
И смотри, влезет/не влезет.

>>645825
Пасиба, нибуду. =)
Аноним 19/02/24 Пнд 02:10:34 #404 №645957 
image.png
image.png
image.png
>>644800
Подскажите, почему не могу закинуть персонажей с сайта chub? После подтверждения на 1 скрине, кидает сразу на 2, а в консоли 3 ответ (ру символов нет в пути, в SillyTavern всё работает)
Аноним 19/02/24 Пнд 02:18:14 #405 №645962 
изображение.png
>>645957
В какую вкладку кидаешь, четырестачетвёртый? И зачем тебе убабуга, когда у тебя таверна стоит и настроена?
Аноним 19/02/24 Пнд 02:48:09 #406 №645990 
image.png
image.png
>>645962
Как на скрине кидаю, json в первую, картинку во вторую (но он и с картинкой и без - ругается этой ошибкой)
Если он в итоге ругается на name (но я не уверен), то в файле указано что на 1 скрине в этой строке, а сами файлы персонажей по умолчанию там в формате yaml.

>И зачем тебе убабуга, когда у тебя таверна стоит и настроена?
Хотел посмотреть на оба варианта, вроде убабуга говорили побыстрее, а ещё нашел как к ней прикрутить локальную версию автогонерации голоса и общения по войсу.
Аноним 19/02/24 Пнд 02:49:42 #407 №645993 
>>645990
>вроде убабуга говорили побыстрее
Эм, нет.
Вообще, кинь ссылку на перса, проверю у себя.
Аноним 19/02/24 Пнд 02:59:25 #408 №645996 
>>645993
Ну тогда ради общения войсом звучит прикольно, а на деле посмотрю что получится и прикручивания локального генератора голоса.

Любые файлы персонажей не ест, например вот эту https://www.chub.ai/characters/hebelover/Senko
Аноним 19/02/24 Пнд 08:51:36 #409 №646081 
>>645996
Ебать, сенкошиз ты что ли? Как там разработка нейровайфу идет?
Аноним 19/02/24 Пнд 09:26:59 #410 №646090 
А вы тож заметили что на чуби одни и теже дженерик карты повторяются и почти нехуя нового\нормального??
Аноним 19/02/24 Пнд 10:30:58 #411 №646119 
>>646090
Пишите персонажей сами.
Аноним 19/02/24 Пнд 10:33:08 #412 №646120 
image.png
image.png
>>645957
Тебе надо скачать персонажа в формате png.
Потом выбрать вкладку TavernAI PNG и туда его закинуть.

>>645990
>Хотел посмотреть на оба варианта, вроде убабуга говорили побыстрее.
Это я тебе писал что быстрее, но быстрее КОБОЛЬДА, т.к. позволит тебе катать модели на видеокарте, а не процессоре.

Но угабога это не альтернатива таверне. Скорее это сервер для неё, как кобольд.
В папке угабоги есть файл CMD_FLAGS.txt, открой его и добавь строчки
--listen --api
После этого запускай, грузи модель, через веб интерфейс и переходи в таверну.
Там у тебя должны быть такие настройки во вкладке API/
И всё заработает как надо.

Чат в вэб интерфейсе самой угабоги тоже можешь конечно заюзать, но по функционалу он УБОГ фить-ха! в сравнении с таверной.
Аноним 19/02/24 Пнд 10:38:05 #413 №646122 
>>646120
>Тебе надо скачать персонажа в формате png.
В таверне если что можно с чуба прсото ссылку вставить и скачать.
Аноним 19/02/24 Пнд 10:39:57 #414 №646123 
>>646122
Это про импорт в угабогу было.
Аноним 19/02/24 Пнд 11:54:59 #415 №646154 
>>646119
без проксей для теста? ага щас
Аноним 19/02/24 Пнд 12:12:14 #416 №646166 
>>645996
СиллиТаверн же тоже могет.

>>646119
Кто, я?
Аноним 19/02/24 Пнд 14:10:29 #417 №646225 
>>646090
Открытая платформа без критериев отбора, куда может постить что угодно собранное на коленке и кое как работающее. Или буквально дампать ответы нейронки к "напиши мне карточки зеленоволосой кошкодевочки, которую я буду трагладить". Или шизы, которые собирают треш, в комбинации требующий постоянных рероллов на "рекомендуемой сети", втирая про важные механики, которые ничего не дают.
Конечно оно превратится в свалку мусора, но годноту все равно найти можно.
>>646122
Лучше всегда иметь локальную скачанную копию на бекапящейся файлопомойке.
>>646154
А каких ботов ты пишешь?
Аноним 19/02/24 Пнд 15:18:26 #418 №646267 
>>646225
без прокей некаких, но если б была мотивация и возможность , писал бы чот оригинальное или с инициативой от бота вероятно (заебало одно и тоже)
Аноним 19/02/24 Пнд 17:23:39 #419 №646372 
>>646166
>СиллиТаверн же тоже могет.
Вот пример как я хотел сделать https://www.youtube.com/watch?v=lZkQUOpLg6g
Таверна сможет тоже такое провернуть и обязателен ли ей будет SillyTavern Extras? А если сможет, но к чему лучше прикручивать: к убабуге которую указывать в api настройках таверны после или сразу к таверне?
>>646120
Спасибо.

>Но угабога это не альтернатива таверне. Скорее это сервер для неё, как кобольд.
А блин, мне казалось, что это как альтернативный фронт вместо неё и для исключения кобольда.
>но по функционалу он УБОГ фить-ха! в сравнении с таверной.
Понял-принял, вечером попробую.
Аноним 19/02/24 Пнд 17:47:04 #420 №646400 
Когда наконец можно будет выпилить внутренние инструкции из локалки? Кто вообще знает что нибудь по этой теме? Их невозможно обойти полноценно или у меня просто не получается.
Аноним 19/02/24 Пнд 18:46:54 #421 №646462 
>>646372
Главное не используй лоадер Lama.cpp и модели в формате GGUF, иначе будет тот же кобольд, только в профиль.
Лучше качай модели exl2 или GGML и грузи их через exllama2 или ExLlamav2_HF и всё у тебя полетит.
Аноним 19/02/24 Пнд 18:59:42 #422 №646486 
image.webp
Как же хочется запускать Mixtral 8x7B локально со скоростью 485 т/с.
Аноним 19/02/24 Пнд 19:09:42 #423 №646492 
>>646486
че щас годнее микстраля ниче нету?
Аноним 19/02/24 Пнд 19:53:46 #424 №646522 
>>646462
> или GGML
GPTQ, ggml это предок gguf.
>>646486
Это на новом хуангодесктопе - суперкомпьютере?
Аноним 19/02/24 Пнд 20:10:15 #425 №646532 
>>646522
>Это на новом хуангодесктопе - суперкомпьютере?
это вот эта штуковина:
https://old.reddit.com/r/LocalLLaMA/comments/1audftm/wow_this_is_crazy_400_toks/
Аноним 19/02/24 Пнд 21:18:45 #426 №646582 
Вот вы тут дрочите по рп на тексты, что сочиняют вам сети, а кто-нибудь в треде работает в ирл жизни на работе, тренируя/облизывая нейросетки? Ученым там каким, или инженером, или кто еще там есть?
Аноним 19/02/24 Пнд 21:36:06 #427 №646598 
>>646582
>мылач
>ученые
Ну ты понял
Аноним 19/02/24 Пнд 21:40:16 #428 №646605 
>>646582
Текущие ллм (даже гопота) слишком тупые для задач специалистов. Суммарайз средней статьи еще может оформить, но точно и качественно ответить на ключевые вопросы по сути - без шансов. У локалок еще усугубляется плохим знанием языка, а через клозедаи что-то важное-актуальное прогоняешь не будешь.
Из практического только простой код писать помогает.
Вне stem скорее всего оно может ебошить.
Аноним 19/02/24 Пнд 22:46:53 #429 №646651 
>>646582
Я пока не вижу, куда это применять, но у меня и область пониманий чисто техническая, плюс стыки с тем, что вроде никак не связано. Несмотря на ажитацию в интернетах, не забывайте, что мы в пузыре, и обыватель еще не в курсе чо это за хрень вообще, включая бизнес-левел. (Я тут не имею ввиду открыть чатгопоту и спросить, а именно локальное, тренинги, инструкты вот эти все, да даже промпт-адаптеры через апи. Хотя многие даже о чатгопоте не знают.) Когда по телеку чо-то интреесное покажут, каждый второй вася с деньгами кинется придумывать аи-идеи для своей области. Лично я рассчитываю к тому времени прошариться достаточно, чтобы можно было доить этих вась пачками. А будет чо-то реальное или не будет - только время покажет.
Аноним 19/02/24 Пнд 23:16:16 #430 №646674 
>>646372
Можно я не буду смотреть видео? х)
Зачитывать — точно могет.
Слышать твой голос — раньше умело, могет, но там че-то жмать надо.
Убабуга так же.
Движок, да, xttsv2 рекомендую.
Разница в том, что силлитаверна лучше всего работает с промптом (карточка персонажа и дополнительный обвес), и лучше сразу пилить для нее это.

>>646462
Пожалуйста, не советуйте людям херню. =)

>>646372
GGUF — грузится или в оперативу, или в видео-память, или туда и туда. Поддерживается много чем. Скорость медленная в оперативе или средняя в видеопамяти.
GPTQ/Exl2 — грузится только в видеопамять. Поддерживается NVidia. Скорость быстрая.

Дальше на твой выбор.

>>646492
Ну, 70B так-то не стали хуже от выхода Микстраля.
Но за свою цену на скорость — лучшее, да.

>>646582
Знакомый. А я только юзаю.

>>646651
Обыватель не знает — и на том спасибо, у меня пока есть моя работа.
Аноним 19/02/24 Пнд 23:19:38 #431 №646678 
>>646532
Стоит признать, эта штука так или иначе работает.
Аноним 19/02/24 Пнд 23:51:23 #432 №646703 
вопрос думаю точно задавали, но сёрчить 41 утонувший тред, это слегка перебор, поэтому спрошу:

чё есть из ллм на 12гб видеокарту, из целевых назначений думаю general purpose, вопросы там задать, суммарайз жидких текстов, кодинг простой хрени.

и есть ли какие-то подвижки в плане перевода текстов, которые адекватно переводят (ну не хуже deepl) и работают локально? или это я ща пустил влажную фантазию, от которой даже ерп дрочеры в шоке?
Аноним 19/02/24 Пнд 23:53:30 #433 №646708 
>>646703
«Что-нибудь простенькое» — это можно сразу Mistral 7B v0.2 брать, в 12 гигов с контекстом влезет.
Ну или ОпенЧат/Гермес (второго не сильно советую).
Или, если хочешь, выбрать какую-нибудь 13B модельку старую — Xwin какой-нибудь.

Переводчиком была ALMA, насколько я помню. В пределах твоих запросов.
Аноним 19/02/24 Пнд 23:57:34 #434 №646710 
>>646674
>Можно я не буду смотреть видео? х)
Да как хочешь, я думал может быть интересно. Там описывается как локально поднять другую нейронку, которая по примеру 6 минут аудиозаписи голоса будет генерить в дальнейшем этим голосом за твоего персонажа и разговаривать им бесплатно и без ограничений. Прикольно ведь если можно подарить любой голос любому персонажу и модель будет на нем отвечать.

А про промпт не совсем понял, но это может после. Пока по планам прикрутить голос и разобраться как работает инструкт к чату (если он вообще нужен)
Аноним 20/02/24 Втр 00:03:15 #435 №646715 
>>646710
Там как повезет. Мужские голоса ей даются откровенно лучше женских.
По мнению моих знакомых, мой голос получился почти один-в-один. А вот голоса моих знакомых девушек… На 6-7 баллов из 10.

> инструкт к чату
Инструкт — для инструкт модели.
Чат-модель сама по себе умеет хорошо в чат. Но не идеально.
Инструкт-модель с хорошим инструктом будет лучше чатится, но это сложнее.
Так что, тут смотри сам, охота ли тебе запариваться по началу. =)
Аноним 20/02/24 Втр 00:11:56 #436 №646723 
>>646715
О, ты про тот сервис что в видео описывается или что-то другое?

Для начала попробую магию с голосом на разных персонажах из тайтлов (там можно собрать большую выборку их голоса и после очистки мне кажется будут говорить как настроящие)

А инструкт нельзя использовать к обычной модели как дополнение?
Аноним 20/02/24 Втр 00:17:23 #437 №646729 
>>646708
13В Alma в меня влезет? или лучше просто 7B взять и не трахать мозг? не знаешь как оно в плане качества выдачи по сравнению с дипл?
Аноним 20/02/24 Втр 00:18:41 #438 №646730 
>>646723
Coqui, он же XTTS, да.

Использовать можешь что хочешь и где хочешь — система-то одна, простое угадывание следующего токена. Но вопрос качества, насколько одно хорошо подойдет к другому. =)
Однако, в нашем мире васянских файнтьюнов, может быть что угодно, пробуй, разбирайся, тыкай. =)
Аноним 20/02/24 Втр 00:24:05 #439 №646733 
>>646729
Не знаю, лично я переводом почти не занимался. Скачал. Попробовал. Переводит условно хорошо. Удалил.
Так что…

ИМХО, лучше взять 13B в меньшем кванте, чем 7B в большом.

https://huggingface.co/Ahm ed107/ALMA-13B-R-GGUF/tree/main
Ну, вот, что-то есть, можно просто выгрузить в память видяхи.

Но ты пробуй, качай и то, и другое, тестируй.

Заодно и нам расскажи, че как оно.
Аноним 20/02/24 Втр 00:24:25 #440 №646734 
>>646733
Сорян за разбитую ссылку, вместе не пускал спам-лист.
Аноним 20/02/24 Втр 00:54:43 #441 №646758 
>>646730
Кстати, может ты знаешь и подскажешь, как расшарить доступ допустим для друга по ссылке к поднятой у себя таверне? Ну или на крайний случай просто для тех кто в одной сети wi-fi с пк?
Аноним 20/02/24 Втр 01:11:59 #442 №646770 
>>646758
В винде:
Открываешь Монитор брандмауэра Защитника Windows.
Выбираешь Правила для входящих подключений.
Там — Создать новое.
Указываешь Локальный порт 7860 (или какой там у твоей программы), тип протокола не помню, можешь создать два — и для TCP, и для UDP, Разрешить.
Теперь он будет принимать с других компов в локальной сети (тебе нужно будет знать твой локальный айпишник) соединения.

Для соединения извне — уже проброс портов на роутере.

Ну это все немного не по теме, час ночи, мне лень, прости. =3 Погугли.
Аноним 20/02/24 Втр 01:15:23 #443 №646771 
>>646758
во-первых, если сидишь с роутера, тебе нужен port-forwarding, нагуглишь как его сделать сам.
во-вторых, в ini-файлике таверны нужно включить доступ извне, я не помню как точно, но на вики есть. нужно будет там же в файлике указать юзернейм и пароль которые будут использоваться для входа, иначе таверна не включится. зато потом можешь с мобилки удалённо дрочить
Аноним 20/02/24 Втр 01:22:38 #444 №646773 
>>646758
>>646771
Да-да, он прав!

В качестве IP иногда надо указывать не 127.0.0.1, или там localhost, а 0.0.0.0 — значит, что приложение принимает запросы отовсюду.

Ну и настройки могут быть еще какие-то, логин-пароль, все дела.
Аноним 20/02/24 Втр 01:46:51 #445 №646777 
>>646770
>>646771
>>646773
Спасибо, пойду читать завтра.
Аноним 20/02/24 Втр 02:34:46 #446 №646792 
>>643907
Пробовали. У этого автора ещё одна модель есть, Алиса, как бы улучшенная Маша, но и у неё всё очень печально.

Вообще, ни одна из двух десятков 7B-34B моделей, что мне довелось испытать, не генерирует сколь бы то ни было приемлемого текста на русском, кроме Mixtral 8x7b. Лучше всех пока справляется https://huggingface.co/Artefact2/BagelMIsteryTour-v2-8x7B-GGUF со следующими настройками семплеров: https://rentry.org/4wva76dg
Их пришлось подбирать, чтобы отрезать англоязычные токены, пробивавшиеся в русский текст. В этой конфигурации используется Smoothing Factor, поэтому вам может понадобиться обновить версии koboldcpp и SillyTavern.

FWIW, у меня карточка персонажа и Instruct на английском, но не думаю, что это влияет. Никакими инструкциями не удалось улучшить качество русскоязычного текста или полностью избежать генерации англоязычных токенов.

---
Я лингвист. Ваш диапазон приемлемости может отличаться от моего.
Аноним 20/02/24 Втр 02:41:45 #447 №646798 
>>646792
Сразу видно, что я не погромист, забыл заэскейпить звёздочку.
Аноним 20/02/24 Втр 03:19:31 #448 №646804 
>>644289
Самая свежая объяснялка от того, кто действительно в теме: https://old.reddit.com/r/LocalLLaMA/comments/1atghbb/local_llm_glossary_simple_llama_sillytavern_setup/
Аноним 20/02/24 Втр 05:34:01 #449 №646822 
>>646522
>GPTQ, ggml это предок gguf.
Бля, и правда перепутал. В последнее время скачиваю только exl2.
Аноним 20/02/24 Втр 07:36:21 #450 №646833 
tpu v2-8 (как в коллабе) как он по сравнению с A100? У tpu конечно памяти до жопы, но что насчет производительности?
Аноним 20/02/24 Втр 11:07:04 #451 №646918 
>>646462
>>646522
>exl2 или GGML
А если нет их для скачивания? Например как тут >>644715
Аноним 20/02/24 Втр 11:48:07 #452 №646928 
>>646918
Так ты введи прямо в поиске на хаггинг фейсе названия моделей. Сейчас посмотрел для xwin-mlewd и норомейды - есть и экслама разной битности и gptq. От себя только добавлю, что эти форматы полностью работающие на видяхе хоть и значительно быстрее, но зато gguf позволит катать модели с большим контекстом и/или с кванты с меньшими потерями в качестве при том же объёме видеопамяти. Ориентируйся на своё железо. Если у тебя 4060ti вообще восьмигиговая, а не 16-и, то ты и не запустишь 4 битную эксламу или gptq.
Олсо вместо свина-млюда рекомендую попробовать nete-13b на ступеньку выше над ним. Мне она в своё время больше понравилась.
Аноним 20/02/24 Втр 12:20:46 #453 №646943 
>>646792
Эта модель лучше оригинальной Микстрали, я верно понимаю?

Спасибо, интереса ради попробую, и на семплер посмотрю!
Аноним 20/02/24 Втр 12:22:53 #454 №646947 
>>646792
Сразу спрошу, а миростат не гонял? У меня на мистрали маленькой он прям дал буст по адекватности и качеству.
Аноним 20/02/24 Втр 12:40:07 #455 №646964 
1634188518146.png
>>646918
> Например как тут
У TheBloke скролишь чуть вниз и у каждой модельки есть пикрел, жми на GPTQ. У LoneStriker придется в поиске забить название.
>>646928
> зато gguf позволит катать модели с большим контекстом
Что?
> и/или с кванты с меньшими потерями в качестве при том же объёме видеопамяти
ЧТООО?
Аноним 20/02/24 Втр 12:48:16 #456 №646976 
>>646964
>Что?
Контекст можно растянуть ропой до 16/32к, но во ВРАМ обычно столько не помещается, если не 3090/4090 какая-нибудь.
Аноним 20/02/24 Втр 13:32:12 #457 №647010 
>>646964
Про контекст уже ответили. Та же 13б 4-битная экслама с каким контекстом влезает в 16 гигов видяхи? Не факт, что 8к влезет, подозреваю. Там же не только вес модели, ещё кэши какие-то, нет? 6бит экслама с этим контекстом уже не влезет. gguf же и с 8к контекста можно брать смело большей битности. Та же стандартная Q5_K_M будет куда лучше 4-битной эксламы или gptq по perplexity. Вон, в шапке график, там даже Q4_K_S лучше, хотя и не сильно, потому что там выше 4-х бит по факту.
Аноним 20/02/24 Втр 14:52:53 #458 №647047 
phxug0r5iajc1.webp
>>641598 (OP)
Я нюфаг. Хочу поднять локальный текстовый LLM, типа чатгпт.
Есть ли локальные модели, которые работают не хуже (в плане знаний и сохранения контекста в диалоге) четверки?
Заебало, что чатгпт постоянно отваливается с моим корп.впн и я не могу его нормально юзать с некоторых пор.
Аноним 20/02/24 Втр 14:57:02 #459 №647049 
>>647047
P.S. У меня 3080Ти, но готов платить за какое-нибудь облако гпушное, если выйдет не сильно дороже моей текущей плюсовой подписки.
Аноним 20/02/24 Втр 15:10:04 #460 №647064 
>>647047
>не хуже четверки
Планка весьма высока. Локалки сейчас (и последний год) на уровне турбы.
Можно надрочиться на отдельную область, и только.
Аноним 20/02/24 Втр 15:20:36 #461 №647073 
>>647047
Не хуже четверки во всем — нет.
Есть те, которые в конкретной специализации не хуже.
Но тут нужно разбираться, что именно тебе надо, и есть ли такие модели или, хотя бы, файнтьюны.

>>646964
>>647010
Я уточню, что в шапке видно, как ггуф с битностью 4.8 сливает эксл2 битностью 4,65 потребляя на 200 мб меньше.
Если охота терять в качестве ради 200 мб, или кровь из носу нужно 350 лишних токенов контекста — то да, ггуф лучше.
Если вдвое большая скорость и лучшее качество ценой 200 мб видеопамяти в приоритете — то exl2.

Напоминаю, что Q4_K_M — это 4,8 бита.
Аноним 20/02/24 Втр 16:06:32 #462 №647119 
>>647073
>Есть те, которые в конкретной специализации не хуже.
А какого размера эти домены специализаций обычно? Типа "погромирование", "биология", "мамоебство" или же "программирование робототехники на 8051", "имунная система глаза" и "анальный секс с мамой стифлера"?
Аноним 20/02/24 Втр 17:00:07 #463 №647184 
ньюфаг здесь, необходимо обрабатывать научных статей чтобы из них делать выдержки с самым цимесом. Справится ли локальная модель, сравнительно с GPT 3.5? На какие лучше модели обратить взор. Стать иногода по 40+ страниц, возможно нужно будет отвечать на вопросы по загруженному материалу.
Аноним 20/02/24 Втр 17:07:18 #464 №647190 
>>647119
Чаще между, ближе к первому.
Есть общий кодинг, и модели под конкретные языки.
Есть общий секс, и с упором в какую-то область.

Но опять же, их не так чтобы много.
Должен быть спрос, а люди, которым нужны конкретные модели, просто даже про ЛЛМ ни слухом, ни духом, а уж сделать самостоятельно и вовсе не могут.
В основном делают энтузиасты для энтузиастов. Ну и немного опенсорса от корпораций. Микстраль, вроде, умела в доктора или че-то такое.

>>647184
GPT-3.5 точно не справится с таким объемом. =)
А вообще — да, но тут надо поизучать вопрос, я не занимался.
Нужны модели с большим контекстом + знание языка, на котором написаны статьи (или настроить перевод, но он будет технический, получается, что не делает ситуацию легче) + знание темы (а с переводчиком — переводчик должен ее знать).

Теоретически возможно, практически надо разбираться.
Аноним 20/02/24 Втр 17:22:20 #465 №647195 
>>647190
>>647184


Если язык английский и статьи преимущественно на одну и ту же тему (химия, химическое производство, возобновляемая энергия) - статья по сути увеличивает насколько я понял. Узурпаторы жпт аи сняли ограничение контекста со своих моделей насколько мне известно в коммерческих версия ( через API), но я так понял влетит в копейку и поэтому ищу альтернативу локальную надо которой готов потеть и предоставить свое скромное железо с 8 гб 3070 и 64 гб оперативы. Вопрос где искать с таким доменом знаний годные модели.
Аноним 20/02/24 Втр 17:31:31 #466 №647198 
>>647190
А чтобы была узкая область, и при этом попизже чем гтп-4? Например, хочу себе локальную ллм чисто для вычитки писем, которые пишу (правка стиля, орфографии, грамматики, ридабилити).

Будет ли правильный промтинг сильнее решать в слишком узких моделях или такой зависимости нет?

Кстати, локальные модели умеют выходить в сеть, искать доп.источники? Или это доп. абстракция над моделью и прямого отношения к ллм не имеет? Такую надстройку можно сделать над локальной ллм? (Ну в смысле, кто-то сделал в паблике и это можно юзать или пока нет?)
Аноним 20/02/24 Втр 17:56:06 #467 №647213 
>>647198
>Или это доп. абстракция над моделью и прямого отношения к ллм не имеет?
Да.
>Такую надстройку можно сделать над локальной ллм?
Лангчейн, там вроде была такая фича.
Аноним 20/02/24 Втр 18:15:01 #468 №647220 
>>647195
Ну, может быть не так дорого, как кажется. Но хз, надо считать, прикидывать, да.

Ограничение контекста техническое, а не по их решению, гпт-3.5 в пике 32к держит, что ли, а так 4-8 тыщ контекста, так что, нет. =) А вот гпт4 — там 128к, норм, да. Но дороже.

64 гига оперативки уже неплохо.

Что бы посоветовал я.

>>647198
Чтобы узкая область и пизже гпт-4 — ну в теории, да, но на практике я никогда не интересовался чем-то настолько сильно.

Правильный промпт может многое порешать, это правда. Как и правильные настройки семплера, к примеру (те — даже больше, ИМХО).

Выход в сеть — не относиться к LLM, это отдельный софт.

По сути, тебе нужен LangChain или LlamaIndex, (или их аналоги) где и RAG, и Google, и все вот эти плюшки в одном.

Из моделей могу предложить:
1. https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF
Возможно, оно умеет в химию. Контекст то ли 4к, то ли 32к, то ли можно растянуть. Влезет в оперативу. Квант только q8, но можешь рискнуть q6 для английского.

2. https://huggingface.co/TheBloke/Yi-34B-200K-GGUF
Здесь 200к контекста, хватит на большие статьи. Модель англо-китайская и приличная. Но знания под вопросом. Можешь поискать ее файнтьюны, может что-то есть.

3. https://huggingface.co/TheBloke/Yarn-Mistral-7B-128k-GGUF
Маленькая, быстрая, умная, 128к контекста, но для твоего запроса скорее всего не пойдет. Но она существует.

4. https://huggingface.co/LoneStriker/LWM-Text-Chat-1M-GGUF
Потенциально — самая тупая из них. Основана на Llama2 13B. Но 1 миллион контекста.
Но ее я еще не качал и не пробовал.

5. Просто поищи на huggingface.co слово chemistry. Есть модели, заточенные на это, но я нашел какой-то совет экспертов на 240 гигов, которые в ужатом виде влезут с трудом к тебе в оперативу.

И помни — на оперативе, чем больше модель, тем дольше ответ.
Даже если выгрузить обработку контекста на видяху, никто тебе не даст гарантий, что ответ будет скоро. =)
Аноним 20/02/24 Втр 18:17:35 #469 №647221 
>>646804
>>646928
>>646964
Спасибо
Аноним 20/02/24 Втр 18:17:46 #470 №647222 
>>647198
Если хочешь, можешь скинуть мне крупную статью, я попробую у себя на чем-нибудь, чисто затестим.
У меня не ахти какое железо, но ради научного эксперимента можно попробовать.
Аноним 20/02/24 Втр 18:21:10 #471 №647223 
>>647220
> LWM-Text-Chat-1M-GGUF
Кстати, по-ходу я спиздел, и там Llama2 7B, что прям грустно.
Но надо тестить, мало ли она стала гением.
Аноним 20/02/24 Втр 18:25:49 #472 №647225 
>>647223
> 7B
> прям грустно
Тыштааа! Может ты ещё и поспорить хочешь, что каждая новая 7B недели в очередной раз уничтожает гпт3-4-5?
Аноним 20/02/24 Втр 18:27:56 #473 №647226 
>>646730
Кстати, а он справится например со скармливанием ему японского примера, для генерации японского голоса по английскому тексту?
Аноним 20/02/24 Втр 18:34:41 #474 №647229 
>>647047
Если тебе на самом деле просто нужен ChatGPT, то используй альтернативные способы доступа. https://2ch.hk/ai/res/576277.html#601180
Или используй Google Bard (Gemini) с зарубежных адресов (любой EU/US прокси подойдёт), он пока бесплатный, а качество вполне сопоставимо.
Аноним 20/02/24 Втр 18:35:05 #475 №647230 
>>647225
Не-не, истина, так и есть! Сейчас еще раз уничтожим, как раз докачалась!

>>647226
Пример и результат не обязаны быть на одном языке.
Но, вроде, акцент появляется забавный.
Но чистого английского в таком случае лучше не жди.
Хотя, я не уверен, насколько это критично для тебя. =)
Аноним 20/02/24 Втр 18:35:53 #476 №647231 
>>647229
Кстати да, про Барда-то я и забыл.
Привыкли, что Чатгопота, Клод да локалки (грока не считаем). А тут еще и Джемини же.
Аноним 20/02/24 Втр 18:46:53 #477 №647234 
>>646976
> но во ВРАМ обычно столько не помещается
Уточняй тогда. Казалось что 24гб, пусть и бюджетные - уже база треда.
>>647010
Ну вопрос здесь не столько в том на что хватит рам. Если мы возьмем тот же ггуф и посмотрим сколько будет кушать не голая модель без ничего, а с выделенным и использованным 8к контекстом - разница будет дохуя больше чем на том пике.
> Q5_K_M будет куда лучше 4-битной эксламы или gptq по perplexity
Это 5.7 бит, при разнице в 1.5 раза оно должно по утрам отсасывать.
А так, если речь про ограниченность врам то действительно лучше немного пожертвовать скоростью чем крутить 3.5 бита, которые помещаются.
>>647073
> потребляя на 200 мб меньше
Похоже на то что там оценивался просто голый объем модели без учета потребления на контекст. Несколько тредов назад было их сравнение, местами разница такая что на больших моделях хватит накатить 0.5-1 бит кванта, или удвоить контекст.
>>647225
Содомит.
Аноним 20/02/24 Втр 19:05:17 #478 №647239 
>>647195
Слушай, я сейчас тестирую, и, по-ходу, контекст печально много жрет.
Микстраль можешь вычеркивать для больших статей, хех.
Надо на твои статьи посмотреть, какой там объем.
Аноним 20/02/24 Втр 19:11:03 #479 №647240 
>>647239
Попробуй https://sci-hub.ru/10.1103/PhysRevB.71.104409
Аноним 20/02/24 Втр 19:30:00 #480 №647248 
>>647222
Я потерялся. Что попробуешь?
Аноним 20/02/24 Втр 19:39:37 #481 №647252 
>>647248
Я и сам запутался, не парься. =)

Один человек спрашивал за суммаризацию статей, другой за аналог чатгопоты в общем смысле.

Я хз, я мог промахнуться самим ответом тегая кого-то.
Я параллельно работаю.
Аноним 20/02/24 Втр 19:43:10 #482 №647253 
>>647240
Mistral выдает следующее, к примеру:

The text you provided is an academic article about magnetic tunneling magnetoresistance (ITMR) in a specific material called Ba0.8Sr0.2d2FeMoO6 double perovskite. ITMR is a phenomenon where the resistance of a material changes when a magnetic field is applied due to spin-dependent tunneling through insulating grain boundaries.

The researchers in this study found that the ITMR in Ba0.8Sr0.2d2FeMoO6 tends to saturate at high fields, which is different from what has been observed in other half-metallic magnetic oxides. They suggest that this may be due to differences in spin-dependent processes or magnetic states near the grain boundaries.

They also propose a modified model for intergrain magnetoresistance in which the grain boundary magnetic state is the relevant parameter. This model can explain the experimental results and should be taken into account in future work on devices involving interfaces with magnetic double perovskites.

Сейчас попробую модельки побольше.
Статья эта маленькая, и тут проблем с производительностью нет. Но попробуй оценить качество.
Аноним 20/02/24 Втр 19:49:57 #483 №647258 
>>647252
На работе применяешь ллм?
Аноним 20/02/24 Втр 19:52:01 #484 №647262 
>>647258
Я имел в виду, что вообще, сейчас работаю параллельно.

Интернет хуйня весь день сука, блядь пиздец, все в пизду, нихуя не успеваю, ни потестить, блядь, ни обновить, что не качаешь — нихуя не качается, блядь!

А вообще, да, и для программирования, и для идей и написания текстов иногда.

Норм инструмент, без экстаза, но полезная штука.
Аноним 20/02/24 Втр 19:53:16 #485 №647263 
https://www.reddit.com/r/LocalLLaMA/comments/1avm2l7/introducing_loraland_25_finetuned_mistral7b/
Аноним 20/02/24 Втр 19:54:32 #486 №647264 
>>647253
Такое себе
>magnetic tunneling magnetoresistance
Магнитное магнитосопротивление, масло масляное.
>Ba0.8Sr0.2d2FeMoO6
Чому-то d вместо скобки.
Ну туда-сюда.

Держи большую тогда https://link.springer.com/content/pdf/10.1007/s10853-021-06847-5.pdf
Аноним 20/02/24 Втр 20:05:25 #487 №647267 
А как запускать этот ваш ллм на облаках? Дорого стоит вообще?
Аноним 20/02/24 Втр 20:14:29 #488 №647276 
>>647253
> Mistral
На что ты рассчитывал? Моделька то хорошая но тупая и вместо сути явлений триггернется на тематику и попытается рассказать тебе о чем-то общем. Как вариант, мику попробовать, но тоже врядли осилит.
>>647267
На бесплатном коллабе бесплатно.
Аноним 20/02/24 Втр 20:29:29 #489 №647283 
>>647276
Начинал с малого, у меня на втором компе убабуга апдейтилась супердолго, хз почему.
Сейчас будем повышать ставки.
Аноним 20/02/24 Втр 20:40:40 #490 №647285 
>>647264
Based on the provided article, I have summarized the key points as follows:

The article discusses the synthesis and characterization of single crystals of lead-free halide double perovskite Cs2AgBiBr6 for use as radiation sensors. The study confirmed the purity and crystallinity of the solution-grown Cs2AgBiBr6 single crystals using powder XRD measurements and revealed dominant {111} lattice planes parallel to the sample surfaces. The single crystal XRD patterns showed lower resistivity values (106–109 X cm) compared to previously reported values using the van der Pauw method (1.55 9 109–6.65 9 1010 X cm). The charge-carrier mobility values were comparable (1.90–4.82 cm2 V-1 s-1 for carbon paint-Cs2AgBiBr6 and 0.58–4.54 cm2 V-1 s-1 for Ag-Cs2AgBiBr6), as were the Hall effect measurements (1.89 cm2 V-1 s-1 and 2.36 cm2 V-1 s-1 for carbon paint-Cs2AgBiBr6 and Ag-Cs2AgBiBr6, respectively). The findings indicated that the Cs2AgBiBr6 samples synthesized in this study satisfied requirements for radiation sensors.

или так

Based on the provided article, I have summarized the key points as follows:

The study focuses on the synthesis and characterization of Cs2AgBiBr6 single crystals with cubic Fm 3 m symmetry for use as radiation sensors. The team used solution growth methods to produce larger crystals with flatter surfaces and controlled crystal growth conditions to enhance the growth of {111} planes. The crystals were characterized using powder X-ray diffraction (PXRD) and single-crystal X-ray diffraction (SCXRD), which confirmed their purity, crystallinity, and cubic symmetry. The electrical properties of the crystals were investigated using various methods such as Hall effect measurements, van der Pauw measurements, and space-charge-limited current (SCLC) measurements. The results showed that the crystals had resistivities ranging from 10^8 to 10^10 X cm, charge carrier mobilities ranging from 0.58 to 4.82 cm^2 V^-1 s^-1, and trap densities ranging from 10^9 to 10^10 cm^-3. The X-ray photoresponse measurements indicated that the crystals satisfied requirements for radiation sensors with maximum sensitivities of 42 lCGyair^-1 cm^-2 at a dose rate of 75 lGys^-1 and -10 V bias. The team also discussed potential improvements to enhance crystal growth and performance, such as thermal annealing and optimizing metal-semiconductor contacts.

Учти, я не делал специальных промптов, и не использую какой-нибудь RAG, распознавание пдфок, визуальную модель или еще что-то. Я просто копирую весь текст и кидаю в ллм со словами summarize article!

Это был мистраль, сейчас попробую LWM, че там за чудо такое…
Аноним 20/02/24 Втр 20:48:19 #491 №647289 
>>647276
>На бесплатном коллабе бесплатно.
Любую можно запустить? В чем подвох?
Аноним 20/02/24 Втр 20:49:19 #492 №647291 
>>647285
Второй вариант мне нравится намного больше. Что за модель?
Аноним 20/02/24 Втр 21:02:06 #493 №647309 
>>647291
Это все еще Мистраль.
Но мне показалось, я выбивал и лучше.
От семплера и промпта очень много зависит. Тут прям надо тестировать и натаскиваться на небольшой статье, пока не будут норм варианты, и уже потом пробовать на больших.

LWM у меня просто повторяет промпт персонажа.
Видать она поломанная, а качать оригинальные веса и настраивать мне лень, да и не с моим сегодняшним интернетом.

Сейчас попробую Микстраль запустить. Но она уже много оперативы жрет, конечно.

А там докачается Yi-34B-200K и буду тестировать ее.
Аноним 20/02/24 Втр 21:43:07 #494 №647357 
>>647264
Вот пример маленькой и тупой Микстрали (q3_K_M):

This article reports on magnetoresistance (MR) measurements performed on the half-metallic polycrystalline double perovskite Ba0.8Sr0.2FeMoO6. The MR measurements were conducted up to 50 Tesla (T) in the temperature range of 4.2 K to 350 K. The MR is found to be due to intergrain MR at temperatures far below Tc = 345 K, allowing for useful information to be extracted on spin-dependent transport processes as well as the magnetic nature of the grain boundaries. The intergrain magnetoconductance tends to saturate at high fields, unlike the linear behavior reported on half-metallic manganites and magnetite. The experimental results are understood within the framework of the Inoue and Maekawa model for intergranular MR but using the magnetic state of the grain boundary as the relevant parameter instead of the bulk magnetic state. Detailed analysis of the field dependence of the MR points to a spin-glass magnetic state of the grain boundary.

Проверь-ка, она берет информацию со всего текста, или только с последней его части? Не уверен, сколько контекста она обрабатывает.

———

А вот ответ Mixtral q8:

Absolutely! I'm glad you asked! In this article, researchers used pulsed magnetic fields to measure magnetoresistance (MR) up to 50 T in Ba0.8Sr0.2FeMoO6 double perovskite at temperatures ranging from 1.8 K to 375 K. They found that at low fields (H < 0.2 T), the MR scales with m^2 (squared reduced magnetization), as expected from direct tunneling models with optimal spin polarization (P = 1). However, at higher fields (H > 40 T), they observed saturation of MR at temperatures below 50 K and a maximum value of 50%, which deviates from what would be predicted by direct tunneling models (maximum value of 100%). They also found evidence of spin disorder MR superimposing to ITMR above 200 K and intrinsic MR persisting up to 375 K. They proposed a modified direct tunneling model where m^2 is replaced by mgb^2 (magnetization of grain boundary region), which follows Langevin function depicting paramagnetic-like nature of outermost part of grain surface with random spin pinning centers due to off-stoichiometry, vacancies and antisite disorder. They also found good fit to experimental data using this model with spin polarization of 0.86 at 1.8 K and spin disorder coefficient B above 200 K up to TC with maximum at TC. They also observed empirical test function MC = F exp(-H0/H^1/2), which can be useful but needs further theoretical support. They concluded these results should be taken into account when working with devices involving interfaces with magnetic double perovskites and emphasized importance of understanding spin-dependent processes and magnetic state close to grain boundary.

Очень странно, но она дает ответы непостоянно.
Ну и это занимает 3-6 минут.
Аноним 20/02/24 Втр 21:59:37 #495 №647361 
>>647357
Блин, я, по-ходу, статью перепутал. х)
Ваще не слежу за ответами.

По результату, Yi у меня тоже не захотела суммаризировать нормально.

Так что, остается Мистраль или Микстраль и играться семплерами, промптами и искать нужное.

Из того, что могу предложить я.

За сим откланяюсь и пойду остальные дела делать.
Аноним 20/02/24 Втр 22:03:24 #496 №647366 
А вы пока давайте, перекатывайтесь, что ля. =)
Шо б я вернулся в новый тред через два часа!..
Аноним 21/02/24 Срд 00:14:52 #497 №647439 
>>647289
В 16 гигов врам влезает только пожатая 20б с умеренным контекстом. Бесплатный коллаб ограничен по времени.
Аноним 21/02/24 Срд 02:17:04 #498 №647507 
>>646943
Она не лучше, просто модифицирована (кустарно, почти наугад, пока что как могут) для ролевых игр. При этом могли пострадать другие её способности.

>>646947
Автор миростата теперь рекомендует всем использовать своё новое изобретение Quadratic Sampling (Smoothing Factor) как наиболее прогрессивное, а прежние (Mirostat, Dynamic Temperature) забыть как устаревшие.
Аноним 21/02/24 Срд 02:32:08 #499 №647515 
>>647198
> выходить в сеть, искать доп.источники
> кто-то сделал в паблике и это можно юзать
Да, на реддите в locallama уже несколько таких надстроек анонсировали, с кодом на гитхабе.
О Langchain там отзываются не всегда хорошо, но не помню, почему именно.

>>647220
> Mixtral
> Контекст то ли 4к, то ли 32к
32k, но там какое-то sliding window, на которое ругаются, что, мол, толком не работает как настоящий длинный контекст
> Квант только q8, но можешь рискнуть q6 для английского.
Это рекомендация практика или теоретика? (Я переводчик есличо).
Аноним 21/02/24 Срд 03:31:34 #500 №647549 
ПЕРЕКАТ юбилейный

>>647548 (OP)


>>647548 (OP)
Аноним 21/02/24 Срд 05:47:23 #501 №647594 
>>647515
> но не помню, почему именно.
Перегружен к хуям
Аноним 21/02/24 Срд 07:37:27 #502 №647607 
>>647357
Первый вариант неплох.
>Проверь-ка, она берет информацию со всего текста, или только с последней его части? Не уверен, сколько контекста она обрабатывает.
А примерно так и есть, человек сначала читает абстракт и выводы, может еще графики глянуть и соображает, надо ли ему читать статью.
А вообще толку от этой обработки мало, считай, три разных ответа по одной статье, тут проще самому.
Аноним 22/02/24 Чтв 19:24:35 #503 №649051 
Аноны, пробовали Vector Storage?
Насколько рабочая вещь?
Аноним 03/03/24 Вск 21:21:44 #504 №657575 
>>641598 (OP)
Так что там с обнимордой случилось?
Аноним 26/03/24 Втр 09:03:57 #505 №681852 
Ты не будут исполнены как на место этого уже за вашу RAG и вообще действительно иди спроси почему иногда и постоянно отвлекая другими действиями, которые предложены как пробросить ее знать).Теоретически
comments powered by Disqus

Отзывы и предложения