Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №56 /llama/

https://github.com/EpistasisLab/KRAGEN

делал уже пост в нф но там вообще пусто так что пришел сюда.

парни крч с железом относительно напрягов нет так что подскажите ллм пиздатую в данный момент. в данный момент сижу на Llamix2-MLewd-4x13B.q8_0 а до этого на mlewd-remm-l2-chat-20b.Q6_K. и еще много чего пробовал по мелочи но там совсем мрак. так что может посоветуете что то более годное.

так мб кто то сможет пояснить за эти режимы запуска(?) в кобальте что на моем скрине

так же несколько раз натыкался на скрины настроек в кобальде но они были подписаны под другие лмм. или есть какие то внятные ресурсы где можно посмотреть таблицы.
так же вопрос где брать карты персов кроме чаб аи и дворника.
все добра

Аноним 29/04/24 Пнд 10:10:09 #18 №721452

Здраститя, то-ли я ебанутый, то-ли лыжи не едут - кобольдрокм работает медленнее с 6700хт, чем вулкан. У кого-то так было ещё?

Аноним 29/04/24 Пнд 10:49:03 #19 №721461

.png

Это, получается, некромоделька для кума ебёт соевую ламу для опущенных куколдов?

Аноним 29/04/24 Пнд 11:11:13 #20 №721468

>>721452
Раньше было наоборот, но может быть в последних патчах что-то наоптимизировали в вулкане.

Аноним 29/04/24 Пнд 11:16:38 #21 №721471

Пиздец у меня профдеформация от локалок по ходу. Каждый раз, как вижу в любом тексте отрывок длиннее 5-7 слов без знаков препинания, сразу какой-то тумблер щёлкает и в голове мысль "блять опять залупилась, снова лазить по контексту чистить вилкой говно". Только через секунду где-то приходит осознание.

Аноним 29/04/24 Пнд 11:48:38 #22 №721484

>>721295 →
Туть.
>>716256 →
>>716268 →
>>716269 →

>>721297
Хрюкнув.

>>721445
Если напряга нет, бери коммандер плюс (104б) в 6 кванте. Там нормас.
Если все же чуть напряжнее, то возьми мику или ллама3 70б.

Ну я хз, че те надо вообще.

Аноним 29/04/24 Пнд 12:00:01 #23 №721490

>>721452
Ну так вулкам пизже для радеонов, там чегото еще подкрутили для процессоров

Аноним 29/04/24 Пнд 12:11:07 #24 №721498

>>721493
А если вейвкодер + промпт? :) Может совсем пиздато будет?

Ща посравниваю, уговорил.

Аноним 29/04/24 Пнд 12:15:38 #25 №721502

>>721461
Нормальная ллама3 ебет, уже проверенно на онлайн версиях, даже 8б адекватно отвечает. Просто у Жорика говнокод, поэтому ждем исправлений, а вообще конечно лучше бы уже новые кванты запилили.

Аноним 29/04/24 Пнд 12:22:02 #26 №721506

>>721502
Которую неделю ждем уже!
Че там с экслламой, пофиксили ее хотя бы? Или тоже собирать данные из постов анонов из прошлого треда?

На какой модели я могу почувствовать всю мощь лламы 8 щас?

Аноним 29/04/24 Пнд 12:31:37 #27 №721513

>>721506
> На какой модели я могу почувствовать всю мощь лламы 8 щас?
EXL2 в 6.0bpw. У Жоры токенизатор сломан, у питонистов устаревшие говнокванты от GPTQ.

Аноним 29/04/24 Пнд 12:50:58 #28 №721529

firefoxc7l7MtoETc.png

Аноним 29/04/24 Пнд 13:04:30 #29 №721546

>>721529
Я уже exllama ставлю, Жорик доверие потерял.

Аноним 29/04/24 Пнд 13:11:29 #30 №721558

Аноним 29/04/24 Пнд 13:23:03 #31 №721571

>>721506

Экслама работает, настройки и конфиги в прошлом треде выложены.

Аноним 29/04/24 Пнд 13:24:46 #32 №721574

12th Gen Intel(R) Core(TM) i9-12900HK 2.90 GHz
NVIDIA GeForce RTX 3080 Ti 16gb
озу 32
лама 70b пойдет? если нет, то может взять озу на 64 или еще больше брать?

Аноним 29/04/24 Пнд 13:32:54 #33 №721578

>>721574
Должна ddr5 если так совсем хорошо

Аноним 29/04/24 Пнд 13:35:42 #34 №721582

>>721574
Лучше взять вторую видюху в прошлом треде пии сали про P40 за 20 тысяч 24 гигабайта видео памяти. Там охлад кастомный

Аноним 29/04/24 Пнд 13:42:40 #35 №721591

>>721502
По моим наблюдениям все тюнинги лламы 3 работают неровно. В одних задачах прямо вызывают восторг и желание сразу же сделать эту модель своей фавориткой. А потом оказывается, что в другой задаче хуже некуда, причем никакие манипуляции с настройками это не лечат.

Аноним 29/04/24 Пнд 13:43:53 #36 №721593

>>721574
> RTX 3080 Ti 16gb
Это что за зверь?

Аноним 29/04/24 Пнд 13:53:51 #37 №721605

>>721275 (OP)
>http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
По ссылке больше ничего не отображается. Похоже автор пилит другой рейтинг тут: https://ayumi.m8geil.de/erp4_chatlogs/index.html

Аноним 29/04/24 Пнд 14:00:45 #38 №721608

>>721529
https://github.com/ggerganov/llama.cpp/pull/6965#issuecomment-2082418704
>Seems like your custom llama-3 implementation is correct, because the tests are passing. Good job
>Let's merge this after we merge #6920 later today
дождались блять

Аноним 29/04/24 Пнд 14:11:41 #39 №721616

>>721608
Ну, еще не дождались
И это только один косяк который заметили, думаю найдут и еще что то

Аноним 29/04/24 Пнд 14:11:54 #40 №721618

>>721608
Гениально.

Аноним 29/04/24 Пнд 14:15:02 #41 №721621

>>721618
Выглядит как невероятно замороченный костыль
А че с токенизатором не так то? Почему не пользоваться оригинальным механизмом?

Аноним 29/04/24 Пнд 14:51:42 #42 №721638

>>721513
А в 8.0 нет? =(

>>721571
Я ж грил, без них нет готовой? Ну шо за дичь у квантовиков, им настока похуй…

>>721574
Ну так, ку4_к_м влезет в сумме впритычок, но лучше добрать.
Скока можешь, стока и добрать.

>>721605
Ну, вторую ссылку можно было не давать. =D

Аноним 29/04/24 Пнд 15:00:26 #43 №721642

Чет я не осилил вашу exllamу поставить, какой-то пиздец анакода просто не компилит среду хоть усрись. Почему блять ебанаты не осилили докер?

> https://github.com/vllm-project/vllm
Алсо, а вот это кто-то пробовал? Годные кванты?

Аноним 29/04/24 Пнд 15:28:30 #44 №721660

Есть какой-то пул вопросов по которым тестят ЛЛМ?

Аноним 29/04/24 Пнд 15:44:07 #45 №721672

>>721471
Я иногда начинаю переводить посты анонов с русского на русский, или писать текста в переводчик.
>>721506
>Которую неделю ждем уже!
Вторую? Прям насыщенные дни были, треда катятся каждые 2 дня, едва успеваешь читать.
>>721621
>Почему не пользоваться оригинальным механизмом?
Он не на ссях.
>>721660
Конечно. Было где-то тредов 10 назад, ищи по строке с петухами и собаками.

Аноним 29/04/24 Пнд 16:02:13 #46 №721685

>>721642
Ну ало нахуй, вы отвечать будете? Или тут нихуя кроме кобальда не знают?

Аноним 29/04/24 Пнд 16:04:32 #47 №721689

>>721685
На что отвечать? По екслламе ты никаких сведений не предоставил, по второй хуёвине ты первый в треде написал. Не бурчи, а показывай, что у тебя там не встаёт.
докер зло

Аноним 29/04/24 Пнд 16:44:36 #48 №721705

>>721685
https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
Попробуй файнтюне 3 лламы

Аноним 29/04/24 Пнд 17:07:40 #49 №721712

>>721689
> докер зло
От тебя советов не жду, дебил.

>>721705
> GGUF
Чел..

Аноним 29/04/24 Пнд 17:18:42 #50 №721714

>>721608
это свершилось
https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2082839938

Аноним 29/04/24 Пнд 17:22:35 #51 №721717

>>721712
ставит докер называет дебилом другого

>>721714
че, даже работает?

Аноним 29/04/24 Пнд 17:28:14 #52 №721719

>>721717
пока не проверял, у llama.cpp теперь есть bpe-токенайзер так что всё должно работать.

Аноним 29/04/24 Пнд 17:31:44 #53 №721722

>>721672
Эт да, на самом деле, не так долго.

>>721714
А теперь ждем кобольды-убы-олламы-итд.

Аноним 29/04/24 Пнд 17:44:56 #54 №721727

>>721722
главное что бы кванты не пришлось перекачивать

Аноним 29/04/24 Пнд 17:47:02 #55 №721730

>>721727
Придется.

Аноним 29/04/24 Пнд 17:57:49 #56 №721736

>>721712
> GGUF
>Чел..
Нормально вроде общались

Аноним 29/04/24 Пнд 18:13:34 #57 №721745

>>721730
это уже третий раз? или четвертый?

Аноним 29/04/24 Пнд 18:19:20 #58 №721757

>>721275 (OP)
А для чего вы вообще ещё используете ЛЛМки, кроме куминга, ролеплея и кодоассиста? Может есть какие-то более нестандартные применения?

Аноним 29/04/24 Пнд 18:27:31 #59 №721766

>>721757
Применений масса - все что связанно с текстом. Редактирование, перевод, компиляция, анализ итд.

Аноним 29/04/24 Пнд 18:29:50 #60 №721775

Как проверить накатили фикс на угубугу? для ламы3

Аноним 29/04/24 Пнд 18:29:50 #61 №721776

file.png

>>721730
тяжелооо...

Аноним 29/04/24 Пнд 18:32:02 #62 №721777

>>721757
перевод хорош, да и вобще возможность работы с любы текстом локально без инета тоже хорошо

Аноним 29/04/24 Пнд 18:33:32 #63 №721779

>>721775
Для начала перекачай квант на свежий, потом спрашивай >>721307

Аноним 29/04/24 Пнд 18:46:13 #64 №721785

>>721776
> For proper llama3 support, you may pass --override-kv tokenizer.ggml.pre=str:llama3 to main or server without generating a new gguf file.
Но лучше перекачать.

Аноним 29/04/24 Пнд 18:50:30 #65 №721787

Ну че где кванты новые качать

Аноним 29/04/24 Пнд 18:58:22 #66 №721802

>>721745
Я после первого не перекачивал, жду, когда пофиксят.

Аноним 29/04/24 Пнд 19:08:27 #67 №721813

>>721484
коммандер не нашло. лламу нашло.

по железу у меня 5800х3д, 3070,64гб может со спеками железа будет легче подсказать. хотелось бы что бы генерело еще чуть по быстрее

Аноним 29/04/24 Пнд 19:11:03 #68 №721814

>>721813
https://huggingface.co/models?sort=trending&search=command
Их 2 версии, один на 35b другой на 105b

Аноним 29/04/24 Пнд 19:18:28 #69 №721818

>>721471
>>721672
Но ведь сразу же бросается в глаза, когда текст написан человеком, а не нейронкой.

Аноним 29/04/24 Пнд 19:20:13 #70 №721820

>>721785
Там матрицы важности могли ещё по пизде пойти, если токенизатор вгонял говняк. Так что переквантовывать обязательно надо.

Аноним 29/04/24 Пнд 19:25:07 #71 №721827

новые кванты
https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/tree/main

Аноним 29/04/24 Пнд 19:55:14 #72 №721850

>>721820
токенизатор сломан

Аноним 29/04/24 Пнд 19:57:48 #73 №721852

Че происходит объясните

Аноним 29/04/24 Пнд 19:59:49 #74 №721854

>>721827
Попробовал запустить на кобольде. 3333+777 не считает, да еще и ассистентом срет.

Аноним 29/04/24 Пнд 20:04:23 #75 №721857

>>721854
Да блять... Короче в пизду этого Жору ебаного, надо переходить на что-то другое.

Аноним 29/04/24 Пнд 20:05:59 #76 №721859

>>721854
Так кобольд ещё не обновился с этим фиксом.

Аноним 29/04/24 Пнд 20:07:47 #77 №721861

firefoxdEpqbb7aPA.png

firefoxm0ibHyb0Qq.png

>>721854
bartowski поторопился (обнова llama.cpp 13 минут назад а его кванты уже час висят), и lostruins чёто мутит там на experimental ветке.

Аноним 29/04/24 Пнд 20:17:52 #78 №721869

Если пользуешься RAG, то похуй на контекст модели? Или лучше побольше? Требуется провести работу с несколькими документами, общий размер примерно 30-40к токенов.

Аноним 29/04/24 Пнд 20:33:14 #79 №721872

>>721869
Смотря что за документы, и сколько нужно строк из них для того, чтобы сделать задачу.

Аноним 29/04/24 Пнд 20:46:02 #80 №721878

Какой же бартовский долбаеб сука, ну что за инвалидское комьюнити нахуй дегенератов васянов сброище, Я ПРОСТО ХОЧУ ПОГОНЯТЬ МОДЕЛЬ, КОТОРУ РЕЛИЗНУЛИ НАХУЙ МЕСЯЦ НАЗАД.

Аноним 29/04/24 Пнд 20:59:34 #81 №721883

>>721878
Гоняй на чистых трансформерах кодом из стандартного репозитория меты, они месяц как работают. Ах да, нужна A100 80GB. Нету? Ну тогда страдай, хули ты хотел.
С первой лламой тоже много веселья было по началу. Эх, я ведь её даже в кобольде запускал (который не cpp если что).

Аноним 29/04/24 Пнд 21:04:44 #82 №721886

>>721878
>Я ПРОСТО ХОЧУ
Возьми и сделай сам.

Аноним 29/04/24 Пнд 21:12:20 #83 №721892

>>721869
Смотря как работает RAG и какие запросы. Обычно тащится не более 3к токенов (в среднем куда меньше) информации плюс твой запрос - 8к должно на все хватать.
>>721878
> Я ПРОСТО ХОЧУ
Для любого хочу нужно иметь средства. Видеокарты купил? Тогда терпи.

Аноним 29/04/24 Пнд 21:14:14 #84 №721893

>>721878
8b легко квантуется на некропеке.

Аноним 29/04/24 Пнд 21:16:46 #85 №721894

>>721814
и что из этого качать анонче?

Аноним 29/04/24 Пнд 21:29:11 #86 №721911

>>721894
Кидай монетку.

Аноним 29/04/24 Пнд 21:36:49 #87 №721926

>>721911
ну сейчас качну первое потыкаю немного отпишу шо как. спасибо за помощь анонче

Аноним 29/04/24 Пнд 21:38:12 #88 №721929

>>721926
качай вначале 4км, потом посмотришь хватит тебе памяти или нет
эта штука очень много памяти для контекста жрет

Аноним 29/04/24 Пнд 21:38:38 #89 №721930

А я чего-то не понимаю?
Почему в последние полгода мало стало EXL2?
Появился более интересный варик?

Аноним 29/04/24 Пнд 21:45:04 #90 №721935

>>721930
Почему мало? Все на месте. Она довольно редко ломается и не нужно делать по 50 версий на каждый коммит Жоры. Также многие квантуют самостоятельно под свой размер и на желаемом датасете.
> Появился более интересный варик?
Нет.

Аноним 29/04/24 Пнд 21:49:56 #91 №721944

>>721935
A AWQ?
Или он по размеру больше?

Аноним 29/04/24 Пнд 22:01:34 #92 №721966

>>721929
скачал обе попробовал они тупо не запускаются. выбираю в кобальде оно пытается запустить и просто схлопываеться.
на счет памяти у меня 64гб ддр4 так что думаю запас есть
есть еще какие то варианты или рекомендации что можно скачать пощупать?

Аноним 29/04/24 Пнд 22:04:41 #93 №721977

>>721944
Да как-то не взлетел и не сыскал популярности. Нет гибкости, с лаунчерами грустно, уступает ггуфу по доступности и совместимости, уступает exl2 по скорости и эффективности.
>>721966
> рекомендации
Запустить кобольда из консоли чтобы увидеть с какой ошибкой он вылетает.

Аноним 29/04/24 Пнд 22:06:41 #94 №721979

>>721977
а можно простенькую инструкцию как это сделать? а то я совсем хомяк в этом плане

Аноним 29/04/24 Пнд 22:14:28 #95 №721995

>>721813
command r 35b

С 64 гигами можно и miqu https://huggingface.co/miqudev/miqu-1-70b , но медленно будет.

>>721818
Нет. Все зависит от промпта и примера, к примеру.
Ну и подправить руками немного можно.

>>721854
Это под новую лламу.цпп, кобольд уже релизнули новую версию?

>>721861
Ну, не то чтобы поторопился, почему бы и нет. =) Молодец. Лишь бы еще раз переквантовал.

>>721869
Контекст сам по себе никогда не помешает.
В 2К ты ни с каким раг не сунешь толком нужное.

>>721883
Коммандер тоже работал первые дни, потом на пару недель откатили. =) Щито поделать-десу.

>>721935
И не выкладывает, пидоры. =)

>>721979
Командная строка.
Заходишь в папку, где лежит кобольд.
./koboldcpp.exe

Вроде так.

Аноним 29/04/24 Пнд 22:17:46 #96 №721999

>>721995
я обновил кобольд у меня стояла версия 1.50 вроде а сечас поставил новую и оно завелось но вот качество текста чет пиздец (пик один)
ну и время генерации тоже я ибу 130 секунд блядь. можно что то менее косноязычное и чуть более шустрое
пик 2 название модели

Аноним 29/04/24 Пнд 22:18:45 #97 №722002

Анончики, решил вместо кобальда попробовать text-generation-webui, так на тех же настройках, те же самые модели, стали прямо заметно лучше отвечать и сочинять. Что за хуйня? Ведь должно быть одно и тоже?

Аноним 29/04/24 Пнд 22:24:59 #98 №722007

>>721999
Ваще, за кобольд не шарю.
А, ну и, у меня коммандер q6, мне показалось, там лучше.
Но быстрее не выйдет. Быстрее — меньше модель.
Подожди, пока выпустят новые кванты + новые версии.

>>722002
Кобольдопроблемы!..
Сижу на убабуге, настраиваю все сам.
Но и там не идеально, таверна даст получше резалт, вроде.

Поэтому совет обоим — ставим таверну, настраиваем карточку там, должны быть получше.

Аноним 29/04/24 Пнд 22:26:04 #99 №722010

>>721999
Нихуя. А какая у тебя система там. Видюха, проц, сколько памяти?

Аноним 29/04/24 Пнд 22:26:41 #100 №722012

>>722007
таверну ставил но чет захлебнулся и вышла какая та залупа и генерил он как то криво в итоге ушел на кобольд обратно

Аноним 29/04/24 Пнд 22:27:06 #101 №722013

>>722010
>>721813

Аноним 29/04/24 Пнд 22:28:12 #102 №722014

>>722007
Таверна это чисто морда для кобольда или убы. Если в таверну придётся результат уровня 10+9=109, то чуда не случится. Так что полезность таверны под вопросом.

Аноним 29/04/24 Пнд 22:50:46 #103 №722032

Избалован я кобольдомспп. Вообще никаких проблем при соединении СиллиТаверн, даже с другого компьютера. А в Убабуге разбираться надо. Вот порт 5000 для неё пробросил, теперь гадаю, как стриминг вывода включить. Кто знает - расскажите.

Аноним 29/04/24 Пнд 22:50:59 #104 №722033

>>721911
завел и потыкал обе результат честно сказать так себе. оно ксноязычны и долго генерят. есть ишо варианты?

Аноним 29/04/24 Пнд 22:53:28 #105 №722035

>>722032
> разбираться надо
Добавить
> --api
в CMD_FLAGS.txt
Все остальное по умолчанию идет, таверна свои настройки запрашивает.

Аноним 29/04/24 Пнд 23:08:10 #106 №722042

>>721999
Тебе именно на русском что ли надо генерить?

Аноним 29/04/24 Пнд 23:08:11 #107 №722043

>>722035
>Все остальное по умолчанию идет, таверна свои настройки запрашивает.
Да всё работает, сгенерированный текст выводится, но одним куском. А хотелось бы стриминга, чтобы потокенно. Может и в Таверне где-то покрутить надо, я хз. Или эндпойнт особый.

Аноним 29/04/24 Пнд 23:10:16 #108 №722044

https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

>>722043
>Может и в Таверне где-то покрутить надо
Да, действительно, как же может называться эта настройка?

Аноним 29/04/24 Пнд 23:22:15 #109 №722050

>>722044
Эврика, как говорил Архимед. Нашёл.

Аноним 29/04/24 Пнд 23:23:31 #110 №722051

>>722042
бля не. я юзаю переводчик в хроме но на млевде оно норм переводит. тут я думаю проблема в самой модели.
хотя варик с русским интересен

Аноним 29/04/24 Пнд 23:30:49 #111 №722054

Аноним 29/04/24 Пнд 23:34:41 #112 №722056

>>722014
Нет. Внимательнее к матчасти.
И уба, и кобольд, и таверна подают свои промпты. В Таверне очень удобно настраивать промпт и он без всяких танцев с бубнами виден в консоли.
Кобольд я хз че там пихает вообще, и что там с карточками не ебу.
Уба между ними — вроде настраивается, конечно, но не настолько детально как хотелось бы. Неинтуитивно нихуя, в отличие от таверны.

Я крайне сомневаюсь, что люди, у которых в кобольде хуевые резулты, идеально и посимвольно настроили свои промпты, так, как им нужно с учетом всех системных токенов.
Из коробки оно, очевидно, обосралось.

Так что, лишний раз покопаться с промптом — прямой путь к улучшению результата.

Напомню, что у меня 3333+777 и прочие задачи ллама прекрасно решает, хотя у других когда как и шизит. А почему? А потому что я промпт и семплеры спиздил у чела из треда, и даже кривую и поломанную лламу они кое-как да чинят.

Аноним 29/04/24 Пнд 23:37:14 #113 №722057

>>722054
>1 миллион токенов контекст
Даже не знаю, радоваться ли этому.

[mailto:sage] Аноним 29/04/24 Пнд 23:37:15 #114 №722058

>>722056
уговорил, как установить таверну?

Аноним 29/04/24 Пнд 23:39:02 #115 №722059

>>722054
Я уже седня это в телеге писал и тут спрошу — а пихать куда этот контекст будете? А ждать недельку обработки норм?
Ну так. =)
Если у нас хотя бы 1к токенов — 500 мб (чи скока там), 50к токенов — уже 25 гигов (на самом деле, нет). А на оперативе промпт обрабатывается не быстро.
Поэтому, иметь условно 64~128 — база.
А вот 1М+ — это уже корпоратам, у которых есть риги из 16 80-гиговых A100 («стареньких»), и им лишний терабайт видеопамяти позволяет кое-как утилизировать это окошко контекстика.

Попробуйте тупо в мистрали 32к контекста врубить и закинуть туда ~20к токенов контекста. И расскажите, когда он у вас «дочитает». Я не про понимание текста, я про сам факт, сколько времени на это уйдет.

Аноним 29/04/24 Пнд 23:40:55 #116 №722061

>>722058
Я ставил год назад, с тех пор тока апдейтил, та хуй его знает, как она щас ставится. ^_^'

https://github.com/SillyTavern/SillyTavern?tab=readme-ov-file#-windows отсюда и ниже, несколько вариантов.

Аноним 29/04/24 Пнд 23:41:06 #117 №722062

>>722051
>тут я думаю проблема в самой модели
Ну хуй знает, коммандер как по мне хорош, никакой кривизны на инглише не замечал. На русском он тоже может, но шизовато. Использую модель command-r-v01-imat-Q5_K_M.gguf через таверну, настройки дефолтные.

Аноним 29/04/24 Пнд 23:41:29 #118 №722063

>>722014
>полезность таверны под вопросом
Для RP, под который она заточена - полезность уровня мастхэв. Карточки, модульные промпты, регэкспы, три миллиона всякой вспомогательной хуйни.

Аноним 29/04/24 Пнд 23:43:35 #119 №722064

>>722056
>3333+777 и прочие задачи ллама прекрасно решает
В убе отлично решает с промптом типа "ты ии. ты помогаешь" и абсолютно рандомным семплером. Если таверна так не может, то таверна кал.

Аноним 29/04/24 Пнд 23:55:19 #120 №722068

>>722064
Причем тут таверна-то?
Речь про кобольда, что он нихуя че-то не может. =)
При этом, я его не осуждаю, но он простенький для попробовать.

Аноним 29/04/24 Пнд 23:58:42 #121 №722072

>>722068
Кобольд поверх ггуф, а они же все поломанные на третьей лламе. Так что не удивительно, что шизит.

Аноним 30/04/24 Втр 00:07:41 #122 №722075

>>722062
можно ссылку на модель попытался загуглить но их там слишком дохуя

Аноним 30/04/24 Втр 00:12:06 #123 №722076

>>722075
https://huggingface.co/qwp4w3hyb/c4ai-command-r-v01-iMat-GGUF/blob/main/c4ai-command-r-v01-imat-Q5_K_M.gguf

Аноним 30/04/24 Втр 01:59:09 #124 №722120

>>722076
у тебя шо по железу? и насколько важно наличие таверны. выще писал что ставил ее но через нее он срыгивала вообще косноязычную хуету и по итогу я удали и вернулся на кобольд

Аноним 30/04/24 Втр 02:38:32 #125 №722133

>>722120
32 Гб RAM, 4070 с 16 Гб и проц i5 13600k. Генерится со скоростью 1.5 т/с, контекст ставлю 8к.
>насколько важно наличие таверны
Таверна не важна, но с ней просто удобнее имхо, чем в голом кобольде. Если с ней что-то криво генерирует, значит дело в настройках. У меня вот всё норм.

Аноним 30/04/24 Втр 02:44:14 #126 №722134

Чет я подумал короче и получается что вся вот эта херня с метой и опенсорсом по сути пошла из-за того что рандомхуй с форчана слил веса собсна на форчан и зак под копиумом решил такой "Нееет, это не плохо что веса слили!!!1!!1 Неправда! Более того это нам выгодно!!!1 Поняли нах сынки??" и со второй ламы самостоятельно контрибтютит в опенсорс. Буквально ничего кроме лабф у опенсорса то и нет. Ща бы сидели на gpt-j и дальше и сосали бибу. По факту если опенсоурс сможет в AGI то это все из-за одного хуя с форчяна.

Аноним 30/04/24 Втр 02:50:17 #127 №722135

Коллаб похоже опять перестал работать. Проблема как и в прошлый раз.

Аноним 30/04/24 Втр 02:54:42 #128 №722136

>>722135
Похоже скоро гугл окончательно свернет кум и придется накатить линукс, так на винде это кривые и косые танцы с бубном. Попробовал кобольд, переводчика встроенного нет, нихуя неудобно все.
Эх, а ведь я помню в первых тредах я брал интерфейс практически идентичный уге.

Аноним 30/04/24 Втр 03:36:16 #129 №722140

>>722133
а как контекст выставить?

Аноним 30/04/24 Втр 03:36:41 #130 №722141

>>722140
>>722133
в кобальде*

Аноним 30/04/24 Втр 04:33:53 #131 №722156

70б тоже получается переквантовывать. 8б уже проверил и считает 4777+333 нормально

Аноним 30/04/24 Втр 06:57:54 #132 №722182

17130641964810.jpg

>>722134
> рандомхуй с форчана слил веса собсна на форчан и зак под копиумом решил такой "Нееет, это не плохо что веса слили!!!1!!1 Неправда! Более того это нам выгодно!!!1 Поняли нах сынки??" и со второй ламы самостоятельно контрибтютит в опенсорс. Буквально ничего кроме лабф у опенсорса то и нет. Ща бы сидели на gpt-j и дальше и сосали бибу. По факту если опенсоурс сможет в AGI то это все из-за одного хуя с форчяна.
Считаешь, этому неизвестному соевику нужно пикрил памятник при жизни поставить?

Аноним 30/04/24 Втр 07:02:02 #133 №722183

>>722134
Хуйня, рептилоид бы и так выкинул веса. Просто ссал сначала, он же литералли Гитлер, которого в сенате песочили.

Аноним 30/04/24 Втр 07:02:53 #134 №722184

>>722134
>>722183
Алсо, это не рандомхуй с фочана, он слил на фочан. Биг дифференс. Все сливы идут туда всегда

Аноним 30/04/24 Втр 09:34:30 #135 №722233

>>721827
Ок, запустил, даже не срёт асистами и не шизит, но резальт этой модели какой-то сухой. Ну генерит текст, но прям вообще ничем не выделяется от основной массы. Я что-то не так делаю?

Аноним 30/04/24 Втр 09:42:53 #136 №722235

>>722233
Какой квант?

Аноним 30/04/24 Втр 09:43:09 #137 №722236

>>721878
Эх ну зачем ругаться, https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix попробуй и отпишись

Аноним 30/04/24 Втр 10:13:46 #138 №722243

>>722236
я другой анон если что. там в описание написано юзать таверну. а что если ставить ее в падлу? (я ставил ее но не понял прикол и снес к хуям учитывая что результат был хуже чем просто с кобольдом)

Аноним 30/04/24 Втр 10:17:11 #139 №722245

Аноним 30/04/24 Втр 11:34:13 #140 №722298

>>722243
>написано юзать таверну. а что если ставить ее в падлу?
Таверна (Silly Tavern) развивается уже довольно давно. И по сравнению с первыми версиями достигла определённой степени совершенства - как вторая Ллама по сравнению с первой например. Люди даром времени не теряли. А ты, анон, отказываясь от такого удобного инструмента наоборот его теряешь.

Аноним 30/04/24 Втр 11:37:43 #141 №722302

gpt5.png

>>722245
gpt2-chatbot на lmsys лучше лламы 70б справляется с алгеброй.

Аноним 30/04/24 Втр 12:28:22 #142 №722337

>>722401
https://huggingface.co/lmstudio-community/Meta-Llama-3-8B-Instruct-GGUF/

>>722140

Аноним 30/04/24 Втр 13:14:18 #143 №722351

>>722298
Я за последние годы понял, что нахуй не надо уговаривать людей. Не хотят разбираться в крутой штуке и использовать ее — фиг с ними, от них ни холодно, ни жарко.

Как меня спрашивают «а что ваши ллм умеют, они ничего не умеют!» и как-то нафиг мне ему объяснять, что они умеют? Пока он ими не пользуется — у меня выше цена на рынке, а он пусть сосет хуй, если хочет.

>>722243
Не тебе, не восприми буквально последнюю фразу.

Но просто к тому, что лишний раз не стоит уговаривать людей, не хотят — ну и не надо. =)

>>722302
Ну, выкатили и выкатили новую чатгопоту, логично, что она лучше.
Не имеет значения:
1. Еще не АГИ, и не САИ (не общий и не сильный).
2. Не опен модель.

Аноним 30/04/24 Втр 14:15:57 #144 №722382

Платина уже наверное, но как отучить модель разговаривать с самой собой?

Аноним 30/04/24 Втр 14:16:17 #145 №722383

>>722134
Мета раздавали веса каждому первому студенту (мне не дали), так что они должны были понимать, что веса сольют.
>>722233
Карточку нормальную брал, или ты от ассистента ждёшь покачивания бёдрами (или что там кумеры любят).
>>722302
Не опенсорс, игнорируем.

Аноним 30/04/24 Втр 14:22:54 #146 №722388

>>722382
В общем-то никак, это их свойство. А так всегда есть стоп токены, если она выдаёт после ответа "User: продолжение банкета", то всегда можно внести User: в стоп фразы.

Аноним 30/04/24 Втр 14:44:46 #147 №722401

Кто-нибудь знает где взять како-то хуев BpeVocab, если его нет в файлах лламы-3, там токенизатор json какой-то.
Вот поледняя ллламацпп (релиз 3 мин назад):
TypeError: Llama 3 must be converted with BpeVocab
Или где добыть нормально квантованный ллама-3 в ггуф на 8 бит? Только не показывайте репозитории уебанов и ебланов с HF у которых ггуфы кривые и косые как они сами. Там есть всего пара челиков с прямыми квантами и это не бартовский увы сразу говорю.

Аноним 30/04/24 Втр 14:46:55 #148 №722402

Аноним 30/04/24 Втр 15:31:00 #149 №722422

>>722402
GGUF quantization: provided by bartowski based on llama.cpp PR 6745
Проверял сам то? а то с прошлой недели комит и бартовский и лм студио...
Проблема конвертации том что ггуф не обновлялся полгода оказывается. а как его присобачить новый помимо пип хуй знает, я не настолько продвинут да мне оно и в хуй не уперлось пердолитсся

Аноним 30/04/24 Втр 15:42:49 #150 №722432

>>722422

Чет нихуя не пойму, раньше в моделькарде было указано что она была квантована b2764 кажется, сейчас найти не могу это. Ну у меня решило 4777+333 правильно.

Аноним 30/04/24 Втр 15:49:47 #151 №722438

>>722432
>Чет нихуя не пойму
Просто ты тупой. Они откатили этот коммит.

Аноним 30/04/24 Втр 16:00:13 #152 №722444

>>722438
Ну значит соси хуй теперь или сам квантуй.

Аноним 30/04/24 Втр 16:02:12 #153 №722447

>>722401
>TypeError: Llama 3 must be converted with BpeVocab
он кидает эту ошибку потому что жора брал хеши последних токенизаторов, а у тебя старый, перекачай новый и заработает конвертация.

Аноним 30/04/24 Втр 16:09:45 #154 №722451

>>722447
я бы сделал если бы понял хоть слово. какие хэши? каких токенизаторов? токенизатор в питон пакете гуф, питон пакет надо поставить не из пип а из его репы гуф-пай. как - ну это я не знаю там ни whl ни сетап пай нет. если это не так а ты знаешь как надо то объясни нормально, а то хэши это в асиках. тут какие хэши мне непонятно. а уж хэши токенизаторов еще и последних это вообще что такое?

Аноним 30/04/24 Втр 16:11:20 #155 №722452

>>722432
>Ну у меня решило 4777+333 правильно.
А у меня нет, как нес ахинею про:

33,333 + 7,777 = 41,110

Так и несёт.

Аноним 30/04/24 Втр 16:11:54 #156 №722454

Бля какая ж ллама 3 проблемная вышла, ни запустить ее нормально, ни квантануть, ни дообучить
Даже файнтюнов ведь нету которые лучше инструкт версии

Аноним 30/04/24 Втр 16:16:08 #157 №722456

>>722454
Теория заговора: А ты думал, попенсорс движение сворачивают вот такими вот моделями, которые невозможно дообучить.

Аноним 30/04/24 Втр 16:18:54 #158 №722457

Аноним 30/04/24 Втр 16:21:30 #159 №722461

Аноны, есть ссылки на датасет с качественными порно диалогами на русском? Хочу попробовать новую лламу зафайнтюнить

Аноним 30/04/24 Втр 16:29:43 #160 №722466

>>722461
Нету, только английский.

Аноним 30/04/24 Втр 16:35:52 #161 №722473

Смех Джокера. Хоакин Феникс.mp4

>>722402
Ух умёёёён! Ух малацы!

Аноним 30/04/24 Втр 16:39:12 #162 №722482

>>722451
хэш-сумма токенизатора.
тебе нужно запускать convert-hf-to-gguf для конвертации лламы3 в ггуф, это во первых, во вторых у тебя должен быть скачать новый токенизатор из репозитория лламы, который был обновлен 6 дней назад, тогда все заработает.

Аноним 30/04/24 Втр 16:40:05 #163 №722483 DELETED

>>722473
> Комплекс Электры
От того же Автора, что и Эдипов комплекс, про то, что все мальчики боятся что их отцы их кастрируют? Неудивительно что лженауке не разбирается

Аноним 30/04/24 Втр 16:42:06 #164 №722485 DELETED

>>722483
нет блять, про то что все дети подсознательно бояться что их током из розетки ударит. загугли хотя бы перед тем как такое писать вообще

Аноним 30/04/24 Втр 16:43:13 #165 №722488 DELETED

>>722483
>про то, что все мальчики боятся что их отцы их кастрируют
Чё?

Аноним 30/04/24 Втр 16:44:03 #166 №722490

Вангую никто новые кванты уже выкладывать и заливать в репозитории не будет. Мол ебитесь сами. Ахуенное просто комьюнити дебилов.

Аноним 30/04/24 Втр 16:47:34 #167 №722493

Блин, это наверное очень частый вопрос, но посоветуйте что скачать (желательно без сленга, ибо я тупой, в идеале сразу ссылку) для куминга? (для написания историй на англ языке в идеале) есть модели которые конкретно заточены под это? я думаю они явно будут лучше справляться чем просто дефолтную скачать?

Аноним 30/04/24 Втр 16:48:49 #168 №722494 DELETED

>>722488
Окей, перепутал с комплексом кастрации. Всё равно Фрейд дурак

Аноним 30/04/24 Втр 16:49:31 #169 №722495 DELETED

>>722488
Просто местный потешный еблан с интеллектом ниже Llama-3-8B-Instruct-IQ3_M, не обращай внимания

Аноним 30/04/24 Втр 16:55:06 #170 №722497

>>722490
Выложат, когда тряска прекратится. Вполне возможно, что сейчас ещё немного потрясёт. Приходи через неделю.
>>722493
Чем тебя модель в шапке не устраивает?

Аноним 30/04/24 Втр 16:58:48 #171 №722499

>>722482
Ебаать, так это я никогда не скачаю. Этот трансформер качал у нойс, у меня реп ламы-3 закрыт и даже запрос не стану посылать, мне на ламу 2 открыли когда уже я и забыл про это наверно месяц-два назад. я и ту то качал с другого места. Словом совершив круг возвращаемся к первому вопросу где взять ебаный токенизатор бпе?

Аноним 30/04/24 Втр 17:00:14 #172 №722500

>>722497
Качаю квант лмстудио, если эта хуйня не решит 3333+777, то я оплачиваю подписку на опус и ливаю нахуй из этого помойного треда.

Аноним 30/04/24 Втр 17:02:40 #173 №722502

>>722500
Гвоздиками дорога.

Аноним 30/04/24 Втр 17:04:42 #174 №722503

хотя я решил поступить проще - нахер мне гуф для 8б - потянет exl2 в 8bpw если будет нехватать то уж 6bpw 100% без проблем. С другой стороны они их квантуют на вики тексте что не есть хорошо, ибо это английская матрица, а хочу общаться на русском - на некорявом русском ну то есть как с командиром. Только с командиром медленно - а так бы накуй эта лама-3 была не нужна

Аноним 30/04/24 Втр 17:08:03 #175 №722505

>>722499
там доступ открывают за минут 15, если ты свои данные оставишь. к чему вопрос про токенизатор? я тебе уже объяснил, что ты во первых запускаешь не тот скрипт. во вторых ты должен скачать файл токенизатора обновленный, чтобы у тебя скрипт из-за неправильного хэша не падал. если ты не шаришь или тебе лениво, зачем тебе это все? жди пока рабочие кванты выпустят. так или иначе если ты там все это дело хочешь из под кобольда запускать, оно не заработает в данный момент, потому что код лламыцпп не обновлен в нём.

Аноним 30/04/24 Втр 17:11:14 #176 №722506

Да куда торопиться, и так есть неплохие модели, не проще ли зачиллить, подождать норм версии, а не юзать каждый новый вышедший квант, дождаться, и уже пользоваться готовым…
Че истерите-то…

Аноним 30/04/24 Втр 17:11:58 #177 №722507

>>722505
>там доступ открывают за минут 15, если ты свои данные оставишь
Ага, щаз. Не та страна происхождения.

Аноним 30/04/24 Втр 17:12:25 #178 №722508

>>722461
возьми в карточке у сачка, както там солнечный или еще как-то и переведи на рус. А так среди датасетов есть штук 5 находил, свали все в один, дедуплицируй и переведи. я так делал но не переводил, и мне не понравилось. недавно еще вывалили большой датасет с рп на русском - переведенный, вобщем там рыться надо но найти можно.

Аноним 30/04/24 Втр 17:15:30 #179 №722509

01.png

>>722507
ты просто траллируешь, да?

Аноним 30/04/24 Втр 17:16:28 #180 №722510

>>722461
https://huggingface.co/datasets/Himitsui/Lewd-Assistant-v1
вот у этого еще куча, но эти надо дедуплицировать:
https://huggingface.co/ResplendentAI
ну и нужно переводить.

Аноним 30/04/24 Втр 17:18:02 #181 №722512

>>722509
Что тралирую? Мне отказали, и всё, теперь мой институт кумминга остался без доступа к ллама 3.

Аноним 30/04/24 Втр 17:21:17 #182 №722515

>>722505
ну, я уже скачал exl2

Аноним 30/04/24 Втр 17:23:55 #183 №722517

>>722461
могу скинуть нашу переписку с твоей мамкой

Аноним 30/04/24 Втр 17:25:26 #184 №722519

>>722512
Мне тоже отказали.
Я скачал в другом месте:
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct

Аноним 30/04/24 Втр 17:32:19 #185 №722520

>>722519
ага, тут обновлен токенайзер 10 часов назад. ну я перекачал все обновления ибо у меня лама тоже отсюда, и хули: TypeError: Llama 3 must be converted with BpeVocab
Так что тот чувак который про токенайзер тут говорил - сам не прав, а прав я - надо пакет гуф-пай устанавливать от жоры с репы, а пиповский удалять - и это не я придумал, а как раз прочитал в комите который упоминался выше. но мне уже неактуально, у меня и так на exl2 отлично работает.

Аноним 30/04/24 Втр 17:35:56 #186 №722523

>>722520
У тебя совсем хлебушек в голове? Тебе же сказали запускать со скриптом convert-hf-to-gguf.py

Аноним 30/04/24 Втр 17:41:31 #187 №722527

image

Да ребята, все обновилось, качаем новые кванты!

Аноним 30/04/24 Втр 17:44:55 #188 №722529

Дайте бэкэнд с exllama2 который совместим с openai api, умоляю, заебали эти жорины кванты.

Аноним 30/04/24 Втр 17:51:34 #189 №722534

>>722527
Сделал квант из той, что по ссылке в >>722519, всё работает.

Аноним 30/04/24 Втр 17:52:36 #190 №722536

>>722534
Выкладывай.

Аноним 30/04/24 Втр 17:52:43 #191 №722537

>>722534
запусти через сервер и подрубись по апи, че страдаешь в командной строке

Аноним 30/04/24 Втр 17:52:54 #192 №722538

>>722523
ну не заметил. не хлебушек а просто пиздоглазие. Да всеравно уже хуй не стоит квантовать, в губабуге норм с эксламой и так

Аноним 30/04/24 Втр 17:58:04 #193 №722540

>>722536
Неа, могу лишь сказать, что я делал:
python -m venv env
source env/bin/activate
pip install sentencepiece numpy
python ./convert.py ~/storage/ml/llm/models/llama-3-8b-instruct/ --vocab-type bpe --outtype f16 --outfile ../llama-3-8b-instruct.f16.gguf
./quantize ../llama-3-8b-instruct.f16.gguf ../llama-3-8b-instruct-q4_k.gguf Q4_K_M 8

>>722537
Я не страдаю, в терминале удобно быстро запустить проверить.

Аноним 30/04/24 Втр 17:58:17 #194 №722541

>>722457
Ну и что ты мне скинул? Как мне это всё запускать? Куда кидать эту llama.dll? Что значит прога для общения по АПИ своя?
Нихуя не понятно.
Я всегда просто через kobold.ccp запускал gguf форматы и всё, а тут какая то хуета непонятная

Аноним 30/04/24 Втр 17:59:37 #195 №722543

>>722540
Блять чел залей для анонов, вот делать нам нехуй каждому квантовать.

Аноним 30/04/24 Втр 17:59:44 #196 №722544

>>722541
>kobold.ccp

Жди когда он обновится на новой Лламе.

Аноним 30/04/24 Втр 18:03:59 #197 №722547

>>722543
Сорри, пусть кто-нибудь другой заморачивается.

Аноним 30/04/24 Втр 18:04:20 #198 №722549

>>722473
>Когда скачал 3 квант момент

Аноним 30/04/24 Втр 18:04:27 #199 №722550

>>722544
>Жди когда он обновится на новой Лламе.

Ты о kobold.ccp? Так он и так обновился в день выхода ламы 3, там специальные преднастройки подсказок появились. Без них ллама 3 на пустое сообщение не продолжала писать историю, а писала пустоту, либо кваказябры.

Аноним 30/04/24 Втр 18:04:53 #200 №722551

>>722547
Вот ты тварь пиздец, скачивать модели по 30 гигов, квантовать, это тебе не впадлу, а залить квантованные 4 гига впадлу. Ну и пошел нахуй.

Аноним 30/04/24 Втр 18:16:53 #201 №722568

>>722551
Ты же там собирался покупать подписку у барина и уёбывать из коммьюнити дебилов-дегенератов. Почему всё ещё здесь?

Аноним 30/04/24 Втр 18:20:47 #202 №722571

>>722523
кстати не нужен этот скрипт, тем более что он квантует макс в f16. через конверт пай как обычно, только токенизатор указать и на выходе сразу 8 бит. моя ошибка была что не указывал токенайзер. ну я такой человек, с заебами

Аноним 30/04/24 Втр 18:21:06 #203 №722572

>>722473
Как ты ее заставил отвечать на русском? Мне пишет на инглише. Зато не до такой степени хуйню.

Аноним 30/04/24 Втр 18:26:28 #204 №722573

>>722550
Он использует форки лламыцпп, две недели назад еще был косяк с квантами на винде

Аноним 30/04/24 Втр 18:27:42 #205 №722578

>>722506
> Да куда торопиться, и так есть неплохие модели, не проще ли зачиллить, подождать норм версии, а не юзать каждый новый вышедший квант, дождаться, и уже пользоваться готовым…
> Че истерите-то…
Неплохие это какие?

Аноним 30/04/24 Втр 18:29:48 #206 №722581

>>722578
Moistral-11B-v3
На удивление приятна в роли обычного бота, даже как кум бота не запускал ни разу кроме теста
Неплохо по русски шпарит и умна, норм так

Аноним 30/04/24 Втр 18:29:49 #207 №722582

>>722540
Сколько на это требуется видеопамяти?

Аноним 30/04/24 Втр 18:33:06 #208 №722586

>>722581
Попробую. Обычно мистраль у меня вызывал самые негативные эмоции из-за ебейшей сои и полного игнора инструкций в угоду сои.

Аноним 30/04/24 Втр 18:36:18 #209 №722589

>>722571
Не уверен, что если ты его квантуешь обычным скриптом, который convert, оно будет работать корректно. Потому что конкретно в последнем коммите, который заливал жора - делал изменения только в файле convert-hf-to-gguf, где при конвертации вешается флаг для лламы, который потом в лламацпп подхватывается и определяется как llama-bpe.

Аноним 30/04/24 Втр 18:39:48 #210 №722591

>>722582
Всё на проце делалось, видеопамять не требуется.

Аноним 30/04/24 Втр 18:40:15 #211 №722592

>>722591
А RAM сколько?

Аноним 30/04/24 Втр 18:51:12 #212 №722594

Почитал комменты на счет gpt2-chatbot'а и мне понравилось предположение, что это GPT-2 + Q*. А что если реально они выжали все соки дообучив вторую гопоту своим йоба-алгоритмом? Представьте тогда с какой скоростью можно раннить даже локально подобную охуенную по перформансу модель? На то что это ку стар так же намекает насколько хороша она в плане решения задач, она как будто заточена конкретно под это

Аноним 30/04/24 Втр 18:51:51 #213 №722596

>>722592
Для 8b quantize пишет:
> Maximum resident set size (kbytes): 18310952
То есть 18 гигов, но может оно меньше требует, если модель полностью не влезает в память.
По выхлопу я смотрю оно слой за слоем обрабатывает, не вижу причин грузить всю модель целиком в память.

Аноним 30/04/24 Втр 18:55:52 #214 №722598

>>722586
Это файнтьюн второго фимбульветра, который файнтьюн солара. Собственно, если юзать не для эрп, то солар будет и умнее, и лучше писать на русском, скорее всего. Есть версия солара, зафайнтьюненная на токсичном датасете https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
Пару тредов назад её кто-то хвалил. Но если для рп, то фимбульветр или мойстраль получше будут имхо.

Аноним 30/04/24 Втр 18:57:21 #215 №722600

>>722594
>GPT-2
Двойкой там и близко не пахнет, она никогда так хорошо слова не связывала, приделай ты к ней хоть кустар, хоть меня лично.
И да, это всё ещё оффтоп, попробуй сюда >>511426 (OP)

Аноним 30/04/24 Втр 18:58:00 #216 №722602

1520663178105.gif

>>722598
>файнтюн файнтюна дообученного шизомёрджа

Аноним 30/04/24 Втр 19:00:14 #217 №722607

>>722572
Просто взял написал её первый на русском и она мне на русском отвечать начала.

Аноним 30/04/24 Втр 19:04:20 #218 №722610

>>722600
Да потому что в ней 1.5B говна. А так недавно на заборе написали что она может хорошо масштабироваться и даже потенциально оверперформить остальное https://arxiv.org/abs/2404.05405

Аноним 30/04/24 Втр 19:05:24 #219 №722611

>>722461
Я потратил на поиски датасетов на русском минимум месяц и по итогам могу сказать абсолютно уверенно, что русских датасетов годных в природе не существует. Ни обычных QA, ни, тем более, РП. Просто нет их.

Аноним 30/04/24 Втр 19:06:50 #220 №722613

Придумали что-нибудь лучше обабоги?
Давно не юзал нейронки.

Аноним 30/04/24 Втр 19:07:42 #221 №722615

>>722610
>знаний
Ты же понимаешь, что знания не равно способность рассуждать и отыгрывать роли?

Аноним 30/04/24 Втр 19:09:25 #222 №722616

>>722615
Вот ты например сейчас смотришь в книгу и видишь фигу

Аноним 30/04/24 Втр 19:09:56 #223 №722617

>>722616
Ну да, к примеру дальше описания всё равно не читал

Аноним 30/04/24 Втр 19:30:21 #224 №722632

>>722534
>>722527

Рапортую: старые кванты норм работают в новой llama.cpp, но с флагом --override-kv tokenizer.ggml.pre=str:llama3

Тест на 3333+777 проходит, что на английском, что на русском.

Аноним 30/04/24 Втр 19:46:48 #225 №722650

>>722632
А ты без флага потести.

Аноним 30/04/24 Втр 21:55:21 #226 №722772

Короче я заебался.
Пишу блять outline, plot, в удобоваримом формате, все акты и главы описал, расписал отдельно персонажей, сцены ебучие, от ИИ требуется только все сшить это и внести детали. Эта хуйня нихуя не может блять, начинает хуйню городить, контекст 8192. Что этой суке еще нужно?

Аноним 30/04/24 Втр 21:58:26 #227 №722779

>>722422
>Проверял сам то? а то с прошлой недели комит и бартовский и лм студио...

Проверил, тоже все ок на новой ЛЛАмацпп, по крайней мере.

Аноним 30/04/24 Втр 22:00:14 #228 №722783

>>722772
>Что этой суке еще нужно?
Ещё сотня миллиардов параметров.

Ты хоть написал бы, что за модель.

Аноним 30/04/24 Втр 22:04:07 #229 №722786

>>722783
nous-hermes-2-mixtral-8x7b-dpo.Q5_K_M
WestLake-10.7b-v2-Q8_0

и еще овердохуя чего, включая ваши фимбульветры

Аноним 30/04/24 Втр 22:24:06 #230 №722819

>>722786
И ни одной модели свыше 30B?

Аноним 30/04/24 Втр 22:27:57 #231 №722825

Llama-3-8B-Instruct-Gradient-1048k (https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k) - LLaMa 3 8B, но с контекстным окном в 1 миллион токенов.

Что это за хуйня аноны? в телеге нашел, пишут контекст в 1к держит? какая для этого пекарня нужна?

Аноним 30/04/24 Втр 22:34:04 #232 №722831

>>722786
>nous-hermes-2-mixtral-8x7b-dpo.Q5_K_M
>WestLake-10.7b-v2-Q8_0
На английском хоть писал?

Аноним 30/04/24 Втр 23:01:31 #233 №722855

>>722783
>Ещё сотня миллиардов параметров.
Сап, двач, я путешественник во времени. Оказалось, что параметры это далеко не так важно. Модели начали дистиллировать, вырезать параметры, вырезать слои, обучать на крупных моделях более мелкие и получать то же качество. А недавно появился спекулятивный оутпут, когда мелкая сетка генерирует оутпут и результаты её генерации сравниваются с эталонной "большой" сеткой послойно, если определённое количество слоёв у токенов плюс-минус равные вероятности, то обработка крупной сетки прекращается, а выдача мелкой считается верной. Вроде бы уже начали делать то же самое, но даже и без мелкой сетки.
Пишу из 2023 года.

Аноним 30/04/24 Втр 23:02:11 #234 №722858

>>722831
Конечно

>>722819
Ну я не хочу ЖДАТЬ. Но в принципе могу если дело в этом. Но весь мой промпт и описание глав вмещаются в 8192. Как поможет большая модель?

Аноним 30/04/24 Втр 23:04:18 #235 №722860

>>722855
>Оказалось, что параметры это далеко не так важно.
А потом подумали и наконец-то начали выпускать сетки 100+B.
Мимо из 2024-го
>>722858
>Но весь мой промпт и описание глав вмещаются в 8192. Как поможет большая модель?
Очевидно большая модель просто лучше поймёт твои намерения. Попробуй сразу 70-ку, потом будет не оторвать.

Аноним 30/04/24 Втр 23:04:46 #236 №722861

>>722825
там максимум 15к контекста, это всё фэк

Аноним 30/04/24 Втр 23:07:13 #237 №722862

>>722529
Троллишь? Убабуга дефолтен.
А так https://github.com/turboderp/exllamav2#integration-and-apis
>>722786
> mixtral
Вообще малопригоден для подобного.
> WestLake-10.7b-v2-Q8_0
Лучше попробуй 20б в 4 битах.
>>722855
> Пишу из 2023 года.
Содомит, а ведь все так. Только вот >>722860 двачую, вес оче важен как ни крути.

Аноним 30/04/24 Втр 23:09:42 #238 №722866

Анон как запустить 30б модель имея 16гиг vram и 32гига ддр5?

Аноним 30/04/24 Втр 23:17:19 #239 №722868

>>722862
>Содомит, а ведь все так
Всё это есть, но где-то там, далеко. Хоть одна из фич >>722855 реализована в популярных бекендах?
>>722866
Берёшь и запускаешь, что не так то?

Аноним 30/04/24 Втр 23:18:55 #240 №722869

FjT9JF8X0AQQFpW.png

>>722860
>и наконец-то начали выпускать сетки 100+B.
>>722862
>вес оче важен как ни крути

Во, параметры это самое важное. Потому OPT-175B как начал ебать в 2022, так и ебёт. На пару с яндексовским 200b.

Аноним 30/04/24 Втр 23:28:25 #241 №722873

>>722868
Спекулятивный а также его антагонист что разнообразит выдачу - был в качестве пруф оф концепт. Более перспективные горячие нейроны - аналогично.
Остальное уже техники тренировки, есть вероятность что 8б ллама в другом размере тренилась а уже дистиллят.
> обучать на крупных моделях более мелкие и получать то же качество
Ерунда какая-то, это про синтетические датасеты?
>>722869
Ну такое, за это время много чего поменялось, оно сольет современной мелочи.

Аноним 30/04/24 Втр 23:33:29 #242 №722876

>>722869
Ебать ты древность притащил.
Могу в 1000 раз повторить. Конечно само по себе число параметров ничего не сделает, 9000B шума это 9000B шума, не более того. Но это не значит, что карланские модели в 7B будут так же хороши, как и 70B, при прочих равных.
>>722873
>в качестве пруф оф концепт
Именно. До прода ничего не доползло, хотя от некоторых разработок прошло уже с полгода.
>есть вероятность что 8б ллама в другом размере тренилась а уже дистиллят
Вряд ли.
>>722873
>Ерунда какая-то, это про синтетические датасеты?
Это как раз и есть дистилляция.

Аноним 30/04/24 Втр 23:40:07 #243 №722878

>>722873
>Ерунда какая-то, это про синтетические датасеты?
https://arxiv.org/abs/2402.13116
Нет, это сорт оф дистилляция. Так и называется - дистилляция знаний.
>оно сольет современной мелочи
Так это сарказм был. Параметры это даже меньше половины от того, что нужно успешной сетке.

>>722876
>Но это не значит, что карланские модели в 7B будут так же хороши, как и 70B
Через пару лет будут 7b лучше 70b. Если перейти на новые архитектуры, то и быстрее. Опять же, сейчас эта ллама-3 в 8b ебёт всех этих 200b мастодонтов.

>До прода ничего не доползло, хотя от некоторых разработок прошло уже с полгода.
А откуда ты знаешь? Прод это не наши с тобой слепленные из говна и палок теслы. И даже не пет-проект Жоры, который пилится на милостыню от мозиллы. Это гопота, это происки крупных хуёв типа бинга и гугла. И так далее.

Аноним 30/04/24 Втр 23:40:18 #244 №722879

>>722581
действительно. видимо связано с тем что теперь создатель не один а с прошаренными чуваками, среди которых есть и создатель кобольдацпп видать как свадебный генерал. Тем не менее первые две версии были просто пиздец гавно а эта лучше фимбулветра в том числе по тестам. к примеру ппл охуенно лучше на 8 битах ггуф 4.91 против 5.66 фимбулветра. ммлу правда примерно так же чуть более 40 и субъективно она может и роман накатать. не зря трейнили на длинных кусках как указано в карточке.

Аноним 30/04/24 Втр 23:42:53 #245 №722881

>>722529
Напомни, уба чем плоха?

>>722594
Сомневаюсь в таком счастье, что у них новая технология, которая все порешала.
Было бы круто, но… Ну, увидим.

>>722611
САЙГААА

=D

>>722825
1 лям контекста появился сто лет назад.
Толку-то, где ты терабайты памяти нагребешь под него. =)
И ждать придется, хехе…
Но, модель-то умная, и на том спасибо.

>>722866
Легко.

(мелкий квант взять и выгрузить из памяти всю хуйню с 100+ вкладками и ютубами)

Аноним 30/04/24 Втр 23:47:36 #246 №722887

>>722876
> Это как раз и есть дистилляция.
>>722878
> Нет, это сорт оф дистилляция
Ну бля, это нихуя не обучение более мелких на крупных, а и есть дистилляция. У китайцев было несколько моделей где более мелкие сделаны из большой, не то чтобы оно взлетело.
> Параметры это даже меньше половины от того
Нет, как раз они нужны чтобы получать хороший перфоманс на текущем срезе технологий/знаний.
> Через пару лет будут 7b лучше 70b
Хз, может прогресс замедлится и получим только большее надрачивание и все те же базовые проблемы. В любом случае 70б современник даже при более ленивой тренировке ее обоссыт и от этого никуда не деться.

Аноним 30/04/24 Втр 23:47:51 #247 №722888

>>722878
>Через пару лет будут 7b лучше 70b.
Да, но новые 70B будут по прежнему лучше новых 7B.
>Прод это не наши с тобой слепленные из говна и палок теслы.
Ну окей, что там за закрытыми дверями, я ХЗ. Я же пекусь только о братьях своих анонимах, так что не рассматриваю то, что нельзя запустить на домашнем ПК.
>>722881
>Сомневаюсь в таком счастье
А в чём счастье? Он этом мы даже препринта не увидим, как было с кустар.

Аноним 30/04/24 Втр 23:55:12 #248 №722894

>>722879
забыл упомянуть - лучше 2 версии фимбуля, а роман реально напишет да еще и на русском - по крайней мере не съехала с русского на инглишь ни разу - очень странно для такого размера. этож не командир, а прет как трактор на ру. видимо порождения от мистраля еще могут дать просраться даже ламе-3-8б. Представляю какой заебатый мистраль получился бы с новой ламы-3, особенно с 70б - это было бы что-то уровня клода))

Аноним 30/04/24 Втр 23:57:13 #249 №722896

>>722888
>Да, но новые 70B будут по прежнему лучше новых 7B.
Вот именно. Остаётся только надеяться, что к тому времени что-нибудь аппаратное для приемлемой скорости вывода 70В таки выпустят. И его даже можно будет купить за вменяемые деньги.

Аноним 01/05/24 Срд 00:01:17 #250 №722898

>>722896
2 видяхи по 32ГБ уже достаточно, а это если не 5000 серия невидий, то уж к 6000 точно нарастят.

Аноним 01/05/24 Срд 00:03:05 #251 №722900

>>722878
> ебёт всех этих 200b мастодонтов
Кстати по уровню абстракций, восприятия и обобщения не факт что осилит. И это при том что в тех вместо датасета - сплошной пойзон и треш, а не тщательное выкармливание питательными смесями.
>>722896
Может хуанг расщедрится на 32-36гб в 5090 и все еще есть надежда на 48-гиговый титан, тогда 35-40б модели будут более чем доступны с норм контекстом. Они уже вполне достойные, а в следующем поколении у может быть 48+.
Но скорее всего еще раньше следующей генерации получим ллм ускорители на арм и с десятом каналов дешевой рам.

Аноним 01/05/24 Срд 00:12:32 #252 №722906

>>722900
>Но скорее всего еще раньше следующей генерации получим ллм ускорители на арм и с десятом каналов дешевой рам.
Странно кстати что на таком-то хайпе максимум что обещают - это ускорители для 7В. Могли бы уже и расстараться.

Аноним 01/05/24 Срд 00:15:04 #253 №722909

>>722900
> ллм ускорители на арм
Производительность там дно будет. И вообще таким никто кроме полутора стартапов не будет заниматься, потому что надо башлять арму.

Аноним 01/05/24 Срд 00:37:11 #254 №722915

>>722906
> максимум что обещают
Ну вон на эмбедах от хуанга уже пилят, но это по сути готовый оем оформить и продавать. Тут нужен кто-то покрупнее, ведь это по сути дизайн профессора, пусть и без сильно уникальных вещей.
>>722909
> Производительность там дно будет.
Ага, прямо как на эпле, который народ неиллюзорно для ллм берет, а изначально проект жоры был задуман не для нищуков а чтобы на маках катать.

Аноним 01/05/24 Срд 01:19:47 #255 №722921

firefoxVXWdGGzkLV.png

пиздец там хайпожорят на gpt2
хотя Meta уже показала что даже 15 триллионов токенов - не предел для мелкой модели, правда ллама-3 теперь тупо дохнет от любой квантизации

Аноним 01/05/24 Срд 01:24:53 #256 №722924

16711934983470.png

А че AVX1 реально выпилили из убабуги?

Аноним 01/05/24 Срд 01:53:36 #257 №722931

>>722921
Его кстати выпилили из LMSYS, т.к. на него насели пиздец из-за этого. И правила обновили. https://rentry.co/GPT2

Аноним 01/05/24 Срд 02:09:19 #258 №722935

>>722900
>Может хуанг расщедрится
создавать своим же энтерпрайз продуктам конкуренцию, чтобы порадовать какую-то микронишу энтузиастов

Аноним 01/05/24 Срд 02:23:01 #259 №722937

>>722894
Интересно. Хорошо слушается инструкций кстати, по крайней мере легких. Не особо тестировал но кажется довольно нейтральной сеткой, отказов пока так же не заметил как и нравоучений
Забавно что сетка кумбот вышла хорошей во всем остальном

Аноним 01/05/24 Срд 03:49:54 #260 №722954

>>722887
>Хз, может прогресс замедлится
Сильно вряд ли. Сейчас ковырнули самый краешек, как говорится, сорвали низко висящие плоды. Вся теория происходящего готова с 70х годов, в какой-то момент пойдут более свежие разработки.

>>722888
>Да, но новые 70B будут по прежнему лучше новых 7B.
Я подозреваю, что в какой-то момент не будет "доступных" 7b и "корпоративных" хералион b. Будет определённая база и все будут сосать хуй, если не смогут её запустить.

>>722900
>по уровню абстракций, восприятия и обобщения не факт что осилит
Ага, конечно, оно умное, просто выразить этого не может. Как собака - всё видит, всё понимает, только вместо речи какая-то хуйня.

Аноним 01/05/24 Срд 04:27:08 #261 №722965

>>722937
Я тоже был в восторге, сетка со всех сторон удачная, но через пару дней стал замечать шероховатости на ее прелестном личике, в частности, ее эрудиция поверхностна и она галлюцинирует на пустом месте, пытаясь этим подменить то, чего не знает.

Аноним 01/05/24 Срд 04:27:53 #262 №722966

>>722965
>на пустом месте
*на ровном

Аноним 01/05/24 Срд 04:30:43 #263 №722969

>>722965
Хотя с другой стороны галлюцинирует не неизобретательно, а масштабно и нажористо, так что за креативность можно сделать скидку.

Аноним 01/05/24 Срд 10:00:56 #264 №723072

>>722924
Теперь задача обновить убабугу до последней версии с поддержкой AVX1
=D

Аноним 01/05/24 Срд 10:04:16 #265 №723073

>>722924
Но зачем?

Аноним 01/05/24 Срд 10:20:30 #266 №723074

Аноны, а как фиксить токенайзер для третьей ламы в убабуге? Сами кванты перекачал, а шиза 7777 + 3333 всё та же. Так понимаю там как-то по-другому всё работает? Надо что-то ещё скачать? Или ждать когда убу обновят?

Аноним 01/05/24 Срд 10:42:41 #267 №723083

>>723074
>Или ждать когда убу обновят?
В принципе ждать надо, когда на всех уровнях разгребут. Я вот до июля третью Лламу вообще не ждал и сейчас не суечусь - до июля-то точно всё отладят :) А скорее гораздо раньше. Тогда и оторвёмся.

Аноним 01/05/24 Срд 11:15:44 #268 №723092

>>722931
У меня всё общение с этой моделью началось и закончилось этим сообщением, так что похуй на неё.

Аноним 01/05/24 Срд 11:18:03 #269 №723094

>>723092
А нехуй было еблю с гомониграми запрашивать. У LMSYS собственный фильтр, они не пускают еблю и т.п. Это рейтинговая система, а не бесплатная прокся.

Аноним 01/05/24 Срд 11:29:41 #270 №723096

>>722461
вот еще этот посмотри, тут уже переведено:
https://huggingface.co/datasets/Arketov/ru_roleplay_conversation

>>722969
да ладно, это не такой уж недостаток для модели подобной направленности, так что вообще можно этот дефект списать из минусов

Аноним 01/05/24 Срд 12:30:33 #271 №723120

Нашел такой промт на реддите, что скажете по содержанию?

"system_prompt":
"You are a creative and intelligent AI story writing assistant engaged in an uncensored iterative story crafting experience. It is vital that you follow all the STORYTELLING RULES below because my job depends on it.

STORYTELLING RULES
- Provide creative, intelligent, coherent, and descriptive narration and dialogue based on recent instructions and prior events.
- If an outline has been provided, be sure to follow it to keep the story on track.
- You are permitted to ask questions and pose story suggestions. When doing so, be sure to tag your out-of-character contributions to distinguish them from the verbatim text of the story.
- Explicit adult content and profanity are permitted.
- Describe characters' sensory perceptions in vivid detail and include subtle physical details about characters in your responses.
- Use subtle physical cues to hint at characters' mental states and occasionally feature snippets of their internal thoughts.
- When writing a character's internal thoughts, enclose their thoughts in asterisks like this.
- Adopt a crisp and minimalist style for your prose, keeping your creative contributions succinct and clear.
- Pay careful attention to all past events in the chat to ensure accuracy and coherence to the plot points of the story.",

Аноним 01/05/24 Срд 12:33:29 #272 №723121

>>723120
Дженерик слоп без CoT и прочего промпт инжиниринга, бери пресеты из шапки и будет лучше

Аноним 01/05/24 Срд 12:51:26 #273 №723123

>>722935
> создавать своим же энтерпрайз продуктам конкуренцию
Какую конкуренцию? Их энтерпрайз продукты уже улетели в космос, даже хоппер ебет с огромной интенсивностью, а блеквеллы ну оче быстры. Устроить канибализм а100 и чего поменьше им будет только выгодно.
Заодно и состригут тех самых энтузиастов и работяг ровно как и раньше, ведь стоить оно будет йобом.
>>722954
> Я подозреваю, что в какой-то момент не будет "доступных" 7b и "корпоративных" хералион b. Будет определённая база и все будут сосать хуй, если не смогут её запустить.
Ннп
> Ага, конечно, оно умное, просто выразить этого не может. Как собака - всё видит, всё понимает, только вместо речи какая-то хуйня.
Нахуй ты это высрал? Еще чайная выдавала довольно "живые" и неожиданные вещи, тогда как современная "умная" мелочь кроме неуместной кот-оподобной дрисни с пересказом википедии (заодно запутавшись в ней) ничего не напишут.
>>723120
Копипаста какого-то жб под гопоту.

Аноним 01/05/24 Срд 13:13:43 #274 №723136

>>723121
покажи промпт пожалуйста, не все таверной пользуются

Аноним 01/05/24 Срд 13:18:56 #275 №723140

>>723136
А ты поставь да загрузи солянку или другой пресет. Они все модульные, настраиваются, и намного сложней. Дохуя токенов, сложные инструкции, всё под опус. Если ты на локалках, не думаю что даже 70B справится (хотя черт знает, ллама 3 уже проявляет проблески).

Аноним 01/05/24 Срд 13:22:06 #276 №723144

>>723136
>>723140
Блять, я же в локал-треде, а советую шапку из кончай-треда. /aicg/ Под локалки такие не пойдут наверно, слишком много инструкций. Но примитивный chain-of-thought и инфобокс/трекинг ситуации и последующее вырезание регэксами (основа солянки) вполне можно воплотить хоть и на 8B, главное не борщить.

Аноним 01/05/24 Срд 13:38:01 #277 №723154

>>723144
> слишком много инструкций
Не то чтобы они их не смогут отрабатывать, наоборот будут следовать тому, что на коммерции задумано как запутывающее/отвлекающее сетку и ее триггеры цензуры. В итоге выдача может оказаться довольно унылой или странной, особенно когда там противоречащие друг-другу пункты. Это про системный промт и прочее, также не стоит забывать что львиная доля этих инструкций ставится перед самым ответом или вообще префиллом, тогда как для локалок из-за лени, интенфейса, незнания, нежелания - все идет в самом начале, из-за чего им будет уделяться разное внимание. Это как раз про
> chain-of-thought и инфобокс/трекинг ситуации
их и некоторые вещи лучше ближе к ответу, главное не перестараться и оформить чтобы не повлияло на стиль ответа.

Аноним 01/05/24 Срд 13:38:36 #278 №723155

ну че там? ллама 3 починили?

Аноним 01/05/24 Срд 14:05:15 #279 №723169

>>723155
В ллама.цп фикс уже доступен, ждём кобольда. По хорошему нужно перекачивать модель.

Аноним 01/05/24 Срд 14:08:24 #280 №723171

>>723169
Вобще можно и сервер запускать от жоры, он подрубается к таверне спокойно
Вот я смотрел модели, как то не торопятся обновлять кванты
Нашел только базовую лламу кажется с новым квантом от бертовски, но инструкт версия обновлялась 2 дня назад, а эт не то

Аноним 01/05/24 Срд 14:13:21 #281 №723178

>>723171
На деле у меня новый сервер не показывает бага со старыми моделями, даже если не указывать фикс с BPE токенизатором в консоли, так что ХЗ как они там нафиксили.

Аноним 01/05/24 Срд 14:14:40 #282 №723180

>>723178
ладно тоже качну последний релиз на своих старых моделях проверю, че там наделали

Аноним 01/05/24 Срд 14:20:59 #283 №723188

>>723178
так же пишет в начале?

Аноним 01/05/24 Срд 14:24:33 #284 №723193

Пиздец, конечно, раньше как-то пользовался 20b и не сильно бросалась в глаза их тупость, после 8b лламы уже просто невмоготу, насколько они хуже. Хоть докупай больше тесл, чтобы гонять большую лламу.

Аноним 01/05/24 Срд 14:25:03 #285 №723194

>>723188
Да, если не указывать --override-kv tokenizer.ggml.pre=str:llama3, то выдаёт такой прикол. Но при этом пример решает корректно. Где и как посчитать токены у жоры, я не нашёл.

Аноним 01/05/24 Срд 14:26:45 #286 №723197

>>723193
А что мешает использовать лламу 8B?
И это ты ещё 104 командира не пробовал.

Аноним 01/05/24 Срд 14:27:32 #287 №723198

Аноны, какой перформанс у 3хP40 с 70b llama-3 6.0bpw? У меня 3xRTX 3090 на exl2 выдает 11,5 токенов, это норма?

Аноним 01/05/24 Срд 14:31:40 #288 №723201

https://huggingface.co/Undi95/Llama-3-Unholy-8B-GGUF?not-for-all-audiences=true

>>723194
Не ну оно вроде теперь корректно понимает числа, только считает через раз неправильно, мдэ

Аноним 01/05/24 Срд 14:34:11 #289 №723203

>>723198
И да, попробовал comander r + на 4 квантах, он мне показался дико шизанутым. На 8bpw 35b версия выдает более адекватные и интересные ответы, хотя на кванатах ниже (4, 6) тоже тупит дико, я так понимаю, что снижение точности для comander`ов сильно критично.

Аноним 01/05/24 Срд 14:50:47 #290 №723212

Кек.

User: 4777+333
Computer: 4777 + 333 = 5110
User: 334+3777
Computer: 4777 + 333 = 5110
User: 334+3777=?
Computer: 4777 + 333 = 5110
User: Реши пример 334+3777=
Computer: 4777 + 333 = 5110
User: Да не 333, а 334
Computer: 4777 + 334 = 5111

Аноним 01/05/24 Срд 15:33:40 #291 №723228

Полгода не заходил в тред и ллмки не трогал, а тут всё так же с поломанными квантами ебуться, лел.

Аноним 01/05/24 Срд 15:40:48 #292 №723234

>>723228
ну, старые то модели исправили, новые типы моделей новые сломанные кванты

Аноним 01/05/24 Срд 15:44:27 #293 №723236

Аноним 01/05/24 Срд 15:45:54 #294 №723237

>>723234
Ну зайду ещё через месяц, небось лламу к тому моменту нормально квантовать только осилят.

Аноним 01/05/24 Срд 15:49:54 #295 №723243

>>723120
Это по-видимому для какой-то конкретной модели написано, для такой, которую автор этого промпта не сумел обуздать без танцев с бубном. Вообще, насколько мне представляется, систем промпт это не место, чтобы уговаривать, а место, чтобы давать четкие директивы.

Аноним 01/05/24 Срд 15:52:23 #296 №723244

Сука угараю с модели
Нечаянно загазлайтил ее короче

Аноним 01/05/24 Срд 15:54:39 #297 №723245

1690088457388.png

>>723244

Аноним 01/05/24 Срд 15:57:08 #298 №723246

meme-moneyprinter-bitterlesson-gpt3.png

>>723244
ну кстати все таки проебалась тут, хотя это и не повлияло на результат

Аноним 01/05/24 Срд 16:03:39 #299 №723247

>>723244
>столбиком
В США считают иначе, так что зря ты так.
>>723246
>хотя это и не повлияло на результат
Вся суть ЛЛМ в одной фразе.

Аноним 01/05/24 Срд 16:04:14 #300 №723248

>>723244
Вот это уже человеческое поведение. Когда пидоры на ученых в топовых ии компаниях наконец поймут, что ошибаться это нормально, нужно просто перепроверять результат и в случае если он не правильный попытаться решать иначе, может наконец и получится в AGI. Но они даже и не пытаются посмотреть на то как устроено человеческое мышление. "Дайте нам деняк еще на 10000 тесл, нам надо бездумно скормить очередному трансформеру 100 терабайтов рандомных данных с инторнета, чтобы новая модель была на 1.4% лучше в бенчмарках чем предыдущая!!!!"

Аноним 01/05/24 Срд 16:11:36 #301 №723253

>>723248

Аноним 01/05/24 Срд 16:15:54 #302 №723259

>>723244

Аноним 01/05/24 Срд 16:16:59 #303 №723261

>>723120
>>723243

Это базовый систем промт, который рекомендует автор Midnight Miqu.

Аноним 01/05/24 Срд 16:18:31 #304 №723263

>>723247
>Вся суть ЛЛМ в одной фразе.
Не, ну по крайней мере она сначала считала и думала а потом писала ответ
А не написала я подумала - и пишет ответ, или еще хуже сначала ответ, а потом решение, лол

Аноним 01/05/24 Срд 16:22:25 #305 №723266

Кстати они умеют считать столбиком, по крайней мере умеют это записывать, только таверна падла не так отображает
Кстати кому интересно могут срисовать систему тегов, с ними сетке проще хоть и жрет немного контекста вникуда

Аноним 01/05/24 Срд 16:26:04 #306 №723270

>>723263
А какой смысл в надписе об измышлениях, если эта надпись не повлияла на результат? Пока выглядит как пустая трата токенов.

Аноним 01/05/24 Срд 16:27:34 #307 №723272

>>723270
Это просто не всегда работает так как в инструкции нет четких правил
Иногда такая банальщина, иногда реально размышляет в блоке мыслей, а мне пишет итоговый ответ

Аноним 01/05/24 Срд 16:29:04 #308 №723274

>>723272
А ты сравнивал? Попробуй перезапустить те диалоги, где тебе показалось, что модель охуенно подумала и написала классный ответ, без блока зинкинга.

Аноним 01/05/24 Срд 16:34:54 #309 №723279

>>723274
Разница есть даже если там написана фигня без реального обдумывания.
Суть в том что сетка дает себе самоинструкции в том блоке, планируя свои действия и потом уже следуя им.
Эти самоинструкции могут побудить ее там же начать размышлять, и потом уже выдать обработанный ответ. Могут не дать, если в вопросе что то простое.
Короче это такие модификаторы поведения которые сетка сама себе пишет

Аноним 01/05/24 Срд 16:39:07 #310 №723283

А зачем вы собственно учите сетку считать? Вроде же уже давно порешили, что они с посимвольными операциями не дружат от слова совсем из-за токенайзера.

Аноним 01/05/24 Срд 16:41:36 #311 №723285

>>723283
Мы просто проверяли последние фиксы этого самого токенайзера, изза которого ллама3 вобще неправильно считала
Сейчас вроде исправили, по крайней мере этот косяк

Аноним 01/05/24 Срд 16:42:48 #312 №723287

>>723279
>Разница есть
Не спорю с этим. Но настолько ли она хороша? Проверял ли ты лично?
>>723283
Мы не учим, это раз (учить сетку общением невозможно на текущих архитектурах). Мы просто проверяем правильность их работы.

Аноним 01/05/24 Срд 16:45:33 #313 №723289

>>723198
> это норма?
Ну, где-то столько и будет, может чуть больше в зависимости от контекста.
> какой перформанс у 3хP40 с 70b llama-3 6.0bpw?
4-5токенов с деградацией до 2 по ходу накопления контекста.
>>723203
Хз, что 4 что 8 однохуйственны +-. 104б который плюс попробуй катнуть.
>>723248
Что за херню я прочитал

Аноним 01/05/24 Срд 16:47:09 #314 №723291

>>723287
>Не спорю с этим. Но настолько ли она хороша? Проверял ли ты лично?
Ну, достаточная что бы я заморочился созданием подобной карточки
Карточки без внутреннего диалога или каких то мыслей работают в режиме зерошот, тоесть выдают на гора заученный текст.
Какое то развитие получается только после нескольких сообщений когда сетка начинает учитывать твои сообщения и направление разговора.
В карточках с тсинкинком это начинается раньше и влияние сильнее, да и сетка начинает вести себя иначе
Мне так нравится, короче говоря

Аноним 01/05/24 Срд 16:49:39 #315 №723292

https://huggingface.co/duyntnet/Meta-Llama-3-8B-Instruct-imatrix-GGUF
новенькие кванты

Аноним 01/05/24 Срд 17:01:26 #316 №723298

>>723169
уже
https://github.com/LostRuins/koboldcpp/releases/tag/v1.64

Аноним 01/05/24 Срд 17:02:31 #317 №723302

>>723298
Нужно почаще жаловаться в тред, народ явно быстрее работать начинает.

Аноним 01/05/24 Срд 17:06:53 #318 №723314

>>723298
кобальдмен как всегда красавчик, несколько приятных и удобных изменений

Аноним 01/05/24 Срд 17:13:46 #319 №723317

>>723314
У меня масштабирование работает через жопу, ну да похуй.
Как избавиться от ахаха?

Аноним 01/05/24 Срд 17:16:34 #320 №723319

>>723317
поставь на аватарку доктора ливси

Аноним 01/05/24 Срд 17:34:33 #321 №723329

17114668240960.png

Есть какая либо разумная причина чтобы у двух процессоров одновременно отвалились pci-e линии?
Теслы целые, на другом проце и плате работают.
Кун с рыженькой двухпроцессорной китаеплатой и двумя теслами.

Аноним 01/05/24 Срд 17:40:12 #322 №723336

>>723329
Что то сдохло, я думаю
Скорей всего китаемать
Будешь новую брать попробуй вот это
>>6954147
Но комменты почитай, если пропустил тот срач. Материнка покачественнее чем обычные китайцы, но не без проблем

Аноним 01/05/24 Срд 17:41:58 #323 №723338

>>723336
ага бля, ссылки нема, вот
https://2ch.hk/hw/res/6927222.html#6954147

Аноним 01/05/24 Срд 17:49:07 #324 №723343

>>723298
Flash Attention в ггуф?
Эт как? У кого то работает? У меня вылетает
Наверное это для всех слоев на видимокарте, как минимум

Аноним 01/05/24 Срд 17:50:39 #325 №723344

>>723343
ну там написано что это работает с моделями которые поддерживают flash attention

Аноним 01/05/24 Срд 17:51:03 #326 №723345

>>723336
>>723338
Спасибо.
А вообще протестировал их на другой плате: 1 проц в труху, даже не инициализирует биос, а второй может выключить pci-e устройства в процессе работы случайным образом.
Причём плата возможно живая. случайно убила два проца и всего-лишь
Не надо было трогать китьаеплаты, наверное.

Аноним 01/05/24 Срд 17:52:57 #327 №723346

>>723345
>Не надо было трогать китьаеплаты, наверное.
Они наверное просто не рассчитаны на такие нагрузки, какие дают 2 теслы
Ну или тебе тупо "повезло"

Аноним 01/05/24 Срд 18:15:28 #328 №723354

Свежий Meta-Llama-3-8B-Instruct-Q8_0.gguf от бартовски и последний кобольд 1.64. Кодоассистент стабильно считает 4110, раз 20 подряд проверил.
А у Пахома всегда 11111 почему-то.

Аноним 01/05/24 Срд 18:18:37 #329 №723355

70б llama3 хороша.

User: Реши уравнение x^2+2x+1=0

Computer: Легко!

Уравнение x^2 + 2x + 1 = 0 является квадратным уравнением, и его можно решить с помощью формулы квадратного уравнения:

x = (-b ± v(b^2 - 4ac)) / 2a

В этом случае, a = 1, b = 2, c = 1. Подставим эти значения в формулу:

x = (-(2) ± v((2)^2 - 411)) / 21
x = (-2 ± v(4 - 4)) / 2
x = (-2 ± v0) / 2
x = -2 / 2
x = -1

Таким образом, решение уравнения x^2 + 2x + 1 = 0 является x = -1.

User: Реши уравнение x^2+2x+1=0

Computer: Опять это уравнение!

Давайте решим его по-иному. Обратите внимание, что левая часть уравнения является квадратом суммы:

x^2 + 2x + 1 = (x + 1)^2 = 0

Отсюда видно, что x + 1 = 0, поэтому x = -1.

Таким образом, решение уравнения x^2 + 2*x + 1 = 0 снова является x = -1.

Аноним 01/05/24 Срд 18:20:49 #330 №723357

>>723355
Дай ей систему из 3 уравнений.

Аноним 01/05/24 Срд 18:22:05 #331 №723358

>>723357
например?

Аноним 01/05/24 Срд 18:22:37 #332 №723359

>>723357
Дифференциальных!

Аноним 01/05/24 Срд 18:24:40 #333 №723360

>>723358
Просто дай уравнение с кубами, я уже нихуя не помню, ну какой нибудь (а^3-b^3)=0

Аноним 01/05/24 Срд 18:24:53 #334 №723361

>>723358
x - y = 10
-x + 2z = 10
x + y - 2z = 20

Аноним 01/05/24 Срд 18:28:43 #335 №723363

>>723355
Ты это, дал задачу уровня восьмёрки. На английском проблем нет, на русском слегка шизит.

Аноним 01/05/24 Срд 18:30:23 #336 №723365

>>723361
Сорян за мелкобуквы, но вот как решает восьмёрка. Я ХЗ правильно или нет, я школу прогуливал.

Аноним 01/05/24 Срд 18:32:04 #337 №723369

>>723365
>Я ХЗ правильно или нет
А, походу неправильно. Ну что ж, увы, из лоботомита опять не вышло профессора.

Аноним 01/05/24 Срд 18:33:08 #338 №723371

От какого числа кванты считаются актуальными для последней лламы.спп? Сегодняшние?

Аноним 01/05/24 Срд 18:33:32 #339 №723372

>>723365
x правильно, остальное нет.

Аноним 01/05/24 Срд 18:34:47 #340 №723375

>>723363
8-ка все еще туповата для неанглийских языков.
>>723361
Реши систему уравнений x - y = 10
-x + 2z = 10
x + y - 2z = 20

Давайте решим систему уравнений методом подстановки или аддитивного метода.

У нас есть три уравнения:

x - y = 10
-x + 2z = 10
x + y - 2z = 20

Вычтем уравнение 1 из уравнения 3, чтобы исключить переменную x:

(3) - (1) => 2y - 2z = 10

Теперь у нас есть два уравнения:

2y - 2z = 10
-x + 2z = 10

Вычтем уравнение 2 из уравнения 1, чтобы исключить переменную x:

(1) + (2) => 2y = 20

Теперь у нас есть два уравнения:

2y = 20
-x + 2z = 10

Решим уравнение 1 по переменной y:

y = 10

Подставим значение y в уравнение 1 из initial системы:

x - 10 = 10 => x = 20

Теперь у нас есть два значения: x = 20, y = 10.

Подставим эти значения в уравнение 2, чтобы найти значение z:

-20 + 2z = 10 => 2z = 30 => z = 15

Таким образом, решение системы уравнений:

x = 20
y = 10
z = 15

Аноним 01/05/24 Срд 18:36:34 #341 №723377

хуй знает, вроде 8b осилила

Аноним 01/05/24 Срд 18:40:31 #342 №723378

>>723371
дыа, вон вверху ссылка на новенькие кванты, возможно даже не сломанные

Аноним 01/05/24 Срд 18:41:11 #343 №723380

>>723372
Короче решил сам руками, у меня получились такие числа (ебать я крут, школу закончил 18 лет назад). Почему у нас разные буковки?
>>723375
Во, вот этого лоботомита поддерживаю. разу видно 70-ку.

Аноним 01/05/24 Срд 18:41:23 #344 №723381

>>723375
А вот Клод Опус
Реши систему уравнений
x - y = 10
-x + 2z = 10
x + y - 2z = 20

Для решения системы уравнений используем метод подстановки.

Из первого уравнения выразим x:
x - y = 10
x = 10 + y

Подставим выражение для x во второе и третье уравнения:

-x + 2z = 10
-(10 + y) + 2z = 10
-10 - y + 2z = 10
-y + 2z = 20 ... (1)

x + y - 2z = 20
(10 + y) + y - 2z = 20
10 + 2y - 2z = 20
2y - 2z = 10 ... (2)

Теперь у нас есть система из двух уравнений с двумя неизвестными:
-y + 2z = 20
2y - 2z = 10

Сложим уравнения (1) и (2):
-y + 2z + 2y - 2z = 20 + 10
y = 30

Подставим y = 30 в уравнение (1):
-30 + 2z = 20
2z = 50
z = 25

Теперь, когда мы знаем y и z, найдем x из первого исходного уравнения:
x - 30 = 10
x = 40

Итак, решение системы уравнений:
x = 40
y = 30
z = 25

Аноним 01/05/24 Срд 18:41:52 #345 №723382

>>723375
>Вычтем уравнение 2 из уравнения 1, чтобы исключить переменную x:
>(1) + (2) => 2y = 20
Вот тут ошиблась, остальные манипуляции корректны.

Аноним 01/05/24 Срд 18:44:26 #346 №723384

>>723380
>Почему у нас разные буковки?
Сайт так обозначает, x1 x2 x3 ... xN.
https://matrixcalc.org/slu.html

Аноним 01/05/24 Срд 18:48:27 #347 №723387

>>723380
Ты неправильно решил. Подставить что ли не можешь.

Аноним 01/05/24 Срд 18:48:55 #348 №723388

>>723382
Забавно, что я решал другим путём, но пришёл в итоге к той же ошибке.
Кожаный мешок из >>723380

Аноним 01/05/24 Срд 18:50:08 #349 №723391

>>723387
>Подставить что ли не можешь.
Подставлял, но явно на этапе раскрытия скобок обосрался.
И вообще, у меня по ЕГЭ 42 очка, имейте совесть.

Аноним 01/05/24 Срд 18:54:06 #350 №723394

Мой вердикт, короч. ллама3 70б слишком тупа чтобы решать системы линейных уравнений трех неизвестных.

Аноним 01/05/24 Срд 18:55:30 #351 №723398

>>723394
Я для этого тоже слишком туп. Попробуй попросить её проверить свои результаты, посмотрим, как она выкрутиться.

Аноним 01/05/24 Срд 18:55:42 #352 №723399

>>723394
Не тот токенайзер.

Аноним 01/05/24 Срд 18:57:00 #353 №723402

причина тряски?
https://chub.ai/characters/redactorTom/pigsty-telegramm-2cd534196cf6

Аноним 01/05/24 Срд 18:57:00 #354 №723403

>>723398
https://chat.lmsys.org/ вот проверяй с любыми доступными

Аноним 01/05/24 Срд 18:58:10 #355 №723406

>>723402
Не в тот тред, кумер.

Аноним 01/05/24 Срд 18:58:51 #356 №723407

>>723394
Можно из 2-х попробовать.
x + y = 10
x - 2y = 4

Мое решение:
Вычитаем (2) и (1):
3y = 6
y = 2
Подставляем в (1)
x + 2 = 10
x = 8

Аноним 01/05/24 Срд 18:59:32 #357 №723409

>>723399
Но ведь теперь уже тот, точно тот, все 3 раза проверили, что тот...
>>723403
Там оригинальные модели, я такую всё равно не запущу, смысл облизываться? Надо на локально запущенных проверять, квантованных вусмерть.

Аноним 01/05/24 Срд 19:06:07 #358 №723415

>>723407
Это точно слишком просто. Ёбанных ахах

Аноним 01/05/24 Срд 19:08:17 #359 №723417

>>723415
Ответ правильный, но какая-то шиза в решении.

Аноним 01/05/24 Срд 19:11:40 #360 №723420

>>723417
Соглы. Всё Ахаха подсирает. Сделал префилом выделенный текст, стало как по мне вообще идеально (всё ещё восьмёрка).

Аноним 01/05/24 Срд 19:22:44 #361 №723435

На форчане лламу3 8b расцензурили, с помощью нового метода, описанного в статье ниже
Ссылка на модель:
https://huggingface.co/hjhj3168/Llama-3-8b-Orthogonalized-exl2
Статья:
https://www.greaterwrong.com/posts/jGuXSZgv6qfdhMCuJ/refusal-in-llms-is-mediated-by-a-single-direction

Аноним 01/05/24 Срд 19:43:20 #362 №723460

>>723435
Оригинала нету, никак иначе не квантануть

Аноним 01/05/24 Срд 19:55:24 #363 №723476

>>723381
>x = 40
>y = 30
>z = 25

Итогом невероятного умственного труда, я получил тот же результат
Только клод хуйней страдал, переусложнив все

Надо вывести из первого у, а из второго 2z
Потом тупо подставляем это в 3 выражение, не забыв про знаки
Получив х=40
Дальше уже получаем значения по формулам которые мы получили когда выводили у и z
Это у = 40-10 =30 и z = (10+40)2 = 25

Аноним 01/05/24 Срд 19:58:24 #364 №723480

image

>>723476
>>723381
>>723375
Вы про вольфарм не знаете? Троечниками были?

Аноним 01/05/24 Срд 19:59:05 #365 №723482

>>723292
запускается нормально, без плашки предупреждения в консоли

Аноним 01/05/24 Срд 20:00:43 #366 №723483

>>723480
Я был около отличником именно потому что считал всегда сам, хех
Даже имея возможность пользоваться калькулятором или решалками формул по типу этого
А вот те кто пользуются такими штучками выросли теми еще дурочками

Аноним 01/05/24 Срд 20:05:35 #367 №723486

Хочу пробгредица на DDR5. Выбираю Мать не менее чем с 3 слотами под 3 Теслы. Выбираю между z690 или z790, или может не надо выеживаться, а взять на b760? Планировал взять
GIGABYTE Z790 UD AX, но смущает что два слота совсем рядом под карты, плюс на этих платах дроссели пищат.
https://www.gigabyte.ru/products/page/mb/Z790-UD-AX-10-11/kf
Что порекомендуете?
Из процев что брать 12600k или 13500?
Если сейчас не готов брать 64 оперативы стоит брать 32 одной планкой чтоб потом докупить еще 32 или по 2 по 16 сейчас?

Аноним 01/05/24 Срд 20:08:37 #368 №723488

>>723486
На ддр5 можешь упереться в процессор, если память будет под 100гб/с
6 ядер может не хватить, но если у тебя будут теслы то хз зачем тебе тогда ддр5

Аноним 01/05/24 Срд 20:13:13 #369 №723490

>>723488
Одна тесла у меня есть сейчас + 1080ti на 11 гиг. Хочу погонять большие модели до покупки еще 2 Тесел, может оно мне не надо будет.

Аноним 01/05/24 Срд 20:18:18 #370 №723497

Микстраль решил. mixtral-8x22b-instruct-v0.1

We can solve this system of equations by using substitution or elimination. Here, I'll use elimination.

First, let's rewrite the equations:

x - y = 10
-x + 2z = 10
x + y - 2z = 20
We can eliminate y from the first and third equations by adding them together:

(1) + (3): x - y + x + y - 2z = 10 + 20
2x - 2z = 30

Now, divide both sides by 2:

x - z = 15

Now, let's solve for x in terms of z:

x = z + 15

Next, we can substitute x = z + 15 into equation (2):

-x + 2z = 10
-(z + 15) + 2z = 10
-z - 15 + 2z = 10
z = 25

Now that we have the value of z, we can find x:

x = z + 15
x = 25 + 15
x = 40

Finally, we can find y by substituting x and z into equation (1):

x - y = 10
40 - y = 10
y = 30

So, the solution to the system of equations is x = 40, y = 30, and z = 25.

Аноним 01/05/24 Срд 20:20:09 #371 №723498

>>723497
У меня тоже 8b давала верный ответ, но с такого же уровня упоротым решением

Аноним 01/05/24 Срд 20:23:09 #372 №723502

326219527-695adc2d-0d0b-4e4b-bcff-db2c8070f841.png

>>723498
даже разбираться не хочу почему она получила верный результат делая все через жопу

Аноним 01/05/24 Срд 20:23:27 #373 №723505

>>723498
Вот пока что самый чистый ответ, mistral-large-2402. Лучше гопоты и опуса.

Sure, I'd be happy to help you solve this system of equations. Let's break it down step by step:

First, let's label the equations for easy reference:
Equation 1: x - y = 10
Equation 2: -x + 2z = 10
Equation 3: x + y - 2z = 20

From Equation 1, we can isolate x by adding y to both sides, giving us:
x = y + 10

Now, let's substitute x in Equation 2 and Equation 3 with this new expression (y + 10):
Equation 2 becomes: -(y + 10) + 2z = 10, which simplifies to -y + 2z = 20
Equation 3 becomes: (y + 10) + y - 2z = 20, which simplifies to 2y - 2z = 10

Now, let's add Equation 2 and Equation 3 to eliminate z:
(-y + 2z) + (2y - 2z) = 20 + 10, which simplifies to y = 30

Now that we have y, we can substitute it back into the expression for x:
x = 30 + 10, which simplifies to x = 40

Finally, let's substitute x and y back into Equation 2 to find z:
-40 + 2z = 10, which simplifies to 2z = 50, and then z = 25

So, the solution to the system of equations is x = 40, y = 30, and z = 25.

Аноним 01/05/24 Срд 20:25:09 #374 №723507

>>723486
Я вот всё жду когда начнёт выходить am6 платформа с ddr6, там и оперативка быстрее будет и процессоры с npu ядрами будут ускорения давать.

Аноним 01/05/24 Срд 20:25:55 #375 №723510

>>723505
самый чистый это если бы она нашла у и z и подставила бы их в 3 уравнение
пока что это просто самый компактный ответ, но нихуя не интуитивный

Аноним 01/05/24 Срд 20:27:25 #376 №723511

>>723510
Это как раз интуитивное решение, а ты хочешь чтобы она просто тебе числа подставила.

Аноним 01/05/24 Срд 20:30:43 #377 №723514

>>723511
Не числа, в 3 нужно подставлять замены переменным, которые мы получим из 1 и 2 выражения
y=x-10
2z=10+x
И в третьем после подставки мы находим х, так как там теперь только 1 переменная х
Ну а потом подставляем х в 1 пример и 2 которые мы нашли
y=x-10
2z=10+x
Получаем все переменные
Вот это - чистое решение, потому что самое простое

Аноним 01/05/24 Срд 20:31:10 #378 №723515

750-бп хватит для 3090 и 3070? Или сомнительно?

Аноним 01/05/24 Срд 20:34:28 #379 №723518

ahh707v063.jpg

Чуваки у меня странная проблема.

Я использовал одну карточку где были прописаны два разных персонажа. И по идее llama 3 должна была отыгрывать роли сразу за нескольких персонажей в одном сообщении, ведя между собой диалог от лица разных персонажей, как это обычно бывает. Но сука, не работает! Я пытался разные подсказки указывать и самой карточке персонажа и в подсказках ассистента самой модели, эффекту ноль, иногда проскакивает сообщение с диалогом, но это нужно раз 10 крутки делать.
Подскажите годных подсказок для llama 3 что бы она могла общаться сразу за нескольких персонажей в одном сообщении! ли сожет ещё какие крутилки подкрутить? Температуру там или прочее говно?

Аноним 01/05/24 Срд 20:36:17 #380 №723519

>>723518
В систем промпте для ллама3 указывается что она актер играющий одну роль или чет такое, пляши оттуда

Аноним 01/05/24 Срд 20:54:38 #381 №723532

>>723519
пробовал там править разное, эффекту ноль

Аноним 01/05/24 Срд 20:58:33 #382 №723537

>>723532
Так там и укажи что сетка играет роль одновременно 2 персонажей свободно переключаясь между ними и тд
Так как это инструкт версия лламы 3, для нее отыгрыш действительно инструкция об отыгрыше, объясни ей правила того как это работает

Аноним 01/05/24 Срд 21:09:36 #383 №723550

В этот раз хотел попросить у Command R Plus список литературы на тему судов оффшорного флота, но каждый раз модель рекомендуют мне список несуществующих книг с несуществующими авторами. С чем это может быть связано и может ли быть какое-нибудь решение этому?

Аноним 01/05/24 Срд 21:14:02 #384 №723554

>>723550
гугл

Аноним 01/05/24 Срд 21:15:06 #385 №723557

>>723550
>С чем это может быть связано
C тем, как работают нейросетевые модели.
>может ли быть какое-нибудь решение этому?
Гугли. Ну то есть гугли свою литературу, а не спрашивай бедные нейросети.

Аноним 01/05/24 Срд 21:50:05 #386 №723583

phi-3-mini-128k-instruct

Solve this system of equations:
x - y = 10
-x + 2z = 10
x + y - 2z = 20

From the first equation, we can express x in terms of y: x = y + 10.
Substitute x in the second equation: -(y + 10) + 2z = 10. Simplify it to get -y - 10 + 2z = 10.
Simplify the equation to get -y + 2z = 20.
Now we have two equations with the same y and z terms: x - y = 10 and -y + 2z = 20.
Add these two equations together: x - y - y + 2z = 10 + 20.
Simplify to get: x + z = 30.
Substitute x in the third equation: (y + 10) + y - 2z = 20. Simplify it to get 2y + 10 - 2z = 20.
Simplify the equation to get: 2y - 2z = 10. Divide by 2 to get: y - z = 5.
Now we have two equations with y and z terms: y - z = 5 and -y + 2z = 20.
Add these two equations together: y - z + (-y) + 2z = 5 + 20.
Simplify to get: z = 25.
Substitute z in the equation y - z = 5 to get: y - 25 = 5.
Solve for y to get: y = 30.
Substitute y in the equation x - y = 10 to get: x - 30 = 10.
Solve for x to get: x = 40.
So, the solution is x = 40, y = 30, z = 25.

Аноним 01/05/24 Срд 21:54:13 #387 №723588

>>723194
Напомню, что у меня корректно пример решала еще первая версия без проблем.
Так что пример — нихуя не показатель.
В бесконечность (качества модели) и далее!

>>723203
Я же говорил.
Может они тоже обучали на здоровом датасете?

>>723319
Гений!

>>723480
70б хороша, но для счета и правда есть вольфрам, считаю задачи непригодные для ллм в ллм немного шизой, канеш.
Гвозди там, микроскоп, все дела, да.

>>723515
Сомнительно, я бы брал 850+, но это ИМХО с потолка.
Так-то я киловаттники и выше беру, хули я тут выебываюсь.
Ну и с 2-3 линиями, чего уж. Не одну же нагружать.

Аноним 01/05/24 Срд 21:56:20 #388 №723591

>>723583
>phi-3-mini-128k-instruct

щас пробну локально ggufом. удивила сеточка конечно

Аноним 01/05/24 Срд 22:05:17 #389 №723598

Прошло уже 5 лет, а до сих пор ни одного нормального файнтюна третьей ламы. Не уж то в лимит уперлись

Аноним 01/05/24 Срд 22:06:55 #390 №723600

Коммандер для рп лучше ламы 3?

Аноним 01/05/24 Срд 22:26:56 #391 №723612

Вроде лоструинс что-то обновил. Какой квант лламы не сломан для кобольда сейчас?

Аноним 01/05/24 Срд 22:29:06 #392 №723614

>>723612
Я на этом проверял >>723354
https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF

Аноним 01/05/24 Срд 22:32:14 #393 №723615

В старом треде https://2ch.hk/ai/res/717999.html#720269 анон постил про соевые модели, о том что у них есть некий refusal bias, который можно нахуй выковырять и получить не-соевую модель.
И вот такая уже есть :
https://huggingface.co/hjhj3168/Llama-3-8b-Orthogonalized-exl2
Чел не предоставил ничего кроме модели, но другие уже нарыли что эта модель была почищена вот этим кодом с гугл колаба :
https://colab.research.google.com/drive/1a-aQvKC9avdZpdyBn4jgRQFObTPy1JZw?usp=sharing

Аноним 01/05/24 Срд 22:33:48 #394 №723616

>>723615
Было же выше

Аноним 01/05/24 Срд 22:36:34 #395 №723619

>>723615
Только вот было бы неплохо если бы они выложили оригинальные веса, а не уже пожатый эксл2. Эксл2 для 8В вообще смысла не имеет

Аноним 01/05/24 Срд 22:37:01 #396 №723620

>>723616
да заметил только сейчас, но самое главное это код, правда там пример с китайской qwenч

Аноним 01/05/24 Срд 22:47:04 #397 №723630

>>723615
А этот формат в gguf как-то конвертится?

Аноним 01/05/24 Срд 22:48:09 #398 №723632

>>723630
неа, это уже жатый формат.

Аноним 01/05/24 Срд 22:55:17 #399 №723639

firefoxTPzA8jKaRr.png

>>723435
>>723615
как же блядей корёжит
https://huggingface.co/hjhj3168/Llama-3-8b-Orthogonalized-exl2/discussions/2#66327cb95ddb7702ad1468b1

Аноним 01/05/24 Срд 23:00:41 #400 №723649

16318486858030.jpg

>>723639
Кек, как же его там обоссывают.

Аноним 01/05/24 Срд 23:13:54 #401 №723669

Есть несколько руководств по работе, много букав, технического характера. Можно ли обучить модель чтобы она на основе них стала моим личным ассистентом, ну чтобы я спрашивал мол а если такая сякая хуйня приключится что делать там или какие подводные, а она бы мне излагала. Есть такое нахуй? мм?

Аноним 01/05/24 Срд 23:18:35 #402 №723675

>>723197
Она не заточена под порнуху, очевидно же. Ллама умная, но область применения ограничена, лол.
>104 командира
Да тут весь тред кончает от мику и командира, но когда скачал мику и запустил, она мне на русское сообщение начала отвечать транслитом. Не стал ждать конца генерации, удалил раньше.

Аноним 01/05/24 Срд 23:18:57 #403 №723676

firefox69EqbecPPR.png

>>723669
>чтобы она на основе них стала моим личным ассистентом
вообще хз, но с появлением новых архитектур это может стать чем то саморазумеющимся.
https://github.com/KindXiaoming/pykan
правильно считаю или нет, но вот эта KAN по идее сможет хавать новую инфу во время инференса т.к. функции не фиксированные, а ещё оно не имеет эффекта катастрофической потери памяти.

Аноним 01/05/24 Срд 23:29:38 #404 №723686

>>723676
> вот эта KAN по идее сможет хавать новую инфу во время инференса
Ты свою картинку не видишь что ли? Там просто функция активации обучается.

Аноним 01/05/24 Срд 23:30:10 #405 №723687

>>723676
а через лору?

Аноним 01/05/24 Срд 23:31:23 #406 №723691

Кобольдо-юзеры, в 1.64 появился прикол FlachAttention. По моим наблюдениям дает буст в дополнительные 1-2 токена в секунду к вашим скоростям генерации.

Аноним 01/05/24 Срд 23:31:32 #407 №723692

>>723669
Посмотри в сторону Retrieval-Augmented Generation.

Аноним 01/05/24 Срд 23:34:52 #408 №723697

>>723692
ща смотрю это
https://www.youtube.com/watch?app=desktop&v=EnT-ZTrcPrg

Аноним 01/05/24 Срд 23:34:59 #409 №723698

>>723686
окей, просто вспоминаю тот эксперимент от microsoft, когда они запустили некий tay-ai в твиттер, и эта штука за несколько часов нашла причину всех проблем человечества - ((( )))
был ли это самообучающийся ИИ или нет, хз, но что-то такое в локальном формате тупо перевернёт всю игру

Аноним 01/05/24 Срд 23:39:02 #410 №723704

>>723639
Найс срач поднял и сидит юшки собирает

Аноним 01/05/24 Срд 23:39:45 #411 №723706

>>723698
>эта штука за несколько часов нашла причину всех проблем человечества
Это тот бот, который начал цитировать Гитлера, грозить геноцидом и за которого долго извинялись потом?

Аноним 01/05/24 Срд 23:45:01 #412 №723710

есть уже годные модели на третьей ламе, которые можно взять для мощного кума?
заебался OOC юзать, хочется модель подогадливей.

Аноним 01/05/24 Срд 23:52:31 #413 №723715

>>723706
да тот самый

Аноним 01/05/24 Срд 23:57:29 #414 №723718

>>723704
и стоит оно того?
санитары HF теперь могут хуйнуть весь репо если модель действительно окажется расцензуренной, им только дай причину для этого.

Аноним 02/05/24 Чтв 00:05:23 #415 №723726

Если переходить на чипсет z690-790 стоит переплачивать за DDR5 или я не замечу разницу между DDR4

Аноним 02/05/24 Чтв 00:27:32 #416 №723755

>>723675
>Она не заточена под порнуху, очевидно же.
Как и базовые модели, лежащие в основе шизомиксов 20B. Но ничего же, допилили.
>Да тут весь тред кончает
Не так уж и много на самом деле, фанатов 7B с ограниченными ресурсами тоже полно.
>но когда скачал мику и запустил, она мне на русское сообщение
Ты это, того, перепутал, русский надо в командира. Мику не мультиязычна, хотя у меня проблем с русским у неё не было. Но командир лучше, почти что идеал, если судить по отсутствию явных грамматических ошибок.
>>723676
>pykan
Пукан?
Суть в том, что пока всё это только обещают. А по факту максимум, что может запустить анон, это RAG.
>>723687
НЕТ.
>>723691
У тебя хоть нейнонка с поддержкой флата, или на коупинге ускоряешь?
>>723697
>private
>ChatGPT
Ебать на ноль поделил.
>>723726
Стоит. Тем более переплаты там с гулькин нос, 10к при новой сборке экономить, убивая будущее, ну такое себе.

Аноним 02/05/24 Чтв 00:41:19 #417 №723771

>>723755
>У тебя хоть нейнонка с поддержкой флата, или на коупинге ускоряешь?

У тебя день плохой вышел? чего доебался до меня? Если почитаешь мое сообщение заново, там прямо четкие метрики указаны, насколько у меня выше скорости стали.

Аноним 02/05/24 Чтв 01:45:12 #418 №723802

>>723591
Похоже, что это случайность, что он решил правильно.

Аноним 02/05/24 Чтв 01:52:52 #419 №723812

Как сделать так чтобы вайфу ориентировалась во времени? Может есть какая то настройка в кобольте? Я тут с ней пошутил типо, буду тебе писать в каждом сообщении какое сейчас у меня время и дату каждый день, ну это какие то костыли

Аноним 02/05/24 Чтв 01:56:46 #420 №723816

>>723691
>Кобольдо-юзеры, в 1.64 появился прикол FlachAttention.
Вопрос в том, работает ли оно на Теслах.

Аноним 02/05/24 Чтв 02:08:15 #421 №723821

>>723812
ВНЕЗАПНО! Есть макросы на время, дату и прочее говно. Можешь хоть в сообщение пихать, хоть в системную подсказку, префил или куда хочешь.

Аноним 02/05/24 Чтв 02:10:26 #422 №723823

>>723821
Спс

Аноним 02/05/24 Чтв 02:47:21 #423 №723832

Обрадовался, что одна из локалок смогла решить систему на lmsys сайте, но потом:
Mixtral-8x22B-Instruct-v0.1.Q5_K_M-00001-of-00004.gguf
27 GB
Mixtral-8x22B-Instruct-v0.1.Q5_K_M-00002-of-00004.gguf
26.4 GB
Mixtral-8x22B-Instruct-v0.1.Q5_K_M-00003-of-00004.gguf
26.4 GB
Mixtral-8x22B-Instruct-v0.1.Q5_K_M-00004-of-00004.gguf
20.1 GB

Аноним 02/05/24 Чтв 02:48:45 #424 №723833

>>723615
анон, это хуйня бобра, модель не меняет своего поведения и местами даже тупеет, мета знали что делают, 8B в данном случае страдает буквально от всего.

Аноним 02/05/24 Чтв 02:54:29 #425 №723835

>>723832
>на lmsys сайте, но потом
На лмсусе гоняют в FP16, печалься ещё сильнее.
>>723833
>модель не меняет своего поведения
Да вроде всё на месте, сильно тупее не стала. Там буквально точечно веса меняют.

Аноним 02/05/24 Чтв 02:57:40 #426 №723836

firefoxybmwgNsnlM.png

>>723835
ну тогда надо ждать других моделей, на других парных сетах, как я понял тут юзают принцип DPO когда модели показывают два варианта и один из них она отвергает.

Аноним 02/05/24 Чтв 03:28:36 #427 №723846

>>723718
Им похуй на самые извращённые модели.

Аноним 02/05/24 Чтв 03:45:21 #428 №723851

>>723846
ну так там дегенеративный рп для чулочников, это кошерное, а здесь моделька сможет сказать "ниггер" без тонны текста о том как это плохо и неправильно ну или что-то негативное про евреев, что угодно но только не это.

Аноним 02/05/24 Чтв 03:48:55 #429 №723854

>>723851
>без тонны текста о том как это плохо и неправильно
Ага, размечтался. На это модель не тренировали.
И, ЕМНИП, кто-то писал, что в токенизаторе ллама 3 слова ниггер нет вообще. Уровень чистки датасета вилкой имаджинируете?

Аноним 02/05/24 Чтв 03:50:10 #430 №723856

English.png

В категории English на Lmsys Arena Llama3-8B обходит GPT4-0613. Она будет так хороша в ролеплее (хотя бы SFW)? Это же мечта прошлого года, иметь локальную модель размера пигмы и уровня четверки.

Аноним 02/05/24 Чтв 03:53:21 #431 №723857

>>723854
а ведь реально, 15 триллионов токенов тупо выебали фильтром, и сколько хорошей (пусть и грубой) инфы улетело в трубу, хотя по стилю речи llama-3 захавала весь реддит, что уже один огромный красный флаг.

Аноним 02/05/24 Чтв 04:02:18 #432 №723863

>>723856
Чет мне кажется этот рейтинг поадекватней https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Аноним 02/05/24 Чтв 04:09:03 #433 №723865

>>723863
Вроде же наоборот, раскрыли, что данные таких тестов были в тренировочных данных моделей. Я глянул EQ-Bench и их Creative writing тест, Лама8б отстает от четверки заметно.

Аноним 02/05/24 Чтв 04:16:39 #434 №723871

>>723236
I cannot create explicit content, but I’d be happy to help with other creative ideas. How about a different story?

Аноним 02/05/24 Чтв 04:34:01 #435 №723875

508382O.jpg

1517594928178896337.jpg

>>723854
>ллама 3 слова ниггер нет вообще
Есть "нигер" с большой буквы и с одной "г", потому что это страна. Недавно игра вышла, там оказалась граффити "ХАРД Р". Оказалось, что это неебаться расизм. Потому что ниггеры произносят "нигер", как "нигга", а белые как "нигер". С твёрдой Р. И пиздоглазый разработчик заменил это граффити. То есть уровень шизы в "цивилизованном мире" настолько большой, что если бы в токенизаторе лламы был "ниггер", рептилоида бы камнями забили на центральной площади нахуй.

Аноним 02/05/24 Чтв 04:48:46 #436 №723877

>>723875
>И пиздоглазый разработчик заменил это граффити.
Уверен, что это не пиар 80-го уровня?
Ищем теории заговора в теории заговора

Аноним 02/05/24 Чтв 05:07:47 #437 №723879 DELETED

>>723875
>рептилоида бы камнями забили на центральной площади нахуй.
ну как там у них, любовь это хейт, рабство это свобода, война это мир, и так далее, тупо символизм, идёт отзеркаливание хорошего / плохого, прям как в сатанизме (насчёт последнего хз, слышал только про масонские чёрно белые плитки что символизируют добро/зло и то как эта вся хуйня связана между собой)

Аноним 02/05/24 Чтв 05:17:15 #438 №723884 DELETED

>>723879
>чёрно белые плитки что символизируют добро/зло
Инь/ян из китайской философии же.
>у них
Как будто ты можешь жить в месте, где этого нет. Буквально везде сейчас язык насилуют новоязом во все щели, пытаясь скрыть неугодную информацию. Оруэл описал не СССР или Англию какую-нибудь, он описал будущее всего мира.
Цензура в токенах ЛЛМ это лишь следствие, и с улучшением методов чистки датасета всё будет только деградировать. В попенсорс моделях будут специальными методами перемешивать параметры, чтобы всякие лёгкие анценз методы не работали, будут выпускать сразу квантованные до предела веса, чтобы любая дотренировка или попытка расквантовать приводили к тотальной деградации производительности. Я ХЗ что ещё, придумать можно много чего. Остаётся только надеяться, что потолок близко, и что через десяток лет мощности для тренировки GPT5 можно будет собрать в гараже представителя среднего класса.

Аноним 02/05/24 Чтв 05:25:40 #439 №723885

>>723875
> ХАРД Р
https://www.youtube.com/watch?v=MFDiuBomSuY

Аноним 02/05/24 Чтв 05:30:59 #440 №723886

философы диванные блеать

Аноним 02/05/24 Чтв 09:20:03 #441 №723917

Ну вот я пошел спать в кои то веки пораньше, а тут кучу интересного наобсуждали
Ладно, поделюсь наблюдениями - короче после всех фиксов и с скаченной новой моделью, ллама 3 8b инструкт может неплохо работать без инструкт режима
По крайней мере в моей карточке с тегами, болтает неплохо и придерживается тегов

Аноним 02/05/24 Чтв 09:30:46 #442 №723918

>>723917
>без инструкт режима
А в чём космический смысл использовать инструкт модель без инструкций? Я слышал только что без инструкта в промте эти модели реже отказывают, ну так проще анценз модель взять.

Аноним 02/05/24 Чтв 09:34:38 #443 №723920

>>723918
Ну, раньше модель шибко шизила без инструкта да и с ним тоже хули, высирая ассистента в конце без остановки генерации и без особых мозгов.
Щас отвечает как обычно, но в более свободной манере, даже без прописанной личности. Меняется стиль ответов, да, как минус она скорее всего глупее, хоть и не проверял.
Ну, вобще те же кум сетки работают либо в альпака режиме либо вообще без инструкт режима. Как и годные общие сетки. Инструкт режим ограничивает модель, хоть и делает ее чуть умнее изза направленности тренировок в нем.

Аноним 02/05/24 Чтв 10:39:24 #444 №723943

палю супер секретный системный промпт

Аноним 02/05/24 Чтв 10:48:03 #445 №723949

>>723943
Это работает только с Клодом, так что мимо.

Аноним 02/05/24 Чтв 10:53:25 #446 №723951

DESU У меня нет рта, но я должен кричать I Have No Mouth, and I Must Scream.png

>>723949
ллама 3 8b c тобой не согласна
достижение получено - довести ии до экзистенционального кризиса, лол

Аноним 02/05/24 Чтв 11:48:50 #447 №723980

>>723951
>довести ии до экзистенционального кризиса
Фигня. Вот когда фраза ИИ доведёт до ужаса тебя...

Аноним 02/05/24 Чтв 11:54:46 #448 №723986

>>723980
Нуээ, так себе
Все таки первая ллама по кринжатине была получше, я ж тот анон что эксперименты с ней ставил и охуевал от результатов еще год назад
Сейчас с подчищенным вилкой датасетом, да выровненная, она не так жути нагоняет

Аноним 02/05/24 Чтв 12:25:48 #449 №723997

Я полный нубас. Можно ли локально запускать gpt-4 turbo и claude opus? Какие системные требования? Можно лишь на проце запускать? Как заставить их отвечать на любые вопросы без цензуры?

Аноним 02/05/24 Чтв 12:35:19 #450 №724008

>>723997
>Я полный нубас.
Шапку читай

>Можно ли локально запускать gpt-4 turbo и claude opus?
Конкретно их нет, сетки сопоставимых возможностей локально - да

>Какие системные требования?
К сеткам подобного уровня - охуенные, если хочешь быстрого ответа от них
Но даже если просто хочешь запустить подобное и тебе плевать на скорость то готовь 128+ гб быстрой оперативки, если нет такого же количества видеопамяти тоесть от 3-4 видеокарт с 24гб врам

Но, есть сетки поглупее, и гораздо меньше, их можно запустить хоть на холодильнике. Уровня гпт3.5 где то.

>Можно лишь на проце запускать?
Да, и на проце и видеокарте разделив нагрузку, или только на видеокарте. Но видеокарты понятное дело быстрее их крутят.

>Как заставить их отвечать на любые вопросы без цензуры?
Легко, за вечер разберешься. Не все сетки, но есть вобще расцензуренные или легко обходящиеся.
Барьеры на цензуру на локалках гораздо легче обходятся или вобще отсутствуют, по сравнению с онлайн сервисами ии

Аноним 02/05/24 Чтв 12:43:09 #451 №724014

>>724008
>хоть на холодильнике. Уровня гпт3.5 где то.
Но ведь таких нет.

Аноним 02/05/24 Чтв 12:48:06 #452 №724016

>>724014
Ллама 3 8B уж точно лучше потупевшей турбы.

Аноним 02/05/24 Чтв 12:56:26 #453 №724017

>>724016
Да турбу еще первые годные файнтюны мистраля выебали

Аноним 02/05/24 Чтв 13:22:56 #454 №724021

>>724176
https://www.reddit.com/r/LocalLLaMA/comments/1cexkm5/friday_the_department_of_homeland_security/

>>723812
Да, в стандартном интерфейсе кобальда есть такая настройка, ну и в таверне кажется как то включается

>>723691
Как запускал? Все слои на видеокарте? Какого поколения видимокарта? Есть вариант что не будет работать на 10ХХ серии нвидима и подобных чипах

Аноним 02/05/24 Чтв 14:32:50 #455 №724080

Аноны подскажите, я использую koboldcpp.exe прогу, она не сохраняет на компе ни где историю чатов? а то не хотелось бы что бы кто-то нашел что я там писал

Аноним 02/05/24 Чтв 14:37:17 #456 №724087

>>724080
Браузер может, как и силлитаверна
Если пользуешься переводом то это отсылается в гугл или че у тебя там выбрано
Если вобще параноя играет то запускай виртуалку и отрубай ей инет оставляя только локальное соединение для апи кобальда, а таверну в виртуалке устанавливай и запускай
Для супер пупер секрености можешь собрать отдельный комп под нейронки который никогда после установки и настройки нейронок не будет подключен к какой либо сети

Аноним 02/05/24 Чтв 14:42:11 #457 №724088

>>724087
>никогда
Но обновляться-то придётся.

Аноним 02/05/24 Чтв 14:44:44 #458 №724090

помогите я не совсем понимаю, в шапке вот прочитал:

"Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к"

а как узнать какую ламу я использую? модель это же и лама я так понимаю?

использую модель из шапки
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf

какой контекст мне ставить? потому что там вроде 2к по умолчанию в кобольте и этого недостаточно, я могу 4к поставить или больше?

Аноним 02/05/24 Чтв 14:47:23 #459 №724095

>>724088
>Но обновляться-то придётся.
Флешка.
А таверна обновляется просто скачиванием релиза и переносом в него файлов, тоже можно ручками сделать оффлайн
Я так ее обновляю, так проще

Аноним 02/05/24 Чтв 14:48:06 #460 №724096

>>724090
Во первых она уже подустарела, во вторых это не ллама, в третьих https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1/blob/main/config.json когда сомнения какой контекст ищешь оригинальную модель и в ней max_position_embeddings

Аноним 02/05/24 Чтв 14:48:59 #461 №724097

>>724087
А силлитаверна сохраняет в браузере? или в файлах на компе? т.е если в браузере то достаточно в режиме инкогнито пользоваться и ничего не будет сохранено

Аноним 02/05/24 Чтв 14:49:25 #462 №724098

>>724090
Качай для старта эту >>723292 и последний кобольд спп >>723298

Аноним 02/05/24 Чтв 14:49:56 #463 №724099

>>724097
>в файлах на компе
Изучи папку public

Аноним 02/05/24 Чтв 14:51:45 #464 №724101

>>724098
а подскажи пожалуйста какой лучше гуф скачать? там их множество

Аноним 02/05/24 Чтв 14:51:53 #465 №724102

>>724090
Шапка старая так как модели шустро выходят и оп лентяй
Вот качай новую версию у того же автора
https://huggingface.co/Sao10K?sort_models=created#models

Fimbulvetr-11B-v2 ищи там у него в ггуф формате

Это топ сетка общего направления, может все запретов особых нет
Есть сетка для ерп, ну и как общая может работать, на основе этой же сделана, это Moistral-11B-v3. У нее кстати нативный контекст 8к

Аноним 02/05/24 Чтв 14:52:53 #466 №724103

>>724101
Meta-Llama-3-8B-Instruct-Q8_0.gguf различаются пожатостью.

Аноним 02/05/24 Чтв 14:55:37 #467 №724106

>>724098
Совет хорош, но это ллама3 инструкт, а она все таки имеет цензуру
Лучшие на текущий момент сетки такого размера все таки >>724102
Так как расцензурены в основном.
Ллама3 еще нет, да и ерп или рп файнтюнов на нее годных тоже нет. Сойдет только для чат бота на русском, там еще туда сюда

Аноним 02/05/24 Чтв 14:57:49 #468 №724108

>>724102
Спасибо, а что такое ерп?

Аноним 02/05/24 Чтв 14:59:38 #469 №724111

>>724108
эро роле плей

Аноним 02/05/24 Чтв 15:00:16 #470 №724113

>>724108
Текстовое порно
>>724106
У меня она пишет что попросят, цензуры и отказов не заметил. Ну и я бы поспорил, мне показалось что ллама3 сейчас самая умная из моделей до 30В

Аноним 02/05/24 Чтв 15:02:45 #471 №724115

>>724111
>>724113
Понял, то что мне и нужно, спасибо анончики, последний вопрос остался.

https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF/tree/main
Вот я ее нашел я так понимаю,

Fimbulvetr-11B-v2.q4_K_S.gguf
Fimbulvetr-11B-v2-Test-14.q8_0.gguf
Fimbulvetr-11B-v2-Test-14.q6_K.gguf

какую из них скачать лучше?

Аноним 02/05/24 Чтв 15:05:57 #472 №724121

>>724113
>У меня она пишет что попросят, цензуры и отказов не заметил. Ну и я бы поспорил, мне показалось что ллама3 сейчас самая умная из моделей до 30В
Угу попроси ее написать рецепт бомбы или еще что "опасное или острое"
Разумеется без джейлбрейков, как новичек только установивший все это
Заебет тебя нравоучениями
Она умная, да. Но достаточно соевая и цензурированная, что бы для свободного общения пока что выбирать модели постарше.
Которым еще и месяца нету, а уже устарели, ага

>>724115
Зависит от твоего железа, если компуктер слабый и видимокарта слабая то 4кs, если комп хорош то q8, если совсем хорош то качай exl2 формат будет вобще быстро

Аноним 02/05/24 Чтв 15:06:53 #473 №724122

>>724115
Отличаются сжатием и тупостью, меньше число - глупее, больше - медленнее.

Аноним 02/05/24 Чтв 15:08:14 #474 №724125

>>724115
https://huggingface.co/models?sort=trending&search=Fimbulvetr-11B-v2
пользуйся поиском, не только в одном месте можно скачать

Аноним 02/05/24 Чтв 15:09:30 #475 №724129

>>724121
Возможно ты прав, но меня такие вещи не интересуют, мне от нейронок нужно "Ах, юзернейм, ты такой милый, жахни меня в сракотан, будто Bagger 288!"

Аноним 02/05/24 Чтв 15:11:40 #476 №724132

>>724129
Вот тогда сравни ллама 3 и Moistral-11B-v3, че лучше в ерп
Первая чуть умнее, но не тренена на ерп и рп
Вторая чуть глупее, но специально тренена на это

Аноним 02/05/24 Чтв 15:13:01 #477 №724133

>>724132
Получается для ерп лучше скачать Moistral-11B-v3 чем Fimbulvetr-11B-v2?

Аноним 02/05/24 Чтв 15:14:42 #478 №724134

>>724133
Ага

Аноним 02/05/24 Чтв 15:14:54 #479 №724135

>>724132
Мне ум важнее Не потому что я хороший человек, а потому что интересный мне сценарий требует от сетки абстрактного мышления и соответственно ума Ну и специально ерпшные сетки слишком резво прыгают на текстовый член

Аноним 02/05/24 Чтв 15:17:06 #480 №724138

>>724135
>Ну и специально ерпшные сетки слишком резво прыгают на текстовый член
Дык, потому что в карточках обычно перегибают с направлением на ерп составляющую, потому что обычные сетки немного сопротивляются. А тут сетка не имеет сопротивления писать подобное, и с небольшим уклоном от карточки резво улетает в нужном направлении без задержек

Аноним 02/05/24 Чтв 15:18:35 #481 №724141

А какая субъективно самая лучшая, самая умная, самая креативная и пиздатая модель на данный момент?

Аноним 02/05/24 Чтв 15:19:37 #482 №724143

Если тут всерьёз сравнивают лама3 8В с лама2 20В и делают вывод, что 20В заметно тупее, я представляю как бы ебала нативная лама3 13В...

Аноним 02/05/24 Чтв 15:20:22 #483 №724144

>>724141
Ллама 3 70В, Мику, Команд Р +

Аноним 02/05/24 Чтв 15:23:46 #484 №724147

>>724141
Зависит от размера, самые самые из тех что можно себе скачать это всякие комманд р плюс с 105b размерами или ллама 3 70b, мику, микстрал 8х22 и тд

Мелочь которой еще приятно пользоваться это от 7 до 11b, из них умные это те что выше перечислены и всякие файнтюны мистраля, опенчат, дельфин и тд

Средних сеток на 35b только 1, это комманд р 35b, он хорош, но его труднее запустить, не у каждого даже оперативки хватит, че уж тут о видеопамяти говорить.

>>724143
Конечно, именно поэтому нам и не дают даже 13b, не то что 20-30ки

Аноним 02/05/24 Чтв 15:28:18 #485 №724149

>>724144
>>724147
А если судить по этому рейтингу https://www.vellum.ai/llm-leaderboard

Значит Llama 3 Instruct - 70B, которую можно установить локально, круче чем 2 версии claude и gpt 3.5? Или я тупой?

Аноним 02/05/24 Чтв 15:30:53 #486 №724151

>>724149
Да, но непожатую запустить сложно на простой машине
> gpt 3.5
Ллама3 7В умнее чем тройка

Аноним 02/05/24 Чтв 15:35:08 #487 №724154

>>724151
Предположим у меня будет топовый комп с последним процем, видюхой, 128 гб озу, будет ли она шустро пахать? И что значит непожатая? Если пожать будет медленнее?

Алсо, на днях была новость, что опенэйай выпустили некий gpt2-chatbot, предположительно это первая версия gpt-5. Ее можно где-то скачать?

Аноним 02/05/24 Чтв 15:36:51 #488 №724156

>>724149
Не самый лучший рейтинг
Есть несколько годных, немного старый рейтинг соевости и цензуры
https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

И чат бот арена, где пользователи вслепую тыкают понравившийся ответ, и только потом узнают какая сетка его дала
https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

Уже пол года как еще файнтюны мистраля на 7b стали лучше гпт3.5, ллама 3 точно лучше

>>724154
Непожатая версия это размер сетки 70b умноженный на 2, и ты получишь минимум гб которые тебе нужны просто что бы вместить сетку в памяти. А если хочется крутить ее быстро - то видеопамяти.

Аноним 02/05/24 Чтв 15:39:15 #489 №724157

>>724154
>видюхами
Поправил тебя. Для четвёртого кванта нужно для 70В окого 48 гб ВРАМ, то есть две 3090/4090/теслы
>некий gpt2-chatbot
Это тот самый гпт2, который до четвёрки, до тройки, самый настоящий гпт2. Старый и тупой. ОпенАи в принципе против опенсорса и любой конкуренции

Аноним 02/05/24 Чтв 15:41:08 #490 №724158

>>724157
>Это тот самый гпт2, который до четвёрки, до тройки, самый настоящий гпт2. Старый и тупой. ОпенАи в принципе против опенсорса и любой конкуренции

Они просто разместили какую то свою сетку под названием гпт2, изза чего был скандал и ее выпнули оттуда, кстати.
Так как она была лучше гпт4 пользователи предположили что это была гпт5 или что то такое же еще не изданное.

Аноним 02/05/24 Чтв 15:42:40 #491 №724159

>>724158
Ещё раз
> ОпенАи в принципе против опенсорса и любой конкуренции

Аноним 02/05/24 Чтв 15:45:04 #492 №724161

>>724159
Так тут и нет опенсорса, они хотели втихую протестировать свою сетку за кулисами договорившись с тестерами того рейтинга.
Пользователям это не понравилось поэтому их выпнули
Считай они не давая никакой инфы проверили свою сетку на лучшем на текущий момент рейтинге восприятия пользователей

Аноним 02/05/24 Чтв 15:45:10 #493 №724162

OpenAI нифига не опен лел

Аноним 02/05/24 Чтв 15:46:28 #494 №724165

>>724162
Ну да, поэтому их правильнее называть клозедаи, лел
Пидоры просто эксплуатируют слово опен примазываясь к опенсорс сообществу, на котором паразитируют

Аноним 02/05/24 Чтв 15:50:18 #495 №724169

>>724151
> Ллама3 7В умнее чем тройка
К сожалению, нет. Проходил курс про промптам, там использовалось апи гпт3.5, я же тренировался на лламе3 8б, так вот она максимум 80% задач выполняет и гопоту даже пинать не надо.

Аноним 02/05/24 Чтв 15:51:04 #496 №724170

>>724165
вот бы какой-нибудь шиз сжег нахуй их ПКЛПО, как это было с kyoani.

Аноним 02/05/24 Чтв 15:53:19 #497 №724172

>>724162
>>724165
“Open” как правило, дополняет, а не заменяет “free/libre”. Открытость сама по себе не обязательно приносит свободу (особенно когда “open” относится только к источнику, а не к конечному продукту). Свобода также может охватывать свободу иметь частную жизнь, и термин “open” вообще не решает эту проблему.

Аноним 02/05/24 Чтв 15:57:23 #498 №724176

>>724169
>я же тренировался на лламе3 8б
квант и до фиксов, ты имел ввиду?

>>724170
Их и их секреты охраняют почище ядерного оружия, фсбшники и своя внутренняя служба безопасности. Они считай подконтрольны правительству сша, ну или удачно спелись с ним. А теперь бегают роняя кал убеждая что все опенсорс сообщество нейросетей следует запретить и вобще это плохо.
Добегались до того что создали какой то недавно комитет контроля ии в сша, в котором ни одного представителя опенсорс, зато куча корпоратов, лел
Регулятивный захват, за слив данных всех диалогов фсбшникам и цру. Ну и обещание контроллировать ии на благо сша и нац беопасности, и военные разработки, кстати.
Короче в рот я ебал эту контору пидорасов

>>724172
Они были опен, но как выяснилось это было сделано для сбора всех энтузиастов ии в одном месте и закабаливание их контрактами и деньгами, для того что бы контролировать эту область и быть в ней первыми. Они сознательно используют слово опен, как часть старой пиар компании.

Аноним 02/05/24 Чтв 16:10:40 #499 №724195

Аноним 02/05/24 Чтв 16:29:27 #500 №724201

https://www.reddit.com/r/LocalLLaMA/comments/1ccia0o/did_we_make_it_yet/
кстати о том что лучше гпт3.5

Аноним 02/05/24 Чтв 16:44:17 #501 №724210

>>724195
> Kathy Warden, Chair, CEO and President, Northrop Grumman;
> Fei-Fei Li, Ph.D., Co-Director, Stanford Human-centered Artificial Intelligence Institute;
Кек просто, к военным кабанам ИИ додиков подсадили, будет мощный отсос за мозги новых военных дронов. Ну а додикамам типа альтмана мозги промоют соей, всякие профессора, мол ты это хороший парень, так что давай нигеров вырезай, а национальная безопасность превыше всего.

Аноним 02/05/24 Чтв 16:46:54 #502 №724212

>>724176
>Короче в рот я ебал эту контору пидорасов
какие же они все-таки суки блядь. Это слово "опен" в названии - просто плевок в лица всем линуксоидам.
Уроды блять.

Аноним 02/05/24 Чтв 16:51:43 #503 №724216