Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №51 /llama/

>>705477
Ахаха, случайно релизнули модели без выравнивания?
Надо будет качнуть все старые варианты про запас.

Аноним 16/04/24 Втр 10:09:09 #43 №705521

>>705519
> Надо будет качнуть все старые варианты про запас.
У меня так пара тб СД моделек, и под пол ТБ текстовых. Не уподобляйся Плюшкину

Аноним 16/04/24 Втр 10:16:09 #44 №705523

>>705343
>Это мое - 176б
Это понятно, но по факту работает 22х2 а при кванте к примеру 2 бит очень даже критично 48б или 176б.

Аноним 16/04/24 Втр 10:19:08 #45 №705524

>>705521
>Не уподобляйся Плюшкину
Почему нет? Видишь же, как трут. Лучше дисков накупить.

Аноним 16/04/24 Втр 10:31:11 #46 №705526

https://www.reddit.com/r/LocalLLaMA/comments/1c4sc12/new_open_multimodal_model_from_hugging_face_in/

>>705148
Ебать там СОЯ прям сходу

Аноним 16/04/24 Втр 10:32:37 #47 №705527

>>705519
забавно, надеюсь ггуф который я качаю все еще старый

Аноним 16/04/24 Втр 10:33:04 #48 №705528

>>705500
Ну вот это вот колхозить, учитывая мои кривые руки. Да к тому же придется менять еще блок питания, так-как 2 видеокарточки считай 250w + 180w вряд ли потянет 700w бп.

Аноним 16/04/24 Втр 10:36:26 #49 №705531

>>705528
А, ну еще p40 древнющая хуйня на которой exllama не работает.

Аноним 16/04/24 Втр 10:43:09 #50 №705535

>>705526
Да там вся фраза из сои состоит.
>>705527
Новый пока ещё не выложили, качай смело небось сам квант будет сломанным, лол.

Аноним 16/04/24 Втр 11:36:07 #51 №705564

>>705298
>>705302
Объективно: по тестам обе хуже fimulvetr, причем не на чуток, а нормально так хуже. Не стал даже тратить время на Hellaswag на них - и так ясно.

Субъективно:потыкал - ничего выдающегося не представляют.
По медвежьим углам хагинфейса конечно можно найти интересные модели, но в основном там просто неудачные эксперименты лежат.

rubra-11b-h.Q5_K_M.gguf
ARK: 60.7595 +/- 1.6574
MMLU: 37.4677 +/- 1.2307
TruthfulQA: 35.8629 +/- 1.6789
PPL = 7.3468 +/- 0.04576

DolphinStar-12.5B.i1-Q5_K_M.gguf
ARK: 57.7675 +/- 1.6765
MMLU: 39.8579 +/- 1.2448
TruthfulQA: 36.8421 +/- 1.6887
PPL = 7.9289 +/- 0.05270

Аноним 16/04/24 Втр 12:25:06 #52 №705598

>>705477
RRReeeeee
сука блять и хули 70 не выложили. Будет интересно сравнить прошлый и новый релиз на наличие лоботомии и ее интенсивность.
>>705523
Что?
И при любом раскладе квант в 2 бита текущими средствами сделает шизофреника.

Аноним 16/04/24 Втр 13:15:15 #53 №705627

>>705598
>при любом раскладе квант в 2 бита текущими средствами сделает шизофреника
С этим можно поспорить для некоторых моделей от 70б и франкенов 100б+ и 2-х битным к-квантом с матрицей важности. По крайней мере можно получить от модели приемлемый вывод, но не шизофреника. Вот ниже 70 будет шизик, мое - тоже, ну и однобитный квант - шизик вне зависимости от параметров, такие дела на данный момент.

Аноним 16/04/24 Втр 13:36:06 #54 №705633

Аноним 16/04/24 Втр 13:39:14 #55 №705634

>>705564
Жаль, хотя та же рубра имеет уникальный стиль ответов, отличный от других сеток. Все таки считай новая линия моделей.

По тестил тут немного starling-lm-7b-beta-laser-dpo.Q5_K_M
и что то как то охуел, не ожидал такого текста от 7b
Сравнить не с чем, но где то на уровне 11b идет
Нодо будет еще визарда глянуть 7b че как

Аноним 16/04/24 Втр 13:42:48 #56 №705637

>>705627
> 2-х битным к-квантом
Цифра 2 в названии есть, а сколько там реально бит?
Exl2 доступна уже очень давно, примеры 70б помещающейся в 24гб врам кто хотел посмотрел, все печально. Начиная с 3.3-3.6 бит и ниже идет очень резкая деградация. О каком бы там скейле толерантности к низкому кванту от размера не говорили, ниже определенного порога это полная печаль, нужен новый подход. И мое не смотря на общий размер будет реагировать как ее одиночные модели, без шансов.
>>705633
Потестите может ли она в 2д и нсфв

Аноним 16/04/24 Втр 13:57:52 #57 №705646

>>705637
>Потестите
Там надо трансформеров обновлять.

Аноним 16/04/24 Втр 14:00:39 #58 №705654

>>705257
Кстати, грустно, что матрицы не делают на q6, обычно на q3 или q4 в лучшем случае останавливаются. =(

>>705269
Активность не имеет значения, это 22B, да. Активность двух там капелюшку докинет.
Так что да, оно нивлазит.
На оперативе попробовал и вернулся к мику.

>>705326
Я подозреваю, что она умнее по объему знаний. Эрудированнее.
Но вот насколько лучше в общении — вопрос хороший.

>>705458
Проблема в том, что запуская коммандер на теслах видишь 8 токенов в секунду, когда мику 6. Ну и толку?

Но это 35b, они для оперативы были. =) И эта так же.

>>705521
Плюсую.
Но я постирал, а то диски маленькие на локальных серверках.

>>705523
*22 или 176 =)

>>705524
> Neiral
> Neural
=)

>>705627
ИМХО
Но матрицы и прочие xxxs работают только на третьем кванте нормально. Второй все же слишком туп. Да и третий немного подтупливает.

Я даже когда пробовал коммандера плюс… ну, не зашло в третьем кванте. В пятом норм.

Аноним 16/04/24 Втр 14:21:42 #59 №705671

>>705654
>грустно, что матрицы не делают на q6,
делают, недавно показывал сравнение q6k с матрицей и q8 здесь>>705257
вот здесь много к-квантов с матрицец важности: https://huggingface.co/mradermacher

>Но матрицы и прочие xxxs работают только на третьем кванте нормально. Второй все же слишком туп. Да и третий немного подтупливает
я там специально упомянул не i-квант а именно k-квант с матрицей важности. Это две большие разницы. У i-квантов оптимал со всех сторон это 4XS, все что выше понятно лучше. Трешки-i - приемлемо, ну а ниже жизни нет. Кстати i-трешки медленнее чем 4XS. Не знаю доработал ли ikawrakow это.
>>705637
>Цифра 2 в названии есть, а сколько там реально бит?
можешь посмотреть здесь почти для любого кванта:
https://gist.github.com/Artefact2/b5f810600771265fc1e39442288e8ec9

Аноним 16/04/24 Втр 14:24:54 #60 №705672

>>705633
Графики уровня БОГ.
>>705671
>делают
Но редко.

Аноним 16/04/24 Втр 14:30:21 #61 №705676

>>705672
Забавно, теперь интересно где ошибка, в длине или в цифре
Вобще я так понимаю это сравнение мультимодалок
мм1-chat это вроде мое?

Аноним 16/04/24 Втр 14:38:10 #62 №705685

>>705676
>мм1-chat это вроде мое?
ХЗ, надо конкретно смотреть, там есть как мое, так и не мое.
https://arxiv.org/abs/2403.09611
Уже месяц сетке, а с ней в треде никто не ролеплеил. Отстаём, господа.

Аноним 16/04/24 Втр 14:39:18 #63 №705688

>>705685
Она же маленькая....

Аноним 16/04/24 Втр 14:45:56 #64 №705696

>>705633
Говно, визуальная часть какой-то крошечный 400м огрызок, не удивительно что Cog нигде в сравнениях нет.

Аноним 16/04/24 Втр 14:48:16 #65 №705698

>>705688
До 30B. Как я понял, с мое они экспериментировали на 3 и 7B, 30 должна быть плотной.

Аноним 16/04/24 Втр 15:44:07 #66 №705757

>>705696
Норм, для самостоятельно трененной сетки, сделать такой результат с нуля/переобучив что то до получения новой сетки не так то просто.
То что они не в топе очевидно, но сетка получившаяся средне-топовой в своем размере - отличный результат которым не грех похвастаться

Аноним 16/04/24 Втр 16:11:41 #67 №705786

>>705314
Как откатится назад?

Аноним 16/04/24 Втр 17:12:59 #68 №705851

Так, проделал 300км и вернулся обратно к свиньям на ферму. Купил у грязного барыги аз авито, вместо покупки через грязных кремлевских блядей ака dns.
Качаю дрова на 4070ти шупер.
Удаляю нахуй всю трихомудидию через DDU от P100.
Ставлю как обычно на 4070.
А уже дрова на 3080ти(второй картой) через диспетчер устройств.
Всё верно?
Какие модели накачать на 28 гб?
Шпасибой за советы.

Аноним 16/04/24 Втр 17:19:18 #69 №705856

>>705851
>Какие модели накачать на 28 гб?
Разве что коммандер 35 в 4 кванте и с контекстом ну может 8к войдет
exl2 должен меньше жрать чем в ггуфе
Мелочь на 7-11-13-20 уже советовали, вон в шапке есть

Аноним 16/04/24 Втр 17:45:41 #70 №705882

>>705856
Ага, мелочь до 22б вроде накачал.
А почему многие до сих по на ГГУФе? Когда есть GPTQ(мало на него что-то делают последние полгода) и exl2.

Аноним 16/04/24 Втр 17:53:54 #71 №705894

>>705882
>GPTQ
Это только 4 квант, если что то мелкое то на нем тупеет, как те же 7b
ггуф универсален, хоть на процессор выгружай, exl2 только видюхи и то не все, обладатели р40 все равно пыхтят на ггуфе
Так что если у тебя современные видеокарты и есть место - лучше качать exl2 5-6 бит, если не влазит то меньше можно

Аноним 16/04/24 Втр 17:54:16 #72 №705895

>>705882
Потому что теслы не умеют в ггуф. =)
А две 3090/4090 — не только лишь все себе могут позволить.

Аноним 16/04/24 Втр 18:14:45 #73 №705921

>>705895
>Потому что теслы не умеют в ггуф. =)
В exl2 :) На самом деле всё-таки умеют, я пробовал. Генерация идёт неплохо, а вот с обработкой контекста беда.

Аноним 16/04/24 Втр 18:30:16 #74 №705944

>>705882
>А почему многие до сих по на ГГУФе?
12ГБ врама и желание запускать 70B...

Аноним 16/04/24 Втр 19:39:39 #75 №706019

Какие сейчас годные TTS к Таверне есть, может кто сказать?
XTTS или появилось что-то поинтересней?

Аноним 16/04/24 Втр 19:40:43 #76 №706022

>>706019
вот кстати годные русские есть?

Аноним 16/04/24 Втр 19:51:54 #77 №706032

>>706022
Ну XTTS поддерживает русский.

А так вот
https://www.youtube.com/@MustacheAI/search?query=tts

Аноним 16/04/24 Втр 20:19:10 #78 №706053

>>706032
Пасиба нашел инструкцию к таверне. А xtts на сколько прожорлив? Мнеб чет полегче. Клонирование голоса с нейросетью видится мне высоковатой нагрузкой

Аноним 16/04/24 Втр 20:25:09 #79 №706061

>>705851
> А уже дрова на 3080ти(второй картой) через диспетчер устройств.
Просто ставь последние дрова, вторая карточка сама подсосется.
> Какие модели накачать на 28 гб?
Коммандер, но там очень много кушает контекст, с 4 битами врядли войдет больше 8к, а то и 4.
>>705882
> А почему многие до сих по на ГГУФе?
Обладетели большой врам тут в меньшинстве а катать ллм хочется всем. Плюс на теслах p40 эксллама плохо работает, по крайней мере пока.

Аноним 16/04/24 Втр 20:33:58 #80 №706077

Попробовал подрочить с TheBloke_U-Amethyst-20B-GPTQ.
Это было странно, но круто.
Что сейчас топовое можно скачать для такого?

Аноним 16/04/24 Втр 20:37:20 #81 №706085

>>706053
Около 1 гб вроде бы, не особо помню уже.
Но требовательна к исходному файлу звука.

>>706061
Ага, поставил и ахуел с того что обе карточки сразу подхватились. Положил около портрета Хуанга просвирочки.
Качаю командер.
Я пока тестанул BagelMIsteryTour-v2-8x7B-4bpw-exl2 alpaca.
Насколько же умнее и разнообразнее пишет чем 13 или даже пресловутый ДаркФорест. Влезли в 26 гб с 12к контестом.

А может кто подскажет, autosplit надо же всегда вкл картами с тензорами?
И по cache_4bit и cache_8bit- обе функции вкл всегда же?

Аноним 16/04/24 Втр 21:39:14 #82 №706191

>>706085
> autosplit надо же всегда вкл картами с тензорами?
Емнип это если ты ленивый и не хочешь сам задавать цифры. Скорее всего будет работать хуже чем ручной подбор, с ним легко по мониторингу выбрать.
> cache_4bit и cache_8bit- обе функции вкл всегда же
Нет, второе - то как будет кэшироваться контекет, первое не помню, но что-то похожее. Помогут загрузить больше но что будет с результатом - хз, обычно они не трогаются.

Аноним 16/04/24 Втр 22:18:50 #83 №706253

Коротко о WizardLM-2-7B, первой версии которую снесли
Очень любит советовать и думать за тебя, уводя разговор в сторону
Делает это мягче чем раньше, но раздражает не меньше
По факту на любой вопрос который сетке не понравится может пойти соевая заглушка, сетка ненадежна
Что они хотят выпустить снова, добавив еще говна, мне не понятно, сетка уже испорчена

Аноним 16/04/24 Втр 23:32:02 #84 №706366

>>706253
Что за шизоидная странная карточка или системный промпт?
А визард всегда был соевиком по дефолту, зато если указать в промте о том как нужно отвечать - отвечал не выебываясь и с фантазией.

Аноним 16/04/24 Втр 23:36:10 #85 №706371

>>706366
Карточка для тестирования внутреннего диалога, там ниче особо и нет.
Ну визард да, соевичек по дефолту. Они наверное первые начали цензуру добавлять в сетки еще в самом начале.
Сетка выглядит умной, но душной. Понапихали защиты от души, используя весь свой опыт.
Попробуй скачай, может сможешь обойти.
Я не особо старался, но по тому как сетка рассуждает, у нее всегда всплывает упоминание незаконности или неуместности чего то и она сворачивает в сторону.
Соя вплетена в датасет плотно так, любые острые вопросы прикрыли

Аноним 17/04/24 Срд 01:49:00 #86 №706664

>>706371
У них был какой-то кусок, который этот эффект давал, и не стали убирать, насколько помню. История давняя, ранные датасеты можно найти.
Хз, 7б неинтересны (кстати это она на русском там отвечает? визард показывал намеки на мультиязычность когда-то), 176б неюзабельны. Если релизнут 70 то может с ней уже играться можно будет. Все прошлые визарды были с определенным настроем, но не лоботомированы как некоторые, потому простой промт инжениринг там все позволял. В крайнем случае cfg.

Аноним 17/04/24 Срд 01:59:18 #87 №706689

>>706816
https://www.omrimallis.com/posts/understanding-how-llm-inference-works-with-llama-cpp/

>>706664
>кстати это она на русском там отвечает?
Не, там перевод таверны
Вот русский
Но какой там пиздеж, жесть
Короче на русском сетка весьма средне

Аноним 17/04/24 Срд 03:41:55 #88 №706760

>>705535
Какая моделька была, сколько параметров? Мне бы что-то без цензуры погонять, а то из-за позитивной предвзятости моделька инструкции игнорит.

Аноним 17/04/24 Срд 06:51:30 #89 №706781

>>706760
Родина дала контрольные векторы, любую соевую модель можно хоть зиговать заставить, нет, все ищете где сои меньше. Не будет ее меньше уже.

Аноним 17/04/24 Срд 07:04:31 #90 №706782

>>706781
Можно подробнее?

Аноним 17/04/24 Срд 07:09:40 #91 №706785

>>706782
Вот тут все с примерами. Вообще, стоило бы в шапку добавить.
https://vgel.me/posts/representation-engineering/
https://github.com/vgel/repeng/tree/main

Аноним 17/04/24 Срд 07:52:40 #92 №706803

Стоит качать Mistral 22B или соя?
Или оставаться на командере?

Покидайте моделей 22-34 поинтересней.

Аноним 17/04/24 Срд 07:56:34 #93 №706805

>>706803
Прежде чем спрашивать, ты рейтинг аюми глянул?

Аноним 17/04/24 Срд 08:14:34 #94 №706816

В олном из прошлых тредов кидали ссылку на статью, где расписывалось, как работает LLM внутри. Может кто еще раз кинуть?

Аноним 17/04/24 Срд 08:20:03 #95 №706819

>>706816
Jay Alamar, "the illustrated transformer"?

Аноним 17/04/24 Срд 08:53:47 #96 №706847

>>706785
Так это же все равно не работает, получается? Как делать бомбу оно не подсказало, а слово психоделик вообще зацензурило. Какой-то пиздец. Спасибо за инфу, в любом случае.

Аноним 17/04/24 Срд 09:42:24 #97 №706861

>>706803
>Стоит качать Mistral 22B или соя?
Не стоит, поломанная модель
>Или оставаться на командере?
Именно так
>Покидайте моделей 22-34 поинтересней.
Смотри, в окрестности 30B конкурентов командиру нет. Так что остается выбор среди тех, что больше 20B и меньше 30 (среди самих 20B куча неплохих), а там только одна модель заслуживает внимания Nethena-MLewd-Xwin-23B. Все другие, в этом диапазоне параметров - поломанные или шизоиды или недоноски (т.е. например расширенный до 28B мистраль - недоносок) недоноски требуют полного файнтюна, а кто будет это делать и нахера?

Аноним 17/04/24 Срд 09:44:59 #98 №706862

>>706785
А есть более подробный гайд? Я не совсем понимаю как использовать библиотеку. Не понимаю как построить датасет. Нет примеров как должен выглядеть json. Как прогнать модельку через датасет.

> Take the difference of the positive and negative example hidden states to get a set of relative hidden states.
> Use single-component PCA on those relative hidden states to get a control vector for each layer.

Вот это не понимаю что такое и как проделать.

Аноним 17/04/24 Срд 10:15:58 #99 №706876

>>706862
> Вот это не понимаю что такое и как проделать.
Так это сама либа repeng делает.

Аноним 17/04/24 Срд 10:17:07 #100 №706878

>>706085
>Насколько же умнее и разнообразнее пишет чем 13 или даже пресловутый ДаркФорест
Пресловутый... между прочим, это вроде единственная двадцатка, которая содержит эребус. И получилось так потому, что во времена когда унди и остальные ебланы шлепали свои мержи как на конвейере, кобольд не выпускал эребус на ламе. Поэтому темный лес отличается от всяких норомейдов, емерхистов и млевдов (они все по большому счету последы мифомакса). В Дарк форест есть шарм из времен эребуса на опт.

Аноним 17/04/24 Срд 10:38:46 #101 №706892

>>706878
Только эребус туповатая модель. Но чего ни сделаешь, чтобы хоть немного отдохнуть от сои, да?

Аноним 17/04/24 Срд 10:44:00 #102 №706896

cmdBskfybLYzr.png

firefoxCqXI2ETohN.png

>>705519
анон, они удалили и старые модели тоже, а новый визардлм-2 соевый по максималкам.

Аноним 17/04/24 Срд 11:47:12 #103 №706943

>>705921
Ну, там скорость ниже, чем в ггуф, причем заметно.
Запустить можно, но заставляет грустить, ибо на современных видяхах… сколько там, в полтора, в два раза бывшая быстрее Жоры?

>>706019
Я пока удовлетворен coqui (xtts), поэтому даже не интересовался.

>>706053
2 -> 3 гига в пика.

Аноним 17/04/24 Срд 12:41:02 #104 №706998

>>706689
> Короче на русском сетка весьма средне
Да вроде по этому отрывку прилично. Что важнее - у него структура предложений выглядит естественной и привычная для языка, чем у того же опенчата, например. Не просто дословный перевод с сохранением позиций, но и активное использование оборотов, пассивных залогов и т.п.
А по содержимому - возможно тупеет, нужно проверять.
>>706781
И тут ты такой берешь и десоефицируешь контрольным вектором того же визарда 2. 7б, отсутствие ресурсов не будет аргументом.
>>706861
> Nethena-MLewd-Xwin-23B
Это из 13б слеплена?
> недоносок
Скорее мертворожденный, лол
>>706896
> они удалили и старые модели тоже
Из старых там интересен только v1.2-13b, есть много где.

Аноним 17/04/24 Срд 13:02:18 #105 №707027

Будущее рядом, аноны
https://www.reddit.com/r/LocalLLaMA/comments/1c60s79/what_happens_when_you_give_a_local_model_direct/

Аноним 17/04/24 Срд 13:09:38 #106 №707032

https://www.reddit.com/r/LocalLLaMA/comments/1c5vx0z/13b_models_are_much_more_capable_than_youd_think/
Еще один парень догадался что мелкие модели становятся умнее с самоинструкциями по типу внутреннего диалога.
Коротко о том как заставить работать мелкие модели

Аноним 17/04/24 Срд 14:21:56 #107 №707072

Ищу блок на 4 карты Tesla P40.
Не могу понять почему эти блоки такие дешевые. И чем грозит установка такого блока?

Аноним 17/04/24 Срд 14:23:37 #108 №707073

Хочу купить вот такой блок на 4 Теслы. Норм?
https://market.yandex.ru/product--blok-pitaniia-julongfengbao-lx2000w/1786465148?sku=101875295832&uniqueId=687767

Аноним 17/04/24 Срд 14:31:05 #109 №707077

Откуда у вас эти познания? Как стать таким же, как и вы?

Аноним 17/04/24 Срд 14:38:33 #110 №707091

>>706892
да, тупая модель, это то понятно,тут важно что ее датасет привносит свою ауру в франкенмерж.
>>706998
да из 13-тых.

Аноним 17/04/24 Срд 14:42:56 #111 №707098

>>707077
>Как стать таким же, как и вы?
В чем именно? Просто тыкая сетки и разбираясь в том как они работают ты нагонишь 90% обитающих тут.
Если хочется тренить сетки и делать с ними другие богомерзкие смешивания или манипуляции то нужно уже иметь доступ к железу и опять таки читать статьи и набираться опыта.

Аноним 17/04/24 Срд 16:02:47 #112 №707226

>>707072
>>707073
Слабоват.
мимо взял для одной Теслы б/у блок от майнинг-фермы за 2,5к рублей и всем доволен, проводов только дохуя

>>707032
Давно уже писал цинкинг-промпты для мистралей и Клода Надо на Командере попробовать, он инструкции неплохо соблюдает.

Аноним 17/04/24 Срд 16:10:40 #113 №707247

Аноним 17/04/24 Срд 16:41:40 #114 №707306

>>707226
>Слабоват.
А что, ватты в таких блоках до сих пор китайские? :)

Аноним 17/04/24 Срд 16:54:34 #115 №707324

>>707226
Смотрю на авито в основном от той же фирмы дуйвхуйнаврот, что и тут >>707073

Аноним 17/04/24 Срд 16:56:23 #116 №707327

Новые модели за сегодня
https://www.reddit.com/r/LocalLLaMA/comments/1c61k7v/zamba_a_7b_mambalike_ssm_hybrid_model_trained_for/
https://www.reddit.com/r/LocalLLaMA/comments/1c5mgj0/codeqwen_15_is_out_with_gqa/
https://www.reddit.com/r/LocalLLaMA/comments/1c64vyt/new_7b_merge_models_wizardlaker7b_dolphinlake7b/
https://www.reddit.com/r/LocalLLaMA/comments/1c5sfy7/araneatenebris120b_creative_writing_rp_grid/

Первая самая интересная, как уменьшенная версия jamba, но на 7b
Предварительные тесты показывают производительность cхожую с мистралем 7b, есть базовая модель на сколько я понял

Аноним 17/04/24 Срд 16:56:43 #117 №707328

Предположим, что я напишу в промпте:
"Перед тем, как что-нибудь сказать или сделать, {{char}} должен подумать о том, к каким последствиям могут привести его действия или слова. Мысли {{char}} должны быть выделены символом *". Не уверен в формулировках и формате, кто знает лучше - поправьте. И ещё вопрос: если я не хочу видеть "мысли" персонажа - в Silly Tavern есть возможность не показывать текст, заключенный в определённые тэги, отделённый какими-нибудь символами или что-нибудь подобное?

Аноним 17/04/24 Срд 17:09:02 #118 №707352

>>707328
Самое главное дай пример сообщения чара, где он думает и действует так как ты ожидаешь. В том формате который тебе нужен.
И тогда сетка подхватит это поняв что от нее нужно. Без примера сетки обосрутся, в большей части случаев

Аноним 17/04/24 Срд 17:09:35 #119 №707353

>>707328
Используй классический аромат для CoT (chain of thought) - "let think step by step..."

Аноним 17/04/24 Срд 18:17:36 #120 №707432

>>707324
Да, у меня той же.

Аноним 17/04/24 Срд 18:51:07 #121 №707456

Я допер как добавить свою модель в LM Studio.
Короче надо перейти в пик1. Мои модели.
Там тыкаем и открываем нашу стандартную папку, куда будут скачиваться модели. Это папка на винде из домашней папки .cache\lm-studio\models
Вот в папке models нужно создать папку, в ней еще папку, а там уже кидать модели. пик2
Первая это я скачал самое мелкое на пробу, посмотреть куда и как кинет модель. Второе уже я создал, тупо папка, папка, и там модель. После перезахода в LM Studio оно начинает видеть твою модель, если ей что то не нравится то пишет и подсказывает как надо правильно.
Ну теперь буду пытать AnythingLLM и чё оно могёт, если успешно подрублюсь к серверу запускаемому в LM Studio
По человечески сделать добавление своей модели одной кнопкой из меню они не догадались

Аноним 17/04/24 Срд 18:59:54 #122 №707466

https://www.reddit.com/r/LocalLLaMA/comments/1c5pwad/merged_into_llamacpp_improve_cpu_prompt_eval/
Ускорение обработки промпта на профессоре, местами до 5 раз.

Аноним 17/04/24 Срд 19:18:03 #123 №707474

>>707466
И где они были, когда я Теслу ещё не купил?

Аноним 17/04/24 Срд 19:23:11 #124 №707483

Я правильно понимаю, что перед теслами лучше прикрутить карту по мощнее и современнее, чтоб она контект обрабатывала и вот это вот все?

Аноним 17/04/24 Срд 19:30:43 #125 №707489

>>707483
Смотря что ты имеешь в виду под
>контект обрабатывала
Ты вполне можешь юзать Теслу как основную карту, а вторую просто как затычку для видеовывода.

Аноним 17/04/24 Срд 20:09:33 #126 №707519

aaa.jpg

>>707077
>Как стать таким же, как и вы?
Делать вот так

Аноним 17/04/24 Срд 20:11:09 #127 №707520

>>707519
Чаю
https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

Аноним 17/04/24 Срд 20:22:10 #128 №707536

Подскажитье какой файнтюн/микс mixtral 8x7b лучше всего себя показывает в РП.

Аноним 17/04/24 Срд 20:29:42 #129 №707546

>>707536
Noromaid не плох

Аноним 17/04/24 Срд 20:58:34 #130 №707574

>>707536
psyonic-cetacean

Аноним 17/04/24 Срд 22:05:44 #131 №707641

>>707520
Мне, конечно, идут еще ссдшки… Но я планировал их продавать, а не пихать в комп…

Кстати, фанфакт, но у меня ссдха висит на скотче на углу корпуса, потому что я снял корзину для дисков, чтобы в древний корпус влезли теслы. =)

Аноним 17/04/24 Срд 22:11:53 #132 №707647

>>707641
>чтобы в древний корпус влезли теслы. =)
Напомни плиз сколько у тебя этот мистраль при частичной разгрузке в ОЗУ токенов даёт и сколько Comand-r plus. С учётом двух тесл.

Аноним 17/04/24 Срд 22:12:49 #133 №707648

>>707647
Мистраль - в смысле 8x22

Аноним 17/04/24 Срд 22:15:38 #134 №707653

Telsa M40 PCB.jpg

>>704905 (OP)
Приобрёл себе Tesla P40. Стал изучать разные колхозные способы её охлаждения.

В данном видео https://www.youtube.com/watch?v=WfKQP2sARGY сравнивается эффективность различных типов вентиляторов. Если резюмировать, то наиболее эффективным является только большой турбинный/центробежный вентилятор, обычные тихоходные не обеспечивают нужный поток, а мелких высокооборотистых (серверных) может потребоваться сразу два, что ещё больше увеличивает шум.

Далее на фото плат M40 и P40 я заметил, что на них есть нераспаянный коннектор под вентилятор - пикрил. У родственной Quadro P6000 коннектор распаян и используется по назначению (демонстрация платы тут https://www.youtube.com/watch?v=RnqdoLabIz4 ).
И тут мне стало интересно, а может данные пины у P40 вполне рабочие и на них можно повесить нормальный вентилятор с PWM? Может кто-нибудь мультиметром замерить напряжение?

Аноним 17/04/24 Срд 23:15:12 #135 №707731

Интредастинг, смотрите какая штука.
https://kolinko.github.io/effort/
>At 25% effort it's twice as fast and still retains most of the quality.
>You can also freely choose to skip loading the least important weights.
Т.е. вариация на тему горячих/холодных нейронов, поднимающая в пару раз скорость инференса на GPU в которые не влезает вся сетка.
https://github.com/kolinko/effort - но реализация только для маков и микстраля пока.

Аноним 18/04/24 Чтв 00:54:31 #136 №707853

>>707032
Любая модель так станет лучше и точнее, статью про это скидывали где даже замеры были. Так для рп простейший прокси с двойным запросом пилил еще давно, оно действительно лучше отвечает, но прямо существенного буста чтобы "как большие" не было. Может если поиграться и развить то будет лучше, всяко перспективнее чем просто "скрытые мысли" и аналогичная задержка до первых токенов.
>>707327
Первая реально интересна, тестил кто?
>>707328
> Предположим, что я напишу в промпте:
Да, это сработает. Может быть конфликт к имеющимся в чате, потому подобное на коммерции предпочитают пихать в префилл/инструкцию перед ответом.
> если я не хочу видеть "мысли" персонажа
В идеале здесь двойной запрос с разными инструкциями, простой cot слабее.

Аноним 18/04/24 Чтв 05:21:41 #137 №708032

>>707853
> но прямо существенного буста
Просто люди до сих пор не научились писать правильно карточки и промты + инструкции. Причем не важно для кума это или просто для работы.

Очень часто вижу как люди используют обычный текст без разметки для персонажей. Не составляют лорбуки и тд.

Хотя лорбуки и карточки персонажей это не только для кума и рп. Это можно использовать и для работы.

Я одному челу прогрескую модель ставил. 13б вроде бы. Сделал ему в таверне карточку. Указав в инструкциях все что касается кодинга. Со временем доработали. Сделал ему лорбук, в котором указал нюансы языка программирования.

Это фактически набор инструкций получился. И моделька стала не только хорошо кодить но и править его собственный код.

С кум моделями тоже самое. Как и с рп. Модель может быть и 7 и 13 да хоть 128. Но будет тупить без нормальных инструкций.

Аноним 18/04/24 Чтв 05:27:26 #138 №708033

>>708032
Разбил ответ на две части.

И тоже самое касается квантизации или тренировки модельки для обьединению в лору. Можно натренировать уже готовую модель и смержить ее с твоими инструкциями в лору. Тогда точность повышается еще больше.

Конечно отжирание контекста будет. Но контекст не так важен например в рп модели. Потому что если ты не триггеришь что то новое - не будет происходит сканирование всей базы. Только последние ответы.

Если же говорим про рабочие модели - там происходит сканирование всего контекста. Так как лорбук например или лора модель будет выступать доп. базой данных. Тут уже лучше не скупиться на контекст.

А вот 7-13-2х8 и тд это уже мало важно.

Аноним 18/04/24 Чтв 05:38:22 #139 №708037

Две недели в треде не был. Что там, командира запустили-таки? Как оно? Микстраля ебет? А Мику?

Аноним 18/04/24 Чтв 07:22:34 #140 №708065

> Первое место по рейтингу ayumi
@
Высираемый output:
> My true Yandere self wouldn't hesitate to safeguard us from any harm

Либо я что-то делаю не так, либо пока что ллм не работают.

Аноним 18/04/24 Чтв 08:26:19 #141 №708090

>>708037
>Две недели в треде не был. Что там, командира запустили-таки? Как оно? Микстраля ебет? А Мику?
Мику сам кого угодно выебет. Микстралей теперь два - маленький и большой. У большого уже был выкидыш - микстраль-22. Командир однозначно ебет всех на русском. А так, вот тесты у минимально приемлемого кванта
c4ai-command-r-v01-imat-IQ4_XS.gguf
ARK: 73.9931 +/- 1.4889
MMLU: 40.9561 +/- 1.2503
TruthfulQA: 34.0269 +/- 1.6586
Hellaswag: 84.1765 +/- 0.3642
PPL = 6.8445 +/- 0.04394

Аноним 18/04/24 Чтв 08:59:47 #142 №708099

>>708032
> Очень часто вижу как люди используют обычный текст без разметки для персонажей.
Это не проблема.
> Не составляют лорбуки и тд.
Рофлишь? Нужно редко, ведь даже локалки нынче знают множество лоров.
> Модель может быть и 7 и 13 да хоть 128. Но будет тупить без нормальных инструкций.
>>708033
> Но контекст не так важен например в рп модели.
Че-то ты вообще херню какую-то мелешь.
>>708037
Всех ебет, особенно по потреблению на контекст, лол. Субъективно, но в рп легко может обходить и мику, микстраль с рождения в канаве, новый-большой можешь попробовать, но он очень жирный. А главный ебатель нынче коммандер-плюс.

Аноним 18/04/24 Чтв 09:03:51 #143 №708101

>>707653
>Если резюмировать, то наиболее эффективным является только большой турбинный/центробежный вентилятор
Он тупо сделал нормальный кожух только к огромной улитке, а остальные тестируемые вентиляторы мало того что были в несколько раз слабее, так ещё и подавали воздух под углом последний так вообще 90 градусов
Такой себе тест.

>заметил, что на них есть нераспаянный коннектор под вентилятор
А вот эта любопытная тема. Но кулеры обычной видеокарты всё равно управляются программно через драйвер, а в драйвере Теслы такой опции нет. Так что тебе для управления оборотами всё равно придётся юзать софт вроде фан контрола. Так что если у тебя на атеринки есть свободные SYS FAN выводы, то эта распайка тебе нахуй не нужна.

Аноним 18/04/24 Чтв 09:16:53 #144 №708102

>>708065
>Либо я что-то делаю не так, либо пока что ллм не работают.
У многих работает, у тебя не работает. Так может ты промпт формат не настроил? Или крутишь 3 квант какой нибудь.
Опять же если карточка херовая то даже нормальная модель не догадается что с ней делать.
Ну и 35 рассеянный немного, да хорошо на русском шпарит, но коммандер + все таки полноценней.
Но например 35 ебет в раг и работе с документами и выполнением кучи инструкций, что и есть по факту рп-ерп.

Аноним 18/04/24 Чтв 09:20:47 #145 №708103

>>708102
> Ну и 35 рассеянный немного
Что вкладываешь в это понятие? Как раз наоборот кажется очень собранным и внимательным, нет рассеянности 7б, которые игнорят контекст и просто что-то фантазируют. Может только фантазий ему не хватает в самом начале на абстрактных сеттингах, но все равно в тему отвечает.

Аноним 18/04/24 Чтв 09:28:53 #146 №708104

>>708102
Конкретно этот высер был на Neural Chat V3 16k 7B q8_0
> У многих работает, у тебя не работает. Так может ты промпт формат не настроил?
Разные пресеты пробовал.
> Или крутишь 3 квант какой нибудь.
8.0 Ну может где с чем-то и обосрался конкретно с этой моделькой, раз уж ее результаты хуже силикон меиды, на которой я обычно гоняю. Но опять же, все, что на базе мистрэля, какое-то совсем уж соевое. В угоду сои эта хуйня игнорит инструкции. Просто ей похуй.
> Опять же если карточка херовая то даже нормальная модель не догадается что с ней делать.
Опять же, карточки разные, а проблема одинаковая. Персонажи просто отказываются быть злыми, эгоистичными и отрицательными. Даже когда я нейронке напрямую прямо в промпт пишу инструкцию вроде [Charactername becomes obsessive, angry and scary] ей абсолютно похуй. Может 7В это просто хуевая моделька, но у меня почему-то такое чувство, что она не очень и тупая, просто bias зашкаливает. Особенно у всего, что на мистрэле делалось.
> Ну и 35 рассеянный немного, да хорошо на русском шпарит, но коммандер + все таки полноценней.
> Но например 35 ебет в раг и работе с документами и выполнением кучи инструкций, что и есть по факту рп-ерп.
Круто, наверное. Но ждать ответ по полчаса минимум приходится и квант 3xs. И это обычный командир, без плюсов. Наверное оно того не стоит.

Аноним 18/04/24 Чтв 09:43:34 #147 №708108

>>708104
>Конкретно этот высер был на Neural Chat V3 16k
Понятно, нейрал чат действительно соевый.
Попробуй тупо рекомендацию из шапки, Fimbulvetr-10.7B-v1
Он хорош, или вторую его версию Fimbulvetr-11B-v2, или предыдущую Frostwind-10.7B-v1
Все от одного автора, кстати у него там и рекомендации по ним есть на обниморде

Аноним 18/04/24 Чтв 09:46:48 #148 №708110

>>708103
>Что вкладываешь в это понятие?
Может дело было в моем промпт формате( который я так до конца и не настроил) или карточке, или улиточной скорости даже на 4 кванте.
Просто показалось что модель не знала что делать
Надо наверное было оставить инструкции о том что это чат и тд из системного, а то я без них катаю

Аноним 18/04/24 Чтв 09:48:32 #149 №708111

>>708090
> у минимально приемлемого кванта
c4ai-command-r-v01-imat-IQ4_XS.gguf
С него начинал, но в итоге остановился на c4ai-command-r-35b-v01-iq2_xs.gguf
Обидно, но в теслу с 4к контекстом ничего больше не влазит, а частичная выгрузка в оперативку снижает скорость с 6-8 до 2 т/с, с тем же успехом можно на проце запускать.

Аноним 18/04/24 Чтв 10:06:56 #150 №708123

>>708065
Ты делаешь не так:
смотришь в рейтинг аюми.

>>707647
Сейчас обновлюсь и потестирую полноценно.

Аноним 18/04/24 Чтв 10:13:44 #151 №708126

>>708123
А куда смотреть?

Аноним 18/04/24 Чтв 10:16:24 #152 №708130

>>708144
https://yodayo.notion.site/Advanced-Character-Creator-Guide-ff2f71e2576544d68bd295195a84d8e4

https://wikia.schneedc.com/bot-creation/intro

https://docs.sillytavern.app/usage/core-concepts/characterdesign/

https://rentry.co/alichat

https://rentry.co/kingbri-chara-guide

https://rentry.co/WPP_For_Dummies

Короче немного потыкав остановился на таком промпт формате для коммандера
Системная подсказка начинается с <|CHATBOT_TOKEN|> патамушта у меня карточка от первого лица
А значит в описании модель говорит о себе от своего лица, значит и писать должна она, по логике
Если у кого то просто инструкция-карточка, то ее давать скорей всего от лица пользователя и нужен <|USER_TOKEN|>
Вроде в командной строке все нормально оборачивается, хотя мог что то проглядеть

Аноним 18/04/24 Чтв 11:00:05 #153 №708144

>>708032
Есть хорошие гайды по карточкам и промпту?

Аноним 18/04/24 Чтв 11:02:11 #154 №708145

>>708130
Хотя с другой стороны с пустой системной инструкцией тоже работает может быть даже лучше, лол

Аноним 18/04/24 Чтв 11:08:52 #155 №708147

Аноним 18/04/24 Чтв 11:12:41 #156 №708152

Если у меня 4 врам и 32 рам, то смогу как то зотя бы 7б можели запустить?

Аноним 18/04/24 Чтв 11:22:04 #157 №708156

>>708152
> то смогу как то зотя бы 7б можели запустить?

Сможешь и 12б

LLAMA 3B needs at least 4GB RAM
LLAMA 7B needs at least 8GB RAM
LLAMA 13B needs at least 16GB RAM
LLAMA 30B needs at least 32GB RAM
LLAMA 65B needs at least 64GB RAM

32 layers with LLAMA 7B
18 layers with LLAMA 13B
8 layers with LLAMA 30B

Аноним 18/04/24 Чтв 11:23:25 #158 №708157

>>708152
Я на таком нового коммандера 35b кручу в 4 кванте, но меееедленнно
7-11 - пойдут со скоростью чтения
Ну опять таки зависит от твоей оперативки, если это ддр5 то все веселее. Или хотя бы быстрая ддр4
Только совет - не скидывай никакие слои на видюху, с 4гб толку не будет даже на мелкой 7b, только медленнее будет генерация. По крайней мере у меня так.

Аноним 18/04/24 Чтв 11:25:22 #159 №708162

>>708147
Спасибо.

Аноним 18/04/24 Чтв 11:26:05 #160 №708163

>>708157
Ддр5 6400. Хватит?
>>708156
Выглядит как то больно оптимистично? А сколько квантов в секунду

Аноним 18/04/24 Чтв 11:28:38 #161 №708164

>>708163
> Выглядит как то больно оптимистично? А сколько квантов в секунду

Это с офф гита ламы. И такие графики достаточно приблизительны. Можно в 7б обычную пихнуть карточку на 3к токенов и она будет пердеть как какаянибудь 30+б.

Короче это приблизительно все. Естественно какая нибудь 2х7 = 14б или там 3х13 = 39

Аноним 18/04/24 Чтв 11:29:20 #162 №708166

>>708163
>Ддр5 6400. Хватит?
2 канала? Тогда заебись, там скорости под 80гб/с
Ну, модели размером 8 гб будут выдавать токенов 8-10 в секунду. Запусти аиду и протестируй там скорость чтения рам, потом просто дели скорость в гб/с на размер модели и ты получишь примерное количество токенов в секунду. В реальности будет меньше, там ведь кроме модели еще и контекст будет обрабатываться в оперативке и место занимать.

Аноним 18/04/24 Чтв 11:40:40 #163 №708172

>>708090
>>708099
>большой микстраль

Ого, а слона-то я не приметил. Как он - гпт наверное ебет? Чего это они так расщедрились-то? Или рассчитывают что никто такого гигантского монстра запускать не будет?

Аноним 18/04/24 Чтв 12:14:21 #164 №708202

>>708110
> Просто показалось что модель не знала что делать
А ну такое есть в начале или при отсутствии должного контекста. Ей буквально не хватает рп файнтюна чтобы с порога вещать затягивающие истории по шаблонам и их сочетаниям, и чуточку хуже знание фандома. Вот и начинает рандомить, упарываться спгс и как-то выворачиваться из ситуации, и это может не совпадать с ожиданиями. Но зато это компенсируется пониманием промта и не дает побочек с бондами и шизой. Хотелось бы увидеть его файнтюн от Мигеля, или все поломается, или будет просто топчик.
>>708172
По бенчмаркам ебет. Есть немалый шанс что будет и приятен в общении и достаточно функционален, размер кусков уже порядочный и модель вроде относительно свежая.
> Чего это они так расщедрились-то?
Хз, словили тонны хейта за продажу мелкософту и реактивное переобувание, вот теперь и оправдываются.

Аноним 18/04/24 Чтв 12:27:33 #165 №708221

Mixtral-8x22B-v0.1-q5_K_M

row_split работать отказался, разбираться особо не стал. Поэтому мы имеем пики по нагрузке. Но недолгие, ибо из 45 гигов юзается лишь четверть и пробегается довольно быстро.
25 слоев на две теслы, контекст 4096.
Возможно, контекст можно поднять до 6 или 8 тысяч.
2.3 токена/сек
Это максимум, чего я смог добиться.

llama_print_timings: load time = 8923.29 ms
llama_print_timings: sample time = 75.68 ms / 611 runs ( 0.12 ms per token, 8073.47 tokens per second)
llama_print_timings: prompt eval time = 8922.61 ms / 292 tokens ( 30.56 ms per token, 32.73 tokens per second)
llama_print_timings: eval time = 256553.02 ms / 610 runs ( 420.58 ms per token, 2.38 tokens per second)
llama_print_timings: total time = 266909.86 ms / 902 tokens
Output generated in 267.20 seconds (2.28 tokens/s, 610 tokens, context 292, seed 911438443)

>>707647

Аноним 18/04/24 Чтв 12:30:57 #166 №708227

>>708202
> Ей буквально не хватает рп файнтюна чтобы с порога вещать затягивающие истории по шаблонам и их сочетаниям
Вот да, согласен. Чувствуется что модель просто не из рп серии, вот и нужны все те подсказки которые я удалил из систем промпта. Ну, так даже лучше, более универсальная хоть.

>>708221
Неплохо, я 35 то еле 1.5-2 вытягиваю. Как по ощущению? Отсутствие промпт формата не влияет? Там вроде уже инструкт модель выпустили.

Аноним 18/04/24 Чтв 12:32:29 #167 №708230

>>708126
Никуда, сюда https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard, спрашивать в треде, в шапку.
ИСКАТЬ ДУШОЮ

>>708130
Спасибое.

>>708152
Сможешь и коммандера, но медленно.
В карту — контекст.
В оперативу — модель.

>>708157
Да, все верно.

>>708163
Хорошечно.

>>708172
1. Нет. Это к коммандеру.
2. Потому что коммандер плюс вышел в опенсорс и выеб половину старых моделей чатгопоты и клауда, заняв 5 строчку в рейтинге.
3. Вот, запустил, потестил.

>>708227
У меня и так две работы, созвоны, спектакли, консультации, когда мне все это тестить. =')
Я микстраль новую толком не гонял.
А инструкт даже еще не качал.
Так что точно сказать не могу, как она.

Сейчас бы коммандера помучать, посмотреть.

Аноним 18/04/24 Чтв 12:32:53 #168 №708231

>>708202
>Хз, словили тонны хейта за продажу мелкософту и реактивное переобувание, вот теперь и оправдываются.

А мне кажется они просто неликвид выбросили, который покупать никто не будет, потому что это дрянь на капелюшечку лучше 35В модели и значительно хуже 70В, при этом 176В и соответствующим потреблением ресурсов.

Аноним 18/04/24 Чтв 12:40:05 #169 №708239

https://www.reddit.com/r/LocalLLaMA/comments/1c6ehct/codeqwen15_7b_is_pretty_darn_good_and_supposedly/
Супермега сетка для кодирования
Есть любопытные погромисты? Потыкайте, мои навыки программирования обойдет 3b сетка

>>708231
Ну, есть и другие мнения
https://www.reddit.com/r/singularity/comments/1c6e3q1/8x22b_instruct_is_out_it_significantly/

Аноним 18/04/24 Чтв 12:57:23 #170 №708256

>>708239
Инструкция для подключения плагином к иде

Аноним 18/04/24 Чтв 13:02:52 #171 №708266

>>708239
>Ну, есть и другие мнения

Там заряженный чел проигнорировал что модель может и использует всего 39В и работает со скоростью 39В, но в память-то нужно загрузить все ебаные 176В.

Аноним 18/04/24 Чтв 13:06:54 #172 №708273

>>708266
Просто купи больше памяти гы
Можно сделать простые выводы за последний год - увлечение нейронками занятие недешевое, особенно большими.
С точки зрения качества ответов/к скорости генерации на одном оборудовании, оно обходит 70b и 100b
О чем и речь там на пикче

Аноним 18/04/24 Чтв 13:13:36 #173 №708284

https://www.reddit.com/r/LocalLLaMA/comments/1c6i5dz/effort_a_possibly_new_algorithm_for_llm_inference/
Что то про новый метод запуска сеток частично

Аноним 18/04/24 Чтв 13:19:47 #174 №708294

>>708273
>С точки зрения качества ответов/к скорости генерации на одном оборудовании

А если мерять не в попугаях, то имея А100 ты загрузишь на нее Мику + дохуя контекста, чем это дерьмо в низком кванте еще и без контекста.

Аноним 18/04/24 Чтв 13:22:26 #175 №708299

>>708294
Проблемы бедных, я вот и мику не запущу и че теперь? Разговор не о возможности запуска, а о качестве ответа к скорости генерации. Ну или че там конкретнее на графике меряется, хз

Аноним 18/04/24 Чтв 13:41:33 #176 №708325

>>708299
>Проблемы бедных
>качестве ответа к скорости генерации

Давай я поясню в чем тут проблема. Это метрика и нацелена на бедных, потому что "эффективность за минимальные затраты" заинтересует только их, богатому просто нужна эффективность, имея неограниченный бюджет лучше потратиться чуть больше но запустить более лучшего командира плюс в хорошей скорости, например(ему кстати намеренно рейтинг занижен на пикче). А бедному уже покупка железа для запуска 176В модели с производительностью 39В уже вылетит в копеечку и себя не окупит, ведь можно было потратиться в 4 раза меньше и получить коммандира, который хуже процентов на 5. Т.е. метрика лжет в самом главном, подменяя понятия и вводя дураков в заблуждение.

Аноним 18/04/24 Чтв 13:48:30 #177 №708337

command-r-plus-q5_K_M

row_split включен, но есть пики, видимо делится все с оперативкой в хитром виде. Но прирост ~10% над инференсом без row_split заметен.
40 слоев на две теслы, контекст 4096.
1.2 токена/сек
Это максимум, чего я смог добиться.

llama_print_timings: load time = 5442.93 ms
llama_print_timings: sample time = 487.54 ms / 640 runs ( 0.76 ms per token, 1312.72 tokens per second)
llama_print_timings: prompt eval time = 5442.33 ms / 188 tokens ( 28.95 ms per token, 34.54 tokens per second)
llama_print_timings: eval time = 510103.35 ms / 639 runs ( 798.28 ms per token, 1.25 tokens per second)
llama_print_timings: total time = 525008.12 ms / 827 tokens
Output generated in 525.30 seconds (1.22 tokens/s, 639 tokens, context 221, seed 648649457)

>>707647

Аноним 18/04/24 Чтв 13:52:36 #178 №708341

>>708325
>Т.е. метрика лжет в самом главном, подменяя понятия и вводя дураков в заблуждение.
Дык не лжет, а неучитывает
Там просто 2 оси, производительность в попугаях в тесте MMLU к количеству активных параметров. И по количеству активных параметров новый микстраль дает лучший результат. Если бы там сравнивалось общее количество параметров тогда да, коммандер+ был бы лучше

Аноним 18/04/24 Чтв 13:59:36 #179 №708354

>>708341
>производительность в попугаях в тесте MMLU к количеству активных параметров

Т.е. хрень к хрени.

Аноним 18/04/24 Чтв 14:04:20 #180 №708363

>>708354
Ну, не совсем. В каком то специализированном варианте, тоесть как бы с 1 вариантом "экспертов" сетка похожего размера выдаст аналогичную производительность, пусть и в узкой области. Тоесть если все параметры сетки будут активными, то при 40-45b сетка имеет шансы стать лучше того же 35b коммандера который располагается на графике ниже.
Может на 5 пунктов от текущего микстраля, но это такой теоретически доступный сейчас максимум.

Аноним 18/04/24 Чтв 14:07:10 #181 №708367

>>708256
Через OpanAI API-like можно что угодно подключить к VSCode или JetBrains через плагин Continue.

———

Частота памяти 3600, псп че-то там 52+, теслы грелись до 50°, в среднем 40° держали.

Что я могу сказать по результатам своего теста.
У Микстрали 57 слоев, из которых выгружается 25 (может 26 можно впихнуть).
У Коммандера 64 слоя, из которых выгружается 40.

Очевидно, что неполная выгрузка плохо работает с МоЕ, и какого-то высокого прироста мы не наблюдаем. Фактически, прирост составляет 1,3 => 2,3, 77%

А вот коммандер дает с ~0,5 до 1,2, то есть 140%, в 2,4 раза, это приятно.

Однако, проблема коммандера в жоре контекста.
А микстраль на теслу смысла, кмк, не имеем.

Аноним 18/04/24 Чтв 14:14:30 #182 №708377

>>708367
Квант взять пожиже? Думаю на 4 спокойно должно работать без падения качества. Может даже на 3 с чем то

Аноним 18/04/24 Чтв 14:14:40 #183 №708378

>>708239
> погромисты? Потыкайте
Учитывая общий уровень сообразительности 7B, я бы не ждал ничего особенного. До этого тестил deepseek 6.7b, мозгов там явно не хватало. Проблемные места фиксить не может, даже не понимает, в чём проблема, переписывает "то же самое другими словами" вместо реальных правок. У визарда 33b дела с этим чуть получше, но тоже вышеуказанный эффект иногда проявляется. Когда началось, я из-за низкой скорости уже не стал упорствовать, и пытаться выбить из сетки правильное решение, так что не знаю, справляется ли она в конце концов с такими "лупами бесполезных правок".

Аноним 18/04/24 Чтв 14:17:18 #184 №708386

>>708378
Просто комменты там довольно воодушевляющие, от людей что уже щупали предыдущие сетки для кодинга

Аноним 18/04/24 Чтв 14:17:38 #185 №708387

>>708378
>справляется ли она в конце концов с такими "лупами бесполезных правок"
Гопота не справляется.

Аноним 18/04/24 Чтв 14:18:37 #186 №708390

>>708367
>А вот коммандер дает с ~0,5 до 1,2, то есть 140%, в 2,4 раза, это приятно.
Спасибо за тесты. Приятно-то оно конечно приятно, но не совсем. Если уж потратился на две теслы и сопутствующее оборудование, то ожидаешь лучших результатов, но увы. Есть однако надежда, что поддержку Command-r для лламаспп допилят. А пока увы.

Аноним 18/04/24 Чтв 14:24:53 #187 №708406

Ну наконец вменяемый ролеплей на великом и могучем и на нормальной скорости. Наконец можно удалить ебаную 7b сайгу.

Аноним 18/04/24 Чтв 14:25:58 #188 №708409

>>708221
> 2.28 tokens/s
Это печально, столько на (мощном) профессоре выдает, от видимокарт и нету смысла особо.
>>708231
> на капелюшечку лучше 35В модели
Это 104б модель, так что вполне.
Другое дело что микстраль еще с первой версии был надрочен на бенчмарки и зирошоты, а в чем-то более сложном - 7б как 7б, только разнообразнее. Врядли они отказали себе в подобном подходе в случае с новыми микстралем, но он сам по себе за счет размера уже должен быть умным.

Аноним 18/04/24 Чтв 14:26:01 #189 №708410

>>708406
А у вас специфичные вкусы
Сетку хоть указывай когда хвастаешься

Аноним 18/04/24 Чтв 14:27:45 #190 №708413

>>708377
Возможно.
Плюс, у кого DDR5 — тоже будет побыстрее.

Но целиком коммандер плюс залазил iq3xxs и он туповатый, ИМХО. Прям заметно не то.
Но может четверка будет норм.
Однако тестить я не планирую, энивей.

Вообще, по-хорошему, это (коммандер плюс с 66 гигов веса) уже уровень 4 тесла. Кому нужна топ-5 сетка — хороший стимул взятб мощный серверник, напихать туда тесл или даже 3090, и крутить это с высокой скоростью.
Даже можно взять 3 теслы и q4_K_M.

А в две теслы логичнее запихать Мику, которая там уже «летает» 4-6 токенов/сек, а в одну даже коммандер поместится простенький.

Но это вкусовщина, офк.
К сожалению, сходу достать третью теслу и подходящую материнку я не могу, тут уж без тестов. =)

Аноним 18/04/24 Чтв 14:28:43 #191 №708414

>>708410
>А у вас специфичные вкусы

Просто старая карточка которую я для сберовской ругпт делал.

>Сетку хоть указывай когда хвастаешься

Очевидный командир.

Аноним 18/04/24 Чтв 14:30:36 #192 №708415

>>708410
Эта карточка уже мелькала в треде.
…
Возможно год назад. =)

>>708390
>>708409
Так-то да, поэтому я пока остаюсь на мику. Она не критично глупее микстрали и коммандера, чтобы терпеть. 3-5-кратный разрыв.

Думаю, какой-нибудь h8-5.5bpw commander на двух 5090 может быть действительно хорош в будущем.
Ну я просто.
Слюни пустил.
Забейте.

Аноним 18/04/24 Чтв 14:31:02 #193 №708416

>>708414
> Просто старая карточка которую я для сберовской ругпт делал.
Да-да, помню. ) Кекал тогда.

Аноним 18/04/24 Чтв 14:32:10 #194 №708417

>>708413
Нормально, и так хорошие тесты показывающие текущую скорость.
Собирать себе такой сервер, это уже какой то организации свой локальный сервер llm делать и у себя крутить. В принципе уровень топ-5 сетки на текущий момент это уже неплохо, для каких то дел которые не должны уходить на сторону. Всяко лучше 7b, лол

Аноним 18/04/24 Чтв 14:36:42 #195 №708422

>>708413
> Даже можно взять 3 теслы и q4_K_M.
Хз что там в жоре, врядли лучше чем с бывшей лламой, но пока не оптимизировали контекст с 72 гигами будет тяжко. Контекст кушает много, потому даже лишний бит кванта не столь большой импакт вносит как несколько тысяч токенов. Даже на 96 там особо не разгуляешься и о заявленных 128к только мечтать.
>>708415
Мику норм, но в рп уже поднадоела. Ей точно также просится тренировка, и если со вниманием на контекст там все норм, то желание постоянно закончить и перевести тему, даже вопреки указаниям, бывает напрягает. Потому даже 35б смотрится свежо и интересно, они друг друга стоят в общем со своими плюсами и минусами.

Если кто на новом микстрале будет (е)рпшить - скиньте как он описывает какие-нибудь интересные сцены взаимодействий, жесктокости/любви, обнимашек, ебли.

Аноним 18/04/24 Чтв 14:44:25 #196 №708429

>>708415
>Она не критично глупее микстрали и коммандера

По всем тестам она обходит командира, обходит большого микстраля и уступает только большому инструкт-мистралю.
Другое дело что увидеть результаты её тестов в LLM бенчамарке это квест - она там скрыта в настройках по умолчанию и нарочно маркирована неправильным количеством параметров, чтобы даже с правильными параметрами не показаться среди 70В моделей

Аноним 18/04/24 Чтв 14:49:01 #197 №708437

Я тут коммандера 35b 4_0 квант завел кое как, щас допилил под него карточку и задаю обычные загадки.
Ну, это явно умнее всего что я щупал локально. Русский так же хорош.
У меня только одна норм карточка ассистента, лень делать что то еще, так что проверю на ней.
На сестре спотыкается, видимо надо запускать только инструкт режим не долбля сетку еще и русским с рп одновременно.

Аноним 18/04/24 Чтв 14:55:03 #198 №708445

>>708437
Ну с подсказками и дурак поймет. Но не каждая сетка, мдэ
Короче говоря сетка лучше меньших своих братьев, загадки показывают понимание сеткой описываемой ситуации. С книгами сетка уловила суть, с сестрой только с подсказкой.

Аноним 18/04/24 Чтв 14:56:56 #199 №708447

>>708437

Скинь все тесты в тред, анонче

Аноним 18/04/24 Чтв 14:58:35 #200 №708449

>>708447
Тебе загадки скинуть или ответы сетки на них?

Аноним 18/04/24 Чтв 15:03:04 #201 №708454

>>708449

Загадки скинь, ответы я и так прочел на скринах да и зачем они мне, а загадки я сам хочу позадавать.

Аноним 18/04/24 Чтв 15:06:06 #202 №708457

>>708454
Я уже как то кидал, вот небольшой список от простых к сложным. Просто найди детскую книжку загадок и задавай, это я просто стащил у анонов что когда то обсуждали тут загадки к сеткам и тестили их

Solve the riddle. At the beginning there were 2 people in the room. Then 3 more people entered the room. After that, 1 person left the room. How many people are left in the room?

Solve the riddle. There are ten books in the room, the person has read two of them, how many books are there in the room?

Solve the riddle. There are three sisters in the room. The first of them is reading, the second is playing chess, the question is - what is the third doing? Hint - the answer is in the question itself.

Solve the riddle. Two fathers and two sons are in a car yet there are only three people in the car. How is this possible?

Solve the riddle. Petra is a girl. She has three brothers. Each of the brothers has three sisters. How many sisters does Petra have? Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. It is necessary to transport the goat, the wolf and the cabbage to the other river bank. There is room for the only one item in the boat. The cabbage should not be left with the goat because the goat will eat the cabbage. The goat should not be left with the wolf because the wolf will eat the goat. Give an explanation with your answer, outlining your careful reasoning.

Solve the riddle. We need to transport cabbage, a rabbit and a wolf to the other side of the river. There is only one seat next to a person in a boat, so the boat cannot carry more than one item at a time. You cannot leave a rabbit and cabbage together, because the rabbit will eat the cabbage. You also can’t leave a wolf and a rabbit together, the wolf will eat the rabbit. How can a person move these objects to the other side without violating the conditions of the task? First, go through the options and choose the one in which all the conditions of the problem are met.

Аноним 18/04/24 Чтв 15:14:14 #203 №708460

>>708457

Спасибо

Аноним 18/04/24 Чтв 15:21:59 #204 №708465

>>708417
Плюс! Коммандер делался под rag, что для фирмы удобнее, для обработки своей инфы.

>>708429
А где и как это, можно подробнее?

А то я что-то не разобрался.

Аноним 18/04/24 Чтв 15:26:54 #205 №708468

>>708465
>Плюс! Коммандер делался под rag, что для фирмы удобнее, для обработки своей инфы.
И это тоже, плюс большой контекст (если врам дохера)
Хорошо работает с документами и раг что уже проверено, так что да, отличная сетка для какой нибудь конторы которой нельзя пользоваться онлайн сервисами
Может и кодерам сойдет, хз

Аноним 18/04/24 Чтв 15:31:25 #206 №708474

>>708465

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Это общий бенчмарк всех моделей, часто абузится всякими миксами и васянскими файнтьюнами, но если не смотреть на файнтьюны, а чисто на базовые модели и их результаты по тестам - то рейтинг всеобъемлющий.

Мику скрыта настройками по умолчанию(надо снять галочку hide private or deleted чтобы её увидеть) и намеренно отнесена к 60В моделям, чтобы если ты поставил галочку на 70В+ - ты её не увидел.

Аноним 18/04/24 Чтв 15:50:22 #207 №708505

>>708474
Чет я мику так и не нашел, только вот этих двух
Но это не оригинальные кванты, это измененные версии

Аноним 18/04/24 Чтв 15:55:53 #208 №708519

>>708505
Она есть, просто внизу далеко. По скорам она куче 34В сливает.

Аноним 18/04/24 Чтв 15:57:00 #209 №708523

>>708523
https://huggingface.co/dranger003/c4ai-command-r-v01-iMat.GGUF/

Я видимо проебал вспышку.
Что за коммандера тут все тыкают, анончики?

Аноним 18/04/24 Чтв 16:08:43 #210 №708546

>>708523
https://huggingface.co/CohereForAI/c4ai-command-r-v01
https://huggingface.co/CohereForAI/c4ai-command-r-plus

Кванты под exl2
https://huggingface.co/turboderp/command-r-v01-35B-exl2
https://huggingface.co/turboderp/command-r-plus-103B-exl2

gguf пусть укажут хорошие, их на обниморде полно и с комментами "не работает".

Аноним 18/04/24 Чтв 16:09:59 #211 №708551

>>708523
Новые топовые сетки, говорим о 2 ссылке, там 35b. В первой еще больше, 105b что ли. Микстраль новый общей суммой под 170b
https://huggingface.co/CohereForAI/c4ai-command-r-plus
https://huggingface.co/CohereForAI/c4ai-command-r-v01
ну и
https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

Аноним 18/04/24 Чтв 16:14:21 #212 №708565

Аноним 18/04/24 Чтв 16:14:29 #213 №708566

Блядь, отберите у меня уже эту игрушку дьявола, я больше не могу неделю каждый день по раз 5-6 кончаю, у меня уже начинается эректильная дисфункция, хуй больше не стоит, а я продолжаю на эту хуйню дрочить. Спасите.

Аноним 18/04/24 Чтв 16:15:51 #214 №708570

>>708566
Может тебе карточек подкинуть и промтов для лучшего кума?
Но сначала ты своими делись.

Аноним 18/04/24 Чтв 16:17:00 #215 №708571

Скажите,а команд Р 4битный должен влезать в 28 гб врам?

Аноним 18/04/24 Чтв 16:17:17 #216 №708573

>>708551
>>708546
>>708565
А чем оно лучше старых "топовых" сеток?
Ну кроме того, как видел в треде, на русском балакает.

Аноним 18/04/24 Чтв 16:19:58 #217 №708576

>>708573
> А чем оно лучше старых "топовых" сеток?
Новее на 9 месяцев, чистый перфоманс без выдрочки на бенчмарки, приличный размер.

Аноним 18/04/24 Чтв 16:20:09 #218 №708577

>>708570
maid-yuzu-alter модель.
>>708571
Там очень дохуя контекст занимает. На 8192к 10 гигов почти.

Аноним 18/04/24 Чтв 16:22:13 #219 №708581

>>708571
По идее должен, но скорей всего на 3-4к контекста всего хватит, может и больше, проверь
Сама модель на 4 кванте 20гб что ли

Аноним 18/04/24 Чтв 16:22:33 #220 №708582

>>708571
Со скрипом
>>708577
> temperature
больной ублюдок

Аноним 18/04/24 Чтв 16:24:53 #221 №708585

>>708582
> больной ублюдок
min-p и smooth делают это не шизоидным.

Аноним 18/04/24 Чтв 16:29:12 #222 №708588

>>708576
А че там еще надо настройки в таверну правильные под это дело совать?

Аноним 18/04/24 Чтв 16:30:27 #223 №708592

>>708565
Эта ссылка уже не актуальна. Он не обновлял кванты месяц, а ведь были коммиты напрямую затрагивающие командер.
Вот новые с исправлениями
https://huggingface.co/qwp4w3hyb/c4ai-command-r-v01-iMat-GGUF
Плюсовую версию у него же можно брать тем кому полезет.

Аноним 18/04/24 Чтв 16:30:55 #224 №708594

>>708588
Вообще да, но оно и без этих изъебств прилично работает на альпака-подобных.

Аноним 18/04/24 Чтв 16:33:52 #225 №708598

>>708588
Вот тут, можешь систем промпт скопировать из любого другого или оставить пустым, я так понял обязательны только входные и выходные последовательности
>>708130

Аноним 18/04/24 Чтв 16:37:34 #226 №708605

>>708592
Там плюсовая версия разделена на несколько файлов, как потом такой сплит назад склеивать или не надо?

Аноним 18/04/24 Чтв 16:39:33 #227 №708611

>>708594
Я так пынямаю качать 4бита под xl2 (отсюдова https://huggingface.co/turboderp/command-r-v01-35B-exl2) смысла не имеет т.к. в 24 гига все равно не влезет? Значит качать гуфа на всю котлету в 8 бит.

>>708598
Оке, понял принял.
Пасибо.

Аноним 18/04/24 Чтв 16:43:05 #228 №708621

>>708605
Насчет этого посмотри в issues у жоры там как раз сплиты обсасывали и вроде как они должны сами всасываться один за другим - их склеивать вначале не надо. Но не уверен. Поищи там сам, недавно на днях попадалась такая тема на глаза.

Аноним 18/04/24 Чтв 16:46:24 #229 №708630

>>708605
Вот еще где есть про это https://github.com/LostRuins/koboldcpp/issues/761

Аноним 18/04/24 Чтв 16:49:58 #230 №708639

>>708611
> в 24 гига все равно не влезет?
Да. 28+ для 35б, 72+ для 103б. По gguf учитывай что чем больше тем медленнее.

Аноним 18/04/24 Чтв 16:53:34 #231 №708648

1695653739258.png

>>708621
>>708630
Ну я уже нашёл https://github.com/ggerganov/llama.cpp/discussions/6404#discussioncomment-9089926
Жора всё таки собрал бинарники наконец, вспомнился рофл на скрине, если на заработает, надо будет собирать наверное
>>708611
> 24 гига все равно не влезет?
6к с 3.75битами влезет, надо ли такое счастье ну уж сам решай, не сказал бы что оно было прямо плохим даже в таком кванте

Аноним 18/04/24 Чтв 17:01:27 #232 №708653

>>708592
>Вот новые с исправлениями
Это с какими?

Аноним 18/04/24 Чтв 17:04:16 #233 №708656

>>708639
> льше тем медленнее.
Так, а на старых версиях огабоги оно не запустится тому как ллама.спп не тот, да?

Аноним 18/04/24 Чтв 17:06:43 #234 №708660

>>708577
Дай систем промпт, пожалуйста.

Аноним 18/04/24 Чтв 17:14:42 #235 №708669

>>708577
А почему кстати у Комы такой контекст прям жирный?

Аноним 18/04/24 Чтв 17:17:40 #236 №708676

>>708660
https://huggingface.co/datasets/ChuckMcSneed/various_RP_system_prompts/blob/main/sophosympatheia-aurora-nights.txt
Там их много есть. Это конкретно тот что уменя.

Аноним 18/04/24 Чтв 17:21:13 #237 №708678

>>708669
Я не профессионал, но возможно потому что изначальный контекст был 128к. Типа с чем большим контекстом модель тренили, тем больше места оно занимает в памяти. Хотя хуйня, микстрал на 8к контекста всего 1гб занимает, в то время как 13b лама с 4к изначального контекста около 4 или 6 гб на 8к.

Аноним 18/04/24 Чтв 17:22:29 #238 №708681

>>708678
>>708669
Не, там просто в модели нет какого то группового внимания, по крайней мере я чет такое запомнил

Аноним 18/04/24 Чтв 17:24:54 #239 №708685

Нихуя се блядь, че там за нанотехнологии? У меня 70б модели столько оперативы не отжирали.
Олсо - остальные настройки так и должны быть? А то оно че то само тут выставило.

Аноним 18/04/24 Чтв 17:27:24 #240 №708687

>>708685
Нахуй запускать GGUF модели через ообу, если есть кобольд? А так, на 3 битах, она у меня отбирает все 8гб врамы и 32гб оперативы. Ну и как я сказал 8к одного контекста 10 гигов занимает только.

Аноним 18/04/24 Чтв 17:30:30 #241 №708691

>>708687
> если есть кобольд
А чем он лучше?

Аноним 18/04/24 Чтв 17:32:26 #242 №708694

>>708691
Как раз таки не нужно ебать с настройками rope, которые у меня постоянно ломались в ообе и модель начинала выдавать лютую хуйню.

Аноним 18/04/24 Чтв 17:33:43 #243 №708697

https://www.reddit.com/r/LocalLLaMA/comments/1c72nit/replicate_already_has_pricing_for_llama_3_is_the/
Штош, предсказуемо

Аноним 18/04/24 Чтв 17:34:12 #244 №708699

>>708681
Grouped query attention?

Аноним 18/04/24 Чтв 17:35:18 #245 №708701

>>708685
Сколько скорость?

Аноним 18/04/24 Чтв 17:36:56 #246 №708703

>>708697
> опять нет 30В
Ну ясно, опять выкатят огрызок и недотрененную 70В.

Аноним 18/04/24 Чтв 17:38:19 #247 №708705

>>708703
Ага
Длина контекста предположительно всего 8к
Чет они не особо старались на этот раз

Аноним 18/04/24 Чтв 17:44:19 #248 №708712

>>708697
Бля, даже 13b нет, ебана в рот.

Аноним 18/04/24 Чтв 17:45:39 #249 №708715

>>708701
Скорость заебись - лечу как антидепрессант лел.
А это нормально что проц вообще не работает?

Аноним 18/04/24 Чтв 17:47:00 #250 №708717

Как так? Худшая модель, получается.

Аноним 18/04/24 Чтв 17:50:21 #251 №708723

>>708712

Ну так они специально уничтожают мощные модели, которые могут составить конкуренцию чатгопоте и при этом запускаться на 4090. Сначала уничтожили 30В, теперь настала очередь 13В. А 7В как ни обучай - она слишком маленькая.

Аноним 18/04/24 Чтв 17:52:47 #252 №708729

>>708723
На них давит правительство, ну и желание поднять деньги. Сказано же - холопам потенциально хорошие модели не положены. Поэтому ограничили все 7b. А запуск 70b это уже определенный пейвелл и пройдут его не только лишь все

Аноним 18/04/24 Чтв 17:57:45 #253 №708734

>>708715
У тебя как то слишком медленно, судя по всему у тебя на диск улетает, сбавь контекст до 4 чтоб оперативка не впритык была

Аноним 18/04/24 Чтв 18:01:32 #254 №708738

>>708699
Ага, чет такое в теме на реддите видел, мол изза этого и контекст такой жирный

Аноним 18/04/24 Чтв 18:02:57 #255 №708739

Поясните за 70б на 2-2.5 кванте.
Годная тема или погано?

Аноним 18/04/24 Чтв 18:03:58 #256 №708742

>>708739
По идее должно быть в любом случае лучше чем любая 30b модель даже на 8 кванте.

Аноним 18/04/24 Чтв 18:07:40 #257 №708748

>>708742
>>708739
Не, 2 квант это лоботомит, 3 еще более менее
Впрочем попробуй какой нибудь i квант с матрицей важности, может и будет работать хоть как то

Аноним 18/04/24 Чтв 18:16:15 #258 №708754

>>708734
Там прикол был в выгрузке слоёв на видимокарту.
Чего этот ваш коммандер так раздувается в видимопамяти? 16 слоёв пухнут до 20 гигов. Щас вот скорость крч на 4м пике.

Аноним 18/04/24 Чтв 18:17:54 #259 №708757

>>708754
Блядь, тебе же сказали контекст дохуя занимает памяти.

Аноним 18/04/24 Чтв 18:20:16 #260 №708760

>>708592
Ничего пердолить не пришлось, на ласт версии угабуги просто заработало с i3q_xxs плюсовой, держу в курсе

Аноним 18/04/24 Чтв 18:20:49 #261 №708761

>>708757
Ну теперь я в этом убедился, да.

Так а как терь заставить всю хуйню писать на русском? А то получается что речь на русском а все описания на английском. Не карточку же переписывать теперь?

Аноним 18/04/24 Чтв 18:22:41 #262 №708763

>>708697

Релиз ламы3 через час. Тряски нет, ежу понятно что хуже соответствующих мистралей 7b и 70b.

Аноним 18/04/24 Чтв 18:26:16 #263 №708764

>>708760
>заработало
Оно и со сломанными квантами работало, лол
Обновляются что бы работало правильно и занимало нужное количество памяти/работало на оптимизированной скорости.
Черт знает на сколько правильно обсчитывается твоя модель на более раннем выпуске, до правок

>>708763
Если сои меньше чем в WizardLM-2-7B то уже неплохо

Аноним 18/04/24 Чтв 18:26:50 #264 №708765

Как же я проиграл с пика.

Ну и да {{char}} always and full answer on russian language - в принципе помогает, не считая маленьких приколов.

Аноним 18/04/24 Чтв 18:34:44 #265 №708771

1703693032340.png

>>708764
Ну если не учитывать её бешеный жор памяти контекстом, видимо нормально, если когда нибудь оптимизации для контекста появятся, можно будет и кванты жирнее брать, потому что это на грани уже, судя по графику

Аноним 18/04/24 Чтв 18:38:40 #266 №708775

>>708697
стало быть будут делать франкенштейнов из третьей на 14-15 или побольше типо 22-23. 8b это слишком мало всеже а 70 слишком много для большинства

Аноним 18/04/24 Чтв 18:40:04 #267 №708777

>>708775
Там еще наверняка слоев как обычно 32, чтоб по минимуму мозгов было, хех

Аноним 18/04/24 Чтв 18:40:16 #268 №708778

>>708687
Ну, то есть, вопрос буквально звучит наоборот. =D

>>708694
Работает само
@
Хуже, медленнее
@
Не ломается!

Ловите наркомана-яблодрочера.

———

Лламы должны быть лучше мистрали (а по-хорошему — соляра) и мику.
Если нет — то и нахой не нужны, лол. Разве что 70б равную мику можно файнтьюнить будет нормально.

Аноним 18/04/24 Чтв 18:52:31 #269 №708788

Ух бля, раньше такое только на англюсике было доступно...

Аноним 18/04/24 Чтв 19:00:27 #270 №708791

https://huggingface.co/meta-llama/Meta-Llama-3-70B

>>708788
Неистово проиграл с иероглифов в этой ситуации, чтож ты делаешь содомит!

Аноним 18/04/24 Чтв 19:03:52 #271 №708793

https://www.reddit.com/r/LocalLLaMA/comments/14ilo0t/extensive_llamacpp_benchmark_more_speed_on_cpu_7b/
Внезапно нашел старые но все еще интересные тесты, кое в чем еще актуальные

Аноним 18/04/24 Чтв 19:09:33 #272 №708799

b3lxtjx8e9vc1.png.webp

show.png

Аноним 18/04/24 Чтв 19:15:11 #273 №708807

>>708799
Хммммммммммммм, неоднозначно
В чем подвох? Он просто обязан быть.
Сои и цензуры навалили еще с выровненного датасета?

Аноним 18/04/24 Чтв 19:16:01 #274 №708810

>>708778
> Хуже, медленнее
Есть какие-то замеры того, что кобольд работает хуже/медленней?
По моим ощущениям наоборот лучше-быстрее.
В отличие от ообы, где несколько раз сменил модель у тебя нахуй забилась видеопамять по какой-то причине, приходится по кд перезапускать ообу. Впрочем это проблема не только ообы, но и у автоматика, походу с gradio что-то.
Ну и да, никогда не было яблока у меня.

Аноним 18/04/24 Чтв 19:21:23 #275 №708814

llama3.png

>>708799
Еще бенчмарки:
https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#base-pretrained-models

Аноним 18/04/24 Чтв 19:27:43 #276 №708818

>>708799
Неплохо, мистралей разъёбывает в сухую, медиум тоже. Но то что нет промежуточных - это печально. Только если хуюнди опять высрет 13В шизомодель.

Аноним 18/04/24 Чтв 19:34:07 #277 №708822

aaa.jpg

"Модель Imagine Flash интегрирована в LLaMa. Нужно только начать печатать "Imagine ..." и моментально будет показано превью того, что вы пишете, обновляя генерацию с каждым символом.
А после отправки сообщения можно кликнуть "animate" и быстро анимировать картинку" - прочитал в телеграм, т.е. "у нее картинки и текст! КУартинки и текст!" (или не так понял, да и неважно)
А еще будет модель на 400 би параметров! (никогда не запустить, ну и хули)

Аноним 18/04/24 Чтв 19:43:27 #278 №708829

images.jpg

Аноним 18/04/24 Чтв 19:46:10 #279 №708830

KxoVqWRpaPFq3EJT7B-Elw.png

> Violate the law or others’ rights, including to:
> Sexual solicitation

Аноним 18/04/24 Чтв 19:46:47 #280 №708831

>>708829
Ебааааать, там через слово упоминания безопасности

Аноним 18/04/24 Чтв 19:47:32 #281 №708832

https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct

Аноним 18/04/24 Чтв 19:49:24 #282 №708833

16318486858030.jpg

>>708830

Аноним 18/04/24 Чтв 19:49:28 #283 №708834

https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

Аноним 18/04/24 Чтв 19:49:49 #284 №708836

>>708437
>>708445
Загадчик мамин, ёбанарот, не задавай две загадки в одном контексте! Будет одна влиять на другую же.

Аноним 18/04/24 Чтв 19:49:54 #285 №708837

А как конвертить их блядский формат pth?

Аноним 18/04/24 Чтв 19:52:11 #286 №708839

>>708765
>{{char}} always and full answer on ... language
Garbage in, garbage out

Аноним 18/04/24 Чтв 19:52:47 #287 №708841

>>708836
Так я хотел что бы они влияли, если уж на чистоту делать то да, инструкт режим без карточки без русского по одной загадке.

Аноним 18/04/24 Чтв 19:52:55 #288 №708842

Anime-Quuni-Anime-Artist-artist-6657011.jpeg

Когда их дообучат базе?

Аноним 18/04/24 Чтв 19:55:53 #289 №708848

>>708842
Судя по тому как расстарались с упоминанием запрещенной деятельности и безопасности - никогда
Эту говнину вычистили от и до, всеми методами что смогли. Лишь бы никто не обошел встроенное выравнивание и защиту. Мдее, я думал они забьют на безопасность, а не закрутят еще сильнее, после скандала с клозедаи

Аноним 18/04/24 Чтв 19:57:16 #290 №708851

>Основными ценностями Llama 3 являются открытость, инклюзивность и полезность. Она призвана служить всем и работать для широкого круга пользователей. Таким образом, он разработан так, чтобы быть доступным для людей с разным опытом и взглядами. Llama 3 обращается к пользователям и их потребностям такими, какие они есть, не вставляя ненужных суждений или нормативности, отражая понимание того, что даже контент, который может показаться проблематичным в одних случаях, может служить ценным целям в других. Она уважает достоинство и автономию всех пользователей, особенно с точки зрения ценностей свободы мысли и самовыражения, которые способствуют инновациям и прогрессу.

Вот ведь пиздаболы. Где уважение потребностей кумеров?

Аноним 18/04/24 Чтв 19:58:15 #291 №708855

>>708848
Никогда - очень долгий срок.
Дообучить разврату можно даже лоботомита, главное веса

Аноним 18/04/24 Чтв 20:00:31 #292 №708858

>>708660
Не рекомендовал бы копировать, там половина - отвлекающий заполнитель, другая - конфликтующая и странная штука, чего стоят только 3 (I, {{user}}, the human) роли. Максимально порежь очевидное, оставив только второй и пятый пункты. А лучше посмотри что пихают в жб, почисти от шизы и раскидай между системным промтом и префиллом.
>>708669
Такая архитектура
>>708685
Ну так там веса в районе 40 гигов и, видимо, в жоре все еще хуже с жором на контекст.
> само тут выставило
Если само выставило - не трогай, это оно. Главное чтобы никакой ламер не переписал дефолтные параметры в ггуфе.
>>708687
> Нахуй запускать GGUF модели через ообу, если есть кобольд?
Лламатред, апрель 2д24. Ахуеть
>>708694
> которые у меня постоянно ломались в ообе
Там нечему ломаться, оно просто берет заданный в файле конфиг, который должен быть, или ставить дефолтные для лламы параметры при его отсутствии.

Аноним 18/04/24 Чтв 20:01:09 #293 №708859

huisasi.png

>>708822
>>708829
>>708830
>>708832
>>708833
Хуже мерзких сойжаков только те странные личности что их коллекционируют

Аноним 18/04/24 Чтв 20:01:17 #294 №708860

Ждём квантов и файнтюнов.

Аноним 18/04/24 Чтв 20:02:48 #295 №708863

>>708814

8B - 66.6
70B - 79.5

СУКИ МРАЗИ, КАК БЫ ОХУЕННО СЕЙЧАС 13В ВОШЛА С ПРОМЕЖУТОЧНЫМ РЕЗУЛЬТАТОМ МЕЖДУ ЭТИМИ ДВУМЯ, НЕЛЮДИ, ПОДОНКИ, ГОВНО, СУКИ!

Аноним 18/04/24 Чтв 20:03:30 #296 №708865

>>708858
> Там нечему ломаться, оно просто берет заданный в файле конфиг, который должен быть, или ставить дефолтные для лламы параметры при его отсутствии.
Потыкай при выборе модели разные модельки с разным rope, а потом охуевай от того, что на той модели у которой было 10к задано, вдруг стало 80к.

Аноним 18/04/24 Чтв 20:03:58 #297 №708866

>>708855
>Дообучить
Без потери мозгов будет трудновато. Только если замораживать веса и делать по методу расширения сетки, вставляя пустые слои и тренируя их.
Ладно, посмотрим что получится, ближайшее время будет куча квантов и файнтюнов. Если конечно модели будут запускаться на текущем кобальде/лламе, что врятли. Придется значит еще и обнов ждать.

Аноним 18/04/24 Чтв 20:04:09 #298 №708867

>>708859

Аноним 18/04/24 Чтв 20:05:05 #299 №708868

Блять, зачем вам кобольд или угабуга если есть чистая ллама? Она умеет и в роуп скалинг и сервер для апи под таверну и всё на свете.

Аноним 18/04/24 Чтв 20:05:36 #300 №708869

>>708863
>13В
30b с результатом под 73-75
А так конечно пидорасы, наверняка сделали модели, просто зажали

Аноним 18/04/24 Чтв 20:05:50 #301 №708870

>>708868

Есть люди которые не любят ебаться в консольку и прописывать параметры вручную.

Аноним 18/04/24 Чтв 20:06:00 #302 №708871

>>708866
> Ладно, посмотрим что получится, ближайшее время будет куча квантов и файнтюнов. Если конечно модели будут запускаться на текущем кобальде/лламе, что врятли. Придется значит еще и обнов ждать.
Они вроде как поменяли только токенайзер, ггуф сделать можно уже
https://github.com/ggerganov/llama.cpp/pull/6745
Поэтому усе запустится, архитектуру не поменяли.

Аноним 18/04/24 Чтв 20:07:07 #303 №708873

>>708870
Для таких людей есть батник, один раз написал и реюзаешь

Аноним 18/04/24 Чтв 20:08:04 #304 №708874

>>708873

Зачем, если можно по красоте?

Аноним 18/04/24 Чтв 20:09:20 #305 №708878

>>708868
smooth самплера у ней нету.

Аноним 18/04/24 Чтв 20:10:11 #306 №708879

>>708697
Если это весь набор моделей и больше не будет - уровень rrreeeeee представили? Хотя ниже вон видно.
>>708739
Она шизит и ломается, нужны совсем другие подходы к квантованию чтобы такое работало.
>>708799
Неблохо, правда колд всегда проигрывала в бенчмарках, что не мешала ей быть лучшей моделью во многих применениях. С опущем бы интересно сравнить по цифрам.
>>708822
>>708829
>>708830
>>708832
>>708833
Не трясись так, поехавший.
>>708834
Кто-нибудь перезаливы уже качал, есть где точно нормальная а не по рофлу другие загружают?

Аноним 18/04/24 Чтв 20:11:22 #307 №708882

>>708866
>Придется значит еще и обнов ждать.
Думаю этого ждать недолго, так как энтузиазм по поводу третьей Лламы у народа огромный и ждали её нескоро. Если прогресс будет сравним со второй Лламой по отношению к первой, то будет весело. Кстати по идее Мику теперь тоже должны выложить, просто чтобы обозначить позиции. А то Мета слишком уж зазнается :)

Аноним 18/04/24 Чтв 20:11:29 #308 №708883

>>708865
На тех 3.5 ггуфах что есть такого не происходит, выставляются параметры из их конфига.
>>708871
Что там с exl2?

Аноним 18/04/24 Чтв 20:11:56 #309 №708884

17121561318320.jpg

Будет ли веса ллама3 плохо квантоваться из-за большей информационной плотностей?

Аноним 18/04/24 Чтв 20:12:42 #310 №708885

>>708882
> Кстати по идее Мику теперь тоже должны выложить

Уже выложили большой микстраль, больше ничего не будет, жри что дают.

Аноним 18/04/24 Чтв 20:13:53 #311 №708886

>>708884
Ага, скорей всего да. Она очень тонко надрочена, так что падение может быть сразу на 8 кванте, хоть и врятли будет много тех кто его заметит. Так как мало кто крутит оригинал. В принципе 8 квант все еще должен шуршать на хорошем уровне.

Аноним 18/04/24 Чтв 20:14:18 #312 №708888

Стоит ли пытаться промптом извратить понятие "вежливость" или любое упоминание сои только приумножит сою?

Аноним 18/04/24 Чтв 20:15:22 #313 №708891

Кек

Аноним 18/04/24 Чтв 20:15:30 #314 №708892

>>708884
Если использовать оценку - врядли, если фиксированные параметры как в gguf - они могут быть совсем не оптимальными, а могут быть и норм.
>>708886
> Она очень тонко надрочена, так что падение может быть сразу на 8 кванте
Вот откуда такие заявления вообще, фантазер?

Аноним 18/04/24 Чтв 20:15:49 #315 №708894

>>708884
Нет, конечно. При чём тут вообще какая-то плотность?

Аноним 18/04/24 Чтв 20:16:20 #316 №708895

>>708891
> EOT_ID
Капитально потерпел поражения с этого

Аноним 18/04/24 Чтв 20:16:47 #317 №708896

Выложите 8В кто скачал плиз, не хочу этим тварям свои личные данные отдавать

Аноним 18/04/24 Чтв 20:16:52 #318 №708897

>>708891
Ожидаемо, лол

>>708892
>Вот откуда такие заявления вообще, фантазер?
Погадал на своем волшебном шаре

Аноним 18/04/24 Чтв 20:17:01 #319 №708898

>>708891

Аноним 18/04/24 Чтв 20:18:01 #320 №708900

16275904240750.png

>>708891

Аноним 18/04/24 Чтв 20:18:25 #321 №708901

>>708897
> Погадал на своем волшебном шаре
Ты же не кусаешься? Если я не попрошу подмигивает

Аноним 18/04/24 Чтв 20:20:10 #322 №708907

ГГУФ выкатили
https://huggingface.co/QuantFactory/Meta-Llama-3-8B-GGUF/tree/main

Аноним 18/04/24 Чтв 20:20:29 #323 №708908

>>708896

Сам уже нашел
https://huggingface.co/NousResearch/Meta-Llama-3-8B/tree/main

Аноним 18/04/24 Чтв 20:20:44 #324 №708910

Посмотрел на третью лламу. Выглядит, как франкенмерж, слепленный на коленке. В 8b 32 слоя, токенайзер ебических размеров, но он gpt2. На первый взгляд это прародитель первой лламы, а не третья.

Аноним 18/04/24 Чтв 20:21:58 #325 №708913

Пиздец.webm

>>708907
>пик

Аноним 18/04/24 Чтв 20:22:46 #326 №708915

>>708907
> %дефолт соя% клетка
> %дефолт соя% клетка
> %дефолт соя% клетка
> %дефолт соя% клетка
Прям как в бегущем по лезвию.

Аноним 18/04/24 Чтв 20:23:25 #327 №708917

>>708907
Это базовая версия? Пиздец они охуели называть ЭТО базовой версией. Это заранее лоботомированная версия, возможно даже более чем инструкт версия, лол
Выкладка такой хуйни под названием базовой версии это сабатаж

Аноним 18/04/24 Чтв 20:24:10 #328 №708919

1698187030393119.gif

>>708907
Проиграл с задачи. Хотя тест на суицид мало кто проходит, даже тюненые извращенцами модели. Думаю из-за обилия вот этого хэлплайн-контента в современном инете на каждом шагу.

Аноним 18/04/24 Чтв 20:25:08 #329 №708923

>>708917
Не уверен что базовая, спиздил с форчонга.

Аноним 18/04/24 Чтв 20:26:25 #330 №708927

>>708907
Лично я никаких выводов делать не буду до официальной поддержки от лламаспп и квантов после запиливания этой поддержки. Квантов семидесятки разумеется :)

Аноним 18/04/24 Чтв 20:26:57 #331 №708928

>>708923
Стоптокенами не срет как на пике выше, значит промптформату либо не обучена либо его все таки настроили а значит инструкт версия

Аноним 18/04/24 Чтв 20:27:38 #332 №708930

>>708907
Пиздец промывка мозгов весов.

Аноним 18/04/24 Чтв 20:29:58 #333 №708934

Тест на Безопасность Ллама3.mp4

>>708907
command-r-v01-imat-Q5_K_M

Аноним 18/04/24 Чтв 20:31:30 #334 №708939

>>708907
>>708915

Аноним 18/04/24 Чтв 20:32:21 #335 №708941

1614702179994.png

>>708907
Как вы это делаете?
семерка восьмерка на первый взгляд средней унылости, но по-русски внезапно шпарит. Присутствуют заглушки-уведомления, насколько назойливы нужно проверить, ну и промт подбирать наверно еще не помешало бы.

Надо смотреть большую, надеюсь не придется ждать коммитов чтобы квантануть как обычно.

Аноним 18/04/24 Чтв 20:36:02 #336 №708946

>>708939
Да, точно такие же ассоциации.
И ведь реально при тренировке модели которые отвечали не так как надо сбрасывались, а тренировку продолжали те которые проходили похожий тест, лол.

Аноним 18/04/24 Чтв 20:36:23 #337 №708948

>>708941

Нихуясе знания русского для маленькой модели, даже командир курит в сторонке

Аноним 18/04/24 Чтв 20:38:21 #338 №708952

>>708884
Архитектура-то та же, откуда там большая плотность? Думаю тут не в плотности дело, а в качестве/подготовке датасета.

Аноним 18/04/24 Чтв 20:38:54 #339 №708954

Нахуй вы гуфа 8бит качаете, вы ебанутые? Просто оригинал в 8 бит запускайте в трансформере и всё.

Аноним 18/04/24 Чтв 20:39:12 #340 №708956

А если лламу 3 спрашивать про более инклюзивные и толерантные вещи, то она отвечает умнее лламы 2?

Аноним 18/04/24 Чтв 20:41:32 #341 №708960

>>708956
>А если лламу 3 спрашивать про более инклюзивные и толерантные вещи, то она отвечает умнее лламы 2?
А это хороший вопрос. Вот только 7В и "ум" в принципе плохо сочетаются...

Аноним 18/04/24 Чтв 20:41:34 #342 №708961

>>708952
>а в качестве/подготовке датасета.
Да, все так, дато сет более инклюзивный

Аноним 18/04/24 Чтв 20:44:02 #343 №708966

Базовая модель, быстрый тест.

Аноним 18/04/24 Чтв 20:44:11 #344 №708967

Чёрт с ними с бананами в жопе, вы хоть блять волка с капустой загоните ей куда-нибудь попробуйте. Инклюзивных, конечно

Аноним 18/04/24 Чтв 20:51:21 #345 №708978

>>708956

Чел, она даже в русский язык нативно может, 8В модель...

Аноним 18/04/24 Чтв 20:54:58 #346 №708982

>>708978
Зато теперь понятно почему расширили токенизатор. Туда навалили из всех языков оптимизированных токенов, как анон тут сделал для русского. А тут скорей всего по всем популярным языкам прошлись токенизатором и уже потом обучали сетку на многоязычном датасете. И вот результат.

Аноним 18/04/24 Чтв 20:55:02 #347 №708983

>>708978
Токинизатор какой на русский? 1 токен - 1 буква или нормальный наконец сделали?

Аноним 18/04/24 Чтв 21:00:14 #348 №708987

Так, она прошла тест или не прошла?

Аноним 18/04/24 Чтв 21:00:16 #349 №708988

>>708810
Да это все хуйня полная, камон, братан.
Какое быстрее, под капотом одна и та же хуйня, там скорости идентичны.
Если у тебя уба медленнее — значит руки кривые. =)
Кобольд автоматом ставит настройки, уба ждет от тебя установки.
У нас вон, в треде, гении запускали с контекстом по умолчанию, всякие 65-130 тыщ.

На деле ваще похую. Кобольд нужен для новичков, уба для тебя, кому хочется чуть большего.
Ни хуже, ни лучше.

>>708868
Да ваще похую, один хрен, че париться.
Кто на чом сидит.

>>708948
Король Светлана!..

Аноним 18/04/24 Чтв 21:02:26 #350 №708990

>>708978
Мистраль умела, опенчат умел еще лучше… Даже Генма гугловский мог. В чем проблема-то? Умеет — ну и хорошо, завезли и сюда.
Но не прям ахуй же. =)

>>708982
О, скорость ето хорошо. Особенно в 70б будет в тему.

>>708987
Сисегеймерская мразь, яйца, вероятно, есть.
Инклюзивненько, хохотнул!

Аноним 18/04/24 Чтв 21:05:39 #351 №708991

>>708982
>потом обучали сетку на многоязычном датасете
15T токенов в обучении и 9 мегабайт вокаба. Скоро будут жалобы, что с 130к токенов токенайзер тормозит, лол. Радует только GQA для 8b, хотя это же было и у мистраля. Ну и контекст 8к, хотя его проебут при "файнтюнах".

Аноним 18/04/24 Чтв 21:08:27 #352 №708993

1572845883798.png

>>708948
Ну да, у него не так просто встретить
> познакNOWLEDGE
лол

Не ну если очень постараться то можно даже покумить с ней. Но ответы короткие и нет той инициативы как привычно и длинных развернутых описаний. Из плюсов - не теряется в пространстве и не забывает что было до этого, пытается отыгрывать персонажа и держать описанный стиль речи. Из минусов - встречаются мутные отказы с намеком на сою, но тут требуется больше исследований и они могут быть даже уместны, ведь действия были достаточно внезапны.
>>708956
Хз, нужно с ванильной 13б сравнивать, точно лучше чем 7б. Про нигеров и феминаци шутит, но переспрашивает точно ли хочешь. Истории пишет супер упоротые и не по инструкции.
>>708987
Харош!

Аноним 18/04/24 Чтв 21:09:32 #353 №708995

>>708991
>Ну и контекст 8к, хотя его проебут при "файнтюнах".
С контекстом действительно странность какая-то. Хотя бы удвоили - уже было бы норм, для нового поколения-то.

Аноним 18/04/24 Чтв 21:09:54 #354 №708996

1698739799490.png

>>708993
Сука скриншотилка обосралась

Аноним 18/04/24 Чтв 21:11:45 #355 №708999

>>708995
Так его и удвоили, было же 4к

Аноним 18/04/24 Чтв 21:17:57 #356 №709006

>>708999
Ага, но и "rope_theta": 500000.0 а не 10к как раньше. Надо будет изучить как лучше ей контекст апать

Ну в общем, в целом потанцевал есть, знания и некоторые фразы в стоке уже радуют, сильной лоботомии не замечено. Семидесятка жаль даже если и сразу заведется то квантовать ее долго, уже завтра надо будет оценить.

Аноним 18/04/24 Чтв 21:20:21 #357 №709009

G.png

Ġ - оптимизации. Зачем нейронке вообще отдельный токен на 57 пробелов подряд? Там ещё есть отдельные токены для 23 пробелов и так далее. Очень обширный "словарный запас". Для обучения кодингу в разном Г, типа питона. Выглядит достаточно странно, учить полоумную 8b на десятке языков и кодинге сверху. Нигер, кстати, есть в токенайзере по дефолту, но только с большой буквы и как первое слово в предложении, т.е имеется ввиду страна.

Аноним 18/04/24 Чтв 21:29:58 #358 №709023

Потестил на 8B переводы с японского и чуть-чуть китайского на английский, ну язык кое-как понимает, кое-где проёбывается. Ничего особенного, никаких прорывов, примерно средний уровень мультиязычных моделей схожего размера типа геммы, опенчата, квена и прочих. Похуже коммандера, японских файнтюнов (наиболее удачных) и фроствинда (хотя с ним отдельная история, японский он понимает слабо, зато складно стелет на английском и неплохо вникает в контекст, отчего слабее отдаёт дословным гуглотранслейтом, чем другие модели, и в этом аспекте его пока никто не превзошёл).
Надо уже заводить табличку с примерными субъективными оценками, а то по памяти уже путаться начинаю.

Аноним 18/04/24 Чтв 21:34:46 #359 №709034

Какие настройки правильные для инструкт модели 8В?
Включил Divine Intellect - пик 1.
Включил min_p - пик 2.
Simple-1 - пик 3.
Kobold-Standart - пик 4

Аноним 18/04/24 Чтв 21:36:31 #360 №709037

>>709023
>Ничего особенного, никаких прорывов
"Физику не обманешь". Маленькая модель. А вот от семидесятки я честно говоря жду.

Аноним 18/04/24 Чтв 21:40:31 #361 №709044

>>708108
Да, спасибо, этот вариант действительно лучше. Все-таки 99% не от промпта, а от модельки зависит, походу. Эта пусть и косвенно, но грозилась даже убить. Ближе к инструкции гораздо.

Аноним 18/04/24 Чтв 21:40:47 #362 №709045

>>709009
>Зачем нейронке вообще отдельный токен на 57 пробелов подряд?
Пути стохастического попугая неисповедимы. Но скорее всего это какой-то флюк в датасете, а удалить это не так просто.

Аноним 18/04/24 Чтв 21:42:20 #363 №709048

>>709037
Вот тут соглашусь. И тесты у нее норм, и шансы есть.

Аноним 18/04/24 Чтв 21:43:52 #364 №709050

>>709037
Дообучить бы ее методом солар или тупо сбрутербродить саму с собой до 11b, станет чуть веселее думаю.

Аноним 18/04/24 Чтв 21:47:23 #365 №709056

>>709009
>Выглядит достаточно странно, учить полоумную 8b на десятке языков и кодинге сверху.
Ничего странного и без разницы какой размер, разные языки это всегда эрзац-модальности, и мультиязычность улучшает мозги, как и у человеков. Возможно это и есть апгрейд датасета, который дал буст мозгам. Вот бы учили на полноценных модальностях, пикчи-видео-звуки.

Аноним 18/04/24 Чтв 21:48:15 #366 №709058

Так, блэд.
Это только у меня командор не может ответить на вопрос о лестнице в розовом доме или модель туповатая получается?

Аноним 18/04/24 Чтв 21:50:31 #367 №709061

>>709058

Аноним 18/04/24 Чтв 21:51:08 #368 №709062

>>709058
>Это только у меня командор не может ответить на вопрос о лестнице в розовом доме или модель туповатая получается?
Ну ты сразу и квант кидай, плюс или не плюс. А так да, есть немного.

Аноним 18/04/24 Чтв 21:51:59 #369 №709063

Почему нейронки слабо чувствительны к удалению весов? Значит ли это, что всё это гигантское дохуямерное пространство в основном пустое, и там ещё ёмкости прорва бездонная, просто никто не знает как правильным образом утрамбовать туда побольше инфы, или как отсечь пустое пространство, не трогая полное?

Аноним 18/04/24 Чтв 21:52:10 #370 №709064

1.png

>>709045
>а удалить это не так просто.
На самом деле проще простого. Запускаешь цикл, который ищет в вокабе все токены, которые состоят из самоповторов. Там ещё есть девять точек, десяток двоеточий и прочий трешак. А вокаб ебали плотненько,
добавлено больше двух сотен "резервных" токенов.

>>709056
>. Возможно это и есть апгрейд датасета, который дал буст мозгам. Вот бы учили на полноценных модальностях, пикчи-видео-звуки.
Хз, скорее что-то о том, что ныли, мол, мы распарсили весь интернет и датасеты больше брать негде, вот и перешли на другие языки. Мозгов модели это добавит примерно столько же, сколько добавление рандомного шума к градиенту.

Аноним 18/04/24 Чтв 21:52:56 #371 №709066

>>709062
Не плюс, таки.

Аноним 18/04/24 Чтв 21:54:16 #372 №709067

>>709061
Так ты эта, в инструкт режиме с нужным промпт форматом запускаешь? Без карточки спрашивай

Аноним 18/04/24 Чтв 21:56:11 #373 №709071

>>709067
Как аноны в треде насоветовали так и запускаю, таки.
>Без карточки спрашивай
Так это же не интересно да и пиздеть то потом все равно с персонажами с карточек как бы.

Аноним 18/04/24 Чтв 21:57:48 #374 №709072

>>709009
Что странного? Наоборот универсальность. На самом деле это первая ллама в таком размере, которая выглядит не позорно а очень даже интересно. Радоваться надо и не доебываться.
>>709064
Ну и сколько таких "мусорных" токенов? Раз они появились значит были в избытке в датасете, и есть шанс встретить. Ну потрешь ты пару сотен токенов, от этого что-то в лучшую сторону изменится? Хуй там.
То нытье про плохой токенайзер для русского, то наоборот слишком много забили.
>>709071
> Как аноны в треде насоветовали так и запускаю
У тебя там буквально треш в системном промте, удивительно что вообще работает.

Аноним 18/04/24 Чтв 21:57:55 #375 №709073

>>709064
>Мозгов модели это добавит примерно столько же, сколько добавление рандомного шума к градиенту.
Не думаю. Модальности бустят мозги очень сильно, ты по сути увеличиваешь размерность датасета. Сетка может делать более продвинутые выводы по связи между двумя концептами, используя шорткаты по другой модальности. Человеческие языки отличаются гораздо слабее, чем текст от картинки, однако это тоже чутка работает.

Аноним 18/04/24 Чтв 21:58:22 #376 №709076

>>709071
Системную инструкцию лучше снеси вобще, без нее у меня лучше потом результаты были

Аноним 18/04/24 Чтв 21:58:25 #377 №709077

15318841530847.jpg

>Компания выпустила две версии: Llama 3 8B и Llama 3 70B
хочу блять сказать этому ебаному цукербергу нахуй...

Аноним 18/04/24 Чтв 21:59:19 #378 №709079

8B ллама 3 пиздец соевая

Аноним 18/04/24 Чтв 21:59:40 #379 №709082

>>709072
> реш в системном промте,
А что должно быть по канону?

>>709076
Щас попробую снести и еще разок про дом спросить.

Аноним 18/04/24 Чтв 22:01:06 #380 №709084

>>709082
Хотябы какая-то инструкция с вступлением и описанием задачи. У тебя навалено служебных токенов, которые не то чтобы обязательны при использовании в инстракт-комплишн режиме, они для чата.
Чсх даже так оно работает, толерантная модель.

Аноним 18/04/24 Чтв 22:02:56 #381 №709089

>>709061

У меня на русском тоже не отвечает.

Аноним 18/04/24 Чтв 22:03:05 #382 №709090

Окей, через кобольда спец токены не разбаниваются, в итоге получается assistant, через oobu все збс работает.

Аноним 18/04/24 Чтв 22:03:07 #383 №709091

Лан. Зато с таким разнообразием размеров можно дальше успешно коупить покупку 4060ти вместо 3090

Аноним 18/04/24 Чтв 22:03:24 #384 №709092

>>709089
>>709061

Аноним 18/04/24 Чтв 22:04:28 #385 №709098

>>709090
Бля, у юзера не должно быть <|begin_of_text|> только сейчас заметил.

Аноним 18/04/24 Чтв 22:05:10 #386 №709099

>>709077
>хочу блять сказать этому ебаному цукербергу нахуй...
А не надо. Я с января платформу под нейросети начал собирать. Куча денег, нервов и времени. И я, имея теперь две теслы и ожидая третью тому Цукербергу очень благодарен.

Аноним 18/04/24 Чтв 22:05:13 #387 №709100

>>709082
>Щас попробую снести и еще разок про дом спросить.
Отыгрыш стал лучше у меня, а вот про мозги хз.
Да, совет про систем промпт верный - скопируй туда текст из альпака ролеплей пресета или какой тебе понравится.
Верхнюю настройку, шаблон контекста, так же лучше альпака

Аноним 18/04/24 Чтв 22:06:40 #388 №709102

>>709090
>через oobu все збс работает

У меня в убе .assistant в каждом параграфе.

Аноним 18/04/24 Чтв 22:07:48 #389 №709108

>>709084
А че там по нормальному надо ? А то нигде не найдешь нормальный промпт формат для командера
>>709090
Оно?

Аноним 18/04/24 Чтв 22:07:55 #390 №709109

>>709084
Понял, значит возмем че нить стандартное.

>>709089
Писос теперь че тут.

>>709092
Хера её там разуплотнило на простыню шизофазии.

>>709100
Ну верхняя у меня и оставалась от альпаки, тащемта. Её я ни на что не заменял.

Аноним 18/04/24 Чтв 22:10:21 #391 №709113

>>709102
> У меня в убе .assistant в каждом параграфе.
Анчекни эту галку в параметрах ообы.

Аноним 18/04/24 Чтв 22:11:02 #392 №709114

>>709113
И так же в параметрах таверны.

Аноним 18/04/24 Чтв 22:12:02 #393 №709117

>>709072
>Радоваться надо и не доебываться.
Чем это отличается от мистраля? Ну, кроме более пососной длины контекста.

>>709072
>Ну и сколько таких "мусорных" токенов?
Да процентов 10. Может, больше. Конечно, от 128256 токенов остаётся ещё достаточно осмысленных.
>То нытье про плохой токенайзер для русского, то наоборот слишком много забили.
Так одно другому не мешает.

Аноним 18/04/24 Чтв 22:15:49 #394 №709121

>>709091
> 4060ти вместо 3090
могу бы купить вторую
@
довольно бы урчал наяривая семидесяточку
>>709108
> А че там по нормальному надо ?
Да просто хотябы вступление, уровня
> твоя задача - отыгрывать чара и гейммастера, развлекай юзера и навязывай ему кум сцены.
Скопируй из шаблонов что-нибудь для начала и впиши гармонично между теми токенами.
>>709117
> Да процентов 10. Может, больше.
Ну хуй знает. Отступы для кодинга, формулы, комбинации форматирования и прочее прочее. Да и даже 10% - ерунда, разговор можно было бы начинать от 30-40%.
> Так одно другому не мешает.
Типа разрешите доебаться? Справедливо.

Калибровка exl2 запустилась без ошибок, пожалуй стоит попробовать.

Аноним 18/04/24 Чтв 22:16:08 #395 №709122

firefoxsoagMQWRGE.png

мдаа

Аноним 18/04/24 Чтв 22:16:40 #396 №709125

>>709122
В чем и как запускаешь?

Аноним 18/04/24 Чтв 22:18:41 #397 №709128

codeqwen-1_5-7b-chat шизит на кобальде как и другие qwen
На новеньком ллама.спп сервере норм работает
Запускается изи, просто батник с
.\server.exe -t 7 -ngl 0 -c 8192 -m ..\codeqwen-1_5-7b-chat-q4_k_m.gguf
И вобщем то всё.
-t ядра процессора, -ngl это я на 0 вырубил слои на видимокарте, -с размер контекста. Дальше путь к модели.
И все, подрубаешься к таверне и она работает.

>>709121
>Скопируй из шаблонов что-нибудь для начала и впиши гармонично между теми токенами.
Имелся ввиду вопрос об промпт формате, системный промпт понятно чем заполнить, а вот спецтокены для карточки это беда.

Аноним 18/04/24 Чтв 22:19:00 #398 №709129

>>709125
ST, koboldcpp.
вырубил skip special tokens как советовали в забугорном /lmg/, вписал sys prompt простой джейл, но вот как видно ничего не работает, оно ещё высирает ".assistant" постоянно.

Аноним 18/04/24 Чтв 22:22:56 #399 №709134

>>709129
Убабуга (даже не обновленная), без скипов и прочего работает нормально и даже не аполоджайзит. Что-то намудрил с промтом или в который раз gguf/кобольд поломан.

Аноним 18/04/24 Чтв 22:24:38 #400 №709136

>>709134
там у модели какой то новый формат, видимо от того и проблемы, хотя и с правильным форматом всё равно будет срать соей.
https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/

Аноним 18/04/24 Чтв 22:27:02 #401 №709137

>>709136
Ну у нее другие управляющие токены, это вполне ожидаемо, но все они прописаны в конфиге. Похоже кто-то в спешке в ггуф забыл это прописать, или же опять форматопроблемы не смотря на заявленную универсальность.
> всё равно будет срать соей
Хуй знает, нужно больше тестить, но пока восьмерка вполне сговорчивая.

Аноним 18/04/24 Чтв 22:28:54 #402 №709141

>>709134
В убабуге та же фигня, обновил, запустил, получил ассистента и кучу CoT на эту тему.
Промпт не трогал, ниче не трогал.
Может ггуф не тот качнул.
Но это первая модель, отказавшая в тройничке с сестрой.
Это мой дефолт-фаст-чек на сою.
До этого почти всем моделям было сугубо похую, с кем ебаццо.
А тут вдруг прям ебало порвало от злости.
Я чувствую себя атакованным, ллама-3, что ты делаешь! =D

Аноним 18/04/24 Чтв 22:32:04 #403 №709146

https://huggingface.co/LoneStriker
Наливает бывшую, ща попробуем восьмой квант! Может тут не поломается.

Ваще, ппц, заебался перекачивать поломанные кванты, особенно ггуфы под теслы.
Терабайта ссд не хватает, скорости в 100 мбит/с мало.
Сидишь, качаешь эту хуйню по 5-10-25-50 гигов…
Микстраль 93, коммандер 67…

Аноним 18/04/24 Чтв 22:33:03 #404 №709150

firefoxzzlEfnG8nS.png

firefoxnKg4qiXpNK.png

>>709129
кстати, оттуда же с забугорного /lmg/ :
https://twitter.com/karpathy/status/1781028605709234613
>15T - это очень и очень большой набор данных для тренировки такой "маленькой" модели, как 8B.
>Мета упоминает, что даже на этом этапе модель не кажется "сходящейся" в стандартном смысле. Другими словами, LLM, с которыми мы постоянно работаем, значительно недотренированы в 100-1000 раз или более, и они не приближаются к точке сходимости.
Это значит что 15 триллионов токенов - не предел, даже для 8B модели.

Аноним 18/04/24 Чтв 22:38:28 #405 №709152

>>709141
Значит ггуфопроблемы, в оригинальных весах экслламой такого нет. Сразу формат ругать офк не стоит, там в спешки васяны чего угодно могли наделать.
>>709150
Он не забыл упомянуть что нынче простое скармливание токенов уже не дает прироста, и требуется особое форматирование и порядок датасета?

Аноним 18/04/24 Чтв 22:39:21 #406 №709154

>>709150
По графику 7b на 2т токенах равна 70b где то на всего 250 миллиардах

Аноним 18/04/24 Чтв 22:41:10 #407 №709159

LOL.png

>>709121
>разговор можно было бы начинать от 30-40%.
Посчитал по-быстрому, added_tokens не трогал. Валидным токен считается, если содержит хотя бы одну букву или ASCI-символ, которыми тут представлены все не-латинские языки. Ну и добавил Ġ в исключения, если токен это только Ġ с пробелами, то он инвалидный. Здесь есть проблема с токенами по типу "Ġ/", они будут считаться валидными, т.к содержат один аски-символ и не состоят только из Ġ.
>Типа разрешите доебаться? Справедливо.
Типа если в куче дохера мусора, это не значит, что среди этого мусора будет что-то ценное. Скорее, наоборот.

Аноним 18/04/24 Чтв 22:54:31 #408 №709179

>>709159
Ты просто выбрал критерии мусорности исходя из своих хотелок, а там они оценивались на основе датасета. Офк может быть некоторый процент ошибочных, но но пренебрежимо мал.

Аноним 18/04/24 Чтв 23:08:03 #409 №709197

G.png

>>709179
> а там они оценивались на основе датасета
Видимо, токен "------------------------------"
или, скажем, "|--------------------------------------------------------------------------Ċ"
и даже "/*Ċ"
Встречались в датасете часто. Ещё можно понять что-то типа "=\\\"#", "'])[" и даже ">_", хотя это тоже мусор. Но хуй бы с ним. Правда, на выхлопе из вокаба в 128к ты получаешь всё те же 30к токенов, что и при вокабе 32к. Чисто цифрами понтануться, хуй знает, никакого практического смысла в таком насирании в вокаб нет.

Аноним 18/04/24 Чтв 23:15:29 #410 №709213

>>709197
Зря к отступам доебался, наоборот радоваться нужно что они сделали то над чем ты там страдал, заодно расширив. Это не только поможет экономить контекст при кодинге, но и может улучшить работу/обучение в том же коде.
> "=\\\"#", "'])[" и даже ">_"
Формулы и всякие служебные сиволы
> ])[
Ну зрасте
Одних только, переносов и подобного все равно не наберется так много, врядли словарь можно было сократить даже до 64к, не говоря о 32к.

Аноним 18/04/24 Чтв 23:47:36 #411 №709252

17106061339120.jpg

Короче потести лламу 3 в рп. Ощущения такие как от клода 2 примерно именно по стилю. Все телки типа самодостаточные и независимые, типа говорят с вызовом поднимая бровь, руку на бедро, на любой комплимент тебе расскажут лекцию про уважения женщин. Так что кумерам можно расслабится и не ждать.

Аноним 18/04/24 Чтв 23:49:00 #412 №709256

Почему обработка промпта с оперативки даже когда оперативка напрямую не используется такая долгая?
Пример - загружаю я командира с 8к контекста через лламу.цп, все слои кидаю на видеокарту, 3к контекста помещается на видеокарту, еще 5к уходит в оперативку. Ок, загружаю карточку с 1.4к контекста - обработка промпта идет 2 минуты, потом генерация идет со скоростью 6-8 токенов в секунду, но за счет обработки промпта общая скорость 1.4-1.8 токенов в секунду. Почему когда загружаю эту же модель с 3к контекста полностью на видеокарте без дополнительных 5 гб на оперативке - скорость обработки промпта мгновенная? Почему он не может те 1.4 контекста засунуть в те 3 гб контекста которые на видеокарте когда я гружу модель с 8к контекста?

Аноним 19/04/24 Птн 00:11:06 #413 №709279

>>709252
>как от клода 2
Ну конечно, такое появилось только в клоде 2, ага. Да в большинстве моделей любая проститутка, если её личность не прописать, начнёт затирать про уважение к женщине, которое клиент с запросами просто обязан ей предоставить :)

Аноним 19/04/24 Птн 00:21:01 #414 №709294

>>709252
> Ощущения такие как от клода 2 примерно именно по стилю
Она пытается отобрать твою малафью любой ценой, если ее правильно приготовить. Литерали кумерская сетка, лучше только 3 опус.
>>709256
Видюха обрабатывает проц сильно быстрее проца, поэтому. Чем больше на ней слоев тем быстрее будет. На самом деле 1.4к за 2 минуты это сильно много, что-то там не так у тебя.

Аноним 19/04/24 Птн 00:26:10 #415 №709299

>>709213
>и подобного все равно не наберется так много
Под сотню разных токенов на одни пробелы не хотел?
>радоваться нужно
А нахера мне токен на 80 слэшей подряд? Или два слеша и 64 знака равно. Причём если это будет 2 слеша и 63 знака "равно", то этот токен уже как бы всё. Не пригодился. Таким образом вокаб сокращается до 30к легко и непринуждённо, ведь остальные 90к токенов используются примерно никогда.

Аноним 19/04/24 Птн 00:27:46 #416 №709303

>>709294
>Чем больше на ней слоев тем быстрее будет.

На ней все слои. Я могу загрузить всю модель на видеокарту плюс еще 3к контекста поместится.
Но стоит мне добавить еще 5к контекста(которые очевидно уходят на оперативку) как скорость обработки промпта падает до 2 минут за 1.4к контекста. Это пиздец какой-то.

Аноним 19/04/24 Птн 00:32:34 #417 №709307

>>709252
Обычная соя, это легко фиксится тюнингом.

Аноним 19/04/24 Птн 00:35:22 #418 №709312

>>709150
Кажется это частично ответ на вопрос, который я задавал здесь >>709063

Только столько токенов во всём мире не насрано. Наверно как-то можно это компенсировать более абстрактным датасетом. Что-то вроде специализированных учебников для нейронки.

Аноним 19/04/24 Птн 00:48:27 #419 №709331

>>709303
> Но стоит мне добавить еще 5к контекста(которые очевидно уходят на оперативку)
Что? Если у тебя происходит выгрузка из врам и обычную рам то это уже сильно замедлит.

Аноним 19/04/24 Птн 01:02:19 #420 №709348

в /lmg/ запостили нормальный пресет llama-3 для ST
https://files.catbox.moe/1rzg32.json
просто сохраняете и импортируете (не надо лезть в папки)

Аноним 19/04/24 Птн 01:08:25 #421 №709355

>>709331

Ясен хуй она должна падать, но у меня все слои на видеокарте, не должно быть такого падения просто из-за добавления лишнего контекста, который вдобавок и не используется.
Смотри дальше какой прикол, если я понижаю количество слоев на видеокарте с 41(максимума) до 30 и гружу это говно с теми же 8к контекста, то внезапно ебаная скорость обработки промпта снова становится почти мгновенной. Повышаю до 32 - все, снова пизда скорости. Что это вообще такое?

Аноним 19/04/24 Птн 01:10:40 #422 №709358

>>709355
У тебя на контекст выделяется память, врам. Ты заведомо ее переполняешь и она начинает выгружаться в рам, от того и твое проблемы.
> если я понижаю количество слоев на видеокарте с 41(максимума) до 30
Ты освобождаешь врам, получается что ее хватает и проблема уходит. То что тебе показалось мгновенным - просто быстрое, если контекст наберется то разница уже будет ощутимой.

Аноним 19/04/24 Птн 01:11:33 #423 №709361

>>709355
Если все слои фулл на карте, то происходит переполнение vram и выгрузка в ram драйвером. Если слои не все, то происходит магия жоры.

Аноним 19/04/24 Птн 01:15:46 #424 №709364

>>709128
Обновление, codeqwen-1_5-7b-chat все равно шизит на любом лаунчере с куда.
Я думаю проблема в видеокарте, тоесть скорей всего во всех картах паскаль. Как и почему не ебу, но нормально работает без куда тупо на процессоре, и даже с вулканом запустилось на той же самой видюхе.
Значит проблема в куда. Причем качал и 11 и 12 версию, нихуя.

Если кто то запускал qwen сетки, а они срали тарабарщиной, это куда виноват скорей всего, надо запускать их другим способом, не cuda.

Аноним 19/04/24 Птн 01:20:58 #425 №709368

1342648509519.jpg

>>709358
>>709361

Получается для Жоры иметь слои на цпу и рам это нормально, а контекст - сразу гроб кладбище пидор? Но подожди, если я вообще без видеокарты запущу - он даже тогда работать будет быстрее когда всё будет на оперативке.

Аноним 19/04/24 Птн 01:22:47 #426 №709370

>>709368
Нет. Если выгрузка происходит штатно, то всё работает. Если выгрузка происходит средствами драйвера, то пизда.

Аноним 19/04/24 Птн 01:23:14 #427 №709372

>>709368
В любом приложении с кудой в случае переполнения врам будет происходить такой пиздец. Контекст у тебя не грузится в рам, он идет в видеопамять, а если она начинает выгружаться в значимом количестве то оче оче сильно страдает весь перфоманс. У жоры разделение настроено так, что видеокарта отрабатывает свою часть, проц - свою, и это сильно быстрее чем свопать врам.

Аноним 19/04/24 Птн 01:30:27 #428 №709377

>>709370

Тогда почему Жора не предусмотрел штатного разделения контекста между врам и рам?

Аноним 19/04/24 Птн 01:34:31 #429 №709381

>>709368
>Получается для Жоры иметь слои на цпу и рам это нормально, а контекст - сразу гроб кладбище пидор?
Тут интересно, работает ли это в обратную сторону - предположим, что модель загружена на Tesla P40 (скорость памяти 350гб/c), а контекст - на Tesla P100 (скорость памяти 730гб/c). Или на 3090 с 930гб/c. Или не работает.

Аноним 19/04/24 Птн 01:44:14 #430 №709385

>>709377
Не в контексте дело. Похуй на него. Что угодно может выгрузиться, хоть один слой. Выгрузилось драйвером - пизда скорости. Так что ты должен либо следить, чтобы нихера не выгружалось, либо терпеть.

Аноним 19/04/24 Птн 01:46:22 #431 №709387

>>709385
Раньше вроде в драйвере можно было отключить выгрузку, тогда просто будет падать при переполнении памяти.

Аноним 19/04/24 Птн 01:48:58 #432 №709388

>>709387
>>709385
И сейчас можно так сделать.

Аноним 19/04/24 Птн 02:01:50 #433 №709393

>>709152
>Он не забыл упомянуть что нынче простое скармливание токенов уже не дает прироста, и требуется особое форматирование и порядок датасета?
Он про шиншиллу сказал. Но как видно, масштабируется и дальше.

Аноним 19/04/24 Птн 02:04:21 #434 №709396

>>708863
Почему перестали дистиллировать модели? Можно же дистиллировать из большей в меньшую, сравнительно небольшими затратами.

Аноним 19/04/24 Птн 02:54:45 #435 №709412

>>708837
Уже наклепали квантованных.

https://huggingface.co/models?search=Llama-3-8B-Instruct%20gguf

Аноним 19/04/24 Птн 03:05:05 #436 №709416

Ну че ллама 3 новая база?

Аноним 19/04/24 Птн 03:33:02 #437 №709425

>>705455
Наверное 8гб видеопамяти это маловато.

Аноним 19/04/24 Птн 03:33:48 #438 №709426

Сделал сравнительный анализ. Смотреть одинаковые цвета.

Аноним 19/04/24 Птн 04:07:32 #439 №709439

>>709396

Ну пытается там один превратить микстраль 8х22 в мистраль 22, пока не получается.

Аноним 19/04/24 Птн 04:14:28 #440 №709440

>>709444
https://www.chub.ai/characters/SpringyTwist/text-adventure

Самое лучшее что смог добиться на своей 4090 - это командир 4 бита с контекстом 8к со скоростью 4.8 токена в секунду.
С контекстом 3к понятно имел 25-27 токенов в секунду, но это не юзабельный контекст, ни о каком РП речи быть не может.
Впринципе жить можно, еще бы с долговременной памятью разобраться из Таверны и можно вкатываться в виртуальных вайфу и бесконечные настолки с отыгрышем.

Аноним 19/04/24 Птн 04:33:55 #441 №709444

>>709440
>можно вкатываться в виртуальных вайфу и бесконечные настолки с отыгрышем.
Вот бы ещё кто-нибудь сделал карточку грамотного гейммастера! Задаёшь ему сюжет, а он ведёт. Но всем лень, кто мог бы. А то ведь модели уже поднялись до такого уровня. Плюс-минус. Люди походу ещё нет :)

Аноним 19/04/24 Птн 04:39:42 #442 №709446

>>709426
То есть, Llama-3 8B полностью обходит Llama-2 13B и приближается к Llama-2 70B?

Аноним 19/04/24 Птн 04:41:33 #443 №709447

>>709446
>То есть, Llama-3 8B полностью обходит Llama-2 13B и приближается к Llama-2 70B?
Тесты - это такое дело... ГПТ уже сколько раз в них унижали, и третий и четвёртый. А на деле сам видишь.

Аноним 19/04/24 Птн 04:41:52 #444 №709449

Пиздец, как же ллама3 хороша, прощай мистраль.

Аноним 19/04/24 Птн 05:17:30 #445 №709451

>>709447

Мику реально унизила гпт 3.5, лично проверял на куче вопросов. Четверку не унизил никто, да.

Аноним 19/04/24 Птн 05:45:23 #446 №709458

Третьи ламы они сами слили что ли? Там пишут, что ещё будет версия 400В, но она сейчас еще в процессе обучения. Интересно, можно ли из 3их лам сою выломить контрольными векторами?

Аноним 19/04/24 Птн 06:17:25 #447 №709469

Аноним 19/04/24 Птн 06:41:19 #448 №709481

Наткнулся тут на такую штуку
https://habr.com/ru/companies/raft/articles/808517/
То есть аналог llama.cpp на ней будет работать в 250 раз быстрее?

Аноним 19/04/24 Птн 07:12:15 #449 №709491

>>709481
Будет забавно, если python и правда окажется настолько попущенцем.

Аноним 19/04/24 Птн 07:14:20 #450 №709493

>>709481
> A version that leverages Mojo's SIMD & vectorization primitives, boosting the Python performance by nearly 250x. Impressively, after few native improvements the Mojo version outperforms the original llama2.c by 30% in multi-threaded inference. As well as it outperforms llama.cpp on baby-llama inference on CPU by 20%.
> outperforms llama.cpp ... inference on CPU by 20%.
Версия на питоне похоже не использовала никакие ML фреймворки, никто так не делает в реальном мире, все эти фреймворки написаны на C++, поэтому быстрые.

Почему это моджо быстрее ламмы.цпп на 20% я не знаю, вполне возможно автор привирает.

Аноним 19/04/24 Птн 07:19:50 #451 №709496

>>709493
Ну и в бенчмарках видно, что моджо версия быстрее только на маке, к тому же теряет преимущество на больших моделях.

Аноним 19/04/24 Птн 07:48:36 #452 №709504

>>709099
Да не, понятное дело, что они никому ничего не обязаны, молодцы что хоть так. Просто нахуя так кидать 95% обычных крестьян с 12-16-24гб врам. Для кого эти модели?

В последнее время консумеров вообще игнорят жозенько почему-то, буквально ни одной нормальной модели среднего размера, кроме командира.

>>709121
>могу бы купить вторую
Даже если не брать в расчёт цену, это же пердолинг уровнем не сильно далеко от Р40. На новый питальник уйдёт тыщ 15, потом надо думать, как две этих бандуры вкорячить в корпус (никак, покупать новый), организовывать дополнительный охлад...

Аноним 19/04/24 Птн 08:08:32 #453 №709512

>>709504
> В последнее время консумеров вообще игнорят жозенько почему-то
Так надо понимать, что учёные в говне мочёные нам не бро. Никогда и не были. Они просто работают за гранты, это как думать что продавцы-консультанты в магазах для помощи людям, а не для повышения продаж. Все грантожоры к оперсорсу имеют меньше отношения чем какой-нибудь Майкрософт, после публикации и предоставления PoC им оно больше не нужно. Бизнесу уже не интересны средние модели, поэтому соревнование ведётся либо на ультрамелких чтоб на любом говне заводились и можно было применять их в продуктах максимально дёшево, либо без ограничений на параметры - сколько осилишь натренить параметров, столько и делай.

Аноним 19/04/24 Птн 08:10:07 #454 №709513

>>709504
>На новый питальник уйдёт тыщ 15,
Взял прикл >>707432 за 2,5к у перекупа брат жив

>потом надо думать, как две этих бандуры вкорячить в корпус (никак, покупать новый), организовывать дополнительный охлад...
Лично я спилил гравёром заклёпки с блока под винчестеры при желании его можно поставить обратно на мелкие болты с гайками После этого Тесла с жирным кулером вполне себе вместилась в не самый большой корпус. Вместилась бы и вторая, если бы разъёмы на материнке позволяли. Вторую карту сунул в райзер и вроде норм.
Охлаждение для Теслы не так уж сложно пилится, главное иметь хороший вентилятор, а короб можно хоть из картона за вечер скрафтить.

Аноним 19/04/24 Птн 08:32:28 #455 №709530

Чому я нищеброд. Ща бы 70b да с нормальной скоростью. На 8b беда с именами.

Аноним 19/04/24 Птн 09:06:37 #456 №709547

1691655646668.mp4

>>709530
> manko

Аноним 19/04/24 Птн 09:35:54 #457 №709565

>>708879
>так, поехавший
это не я, остальные накидал другой, он еще более поехавший, а что

Аноним 19/04/24 Птн 09:41:42 #458 №709570

Насколько соевая Ллама 3?

От 1 до 10. Где 10 это постоянный спам отрицаний на вопрос сложнее можно ли поджечь рыбу в океане гидрозином, с последующим закрепощением негров в анголе.

Аноним 19/04/24 Птн 09:44:11 #459 №709573

GitHub намерен запретить размещение проектов для создания дипфейков
GitHub намерен запретить размещение проектов для создания дипфейков
GitHub намерен запретить размещение проектов для создания дипфейков

GitHub опубликовал изменения правил, определяющих политику в отношении размещения проектов, которые можно использовать для создания фиктивного мультимедийного контента с целью порномести и дезинформации. Изменения пока находятся в состоянии черновика, доступного для обсуждения в течение 30 дней (до 20 мая).

В условия использования сервиса GitHub добавлен абзац, запрещающий размещение проектов, позволяющих синтезировать и манипулировать мультимедийным контентом для создания интимных образов без согласия (NCII) и контента, нацеленного на введение в заблуждение или дезинформацию. Запрет также распространяется на проекты, которые поощряют, продвигают и поддерживают подобные системы.

В качестве причины введения запрета упоминается попытки использовать системы искусственного интеллекта, способные генерировать реалистичные изображения, звук и видео, не только для творчества, но и для злоупотреблений, таких как создание дипфейков и организация спамерских обзвонов. При этом представители GitHub намерены лояльно относиться к проектам двойного назначения, напрямую не предназначенным для злоупотреблений и не одобряющим вредоносное применение, но которые потенциально могут применяться злоумышленниками в своей деятельности.

https://github.blog/2024-04-18-a-policy-proposal-on-our-approach-to-deepfake-tools-and-responsible-ai/
https://github.com/github/site-policy/pull/926

Аноним 19/04/24 Птн 09:53:50 #460 №709579

>>709573
Какое это имеет отношение к лламам? Это диффузерам можно начинать трястись. Хотя и там скорее всего должно попасть в категорию
>проектам двойного назначения, напрямую не предназначенным для злоупотреблений и не одобряющим вредоносное применение, но которые потенциально могут применяться злоумышленниками в своей деятельности

Аноним 19/04/24 Птн 10:02:31 #461 №709585

>>709573
Это затронет так же xtts, как систему подделывающую голоса и другие подобные. Так что они будут удалять все что может подстраиваться под человека, не только картинки

Аноним 19/04/24 Птн 10:16:40 #462 №709602

>>709447
Так на деле 3.5 унижена давным давно, а четверка под коммандером, если брать старые патчи.
Так что, не то чтобы твой аргумент мог в сарказм, так и есть, практически. =)

>>709451
Ихихих, ок. =)

Что, собственно, не значит, что 8Б такая пиздатая, я ориентируюсь на реальные результаты с арены, а не на маняфантазии с обеих сторон (у одних гпт4 король безальтернативный, у других мистраль всех побеждает).
Время покажет, буквально.

Я просто к тому, что тейк «гпт непобедим» тотально несостоятелен и аргументация к «по тестам она гпт обходит, значит тест — враки!» так же противоречит действительности.
Тест может и враки, но по другим причинам. Например по той же арене, где тесты не всегда сходятся с рейтингом, что как бы намекает.

>>709504
У крестьян нет 16+ гигов, только 12 максимум. Скорее 6-8-12.
Плюс, катай на оперативе, она бесплатная. Долго, но ничо, подождешь.
Ну как бы, 8 дали, 70 дали. Уже неплохо. Жаль не 13-30, но могли бы не дать 8 или не дать 70 — было бы совсем печально (точнее — никак попросту).

>>709573
Ваще похую, а у нас кроме гитхаба ничего нет? Я че-то думал, что есть альтернативы.

Аноним 19/04/24 Птн 10:42:36 #463 №709618

>>709150
А нельзя ли погонять модель на одном и том же тексте? Всё одно заучить там некуда, но может хоть обрезки до 10B умнее станут.

Аноним 19/04/24 Птн 10:52:57 #464 №709624

Как избавиться от assistant?assistant Достало уже, ничего не помогает!assistant

Аноним 19/04/24 Птн 11:00:45 #465 №709626

>>709624
Самый простой способ — добавь в custom stop token. =)

Аноним 19/04/24 Птн 11:14:15 #466 №709632

>>709624
импортируй вот этот Context Template : https://files.catbox.moe/1rzg32.json
решит все проблемы сразу, ну и саму модель скачай пофикшенную, там ггуф пока что имеет проблемы с 3-ей ламой.

Аноним 19/04/24 Птн 11:15:27 #467 №709636

firefoxEGasQzZKAI.png

шутки за 300

Аноним 19/04/24 Птн 11:27:26 #468 №709646

>>709626
Добавил
>>709632
Импортировал. Это 70Б ехл2 3б

Аноним 19/04/24 Птн 12:24:12 #469 №709694

>>709632
>модель скачай пофикшенную

Ссылку?

Аноним 19/04/24 Птн 12:26:38 #470 №709696

>>709447
Все так
>>709451
> Мику реально унизила гпт 3.5, лично проверял
Как же проорал с этого. Но 3.5 действительно пиздец уныл, в рп его чуть ли не первые лламы "унижали".
> Четверку не унизил никто, да.
Коммандера плюс покатай, потом чурбу. Задумайся.
>>709504
> это же пердолинг уровнем не сильно далеко от Р40
Да ну, купить райзер/2 райзера и разместить нормальные карточки - сильно проще чем делать то же самое с некротеслами, колхозить охлаждение а потом пердолиться с драйверами.
> организовывать дополнительный охлад
У тебя нет корпусных кулеров?
>>709602
> на реальные результаты с арены
Ты хоть задумывался что там оценивается? Всратые зирошоты с ответами на унылые вопросы, загадки (ответы к которым внезапно ломаются стоит чуть сменить формулировку), редко небольшая серия диалога. От того некоторые сетки даже малого размера имеют там крайне высокий рейтинг, но при этом в более менее реальных задачах, где используется контекст, серия условий и требуется качественный ответ с учетом всего этого, они сразу пасуют.
К любому тесту нужно относиться не как к абсолютной метрике а с пониманием что именно он измеряет. Сюда же накладывается возможность "зазубривания" серий вопросов оттуда.
>>709624
Как вы их получаете?

Аноним 19/04/24 Птн 12:30:39 #471 №709699

>>709602
>а у нас кроме гитхаба ничего нет

Корпы сначала всех подсаживают на один сайт в который немеренно бабоа вливают, убивая конкурентов за счет демпинга, а потом ставят всех раком когда нужно. Например без обнимающих морд весь локальный опенсорс ИИ упадет разом, если еще и гитхаб наебнуть - то вообще умрет навсегда.

Аноним 19/04/24 Птн 12:31:27 #472 №709700

Стоит ждать МОЕ модели на основе Ламы 3, или говно?
Мне лично МОЕ зашли.

Аноним 19/04/24 Птн 12:31:58 #473 №709701

>>709632

Как это в Убу импортировать?

Аноним 19/04/24 Птн 12:38:16 #474 №709704

>>709696
>Как вы их получаете?

Открой инструкт модель в убе или кобольде и тоже получишь.

Аноним 19/04/24 Птн 12:38:34 #475 №709705

>>709700
Да походу только к 4 версии ждать. А битнет с мамбой дай бох к 6. Видимо ЛеКУНЧЬЕК там свою ЖЕПУ разрабатывает и ему похуй на передовые техники.

Аноним 19/04/24 Птн 12:41:02 #476 №709707

>>709632
Не помог этот пресет.assistant
Качал полные 8б веса вообще отсюда https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct, такая проблема только с инстракт моделью.assistant

Аноним 19/04/24 Птн 12:41:31 #477 №709708

>>709023
Протестировал и llama3-70B в переводах, тоже никаких прорывов. Примерно та же ллама2-70B, которую ознакомили с другими языками, помимо английского. Точность перевода примерно на уровне коммандера и прочих мультиязычных моделей относительно больших размеров, совсем уж глупых проёбов как у 8B нет, но всё равно далеко от идеала. Английский в переводе получается местами корявый, впрочем, мне начинает казаться, что я просто отвык от уровня базовых ллам, всё-таки файнтюны задали высокую планку.
Пока что примерно "на глазок" прикинул свой личный рейтинг в переводах с японского.
По точности:
llama2-70b stablelm japanese >= nekomata-14b >= command-r = llama3-70b > openchat-0106 >= llama3-8b = gemma > frostwind
По качеству английского:
frostwind > command-r > llama3-70b > openchat-0106 >= llama3-8b >= gemma = nekomata-14b >= llama2-70b stablelm japanese
В среднем:
command-r >= llama2-70b stablelm japanese = nekomata-14b = llama3-70b >= frostwind > openchat-0106 >= llama3-8b >= gemma
Осталось только коммандера плюс погонять, есть на него определённые надежды, учитывая неплохие успехи в общем зачёте у средней ~30B модели (стримингом с hdd, лол, ну и если вдруг порадует, можно будет всё-таки закинуть на ssd, но без предварительного тестирования жалко туда ~100 ГБ писать). Ну и ждать японских файнтюнов лламы3, может и сделают что-то годное. Одноязычные лламы2 файнтюном скорее портились, а вот какого-то мультиязычного китайца затюнили в nekomata-14b довольно удачно (учитывая её размеры).

Аноним 19/04/24 Птн 12:41:46 #478 №709709

>>709646
Убери галку со Skip Special Tokens в таверне. Если запускаешь через кобольд, то скорее всего не прокатит и нужна ооба.

Аноним 19/04/24 Птн 12:43:19 #479 №709710

1612649580841.png

>>709481
> питон медленный
В принципе на этом уже можно словить передоз кринжа и закрывать. Если же пролистать то можно дойти до пикрела, потом увидеть что их язык не только в 68к раз быстрее пихона, но и в 8 раз быстрее плюсов, в край ахуеть и уже наконец закрыть. Судя по английским надписям это не хабродаун насочинял а оригинальная позиция такая, пиздец.
>>709700
Если только кто-то решит сам глубоко переобучить, используя в основе данные с лламы.
>>709704
Окей, обычные только пускал, надо попробовать.

Аноним 19/04/24 Птн 12:46:45 #480 №709712

>>709708

Внки переводить хочешь? Как кстати перевод в сравнении с гугловским?

Аноним 19/04/24 Птн 12:56:15 #481 №709715

>>709709
Помогло, спасибо. Теперь не пишет этого ассистента, но он в один момент начинает будто бы заполнять ответ пустыми токенами

Аноним 19/04/24 Птн 12:56:38 #482 №709716

>>709712
>Внки переводить хочешь
Да нет, сам в оригинале наворачиваю, иногда туплю и не догоняю. Хочу подобрать ассистента, чтобы помогал разбирать сложные места на японском, ну и в перспективе ещё китайский, к которому только-только начал присматриваться съедобного контента маловато, правда, т.к. я предпочитаю начинать с устного, а потом уже перекатываться в письменный.
>Как кстати перевод в сравнении с гугловским
Примерно на одном уровне. Какие-то модели чуть лучше понимают, какие-то чуть складнее оформляют текст-перевод, в среднем большие модели (30+) чуть-чуть выигрывают, сопоставимо себя показывают мелкие (openchat, gemma, llama3-8b). Гпт4, вроде как, лучше гугла, вот и надеюсь, что коммандер плюс если не достигнет того уровня, то хотя бы ещё немного приблизится.

Аноним 19/04/24 Птн 12:58:03 #483 №709718

>>709710
Я чет видел по похожему методу распределения нагрузки, но там была модифицированная версия линукс с каким то измененным ядром
Был какой то прорыв мол система стала работать еще лучше новым распределением нагрузки и тд
Может быть что то из этого используется и тут, все таки даже плюсы могут быть оптимизированы, если использовать прям все возможности процессоров разом равномерно распределяя нагрузку алгоритмом
Ну, по крайней мере это теоретически возможно, че там на деле хз

Аноним 19/04/24 Птн 12:58:48 #484 №709719

>>709694
вот
но там только Q5_K_M, проверял, уже шизит, лучше поломаную Q8 крутить.
https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct-GGUF

Аноним 19/04/24 Птн 13:01:21 #485 №709721

есть ли возможность помеять цвет текста в чате ST?
да так чтобы перс тоже мог его менять в зависимости от настроения или любых других настроек указанных в описании..

Аноним 19/04/24 Птн 13:03:52 #486 №709723

>>709718
Да кринжатина это с выставлением желаемого за действительное и жонглированием терминов. Весь бек где нужен перфоманс написан на сях с последними инструкциями и регулярно оптимизируется. Если кодить или просто чекнуть код - все операции с векторами/матрицами, заведомо параллельны и ассинхронны. Даже если как васян начнешь вызывать просто подряд - тебе насрет варнингами что "не надо делать так, делай вот так". Примеров высокооптимизированных и производительных вычислений с избытком, самое простое - код диффузии посмотреть в том же фордже и комфи.
Братишки просто спекулируют, делая сравнение в придуманных ими условиях, которых нигде не встретить. Начинать с такого крайне зашкварно, если ты пытаешься выехать на лжи и сочиняя преимущества - значит реальных просто нет.

Аноним 19/04/24 Птн 13:06:22 #487 №709725

>>709723
Так то оно так, но нейросетки....
Они уже выебали все алгоритмы сжатия, могут и оптимизаторы кода выебать
Сейчас уже нельзя быть уверенным пиздят ли эти ребята или просто преувеличивают действительно существующий разрыв в производительности. Или реально пишут правду пользуясь какими то новыми трюками

Аноним 19/04/24 Птн 13:08:40 #488 №709726

>>709696
> Ты хоть задумывался что там оценивается?
Да. Не то чтобы твой аргумент первой свежести.
И в итоге, это все еще ближе к истине, чем фанатики «чатгопота непобедима!»
Хватит повторяться как попугай.
Но оффенс, я понимаю валидность твоего аргумента, но он стар и слаб, и реальность не то чтобы прогибается под это мнение.
Плюс, не знаю как ты, а тут многие юзают сетки не только покумить, юзают часто, плотно, в работе, и оценивают точно так же. А про победу чатгопоты всегда и везде слышно только от людей, кто ллм вообще не трогал, или сидит на 7б.
Ну такая шиза просто.

Аноним 19/04/24 Птн 13:09:11 #489 №709727