24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Голосовых нейронок тред (TTS, STS, STT) #3 /speech/

 Аноним 20/08/23 Вск 01:06:06 #1 №461500 
1577559427366.mp4
1543533656176.mp4
1643150738128.mp4
1606708732976.mp4
1551863187930.webm
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Text To Speech (TTS) 📝 👉 🎤

Silero
Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский.
https://github.com/snakers4/silero-models

Есть 2 GUI:
Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero
Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks

Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff

VITS-Umamusume-voice-synthesizer
Только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
Кажется можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Speech To Speech (STS) 🎤 👉 🎤

Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners
Готовые модели: https://huggingface.co/models?search=so-vits-svc | https://civitai.com/models?query=so-vits-svc

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Готовые модели: https://huggingface.co/juuxn/RVCModels/tree/main

Утилиты для отделения вокала от инструменталки идут в комплекте.

Speech To Text (STT) 🎤 👉 📝

Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

Прочее 🛠️
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer
Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video

Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS

Шаблон для переката: https://rentry.org/byv2s
Предыдущий тред: >>314948 (OP)
Аноним OP 20/08/23 Вск 01:10:58 #2 №461506 
Где взять последнюю версию RVC: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases
Аноним 20/08/23 Вск 01:23:29 #3 №461518 
hands.mp4
вкатился
Аноним 20/08/23 Вск 02:24:17 #4 №461551 
Мэддисон - мы улетим.mp4
Спасибо анону в прошлом треде который подсказал как починить RVC. Сделал свой первый кавер, зацените.
Аноним 20/08/23 Вск 09:41:04 #5 №461662 
Короче rvc явно лучше поет, но модель получается ужасная, не знаю почему.
Использую тот же датасет, но результат в 100 раз хуже чем в svc
Аноним 20/08/23 Вск 14:00:20 #6 №461792 
>>461551
Мод для КР надо сделать с этим треком.
Аноним 20/08/23 Вск 16:48:06 #7 №461892 
Почему нет нормального гайда, где объясняется, от чего зависит batch size и количество эпох? Или я слепой?
Аноним 20/08/23 Вск 17:26:05 #8 №461912 
>>461892
ты тупой?
эпоха это один прогон всего твоего датасета
бач сайз это количество прогонов одновременно
Аноним 20/08/23 Вск 18:22:23 #9 №461958 
Как соединить голоса RVC с ламой?
Аноним 20/08/23 Вск 19:06:49 #10 №461974 
>>461958
Такое сделал https://github.com/atomlayer/llama_cute_voice_assistant
Аноним 20/08/23 Вск 19:25:07 #11 №461993 
>>461892
Ставь максимально высокий батч-сайз (=на скольки файлах одновременно обучается нейронка), который позволит твоя видеокарта. Число эпох (=количество полных прогонов по твоему датасету) можешь делать настолько большое, насколько позволяет время. Эти сетки (CVS/RVC) не переобучаются, в отличии от той же SD. Просто в какой-то момент не будет никакой разницы между эпохами.
Аноним 20/08/23 Вск 20:23:03 #12 №462036 
>>461974

Почему бы не приложить .bat/.sh файл который сам выполнит все это консольное установочное говно? Это дело пяти минут, зато каждый кто будет ставить твое дерьмо не будет тратить эти пять минут(или три часа, если он впервые это делает). А некоторые вообще дропнут нахуй, когда увидят твою инструкцию на тридцать шагов.
Аноним 20/08/23 Вск 21:59:42 #13 №462094 
image.png
>>461974

Не работает.
Аноним 20/08/23 Вск 22:23:09 #14 №462106 
>>462094
Вроде такой проблемы у меня не было.
Тут только можно попробовать
pip install chardet
Аноним 20/08/23 Вск 23:07:52 #15 №462132 
>>462106

Помогло.
Запустилось после плясок с бубном. Тебе стоило написать что надо имя персонажа в настройках указать, а то работать не будет.
Работает через пень-колоду, если честно. Во-первых - ты зачем-то родил полностью новый интерфейс вместо того чтобы сделать форк уже готового экстеншена к убабуге, при этом никаких настроек оббращения к апи я не увидел. Во-вторых, wake слово он понимает через раз(жутко бесит), русский язык не понимает вообще. В третьих - голос на выходе все равно без нужного выражения, почти никакой разницы с встроенным в убабугу силеро.
Аноним 20/08/23 Вск 23:13:08 #16 №462134 
>>462132
>Во-вторых, wake слово он понимает через раз(жутко бесит)

Какое имя ты используешь. Если как-то японское, то может такое быть, используй ангйлиское.
Имя lisa, которое стояло у меня понимал почти всегда с первого раза.

>wake_words = ["lisa"]
Вот здесь можешь указать несколько wake_words, если твое имя он понимает всегда по разному.

>русский язык не понимает
Под русский да, надо еще отдельно допиливать, чтобы работало.
Аноним 21/08/23 Пнд 00:08:51 #17 №462202 
image.png
>>462132
> голос на выходе все равно без нужного выражения
В теории выражение в silero можно частично делать с помощью тегов. Надо заставить с помощью какого-то промта ламу генерировать с тегами.
Аноним 21/08/23 Пнд 00:47:21 #18 №462236 
>>462202
Эх, полумеры. Нужна нормальная мультимодалка с выводом голоса напрямую.
Аноним 21/08/23 Пнд 01:36:58 #19 №462262 
.mp4
Вчера вкатился, генерил на RVC.
Оригинал: https://www.youtube.com/watch?v=enwCyZvibZA
Аноним 21/08/23 Пнд 01:39:37 #20 №462266 
>>462262
Смотрю, у меня в браузере видео не воспроизводится, чем вы сшиваете? Я делал:
ffmpeg -i zima_letov.png -i zima_letov.wav -c:a aac -b:a 320k zima_letov.mp4
Аноним 21/08/23 Пнд 02:32:23 #21 №462292 
Алсо, спасибо Сенкофагу за вдохновение попробовать RVC, это оказалось куда проще, чем я думал.
В замечательное время живём.
Аноним 21/08/23 Пнд 02:34:06 #22 №462293 
>>462292
Ну вот, теперь даже превью нет. Я явно что-то делаю не правильно.
Аноним 21/08/23 Пнд 02:35:08 #23 №462296 
>>462266
Попробуй так:
ffmpeg -loop 1 -i image.png -i audio.wav -c:v libx264 -tune stillimage -c:a aac -b:a 192k -pix_fmt yuv420p -shortest output.mp4

Или через второй таб в этой штуке, но если через онлайн делать, там пара секунд тишины в конце добавится: https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
Аноним 21/08/23 Пнд 02:56:11 #24 №462300 
.mp4
.mp4
>>462296
Так ffmpeg ошибку выдает:
inflate returned error -3
Error while decoding stream #0:0: Generic error in an external library

Через сайт за 10 минут так и не сконвертил.

Попробую сконверить аудио отдельно и потом так:
ffmpeg -loop 1 -framerate 1 -i image.png -i audio.aac -map 0 -map 1:a -c:v libx264 -preset ultrafast -tune stillimage -vf fps=10,format=yuv420p -c:a copy -shortest output.mp4
Аноним 21/08/23 Пнд 02:57:21 #25 №462301 
>>462300
Во, теперь норм вроде.
Аноним 21/08/23 Пнд 03:08:55 #26 №462305 
emoji-in-distress-emoji-sad.gif
сенко скримить не умеет
Аноним 21/08/23 Пнд 03:59:34 #27 №462318 
>>462292
>>462300
Шикарно вышло, анон. И почему я сам не догадался вокал из песен Аргонова попробовать ею переозвучить... Спасибо, что поделился.

Добро пожаловать в клуб.
Аноним 21/08/23 Пнд 04:05:09 #28 №462319 
senkoelis.webm
Аноним 21/08/23 Пнд 12:58:40 #29 №462457 
>>462318
Да, я поделал сначала несколько генераций и понял, что от качества голосовой дорожки зависит 80% результата, а у Аргонова же все исходники на гите лежат. Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.

Спасибо.
Аноним 21/08/23 Пнд 14:06:17 #30 №462504 
>>461500 (OP)
Что для АМД(ЦП)даунов посоветуете? Кроме РКН конечно.
Аноним 21/08/23 Пнд 14:40:08 #31 №462532 
ElevenLabs всё? У меня только получилось зарегаться (раньше не пускало даже через впн), а там генерация голоса уже платная. Нет лазеек, как с claude/gpt4 и прочими платными сетями?
Аноним 21/08/23 Пнд 14:50:39 #32 №462535 
>>461993
На 2060 rtx какой батч сайз ставить? А чекпоинты как ставить в svc?
Аноним 21/08/23 Пнд 15:19:09 #33 №462544 
>>462504
Силеро на процессоре работает даже лучше, чем на видеокарте, лол.
>>462532
>ElevenLabs всё?
Всё, уже месяца три как.
>>462535
>На 2060 rtx какой батч сайз ставить?
Берёшь и тестишь, кто знает, может у тебя там в фоне игра запущена, и врама осталось полгига?
Аноним 21/08/23 Пнд 15:23:36 #34 №462547 
>>462544
А как вообще тренировка нейросети влияет на ресурс видеокарты?
Аноним 21/08/23 Пнд 15:28:05 #35 №462551 
>>462547
Так же, как и любое другое использование. Хочешь вечной жизни своей картонке? Положи её в сейф в безводную и безкислородную атмосферу, авось 30 лет пролежит.
Аноним 21/08/23 Пнд 16:58:26 #36 №462588 
image.png
Так и должно быть или я на не на видюхе генерю?
Аноним 21/08/23 Пнд 17:13:02 #37 №462596 
изображение.png
>>462588
Проверяй на вкладке ГПУ, выбери куду.
Аноним 21/08/23 Пнд 17:14:14 #38 №462598 
>>461551
модельку на мэда для RVC где можно скачать? был бы оч благодарен за ссыль
Аноним 21/08/23 Пнд 17:20:31 #39 №462600 
image.png
>>462596
А почему в диспетчере не пишет тогда
Аноним 21/08/23 Пнд 17:21:51 #40 №462602 
>>462600
Потому что оно считает 3D нагрузку, очевидно жи.
Аноним 21/08/23 Пнд 18:02:05 #41 №462629 
.mp4
Продолжаю извращаться над Аргоновым.
Оригинал: https://www.youtube.com/watch?v=kR4idheTafY
Модель neco-arc(aggressive)
Аноним 21/08/23 Пнд 19:14:07 #42 №462673 
>>462598

https://discord .com/channels/1089076875999072296/1099149801054019604
Аноним 21/08/23 Пнд 19:30:35 #43 №462689 
>>462673
сяпс!
Аноним 21/08/23 Пнд 20:57:10 #44 №462765 
>>414384 →
Скачал всё и перезалил на хг. Ну и свою модельку туда же вкинул.
SVC (39 моделей): https://huggingface.co/NeuroSenko/svc-models/tree/main
RVC (152 модели): https://huggingface.co/NeuroSenko/rvc-models/tree/main
Аноним 21/08/23 Пнд 21:20:17 #45 №462779 
Колаб STS - всё.
Аноним 21/08/23 Пнд 21:41:33 #46 №462799 
>>462457
Поделишься ссылкой на репу с исходниками Аргонова? У меня оф. сайт не открывается и нагуглить не могу.
Аноним 21/08/23 Пнд 21:45:47 #47 №462802 
>>462799
https://gitlab.com/complexnumbers/
Аноним 21/08/23 Пнд 21:47:54 #48 №462803 
>>462802
Низкий поклон
Аноним 22/08/23 Втр 09:41:16 #49 №463128 
>>462319
Шикарно. Тут на всей борде полтора анчоуса знают Елизарова. Скинул в тематический, авось оценят. Вкрации расскажите как делать такие шедевры.
Аноним 22/08/23 Втр 10:25:36 #50 №463159 
Вы когда вырезаете звук из мультиков, фоновый шум чем убираете?
Аноним 22/08/23 Втр 11:11:43 #51 №463189 
Там силеро выпустили новые модели v4 для русского. Только они хуже, лол.
Аноним 22/08/23 Втр 12:20:40 #52 №463221 
Есть способ менять свой голос на тянский в реальном времени?
Аноним 22/08/23 Втр 12:32:09 #53 №463227 
колхозный панк.mp4
продавец кошмаров.mp4
на горе стоит верблюд.mp4
Аноним 22/08/23 Втр 12:40:39 #54 №463232 
>>463221
> A fork of so-vits-svc with realtime support
Аноним 22/08/23 Втр 14:28:21 #55 №463304 
yandex.mp4
coi1.mp4
coi6.mp4
>>462457
>качества голосовой дорожки зависит 80%
Это база. Поэтому свежеспизженные модели первым делом идут морфить голос комрада с выразительной речью.
Но у меня парадокс - самый чистый морф получился на шипящем мешапе.
>>463128
На ютубе разжовывают по промту RVC тред Елизарова?
Аноним 23/08/23 Срд 07:22:45 #56 №463977 
Пытался научить rvc на голосе одного черта из одной игры, а получился neco ark с фильтрами ревебирации. Дайте совет как делать чтобы делать хорошо
Аноним 23/08/23 Срд 09:30:42 #57 №464009 
>>463977
Хм, я подумал, может дело в том голос оригинального британского актера довольно высокий? Я впервые раз попробовал и ещё ничего не понимаю
Аноним 23/08/23 Срд 10:51:27 #58 №464044 
>>464009
Ну повысь голос, там же можно
Аноним 23/08/23 Срд 19:52:04 #59 №464445 
>>413975 →
>Короче, пацаны. Открываете телеграм, находите канал СnacuTe XpucT'a, боту отсылаете сообщение и качаете кучу говн\\\\ голосов.
>RVC модели⬇️
>RVC_Voice_1:

Анон, нихера не могу найти такого вообще. КАК ТАК-ТО?
Может у кого есть RVC Андрея Ярославцева, пацаны, поделитесь?
Аноним 23/08/23 Срд 20:01:49 #60 №464450 
>>464445
Блин там короче не RVC походу...
Аноним 24/08/23 Чтв 04:54:23 #61 №464811 
>>464445
Ищи просто "XpucT", тот канал будет в первой десятке выдачи.
Аноним 24/08/23 Чтв 05:30:16 #62 №464819 
>>464009
Ух ебат, вроде бы с голосом ру локализации работает лучше, за исключением тянущихся гласных.
Что будет если накидать для обучения сразу 2 или даже 3 отдаленно похожих голоса? Получится что о среднее или результат будет прыгать от одного к другому?
Аноним 24/08/23 Чтв 11:20:49 #63 №464945 
>>463304
Ну да, вот >>898413
Аноним 24/08/23 Чтв 16:03:00 #64 №465151 
>>464811
Спасибо, так нашлось, но да там не RVC, ех...
Аноним 24/08/23 Чтв 22:56:47 #65 №465639 
Мнеможнодоверитьогнестрельноеоружие.mp4
блять ебать там текста в шапке вы ебанутые я поридж с свдг
Аноним 24/08/23 Чтв 23:10:20 #66 №465672 
>>465639
Держи в курсе.
Аноним 25/08/23 Птн 15:11:26 #67 №466112 
senkormvpe1.webm
senkormvpe2.webm
senkormvpe3.webm
senkormvpe4.webm
senkormvpe5.webm
senkormvpe6.webm
rmvpe
Аноним 25/08/23 Птн 16:13:29 #68 №466165 
output.mp4
>>466112
А капы как вытягивал? RVC?
Аноним 25/08/23 Птн 17:15:43 #69 №466217 
>>466165
>капы
Это чо? В гугле выдаёт только фонк.
Да, RVC.
Аноним 25/08/23 Птн 18:29:06 #70 №466259 
>>466217
Акапеллы сокращёно, голос без музыки.
Аноним 25/08/23 Птн 18:38:08 #71 №466262 
>>466259
Через увре.
Ультимейт вокал ремувер сокращёно
Аноним 25/08/23 Птн 22:32:20 #72 №466490 
БЛЯТЬ, ЕБУЧИЕ НОРМИСЫ В КРАЙ АХУЕЛИ!
Это и есть тот самый пиздинг контента, на который жаловался анон?

https://youtu.be/T5-oLns1TY8?si=TvNK6B70wqsJI5oM

>>458453 →

Эта хуита даже не удосужилась название другое придумать, пиздец.
Главное, 14к просмотров за 8 дней на канале с 31 подписчиками, будто этот видос в какой-нибудь паблик ВПараше запостили.
Аноним 25/08/23 Птн 22:50:12 #73 №466495 
pmc.mp4
>>466490
Пчел... В первый раз? Лепи вотермарку и без валидола не лезь в тикток.
Аноним 26/08/23 Суб 00:01:41 #74 №466544 
>>466490
Тебе жалко что ли?
Аноним 26/08/23 Суб 00:04:09 #75 №466547 
>>466544
Я это для анонов делал, а не для какого-нибудь школьника, который это зальёт на ютюб и закинет в свой говнопаблик.
Аноним 26/08/23 Суб 01:18:29 #76 №466633 
>>466547
С тебя убыло? Ты говоришь сейчас как какой-нибудь говноправообладатель, который считает упущенную прибыль по чисслу скачиваний с пиратебея. А по факту тот еблан (я его нисколько не жалею, чувак просто пиздит работы без указания авторства а ты его пиаришь) просто немного расширил аудиторию твоей работы. Возможно даже амёбы из тиктока, посмотрев это, получат такой вау импульс, что он выбъет их из колеи потребление говна и даст сил начать создавать говно самим, а это уже кое какой, да плюс.
Аноним 26/08/23 Суб 04:12:24 #77 №466701 
>>466633
Похуй, жаловаться на авторские права в интернете = бороться с ветряными мельницами.
Аноним 26/08/23 Суб 07:29:07 #78 №466751 
>>466490
Вот поэтому когда я делаю контентич для двача, я обязательно ставлю на нем свою подпись и ссылку на себя, а такое стараюсь как модно быстрее залить, чтобы было легче блочить пидоров ворующих контент
Аноним 26/08/23 Суб 18:48:04 #79 №467180 
>>461500 (OP)
Шапка говно, тред захвачен копролисом.
Аноним 26/08/23 Суб 19:15:43 #80 №467192 
Рот ебал этих TTS. Делаю свой аналог Нейросамы и все готово кроме нормальной речи. Силеро не подходит потому что хочу идти на англоговорящую аудиторию, ибо на русском твиче одни нищеброды да и сама аудитория намного меньше.А на английском Силеро выдает полную содомию вместо речи.
MoeGoe и MoeTTS - какая-то дичь которую непонятно как запускать, что делать, как обучать и где у нее английский язык хоть в каком-то виде. Даже гугл не знает ничего кроме 3.5 респозиториев на гитхабе без толковых мануалов.
Туртоис - генерит хорошо но по 5 минут, для реалтайм стрима не годится ни в каком виде.
Барк - странный и все равно долгая генерация.

Что делать, анон? Может есть еще что-то кроме ажур клауда и елевенлабс?
Аноним 27/08/23 Вск 00:13:53 #81 №467485 
>>467180
это ейка и лисяша
Аноним 27/08/23 Вск 01:26:42 #82 №467519 
Делюсь своими результатами.
Нейронки поют всрато, но после допиливания в FL получается вполне терпимо.

https://youtu.be/I5TtXQ942Lk?si=9A23QOhLO30csrqJ

https://youtu.be/I8oL56LJdRQ?si=o-aishDMI3Ya5wQf

https://youtu.be/CxIRCvi9qcU?si=vwo6I1WnDXqGg2EH
Аноним 27/08/23 Вск 02:17:12 #83 №467542 
>>466633
Ящитаю, если человек смотрит тикток, то ему уже не помочь.
Аноним 27/08/23 Вск 12:52:24 #84 №467700 
>>467192
> Что делать, анон?
Пиздуй на завод.
Аноним 27/08/23 Вск 15:38:21 #85 №467822 
Там завезли два примера от bark.cpp TTS (сам репозиторий всё ещё WIP), также обещают добавить voice-cloning.
https://github.com/PABannier/bark.cpp
В первом примере на фоне есть некая мелодия, вероятно использовали [music] токен как у оригинального барка.
Короче эта шняга из-за использования той самой библиотеки GGML должна будет работать почти в реал-тайме ибо оригинал с неквантованными моделями стандартного размера требует около ~10gb vram.
sage[mailto:sage] Аноним 27/08/23 Вск 20:37:33 #86 №468221 
Аноны, а как вы боретесь с картавостью в русских песнях в SVC? Пользуюсь своими датасетами и на выходе постоянно плохо произносится буква Р в песнях, это можно как-то пофиксить?
Аноним 28/08/23 Пнд 13:55:22 #87 №468918 
russosen.mp4
Аноним 28/08/23 Пнд 16:06:34 #88 №469024 
Киньте тг с моделями
Аноним 28/08/23 Пнд 16:22:28 #89 №469030 
output.mp4
Может есть модель без этих щелчков ебаных?
Аноним 28/08/23 Пнд 16:56:47 #90 №469060 
>>468221
Да, обучать на датасете РУССКОГО некартавого голоса.
Аноним 28/08/23 Пнд 22:45:28 #91 №469458 
Стикер
>>469060
Я там в репозитории в обсуждение читал про это, что вся программа основана на английских фонемах. Поэтому, когда ты обучаешь модель в датасет другого языка будет получаться такой вот "акцент". Не в датасете дело. Возьми любую модель хоть с миллиардом часов обучения и попробуй изменить русскую речь и она всё равно будет картавить английскими фонемами. Да тембр голоса будет идеально похожий на цель, но произносимые звуки будут выдавать англичанина.
Аноним 28/08/23 Пнд 22:57:07 #92 №469486 
>>469458
>>466112
Аноним 29/08/23 Втр 00:51:49 #93 №469683 
Прочитал шапку и понял чуть меньше чем нихуя. Может у меня глаза пиздой обшиты, но подскажите такое:

1. Можно ли взять звуковой файл с начинкой текста, скормить его нейронке и на основе этого файла нс будет говорить этим голосом (озвучивать написанное). Это же про это тред?
2. Какова длительность файла? Написано что от 10 минут до часа, а что вы за образцы такие скармливаете? Аудиокниги?
3. И самое главное - например я начитаю 10 минут текста, что именно лучше скачать - чему лучше скормить? Идеально если это локальная история, без всяких там регистраций и смс. Есть что-то типа rope или stable defusion, только для голоса?
Аноним 29/08/23 Втр 03:33:09 #94 №469769 
.mp4
>>469683
Если говорить про русскоязычную речь, то положняк сейчас такой:

Для генерации голоса из текста (Text To Speech) лучше всего использовать Silero. Запустить его можно локально (Soundworks, смотри этот пост >>448810 → ), поиграться в онлайне без смс и регистраций ( https://huggingface.co/spaces/NeuroSenko/tts-silero тут сетка упадёт, если скормить ей больше нескольких сотен символов за раз; можно скачать этот фронт себе локально при желании), либо поиграться с их официальным ботом в телеге https://t.me/silero_voice_bot но там есть лимиты на бесплатном тарифе. Для Silero доступно несколько готовых русскоязычных моделей, но свои обучать нельзя.

Затем ты можешь поменять оригинальный голос на нужный тебе (Speech To Speech) при помощи SVC либо RVC. Эти системы позволяют тренировать свои голосовые модели. Вот тут тебе и пригодится образец нужного тебе голоса длительностью от 10 минут до часа.

RVC более новый, меньше косячит с произношением и модели там тренируются на порядок быстрее, советую глянуть в его сторону.

> что вы за образцы такие скармливаете? Аудиокниги?
В качестве датасета надо использовать примеры нужного тебе голоса с как можно меньшим числом сторонних звуков.
Аноним 29/08/23 Втр 04:21:45 #95 №469786 
.png
>>469024
Вот здесь глянь >>413975 →
Либо тут зеркало на хг >>462765

https://discord .gg/aihub
Насколько мне известно, в этом дискорд-комьюнити находится самое крупное структурированное хранилище моделей для SVC/RVC (канал voice-models). Там есть фильтры по нескольким категориям (например, можно искать аниме-персов и исключить неоригинальный дубляж) и работает поисковая строка. Для всех моделей сразу прикреплены примеры с результатами. На каких-то спикеров доступно сразу несколько вариантов моделей.
Аноним 29/08/23 Втр 09:19:07 #96 №469863 
>>469486
И что? Как раз похоже как будто иностранец с акцентом произносит звуки русского языка. Особенно это отчетливо слышно на втором видео. Если ты этого не замечаешь, значит просто слишком долго с сэмплами возился.
Аноним 29/08/23 Втр 12:55:03 #97 №469989 
>>469863
Короче мимо диванный специалист. Проблема в том, что базовые модели, поверх которых мы обучаем, все как одна английские (китайские, мб японские). Для обучение базовой модели с нуля нужен нормальный такой кластер, ну или хотя бы одна А100 на месяц погонять. Такие дела.
Аноним 29/08/23 Втр 13:55:07 #98 №470026 
Сколько эпох лучше поставить для баланса качество/время обучения при наличии 15 минут семплов голоса и моей бомжатской 1060 на 6 гб?
Батч сайз равен 3, если больше то вылетает с нехваткой видеопамяти. Максимальное время ожидания часа 2-3.
Сколько вы вообще в среднем ставите эпох для svc?
Аноним 29/08/23 Втр 13:58:32 #99 №470029 
Есть гайды на rvc? Как его установить вообще?
Аноним 29/08/23 Втр 14:05:00 #100 №470032 
>>470029
1. Скачать https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC0813Nvidia.7z
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC0813AMD_Intel.7z если амуде или штеуд вместо видокарты
2. Распаковать
3. Запустить go-web.bat
Аноним 29/08/23 Втр 14:54:15 #101 №470055 
image.png
Что эта за хуйня? Когда все будет готово, сколько еще ждать?
Аноним 29/08/23 Втр 14:57:29 #102 №470057 
image.png
>>462596
Нет куды
Аноним 29/08/23 Втр 15:03:05 #103 №470062 
>>470055
Это реалтайм замена голоса. Надо жать кнопку Infer, а не (Re)Start Voice Changer, если работаешь с файлом.
Аноним 29/08/23 Втр 15:11:12 #104 №470073 
изображение.png
>>470057
Выбери куду.
Аноним 29/08/23 Втр 15:35:43 #105 №470103 
>>469786
>СnacuTe XpucT'a
Нихуя не находит его
Аноним 29/08/23 Втр 15:58:19 #106 №470131 
>>470103
>>470103
переименовали его в AINetSD Group
Аноним 29/08/23 Втр 16:37:41 #107 №470160 
изображение.png
>>470131
Ебать он пафосный. Ему об этом писали? Пробовали опустить с небес на землю?
Аноним 29/08/23 Втр 20:49:49 #108 №470415 
Что скажете о voice.ai, если мне нужен риал тайм? RVS лучше будет? Как они с русским языком дружат? Насколько сильно грузят комп?
Аноним 29/08/23 Втр 20:51:39 #109 №470418 
>>470415
*RVC
Аноним 30/08/23 Срд 16:26:37 #110 №471329 
Аноны подумываю использовать Silero в качестве читалки. В основном для tts есть ли в этом смысл? Интерфейс из шапки попробовал и сразу вопрос можно как-то подкручивать скорость речи? А то уже привык к довольно быстрому темпу гуглвойса
Аноним 30/08/23 Срд 18:57:30 #111 №471453 
> An open source implementation of Microsoft's VALL-E X zero-shot TTS model.
https://github.com/Plachtaa/VALL-E-X
https://colab.research.google.com/drive/1yyD_sz531QntLKowMHo-XxorsFBCfKul?usp=sharing
Аноним 30/08/23 Срд 19:08:18 #112 №471462 
>>471453
самое главное :
https://github.com/Plachtaa/VALL-E-X#%EF%B8%8F-hardware-and-inference-speed
> A GPU VRAM of 6GB is enough for running VALL-E X without offloading.
Аноним 30/08/23 Срд 20:11:52 #113 №471539 
TNV7noRINg.png
>>471453
>>471462
собственно как и любой другой ад зависимостей, эта херня не хочет работать.
Аноним 30/08/23 Срд 20:43:46 #114 №471561 
изображение.png
>>461500 (OP)
В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
>>471453
Эм, фигачит весь голос в логу в файл размером в 23 килобайта?
https://vocaroo.com/19oTpoiXKtG3
Качество конечно не фонтан, но там в качестве исходника рандомный файл из сенкодб.

Ну и как всегда, в русский не могёт.
Аноним 30/08/23 Срд 20:44:11 #115 №471562 
>>471561
>логу
лору конечно же. Или как назвать этот мини файл?
Аноним 30/08/23 Срд 20:59:16 #116 №471582 
>>471562
для этого :
> For faster inference, please use “Make prompt” to get a .npz file as the encoded audio prompt, and use it by “Infer from prompt”
эдакий сид, получил хороший результат, сохраняешь и используешь повторно при инференсе.
Аноним 30/08/23 Срд 21:06:04 #117 №471593 
>>471582
Да я понял для чего он. Прикол в том, что его достаточно.
Аноним 30/08/23 Срд 21:25:30 #118 №471620 
изображение.png
изображение.png
>>471539
У меня другая ошибка, плюс торч как всегда установился процессорный, 3080Ti такая "Да да, иду я нахуй".
Аноним 30/08/23 Срд 21:34:25 #119 №471635 
firefoxKx7z49nnkK.png
>>471620
ну тут пчел пообещал сделать .exe релиз, надеюсь это упростит установку.
https://github.com/Plachtaa/VALL-E-X/issues/48
Аноним 30/08/23 Срд 23:34:55 #120 №471810 
>>469989
>>469863
Если в датасете нет твердой эр, то как модель сама её создаcт? Никак.
Аноним 31/08/23 Чтв 06:02:22 #121 №472004 
.mp4
Аноним 31/08/23 Чтв 09:55:05 #122 №472090 
1693464896773.mp4
Аноним 31/08/23 Чтв 12:27:35 #123 №472173 
>>471462
(мимокрокодил из Лламы)
Офигеть, 6 ГБ врам, у меня Stable Diffusion, BLIP и суммаризатор еще крутятся, скока там врама на все это надо, в таком случае!
А если SDXL, то уже 11+1+2+6=20 гигов минимум.
С SD 1.5 14 гигов минимум.
Понапридумывают, никаких тебе оптимизаций. =с
Так и сидим на силеро.
Аноним 31/08/23 Чтв 14:16:58 #124 №472255 
>>461500 (OP)
мнение?
В чем она не права?

https://youtu.be/xfhPMKpPQng
Аноним 31/08/23 Чтв 14:35:30 #125 №472264 
>>472255
Нарезаю этот видос на семплы и кидаю на тренировку.
В чём не прав?
Аноним 31/08/23 Чтв 14:41:00 #126 №472267 
>>472264
>в мире больше не будет актеров озвучки, будет лишь параша которую будут крутить по кругу + тысяча скамеров ебущих тебя же
Во всем ты не прав. AI-пидоры это беспринципный кал, и против тебя скоро выйдет куча законов.
Можешь поиграться пока есть время.
Аноним 31/08/23 Чтв 14:49:20 #127 №472274 
>>472267
>Законы
Пчел...
Аноним 31/08/23 Чтв 15:32:34 #128 №472320 
>>472255
>сейчас можно подделать личность любого кто оставлял цифровые следы
Всё так. Соцсетебляди соснули. Мою личность не подделать, я аноним, у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО. Остальные пускай страдают, сами на себя компромата выложили.
Аноним 31/08/23 Чтв 15:38:16 #129 №472326 
>>472320
>у меня нет подписанных мною данных в интернете, нет ни одной моей фотографии, ни единого образца голоса, во всех сливах не было моего номера или ФИО
вот только такие чмохи-ничтожества и радуются с нейросетей
Аноним 31/08/23 Чтв 15:39:49 #130 №472330 
Анон, есть ли способ подключить подписку elevenlabs через русские карты типа сбера или я сосу писю в этом случае?
Аноним 31/08/23 Чтв 16:07:18 #131 №472358 
>>472326
Эм, я то разумист, и сразу знал, чем закончится вся эта катавасия со списыванием денег в банках по голосу и еблету. А остальные да, дауны, и будут страдать.
>>472330
Очевидно что нет, езжай из страны.
Аноним 31/08/23 Чтв 16:18:01 #132 №472367 
1621042765740.jpg
>>472358
>разумист
ты хуисосист. Буквально пустое место которое ничто не может предложить обществу кроме пердежа, вот тебе и "похуй".
Аноним 31/08/23 Чтв 16:30:08 #133 №472371 
Хуя у вас тут дебич-треды.

Плохо, что подделать личность? Ебать вы дауны, фальсификации сопровождали человечество всю его историю. Всерьез на такую хуйню только вы же и ведетесь. Проблема не в подделках личности, а в том, что вы на это ведетесь и сразу бегаете с факелами и вилами.
Нет цифрового следа, личность не подделать? Ебать вы дауны, вот это безопасность, небось еще в тайге живешь, скрывая тепловой след от спутников и не пользуясь интернетом? А, не, падажжи… Уже не работает.

Поржал с обеих точек зрения. Ради кала спорите, к сожалению.
Жить надо в реальности, а не в фантазиях. =)
Аноним 31/08/23 Чтв 17:11:03 #134 №472414 
>>472367
>пук
Что сказать то хотел? Где надо, я делаю, в том числе и для двача. А ты никто и все твои деньги сопрут.
>>472371
>Уже не работает.
Бежать надо не быстрее медведя, а быстрее остальных даунов. Пока сливают данные всякой там еды, и у всех вокруг горят пердаки, я спокоен, я не заказывал еду. Пока сливают сканы паспортов очередного левого сервиса, я спокоен, я не даю никому сканы своего паспорта. И так далее.
Конечно, целевую атаку на меня можно совершить. Но я хотел бы посмотреть на ебало того, кто будет пыжиться ради моих пары сотен тысяч деревянных.
>Ради кала спорите, к сожалению.
Таки да.
Аноним 31/08/23 Чтв 18:01:55 #135 №472454 
>>472414
Вариант с драконом и гномом мне ближе, но в общем-то да.
Аноним 31/08/23 Чтв 18:05:12 #136 №472457 
Подскажите какую русскоязычную модель можно натренировать на собственный голос. Я нубас, но в шапке конкретно по этому инфы нет, только по тренировке для STS
Аноним 31/08/23 Чтв 18:27:11 #137 №472472 
aivoice.webm
Аноним 31/08/23 Чтв 18:51:52 #138 №472492 
>>472457
Свою модель обучай, собери датасет своего голоса и тренеруй по гайду.
Аноним 31/08/23 Чтв 19:23:40 #139 №472550 
>>472492
Какую конкретно? Или они все файнтюнятся на своем голосе?
Аноним 31/08/23 Чтв 19:28:42 #140 №472561 
>>472550
Что какую? Ты тренируешь СВОЮ модель, используя такие решения как RVC и SVC. Потом, ты можешь использовать натренированую модель на любом аудиофайле или в реалтайме.
Аноним 31/08/23 Чтв 19:38:43 #141 №472589 
>>472550
>Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.
Вот же в шапке написано, просто собираешь датасет своего ЧИСТОГО голоса, режешь его аудио слайсером
https://github.com/flutydeer/audio-slicer
И дальше делаешь всё по гайду.
Аноним 31/08/23 Чтв 19:43:09 #142 №472604 
нейрокал.webm
Аноним 31/08/23 Чтв 19:45:49 #143 №472610 
>>472589
Так, я дурачок и не пояснил что именно я хотел. В общем мне нужен TTS, а не STS. Хотя можно, по сути закостылить так: любой TTS -> STS на нужный голос в принципе
Аноним 31/08/23 Чтв 19:51:14 #144 №472619 
>>472610
>>472604
То есть ты хочешь также как на видриле? Тогда план такой: Делаешь tts в silero, обучаешь модель на датасете своего голоса в rvc или svc и потом генерируешь файл на основе уже полученного tts результата.
Аноним 31/08/23 Чтв 19:56:55 #145 №472630 
>>472619
Да, я собсна так и подумал, спасибо. Просто странно что нет возможности просто обучить TTS на своем голосе, как например в елевен лабс
Аноним 31/08/23 Чтв 22:53:59 #146 №472846 
firefoxA5cKZIGJmQ.png
>>471453
чот как то так. https://voca.ro/1gGxZdrndZk3
Аноним 31/08/23 Чтв 23:04:55 #147 №472858 
firefoxcv3F14xVbw.png
>>472846
https://voca.ro/1mp8rbss8aUv
Аноним 01/09/23 Птн 01:52:11 #148 №473166 
>>472846
Бывает глотает слоги, а так норм.
Аноним 01/09/23 Птн 11:32:25 #149 №473396 
Я хочу бесплатно слушать большие тексты (статьи хотя бы), не важно каким голосом, главное чтоб интонации были правильней.
Какие есть варианты для английского, для русского?
Аноним 01/09/23 Птн 12:22:11 #150 №473416 
>>473396
подкасты слущай
Аноним 01/09/23 Птн 12:29:09 #151 №473421 
SVC и RVC так же хороши в преобразовании речи, как и в преобразовании пения? Расскажите про взаимосвязь качества, если есть только речь и наоборот - только пение.
Аноним 01/09/23 Птн 12:29:49 #152 №473423 
>>473396
Запусти Edge, нажми пкм по тексту. Безупречно будет читать.
Аноним 01/09/23 Птн 12:44:53 #153 №473432 
Эту залупу кто-то пробовал? https://github.com/coqui-ai/TTS
Аноним 01/09/23 Птн 12:56:06 #154 №473441 
>>473423
Спасибо!
>>473416
Слушаю.
Аноним 01/09/23 Птн 14:27:35 #155 №473486 
Котаны, а есть уже войс ченжеры для дискорда?
Аноним 01/09/23 Птн 15:00:47 #156 №473506 
https://youtu.be/ldP3w05Ab-U
Аноним 01/09/23 Птн 16:54:44 #157 №473568 
>>473486
Я только по эту знаю, но на русском сильный акцент, но мб с норм видяхами будет лучше (у меня 1060 3гб). Скачать альфу можно у них в дискорде, в новостном канале ссылки.
https://themetavoice.xyz/#live
Аноним 01/09/23 Птн 17:01:08 #158 №473577 
>>473421
Всё зависит от датасета, если сэмплы чистые, с большим диапазоном тембров, то любой результат(неважно пение или речь) выходит хорошим.
Аноним 01/09/23 Птн 18:26:53 #159 №473696 
Посоны, как заставить Летова перестать шепелявить? Все "с" глотает нафиг. Речь о RVC
Аноним 01/09/23 Птн 18:44:04 #160 №473712 
1september.mp4
Аноним 02/09/23 Суб 03:46:57 #161 №474061 
>>472255
В соседнем треде подробно расписали.
Коротко, во всем.

https://2ch.hk/ai/res/320984.html
Аноним 02/09/23 Суб 09:56:17 #162 №474122 
Коллаб стал дропать сессию через 5-10 минут, у вас так же?
Прочил что у них в правилах стоит запрет на дипфейки
Аноним 02/09/23 Суб 15:02:51 #163 №474321 
>>469769
>>469683
На английском звучит как говно роботизированное ваш силеро, я другим пользуюсь, на моей слабой видюхе (1050ti) куда лучше генерит.
Аноним 02/09/23 Суб 21:31:49 #164 №474618 
>>471810
Так не только в "Р" дело, тем более в моем датасете джва часа бубнежа было и любых звуков достаточно. Суть в том, что база обучения нейронки на английских фонемах, сколько модель не учи всё равно будет походить на говор иностранца.
Аноним 02/09/23 Суб 21:34:40 #165 №474622 
>>474061
Это школьник шизофреник с пораши, который своим высером все борды засрал, а сам при этом понятия не имеет что вообще такое нейросеть.
Аноним 03/09/23 Вск 23:09:15 #166 №475678 
>>474618
Ну вот, я же то же самое сказал. Этого никак не избежать, она же звуки из датасета берёт.
Аноним 03/09/23 Вск 23:37:39 #167 №475702 
output.mp4
Есть вариант как-то убрать эти щелчки? Очень бьет по ушам.
Аноним 04/09/23 Пнд 03:03:14 #168 №475809 
Обучаю модель so-vits-svc. На одну эпоху на моей 3060ti уходит одна минута, при том что там всего 50 околопятисекундных аудиофайлов. Во вкладке производительность cuda вроде забита до завязки. В интернете нашел что у какого-то чела уходит 2 минуты на одну эпоху на 3060, при том что у него 1000 аудиофайлов. Чяднт? Может в конфиге наложал? Я там оставил все как есть только количество эпох уменьшил.
Аноним 04/09/23 Пнд 04:38:34 #169 №475821 
>>472004
брат а где скачать RVC звуковую модель летова эту которую ты используешь?
Аноним 04/09/23 Пнд 05:36:31 #170 №475828 
>>475821
https://huggingface.co/FourStringSamurai/EgorLetov250/resolve/main/EgorLetov250.zip
Аноним OP 04/09/23 Пнд 06:09:18 #171 №475830 
>>471561
> В шапку надо добавить ссылку на https://vocaroo.com/upload , так проще делиться звуками.
Добавил в секцию "прочее". Осталось ката дождаться.

Надо будет ещё ссылок на загрузку SVC/RVC моделей добавить:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (как вариант, можно дополнительно упомянуть зеркало >>462765 )
Аноним 04/09/23 Пнд 13:13:05 #172 №476006 
>>462629
Ясно. Сдвигаем твою позицию в очереди на воскрешение на пару миллиардов пунктов вниз.
Аноним 04/09/23 Пнд 20:56:41 #173 №476514 
Есть текстовый гайд для альтернативно одарённых как натренить свою модельку?
Аноним 04/09/23 Пнд 21:14:39 #174 №476550 
шмедисону читалку текста его голосом встроили прямо в старфилд. а вы говорите годных читалок нету
Аноним 05/09/23 Втр 01:16:44 #175 №476804 
Да сука, я нихуя не понимаю. Тренил локально на своей пеке 2000 эпох целые сутки, получился пиздец, тренил в коллабе с меньшим лернинг рейтом столько же получил аудиорил (Абу гнида ни вемб ни мп4 не прикладываются) вот короче https://files.catbox.moe/bk6ro5.wav. У чела за 800 эпох получилась лучшая модель, да какого хуя? Нет, серьезно кто тренил подскажите
Аноним 05/09/23 Втр 04:00:16 #176 №476860 
делал все по гайду с готовой моделью. получил такую ошибку в веб версии последней RVC при попытке обработать wav файл с вокалом

File "C:\RVC0813AMD_Intel\runtime\lib\site-packages\gradio\processing_utils.py", line 219, in convert_to_16_bit_wav
if data.dtype in [np.float64, np.float32, np.float16]:
AttributeError: 'NoneType' object has no attribute 'dtype'

куда копать? видюхи нет думал сделать на intel проце
Аноним 05/09/23 Втр 05:26:12 #177 №476874 
>>476804
Перетрейн жи.
Аноним 05/09/23 Втр 12:58:35 #178 №477048 
>>476874
Да как? Оно такое и на 200 эпохах и на 800 эпохах, я весь путь тестил.
Аноним 05/09/23 Втр 16:04:08 #179 №477226 
Пацаны, я понимаю, что надо читать шапку, но все же по фасту спрошу - я хочу высказать очень непопулярное мнение на ютаб и боюсь деанона по голосу, чем мне лучше переделать голос, чтоб меня нельзя было задетектить? Заранее спасибо
Аноним 05/09/23 Втр 16:33:29 #180 №477261 
>>477226
Сделай запись и через RVC поменяй голос в дорожке.

Качаешь ПО: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Затем любую понравившуюся модель где-нибудь здесь:
https://discord .gg/aihub (канал voice-models)
https://huggingface.co/juuxn/RVCModels/tree/main
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main )
Аноним 05/09/23 Втр 20:58:14 #181 №477691 
Славик титан одиночества.webm
>>461500 (OP)
Аноним 05/09/23 Втр 21:00:19 #182 №477700 
Славик =ТЕРПИТ=.webm
>>461500 (OP)
Аноним 06/09/23 Срд 16:47:38 #183 №478645 
senkoglazapolzyt.mp4
Аноним 07/09/23 Чтв 04:13:05 #184 №479566 
m.4f188861-b92a-4fab-a64b-25c7518bcbb8.mp4
>>475702
Аноним 07/09/23 Чтв 13:48:33 #185 №479975 
Посоветуйте TTS альтернативу Silero, с приемлемым качеством и возможностью запуска на своей машине (я за раз 50к - 100к символов генерю, регаться по 10 раз на сервисах заебна). Silero проглатывает английские термины, а у меня их дохуя, смысл треряеся.
Аноним 07/09/23 Чтв 14:25:41 #186 №480016 
>>479975
Присоединяюсь к реквесту. Что сейчас актуально для локального TTS? Желательно еще гайд или описание нюансов установки если они есть.
Аноним 07/09/23 Чтв 14:38:33 #187 №480028 
>>480013 →
>>461500 (OP)
вот тут смотри все
Аноним 07/09/23 Чтв 16:54:15 #188 №480089 
don li volga.mp4
eminem.mp4
fastyouth.mp4
Аноним 07/09/23 Чтв 20:17:30 #189 №480323 
Можете пожалуйста озвучить фразу "diss mode activation" каким нибудь негрореперским голосом
Аноним 07/09/23 Чтв 20:17:30 #190 №480324 
>>480089
ЭТО КАХ?
Аноним 07/09/23 Чтв 20:43:47 #191 №480367 
chirp (2).mp4
chirp (1).mp4
chirp.mp4
>>480324
https://www.suno.ai. Вчера вышла. Вроде 25 генераций можно всего сделать бесплатно.
Аноним 08/09/23 Птн 12:44:42 #192 №480915 
>>479566
Как
Аноним 08/09/23 Птн 13:25:26 #193 №480950 
>>480367
В сочетании с rvc можно нагенерить лулзов. Только rvc отвалился. Сегодня впервые решился затестить, но слегка опоздал, гугл блочит.
Киньте рабочий колаб на svc/rvc, если знаете. Еще и сд колаб вчера отвалился.
Аноним 08/09/23 Птн 16:10:06 #194 №481080 
>>480950
На машине генерь.
Аноним 08/09/23 Птн 17:19:59 #195 №481180 
>>479566
Будущее прекрасно.
Аноним 08/09/23 Птн 18:45:54 #196 №481287 
>>481080
Купишь мне её, умник?
Аноним 08/09/23 Птн 19:46:16 #197 №481396 
Кто может подсказать, уже всю голову себе изломал. Есть на ютубе канал НейроШрек, мульт который нейросеть генерит, ну там в основном всякий однообразный бред, но как там реализована озвучка? Мало того что она хуярит круглые сутки, так еще и персонажи видно говорят голосами прототипами своих героев. Если кто сможет подсказать что там используется для озвучки это будет прекрасно!!!
Аноним 08/09/23 Птн 20:53:15 #198 №481504 
>>481287
Сам купи, это не сложно.
Аноним 09/09/23 Суб 01:41:38 #199 №481774 
Походу пчела перешла с твинков на девинарте к твинкам в тиктоке. Только за 15 минут наткнулся на 6~7 нейросенко акков фулл забитые одинаковыми каверами, часть спизжено отсюда
Аноним 09/09/23 Суб 06:08:08 #200 №481875 
>>471539
Зачем ты запускаешь на ос для игр?
Аноним 09/09/23 Суб 14:17:22 #201 №482154 
https://github.com/w-okada/voice-changer/blob/master/README_en.md
Просто оставлю это тут
Аноним 09/09/23 Суб 16:08:05 #202 №482238 
photo2023-09-0705-44-26.jpg
>>480915
Аноним 09/09/23 Суб 16:18:34 #203 №482254 
Google Переводчик - Google Chrome 2023-09-09 15-58-07.mp4
>>482154
Оно почти всегда такое непохожее, или только в реалтайме, или мне попалась плохая модель (попробовал несколько разных)?
Аноним 09/09/23 Суб 17:07:40 #204 №482310 
>>482254
Хуй знает, я его на свой войс накладывал. В дискорде работает, над только настроить. По крайней мере войс Соловьёва накладывается нормально. Но тут как бы есть несколько факторов, надо говорить членораздельно, нужно иметь нормальную модель голоса и иметь чуть чуть дикции. Накладывал войс тяночки, но из-за дерьмовых сурсов, нет адекватной модели, хотя школота в кс хавает.
Аноним 09/09/23 Суб 20:08:57 #205 №482678 
А это что за нейронка?
https://youtu.be/MdM9qyh7Zhg?si=_n29vTL54unVqIIu
Аноним 09/09/23 Суб 21:29:01 #206 №482853 
>>482824
>Что делать?
Ебать собак, очевидно же.
Аноним 09/09/23 Суб 21:42:18 #207 №482883 
Какие системные требования у силеро? Нужно быстро в реальном времени синтезировать небольшие куски текстов.
Аноним 09/09/23 Суб 22:13:06 #208 №482960 
>>482883
Кофеварка.
Аноним 09/09/23 Суб 23:32:51 #209 №483113 
>>482678
похоже как раз таки на voice changer который я скидывал чуть выше
Аноним 10/09/23 Вск 06:03:24 #210 №483255 
На Silero нельзя обучать голосу?
Аноним 10/09/23 Вск 08:25:48 #211 №483319 
>>483255
Нельзя, точнее, код есть только из силеров.
Аноним 10/09/23 Вск 12:17:38 #212 №483508 
>>483113
Он че, в прямом эфире может так струячить? Лол.
Осталось придумать нейронку, которая будут нормально чужие ебальники приклеивать. И можно будет творить креативы😄
Аноним 10/09/23 Вск 14:17:48 #213 №483589 
Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись и как обучать тот голос что нужно мне? Вообще хотел бы услышать историю успеха от Сенко-анона.
Аноним 10/09/23 Вск 15:48:39 #214 №483683 
>>483508
Там задержка в 0,5-1,5 секунд, так что считай что да
Аноним 10/09/23 Вск 23:42:53 #215 №484128 
Где можно взять готовую модель на русском языке для этой проги?>>482154
Аноним 11/09/23 Пнд 06:43:22 #216 №484250 
>>482238
Спасибо огромное.
Аноним 11/09/23 Пнд 10:12:42 #217 №484314 
Мы, 22 век (2 из 4).mp4
Мы, 22 век (3 из 4).mp4
image.png
>>483589
> Так аноны как вкатиться в этот ваш нейровокал? Что там кочать чтобы было заебись
Советую в первую очередь глянуть RVC, ссылка на загрузку во втором посте треда, ничего дополнительно качать не надо - распаковываешь архив и запускаешь go-web.bat. Он меньше портит отдельные звуки в русской речи в сравнении с SVC.

Готовые RVC-модели можно скачать здесь:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (зеркало - https://huggingface.co/NeuroSenko/rvc-models/tree/main )
https://huggingface.co/juuxn/RVCModels/tree/main

> как обучать тот голос что нужно мне?
Тебе нужно собрать кусочки голоса с нужным спикером, длительностью, в идеале, от 10 до 60 минут. При этом записи должны быть разбиты на короткие файлы, каждый длиной не более десяти секунд. У меня датасет вышел на 69 минут суммарно.

Для политиков и прочих публичных деятелей датасет проще всего собрать - качаешь любой их длинный монолог и просто разбиваешь на короткие отрезки при помощи https://github.com/flutydeer/audio-slicer
Для вокалистов чуть сложнее - надо сперва убрать из всех озвученных ими песен инструментальную составляющую через https://github.com/Anjok07/ultimatevocalremovergui (UVR)

> Вообще хотел бы услышать историю успеха от Сенко-анона.
Предполагаю, что ты хочешь обучить голос на какого-то персонажа из аниме или т.п., раз решил меня напрямую спросить. Самое сложное, в этом случае, будет собрать датасет.

Во-первых, тебе придётся извлечь аудио-дорожку из каждой серии нужного тебе тайтла и удалить из неё все сторонние звуки.

Вырезать аудио из видео можно при помощи ffmpeg, я использовал такую команду:
ffmpeg -i './title-name-s1.mkv' -map a s01.mp3

Далее, при помощи UVR нужно убрать музыку и все сторонние звуки.

Дальше у тебя есть два варианта как нарезать всю серию на короткие отрывки именно с голосом твоего персонажа - один относительно быстрый, а другой не очень.

Быстрый способ - качаешь тулзу https://github.com/flutydeer/audio-slicer и прогоняешь дорожку тайтла через неё. В результате она тебе выдаст набор звуковых файлов, где есть какие-либо реплики. Дальше тебе надо прослушать и отфильтровать их так, чтобы в датасете остался только голос твоего персонажа. Из минусов данного подхода можно отметить то, что тулза не разбивает на отдельные треки отрывки, в которых персонажи перебивают друг-друга или между их репликами слишком маленькая пауза, так что тебе придётся либо исключить такие файлы из датасета, либо обрезать их вручную. Другой минус в том, что всякие визги и междометия будут пропускаться при дефолтных таймингах - надо либо тайминги подкручивать, либо смириться с тем, что часть звуков персонажа не попадёт в датасет.

Другой способ - ручное выделение всех реплик персонажа в Audacity, свой подход я описывал здесь >>353861 → Это займёт гораздо дольше времени, поскольку тебе, фактически, придётся весь тайтл вручную прослушать от начала и до конца (+ придётся мотать и ставить паузу, если не успеваешь выделять реплики в Audacity).

Какой-бы способ ты не выбрал, в конце у тебя будет набор коротких звуковых файлов, которые тебе надо вынести на уровень одной директории.

Дальше открываешь в RVC вкладку Train и задаёшь параметры тренировки
1. Target Sample rate - больше = лучше, ставишь 48k
2. Version - v2; первая и вторая версия использую разные базовые модели, я предполагаю, что это может сказываться на качестве. Насколько мне известно, все просто на v2 тренируют
3. Path of the train folder - нутыпонел, путь до папки с твоим датасетом
4. Total training epochs - я ставил 1000, но разницы в результате после пары сотен эпох уже не слышу. Однако, у меня не вышло переобучить эту модель, так что можно поставить значение повыше просто на всякий случай
5. Batch size - зависит от того, сколько влезет в твой GPU. Если у тебя 24GB VRAM, то просто ставь максимальное значение
6. Save only the latest '.ckpt' file - можно выставить в No, если боишься перееобучить модель, тогда можно будет глянуть младшие эпохи. Но лично мне показалось, что RVC и SVC невозможно переобучить - для того же SVC я обучал модель 40 часов на 4090, а для RVC 10 часов, и не похоже, чтобы такое длительное обучение как-либо негативно сказалось на качестве модели. Хотя, может это зависит от длительности датасета, batch size или других параметров, точно не знаю.

Дальше надо нажать кнопки по порядку как на скрине. Первые две операции займут буквально пару минут, а вот "Train model" займёт основную часть времени, так что "Train Feature Index" ты нажмёшь уже после завершения основного этапа тренировки. Есть ещё кнопка "One-click training", но она у меня не генерировала index-файл, так что советую всё же прокликать вручную на всякий. Хотя эта проблема описана в факе, там написано, что можно нажать "One Click Training" и затем "Train feature index", если он не сгенерировался. Но я не пробовал так делать.

Модель состоит либо из одного "pth" файла, либо из "pth + index" файлов. Модели с index-файлом должны работать лучше - в факе RVC расписано, что именно делает index-файл, но лично я из объяснения ничего не понял. Сами модели кидать сюда:
weights - pth-файлы
logs - index-файлы

Вроде всё расписал.

>>462457
> Я скачал голос без постобработки, прогнал в RVC и потом в Audacity наложил эхо как в оригинале через FabFilter Timeless. Потом склеил с минусом с того же гита.
Спасибо, что расписал свой алгоритм действий, я про FabFilter Timeless вообще не знал.
Аноним 11/09/23 Пнд 10:42:09 #218 №484330 
>>484314
Пасибо, Сенко-анон, ты шикарен.

>либо смириться с тем, что часть звуков персонажа
Ну да, нюансы у быстрого способа есть, с другой стороны, я эти звуки вчера выдёргивал из ВНки, хоть и навыдёргивал около 400 файликов, общая продолжительность там не шибко большая (дольше я сам проклинал япошек, что вообще все файлы с репликами идут просто по порядку их нумерации и более никак не определены, а там их 2.5к). А вот с тайтлом будут проблемы, в конце концов 24 серии + 5 полнометражек (одну можно исключить за неимением там нужного персонажа правда) придется колупать долго. Сколько ушло у тебя времени на семплирование голоса Сенки?

> 69 минут суммарно
Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?

> Какой-бы способ
Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?

Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?

Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?

Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.
Аноним 11/09/23 Пнд 10:50:34 #219 №484332 
.png
>>484314
Кстати, тут какие то модели есть и прочее, что лучше использовать и как настроить, чтоб опять же сразу и хорошо было?
Аноним 11/09/23 Пнд 12:09:55 #220 №484368 
>>484332
Если нужна хорошая вокальная дорожка, то мне больше всего зашла Kim Vocal 2.
Если разбивать партию на отдельные инструменты, то Demucs v4 — htdemucs_6s.
Но один хуй потом в Audition косяки вручную нужно править.
Аноним 11/09/23 Пнд 15:28:59 #221 №484525 
.png
>>484368
Чето я нашел какой то гайд от какого то чела и обмазался им, там сразу несколько моделей используется.
Но получается не очень, т.к. появляются некоторые артефакты на полученной дорожке плюс долго, гнать многа серий тайтла - буквально заебёшься ждать. Идеальный конфиг для стирания лишних звуков из тайтлов все еще не ясен.
Аноним 11/09/23 Пнд 15:34:58 #222 №484532 
>>484525
Плюсом появляется шум на готовой дорожке, который надо будет чистить руками во время нарезки сэмплов.
Аноним 11/09/23 Пнд 16:53:24 #223 №484619 
Да как этот сраный RVC поставить?
Вот у них написано:
>The following commands need to be executed in the environment of Python version 3.8 or higher.
Я на 3.11 ставлю, какая-то из библиотек из указанного в requirements.txt не ставится, потому что требует, чтобы версия питона была не выше 3.11. Хорошо, специально с аура поставил себе версию 3.8, теперь дохуя библиотек не ставится, потому что требует питон 3.9 или выше.
Они хоть в своём ебучем readme могут актуальную информацию писать?

Я правда качал complete package для амуде, на который у них ссылка в релизах указана, сейчас попробую чисто через git собрать.
Аноним 11/09/23 Пнд 16:57:10 #224 №484624 
>>484619
Та же залупа. Погромисты хуевы, ну теперь ещё себе 3.9 версию поставлю, чтобы всё пошло.
Аноним 11/09/23 Пнд 17:11:27 #225 №484649 
.png
>>484624
>>484619
Вы чо угороете?
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases
Аноним 11/09/23 Пнд 17:21:13 #226 №484664 
>>484649
Я тебе в первом своём посте и написал, что скачал это ебаный пакет.
Аноним 11/09/23 Пнд 17:26:47 #227 №484678 
>>484664
Да? Ну в глаза ебусь значит. 3 часа сна дело такое...
Аноним 11/09/23 Пнд 17:33:18 #228 №484696 
А можно ли мержить несколько моделей, чтобы получить новый голос или использовать полученные модели в программах типа Synthesizer V?


>>484314
Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?
Аноним 11/09/23 Пнд 17:47:28 #229 №484744 
65656565656656566565656565.webm
4.mp4
4554545454.mp4
3.mp4
Аноним 11/09/23 Пнд 17:47:59 #230 №484746 
.png
Вроде с питоном 3.9 дело пока идёт, только вот один пакет не ставится, потому что он только под WSL и винду есть... Посмотрим как пойдёт.
Это мем, кстати, такой или он реально CPU юзать вместо амуде будет? Нахуй я эту версию тогда ставил?
Аноним 11/09/23 Пнд 17:53:13 #231 №484767 
>>484696
> Анон, а нужны ли помимо дорожек с репликами расшифрофки сказанного в виде текста? И если нужны, то как это сделать для аниме озвучки, там ведь иероглифы?
Никакой текст с расшифровкой не нужен. Для датасета тебе нужен только голос.
Аноним 11/09/23 Пнд 18:03:08 #232 №484775 
>>484746
Видюху оно похоже мне не юзает... Нахуй так жить?
Аноним 11/09/23 Пнд 18:16:27 #233 №484789 
>>484775
FUCKING KEK
>что мы пишем в readme
>AMD/Intel graphics cards acceleration supported.
>Что у нас в разделе Issues
>AMD is not supported at the moment
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/issues/1202
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/issues/272

Спасеба, китайцы.
Аноним 11/09/23 Пнд 18:23:32 #234 №484795 
>>484775
>тыква вместо видеокарты
Да, нахуй так жить?
Аноним 11/09/23 Пнд 18:24:06 #235 №484796 
>>484795
Ой, иди нахуй, любитель невидии.
Аноним 11/09/23 Пнд 18:25:47 #236 №484800 
ЁБАНЫЙ ЗВУК ЦИКАД БЛЯДЬ НЕ ВЫЧИСТИЛСЯ ЕБАНЫЕ КИТАЙСКИЕ КУЗНЕЧИКИ БЛЯДЬ
Аноним 11/09/23 Пнд 18:48:02 #237 №484833 
.mp4
>>484744
Аноним 11/09/23 Пнд 18:48:37 #238 №484834 
>>484796
УМВР, в отличии от.
Аноним 11/09/23 Пнд 19:19:03 #239 №484881 
>>484833
Слава Богу что камнями завалило... Одним быдлом и убийцей меньше! Сколько он убил людей в этом фильме... Господь всемогущий.
Аноним 11/09/23 Пнд 19:26:18 #240 №484888 
>>484744
>>484833
Как вы мимику подгоняете под аудиодорожку?
Аноним 11/09/23 Пнд 19:30:07 #241 №484894 
>>484128
Найти скачать, затрейнить на RVC
Аноним 11/09/23 Пнд 19:30:12 #242 №484895 
>>484888
Labs.heygen.com
Аноним 11/09/23 Пнд 19:32:53 #243 №484898 
>>484833
Как сделол?
Аноним 11/09/23 Пнд 19:34:24 #244 №484900 
>>484895
Спасиба.
Аноним 11/09/23 Пнд 20:41:38 #245 №484987 
video5467649897891116195.mp4
>>484833
Аноним 11/09/23 Пнд 20:49:56 #246 №484994 
>>484894
А англоязычные модели не подходят для того, чтобы болтать на русском? То есть искать можно только то, что тренили на русской речи?
Аноним 11/09/23 Пнд 21:26:21 #247 №485055 
>>484767
Найс;3
Ушел нарезать эпизоды аниме на реплики
Аноним 11/09/23 Пнд 21:39:24 #248 №485085 
16189336491940 (1).mp4
>>484744
Аноним 11/09/23 Пнд 21:46:13 #249 №485090 
>>484895
>>484987
>>484833
Охуеть. Доработать напильником и можно игры и фильмы оригинальным голосом переводить.
Аноним 11/09/23 Пнд 21:53:07 #250 №485106 
image.png
image.png
>>484895
1. Оно только платное
2. Из РФ оплатить нельзя
3. За 50 баксов в месяц можно сделать не более чем 30 минут видео суммарно

Я ничего не упустил?
Аноним 11/09/23 Пнд 21:54:27 #251 №485108 
>>485106
Да. Выводы?
Аноним 11/09/23 Пнд 22:06:45 #252 №485132 
Окей, я скачал озвучку, а там .mka и 3 стереодорожки.. Их надо просто объединить по каналам и норм?
Аноним 12/09/23 Втр 02:51:10 #253 №485428 
VID20230912011839337.mp4
Аноним 12/09/23 Втр 13:08:03 #254 №485739 
>>484744
С туалетным патриотом хуевато получилось
Аноним 12/09/23 Втр 13:29:21 #255 №485751 
>>484987
Прямо сейчас вполне реально запилить голосом Гоблина пасту про Сталин-3000.
Аноним 12/09/23 Втр 14:37:16 #256 №485819 
Как смотреть эти ваши лосы при обучении на графике?
Аноним 12/09/23 Втр 15:09:36 #257 №485890 
Не знаю тот ли тред, балуюсь сейчас с реалтаймом, жрёт она обычные RVC, юзаю фор лулз, а именно тролю пиво в доте. Где брать модели? Желательно русские. Ну и за одно, есть ли способ уже готовую RVC модель как-то надрочить на свой голос, потому что риалтайм жрёт буквы, шепелявит, и тд.
Аноним 12/09/23 Втр 15:23:09 #258 №485904 
>>461500 (OP)
Почему зеленого слоника до сих пор нет? Вы что охуели?
Аноним 12/09/23 Втр 15:32:54 #259 №485917 
.png
>>485819
TensorBoard
https://civitai.com/articles/83/using-tensorboard-to-analyze-training-data-and-create-better-models
Аноним 12/09/23 Втр 15:42:37 #260 №485931 
>>485917
Пасибо.
Аноним 12/09/23 Втр 15:51:22 #261 №485939 
>>461500 (OP)
Реквестирую буйного
https://www.youtube.com/watch?v=WnhjDV5ZUL0&ab_channel=SlavikZapiliSoloviev
Аноним 12/09/23 Втр 15:53:42 #262 №485946 
image.png
Что эта пидорасина от меня хочет?
Аноним 12/09/23 Втр 15:55:44 #263 №485953 
>>485946
Перемести UVR в папку, где в пути нет русских символов
Аноним 12/09/23 Втр 15:58:07 #264 №485959 
>>485946
Юникоду больше 30 лет, а программисты-пидарасы до сих пор обсираются с любых символов, отличных от латиницы.
Аноним 12/09/23 Втр 15:58:26 #265 №485961 
>>485953
Спасибо, помогло.
Аноним 12/09/23 Втр 16:02:50 #266 №485970 
.png
Кто тут может расшифровать?
Аноним 12/09/23 Втр 17:27:27 #267 №486134 
>>486076
Хз сможешь ли индекс-файл сформировать после этого, хотя не должно быть проблем наверное.
Аноним 12/09/23 Втр 17:34:16 #268 №486145 
>>485970
Это so-vits ? У меня при тренировке loss/d/total и другие пидорасит туда-сюда ебаным ежом, хотя у большинства я вижу, что они плавно опускаются. Где я обосрался и важно ли это ?
Аноним 12/09/23 Втр 17:45:24 #269 №486169 
>>486145
Не, это RVC. А в градио просто Smoothing включено, чтоб сглаживало.
>и важно ли это ?
А хз че там и как прально оно интерпретируется, я просто на график смотрю и вроде как главное чтобы пониже и по ровнее.
Аноним 12/09/23 Втр 19:06:09 #270 №486250 
Посоветуйте софт, чтоб с выражением и без багов зачитывал длинные технические и новостные статьи. Если есть приложение или возможность встроить движок в android, то вообще отлично
Аноним 12/09/23 Втр 21:37:52 #271 №486402 
4еп34п4пп4ы.mp4
Аноним 12/09/23 Втр 21:40:04 #272 №486403 
Что будет, если я замержу модели с озвучкой на разных языках?
Аноним 12/09/23 Втр 22:25:53 #273 №486436 
>>482154
>>482254
>>484128
Мужики это по вашей тематике гайд? В микрофоне за косарь можно хотя бы в тг голосовые голосом тяночки записывать?

https://youtu.be/Q7bbEC4aeKM?si=NDUATBLIxJqkqqvU
Аноним 13/09/23 Срд 00:02:05 #274 №486522 
Есть смысл запускать на локалке этот риалтайм модулятор голоса, если только 2гб врам? Пробовал уже кто-то? Тестанул на колабе, но не пробовал в войсе, вдруг оно не будет выводить поток в дискорд/игры.
Аноним 13/09/23 Срд 00:16:51 #275 №486541 
>>486522
на 6 гигах нет смысла
Аноним 13/09/23 Срд 03:55:11 #276 №486684 
.png
Пиздаускас чот
Аноним 13/09/23 Срд 04:39:31 #277 №486703 
>>486436
Тролю пиво в доте, в текущих реалиях всё сильно зависит от твоего изначального голоса и модели. С моим голосом и тянской моделью, а я пробовал дохуя, алинарин, диспимяу, клава кока, ева элфи, эвелинушка, оляша, и тд думают что я либо школьник, причем такой знаешь, с эффектом Богданчика валакаса, либо всё таки тянучка.
Аноним 13/09/23 Срд 06:33:04 #278 №486743 
Можете кто-нибудь речь майора Монтаны про войну переговорить голосом Охлобыстина?
Аноним 13/09/23 Срд 09:11:38 #279 №486800 
.mp4
Хмм, ну получилось как то так. Больше того с эхом пердолился.
Аноним 13/09/23 Срд 09:26:32 #280 №486802 
>>486800
Ебало этого шиза сгенерировали? Сейчас ведь еще и в /б унесет и в тикток зальет.
Аноним 13/09/23 Срд 09:28:30 #281 №486803 
>>486802
> Сейчас ведь еще и в /б унесет и в тикток зальет.
Ты ебанутый?
Аноним 13/09/23 Срд 09:50:53 #282 №486812 
.mp4
Аноним 13/09/23 Срд 11:11:42 #283 №486873 
аноны, я ньюфаг, как свой нейро-войсбанк натренить чтоб нейрокаверы делать
Аноним 13/09/23 Срд 14:21:17 #284 №487050 
>>486983
Ты на голосовухах своего отчима что ли обучал?
Аноним 13/09/23 Срд 15:00:51 #285 №487085 
bark (1).mp4
>Okay, I see. [fart burp] There will be no peace treaty... [laughs] until I finish this song [hysteric laughter] [halts] [whistles a song]
Аноним 13/09/23 Срд 16:26:46 #286 №487211 
У меня на 100ой эпохе выпало в синий экран. Как дотренировать модель?
Аноним 13/09/23 Срд 17:16:43 #287 №487298 
.mp4
Аноним 13/09/23 Срд 18:02:09 #288 №487388 
.mp4
Аноним 13/09/23 Срд 18:04:55 #289 №487395 
Этот сруля и сюда добрался...
Аноним 13/09/23 Срд 18:06:00 #290 №487397 
>>487395
О себе в третьем лице.
Аноним 13/09/23 Срд 18:06:41 #291 №487399 
>>487395
Зачем же ты сюда добрался, сруля?
Аноним 13/09/23 Срд 18:41:10 #292 №487457 
>>487388
На каком картавом пятикласснике ты это тренировал?
Аноним 13/09/23 Срд 18:58:38 #293 №487485 
>>487457
Голос Аски из GOS2, какой то дрочильни мибильной + из тайтла и ЕоЕ.
Аноним 13/09/23 Срд 19:23:21 #294 №487512 
>>487485
Они оба японские?
Аноним 13/09/23 Срд 19:24:51 #295 №487516 
>>487512
Да, всё японское.
Аноним 13/09/23 Срд 19:29:57 #296 №487523 
Подскажите нубу какой лучший разделить вокала и минуса
Аноним 13/09/23 Срд 21:35:07 #297 №487692 
>>487523
UVR
Аноним 13/09/23 Срд 21:37:16 #298 №487696 
>>487692
А с каким режимом\моделью?
мимоанон
Аноним 13/09/23 Срд 21:56:24 #299 №487730 
.mp4
Аноним 13/09/23 Срд 22:04:41 #300 №487748 
.png
>>487696
Попробуй так
Аноним 13/09/23 Срд 22:24:40 #301 №487778 
>>487748
Попробую. А где взять модели справа? У меня в менюшке их нет
Аноним 13/09/23 Срд 22:29:50 #302 №487786 
.png
>>487778
В настройках там центр загрузок
Аноним 13/09/23 Срд 22:53:33 #303 №487807 
.mp4
Аноним 13/09/23 Срд 23:21:27 #304 №487829 
>>487786
О, спасибо;3
Аноним 14/09/23 Чтв 10:46:44 #305 №488112 
>>487211
Насколько я помню, если вводишь тот же самый "experiment name" во вкладке Train, он будет дотренировывать последнюю сохранённую эпоху, а не начинать всё по новой. Хотя я может с SVC путаю, надо тестить.
Аноним 14/09/23 Чтв 13:34:32 #306 №488231 
doratest.webm
>>488112
Спасиб, пока решил заново начать тренить расширив датасет.
Алсо могу посоветовать Davinci Studio для дополнительной очистки голоса от шумов, там свой нейронный движок.
Аноним 14/09/23 Чтв 15:21:59 #307 №488328 
>>485939
бамп
Аноним 14/09/23 Чтв 19:00:52 #308 №488501 
1654970495233.mp4
>>431750 →
Been awhile huh?
> В режиме audio2video добавляет 3 секунды тишины в конце, пока не понял, почему так выходит - у меня ffmpeg локально и на HF по разному отрабатывает с одними и теми же командами. Вот с этой строкой надо колдовать - https://huggingface.co/spaces/NeuroSenko/audio-processing-utils/blob/main/app.py#L32
Версия ффмпега. У меня тоже на старой от 2020 года так работало, как то связано с фреймрейтом, чем больше - тем меньше бесполезных секунд будет добавлено в конце. Короче просто обнови версию локального ффмпега.
> правда оно срать temp файлами в корень проекта будет
Переделал короче чуть код, фреймрейт сбавил до 2, чтобы размер файла не был таким большим на выходе, ведь это же просто статическая картинка. Ну и плюёт теперь не в основную директорию проекта, а по соответствующим папкам out_audio, out_video, которые вообщем то стоит заранее создать. https://textbin.net/1bxz3nzn2z вообщем то только ванклик инсталлера-запускаллера не хватает, чтобы любой мог особо не запариваясь включить это дело сразу.

Бтв аноны, попробуйте кто то разделить эту песню на вокал и инструменталку https://files.catbox.moe/3xi1fd.flac я уже почти все модели в UVR перепробовал, но затяжные "няяя" как на 1:35 вообще не хотят отделяться.
Аноним 14/09/23 Чтв 22:31:17 #309 №488721 
в какое-то поганое время мы живём, если так подумать

со временем нейросеть наверное заберёт большую часть чистой работы, люди почему-то про кодинги думают, на самом деле в первую очередь она заберёт не кодинг а скорее всего работу разных секретарей, юристов, экономистов, аналитиков, короче практически всю офисную работу, потом наверное придёт за кодерами, людям останется только самая грязная физическая работа т.к. это дешевле чем делать роботов, надеюсь я к тому времени выплачу ипотеку лол

пока же она просто забирает удовольствие от хобби, я например вокалом увлекаюсь, смотреть что может сетка, скажем так это убирает желание пытаться стать лучше, по-моему ещё хуже чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно
Аноним 14/09/23 Чтв 23:02:26 #310 №488758 
TZCh3.mp4
>>488721
>короче практически всю офисную работу
Только выйграем! Человечество наконец перестанет получать деньги за просиживание жопы и начнё физически развиваться, избавим потомков от гена гемороя.
>людям останется только самая грязная физическая работа
Если человечество будет занято только грязной работой - мы быстро найдём способ как её обелить/избежать.
>пока же она просто забирает удовольствие от хобби
Это как? Мне как нравилось чем-то заниматься - так и нравиться, даже если это прямо пересекается с нейронками. Наоборот они даже подогревают интерес и стимулируют развиваться что-бы всё ещё выдавать результат качественнее их.
>я например вокалом увлекаюсь
Пруфы пример.
>так это убирает желание пытаться стать лучше
Ты лайкозависимый? Как одно к другому относиться?
Вот есть кузнецы/васяны ёпта да? И что-то заводы по штамповке ножей, например, не ломают им кайф от ковки каких-нибудь ножичков.
Прям как видрил...
Аноним 14/09/23 Чтв 23:53:45 #311 №488797 
>>488721
>просто забирает удовольствие от хобби
каким образом?
>это убирает желание пытаться стать лучше
чел, как вот эту лору для сд объяснишь https://civitai.com/models/106609/sketch-anime-pose?modelVersionId=114508? Она помогает с понимание поз, разбивая все элементы тела на составные части и по итогу можешь активно развиваться
>чем с художниками, сетки рисовалки хотя бы не умеют нормально рисовать композицию да и вообще рисуют обычно какое-то говно
Может стоит хоть иногда выходить дальше t2i? Неиронично, многие художники на своих же лорах рисуют арты и плюс могут дальше оттачивать навык
>короче практически всю офисную работу, потом наверное придёт за кодерами
за нми придут раньше, можно сказать уже сейчас пришли с чатгпт 4.
И да, виноваты не нейронки, а наше общество хоть оно и отражает нашу природу
Аноним 15/09/23 Птн 00:09:30 #312 №488803 
resultvoice (2).mp4
>>488758
Аноним 15/09/23 Птн 00:15:53 #313 №488806 
>>488721
>>488758
>>488797
Пиздуйте со своими обсуждениями в специализированные треды.
Аноним 15/09/23 Птн 00:23:47 #314 №488808 
>>488806
>обсуждениями
на реддит что-ли? ибо тут нет таких
Аноним 15/09/23 Птн 00:34:14 #315 №488815 
>>488806
опять шизовахтер проснулся
Аноним 15/09/23 Птн 00:42:22 #316 №488822 
>>488808
В любой другой тред, тут полно шизотредов, типа >>2320 (OP) >>299474 (OP) >>320984 (OP) >>397388 (OP)
Или создайте свой.
>>488815
Шиз это тот, кто принёс шизу в аудиотред.
Аноним 15/09/23 Птн 01:25:35 #317 №488860 
Где можно Пригожина опробывать?
Аноним 15/09/23 Птн 02:17:46 #318 №488886 
>>488860
Думаю на кладбище самое оно, а что?
Аноним 15/09/23 Птн 04:02:53 #319 №488914 
firefoxZzL1Q7RM9Z.png
Появился ещё один войсклонер, WIP, на данный момент поддерживает только инференс.
https://twitter.com/coqui_ai/status/1702369159550529863

зашёл такой потестить его на huggingface, и он тут же отвалился.
https://huggingface.co/spaces/coqui/xtts
Аноним 15/09/23 Птн 23:05:47 #320 №490050 
>>488914
Работает как говно. У меня rvc в самый первый раз в разы лучше справился
Аноним 16/09/23 Суб 18:10:24 #321 №490763 
А есть ли инфа как натренить свою модель или лору к чему то существующему? Просто хочу голос чела из игры сделать, но не знаю как тренить, а в шапке гайд не вижу.
Аноним 16/09/23 Суб 20:08:08 #322 №490890 
image.png
Маршалла
Есть у кого модель Муцураева?
Аноним 17/09/23 Вск 00:55:39 #323 №491122 
Когда там уже подгонят сервис по начитке книг? Читать времени нет, а столько бы всего хотелось, чего кожаные мешки не озвучивают.
Аноним 17/09/23 Вск 01:30:18 #324 №491130 
>>491122
Литрес же, нет? А так сервис задушат копирайтом, надо покупать лицензии на озвучку
Аноним 17/09/23 Вск 17:07:22 #325 №491667 
>>484314
обязательное условие разбивать на аудио на 10 секунд?
Аноним 17/09/23 Вск 18:09:54 #326 №491704 
1$$enko.mp4
Аноним 17/09/23 Вск 18:28:36 #327 №491723 
Its over.png
It's over?
Нищуки теперь в пролёте?
Аноним 17/09/23 Вск 18:35:37 #328 №491728 
>>491723
>неделю уже как.
Аноним 17/09/23 Вск 19:43:24 #329 №491835 
>>491728
На прошлых выходных не трогал, по будням не до этого, после работы нейромантить вообще не охота.
Что делать-то? На обходы есть смысл надеяться, или искать покупателя почки?
Аноним 17/09/23 Вск 19:47:13 #330 №491840 
>>491835
За почку уже тупо видеокарточку не купишь, не говоря о остальном компе для вывоза этой самой видюхи.
Готовь бабкину квартиру.
Аноним 17/09/23 Вск 19:56:44 #331 №491851 
>>461500 (OP)
Вчера пытался прикрутить Silero к силли таверне. Сегодня вспоминаю об этом, как о тягостном кошмарном сне. Что за маньяк разработчик, у которого хватает энтузиазма и энергии на то, чтобы размещать одни и те же примеры кода на множестве ресурсов, но при этом, по видимому, нет желания, чтобы все это могли применить на практике простые смертные. То же касается в принципе и silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство.
В итоге я смог-таки генерировать тексты по несколько десятков слов через файлик, в которые эти тексты надо каждый раз заносить. К силли таверне тоже вроде номинально подключил, но, во-первых, silero-api-server накачал английских файлов типа en_117.wav, во-вторых, хотя таверна их якобы видит, ни хрена не озвучивается.
Есть у кого-то из анонов опыт взаимодействия с этим кошмарным сновидением? Как в конце концов заставить silero-api-server взять русский голос и начать функционировать в таверне?
Аноним 18/09/23 Пнд 00:13:14 #332 №492222 
>>491840
собирай на зеоне и ставь карту уровня 3060, зеон её затащит спокойно. Блок питания купишь голдовый и все, хули там собирать то?
Аноним 18/09/23 Пнд 10:23:34 #333 №492332 
>>491723
Ебашь без градио, это тот ещё раковый интерфейс. В отличии от картинок аудио само по себе в калЛабе не запрещено.
>>491851
>silero-api-server. Словно разработчики демонстративно отгораживаются от профанов, показывая таким образом превосходство
Лол, это буквально так и есть, люди зарабатывают на интеграции своего говна.
Аноним 18/09/23 Пнд 12:39:54 #334 №492420 
>>492332
Я заставил таки это говно работать. Если кому в дальнейшем поможет, там все через жопу:
1) надо вручную скачать файл v4_ru.pt или другой приглянувшийся отсюда: https://models.silero.ai/models/tts
2) переименовать его в model.pt и положить в корневую папку, но не silero_api_server (который выходит вообще не нужен), а SillyTavern-extras
3) запускаем в директории SillyTavern-extras server.py --enable-modules=silero-tts
4) тут же появляются файлы с русскими голосами и в таверне можно включить озвучку.
Аноним 18/09/23 Пнд 13:52:33 #335 №492477 
>>492222
И нахер мне шило на мыло менять? Если брать - то уж хорошее.
Аноним 18/09/23 Пнд 13:53:48 #336 №492479 
Судя по количеству ИИ каверов на ТыТрубе и этому треду, качество переделки озвучки в озвучку вполне неплохое, но вот качество озвучивания текста до сих пор оставляет желать лучшего по сравнению с тем же Elevenlabs полугодовалой давности. Тогда появляется закономерный вопрос: почему не использовать какой-нибудь edge-tts (https://edgetts.github.io/) для генерации хорошего "базового" семпла, а затем прогнать его через локальную переделку озвучки в озвучку (которая вроде как настолько быстрая, что делается в реалтайме)? Если кому не лень, может кто-нибудь сравнить озвучивание текста "Alright, how about this one? Why did the tomato turn red? Because it saw the salad dressing!" напрямую и переделку этого же текста, озвученного edge-tts (https://files.catbox.moe/vorktm.mp3)?
Аноним 18/09/23 Пнд 14:00:45 #337 №492493 
>>492477
Хули ты тогда выебываешься? Если у тебя такая сборка, нахуй тебе еще чета?
Аноним 18/09/23 Пнд 14:28:49 #338 №492520 
image.png
Пацаны есть опенсорсное решение с переводом голоса на другой язык + липсинг. Опробовал тестовый видос с работы в labs.heygen.com, результат охуенный, но цены пиздос.
Аноним 18/09/23 Пнд 22:13:53 #339 №493073 
>>491667
Для RVC не нужно разбивать на отрезки по 10 секунд, я перепутал с SVC, где такое обязательно. RVC сам нарежет датасет на отрезки по 4 секунды: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/Instructions-and-tips-for-RVC-training#audio-split
Аноним 18/09/23 Пнд 22:51:52 #340 №493126 
.png
.png
>>484330
> Сколько ушло у тебя времени на семплирование голоса Сенки?
Очень много, т.к. я понятия не имел, как эффективно нарезку делать и тот же audio-slicer не использовал. Пока со всем разобрался, нарезал семплы, и дважды прослушал весь датасет, ушло около ~12-15 часов на 12-серийник. Но сейчас я бы это уже гораздо быстрее сделал. Тогда я только первые пару серий часа три нарезал, так как не знал, как это делать эффективно.

> Хмм, а как потом это оценивать, кроме как на глаз? Или там где то есть что то хитрое для подсчета?
Я датасет кинул в плеер foobar2000, он показывает суммарную длительность всех треков в плейлисте.

> Таки интересно, а ты по какому пути шел, аки самурай резал руками или отдал на откуп машине?
Ручками всё нарезал.

> Кста, формат сэмплов скармливаемый RVC имеет значение, ну там waw или mp3 или еще что-то, оно сожрёт всё, или таки не надо задавать глупых вопросов и просто всё перегонять в mp3?
RVC поддерживает любой формат аудио, который распознаётся ffmpeg:
> Since ffmpeg is used internally for reading audio, if the extension is supported by ffmpeg, it will be read automatically.

> Еще пришла мысль - есть ли смысл подмешивать к соответственно японски-озвученным сэмплам, что то от наших васяно-дабберш с целью улучшить русскоговорящность конечной модели или нет? Или нахрен не надо и просто надеяться, что обученное на японском заговорит на русском +- терпимо?
Даже не знаю, я такие эксперименты проводить не пробовал с компиляцией нескольких спикеров в один датасет. Ну, японоязычная RVC модель букву Р выговаривает и каких-то прям явных косяков по акценту я не заметил, так что, как мне кажется, нет особого смысла миксовать https://vocaroo.com/11Qmpc6eMVaG

> Кстати говоря, вчера еще тыкал voice-changer и в прямом эфире слушал сам себя, пробовал разные модели, но чому то SVC модели практически не работали там, в отличии от RVC.
RVC это более новая система; под SVC модели сейчас никто не тренирует по факту. Чтобы не быть голословным, прикреплю список с последними загруженными модели в комьюнити AI Hub в дискорде. За последние 10 часов загрузили 24 RVC v2 модели, а последняя SVC модель была загружена более месяца назад.

Какой же я слоу.
Аноним 19/09/23 Втр 08:48:38 #341 №493344 
>>493126
>под SVC модели сейчас никто не тренирует по факту
Просто под RVC софт более вменяемый.
Аноним 19/09/23 Втр 11:54:18 #342 №493423 
>>493126
Что это за сайт? Не смог найти даже цитируя неотхешированные названия моделей.
Аноним 19/09/23 Втр 13:35:55 #343 №493471 
>>493423
Дискорд сервер AI Hub.
мимо
Аноним 19/09/23 Втр 16:50:18 #344 №493552 
изображение.png
Снимок экрана 2023-09-19 184757.png
Привет анон, я в звуковых нейронках совсем щегол, треды ваши не читал. Мне в соседнем треде накидали гайдов для Mangio RVC.
Умоляю, подскажите, как фиксить no-feature-todo/no-f0-todo??? Звуковые файлы в wav, в зип архиве, лежат в папке datasets. Путь правильный указан, пробелов лишних нет, кириллицы нет. Дайте хоть какую-нибудь идею, как фиксить. Я уже совсем отчаялся.
Аноним 19/09/23 Втр 19:22:57 #345 №493790 
1637996968538.png
>>488501
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils
Спасибо за фиксы. К сожалению, команда на конвертацию из картинки+аудио в видео работает неправильно на HF, поскольку там используется старый ffmpeg 5 версии. Там стоит Debian и я не нашёл какого-то простого варианта, как обновить ffmpeg до 6, чтобы исправить эту проблему. Так что эту комаду пришлось откатить. Надо по хорошему подобрать команду, которая и на ffmpeg 5 для Debian и на ffmpeg 6 для Windows будет срабатывать одинаково, но у меня пока не вышло с этим разобраться; всю платину с первой страницы гугла и SO перепробовал.

Все остальные фиксы принял. Так же добавил install.bat и start.bat скрипты для windows (которые через venv всё ставят, естественно), чтобы проще поднять локально было.

https://huggingface.co/spaces/NeuroSenko/tts-silero
Алсо добавил эти же install/start скрипты для tts-silero репы, вместе с фичей, что все сгенерированные файлы кладутся в отдельную директорию out_audio. Но там мне надо в первую очередь разобраться, почему другие модели, кроме стандартной русскоязычной, отказываются работать. Всё никак времени не могу на это выделить.
Аноним 19/09/23 Втр 20:35:26 #346 №493905 
image.png
аноны, решил побаловаться тут sts на гугл коллабе,но он выдает вот такую вот ошибочку, как фиксить?
Аноним 19/09/23 Втр 21:00:38 #347 №493940 
image.png
>>493905
Аноним 19/09/23 Втр 21:01:36 #348 №493943 
Товарищи, я тут как дурачок задам тупой вопрос:

Есть что то лучше, чем silero? Что бы без танцев бубнами, в онлайне (или так же в телеграмме) можно было озвучивать текста или переозвучивать уже готовое?
Аноним 19/09/23 Втр 21:13:05 #349 №493963 
>>493552
Так короче спасибо за неответы, я сам разобрался. Теперь вопрос, есть какой-то норм форк или чо угодно, чтобы мангио могла в текст ту спич, а не только в конвертацию аудио? Или тут Mangio никто не пользуется?
Аноним 19/09/23 Втр 21:17:05 #350 №493970 
>>493940
Там спрашивается как фиксить это, используя try/except, то есть для написанного тобою кода, а тут уже, простите меня не мой код
Аноним 20/09/23 Срд 15:28:01 #351 №494574 
>>461500 (OP)
https://youtu.be/dcP50p-I6BE
С помощью чего это создавалось?
Пиздец, для хуйдожников со стаблем дефьюжен куча ресурсов сущесвует, а для голосовухи хуй да нихуя.
Аноним 20/09/23 Срд 20:21:01 #352 №494868 
Whisper работает, но видеокарта не загружена (наверное, поэтому очень медленно расшифровывает). Как можно подключить видеокарту к процессу? Или он только на ЦП может работать?
Аноним 20/09/23 Срд 21:01:32 #353 №494914 
>>494868
Тебе нужно торчи переустановить на кудовские.
Аноним 21/09/23 Чтв 21:02:50 #354 №496026 
>>494574
Неплохой канал, спасибо что доставил, анон, даже не ожидал что бразильские макаки из фавел такое умеют.
Аноним 22/09/23 Птн 04:28:32 #355 №496491 
chirpf.mp4
Чому ещё нет? Делаем песенки с помощью Suno AI, гуглите, там бот в дрискорде.

-пишем /chirp
-пишем нужный жанр
-придумываем/гуглим текст
-???
-ВСЁ
Аноним 22/09/23 Птн 06:47:36 #356 №496511 
>>484895
Загрузил видос, смотрю, очередь 73 200. Думаю, ладно, завтра зайду. Сегодня захожу - 73 100. Получается очередь на два года. Охуенно
Аноним 22/09/23 Птн 12:03:24 #357 №496711 
chirp (3).mp4
chirp (2) (2).mp4
chirp.mp4
chirp (2).mp4
>>496491
Было и тут, и в аудио треде. Почему-то никого не интересует музыка. Сам удивлен. Оно еще и само текст через гпт-4 генерит, если лень придумывать рифмы (на английском).
Аноним 22/09/23 Птн 12:41:49 #358 №496736 
база от сенко.mp4
Аноним 22/09/23 Птн 13:32:21 #359 №496788 
chirp (1).mp4
chirp (2).mp4
chirp (3).mp4
chirp.mp4
>>496711
Спасибо. Давно хотел записать свой реп альбом.
Аноним 23/09/23 Суб 08:29:52 #360 №497752 
Аноны, подскажите
Обучил модель RVC (mangio) v2 на 20 минутах аудиодорожек. Эпох поставил 1024. Часа 3 всё заняло и последние версии модели (от 1000 эпохи) получились не очень в отличии от 800-900. Делал по тупогайдам на форуме и ютубе. К сожалению, мало кто не использует колаб.
Вопрос: как дообучать модель? Видел, что нужно в Train просто написать то же название. Это так? И выбирать название какой-либо недотренированной нужно, если она звучит лучше?
Вопрос 2: в чем может быть причина того, что в 1000х эпочах хуже поёт, чем в 800-900?
И сколько стоит сохранений ставить, чтобы не получать 10000 файлов с промежуточными результатами?
я не шарю почти
Аноним 23/09/23 Суб 08:31:51 #361 №497753 
>>484994
Будет не так хорошо, как на родном языке, так как в разных языках разные сочетания звуков. Также, например, чистый звук Ы отсутствует в английском
Аноним 23/09/23 Суб 08:36:46 #362 №497755 
>>493963
Я пользуюсь. Но, видимо, никто не отвечает тут. А тред по RVC я не нашёл слепой
Накатал пост чуть выше с вопросами
> файлы в wav, в зип архиве, лежат в папке datasets
Ты файлы из прива вытащил просто? У меня эта проблема так фиксилась
> могла в текст ту спич
Оно разве не может в ТТС?
Аноним 23/09/23 Суб 14:10:30 #363 №497967 
Neuro.webm
Кто знает какие нейронки юзает Ведал?
Аноним 23/09/23 Суб 17:00:47 #364 №498091 
Не знал, что запилили русскоязычную модель для Tortoise
https://voca.ro/1eMIijF7Ad2l
Аноним 23/09/23 Суб 17:02:25 #365 №498093 
>>498091
Ты ссылку на модель забыл.
Аноним 23/09/23 Суб 17:39:02 #366 №498130 
>>498093
Вот же, уже 3 месяца лежит https://huggingface.co/SerCe/tortoise-tts-ruslan/tree/main/model
Если лоли голос с вокарушки интересует, то это я уже сверху пару книжек накатил поверх этой модели и еще датасет с детским голосом.
К сожалению Tortoise какого-то хуя пидорасит тональность, поэтому все равно приходится правитьpitch вручную.
https://gofile.io/d/4u0mIL
Аноним 23/09/23 Суб 18:09:07 #367 №498192 
>>498130
>сверху пару книжек накатил поверх этой модели
>the model is suitable for further finetuning on any Russian male voice
Кек.
Аноним 23/09/23 Суб 18:35:05 #368 №498235 
>>498192
> male
Поэтому и накатил пару книг с женскими голосами.
К тому же у меня они уже были нарезаны для тренировки, ибо я до этого уже пытался сам тренить на русский язык.
Аноним 23/09/23 Суб 18:47:12 #369 №498252 
изображение.png
>>498235
И в итоге тренировка от кабанчика на большом (наверное, не смотрел) русском датасете + немного женского оказалась лучше, чем твои предыдущие попытки?
Кстати, залил бы модель на huggingface, а то все эти классные обменники дают классную скорость.
Аноним 23/09/23 Суб 21:58:31 #370 №498434 
>>479975
>>480016
Попробуйте EdgeTTS
Аноним 23/09/23 Суб 23:25:45 #371 №498495 
>>461500 (OP)
Аноны есть у кого опыт с STS. А именно с этим проектом

RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Вот ссылка на репу https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

Кто нибудь менял голоса с помощью него?

Вопрос какая видеокарта нужна? Также я сейчас не дома где компьютер и у меня нет видеокарты. Сколько дней нужно допустим если использовать ядра процессора? Я охуею? если дня два то ок.

Буду благодарен за ответы.
Аноним 24/09/23 Вск 10:32:32 #372 №498708 
>>498495
там вроде нужна видюха в любом случае. с телефона только гугл каллаб в помощь
Аноним 24/09/23 Вск 11:23:06 #373 №498724 
>>498252
У меня видяха слабая, так что я скармливал этой хуерге по тыще файлов в день на коллабе.
Очень медленный и малоэффективный процесс, так что я в итоге заебался и забил.
На тот момент было не так уж и плохо, но конечно хуже чем у кобанчика, да.
> залил бы модель на huggingface
Не получается, виснет часами на статусе заливки.
https://voca.ro/14ITAX3Tn2KH
Аноним 24/09/23 Вск 12:26:12 #374 №498744 
chirp-25.mp4
chirp-2.mp4
chirp-24.mp4
Нейросеть кайф
Аноним 24/09/23 Вск 14:26:24 #375 №498790 
>>498724
> Не получается, виснет часами на статусе заливки.
Через другой браузер попробуй залить. У меня такая же проблема была.
Аноним 24/09/23 Вск 15:45:54 #376 №498847 
>>498724
>Не получается, виснет часами на статусе заливки.
Могу за тебя залить, у меня проблем с интернетом нет.
Аноним 24/09/23 Вск 15:51:20 #377 №498853 
>>498790
Спасибо, в другом браузере залилось.
https://huggingface.co/prog1322/tortoise-Nastya/tree/main
Аноним 24/09/23 Вск 18:34:44 #378 №499025 
>>484987
Анонче, озвучь эту пасту голосом гоблача плезки

The other day, on the advice of trusted comrades, I purchased a new mega-device - the Stalin-3000 anal plug. Immediately, choking with greed, he opened the box with his tenacious paws and used the megadevice. Size, my respects. Joseph Vissarionovich was a real lump. Even my ass, accustomed to the harsh everyday life of the army, refused to accept it from the first try. Together with Oleg Zotov, we resolved the problem. Feelings - ATAS. There is no comparison with a machine gun. In addition, the mustache tickles the prostate pleasantly. I went on like this all day. Decidedly ready to film new non-spirituality.
Many children will see manifestations of homosexuality here. Stupid children don’t realize that pederasty and patriotism are two different things.
The device is excellent, I recommend it to everyone to purchase.
Аноним 24/09/23 Вск 19:42:31 #379 №499082 
>>498708
Nvidia Geforce GTX 1650 норм?
Аноним 24/09/23 Вск 21:10:25 #380 №499162 
>>499025
>>488803
Аноним 24/09/23 Вск 22:38:37 #381 №499240 
По поводу готовых моделей для RVC, у всех моделей 2 файла, pth и index, и если с pth всё понятно, кидаем в папку weights, то что за файл index? Куда его? Вроде и без него всё работает
Аноним 25/09/23 Пнд 01:39:39 #382 №499332 
cmake1.png
Аноны, может кто подсказать что за хуерга?
Пытался поставить витс по гайду
>Гайд: https://textbin.net/kfylbjdmz9
И, при попытке загрузить библиотеки, вылетает ошибка от cmake.
Пытался на анаконде делать, так и на отдельно установленном питоне - одна и та же ошибка.

пикрелейтед
Аноним 25/09/23 Пнд 02:23:44 #383 №499349 
>>499240
В папке logs создаешь папку с именем модели и кидаешь туда index файл. Должно быть так, например:
/weights/gura.pth
/logs/gura/added_IVF338_Flat_nprobe_1.index

index-файл корректирует фонемы и акцент модели. Если у тебя на входе русскоязычное аудио, а модель англо/японоязычная, то использование index-файла сделает только хуже.
Аноним 25/09/23 Пнд 02:26:34 #384 №499351 
>>499240
Index в logs/название_модели, чтобы автоматически подсасывало, можно просто указывать путь к файлу, если хочешь. С индексом врооооде как чуть лучше и быстрее, но чет хз. Мб тут найдутся знатоки которые расскажут зачем и для чего он на самом деле нужен
Аноним 25/09/23 Пнд 02:41:17 #385 №499359 
>>499332
1. У тебя стоит python 3.11 под который ещё нет доброй части библиотек
2. Он пытается собрать какой-то пакет для питона из исходников (какой конкретно по твоим записям непонятно), но так как у тебя нет nmake (и в целом компилятора MSVC Build tools), то нихуя естественно не может.
Аноним 25/09/23 Пнд 09:49:42 #386 №499487 
>>498708
>>498708
Nvidia Geforce GTX 1650 норм?
Аноним 25/09/23 Пнд 10:45:59 #387 №499532 
>>488803
Спасибо, аноним
С меня Сталин-3000
Аноним 26/09/23 Втр 08:11:16 #388 №500714 
>>461500 (OP)
Поделитесь опытом удаления шума в аудио файлах? Есть ряд записанных аудио почившего но глубоко любимого мною человека. Но есть шум. Хотелось бы удалить максимально весь шум. Есть такой инструмент как Adobe podacast beta https://podcast.adobe.com/

Так же есть бесплатный nvidia broadcast.

Оба инструмента великолепны поскольку используют нейронные сети. Они просто напрочь удаляют шум. Но первая платная а вторая как бы обрабатывается исходящий звук. Можно конечно обработать записанное аудио через виртуальный кабель.

Но по чесноку как вы лично избавляетесь от шума? Именно от не постоянного шума? Прошу поделиться опытом, если есть опенсорс проекты использующие нейронные сети для удаления шума я буду рад.

Также все же хотелось бы знать какие процессы обязательны в шумоудалении? То есть какие базовые процедуры нужнв? Нейросети это круто конечно но чтобы вы порекомендовали.
Аноним 26/09/23 Втр 08:40:37 #389 №500727 
>>500714
обновление:
Adobe podcast все же бесплатен но хорошо работает с английской речью и ужасно справляется с русской и казахской речью((
Аноним 26/09/23 Втр 10:12:57 #390 №500758 
>>500714
> Оба инструмента великолепны поскольку используют нейронные сети.
Нейрошиз, спок.
Аноним 26/09/23 Втр 15:40:22 #391 №500988 
>>499487
если просто переделывать песни то да норм. а вот если обучать модели то 1 эпоха 20-30 минут будет. Обучать модели лучше онлайн
Аноним 26/09/23 Втр 15:45:57 #392 №500992 
Ищу людей. Будем озвучивать пасты про говно голосом артаса.
Все будет просто. минут 10 времени.
Сначала текст озвучиваем через ттску а потом в рвс с моделью артаса прогоняем.
Аноним 26/09/23 Втр 17:30:52 #393 №501072 
>>500992
Целого класса не хватило? Позови с параллельного.
Аноним 26/09/23 Втр 17:45:52 #394 №501089 
>>501072
спасибо за совет. так и сделаю.
Аноним 26/09/23 Втр 18:00:02 #395 №501099 
>>500714
Онлайн: https://vocalremover.org
Оффлайн: https://github.com/Anjok07/ultimatevocalremovergui

Оба выделяют дорожку с голосом в отдельный файл. Не уверен правда, как они работают с обычным шумом (их специализация - это выделение вокала из песен), можешь в онлайн-тулзе попробовать.
Аноним 26/09/23 Втр 23:30:55 #396 №501504 
высшие-силы.mp4
Решил попробовать поиграться с нейросеточными голосами. Походу возник вопрос: как составить промт, чтобы речь звучала естественно и, желательно, красиво. Здесь есть специалисты?
Аноним 27/09/23 Срд 06:48:39 #397 №501712 
>>501504
прогоняешь через рвс любой модели. или просто юзаешь sileroTTS
Аноним 27/09/23 Срд 09:08:38 #398 №501790 
>>501099
неа тот софт с гитхаба не удаляет шумы, он убирает просто вокал из песни. Делает он это шикарно, но не с шумом.

Можно с аудасити удалить постоянные помехи, но вот локальные шумы не очень.

Для обладателей GTX есть от нвидиа мощный инструмент RTX Voice. Я удалил почти 95 % шумов но не все. Я пришел к выводу что все конечно не получится.

Но теперь встречный вопрос. Вот допустим я подготовил 10-15 минут вырезок с очищенным звуком. Теперь как подготовить датасет? Эти аудио годятся для данных?

Использование whisper который вырезает куосчки аудио где человек ращзговаривает невозможно. Пскольку виспер работает с английской речью.
Аноним 27/09/23 Срд 09:42:16 #399 №501820 
>>501790
Whisper прекрасно распознает русский язык
Аноним 27/09/23 Срд 13:01:16 #400 №501979 
image.png
Подскажите,как повысить тональность?
Аноним 27/09/23 Срд 15:02:07 #401 №502083 
>>501820
а расскажи можно просто самостоятельно вырезать? то есть можно ли в аудасити убрать все паузы и потом вырезать непрерывные фразы? То есть я смотрел ютубера который говорил что виспер порой вырезает кусочки с артефактами.

Используется ли аиспер просто потому что нет времени самостоятельно вырезать? Так же расскажи как ты готовишь датасет. Насколько хорошие результаты ты получал?
Аноним 27/09/23 Срд 15:18:12 #402 №502105 
>>501979
Auto predict F0 отключи и выкрути питч как тебе надо
Аноним 27/09/23 Срд 19:03:36 #403 №502266 
1562999872426.mp4
Аноним 27/09/23 Срд 19:30:34 #404 №502288 
>>502266
https://vocaroo.com/1ooTgvbgKynP
Аноним 27/09/23 Срд 20:31:30 #405 №502350 
>>461500 (OP)
анон, как сделать голосовой дипфейк?
Аноним 27/09/23 Срд 21:16:38 #406 №502375 
>>502350
Через RVC можешь поменять голос на нужный тебе, если найдёшь готовую модель на нужного тебе человека:
https://discord .gg/aihub (канал voice-models)
https://t.me/AINetSD_bot (зеркало - https://huggingface.co/NeuroSenko/rvc-models/tree/main )
https://huggingface.co/juuxn/RVCModels/tree/main

Если нет нужной модели, то придётся обучить самому.
Аноним 27/09/23 Срд 21:22:00 #407 №502382 
>>502375
обучить нужно, да. это где?
Аноним 27/09/23 Срд 23:43:03 #408 №502475 
>>484314
>>502382
вот гайд
Аноним 28/09/23 Чтв 00:11:54 #409 №502501 
Хочу вкатиться в TTS, с клонированием своего голоса. Сейчас самые качественные, это ElevenLabs, Tortoise и Uberduck или уже есть что-то лучше?
Аноним 28/09/23 Чтв 01:54:53 #410 №502539 
>>502375
Кстати знает кто как тренировать RVC без гуя ? Для инференса сделали хоть какой то костыльный скрипт, а тренить походу только в вебе
Аноним 28/09/23 Чтв 06:26:20 #411 №502586 
>>502539
https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru?scriptVersionId=143284909
Вот. Сам этим пользуюсь. Вот гайд https://youtu.be/uA92FDw_Xfw
Аноним 28/09/23 Чтв 08:58:00 #412 №502630 
>>502083
Я Whisper использую только для транскрипции в текст, обрезает он как мудак.
Режу через Audacity либо руками, либо через лэйблинг
Аноним 28/09/23 Чтв 11:54:37 #413 №502710 
Я вот не пойму, я обучил голос нормально, но когда начинает петь по каверу, она словно глотает буквы и звуки некоторые. Как это фиксить? А то блять поет кашу временами какую то.
Аноним 28/09/23 Чтв 12:02:59 #414 №502713 
Как натренировать модель на свой голос, чтобы потом вставить в таверну? Мне не для песен нужно.
Аноним 28/09/23 Чтв 14:17:45 #415 №502812 
>>502710
Тестил с другими готовыми моделями? Надо сперва понять, проблема с твоей моделью или с настройками.

>>502713
Зачитывай вслух любой текст с википедии или ещё откуда-нибудь минут 15 и используй эту запись для обучения модели. Желательно только чтобы клики мышью и прочие сторонние звуки в запись не попадали.
Аноним 28/09/23 Чтв 15:42:37 #416 №502860 
>>502812
Разобрался, это был хуевый вокал, использую другую версию для наризания и очистки звука но реверба, стало в разы лучше.
Но как пофиксить то, что во время пения, голос словно ломается.
Аноним 28/09/23 Чтв 16:04:35 #417 №502870 
>>502860
использовать хорошие модели
Аноним 28/09/23 Чтв 16:10:21 #418 №502874 
>>502870
Модели чего? Голоса? Если его, то голос - заебатый, по крайне мере, лучше всех тех, что на нее есть.
Аноним 28/09/23 Чтв 16:22:28 #419 №502889 
>>502874
хмммм. тогда хз почему. А что за модель?
Аноним 28/09/23 Чтв 16:23:34 #420 №502890 
>>502889
Лейн Ивакура.
Аноним 28/09/23 Чтв 16:24:46 #421 №502891 
>>502860
Мало инфы даёшь, остаётся только угадывать. Pitch extraction algorithm выставил в crepe или rmpvpe? По умолчанию стоит pm, а это кал.

Может ещё голос ломать, если в датасете нет достаточно высоких/низких звуков для твоего трека. Попробуй высоту голоса поменять - transpose выстави на -12 или +12.
Аноним 28/09/23 Чтв 16:26:40 #422 №502893 
>>502891
>rmpvpe+
Стоит. Спасибо, попробую с transpose поиграться.
А раз вы тут, а что делать, если модель начинает "реп" читать? Да, в оригинале не очень большие паузы между пением, но модель прям слово без остановки их поет, и получается каша.
Аноним 28/09/23 Чтв 16:28:08 #423 №502894 
>>502893
А бля, я понял в чем проблема, в вокале...но я даже хуй знает как его еще чистить сука.
Аноним 28/09/23 Чтв 16:47:12 #424 №502904 
>>502890
пипец.Там и так голос говный в сериале так еще и модель
Аноним 28/09/23 Чтв 16:49:51 #425 №502905 
>>502904
Вот и говорю, это самый лучший...
Аноним 28/09/23 Чтв 18:27:45 #426 №502964 
>>500988
>Обучать модели лучше онлайн
Вплане в гугл коллабе RVC?
Аноним 28/09/23 Чтв 19:10:19 #427 №502978 
>>502964
гугл коллаб отрубили уже.
https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru?scriptVersionId=143284909
Вот. Сам этим пользуюсь. Вот гайд https://youtu.be/uA92FDw_Xfw
Аноним 29/09/23 Птн 01:23:36 #428 №503123 
Кто-нибудь пользуется Tortoise? Почему иногда выдаёт шикарные результаты, а иногда вообще пиздец что (на одном и том же сете)? И как можно генерировать текст побольше, а не два предложения за раз?
Аноним 29/09/23 Птн 02:30:10 #429 №503137 
У кого сколько занимает времени тренировка модели RVC ? Количество эпох/размер датасета/видеокарта. Думаю арендовать таки машину, хочу прикинуть сколько выйдет по стоимости.
Аноним 29/09/23 Птн 06:27:28 #430 №503171 
>>503137
тебе минимум нужна 2080 видюха. Ибо меньше это анриал. Трень в коллабе. Я выше кидал ссылки
Аноним 29/09/23 Птн 10:07:38 #431 №503242 
>>502630
слушай анончик можно списаться с тобой по тг? очень нужно помощь, пару вопросов и я отстану

В общем есть очень много отрывистых аудиозаписей любимого мною человека которого уже давно нету. Они разной длины от секунды до 12 секунд. У меня еле набирается минут 10, так что мне как то надо будет воспользоваться также аудио сообщениями в одну секунду. Я уже все почистил, убрал шумы, вырезал то что надо, убрал реверб эхо. Все это лежит в папке в виде аудио сообщений с разными длинами. Единственный вопрос который стал для меня камнем преткновения это как сегментировать аудио и вооьще надо ли.

Где то пишут что для РВС некатегорично делить, можно просто вырезать паузы и локальные шумы. Кто то говорит что главное чтобы менее 10 секунд. Кто говорить что еще надо чтобы га был длиннее 4 секунд. Кто то пользуется виспером а кто самолично вырезает с помощью аудасити. Можете подсказать что мне делать.
Аноним 29/09/23 Птн 10:35:22 #432 №503270 
>>503123
Какой репозиторий используешь?
Тренированную модель или дефолтную?
Аноним 29/09/23 Птн 11:16:32 #433 №503314 
>>503270
>Какой репозиторий используешь?
Какой Бог послал. Всё делаю через два Коллаба, по этим гайдам на Ютубе:
>CLONE ANY VOICE WITH AI (GOOGLE COLAB) | 3 MINUTE TORTOISE-TTS TUTORIAL
>Longer Speech With Tortoise-TTS 🔊 | Tutorial | Voice Cloning
Датасет делаю по гайду из гитхаба
Аноним 29/09/23 Птн 19:15:48 #434 №503566 
>>503171
Под арендой я имел облако, но не колаб. Смотрел на vast и runpod, там хотя цена ~0.50$/час, но надо залить 10$ минимум, а мне столько не надо. Lambda Cloud ещё есть, но хз как там с минималкой. Думаю модель за 1-2 часа должна натрениться, у меня датасет небольшой, вот и спрашиваю у кого какой опыт
Аноним 29/09/23 Птн 19:54:20 #435 №503588 
>>503566
датасет небольшой значит модель говно будет
Аноним 29/09/23 Птн 23:26:19 #436 №503758 
Поясните по каверам с неко арк. Это на каком языке изначально натренированная модель и где вообще ее взять?
Аноним 30/09/23 Суб 01:11:04 #437 №503851 
Гуммивоз.webm
А такое как делается?
Аноним 30/09/23 Суб 01:30:58 #438 №503868 
>>503851
Без нейросетей, детали у авторов мешапов
Аноним 30/09/23 Суб 04:02:31 #439 №503924 
>>503868
rave dj же может так делать чёб нейронку не натренить делать мешапы А ?
Аноним 30/09/23 Суб 07:43:29 #440 №503951 
>>503758
Модели пофиг на каком языке говорить. Гитлера на немецком обучали, но вон он как на украинском гимн поет! Короче. Бери тут
https://drive.google.com/file/d/1GJJqRdRvZ6ilwwX6ZG7cPkx-84vN1FPe/view?usp=drive_link
Аноним 30/09/23 Суб 16:11:55 #441 №504132 
анончики подскажите пожалуйста

у меня 15 минут хорошего отчищенного датасета, но они разной длины. Я вырезал через аудасити, там убрал эхо реверб, шумы, шипение, нормализовал все.

Кто то говорит что одно двух секундые вырезки норм. Кто то говорит что длина должна быть между 4 и 10 секунд. кто то режет через виспер кто вручную, кто то удаляет тишину и молчание а кто то нет.

Вот и не понятно что делать? Это единственное что я просто не могу понять.

Помогите кто нибудь?
Аноним 30/09/23 Суб 16:33:56 #442 №504148 
>>504132
соедини все записи. Потом порежь на записи по 10 сек. 10 сек самая оптимальная длина
Аноним 30/09/23 Суб 16:48:57 #443 №504157 
>>504148
То есть уже разделить на десять напофиг?
Аноним 30/09/23 Суб 16:58:13 #444 №504161 
>>504157
да
Аноним 30/09/23 Суб 17:10:45 #445 №504164 
>>504161
Слушай анона я могу списаться? просто поспрашивать, я честно отьебусь потом, хочешь даже могу предложить заработок, есть вариант.
Аноним 30/09/23 Суб 17:16:17 #446 №504172 
>>504164
давай пиши.
Аноним 30/09/23 Суб 17:29:07 #447 №504188 
black senko.mp4
Аноним 30/09/23 Суб 17:37:01 #448 №504196 
>>504164
анон. куда писать то?
Аноним 30/09/23 Суб 18:34:27 #449 №504242 
>>504132
> https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/wiki/Instructions-and-tips-for-RVC-training#audio-split
RVC автоматически нарежет датасет на отрезки по 4 секунды.
Аноним 30/09/23 Суб 19:29:29 #450 №504284 
>>504172
>>504196
@dosanddosya пиши сюда пожлуйста я жду
Аноним 30/09/23 Суб 20:55:14 #451 №504343 
Чем соединяете вокал и инструментал? Попробовал ableton, но файлы не ровные, а по тактам замучался подгонять и в целом дико неудобно выглядит весь процесс.
Аноним 30/09/23 Суб 21:07:58 #452 №504351 
>>504343
Убери в настройках эблтона принудительный варпинг длинных треков и настраивай вручную или переезжай в рипер.
Аноним 30/09/23 Суб 21:10:17 #453 №504354 
посоны, хочу натренировать нужный мне голос и им озвучивать текст который я буду давать ему через сосноль, я так понял RVC которая это умеет делать нет и обязательно нужно сперва как еблан озвучить текст любой TTS встроенными голосами и потом уже переделывать этот аудио во второй раз в нужный мне голос? неужели всё так хуёво?
Аноним 30/09/23 Суб 21:18:30 #454 №504362 
>>504354
так сам создай лол. Чтобы твой форк делал сначала голос через ттску а потом переозвучивал его
Аноним 30/09/23 Суб 21:25:09 #455 №504366 
>>504362
анон, я о RTC меньше месяца назад узнал, а ты мне предлагаешь уже форк делать, ты меня не понял, я имею ввиду только такой уебанский способ существует на данный момент с двойным конвертированием? то есть сперва текст в дефолтголос, а уже из него нужный тебе голос, неужели боги AI ещё не придумали ничего такого что сразу из текста делает нужный голос без двойной работы?
Аноним 30/09/23 Суб 21:25:57 #456 №504367 
>>504366
>RVC
fix
Аноним 30/09/23 Суб 21:30:19 #457 №504374 
>>504366
придумали такое. щас найду и скину
Аноним 30/09/23 Суб 21:31:17 #458 №504376 
>>504366
https://github.com/litagin02/rvc-tts-webui
говеное конечно но есть
Аноним 30/09/23 Суб 21:34:30 #459 №504381 
>>504376
это уже видел анончик, там как раз сперва делает дефолтговно, а из него нужный голос, получается напрямую из текста нужным голосом пока нельзя, или нужно подождать анончика который знает такой вариант
Аноним 30/09/23 Суб 21:35:29 #460 №504383 
image.png
>>504381
ну как бы тебе сказать. этого анона который знает такой вариант нету.....
Аноним 30/09/23 Суб 21:37:36 #461 №504385 
>>504381
а в чем проблема то? Взял сделал свой собственный синтезатор голоса из нужного тебе и все
Аноним 30/09/23 Суб 21:42:05 #462 №504386 
аноны, вы хотите сказать вот это
https://www.youtube.com/watch?v=ZpHyoKvLkR0
https://www.youtube.com/watch?v=k1uL_dVGdkk
тоже делается сперва озвучкой текста в говноголос, а потом переозвучка говноголоса в голос персонажа?

как они пишут промпт что он позволяет им обсуждать любые темы и с матом? ведь ChatGPT сразу начинает ныть когда материшься или обсуждаешь запрещённые пидорасами темы
Аноним 30/09/23 Суб 21:43:05 #463 №504388 
>>504385
если бы я был гуру нейросетей, я бы такой вопрос не задавал, ну же
Аноним 30/09/23 Суб 21:43:20 #464 №504389 
>>504386
да. все так
Аноним 30/09/23 Суб 21:46:47 #465 №504392 
>>504383
странно что ещё нет индуса который бы сделал такой форк, его бы боготворили все школьники мира
Аноним 30/09/23 Суб 21:47:44 #466 №504394 
>>504392
знаешь как искать надо. В гитхабе пишешь rvc или webui и сортируешь по недавно добавленным
Аноним 30/09/23 Суб 21:52:16 #467 №504396 
>>504386
в чём заключается логика такого стрима?

чел нарезает сюжет от ChatGPT на кучу реплик, озвучивает каждую в промежуточную озвучку, потом в озвучку от нужного голоса и склеивает все эти кучи говн воедино и запускает проигрывание этого аудиомутанта пытаясь уверить нас что это общение между персонажами? а на деле просто склейка того что высрала RVC высрав кучу аудиофайлов?
Аноним 30/09/23 Суб 21:53:16 #468 №504397 
>>504394
и получаешь кучу вишмастеров и бекдоров у себя на ПК?
Аноним 30/09/23 Суб 21:54:54 #469 №504399 
>>504397
гитхаб это место куда люди загружают исходные коды. ты можешь просмотреть весь код и убедиться что там ничего нет
Аноним 30/09/23 Суб 21:55:01 #470 №504400 
>>504386
не понимаю почему авторы этих нейронок перестали стримить после 1 бана, в чем проблема наклепать тонную ютуб каналов за 10 рубасов
Аноним 30/09/23 Суб 21:56:28 #471 №504402 
>>504399
это понятно анон, но сидеть и по 2 дня просматривать исходные коды и быть уверенным что ты ничего не пропустил это не каждый может
Аноним 30/09/23 Суб 21:57:11 #472 №504403 
>>504402
если бы там что то было это забанили уже давно
Аноним 30/09/23 Суб 22:06:49 #473 №504412 
как в этих ваших гитхабах смотреть сколько раз скачали форк или добавили в избранное или оценили чтобы быть уверенным что качаешь что-то проверенное, а не созданное васяном?
Аноним 30/09/23 Суб 22:08:57 #474 №504413 
image.png
>>504412
сбоку. и хватит опасаться. изучи английский хотя бы на школьном уровне и понимай что в коде.
Аноним 30/09/23 Суб 22:29:42 #475 №504427 
>>504413
это-то я знаю, но сколько я не смотрю в этой статистике всегда всё по минимуму, нуежели на гитхабе такой низкий фидбек от зареганных и все качают из пд гостя и нихуя не пишут, а жрут как есть, меня это удивляет что там нет по 100500 лайкосов и отзывов
Аноним 30/09/23 Суб 22:39:52 #476 №504436 
image.png
>>504403
>>504413
я вот дня 2 назад так же думал, скачал RVC_GUI вроде вот этот https://github.com/SalvadorDante/RVC_GUI и у меня начались проблемы с роутером, сперва в виде ограничения скорости, а теперь постоянные перезагрузки, теперь вот сижу и думаю совпадение это или с первого раза я присел на анальные зонды от индуса, потому что это говно у меня сразу не завелось и стало выдавать ошибку
Аноним 01/10/23 Вск 07:08:34 #477 №504616 
>>504436
ну дык правильно. говно скачал. есть рабочее гуи для рвс его и качай
Аноним 01/10/23 Вск 16:09:28 #478 №504952 
а если есть модель 100 эпох, как ее продолжить тренить?
Аноним 01/10/23 Вск 19:21:23 #479 №505154 
аноны, по ссылке https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI скачивает архив в 1мб, как я понимаю это просто основа и чтобы скачать всё нужно ввести команды из инструкции по install, но я не хочу ставить кучу ненужного дерьма себа на пекарню, как можно скачать готовый архив со всеми файлами чтобы всё работало как portable версия из папки и без всяких ебаных зависимостей и виртуальных сред?
Аноним 01/10/23 Вск 19:27:43 #480 №505159 
>>505154
>>461506
Аноним 01/10/23 Вск 19:45:00 #481 №505197 
>>505159
то есть вот это качать?
For Nvidia GPU users:
https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/RVC0813Nvidia.7z

там получается всё уже в куче и ненужно 100говн себе ставить?

спасибо анон
Аноним 01/10/23 Вск 19:48:10 #482 №505200 
>>505197
> то есть вот это качать?
> там получается всё уже в куче и ненужно 100говн себе ставить?
Всё верно.
Аноним 01/10/23 Вск 20:20:16 #483 №505249 
когда примерно ожидается 3 версия рвс?
Аноним 01/10/23 Вск 20:47:12 #484 №505271 
С рвс и урл вроде немного разобрался. Теперь скажите можно ли модели из рвс использовать для озвучки текста переведя озвучку в мп3 какой-нибудь? И если да то что используется?
Аноним 01/10/23 Вск 21:12:59 #485 №505308 DELETED
аноны, судя по командной строке на скрине и по файлам в этом архиве https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/archive/refs/heads/main.zip в папке \i18n\locale есть русская озвучка в файле ru_RU.json, куда её добавить в основную папку RVC чтобы в Gradio всё было на русском?
Аноним 02/10/23 Пнд 10:49:41 #486 №505806 
аноны, самый лучший RVC это оригинальный от RVC-Project? какие ещё есть интересные форки?
Аноним 02/10/23 Пнд 11:13:21 #487 №505817 
посоны, можете вкраце пояснить по ckpt и Onnx, что это такое и для чего и как использовать?
Аноним 02/10/23 Пнд 11:14:47 #488 №505819 
как можно соединить полученный вокал и инструментал без установки стороннего софта, шобы через сосноль склеивать? ффмпег это умеет? подскажите команду
Аноним 02/10/23 Пнд 22:33:30 #489 №506521 
Аноны посоветуйте хороший TTS типа этого:
https://huggingface.co/spaces/coqui/xtts
Аноним 02/10/23 Пнд 22:59:27 #490 №506554 
>>461500 (OP)
Как скоро появится массовый дубляж фильмов и аниме с использованием HeyGen или её конкурентов? В самой HeyGen я вижу две проблемы: 1) она не захватывает звуки фона, захватывает только сам голос, 2) она меняет так же и видеоряд, перекодирует видео на своей стороне, то есть делает его тяжёлым и с дефектами.
Аноним 02/10/23 Пнд 23:10:02 #491 №506569 
>>506554
Хочу чтобы появился конкурент HeyGen такой же как Stable Diffusion конкурент для Midjourney - опенсорс, бесплатный, с локальными вычислениями.
Аноним 03/10/23 Втр 09:16:14 #492 №506891 
>>506569
А я хочу чтобы песни мировые хиты были понятны для каждого на родном языке, чтобы были автокаверы. Suno это только начало
Аноним 03/10/23 Втр 15:57:09 #493 №507210 
>>506554
>Как скоро появится массовый дубляж фильмов и аниме с использованием
Никогда, диктор стоит дешевле, чем оплата звукомонтажера, и делает свою работу раз в 20 быстрей. Вот ты ради интереса зайди в вакансии и посмотри когда посудомоечные машины оставят без работы посудомоек. Дикторов дохуя, сейю дохуя, они готовы работать за хлеб и воду, голосов похожих тоже дохуя. Ебалами они светить не могут, поэтому все легко заменимы, если вычеркнуть очевидное кумовство и непотизм.
Аноним 03/10/23 Втр 18:38:46 #494 №507353 
Хлопцi, бачили вже обновление UVRv5? Наконец-то добавили модель MDX23C-8KFFT-InstVoc_HQ
Аноним 03/10/23 Втр 19:32:06 #495 №507406 
>>507210
>звукомонтажера
Чел... ИИ заменит и их.
Аноним 03/10/23 Втр 20:04:14 #496 №507430 
chirp (3).mp4
chirp (7).mp4
hfdhdfhdfh.mp4
chirp (6).mp4
годноты итт
Аноним 03/10/23 Втр 22:15:01 #497 №507578 
>>507406
>Чел... ИИ заменит и их.
Посудомойщиц сперва замени, потом поваров, великий заменитель.
Аноним 03/10/23 Втр 22:53:02 #498 №507639 
>>507578
Как я тебе блядь заменю то, что нахуй никому не нужно будет после прихода нейронок требует физического присутствия? Наркоман ёбанный.
Аноним 03/10/23 Втр 23:44:47 #499 №507711 
>>497967
Самописные на C#
Аноним 04/10/23 Срд 01:43:32 #500 №507770 
Мне срочна нужно сделать запись Мори говорящей о лошадях. Раньше использовали Elevenlabs но теперь клонировать там никак... Есть тлдр что именно выбрать для ттса а не песен? Самплы есть уже готовые
Аноним 04/10/23 Срд 09:36:07 #501 №507809 
А есть гайд по Audacity как почистить сэмпла от всякого говна?
Аноним 04/10/23 Срд 09:36:30 #502 №507810 
А есть гайд по Audacity как почистить сэмпла от всякого говна?
Аноним 04/10/23 Срд 12:35:37 #503 №507888 
Анон, сколько эпох нужно, чтобы натренировать модель через RVC на качественном датасете (рипнут с игры)
Аноним 04/10/23 Срд 16:04:06 #504 №508046 
>>507888
если аудио записей больше 150 или 200 то брать можно 250 эпох. Если аудио до 100 то бери 300-400 эпох. 150-200 аудио по 10 секунд каждая
Аноним 04/10/23 Срд 16:05:05 #505 №508047 
>>508046
я модель артаса(из варкрафта 3) тренил на 400 записях по 10 сек. Офигенная модель вышла. Брал 250 эпох
Аноним 04/10/23 Срд 23:06:51 #506 №508526 
>>508046
Натренил на 100 эпохах в датасете 1802 файла, но эта треня капец какая долгая была, по 40 секунд на эпоху, и это на 3060. Кстати, получилось неплохо, видать повезло. А ведь еще надо tortoise натренить, чтобы можно было нормальный tts запилить. А он раз в пять медленней треннится. Это вообще нормально, что он так медленно обучается? Или я как всегда, что-то не так поставил.
Аноним 05/10/23 Чтв 07:15:39 #507 №508766 
>>508526
>но эта треня капец какая долгая была, по 40 секунд на эпоху,
ээээх как же я тебя понимаю. Тяжело наверно. (1050 ти эпоха по 30 сек даже на 360 файлах)
Аноним 05/10/23 Чтв 07:17:39 #508 №508767 
>>508526
тотроис тебе нафик не нужен. Бери эдж ттс прогоняй текст через него а потом через рвс
Аноним 05/10/23 Чтв 07:34:14 #509 №508771 
>>508766
по 30 минут точнее. быстрофикс
Аноним 05/10/23 Чтв 07:56:20 #510 №508778 
>>508526
Tortoise медленно тренит, но ему много эпох не нужно, погоды не делает
Аноним 05/10/23 Чтв 13:18:33 #511 №508985 
>>508047
показывай
Аноним 05/10/23 Чтв 14:18:38 #512 №509034 
аноны подскажите плиз сетку менять свой голос на тянский

наверняка ведь натренировали уже
Аноним 05/10/23 Чтв 14:22:17 #513 №509039 
ПРИЗЫВАЮ ПЕРЕКАТ
Аноним 05/10/23 Чтв 14:37:35 #514 №509061 
Дискорд-сервер https://discord .gg/aihub выпилили, кто-то поднял сервак с бекапами здесь: https://voice-models.com/

>>509039
Чем котить?
Аноним 05/10/23 Чтв 14:46:39 #515 №509072 
Ещё бекапы здесь есть: https://www.weights.gg
Аноним 05/10/23 Чтв 14:57:43 #516 №509080 
> AI Hub was banned because of copyright, apparently someone did the trick of editing posts and added several links with copyrighted content, which left Discord with no option but to DMCA the server.
> The owner, menhguin, was also banned, so it's quite possible that the server won't come back.
> Apparently there will be a second server, but unfortunately all progress/history from the other server has been lost.
Это пиздец.
Аноним 05/10/23 Чтв 15:36:05 #517 №509118 
>>509080
> Discord
И правда пиздец.
Аноним 05/10/23 Чтв 15:36:57 #518 №509123 
>>509080
Да, создавать каталоги на дискорде это полный пиздец и отсутствие головного мозга.
Аноним 05/10/23 Чтв 16:26:31 #519 №509187 
16923426887210.png
Есть у кого Лето и Арбалеты голосом Гань Юня из геншина? Дайте пожалуйста. Что-то не смог найти в прошлых тредах, хотя точно видел на дваче.
Аноним 05/10/23 Чтв 16:34:22 #520 №509195 
>>508767
Сомневаюсь что получится так же классно как тут: https://www.youtube.com/watch?v=vhArHsfsLAQ в этом ролике автор идеально скопировал свой голос используя связку tortoise + rvc. Но спасибо, попробую.
Аноним 05/10/23 Чтв 16:36:44 #521 №509197 
>>508771
F, слышал на 10-ых сериях нвидия плохо с параллелизмом, из-за этого на них плохо работают нейронки.
Аноним 05/10/23 Чтв 16:41:21 #522 №509204 
>>508778
Ок так и сделаю, поставлю на 20 эпох, правда все равно, время обучения 10 часов, и комп после этого горелым пахнет, чтобы не сгорел нафиг надо окно открыть.
Аноним 05/10/23 Чтв 19:10:31 #523 №509369 
>>508526
> Натренил за полтора часа
> треня капец какая долгая была
Чувак
Аноним 06/10/23 Птн 06:36:52 #524 №509750 
Ребят у кого есть опыт работы с коллабом mangio RVC fork? Я купил колаб про, впервый раз выданная ссылка открылась и все было прекрасно. Потом я по своей глупости все это дело закрыл. Потом решил еще раз открыть с гитхаба колаб и каждый раз когда я его запускаю ссылки больше не открывают веб версию. Я пробил какой то лимит на запрос? Что это вообще?
Аноним 06/10/23 Птн 13:03:51 #525 №509944 
image.png
Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом, есть какие то решения? Пока нашел прогу ттс реадер, но там нужен движок хороший японский, а их нереал скачать есть только каловый шиндовса. Полистал что нейронки предлагают, но там вроде везде нужно ручками текст вставлять жать кнопочку вкл и слушать, не программист чтоб все это автоматизировать самостоятельно, может придумали уже что то такое?
Аноним 06/10/23 Птн 19:59:16 #526 №510291 
Подскажите тут раньше кидали ссылку на какую-то нейросеть для очистки старых голосовых записей от шумов. Проебал ссылку, не могу найти теперь.
Аноним 06/10/23 Птн 21:05:10 #527 №510347 
Артас читает пасту про сына.mp4
>>508985
Аноним 06/10/23 Птн 21:07:59 #528 №510356 
>>509944
>Нужен ттс чтоб из буфера обмена зачитывал текст с яп голосом
чего?
Аноним 06/10/23 Птн 22:48:36 #529 №510482 
>>509061
>Чем котить?
КОТИ ЧЕМ ЕСТЬ
ПЕРЕКАТ Аноним 07/10/23 Суб 21:34:15 #530 №511208 
>>511205 (OP)
>>511205 (OP)
>>511205 (OP)
Аноним 08/10/23 Вск 18:14:33 #531 №511998 
Анон, как справляться с хором? Например у меня такой трек: везде обычно, а на 1:09 начинается часть с хором, на которой модель ахуевает
Вокал оригинала: https://voca.ro/19M1lMTqz676
Мой кавер: https://voca.ro/1itbIvewKIm8
Аноним 24/10/23 Втр 01:18:43 #532 №527899 
>>511998
>Анон, как справляться с хором?
Никак, вокал должен быть чистым без "эффектов" Придется как то ручками, записать отдельно а уже на обработанную нейронком добавить хор эффект
Аноним 26/10/23 Чтв 22:12:41 #533 №530102 
image.png
Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.
Аноним 28/10/23 Суб 00:00:43 #534 №530885 
>>461500 (OP)
Запилите мне речь Пыни о Кормлении личинок.
Аноним 14/11/23 Втр 02:56:06 #535 №543619 
Куда вы все эти модели устанавливаете?
Софт есть какой то или только сайты?
Аноним 14/11/23 Втр 08:25:09 #536 №543698 
>>461500 (OP)
Как называется модель на второй вебм?
comments powered by Disqus

Отзывы и предложения