Голосовых нейронок тред (TTS, STS, STT) #5 /speech/

DockerDesktopkOpu9tElfh.png

>>552992
Это для обучения или преобразования? Если для преобразования - попробуй просто файл нарезать. А чтобы вручную их по отдельности потом не отправлять на конвертацию, в RVC можно батчами файлы обрабатывать, в нижней части интерфейса. Я сам ничего длиннее 10 минут не пробовал скармливать, может оно неоптимизированно просто для таких длинных файлов.

Аноним 24/11/23 Птн 10:34:26 #9 №553144

170081108345491322.mp4

Аноним 24/11/23 Птн 11:19:57 #10 №553170

>>552461
Ебать, спасибо анон, это по царски мне все сделало. Со старой ебался месяц хуйня получалось. Каеф.

Аноним 24/11/23 Птн 12:35:48 #11 №553224

>>552992
Ты же обучаешь? можно через какой нибудь адобе аудишн удалить тишину. У меня с 1 часа записи голоса на стриме после удаления тишины стало 25 минут чистого голоса.
А вообще советую юзать обучалку в облаке >>552409 . Тольго чтобы там можно было ГПУ подрубить - надо акк по телефону подтвердить. В РФ не работает, поэтому через какой-нибудь онлайн-сим сервис регни на другой регион. Цена 3-5 рублей.

Аноним 24/11/23 Птн 12:48:10 #12 №553233

>>553224
че за бред что в рф не работает? Нормально активировал.
Мимоднровец

Аноним 24/11/23 Птн 13:17:02 #13 №553267

>>553233
От оператора завист. Мой мегафон не пропустил. И где-то в гайде на ютубе видел, что там так же из РФ регали на тайланд.

Аноним 24/11/23 Птн 15:00:12 #14 №553360

170082687207822660.mp4

17008268568421814.mp4

Аноним 24/11/23 Птн 17:09:15 #15 №553462

DockerDesktopfViOTG1j88.png

firefoxwnuv2eXkSx.png

DockerDesktopbLu4X06Dbl.png

>>552199
>>552221
короче поебавшись с docker и линуксоидным WSL 2 я заставил это работать.
Обязательные условия, если юзаете шиндовс 10 :
1. Установка ubuntu и его включение (см. пик 1) в уже установленном docker (это в моём случае, отличном от того что в видеоролике) https://www.youtube.com/watch?v=PB7zM3JrgkI
2. обязательная установка python 3.7, с 3.11 вообще не хочет работать
3. включение экспериментальной функции "containerd" в docker (см. ласт пик)
когда всё поставили - просто введите вот это в powershell с запуском от админа :
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all registry.hf.space/styletts2-styletts2:latest python app.py
потом в docker кликаете по ссылке и всё (см. пик 2), должно открыть gradio вебуй в браузере.
Не знаю как другим, но этот tts движок пока что ебёт все остальные как нехер делать, меньше одной секунды на генерацию семлпа используя ноутбучную rtx 3070 / 8gb vram. https://voca.ro/1jB9XdkllnRi когда другие tts всё ещё будут долбить гпу в сотку.

Аноним 24/11/23 Птн 20:58:27 #16 №553729

едж ттс светлана нейрал питч 0.mp4

едж ттс светлана нейрал питч 5.mp4

силеро ттс бая питч 0.mp4

силеро ттс бая питч -5.mp4

силеро ттс ксения питч 0.mp4

силеро ттс ксения питч -5.mp4

силеро ттс хения питч 0.mp4

силеро ттс хения питч -5.mp4

Какой голос звучит человечнее?

Аноним 24/11/23 Птн 22:05:48 #17 №553815

>>553729
Света питч 5. К силеро надо крутить библиотеки омонимов, перевода цифр в буквы, ударений и прочего.

Аноним 24/11/23 Птн 22:12:28 #18 №553832

>>553729
чето кряхтит пердит во всех версиях

Аноним 24/11/23 Птн 22:17:25 #19 №553844

>>553462
туда можно вкорячить свои модели, натрененые в RVC?
если нет, то где можно текс в аудио?

Аноним 24/11/23 Птн 23:10:51 #20 №553931

DockerDesktopsSzXYX7WFF.png

>>553462
Угараешь, штоле? Всё там прекрасно работает без WSL и докеров
1. git clone https://huggingface.co/spaces/styletts2/styletts2
2. pip install -r requirements.txt
3. pip install cached_path phonemizer
4. Устанавливаешь espeak-ng https://github.com/espeak-ng/espeak-ng/releases
5. Прописываешь в PATH :
PHONEMIZER_ESPEAK_LIBRARY="C:\Program Files\eSpeak NG\libespeak-ng.dll"
PHONEMIZER_ESPEAK_PATH=“C:\Program Files\eSpeak NG”
6. Запускаешь python ./app.py
7. ?????
8. PROFIT!

Аноним 24/11/23 Птн 23:13:47 #21 №553935

>>553931
Да, ещё torch и torchaudio нужно поставить с поддержкой CUDA, чтобы инференс работал на GPU. У меня уже стояли 2.1.0+cu121

Аноним 25/11/23 Суб 02:11:21 #22 №554224

>>553028
> попробуй просто файл нарезать
Спасибо кэп, только это лишний гемор, пушо помимо резки/склеивания, как я должен проверить что оно не разрежется именно по середине речи?
Нет, не для обучения, аудиокнигу хочу в другом голосе послушать.

>>553224
Нет, это не для обучения.

Аноним 25/11/23 Суб 07:37:22 #23 №554360

>>553844
это не RVC, но модель styletts2 можно зафайнтюнить на rtx 3090 за 4 часа, так говорит автор https://github.com/yl4579/StyleTTS2

Аноним 25/11/23 Суб 07:58:38 #24 №554364

>>553815
ударения там можно сделать через + звон+ит

Аноним 25/11/23 Суб 08:37:43 #25 №554370

>>554224
Берешь абсолютно любой аудиоредактор и вручную режешь блять, и там же склеиваешь.

Аноним 25/11/23 Суб 09:45:39 #26 №554399

Чо, когда exe софт сделаете, а не всю эту хуету с бубнами?

Аноним 25/11/23 Суб 10:59:07 #27 №554423

>>554399
те сложно чтоль пару команд ввести? Сразу видно виндузятника

Аноним 25/11/23 Суб 11:21:14 #28 №554431

>>554423
те сложно чтоль все в одной папке собрать? сразу видно гитхабодебила

Аноним 25/11/23 Суб 15:01:50 #29 №554564

>>554364
Спасибо, я знаю. Но хотелось бы автоматом. Но у автора силеро такая позиция, что они продают весь обвес вокруг их сырой модельки, так что увы.

Аноним 25/11/23 Суб 15:04:15 #30 №554565

>>554399
хочется верить что этот styletts2 герганыч портнёт в ggml, тогда можно будет тупо одной командой запускать один .exe файл с парой моделей, там кста их 10, это если считать энкодеры тоже.

Аноним 25/11/23 Суб 18:23:07 #31 №554732

как в едж ттс ставить ударения?

Аноним 25/11/23 Суб 23:08:23 #32 №555009

1676164345659062.webm

Поясните за текущее состояние голосовых нейронок плз. Если я хочу генерить хорни пасты голосами милых тяночек, это возможно уже или нет? Или можно только переделывать уже существующую речь в другие голоса? Последний раз ттс трогал у яндекса, там неплохой был секси голос Алёны, но интонации все равно слишком роботизированы и одннобразны были.

Аноним 25/11/23 Суб 23:11:00 #33 №555013

Что будет лучше, если я хочу клонировать свой собственный голос и озвучивать им написанный текст - RVC или ElevenLabs? Обычно я делаю через второй вариант, но там это довольно заёбно, приходится много раз генерировать заново, а потом ещё и склеивать удачные куски из разных вариантов в единое целое. Уходит очень много времени

Ну или может быть у вас есть гайд, как записать подходящий датасет, пользуясь диктофоном из телефона? Вроде бы всё нормально, но нейронка часто сбоит, например ускоряя голос или наоборот замедляя, а иногда появляется сильный акцент

Аноним 26/11/23 Вск 08:10:24 #34 №555225

>>554370
Ебаный ты нахуй, там 24 файла по 50 минут, заебусь, во-вторых я не понимаю а че мешает просто один огромный файл обработать? Я понимаю когда я ставлю слишком огромное значение блока за раз обрабатываемого или че там, типа 60 секунд и он за оперативку вылазит, а тут че?

Аноним 26/11/23 Вск 09:27:34 #35 №555243

>>555009
Можно сгенерировать в TTS, а потом прогнать через RVC с нужным тебе голосом. Но TTS'кам эмоциональности под твою задачу не хватит, как мне кажется. Они больше под монотонное чтение подходят.

>>555013
У RVC нет возможности напрямую озвучивать по тексту, она только из одного голоса в другой преобразует. Тебе придётся сначала сгенерировать по тексту дефолтным голосом любой TTS'ки, а потом через RVC прогонять.

> как записать подходящий датасет
Для RVC нужно 5-10 минут чистого голоса, желательно, в разных диапазонах. Хорошие модели стабильно работают, там не надо что-либо роллить.

Аноним 26/11/23 Вск 11:55:51 #36 №555275

>>555225
Попробовал прогнать часовую аудиокнигу (58 минут). С моделью rmvpe всё обработалось, при обработке потребление VRAM было почти 20 Гб, но обработка заняла всего несколько секунд. Creepe — потребление VRAM около 4 Гб, но обрабатывалось долго — около 2 минут. Harvest — видеопамять не жрет, обрабатывалось минут десять и потом все упало нахуй, хотя потребление RAM было всего лишь около 22 Гб (из 64 Гб). Pm не проверял.

Аноним 26/11/23 Вск 13:23:27 #37 №555333

>>555275
А как результат?

Аноним 26/11/23 Вск 19:32:36 #38 №555755

>>552016 (OP)
Аноны, оценил предложенные tts проекты, XTTS в целом порадовала. На huggingface лимит в 200 символов, соответственно вопрос: если её ебануть локально можно ли за одну операцию озвучивать приличные тексты, например 10 страничные статьи? И, если да, сколько генерация будет занимать по времени на 3060 12 гигабайтной?

Аноним 27/11/23 Пнд 00:28:14 #39 №556093

90c7a292-a226-4880-ad82-cf7e61285a991.mp4

623752df-712b-418c-82f8-15291a32e7821.mp4

bcaf519e-15c6-4b20-bc27-9b52612986580.mp4

e12c5a30-b5e7-4f58-851d-7648d4c454b20.mp4

Годная вещь, аж залип

Аноним 27/11/23 Пнд 02:23:06 #40 №556139

was du brauchst.mp4

zwei kleine Hände.mp4

mein Häschen.mp4

Почему-то именно с этим языком самый кек получается.

Аноним 27/11/23 Пнд 02:37:25 #41 №556147

wischegrad.mp4

Аноним 27/11/23 Пнд 02:39:29 #42 №556148

Versuch 5.mp4

nach Hause.mp4

Brief (попытка 4) - норм.mp4

Аноним 27/11/23 Пнд 04:34:32 #43 №556194

А есть вообще сайты по типу цивита (куда лоры и модели заливают), но с готовыми голосовыми моделями?

Аноним 27/11/23 Пнд 04:49:33 #44 №556196

>>556194
https://discord .gg/aihub (канал voice-models)
Для RVC.

Аноним 27/11/23 Пнд 12:32:39 #45 №556453

>>555243
А если записать самому с нужной интонацией и потом свапнуть голос?

Аноним 28/11/23 Втр 02:22:19 #46 №557155

Аноны, для клонирования голоса обязательно микрофон?

Аноним 28/11/23 Втр 03:25:02 #47 №557166

Himbeere.webm

Ай, наигрался. Не смешно как-то уже.

Аноним 28/11/23 Втр 11:57:16 #48 №557280

Анон, подскажи пожалуйста, есть ли возможность научить ИИ на чужой голос, при обучении выдаёт ошибку и ругается на GPU (У меня AMD 6800XT) И еще вопрос, ему datasaet можно даже видео в mp4 подставить, он его "скушает" или ему нужен именно свой определенный формат?

Аноним 28/11/23 Втр 13:00:09 #49 №557317

Аноны, а есть сервис дубляжа своего голоса, но чтоб интонация была? Знает кто нибудь такой онлайн сервис?

Аноним 28/11/23 Втр 20:41:57 #50 №557640

Ветер пригожина наполняет Паруса Завоеваний.mp4

Аноним 30/11/23 Чтв 23:49:07 #51 №559490

>>553462
для локал юзеров - убрали ограничение в 400 слов, но есть проблема, он начинает каждое новое предложение без сохранения интонации.

Аноним 01/12/23 Птн 12:27:11 #52 №559905

1311353162029.jpg

Я тупой. Не бейте, лучше обоссыте!
На hf есть вот такая модель для whisper:
https://huggingface.co/lorenzoncina/whisper-small-ru/tree/main
Но Whisper'у нужны модели с расширением .pt
Как конвертировать модель hf ---> pt?
Был бы рад, если кто-то шарящий просто сконвертирует и выложит ссылку.

Аноним 01/12/23 Птн 15:54:09 #53 №560007

>>559905
Эти веса можно подгружать через torch.load, если использовать whisper в качестве python-модуля.
Если тебе вдруг зачем-то нужно их использовать через stand-alone версию, то требуется небольшой костыль, так как stand-alone может работать только с предопределенными моделями.

Скачиваешь эту модель при помощи git
git clone https://huggingface.co/lorenzoncina/whisper-small-ru/
И конвертируешь этим скриптом https://gist.github.com/bofenghuang/3ba54bb338f4863e6ab710a2ceb65bf2 :
python convert_whisper_to_openai.py --hf_model_name_or_path "d:/whisper-small-ru" --whisper_state_path "./small.pt"

Либо скачиваешь сконвертированную модель отсюда https://huggingface.co/savayox919/small.pt/blob/main/small.ru.pt

Закидываешь cконвертированную модель в папку %user_profile%/.cache/whisper/
Чтобы whisper знал эту модель нужно в файле %python_path%\Lib\site-packages\whisper\__init__.py под 23 строкой добавить строку
"small.ru": "aefac90e59481eb3f15b7f6725fd1e398a08ec9d99ba8969336bde5c3f667695/small.ru.pt",
И под 39 строкой добавить строку
"small.ru": None,
Теперь whisper будет работать с этой моделью
whisper --model small.ru --language ru

Но на самом деле всё это ненужный пердолинг, потому что эта модель всратая и не лучше оригинальной small

Аноним 01/12/23 Птн 18:40:29 #54 №560112

1279126257591.jpg

>>560007
Спасибо, анончик! Аки боженька всё разжевал. Мне важно было попробовать работу этой модели на своих семплах. Результаты и впрямь так себе.
Я радиогубитель и в ИТ не большой знаток. Нейронки для меня - что-то типа магии. Хочу автоматически распознавать речь со своих радио-перехватов (приём SDR-свистком), но старое железо весьма ограничивает возможности. У меня gtx950 с 2 ГБ памяти, и её хватает только для base модели, а это полная хуита ни о чём. Даже small крашится от недостатка памяти. Поэтому ищу вменяемую по скорости и качеству распознавания модель под CPU. Может, посоветуешь что-то? Нужна только русская речь.

Аноним 01/12/23 Птн 19:31:03 #55 №560137

17014448286430.mp4

В какой нейронке это делали?

Аноним 01/12/23 Птн 22:28:46 #56 №560346

> coqui ai
Это годнота? Почему в шапке нет?

Аноним 01/12/23 Птн 22:41:32 #57 №560367

>>560137
В суно, сверху криво кинули войссвап совитсом.

Аноним 01/12/23 Птн 22:45:10 #58 №560371

>>560346
Потому что как и в дабе сосет письку. Плюс платное. Там никаких чудесных решений все еще нет, это комбайны из существующих технологий, которые по аналогии с фейс-свапом типа фейсхаба - ну продержаться год-два, выдавая хуевенький результат за нихуевенькие бабки. Потом технологию допилят и она обесценится (в хорошем смысле слова). Чмони конечно могут продолжать лазить в какойнибудь фейсап, но нахуя если везде лежит руп. Поэтому какой смысл добавлять в шапку очередную коммерческую прокладку?

Аноним 01/12/23 Птн 22:46:50 #59 №560376

>>560371
>Потому что как и элевенлабс в дабе сосет письку
фикс

Это максимум для инди проекта энивей и если бабки карман жмут, для чего-то серьезного проще нанять актера за миску риса. Да и для инди тоже.

Аноним 01/12/23 Птн 23:14:14 #60 №560434

>>555755
у меня тоже такая карточка, почти моментально 3000 символов генерит, так что в этом проблем нет

Аноним 01/12/23 Птн 23:17:58 #61 №560440

>>560371
Че за комбайны из готовых решений? У них собственные решения и опенсурс на гитхабе.

Аноним 02/12/23 Суб 00:04:23 #62 №560509

>>560440
>У них собственные решения
Из чужих моделей и разработок обмотанных петухоном. Огласи список "собственного", если не сложно.

Аноним 02/12/23 Суб 00:21:28 #63 №560525

>>560509
> https://github.com/coqui-ai
Ты шизик?

Аноним 02/12/23 Суб 00:22:25 #64 №560527

>>560509
https://huggingface.co/coqui

Аноним 02/12/23 Суб 00:24:59 #65 №560531

>>560525
>>560527
нахуй ехай

Аноним 02/12/23 Суб 00:29:25 #66 №560535

>>560531
И че? Ебать ты долбаеб, обосрался, так не закапывай себе дальше.

Аноним 02/12/23 Суб 20:24:08 #67 №561166

Голосовые нейронки самый мощный прорыв сделали я щитаю. Ни видео ни фото не может в годнонту, а вот голосовые модели могут имитировать голос человека на 100 процентов.

Аноним 02/12/23 Суб 23:28:24 #68 №561375

Есть какая-нибудь онлайн нейросеть, чтобы фразу озвучить? Мне буквально одну только. Или, может, итт кому-нибудь не лень? С меня сотни интернетов!

Аноним 02/12/23 Суб 23:45:16 #69 №561386

79bc1e4a-bf63-4732-add1-57941374e9a70.mp4

>>561375
А, все, я нашел. Шапку жопой читал.

Аноним 04/12/23 Пнд 14:11:28 #70 №562704

af093839-c792-4385-8519-828c3e98b2121.mp4

ea632f45-47fe-4515-a7a3-971ca647bcdb0.mp4

d4d7f757-c7f3-4594-a319-18bc6bb026241.mp4

Бля а неплохо вышло

Аноним 04/12/23 Пнд 18:47:10 #71 №562947

.mp4

>>562704
Вообще охрененно делает!

Аноним 04/12/23 Пнд 20:40:29 #72 №563105

7277c502-8162-4a82-af85-d1b4217232a7.mp4

408bdf0c-a8f0-416a-8295-4ce6aa1477651.mp4

Рейт

Аноним 05/12/23 Втр 12:38:54 #73 №563631

Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели

Аноним 05/12/23 Втр 22:09:06 #74 №564287

На eleven labs появился speech to speech для склонированного голоса, но пока только на английском.

Аноним 06/12/23 Срд 07:05:40 #75 №564586

>>564287
Чем делал голос путина тот что на русском?

Аноним 06/12/23 Срд 15:08:48 #76 №564851

hero.webm

Аноним 07/12/23 Чтв 10:03:10 #77 №565990

дойч.mp4

инглиш.mp4

>>557166
> наигрался
А может и нет...

Аноним 07/12/23 Чтв 16:31:59 #78 №566214

Я прочитал шапку, но уточнить хочу. Мне нужно делать озвучку персонажей амер мультиков.
>SileroTTS
>TeraTTS
Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
>RVC
Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?

Аноним 07/12/23 Чтв 16:36:45 #79 №566220

>>566214
силеро ттс. Ударения ставить так: звон+ит +перед ударным.
Про рвс да

Аноним 07/12/23 Чтв 16:39:45 #80 №566224

Жопич.mp4

>>564586

Аноним 07/12/23 Чтв 16:48:07 #81 №566234

>>566220
А что насчёт амер акцента?

Аноним 07/12/23 Чтв 16:49:53 #82 №566236

>>566234
силеро ттс там американское наверно

Аноним 07/12/23 Чтв 16:51:57 #83 №566238

>>566236
>Оффлайн-проект синтеза голоса от русскоязычной команды Silero.
Окей спорить не буду, но на всякий случай на форчане чек чем оно по-хорошему делается.

Аноним 07/12/23 Чтв 18:30:34 #84 №566384

Падажите, эта няша из консольки чтоли управляется онли? Нет удобного интерфейса, куда совать текст и язык, модели жмакать?
https://www.youtube.com/watch?v=yRHbDbHPJMo

Аноним 07/12/23 Чтв 18:52:12 #85 №566411

>>566384
тебе какой язык нужен?
https://github.com/hinaichigo-fox/rus-silero-webui вот там русский и украинский
https://github.com/GhostNaN/silero-webui тут все

Аноним 07/12/23 Чтв 19:01:51 #86 №566427

>>566411
Мне англ. Ну я разные пробовал и устанавливал https://github.com/snakers4/silero-models#installation-and-basics.
Вот что ты дал, юзаю гитбаш в папке, git clone https://github.com/GhostNaN/silero-webui.git
А где там установочное или как стартовать вообще, каким файлом?
Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.

Аноним 07/12/23 Чтв 19:05:28 #87 №566435

>>566427
Запускать app.py
Конечно же. если не менять язык будет ошибка. Смени язык и все

Аноним 07/12/23 Чтв 19:26:24 #88 №566471

>>566435
А понятно. Я просто не ожидал, что так можно, никогда не делал. Спасибо, что не рвонькнул однако.
Сейчас устанавливаю какое-то nltk, а то ошибка генерации.

Аноним 07/12/23 Чтв 19:40:26 #89 №566499

Не помогло nltk, опять чего-то не хватает. В requirements.txt
gradio
nltk
num2words
omegaconf
torch
torchaudio
Я понимаю это что-то у программистов имеющеюся само собой и что мне делать чтоб облегчить мучения?

Аноним 07/12/23 Чтв 19:56:26 #90 №566531

У одного меня какие-то спермопроблемы как обычно, ясно, у всех остальных всё само собой встало одним нажатием кнопачки.

Аноним 07/12/23 Чтв 19:58:16 #91 №566536

>>566499
покажи ошибки

Аноним 07/12/23 Чтв 20:08:50 #92 №566552

>>566536
Это по-любому из-за отсутствия установки чего-то большого, что все нейросетчики по умолчаю юзают, поэтому автор и в шапке не пишут. Я просто только вкатываюсь.

Аноним 07/12/23 Чтв 20:16:02 #93 №566569

>>566552
комп перезапусти и попробуй все в ручную через пип инсталл устанавливать

Аноним 07/12/23 Чтв 20:16:49 #94 №566571

>>566552
Алсо, добавлю у меня подозрения на этот пи-торч. Может я его как-то криво поставил?
Я с сайта копирую в командную строку cmd что мне там дали pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Установка какая-то прошла и я закрыл. Не так чтоли?

Аноним 07/12/23 Чтв 20:19:24 #95 №566573

>>566571
самая тупая ошибка. ПРОСТО ПИШИ ПИП ИНСТАЛЛ ТОРЧ И ВСЕ

Аноним 07/12/23 Чтв 20:30:09 #96 №566592

>>566573
В cmd писать? Или в какую-то конкретную папку перейти? написано Requirement already satisfied:
Я также перегрузил комп, но не помогло. Может снести и зано поставить этот торч?
Остальные требования тоже уже написано Requirement already satisfied:

Аноним 07/12/23 Чтв 20:48:57 #97 №566616

>>566592
в цмд пиши

Аноним 07/12/23 Чтв 20:52:45 #98 №566621

Ну че, я пытался удалить и установить заново как было сказано.
1. Первый пикрил - ПРОСТО pip install torch, ошибка. С ним вообще консоль не выдаёт адресс для браузера.
2. Снёс п. 1 и поставил с сайта всё пик 2 без ошибок, всё равно не заработала, те же ошибки >>566552

А не может быть такого что мне какие-то модели там в папку с прогой докачать, чтоб не было ошибки? Я вам заскринил >>566552 чтоб вы расшифровали на что оно жалуется.

Аноним 07/12/23 Чтв 20:54:23 #99 №566624

>>566621
pip3 install pytorch

Аноним 07/12/23 Чтв 20:57:50 #100 №566631

>>566624
М?

Аноним 07/12/23 Чтв 21:00:01 #101 №566635

>>566631
фулл скрин

Аноним 07/12/23 Чтв 21:00:40 #102 №566636

>>566631
пошли ка в тг. тут не особо удобно

Аноним 07/12/23 Чтв 21:03:36 #103 №566642

>>566635
Спасибо, что помогаешь. А можешь есть всеобщий гайд по работе с гитхабовскими нейросетками, чтоб я мог все их стандарты установить?

Аноним 07/12/23 Чтв 21:04:05 #104 №566643

>>566636
У меня нет тг.

Аноним 07/12/23 Чтв 21:05:16 #105 №566645

А может этот торч не в апдату, а куда-то ещё ставить?

Аноним 07/12/23 Чтв 21:06:14 #106 №566648

>>566645
просто консоль открываешь и сразу без ничего пишешь pip install pytorch

Аноним 07/12/23 Чтв 21:09:02 #107 №566653

>>566648
Ну да, так и пишу, но у меня при открытии путь C:\Users\Anonname>
А у тебя не так?

Аноним 07/12/23 Чтв 21:09:41 #108 №566654

>>566653
хмммм. перезагрузи пеку и пробуй снова

Аноним 07/12/23 Чтв 21:25:29 #109 №566677

>>566654
Ладно, я думал, тут кулцхакеры сидят, придётся замену придумать или насадку какую-то. Может онлайн придётся даже генерить.

Аноним 07/12/23 Чтв 21:29:18 #110 №566683

>>566677
просто хз как но у меня все что надо ставилось с 1 раза

Аноним 07/12/23 Чтв 21:36:12 #111 №566691

>>566683
Да я понимаю, как обычно у меня одного проклятие, срочно надо шамана вызывать.

Аноним 07/12/23 Чтв 23:06:25 #112 №566761

Ну что сказать, я напоследок пошалил ещё с этими вашими торчами, смыл весь питон и накатил последню версию и в резульатте через консоль этот торч вообще никак теперь не ставится, а силена даже в браузере теперь не запускается соответсвенно.

ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch

Сделал лучше, а стало хуже, ну и говнище этот ваши питон.

Аноним 07/12/23 Чтв 23:50:12 #113 №566793

Ладно вот последний вопрос.
# Create venv
python -m venv venv
source venv/bin/activate
Это что? Это куда?

Аноним 08/12/23 Птн 06:55:06 #114 №566992

>>566793
> Это что? Это куда?
В консоли последовательно выполни команды:
python -m venv venv
.\venv\Scripts\activate

У тебя формат второй команды под никсы, если я правильно понимаю.

>>556453
> А если записать самому с нужной интонацией и потом свапнуть голос?
Да, тогда интонация норм подхватится.

>>560346
> coqui ai
> Это годнота? Почему в шапке нет?
Там же вроде просто XTTS под капотом? Хз, может и стоит дополнить, я не вникал, если честно.

>>563631
> Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Попробуй этот коллаб глянуть, я, правда, сам не смотрел:
https://colab.research.google.com/drive/13Ot_8SJYplkxSH1vkJptd79fmvMjFqIC

>>566214
> Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
Из опенсорс с генерацией эмоций ничего нет для TTS, насколько я знаю. В bark можно вставлять конструкции типо [смех] и что-то ещё, но не смотрел её особо: https://github.com/suno-ai/bark

> Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Всё так, либо можешь менять голос в риалтайме - как вариант, можешь настроить виртуальный микрофон и сразу записывать свой видоизменённый голос с нужными тебе эмоциями, в этом случае RVC норм оттенок голоса передаст.

>>566427
> Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Увы, не нашёл времени пофиксить. Работает только русик, да.

Аноним 08/12/23 Птн 07:00:03 #115 №566993

>>566761
так емае. Те нужно максимум 3.10 ставить

Аноним 08/12/23 Птн 07:30:44 #116 №566997

А у edge tts из шапки можно как-то ударения ставить? И там ещё какой-то странный баг с внезапным сдвигом тональности на одном предложении есть, это победимо?

Аноним 08/12/23 Птн 07:55:37 #117 №567000

>>566997
я и сам щас думаю как ставить. Пришел пока к выводу. Ты его учи как ребенка. Вместо Зек пиши зэк вместо штирлицем пиши штир'лицэмъ и т.д. ударение либо ' перед нужной буквой либо о́ букву ударением

Аноним 08/12/23 Птн 13:28:18 #118 №567184

>>566992
>У тебя формат второй команды под никсы
Эээ? По-русски пиши. Я это это инструкции слепо пытался сделать.

Аноним 08/12/23 Птн 13:34:19 #119 №567201

А никто англоязычное не встречал? Я на форчане порылся, там только треды по стабл дифужну.

Аноним 08/12/23 Птн 13:48:26 #120 №567210

Как же хуёво быть нищюком. Я бы купил уже этот вокс бокс за 100 баксов и не ебался тут.

Аноним 08/12/23 Птн 14:52:51 #121 №567231

dc947d69-2f8c-4ee7-8758-b4351991f13f1.mp4

>Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks
Охуенно озвучили блять.

Аноним 08/12/23 Птн 15:14:26 #122 №567238

изображение.png

>>567231
А хули ты хотел? Плоти.

Аноним 08/12/23 Птн 16:00:21 #123 №567266

>>567238
Там нет на сайте для нищуков скромного. Что ж так плохо с этой озвучкой идёт, туго, жиды программисты не дают творить.

Аноним 08/12/23 Птн 16:01:40 #124 №567267

>>567266
Алсо с нормальными (не премиальными) голосами тоже говорят - плоти.

Аноним 08/12/23 Птн 19:54:04 #125 №567505

А неплохо это RVC работает, эмоции всё передаёт, не ожидал.
Но шляпа только что исходники хорошие искать, все эти TTS некудышные, говорят дикторской речью. И я так понимаю нельзя ттс научить в эмоции. Может посоветуете какую базу со фразочками всяких актрис озвучек и сэйу? А то я вижу на ютубе иногда фажики делают подборки фразочек всяких персонажей игр и аниму, может базы есть мне не очевидные.

Аноним 08/12/23 Птн 20:34:45 #126 №567544

У меня такая мысль возникла, что для эмоций надо TTS для каждого настроения модель отдельную, не заморачиваясь на персонажей голосов, например для женского один и тот же голос, но каждая модель отличная, что одна радуется, другая говорит визгливым голосом и т.п. Не встречал никто грустных, гневных роботов и т.п.? Этого бы хватило, потом в RVC перегнать, ей пофигу какой там персонаж в оригинале озвучил. Ну может только максимально отличные типы голосов разедлить - мужской, женский, детский. Этого бы хватило, чем клепать тысячи разных персонажей, которые говорят дикторским голосом.

Аноним 10/12/23 Вск 01:56:29 #127 №568817

>>567231
Там вообще нет возможности бесплатно TTS запускать? Мне несколько месяцев назад писали, что можно >>358924 → Но я правда забил и не тестил, ведь есть тот же EdgeTTS.

Аноним 10/12/23 Вск 19:36:14 #128 №569249

Аноны, у меня у одного перестал этот TTS работать?
https://huggingface.co/spaces/elevenlabs/tts

Выдает ошибку:

>RateLimitError('This request exceeds your quota. You have 0 characters remaining, while 103 characters are required for this request.')

Аноним 10/12/23 Вск 21:44:49 #129 №569330

>>568817
Похоже что нет. Вообще странность, что докуя онлайн голосовых сервисов бесплатных, но за стационарное плати.

Аноним 10/12/23 Вск 22:30:28 #130 №569361

>>556148
со второй просто начал хрюкать

Аноним 11/12/23 Пнд 17:23:23 #131 №570032

Аноны есть русская TTS по качеству лучше или сравнимо с silero, но на GPU, а то на ЦП пиздец долго даже не на самом донном проце.

Аноним 11/12/23 Пнд 17:26:08 #132 №570035

>>570032
Да под русской я имею ввиду что бы на русском адекватно воспроизводила текст.

Аноним 11/12/23 Пнд 18:45:42 #133 №570115

>>570032
>silero, но на GPU, а то на ЦП пиздец долго
Силеро долго? Ты уверен, что у тебя не дно? Оно на смартфоне работает х10.
Кстати, когда тестировал, силеро у меня на GPU (3080Ti) работало медленнее, чем на проце (на тот момент 5090х), лол.
Кидай своё железо, а то я знаю ваше "не самое донное".

Аноним 11/12/23 Пнд 18:52:45 #134 №570124

>>570115
Проц ryzen 7 5700x видюха не важно с ней проблем пока нет. Может у нас разное понятие под долго но примерно 10 часов звука за час делает. При том что RVC на GPU тот же час за минуты 3 делает.

Аноним 11/12/23 Пнд 19:27:11 #135 №570168

>>570124
Ебать что ты там такое звучишь?
>ryzen 7 5700x
Ну... Не шик, но окей, уговорил, не дно.
>10 часов звука за час
х10, я прям ванга.
>RVC на GPU тот же час за минуты 3 делает
Тот же, или просто час? Если просто час, то это х20, то есть ускорение относительно силеро всего в 2 раза.
Ну и да, запусти силеро на ГПУ, в чём проблема то?

Аноним 11/12/23 Пнд 19:31:06 #136 №570172

>>570168
>Ебать что ты там такое звучишь?
Книги.
>Ну и да, запусти силеро на ГПУ, в чём проблема то?
Надо будет тогда погуглить, а то я сейчас не совсем напрямую запускаю.

Аноним 11/12/23 Пнд 19:31:41 #137 №570174

>>570172
а нук скинь пример

Аноним 11/12/23 Пнд 19:33:15 #138 №570179

>>570174
Пример чего? И через что скинуть, а то я давно это не делал, а все нормальные сервисы типо ргхоста уже давно отлетели.

Аноним 11/12/23 Пнд 19:34:15 #139 №570184

>>570179
на ютуб залей хз

Аноним 11/12/23 Пнд 19:34:30 #140 №570187

>>570179
пример книги которую озвучиваешь

Аноним 11/12/23 Пнд 19:36:17 #141 №570194

>>570187
Завтра если не забуду скину. Хотя зачем я не совсем понял ибо там ничего необычного нет silero нормально отрабатывает.

Аноним 11/12/23 Пнд 19:39:41 #142 №570201

>>570179
Пример кода я думаю.
>>570179
>а все нормальные сервисы типо ргхоста уже давно отлетели.
Гитхаб всё ещё работает. А так https://rentry.co

Аноним 11/12/23 Пнд 20:06:44 #143 №570241

kripiELfwBGRN.mp4

Оцени пока мою озвучку крипистори>>570194

Аноним 11/12/23 Пнд 20:15:05 #144 №570245

>>570241
Ну я плюс минус до такого же уровня дошел. Только без фонового звука. Мне хватает. Голос только пока не нашел еще чтоб прям нравился.

Аноним 11/12/23 Пнд 20:21:25 #145 №570257

>>570245
ну я звук на фон поставил потому что это страшилка как никак.

Аноним 11/12/23 Пнд 20:24:02 #146 №570263

>>570257
Я то для себя в основном пилю. Ибо читать не то что бы влом, но глаза лишний раз неохото напрягать.

Аноним 11/12/23 Пнд 21:13:56 #147 №570323

>>570241
Ну тут прям видно, что голос искусственный. Ты убирал пробелы между фразами?

Аноним 11/12/23 Пнд 21:34:59 #148 №570353

>>570323
какие пробелы?

Аноним 11/12/23 Пнд 22:31:23 #149 №570454

masun2.mp4

Аноним 11/12/23 Пнд 23:21:08 #150 №570492

>>552016 (OP)
https://www.weights.gg | https://voice-models.com
Сап двач. Как использовать эти модельки? Куда их можно вставить? А то я что-то не шарю в нейронках.

Аноним 11/12/23 Пнд 23:47:50 #151 №570509

изображение.png

>>570492
А теперь читаешь все материалы в шапке по этим трём буквам.

Аноним 11/12/23 Пнд 23:53:39 #152 №570516

>>570509
Что за сайт с моделями?

Аноним 12/12/23 Втр 03:38:58 #153 №570654

>>570509
Благодарю.

Аноним 12/12/23 Втр 09:53:55 #154 №570788

>>570492
птх файл в папку вейтс и моделс а индекс в папку с названием птх файла и в папку логс

Аноним 12/12/23 Втр 16:46:48 #155 №570996

Ананасы, пользоваться RVC в облаке больше нельзя? Сторонние сайты прикрыли фишку с бесплатным ElevenLabs, а оплатить подписку конкретно на их сайте без иностранной карты нельзя.

Получается, для озвучки остался только один вариант: генерация стандартным голосом из доступных -> замена этого голоса на нужный мне через RVC. Компьютер его вряд ли потянет, а в облаке было бы здорово. Сплошная ебанина, короче

Аноним 12/12/23 Втр 19:42:07 #156 №571311

inde2x.jpg

>>552016 (OP)
Тред не читал
Надо распознавать где-то 25 часов лекций на русском в неделю. Вручную это делать больно и неприятно. Платно горько и обидно. Что можно сделать в данной ситуации? Есть ли бесплатные ИИ решения или хотя бы то что можно собрать на своем компе?

Аноним 12/12/23 Втр 20:08:33 #157 №571352

>>571311
whisper

Аноним 12/12/23 Втр 20:08:57 #158 №571354

>>571311
Whisper

Аноним 12/12/23 Втр 22:57:09 #159 №571547

>>570996
>Компьютер его вряд ли потянет
а ты попробуй. он не такой тяжелый, только памяти надо дохуя

Аноним 13/12/23 Срд 08:35:40 #160 №571712

Парни, кто может натренировать модель? По деньгам договоримся

Аноним 13/12/23 Срд 10:24:57 #161 №571738

Силеро не генерирует аудио из текста длиннее 1000 символов. Как обойти ограничение?

Аноним 13/12/23 Срд 13:40:12 #162 №571833

>>571712
я могу, что надо?

Аноним 13/12/23 Срд 15:48:46 #163 №571924

17022992776133.mp4

17023127053922.mp4

Аноним 13/12/23 Срд 15:50:23 #164 №571926

17022994411883.mp4

17023118236246.mp4

17022975531795.mp4

Аноним 13/12/23 Срд 16:03:25 #165 №571933

>>571738
а ты какое силеро юзаешь?

Аноним 13/12/23 Срд 16:04:09 #166 №571935

>>571933
бот или питоновский силеро из треда

Аноним 13/12/23 Срд 20:33:15 #167 №572107

>>552016 (OP)
ОП, прочитал гайды, но не совсем понял - написанно, что текст в речь нельзя научить нужному голосу. У меня есть запись 10+ минут голоса, мне нужно поставить офлайн софтину, скормить ей этот голос и потом писать текстом, а софтина должна преобразовывать текст в голос, на основе созданной модели. Такое возможно?

Аноним 13/12/23 Срд 20:35:17 #168 №572108

eugene.mp4

aidar.mp4

Силеро бот.mp4

>>572107
Именно такое пока что нет. Но можно немного изловчиться. Просто юзать какие либо ттски. Например силероТТС или эджТТС и потом их через рвс с нужной моделью прогонять. Вот. Сравни.

Тред. Скажи, что лучше?

Аноним 13/12/23 Срд 21:23:38 #169 №572155

>>572108
Все три звучат как робот с задержкой в развитии. Всё-таки лучше ElevenLabs ещё ничего не придумали. Я наверное умру от старости, когда у них наконец появится нормальный конкурент

Аноним 13/12/23 Срд 21:36:11 #170 №572161

>>572107
Придётся использовать связку утилит - любую TTS (Text To Speech) и RVC. В качестве TTS мне больше всего зашла EdgeTTS, но она работает через бесплатное API Microsoft'а; если этот момент для тебя принципиален - глянь SileroTTS.

Полученную через TTS дорожку потом конвертишь к нужному голосу через RVC. И вот для RVC уже можно обучать свои модели - датасета в 10 минут должно хватить.

Кто-то реализовывал конвеера, которые сразу из текста делают генерацию нужным голосом через связку TTS+RVC (в шапке есть инфа, но мало) на Gradio-интерфейсах, но я их не смотрел и профукал ссылки. Может пробовали какие-то решения?

>>572108
Второе больше всего похоже на оригинал.

Аноним 13/12/23 Срд 22:42:45 #171 №572230

>>571935
Пробовал и в блокноте колаба, и локально, всё равно есть ограничение.

Аноним 14/12/23 Чтв 04:17:53 #172 №572616

>>572108
Пробуй юзать SSML-режим. Там можно ставить паузу сколько тебе нужно между словами, можно использовать параграфы, дохуя всего короче.
Тред, а вы не пробовали записывать свой собственный голос, а потом прогонять его через RVC? Опционально изменить питч/скорость изначальной дорожки.

Аноним 14/12/23 Чтв 05:58:11 #173 №572639

>>572230
хммммм. я делал пасты и на 2к символов и ничего

Аноним 14/12/23 Чтв 05:58:32 #174 №572640

>>572616
>SSML
Че?

Аноним 14/12/23 Чтв 06:08:55 #175 №572646

>>572640
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
Скролль до SSML.
>>572639
Опытным путём выяснил, что длина аудиозаписи не должна превышать минуту, иначе выкидывает ошибку. Ты где и как генерировал?
Щас попробовал пропустить свой скрипучий голос через RVC гг-женщины из киберпанка, результат плохой, гораздо хуже silero. Какой-то некоарк-пидор выходит.

Аноним 14/12/23 Чтв 06:09:39 #176 №572647

1.png

Аноны поясните нуфагу плиз что это за пиздец? Одну дорожку переработал, дальше всё, это уебище вылетает на половине обработке и дальше тупо не генерит. Инет нормальный.

Аноним 14/12/23 Чтв 06:10:28 #177 №572649

>>572647
Ты окошко командной строки не закрыл случайно?

Аноним 14/12/23 Чтв 06:12:33 #178 №572651

>>572649
Неа, оно открыто всегда. Первый раз когда запускаю, загрузка кавера до половины доходит и вылетает эррор. При следующих попытках эррор сходу вылетает пока не перезапущу. При этом в первый раз у меня всё получилось сгенерить сразу.

Аноним 14/12/23 Чтв 06:18:54 #179 №572656

1.png

>>572647
У меня вот такое вот в консоли в момент когда ошибка вылезает

Аноним 14/12/23 Чтв 06:29:30 #180 №572661

>>572646
https://github.com/hinaichigo-fox/rus-silero-webui вот тут делаю. За ССМЛ спасибо

Аноним 14/12/23 Чтв 06:35:59 #181 №572662

>>572647
Короче я разобрался у меня видимо компик дерьмовый слишком длинные песенки не вывозит почему то, прийдётся ебаться с обрезкой и склеиванием

Аноним 14/12/23 Чтв 06:43:57 #182 №572664

>>571833
натренировать модель под rvc, как свзяаться с тобой можно?

Аноним 14/12/23 Чтв 06:48:15 #183 №572665

>>572664
тг скинь напишу

Аноним 14/12/23 Чтв 07:26:56 #184 №572680

>>572661
Я тебе рекомендую на своей машине генерить, а не в колабе. У меня хром например не позволяет скачивать получившийся файл, при попытке открыть в отдельном окне просто закрывается.

Аноним 14/12/23 Чтв 07:31:40 #185 №572681

>>572680
ну дак я и делаю это локально

Аноним 14/12/23 Чтв 11:23:17 #186 №572804

>>572664
@nyanmyash

Аноним 15/12/23 Птн 12:10:29 #187 №573716

Clipboard01.jpg

Что ему надо то? В факе написано что там ВСЁ включено и никаких библиотек с питонами не надо.

Аноним 15/12/23 Птн 13:22:35 #188 №573749

осень с русского на русский!.mp4

>>573716
Похоже на то, что у тебя часть файлов почему-то отсутствует. В папке runtine должен быть python.exe, но у тебя этого файла почему-то нет. Может антивирь потёр? Или поменяли что-то в последних версиях, я давно не обновлялся уже.

Аноним 15/12/23 Птн 14:25:11 #189 №573772

Как же ЫлэвынЛабз невыносимо жалко ПРОСТО дать поиграться с мемчиками и песенками бесплатно без регистрации мокрые писечки. 58 секунд максимум за раз, видос не больше 20 мегов. Принимает исключительно шебм, а выдаёт почему-то битые mp4 с какчеством звука уровня жёваной на электронике-302 кассеты. Норовит вставить всякую левую отсебятину про субтитры-подпиську-просмотр. То чёткое произношение вообще не распарсит, то неправильно переведёт, то превратит в лепет, то в шизофазию, то простое слово оставит без перевода. Просто взять напрямую со своего ойпи загрузить видос - хренушки, только один. Режим инкогнито после примерно десятка кусков подряд перестаёт выдавать ссылку на скачивание. Тор и тот через задницу помогает - каждую попытку всё стало открываться меееедленно, чтобы я заебался ждать пока очередная нода покажет "форбидден".
хотя логично - а то немедленно сайт задудосит всяким говном, вайпом, 10-часовыми стримами, фильмецами, политотой и проном

Аноним 16/12/23 Суб 09:40:18 #190 №574502

подскажите пожалуйста текста/скрипиты для начитки, создания базы для собственной модели
или где их взять

Аноним 16/12/23 Суб 14:58:55 #191 №574648

>>574502
тебе текст какой то нужен для того чтоб записать голос? Да хоть колобка читай главное чтоб качество было хорошее

Аноним 16/12/23 Суб 17:59:45 #192 №574821

>>574648
понял, спасибо, думал может есть какие-то специализированные уже

Аноним 17/12/23 Вск 00:09:07 #193 №575118

Здравствуй, анон. Нет денег, есть rtx4070, конденсаторный мик и звуковая карта, а также подготовленное помещение и, самое главное, время.
Подскажи, пожалуйста. Мне нужно изменять свой голос в реалтайме. Получается нужен только RVC? Пишу сэмплы и использую готовый датасет? Но какой? С английским датасетом проскакивает акцент, с японским вроде все нормально (в прошлых тредах прочел). Или мне самому нужно делать русский датасет, но это непосильная работа для одного. Что же делать?

Аноним 17/12/23 Вск 07:50:46 #194 №575324

>>555275
Бля. У меня всего 16, уже думал попробовать, а ты так обламываешь блин.

Аноним 17/12/23 Вск 09:03:53 #195 №575337

>>575324
Он долбоеб просто, силеро+вад, умеет резать/склеивать автоматически. Хуяришь чанки по 10 минут и вперед.

Аноним 17/12/23 Вск 09:39:26 #196 №575345

>>570032
В общем если кому интересно загуглил и примерно разобрался в проблеме. silero заколхозил на использование через gpu. И скорость я скажу мое почтение примерно в 6 раз быстрее прогнал примерно тот же объем текста чем я это делал на cpu.

Аноним 17/12/23 Вск 13:35:42 #197 №575460

>>575118
На RVC акцент минимальный вне зависимости от языка, используемого в датасете. Ты скорее всего про SVC читал, там акцент заметнее.

> Получается нужен только RVC?
Для изменения голоса в реальном времени либо RVC, либо Voice Changer: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer

Аноним 17/12/23 Вск 15:58:29 #198 №575557

>>575460
>На RVC акцент минимальный
Спасибо. Тогда не буду заморачиваться с "датасетом с нуля".

Аноним 17/12/23 Вск 18:47:41 #199 №575695

>>552016 (OP)
Блять, аноны, какие же вы молодцы! Всё так по полочкам разложили, организовали! Вот она - сила двача

Аноним 18/12/23 Пнд 05:04:30 #200 №576299

существует ли open-source TTS (хотя бы для английского) сопоставимый по качеству с ElevenLabs? Те, что описаны в шапке, явно слабее.

Аноним 18/12/23 Пнд 06:36:23 #201 №576313

>>576299
пока еще нет

Аноним 18/12/23 Пнд 11:44:00 #202 №576411

>>576299
>сопоставимый по качеству с ElevenLabs
Даже там приходится постоянно ролить результат и высчитывать количество символов за раз, чтобы оно хотя бы постаралось звучать нормально

Аноним 18/12/23 Пнд 11:44:28 #203 №576412

>>572664
ну и куда ты ушел?

Аноним 18/12/23 Пнд 11:46:44 #204 №576413

StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?

Аноним 18/12/23 Пнд 11:51:34 #205 №576415

>>576413
в зависимости от модели

Аноним 18/12/23 Пнд 11:52:35 #206 №576417

>>576413
> StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
depends от качества модели, но в большей мере от погоды на марсе. иногда идеально выходит, иногда с артефактами. прямой зависимости от качества инпута я не наблюдаю, можно идеально записать исходник, но оно все сжует, а можно плохо напердеть в микрофон и получится хорошо. пробуй, если нет своей карточки, можно арендовать сервер. правда не знаю, где дешевле, мне tesla t4 за 30 рублей в час дают, но наверное можно и дешевле

Аноним 18/12/23 Пнд 19:56:22 #207 №576795

>>564287
Лучше объясни как проплатить подписку на елевен лабс

Аноним 18/12/23 Пнд 20:15:41 #208 №576813

https://youtu.be/qCAHyBb6SD0?si=GSEUelE0UhI7J8sh
Какой нейросеткой сделана эта озвучка?

Аноним 18/12/23 Пнд 22:19:16 #209 №576958

>На eleven labs появился speech to speech
А вот кто пользовался, если я надиктую текст на своём английском, он поправит мне акцент на выходе, оставив только мой голос, или результат получится таким же ужасным, как и на входе?

Аноним 18/12/23 Пнд 23:02:54 #210 №576990

>>576958
>или результат получится таким же ужасным, как и на входе
Говно на входе- говно на выходе, акцентов только больше станет, лол.

Аноним 19/12/23 Втр 18:40:21 #211 №577684

>>576958
Честно говоря так себе, инпут должен быть идеально чистым, но акцент всё-таки убирает. Я не знаю, как он у них работает под капотом. По-моему, также как в дубляже, сначала speech-to-text, потом text-to-speech. У меня он меняет слова на выходе (скорее всего плохо понимает из-за акцента).

Аноним 19/12/23 Втр 23:04:25 #212 №577901

>>577684
>инпут должен быть идеально чистым, но акцент всё-таки убирает
То есть, в принципе я могу озвучить что-нибудь с горем пополам, запихнуть это в StS, выбрать для выходного результата свой собственный голос, и он выдаст мне мой же текст, но уже без акцента?

Аноним 20/12/23 Срд 04:56:23 #213 №578202

1.mp4

>>552016 (OP)
Нужно как то вокал подчистить, слишком много автотюна накрутило

Аноним 20/12/23 Срд 06:27:29 #214 №578270

>>578202
Проще эффектов каких нибудь накатить чем чистить

Аноним 21/12/23 Чтв 10:56:30 #215 №579283

>>576958
Кстати по-разному было, когда с "дубляжом" песенок игрался. То голос становится няшнее чем было, то наоборот металлическо-противным. То в оригинале гипертрофированный акцент, а на выходе обычное произношение. То на входе стандартный язык, а на выходе спик фром май харт. А качество самой записи точно повторяет, все завалы частот и шумы, даже уровень в децибелах и всякий паразитный фон.

Аноним 21/12/23 Чтв 11:17:51 #216 №579292

geschwader1.1.mp4

geschwader1.2.mp4

>>576411
> постоянно ролить результат
Тоже бесит. Мог сделать СЕМЬ попыток и всё равно ничего путного не получить. Хоть одно место, но запорото. А может и с первого раза выдать всё идеально.
как вообще один и тот же кусок абсолютно по-разному обрабатывается, где логика?

Аноним 22/12/23 Птн 00:46:07 #217 №579821

>>577901
в теории - да, но на практике, как всегда, есть нюансы,
но должен признаться, качество у них растет.
главная проблема - это стоимость всего этого удовольствия.

Аноним 23/12/23 Суб 12:55:31 #218 №580966

>>552016 (OP)
Анон, тред читал по диагонали, не обессудь. Сейчас очень много информации по нейросетям, все сразу уяснить невозможно.

Интересует вопрос: что нужно для того, чтобы обучить нейронку в домашних условиях? Цель - создать диктора для чтения художественной литературы. Возможно, придется использовать свой голос для обучения. Не хотелось бы делать это на сторонней платформе. Либо же нужен бесплатный вариант хорошего русскоязычного диктора, поскольку это хобби - проект, а текста много.

Аноним 23/12/23 Суб 13:04:22 #219 №580971

>>579292
О, ещё один глюк обнаружил - "залипание" на интонациях и эмоциях. Если в начале куска ор/визг - в переводе такой же визг до самого конца, даже если там на шёпот переходят. В начале спокойный голос - на выходе тоже вялый на всём видосе, даже если в конце в оригинале припев гроулом.
вот не знаю, как оно обрабатывает у тех, кто там зарегился и даже забашлял. Может и лосслесс стерео выдаёт?

Аноним 23/12/23 Суб 13:29:37 #220 №580992

>>580966
>обучить нейронку в домашних условиях
хорошая видюха и датасет.

Аноним 23/12/23 Суб 14:05:03 #221 №581019

>>580966
могу те с этим помочь. ТГ есть?

Аноним 23/12/23 Суб 19:10:51 #222 №581372

Имя отутствует.mp4

>>580966

Аноним 23/12/23 Суб 21:51:42 #223 №581600

>>580992
Хороший совет, но не хватает конкретики. "Хорошая" - понятие растяжимое. Нужно хотя бы минимально необходимое количество памяти указать.

>>581019
Спасибо, анон, но наверняка все не обойдется только одним обучением, потом не единожды потребуются корректировки. Да и хотелось бы самому понять, что и как.

Аноним 23/12/23 Суб 21:56:28 #224 №581615

nark.png

>>581372
На русскоязычного диктора это слабо тянет, лол. Разве что фанфики в порядке лулзов зачитывать.

Аноним 24/12/23 Вск 02:16:56 #225 №582155

>>575337
Так у меня rvm же...

Аноним 24/12/23 Вск 10:33:02 #226 №582354

>>581600
>Хорошая" - понятие растяжимое
чистый звук и минимум 15 минут речи

Аноним 24/12/23 Вск 13:14:22 #227 №582483

>>582354
Ты обгенерировался звуком, что ли, анон? Я спрашиваю про видеокарту.

Аноним 24/12/23 Вск 13:23:58 #228 №582493

>>582483
а. ну 3080 хватит вполне

Аноним 24/12/23 Вск 16:52:36 #229 №582708

1.mp4

А вот какие сетки тут использовались?

Аноним 24/12/23 Вск 19:31:12 #230 №582835

>>582483
Жеска. Ясно, спасиба.

Аноним 24/12/23 Вск 19:51:26 #231 №582854 DELETED

>>582708
авоська

Аноним 25/12/23 Пнд 08:51:11 #232 №583461

И всё-таки может бац и с первого раза выдать шедевр.

Аноним 25/12/23 Пнд 14:39:06 #233 №583585

frauen.mp4

>>580971
> "залипание"
Вот из-за чего бабы-стервы не получались никак. Обрезал начиная с припева - вот теперь идеально, а не невнятный полушёпот как в куплете.
хотя без унтертителей не обошлось и "вир фрауэн зынд шлампен/хурен" не нароллил

Аноним 25/12/23 Пнд 16:44:14 #234 №583633

Треды не читал гуглить не гуглил.

Кто-то уже сделал хотябы пруфофконцепт озвучки ЖоЖо на русском но с голосами оригинальных сэйю?

https://www.youtube.com/watch?v=vZOwxCh4S44

Аноним 25/12/23 Пнд 18:12:23 #235 №583662

redsave.mp4

>Нейронка которую мы ждали: генерация музыки по промпту
>Нейронка которую мы получили:

Аноним 25/12/23 Пнд 21:20:17 #236 №583842

>>583662
Так это круто же, иногда такой музон в голове играет, что прям аж жалеешь, что пропадает. Крутая штука для композиторов, как по мне, хоть я больше любитель-теоретик в музле. У меня, например есть старая .gpt, которая проебалась, но я оттуда мотив помню. Можно восстановить и сделать полноценный трек. Вообще, нейронки для творчества - суперкрутая вещь, прямо приятно эту революцию наблюдать, раз за разом охуеваешь от возможностей.

Аноним 26/12/23 Втр 20:24:53 #237 №584620

Может кто пояснить это я туплю или у меня подели хуевые попадаются. В общем нужна ли дополнительно тонкая настройка для RVC моделей или нормальные модели и из "коробки" отлично работают? Может с индексом какие нюансы есть? Я в logs закидываю, да и в интерфейсе он их по идее находит.

Аноним 26/12/23 Втр 23:28:42 #238 №584766

Аноны, можете пожалуйста посоветовать всяких тянских rvc моделей? Всяких там игерл и тому подобного.

Аноним 27/12/23 Срд 00:14:14 #239 №584802

Аноны, помогите что ли немного. Хочу подавать свой поток wav байтов по сети в w-okada/voice-changer напрямую, как это проще сделать? В исходниках какой-то треш, не могу понять, как оно на фронте работает и какие методы у сервера вызывает. Есть тут, кто разбирался?

Аноним 27/12/23 Срд 14:47:43 #240 №585252

>>584620
Да, их нужно подстраивать под себя, особенно если у тебя амд карта, но в целом можешь просто посмотреть какие настройки на чем лучше использовать, такой инфы много.

Аноним 27/12/23 Срд 16:38:04 #241 №585317

>>585252
Может я не правильно сформулировал, модели работают, но голос порой сильно или не очень отличается от желаемого оригинала

Аноним 27/12/23 Срд 23:33:14 #242 №585523

>>585317
Есть параметр tune, его под себя настраиваешь, что-то около 17 обычно подходит.

Аноним 28/12/23 Чтв 16:09:24 #243 №585848

Есть какой-нибудь гайд для альтернативно-развитых, чтобы было хорошо и не было плохо? Голос звучит немного как робот, хотя семпл хороший

Аноним 28/12/23 Чтв 22:46:23 #244 №586182

>>585848
Я немного не вдуплил, это ведь не w-okadaвский войсчендже, так?

Аноним 28/12/23 Чтв 22:56:37 #245 №586188

Вопрос: для распознавания голоса, лучшее open-source решение это whisper?

Аноним 28/12/23 Чтв 23:37:33 #246 №586218

>>585848
>>586182
Это единственные доступные настройки в ElevenLabs. Я так и не понял как ими пользоваться нормально, постоянно чего-то не хватает

Аноним 30/12/23 Суб 13:23:57 #247 №587082

Подскажите видео с президентом чтобы обучить eleven labs

Аноним 30/12/23 Суб 16:12:09 #248 №587159

1999.webm

>>587082
> видео с президентом

Аноним 30/12/23 Суб 17:41:48 #249 №587218

>>518695 →
>>518696 →
А как вместо аудио сделать видео? Ты просто в видеоредакторе пикчу подставил?

Аноним 30/12/23 Суб 19:16:15 #250 №587257

>>587218
А как липсинк подставить?

Аноним 31/12/23 Вск 00:33:43 #251 №587486

>>585848
У меня бывало такое когда семпл слишком короткий.
Настройки по умолчанию, норм., но при каждой попытке будет
ощутимо отличаться интонация.

Аноним 31/12/23 Вск 08:49:04 #252 №587671

p1.mp4

>>585848

Аноним 01/01/24 Пнд 18:35:44 #253 №588634

Есть модель голоса диктора из 90х?
https://www.youtube.com/watch?v=lSuZmr3-UVs

Аноним 01/01/24 Пнд 22:50:08 #254 №588882

>>576299
Эти пидоры еще демо прикрыли

Аноним 01/01/24 Пнд 22:55:45 #255 №588887

Демке ElevenLabs поставили лимит
Есть способ обойти? Чистка кэша не помогла

Аноним 02/01/24 Втр 07:49:32 #256 №589178

>>588887
Купить подписку

Аноним 02/01/24 Втр 10:34:28 #257 №589285

>>588887
Дерни роутер
Зайди через инкогнито
Зайди через другой бразуер
Зайди с другого устройства
Сделай все вместе
???
Профит.

Аноним 03/01/24 Срд 22:01:57 #258 №590717

Доброго времени суток, уважаемые. Мне нужно узнать как мне преобразовывать текст в аудиодорожку. Быстро, удобно, и как угодно.

Аноним 06/01/24 Суб 17:09:28 #259 №593187

С новым годом нейроголосач!
Желаю вам хороших моделей в этом году!

Аноним 06/01/24 Суб 23:50:58 #260 №593518

>>593187
>06/01/24
>С новым годом
Тебя даже новогодний шум не разбудил?

Аноним 07/01/24 Вск 02:43:59 #261 №593706

Новый проект.mp4

>>552016 (OP)

Аноним 07/01/24 Вск 10:45:41 #262 №593886

>>593518
только отпустило

Аноним 10/01/24 Срд 21:57:09 #263 №600509

8ш6щ668щь6868щ6ь86.mp4

Аноним 10/01/24 Срд 23:43:33 #264 №600740

>>593706
Зелёный слоник уже не в моде?

Аноним 11/01/24 Чтв 17:11:19 #265 №601786

17049695627590.mp4

>>552016 (OP)
Аноны, кто-то из вас может предположить как сделана озвучка на этом видео? Со всеми вздохами и интонацией?

Аноним 11/01/24 Чтв 17:28:09 #266 №601820

>>601786
походу анон просто записал свой голос а потом прогнал через рвс

Аноним 11/01/24 Чтв 17:45:50 #267 №601861

>>601786
это оригинал, рвс оставляет ключи в аудио, тут их нет.

Аноним 11/01/24 Чтв 17:57:59 #268 №601892

>>601861
какие ключи?

Аноним 12/01/24 Птн 01:22:05 #269 №603054

Да, ElevenLabs конечно делает красиво, но все оплаченные символы ушли как дети в школу, хотя сначала кажется, что их дают довольно много. Вот Speech to Speech вроде бы может решить эту проблему, но где достать хороший входной голос, который был бы похож на человека? Если сначала озвучить через какой-нибудь Гугл переводчик, то в ElevenLabs на выходе всё равно получается тот же робот, хотя уже и с нужным голосом. Короче говоря, где можно найти бесплатную говорилку с нормальными человеческими интонациями, чтобы скормить её в Speech to Speech?

Аноним 12/01/24 Птн 18:06:27 #270 №604781

Анонче, есть чистый, минутный сэмл где вайфу на японском базарит без лишнего шума, но елевенлабс всё ещё выдаёт некачественную обработку, не уровень всяких ДЫО и Жотаро, которые на инглише почти как на радном болтают. Мне получается нужно больше сэмплов найти? Пойдёт просто нарезка этого же семпла с каждой фразой по отдельности?

Аноним 12/01/24 Птн 18:16:31 #271 №604791

>>604781
Не пробовал на RVC модель обучить? Видел, что писали, что если датасет качественный, то минуты как раз хватит. Правда я сам не проверял.

Аноним 12/01/24 Птн 18:19:12 #272 №604797

>>604791
Ставил тортойз, но он на этапе загрузок некоторых библиотек выдавал ошибку и слал нахуй

Аноним 12/01/24 Птн 18:22:51 #273 №604802

>>604797
RVC это STS (изменение голоса), а Tortoise это TTS (синтез голоса), насколько я понял. Tortoise можно дообучать на свой голос?

Аноним 13/01/24 Суб 04:01:19 #274 №605780

>>552016 (OP)
>Ultimate Vocal Remover:
кал ёбаный блядь
Установил себе на линукс мастер - в нем гпу не используется независимо от того, ставлю я чек на gpu conversion или нет.
5.6 вообще не ставиится из-за конфликта зависимостей requirements.txt
У проекта полна жопа ишшью на гитхабе, чел ебёт вола, играется с фоном программки и шрифтами сместо того, чтобы обеспечить базовый функционал

Аноним 13/01/24 Суб 08:00:22 #275 №605900

>>605780
ну хз. у меня бубнта все норм поставилось

Аноним 13/01/24 Суб 13:18:08 #276 №606088

>>605900
1. какой тег ставил?
2. какая версия питона у тебя?

Аноним 13/01/24 Суб 17:01:12 #277 №606465

>>606088
в смысле тег?

Аноним 13/01/24 Суб 17:01:39 #278 №606466

>>606088
питон 3.10.11

Аноним 13/01/24 Суб 17:04:13 #279 №606470

>>606088
вот такие настройки

Аноним 13/01/24 Суб 17:41:34 #280 №606533

>>605780
>линукс
дальше не читал

Аноним 14/01/24 Вск 03:25:55 #281 №608506

out.webm

>>606533
я знаю, что читать - не входит в стандартные умения виндузятников, ты мог мне не напоминать лишний раз.
>>606465
в репозитории гитхаба есть теги. Обычно версии программы равны тегам.

Проблема с UVR как-то сама решилась, я не знаю как. Он начал использовать видеокарту.

альсо моя первая проба пера, оценки приветствуются.

Аноним 14/01/24 Вск 05:36:54 #282 №608550

копипаста вован.webm

хы

Аноним 14/01/24 Вск 11:11:10 #283 №608652

>>608550
как делал?

Аноним 14/01/24 Вск 11:16:42 #284 №608657

>>608506
>Проблема с UVR как-то сама решилась
>линукс

Аноним 14/01/24 Вск 11:30:29 #285 №608672

Привет двачик, помогите пожалуйста. Есть mp4 на английском языке, хочу перевести его на русский. Как мне это сделать?

Аноним 14/01/24 Вск 12:53:42 #286 №608709

>>608672
Заплати переводчику.

Аноним 14/01/24 Вск 14:16:11 #287 №608820

>>608672
Whisper'ом можешь речь в текст перегнать и потом хоть через гугл перевести.

https://www.heygen.com/video-translate
Если тебе нужен перевод сразу в виде голоса, наложенного на видео, то есть такой онлайн-сервис. Понятия не имею, платная сейчас эта фича или нет.

Аноним 14/01/24 Вск 21:30:41 #288 №609303

Вот вроде было 50к символов, а вот уже и нету. Я даже не всё успел исправить в уже сгенерированном. Когда уже завезут бесплатное клонирование голоса и ТТС?

Аноним 14/01/24 Вск 22:27:52 #289 №609456

залетел спросить так как сам не слежу, есть уже что-то где можно закинуть текст книги и скочать аудиокнигу разумеется без смс и регистрации?

Аноним 14/01/24 Вск 22:46:03 #290 №609485

>>608652
как описано в ОП-посте - сначала silerotts, потом результат в RVC
>>609456
что мешает обучить свою модель под голос этого великого озвучатора https://www.youtube.com/watch?v=AmFNCJnPuz8 и слушать любфые книги, какие захочешь?

Аноним 14/01/24 Вск 23:01:24 #291 №609515

>>609485
>что мешает обучить свою модель
слабый комплюктор

Аноним 14/01/24 Вск 23:12:49 #292 №609535

>>609485
у меня есть балаболка но голоса оставляют желать лучшего, а современных йоба голосов как я понимаю в открытом доступе нет, да и все равно это костыльно

Аноним 14/01/24 Вск 23:29:16 #293 №609558

педопаста 1.webm

>>609535
а что именно тебя не устраивает в голосах?
Вот я сделал вот эту озвучку теми инструментами, которые описаны в ОП-посте. Тебе такого качества не достаточно?

Что ты понимаешь под "йоба-голосами"?

Аноним 14/01/24 Вск 23:42:07 #294 №609587

>>609558
так я и спрашиваю есть что то что позволяет работать с большим объемом текста за раз с возможностью скачать результат?

Аноним 15/01/24 Пнд 02:57:17 #295 №609697

out.webm

>>609587
а голова тебе для чего? Суешь книгу в питонячий код, который разделит её на фрагменты и озвучит - получаешь на выходе звуковой файл.
От силы строчек 10 кода займёт.

Аноним 15/01/24 Пнд 03:22:00 #296 №609708

out.webm

>>609587
вот тебе пример первой страницы пелевинского iphuck-10
У SileroTTS заметна картавость местами, неправильные ударения и она не умеет называть числа из цифр.
По идее с числами можно бороться просто питоном заменяя их на дуквенные обозначения. С ударениями и буквами ё по идее должен бфыл справляться акцентуатор в TeraTTS, но он сломан в мастере и чел забил хуй на проект 4 месяца назад. Ну а с картавостью поможет только обучение нормальной модели.
Тем не менее вот тебе пруф оф концепт работы длинной озвучки.

Аноним 15/01/24 Пнд 07:11:43 #297 №609756

>>609485
понял

Аноним 15/01/24 Пнд 07:12:34 #298 №609758

>>609515
так есть обучение онлайн. в каггле например. я кидал выше

Аноним 15/01/24 Пнд 07:13:54 #299 №609760

>>609708
силеро ттс в плане прогонки дальше через рвс сильно уступает еджттс. Едж умеет и числа читать и ударения в большинстве случаев правильное

Аноним 15/01/24 Пнд 12:37:45 #300 №609999

>>609760
>Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.
>от Microsoft
фу блять

Аноним 15/01/24 Пнд 12:47:06 #301 №610002

Нейроаноны вопрос такой, есть опенсорсные/офлайн аналоги chirp/suno?

Аноним 15/01/24 Пнд 14:32:48 #302 №610192

>>609697
>>609708
пощадите я подпивас, а не кулхацкер

Аноним 15/01/24 Пнд 15:11:27 #303 №610277

>>609999
ОНА И БЕЗ ТЫРНЕТА РАБОТАЕТ. А ТО ЧТО ОТ МАЙКРОСОФТ ТАК ЭТО ПРОСТО ПРОГРАММА. ДАННЫХ ОНА О ТЕБЕ НЕ СОБИРАЕТ

Аноним 15/01/24 Пнд 15:12:37 #304 №610280

>>610192
так что тебе надо? Текст озвучить? Так силероттс и еджттс без ограничений вроде локально озвучивают. Я пасты и на 30 минут и на час озвучивал. Потом через рвс прогоняешь. Как модель делать? Так датасет с голосом нужен а потом онлайн можно. Если есть вопросы пиши в тред помогу.

Аноним 15/01/24 Пнд 21:06:41 #305 №610790

>>610280
>рвс
что такое рвс? Кстати, такой нубовопрос. Если все говорилки кажутся пресными, есть способ как-то эмоции расставить в тексте? может с помощью параллельной дорожки?

Аноним 15/01/24 Пнд 21:22:47 #306 №610807

>>610790
rvc это смысл этого треда

Аноним 15/01/24 Пнд 21:43:17 #307 №610824

с русского на русский.mp4

>>610790
ну эмоции примерно можно добавить через SSML https://github.com/snakers4/silero-models/blob/6b0bb8a7637d791fbb7adf22c56af1c89758ff19/examples_tts.ipynb

Аноним 15/01/24 Пнд 22:04:16 #308 №610844

>>610807
>rvc это смысл этого треда
Elevenlabs

Аноним 15/01/24 Пнд 22:09:07 #309 №610847

>>610824
там через тэги?
А нельзя как-нибудь прям через внутреннее представление нейросети? Играть с параметрами эмбеддингов? Там наверняка есть проекции связанные именно с эмоциями.

Аноним 16/01/24 Втр 06:42:44 #310 №611132

>>610844
эмммм. нет. опенсурс вперед rvc топ!!!!

Аноним 16/01/24 Втр 12:15:20 #311 №611275

>>611132
С RVC ещё надо поебаться, чтобы он хорошо работал

Аноним 16/01/24 Втр 14:19:21 #312 №611381

>>611275
что именно надо сделать?

Аноним 16/01/24 Втр 15:29:15 #313 №611461

Люди, вы не знаете названия той программы, которая очень хорошо воспроизводила речь людей, которая была в обороте в форчане ровно год назад?
При помощи которой Джоан Роулиг заставляли зачитывать пасту you will never be a real woman или Эму Уотсон Мою борьбу.

Аноним 16/01/24 Втр 15:30:56 #314 №611464

>>611381
Поставить на комплюктор, как-нибудь натренировать модель (а хорошо может получиться не с первого раза), потом ещё нужно где-нибудь сгенерировать более-менее нормальный голос и уже только тогда можно сконвертировать его в нужный. В ElevenLabs это всё делается за пару минут, вот только нужно много платить

Аноним 16/01/24 Втр 16:55:26 #315 №611529

>>611464
ЩАС НАШИ БРАТКИ КИТАЙЦЫ ПОДНАЖМУТ И БУДЕТ ЛУЧШЕ ЕВЕНТЛАБС НАШ РВС!!!!

Аноним 16/01/24 Втр 17:00:18 #316 №611534

>>611464
ндааа, дейсвительно. этож целый час ебаться

Аноним 16/01/24 Втр 17:17:49 #317 №611550

>>611534
>этож целый час ебаться
Это когда ты уже знаешь как там всё работает, и что тебе нужно примерно делать

Аноним 18/01/24 Чтв 03:48:37 #318 №614996

Только вкатываюсь, как рвс тренируется вроде понял и оно плюс-минус нормально работает если я сэмплы сам записываю своим голосом и потом их прогоняю.
Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?

Аноним 18/01/24 Чтв 04:54:51 #319 №615009

>>614996
> Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Не думаю, что ты что-то однокнопочное найдёшь под такую задачу. Весь попенсорс по TTS какими-то васянами на коленке пишется.

https://habr.com/ru/articles/767560/
В TeraTTS пытались именно ударения пофиксить, но вышел какой-то кал, на мой взгляд.

https://github.com/coqui-ai/TTS
XTTS выкладывали какие-то скрипты для файнтьюна и обучения своих моделей с нуля, можешь их попробовать раскурить.

Аноним 18/01/24 Чтв 05:16:13 #320 №615012

>>615009
Спасибо. Я еще погуглил немного, но пока выглядит не очень радужно.

Аноним 18/01/24 Чтв 19:10:57 #321 №615669

>>565990
а можешь прогнать на итальянском?

Аноним 18/01/24 Чтв 22:00:08 #322 №615894

Аноним 19/01/24 Птн 01:24:34 #323 №616112

sector.webm

lieder.webm

>>615669
+ немецкая версия без кривых стыков

Аноним 19/01/24 Птн 02:29:16 #324 №616171

>>616112

охуеть. Но мат перводит плохо

последний запрос пожалуста

https://www.youtube.com/watch?v=_Hv-iypFLrU

Аноним 19/01/24 Птн 02:45:11 #325 №616174

>>615894
> время.mp4
Омерзительно, но в то же время ностальгически гипнотично.

Аноним 19/01/24 Птн 02:48:59 #326 №616175

Dnd Russian Old.mp4

>>616171
It failed.

Аноним 19/01/24 Птн 05:07:18 #327 №616216

>>616171
Что бы ещё попробовать...

Аноним 19/01/24 Птн 05:11:12 #328 №616217

hindi.mp4

turk.mp4

slovak.mp4

Жалко нет латыни, иврита, белмовы, баскского, албанского...

Аноним 19/01/24 Птн 05:22:03 #329 №616221

>>616216
>>616217
мне б еще на итальянском что нибудь

Аноним 19/01/24 Птн 08:37:17 #330 №616254

Аноним 19/01/24 Птн 09:07:00 #331 №616270

es.mp4

coniglietto.mp4

того же кринжа навалил, что и на немецком

Аноним 19/01/24 Птн 09:07:34 #332 №616271

labra.mp4

Аноним 19/01/24 Птн 14:44:34 #333 №616807

Есть чё по STT лучше виспера? Кал же натуральный, ну. Кое-как понимает английский, а русский вообще ни в пизду, ни в красную армию.

Аноним 19/01/24 Птн 16:29:00 #334 №617086

Чуваки, ищу человека который сможет помочь спич ту спич

Аноним 19/01/24 Птн 16:40:41 #335 №617108

>>617086
За деревянные естественно

Аноним 19/01/24 Птн 19:57:40 #336 №617598

>>617086
а чем там помочь?

Аноним 20/01/24 Суб 00:19:12 #337 №618529

grünes licht.webm

brunnen.webm

frau.webm

Аноним 20/01/24 Суб 00:19:47 #338 №618531

pferde.webm

Ну а тут не знаю, ржать или плакать.

Аноним 20/01/24 Суб 06:15:08 #339 №619164

sessione.mp4

Аноним 20/01/24 Суб 08:55:44 #340 №619225

smettetele.mp4

hör auf.mp4

вся игра слов конечно заруинилась

Аноним 20/01/24 Суб 13:30:17 #341 №619460

>>617598
Спич2спич

Аноним 20/01/24 Суб 13:51:46 #342 №619469

>>619460
а че делать то? Модель обучить или просто прогнать голос через рвс?

Аноним 20/01/24 Суб 15:50:25 #343 №619589

>>619469
Обучить модельку (или найти готовую для рвс) и прогнать мою озвучку в голос модельки

Аноним 20/01/24 Суб 16:20:42 #344 №619627

>>619589
готов. кидай тг

Аноним 21/01/24 Вск 07:12:50 #345 №620870

sanox.mp4

самое современное что знаю

Аноним 22/01/24 Пнд 17:33:55 #346 №622448

>>552016 (OP)
Насколько RVC умеет в экстремальный вокал? Получить на подобии криков Рушии https://www.youtube.com/watch?v=PcvATSahB8o в сочетании с обычным возможно?

Аноним 22/01/24 Пнд 18:42:37 #347 №622595

https://riverside.fm/transcription
Вот это я понимаю, все бы нейронки такими были. ПРОСТО зашёл с ноги на сает, засунул туда что угодно и сколько угодно и играйся себе до усрачки.

Аноним 22/01/24 Пнд 21:17:37 #348 №622840

>>619589
так где ты анон?

[mailto:sage] Аноним 23/01/24 Втр 01:43:59 #349 №623142

ВОССТАНОВИМ СПРАВЕДЛИВОСТЬ ЗАНЕСЁМ СТАЛИНА ОБРАТНО В МАВЗОЛЕЙ ! Абдуль.mp4.mp4

Аноним 23/01/24 Втр 07:43:59 #350 №623351

vento.mp4

due mani.mp4

gattino.mp4

Аноним 23/01/24 Втр 14:40:51 #351 №623660

Ебёна мать, я всего лишь хочу озвучить свой сценарий в Арме 3, а тут какую-то документацию курить надо, куда меня занесло...

Аноним 23/01/24 Втр 15:36:22 #352 №623733

дымбыр-дамбыр.webm

кувака.webm

Лади Светӥ - Пуны.webm

kizeń piziemie.webm

Какой нейронкой можно одним кликом перевести это to text?

Аноним 23/01/24 Втр 15:59:55 #353 №623758 DELETED

>>623733
sd автоматик

Аноним 23/01/24 Втр 17:57:55 #354 №623918

Подскажите нейросеть которая меняет язык говорящего на другой

Аноним 23/01/24 Втр 18:43:37 #355 №623969

>>623918
в евент лабс все

Аноним 23/01/24 Втр 20:31:25 #356 №624148 DELETED

>>623918
sd автоматик

Аноним 23/01/24 Втр 20:34:30 #357 №624152

>>623918
Из локальных rvc в шапке глянь.

Аноним 25/01/24 Чтв 02:53:28 #358 №625276

Анон, сейчас есть что то близкое к качеству Eleven Labs в плане TTS? На инглише.

Аноним 25/01/24 Чтв 14:53:16 #359 №625545

>>622448
Бамп

Аноним 25/01/24 Чтв 16:41:18 #360 №625737

20240207-1010-13.0838756.mp4

vc.mp4

Подписка на elevenlabs заканчивается через 4 дня. Анон можешь реквестировать что-либо

Аноним 25/01/24 Чтв 22:46:13 #361 №626337

Есть какая-нибудь нейронка, чтобы по одному клику бесплатно без реги можно было:
- "дорисовать" всратый/жатый некачественный монозвук с кассеты до вылизанного студийного стерео?
- отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
консольно-пердольное с кучей команд тоже норм

Аноним 25/01/24 Чтв 22:47:38 #362 №626344

goodbye.webm

trial.webm

>>625737
Ну вот это на немецкий например)0

Аноним 25/01/24 Чтв 22:52:13 #363 №626350

biorobot.webm

Или это.
небось слишком тянуче и оруче, ничего не распарсит

Аноним 25/01/24 Чтв 22:53:45 #364 №626356

assquadron.webm

ex.webm

Тоже на немецкий порофлить.

Аноним 25/01/24 Чтв 22:57:06 #365 №626358

recognize.webm

Всё, хватит.
ещё кто-то на итальянский просил что угодно, тоже можно всё это прогнать

Аноним 26/01/24 Птн 08:27:36 #366 №626716

gericht.webm

Ладно, сам одну запилил. Ну вот так звучит блатняк на немецком, кек.

Аноним 26/01/24 Птн 11:06:45 #367 №626821

Поможет ли мне AI спик фром май харт без акцента? Я видел демку, где чучмекам заменяют их голоса на синтезированные, но мне надо, чтобы голос оставался мой. Не в реальном времени.

Аноним 26/01/24 Птн 11:35:37 #368 №626835

>>626356
эскадрон уже на все языки перевели мне кажется, смотри по тредам

Аноним 26/01/24 Птн 18:14:37 #369 №627218

А никто не пробовал еще https://github.com/myshell-ai/OpenVoice/ ?

Аноним 28/01/24 Вск 01:12:12 #370 №628793

neuro.webm

>>622595
О, и сразу в виде сабов может распаршенный текст оформить. А вот что получается, если языка нет даже в этой широчайшей базе и выбираешь хоть как-то похожий...

Аноним 28/01/24 Вск 17:07:50 #371 №629291

Какая нейронка нужна чтобы извлечь японскую речь а потом преобразовать ее в русскую? Чтобы перс говорил голосом как на японском но русскими словами.

Аноним 28/01/24 Вск 20:12:07 #372 №629512

>>629291
Локалок под такое не завезли. Можешь через elevenlabs или heygen сделать. Везде лимиты на бесплатных тарифах.

https://elevenlabs.io/dubbing
https://labs.heygen.com/video-translate

Аноним 29/01/24 Пнд 09:11:08 #373 №630013

изображение.png

>>622595

Аноним 29/01/24 Пнд 16:25:34 #374 №630274

>>626337
Нет

Аноним 29/01/24 Пнд 17:32:37 #375 №630343

>>626337
> - отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
Здесь глянь:
https://2ch-ai.gitgud.site/wiki/speech/#разделение-вокала-и-инстументалки

Работает хорошо только на композициях с малым числом инструментов.

Аноним 30/01/24 Втр 14:13:52 #376 №631010

>>552016 (OP)
Как сделать чтобы голос ебаным противным металлом не отдавал? От чего это вообще зависит? От качества песни? Да вроде нихуя я попробовал кавернуть несколько идеальных песен без посторонних шумов(чистил их через UVR звучали идеально в итоге) и с ровным голосом всё равно этой хуйнёй в некоторых моментах отдавало. От используемой модели голоса? Вот тут хуй знает, но идеальных мне не попадалось хотя я использовал не то что бы мало. При этом на ютубе смотрю видосики с каверами ну там прям небо и земля, есть такие где даже очень сложные песни сетки поют сука с идеальной интонацией без скрежетящего говна. Может я что-то не так делаю? Каверю вроде по гайду через RVC.

Аноним 30/01/24 Втр 15:46:30 #377 №631104

>>631010
Зависит от исходника вокальной дорожки, модели RVC и последующего мастеринга и сведения.

Аноним 30/01/24 Втр 16:41:46 #378 №631166

>>631104
Мне кажется ни от чего не зависит, это баг самой RVC, оно совершенно случайно может начать запинаться, жужжать просто потому что и хуй че сделаешь. Хотя наверное можно нарезать и по отдельности рендерить и возможно конкретные участки получится исправить, но такое себе, хуйня короче это ваше rvc

Аноним 30/01/24 Втр 19:18:44 #379 №631352

>>631166
Проблема RVC в том, что она заточена под нищекарты и процессоры, по идее там нужно вручную играться с параметрами x_pad, x_query, x_center, x_max в файле config.py для достижения наилучших результатов (если у тебя видеокарта с объёмом VRAM больше, чем 6гб).
Плюс для каждого конкретного случая нужно выбирать модель инференса: pm — днище, harvest — вроде как хорошо работает в низкочастотном диапазоне, crepe — хорошо работает с длинными звуками, rmvpe — даёт широкий вокальный диапазон, хорошо передает интонации, но на длинных звуках моут быть артефакты.
Я обычно прогоняю через 3 модели и потом в аудишне склеиваю лучшие куски как мне надо. Ну и мастеринг, реверб, студио дилей, RX 10. Ручной ебли много, да.
Уже полгода обещают пиздатую-распиздатую RVCv3, но воз пока на месте.

Аноним 30/01/24 Втр 20:54:16 #380 №631501

>>631352
>тебя видеокарта с объёмом VRAM больше, чем 6гб)
у меня 2 гб, но она из озу отжирает и вроде норм, но чем больше отжирает, тем больше артефактов, странно. вот еще, чем мне не нравится rvc, так это тем, что настроек минимум, документации тоже, никто особо не понимает, как она работает, что конкретно писать в эти x_... итд

Аноним 02/02/24 Птн 05:18:43 #381 №633550

Почему буквально все нейронки, которые связаны со звуком - протухшее говно мамонта? Постоянно натыкаюсь на то, что все репозитории заброшены уже лет по пять-семь, а авторы пропали без вести. Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.

Аноним 02/02/24 Птн 08:57:42 #382 №633583

>>633550
Сделай нормально сам.

Аноним 02/02/24 Птн 13:12:34 #383 №633704

>>633550
>Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
ну во-первых для винды уже все готово, а для линукса есть conda, не так уж и сложно подобрать версии, я же смог как-то, причем там только один пакет выебистый, насколько я помню

алсо вот, но никто не заценил
>>627218

Аноним 02/02/24 Птн 16:49:44 #384 №633828

K4vDU3i7ajk.jpg

Ну вот, маленько попердел вчера и запилил три Генкиных ковра на аукцыон и один на Леонтьева. Душевно. Ссаными тряпками не кидайтесь, няши.

https://youtu.be/wWISPDmGWic
https://youtu.be/rWM5op1tA1w

Его манера под довольно раслабленный вокал аукцыона не прямо чтоб очень подходит, зато всякие завывания и рррыки прямо заебись, даже специально из живого исполнения вырезал и конвертил.
На очереди одна подходящая данному персонажу шуточная песня Владимира Семёныча, но там нужно сводить уже наконверченый вокал, где хорошие акценты и интонации, с нормальным гитарным фоном из другой записи, то есть хз когда будет.

Аноним 02/02/24 Птн 19:56:43 #385 №633930

>>633583
Если б я мог нормально сделать - готовое не искал бы.
>>633704
>ну во-первых для винды уже все готово
Ага, конечно.
>но никто не заценил
Они пишут, что нет поддержки ничего, кроме линукса. Даже если заработает, то непонятно как и надолго ли.

Накатил в одно окружение xtts, whisper и рвц. Видеокарту видит только xtts. Переустановил торч с кудой. Рвц заметил видеокарту, xtts всё ещё норм. Виспер такой - какая видеокарта? Нет нихуя. При том что rvc полудохлый, xtts умирающий, в виспер вроде как живой и должен поддерживаться. Ебётся в одно ядро, спасибо, что даже так быстро работает.

Аноним 02/02/24 Птн 20:26:58 #386 №633942

>>633930
>Ага, конечно.
что ага, качаешь архив, распаковываешь и запускаешь файлик из папки, все работает, все окружение с нужными пакетами уже там, не выёбывайся. даже на дохлом амуде обожекакойпиздец работает. про видеопамять и шаманство с параметрами писали выше

btw когда я сервак арендовывал, проблем не было ни с 2080, ни с 4090, ни с теслой, хотя может потому что они все один и тот же драйвер кушают. там единственная ебля была в том, как pytorch с cuda накатить, но это один раз сделал и забыл

Аноним 02/02/24 Птн 21:58:19 #387 №633980

>>633942
>и запускаешь файлик из папки
Хуй знает, у меня даже рекваирментс не все поставились автоматом. Да и пути к окружению нужно исправлять. Пока оно там переустанавливалось три раза, уже скачал другой софт и сделал, что хотел, по-другому. Вроде, запускается рвц без ошибок, но использовать пока так и не использовал.

Транскрибировал виспером тысячу+ файлов, текст, озвученный профессиональным актёром на студии, без фонового шума и помех, частота 22050. Идеальные условия, по сути. Отслушал пока сотню, ошибки в 45, причём если на файл две-три ошибки, это всё ещё считается за одного. Нет, это не смолл модель. Что смешно, есть ошибки в одинаковых фразах, но виспер ошибается в разных местах.
Ещё закинул аудио после пары фильтров, небольшой реверб и понижение тона. Где-то вдвое хуже результат, посмотрел десяток файлов, в четырёх даже язык неправильно опознал, без ошибок два. Что будет с фоновыми шумами, страшно представить.

Аноним 03/02/24 Суб 09:28:57 #388 №634162

yeahteensotests.mp4

ЕСЛИ У ТЕБЯ ЕСТЬ ТРУДНОСТИ, ТО У ТЕБЯ ЕСТЬ ЦЕЛЬ

Аноним 03/02/24 Суб 11:59:08 #389 №634227

carapusici.webm

Хм, а если разделить трек на вокал и музыку в вавках, засунуть вокал в ылэвынлабс, потом отремастерить и заново смиксовать с минусом? Ну какчество явно получше получается.

Аноним 03/02/24 Суб 14:20:23 #390 №634284

>>634227
>засунуть вокал в ылэвынлабс
Охуеть от количества символов, которые он там у себя насчитал

Аноним 04/02/24 Вск 03:57:52 #391 №634831

GPU.png

Хули с голосовыми нейронками такая боль дырка задница? С картинками проблем нет, с текстом проблем нет. Голос? Пизда. Запустил тренировку coqui-ai/TTS, сожрало всю vram, потом сожрало всю ram, карту ебёт на полшишечки, зато ебёт процессор. Серет ворнингами "депрекейтед" в консоль, что уже вот-вот и эти функции работать перестанут. Ну, думаю, мне-то что, сейчас один раз натренирую, а потом в рот оно ебись. В итоге один хуй отвалилось с ошибкой доступа к файлу.
>PermissionError: [WinError 32] Процесс не может получить доступ к файлу
Походу, у них какой-то долбоёб писал код, из одного потока логи создал, из другого пытается в них писать. В ишьюз нашёл, официальный ответ - мы не поддерживаем шиндовс. Типа в юникс-системах можно открывать один файл из разных потоков и всё будет хорошо.
Повезло, что из конфигов можно поставить один поток для работы, но, учитывая что оно не может работать только на GPU, тренировка будет супермедленная.

Что ещё не превратилось в окаменевшее говно мамонта и быстро делает text to speech? Пока что из всего, что тыкал, реально работает только силеро, но там нельзя добавить свои голоса или как-то это настроить. Кроме питча, лол.

Аноним 04/02/24 Вск 23:10:02 #392 №635357

Beidoutannersong1.mp4

Первая годная генерация которая у меня вышла, все остальные песни с артефактами и скрежетом. Как вы вытаскиваете из песни вокал так, чтобы нейронка могла его нормально озвучить?

Аноним 04/02/24 Вск 23:24:56 #393 №635369

>>635357
> вытаскиваете из песни вокал
Нашёл такую хуиту: https://vocalremover.org/

Аноним 05/02/24 Пнд 09:38:47 #394 №635582

>>635369
двачую, давно использую, алсо там можно на инструменты разделить, полезно, если ты сам музыку делаешь

из минусов - оно как-то портит бас и в целом эквализацию музыки, поэтому никакой кавер не будет звучать так же хорошо, как и оригинал

Аноним 06/02/24 Втр 06:44:17 #395 №636494

xtts.webm

>>634831
Я так понимаю, тред дальше rvc не ходит? Как вы текст в речь-то переводите?
Посмотрел в собаке силеро, у них такотрон и хайфайган, но реализация - моё почтение. Надеюсь, у них код автоматически генерируется, иначе это клиника. Зато понятно, почему на видимокарточке медленнее, везде хардкод cpu.
XTTS на "добавленных" моделях работает из-под палки, всё время норовит отрыгнуть, а родная 1.8гб, если тренировать - сразу улетает за 5 гигов. Работает это всё, очевидно, медленно. И хуёво.

Аноним 07/02/24 Срд 03:39:20 #396 №637261

3275937791796006698.mp4

>>552016 (OP)
Нужен мой голос. Есть решения RVC для Win 7?
Или платно но не дорого

Аноним 07/02/24 Срд 12:40:52 #397 №637376

>>637261
>Нужен мой голос. Есть решения RVC для Win 7?
а че, из шапки не работает что-ли?

Аноним 07/02/24 Срд 13:11:36 #398 №637389

>>636494

Аноним 07/02/24 Срд 15:23:15 #399 №637438

3247698063871375378.mp4

>>637376
Мне нужно обучить на мой голос
Десктоп Rvc не работает на Виндоус 7. Коллаб зпебывает лимитами Есть альтернативы? Желательно бесплатно

Аноним 07/02/24 Срд 15:56:29 #400 №637458

>>637438
бесплатно можно найти виндовс 11

Аноним 07/02/24 Срд 17:53:52 #401 №637629

2024-02-07 17-46-45.mp4

xxx.png

>>637389
Бля, я рилтайм хотел. Чтобы задержки пониже.
Олсо упёрся в ударения и прочее. Что смешно, в более толстожопых решениях ударений нет. Можно из силеро выдернуть, но, опять же, учитывая что это питон, задача та ещё.

Аноним 07/02/24 Срд 19:23:08 #402 №637687

>>637629
скинь ттску эту и как запускать

Аноним 07/02/24 Срд 19:23:29 #403 №637688

>>637687
я про видос

Аноним 07/02/24 Срд 19:33:36 #404 №637697

>>637687
https://docs.coqui.ai/en/latest/inference.html
Это вот это. Только они почти везде пишут про подключение сторонних штук типа витса, такотрона и т.д. При этом имеют свою gpt2 модель, которая XTTS_v2.0_original_model. Я гоняю файнтюн этой модели, который по каким-то причинам разожрался до пяти гигов с базовых 1.8 гигабайт. В сетке 16 языков, как выпилить все остальные - хуй его знает, при тренировке указывал, чтобы тренировался только русский, ему поебать.

Аноним 07/02/24 Срд 19:41:35 #405 №637707

>>637697
можешь нормально объяснить?

Аноним 07/02/24 Срд 19:41:56 #406 №637709

>>637697
как этим пользоваться

Аноним 07/02/24 Срд 19:51:33 #407 №637719

>>637707
Создаёшь окружение. Если совсем влом ебаться с питоном, то скачивай анаконду. В неё есть гуй, удобно. Создаёшь там новое окружение, environment. Гонять разные сетки в питоне без разных окружений околоневозможно. Потом запускаешь это окружение, там кнопка плей и жми опен терминал.
https://docs.coqui.ai/en/latest/tutorial_for_nervous_beginners.html
Установка описана здесь. По сути, всё что надо сделать - вбить в консоль
>pip install TTS
Это не даст тебе возможности редактировать файлы самой ттски, но оно тебе надо? Если надо, клонируй гит. Там это тоже есть.
Для генерации вот это
https://docs.coqui.ai/en/latest/inference.html
Скроль до Python 🐸TTS API, спизди весь этот код в файл.
speaker_wav="my/cloning/audio.wav"
Нужно отредактировать, это путь к голосу, который ттс будет пытаться имитировать, любой вав 6-10 секунд. Без него нельзя. И запускай файл.

Аноним 07/02/24 Срд 20:14:18 #408 №637740

>>637719
спасибо!

Аноним 07/02/24 Срд 21:08:02 #409 №637788

>>637438
у меня сервер оплачен и простаивает, кидай исходник, могу обучить

Аноним 07/02/24 Срд 22:02:31 #410 №637830

>>637719
>спизди весь этот код в файл.
Спиздил. Куда теперь этот файл сувать и как его через анаконду запускать?

Аноним 07/02/24 Срд 22:17:42 #411 №637843

1.png

>>637830
>Куда теперь этот файл сувать
Так проебом вообще.
В анаконде у тебя будет окружение, которое ты создавал и куда установил TTS. Там жмёшь опен терминал. Потом пиздуешь через cd к файлу, который сохранил.
cd C:/my_folder/
Здесь нужно помнить, что если твой файл не на том же диске, что окружение, то есть не на С, то нужно хуярить
cd /d D:/my_folder/
Потом хуяришь в консоль
python my_file.py
У меня файл называется bark.py и лежит в папке D:/tts, то есть в консоль я хуярю
cd /d D:\TTS
python bark.py

Аноним 07/02/24 Срд 22:26:36 #412 №637849

>>637843
Пон

Аноним 08/02/24 Чтв 10:06:59 #413 №638061

Как формируете датасет при обучении rvc? Обучал на 20 треках, 200 эпох. 3.3 минуты. Качество записи отвратительное. Нужно не для вокала, а для озвучения текста.
На сайтах пишут разные требования:
> For better quality, try to obtain at least 30 minutes of voice.
> Примерная длина всех аудио от 1 до 30 минут, оптимально от 3 до 10 минут (лучший вариант - 5 минут с большим охватом спектра голоса)

Если дообучать на новых данных, то старые можно удалить? Слышал о перетренировке.

Аноним 08/02/24 Чтв 20:09:01 #414 №638359

>>637788
А как я буду пользоваться если надо будет что озвучить, тебя снова просить?

Аноним 10/02/24 Суб 23:09:39 #415 №639743

Хочу натренировать RVC-модель на англоязычном датасете, чтобы потом использовать его на русской говорилке. Ничего, что датасет английский? Нормально получится?

Аноним 11/02/24 Вск 02:10:38 #416 №639842

>>639743
Должно быть ок. Во втором ОП-пике по идее англоязычная модель была для RVC.

Аноним 11/02/24 Вск 09:50:43 #417 №639957

Das Demo.webm

>>634227
>>635369
Попытка перевести так песню целиком.

Аноним 11/02/24 Вск 15:58:03 #418 №640083

video.mp4

sts-test full.mp4

Аноним 11/02/24 Вск 16:01:37 #419 №640089

А я всё никак из 1999 не вылезу.

Аноним 11/02/24 Вск 19:36:04 #420 №640228

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.78 GiB already allocated; 0 bytes free; 2.86 GiB reserved in total by PyTorch)

Чо делать? 1050ti.

Аноним 11/02/24 Вск 20:20:46 #421 №640254

>>640228
если просто - купить видяху поновее

Аноним 11/02/24 Вск 20:31:59 #422 №640260 DELETED

куда в стабле дифьюжен класть видео и куда звук, который хочу наложить? если можно скриншоты.

Аноним 11/02/24 Вск 20:55:11 #423 №640267

>>640254
Вообще больше вариантов нет? Пробовал заменить 10 кусков по 10 минут на 1 длиной в 5 минут, результат тот же.
На колабе RVC можно тренировать?

Аноним 11/02/24 Вск 21:44:34 #424 №640309

>>640228
на 1050 не трень. есть множество способов онлайн тренить
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ новая версия
https://youtu.be/L-emE1pGUOM?feature=shared обучалка

Аноним 12/02/24 Пнд 20:33:41 #425 №640842

>>637719
ну все. переставил систему. через пару дней забабахаю для этого гуй

Аноним 12/02/24 Пнд 21:17:33 #426 №640877

>>640309
Не работает. Заканчивает тренировку на необходимом количестве эпох и пишет:
Файл модели "mi-test" не найден.
При этом пишет, что промежуточные результаты при достижении n-ной эпохи сохранены, но в директории их нет.
Вот кусок кода, ответственный за сохранение:
https://pastebin.com/0K8qFQVG
Видимо баг, не позволяющий создать директорию, потому что в Output нет папки Weights.

Есть ли другие варианты?

Аноним 13/02/24 Втр 03:46:01 #427 №641136

Привет аноны, гость с издача в вашем треде
А вот эти ваши сетки можно как-то использовать для того чтобы аудиокнигу записать?

Аноним 13/02/24 Втр 06:55:01 #428 №641164

>>641136
А мне наоборот - чем быстро преобразовать кучу записей из многомногочасовых файлов в текст? Желательно чтоб работало без инета, идеально распаршивало хоть 20 спикеров на разных языках с качеством "диктофон в туалете" и помечало тайминг.
тупо хочу найти в записях нужные слова, чтобы не перелопачивать всё вручную

Аноним 13/02/24 Втр 07:04:13 #429 №641166

>>640877
хмммм. недавно тренил норм было все

Аноним 13/02/24 Втр 07:05:12 #430 №641167

>>641136
да, можно конечно. Сначала ттс книгу эту в речь преобразовываешь а потом через рвс и все

Аноним 13/02/24 Втр 07:12:45 #431 №641169

>>641164
Whisper

Аноним 13/02/24 Втр 12:39:35 #432 №641297

Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.

Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?

Аноним 13/02/24 Втр 14:53:51 #433 №641412

>>641297
> Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.
Можешь рассказать, в чём его плюсы? Я его пробовал ставить, кроме различий по стилям и возможности выставлять эпохи выше 1к ничего не заметил.

> Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу, есть такая тулза чтобы одним кликом это делать - https://github.com/daswer123/silero-rvc-tts-ru-gui Я не видел проектов TTS, где были бы готовые скрипты для тренировки своих голосов. Может кто-нибудь другой знает.

Аноним 13/02/24 Втр 15:09:35 #434 №641422

>>641167
А есть клиенты для этого типо webui?

Аноним 14/02/24 Срд 07:15:52 #435 №642000

>>641422
для ттс? Полно.
https://github.com/hinaichigo-fox/rus-edge-tts-webui
https://github.com/hinaichigo-fox/rus-silero-webui
вот например

Аноним 14/02/24 Срд 13:03:00 #436 №642131

ugly.webm

2000.webm

Аутизм с песнями задом наперёд можно поднять на новый уровень.

Аноним 16/02/24 Птн 07:47:55 #437 №643216

Der Tick.webm

>>639957
Вторая попытка.

Аноним 16/02/24 Птн 13:24:09 #438 №643339

>>641412
Да это тоже самое просто там есть экстрактор mangio crepe

Если датасет качественный то он дает результаты намного намного лучше rmvpe. Ну а если неочень датасет то впе лучшее решение.

Ну и просто коллаб прописан намного лучше. Он на английском и очень удобный. Я видел колаб RVC он был на кеитайском и я в ужасе закрыл.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Аааааа теперь я понял.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Слушай а в TTS же задача намого шире чем RVC. А какого рода тренировках значит идет речь? Файн тюнинг под другой язык?

Я ктому что явно у TTS моделей ограниченное количество токенов в понимании. Значит он можно воспринимать текста только с натреннированных языков?

Аноним 17/02/24 Суб 18:27:00 #439 №644267

>>552016 (OP)
Сап аноны
А есть че для STT что может в потоковом режиме голос с микро в текст преобразовывать?

Аноним 17/02/24 Суб 18:27:49 #440 №644269

>>644267
Бля, забыл добавить, имеется ввиду локально, у себя на компе

Аноним 18/02/24 Вск 04:19:02 #441 №644764

А что если распарсить идиш как немецкий...

Аноним 18/02/24 Вск 21:39:18 #442 №645662

Кто-нибудь делал успешно клон своего голоса для генерации озвучки английского текста в ElevenLabs? Может есть какие-то неочевидные моменты или годные советы?

Аноним 19/02/24 Пнд 14:07:52 #443 №646222

>>645662
Делал для озвучки на русском, но не своего голоса.
Единственный совет качество источников голоса важнее их количества.
Речь свою наверное лучше записывать естественную, как если бы ты с кем-то говорил, а не монотонное чтение чего-либо, так как Елевенлабс копирует и манеру речи.

Аноним 21/02/24 Срд 17:55:15 #444 №647952

Есть тут кто-нибудь кто tts на русском языке тренил?

Аноним 21/02/24 Срд 20:30:50 #445 №648084

>>645662
Натрень tacotron модельку просто

Аноним 22/02/24 Чтв 22:40:15 #446 №649268

> https://github.com/Purfview/whisper-standalone-win

Быстрый скомпилированный для винды whisper, добавьте в шапку.

Аноним 22/02/24 Чтв 23:04:33 #447 №649288

Уважаемые, с weights.gg голоса скачать можно?

Аноним 23/02/24 Птн 07:56:02 #448 №649457

>>649288
конечно

Аноним 23/02/24 Птн 10:23:02 #449 №649496

11wtf.png

Всё, пиздарики, плоти регься подписька? Сколько раз ни пробовал, через что только ни стучался, даже тор - резко раз и ни в какую. В обед вчера обработало последний файл и теперь постоянно вот это говно вылазит, хоть какой файл подсунь, даже самый мелкий.

Аноним 23/02/24 Птн 13:44:32 #450 №649612

>>649457
А как? Мне предлагает только через сайт с голосом работать, а скачать не предлагает.

Аноним 23/02/24 Птн 14:16:44 #451 №649631

>>649612

Аноним 23/02/24 Птн 15:00:09 #452 №649674

>>649268
https://github.com/SYSTRAN/faster-whisper
Они выходит вот это в exe упаковали? Смущает, что у проекта из твоего поста никаких сорцов нет. Или не там смотрю?

Хотя автор проекта faster-whisper в своём readme его упоминает как "Standalone CLI executables of faster-whisper for Windows, Linux & macOS".

Аноним 23/02/24 Птн 15:34:42 #453 №649695

>>649268
https://github.com/ggerganov/whisper.cpp
От жоры кстати не имеет смысл упомянуть версию? Или оригинальное решение от OpenAI + https://github.com/Purfview/whisper-standalone-win будет достаточно?

Добавил инфу об этом варианте whisper'а в шаблон и в вики:
https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
https://2ch-ai.gitgud.site/wiki/speech/#распознавание-речи-stt

Аноним 23/02/24 Птн 18:28:27 #454 №649841

>>552016 (OP)
>надо было ставить линукс
А есть ли ещё какая-то версия этой песни с ИИ голосом Линуса? Мне кажется я раньше слышал другую версию где-то.

Аноним 23/02/24 Птн 20:11:47 #455 №649924

Анон, просвети ньюфага. Вот если у меня есть только пожелания для песни (например, романтичная песня про линукс) - это в Suno Chirp. Если у меня есть только текст песни, то это туда же - мотив и музыку оно само подберëт.

А теперь задача посложнее. У меня есть минусовка (допустим, "Светит незнакомая звезда") и переделанный текст-пародия ("Глючит незнакомая винда"). Какая нейронка может мне его спеть на заданную музыку? Suno Chirp не может...

Аноним 24/02/24 Суб 15:51:37 #456 №650580

>>413975
Нету там нихуя. Бля, лень самому генерить, да и мощностей нету, есть у кого Денис Беспалый RVC?

Аноним 24/02/24 Суб 15:52:44 #457 №650581

>>650580
https://2ch.life/ai/arch/2024-01-02/res/314948.html
от данного треда если что

Аноним 24/02/24 Суб 16:05:26 #458 №650599

>>650580
Блять https://t.me/AINetSD_bot, ладно.

Аноним 24/02/24 Суб 16:29:02 #459 №650629

Что скажите по поводу использовал TTS для ютуб канала? Говно или уже норм?
И что лучше использовать? ElevenLabs?

Аноним 24/02/24 Суб 16:37:37 #460 №650648

>>650629
Я лично юзаю свой голос и через нейронку его обрабатываю, в итоге результат вроде и ты говорил, но понять что это был ты только через манеру речи, а так слышится норм.

Аноним 24/02/24 Суб 22:35:18 #461 №650964

>>650648
А через какую нейронку ты обрабатываешь голос?

Аноним 24/02/24 Суб 22:51:00 #462 №650979

Проплатить elevenlabs можно только через всякие платисру с большой наценкой?

Аноним 25/02/24 Вск 02:14:24 #463 №651151

есть гайд по обработке голоса перед кавером?
если в песне источнике голос с эхом или ревёрбом, то RVC делает звук говна. нужен именно гайд как в аудишне сделать голос "плоским" что ли, не знаю как правильно по терминологии, чтобы не было эхо, шумов на занем фоне. пробовал разные аи энхансеры, чуть лучше но всё равно говно выходит.

Аноним 25/02/24 Вск 03:16:08 #464 №651177

>>651151
Универсального метода нет, всё зависит от того как был сведён исходник. В некоторых случаях хорошо работает Center Channel Extractor (тоже самое, что vocal remover, только наоборот)

Аноним 25/02/24 Вск 12:04:22 #465 №651361

>>651177
>Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
не наоборот, это работает только если инструменты сильно разведены по панораме, что делается далеко не всегда, ну и как можно догадаться, метод весьма примитивный и звучит как говно.

vocalremover org работает лучше, но жопит нч и вч, так что тут только идти на компромиссы остается

Аноним 25/02/24 Вск 22:27:59 #466 №651851

>>650648
>юзаю свой голос и через нейронку его обрабатываю
Английский/русский?

Аноним 26/02/24 Пнд 12:38:30 #467 №652171

>>652465
https://github.com/snakers4/silero-models/wiki/SSML

>>650964
на фотке скинул
>>651851
Что английский, что русский, причем модели спокойно что тот, что этот язык обрабатывают (в большинстве случаев)

Аноним 26/02/24 Пнд 17:27:35 #468 №652413

Какие есть на данный момент лучшие варианты для TTS и STS, для БЫСТРОЙ генерации? Важно именно время генерации

Аноним 26/02/24 Пнд 17:28:10 #469 №652414

>>652413
Для англюсика, кстати, но не помешает и если будет русский

Аноним 26/02/24 Пнд 17:29:35 #470 №652415

>>649631
Точно, спасибо.

Аноним 26/02/24 Пнд 18:10:34 #471 №652465

Есть ли TTS с возможностью манипулировать эмоциональным тоном в разных частях текста?

Аноним 26/02/24 Пнд 19:01:32 #472 №652519

Аноним 26/02/24 Пнд 20:19:04 #473 №652581

>>555243
Так, падажи. А подскажи вот что. У меня есть 30 минут голоса. Я хочу натренировать модель и потом писать текст и чтобы он озвучивался натренированым голосом. Я так понимаю что это не про RVC ?

Глобально задача такая - хотелось бы (не знаю есть такое или нет) качнуть локально голосовую нейронку, типа как качаешь локально SD или Foooocus, тренируешь модель и потом пишешь текст и оно локально тебе генерит голос. Не хотелось бы все это в облаках делать. Вижу что есть какая-то ебала с тем, что одна сетка только голос меняет, другая еще что-то, третью надо в облаке хуярить и т.д. Может в курсе?

Аноним 27/02/24 Втр 14:42:12 #474 №653260

>>652581
Есть XTTS, который по небольшой записи может делать синтез по тексту напрямую нужным тебе голосом. Я его мало тестил, мне не особо зашло, хотя многие нахваливают.
Спейс на хаггине: https://huggingface.co/spaces/coqui/xtts

В случае с RVC тебе действительно придётся использовать две разных сетки, так как RVC может преобразовывать голос только в уже существующей записи. Из-за этого сперва надо сгенерировать запись по тексту на любом голосе. Из локальных сеток для такой задачи мне больше всего зашла SileroTTS, из халявных облачных EdgeTTS (Edge явно лучше Silero работает). У Silero ещё проблема в том, что на русскоязычных голосах он не может англоязычный текст озвучивать.

Потестить их в онлайне можно здесь:
https://huggingface.co/spaces/NeuroSenko/tts-silero
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

> пишешь текст и оно локально тебе генерит голос
Есть несколько проектов, которые реализуют конвеер с синтезом по тексту на одной нейронке, и потом приводят их к нужному голосу через RVC. То есть под капотом используются две разных нейронки, но тебе не нужно между ними вручную переключаться. В этом треде такую тулзу кто-то использовал:
https://github.com/daswer123/silero-rvc-tts-ru-gui

Аноним 27/02/24 Втр 14:46:15 #475 №653266

>>653260
Большое спасибо. Странно что с голосовыми такая ебала, но думаю и до них дойдет прогресс

Аноним 27/02/24 Втр 18:25:19 #476 №653437

>>552016 (OP)
>Как обучить свою RVC-модель?

Сделал все по инструкции, но вот что интересно, оно пишет, например :
Train Epoch: 33 [58%]

А почему не 100%? Или так и должно быть? Каждая эпоха должна быть соточка или у них там свой мир и свои цифры?

Попробовал промежуточную модель (после примерно 20 или 25 эпох) работает более менее исправно. Голос в RVC меняет, но отдает роботическим пердежом. Попробую пройти все 200 эпох, может будет лучше.

Аноним 27/02/24 Втр 18:40:26 #477 №653459

>>653437
так это от общего процента так то. 58% от всех эпох. короче забей. это норма

Аноним 27/02/24 Втр 22:30:29 #478 №653702

>>553729
Все роботы.

Аноним 27/02/24 Втр 22:52:35 #479 №653730

>>552016 (OP)
Натренил модель в RVC. Если просто чисто один голос и никаких шумов, вздохов и прочей хуеты, RVC все хорошо меняет. Но если есть что-то посторонее, то просто распидорашивает все, оно прямо все звуки пытается заменить что ли голосом? То есть если мне надо заменить голос, то его придется чистить от всего?

Аноним 27/02/24 Втр 23:22:44 #480 №653778

>>566224
Так ты сам написал
> speech to speech пока только на английском.

Аноним 27/02/24 Втр 23:40:58 #481 №653799

>>583662
Название этой чудо нейронки в студию, пожалуйста!

Аноним 27/02/24 Втр 23:42:56 #482 №653802 DELETED

>>588634
>диктора из 90х

Аноним 27/02/24 Втр 23:48:28 #483 №653807 DELETED

>>653802

Аноним 28/02/24 Срд 06:52:22 #484 №653985

>>653730
Да, всё верно. Для разделения трека на голос/остальное есть такие решения:
Онлайн: https://vocalremover.org
Оффлайн-UI с поддержкой кучи нейронок для данной задачи: https://github.com/Anjok07/ultimatevocalremovergui

https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
Для последнего в секции релиза можно качнуть сразу архив со всеми зависимостями, чтобы не надо было вручную питон и прочее настраивать.

Аноним 28/02/24 Срд 16:59:17 #485 №654265

>>649496
Бамп. Пробовал на другом железе, подождать день, два, три - бесполезно, сразу после попытки загрузки webm - тот же самый Workspace None not found. Не гуглится по этому вообще ничего, в новостях про elevenlabs тоже молчок. Это что, шедоубан какой-то?

Аноним 29/02/24 Чтв 14:13:16 #486 №654878

>>657513
https://t.me/modelkigolosov/485

Сап, нейрач.
Нужно менять голос в реалтайме.

Парни, где найти обстоятельный гайд по Voice Changer'у или RVC с данной задачей, чтоб прям было написано куда жать и что делать?
В шапке никакого гайда нет (пикрил)
В нейронках полный нубас, ничего не запускал ни разу.

Аноним 29/02/24 Чтв 23:31:12 #487 №655272

Есть ттс куда можно добавить словарь, что бы ттс нормально зачитала? Хочу себе аудиокнигу сделать

Аноним 01/03/24 Птн 00:55:57 #488 №655376

>>552016 (OP)
нужен гайд или нейронка чтобы можно было легчайшим способом сделать простую модель двух голосов и чтобы эта нейронка распознавала текст в сэмпле
мне надо видос сделать с текст ту спичем но чтобы основная часть была из оригинала наверн ну или максимально приближенная к оригиналу
самый быстрый варик это елевен лабс но там надо шекели платить каким то хуесосам а я не хочу у меня нет денег я нищий уебан
знаю что я быдло но тяга к творению у меня с рождения извините элитарии потерпите

Аноним 01/03/24 Птн 11:28:30 #489 №655545

Сап двач!
Хотел сделать аи кавер где персонаж из сериала поёт под один трек, прогонял акапеллу несколько раз через rvc с разными зипками этого персонажа но всегда получалось кринжовое говно с артефактами...
Трабл в том что сама капа из трека всратоватая по качеству и походу из за этого нихуя не выходит годно сделать.
Можно как-то отдельно записать как персонаж зачитывает текст и потом протюнить это всё под тон трека?

Аноним 03/03/24 Вск 01:00:48 #490 №657014

>>642000
а как туда поставить другой голос/найти другие голоса?

Аноним 03/03/24 Вск 07:47:20 #491 №657116

>>657014
я поставил все русские. другие голоса только пиндосские. создать низя такие вот ттс(

Аноним 03/03/24 Вск 20:05:48 #492 №657513

>>657116
А этот голос никак к ней нельзя присобачить?
(Но в целом спасибо тебе человек за сделанную тобой работу, очень благодарен) Просто, быстро, понятно и без ебли)

Аноним 03/03/24 Вск 20:06:18 #493 №657515

Аноним 03/03/24 Вск 20:30:26 #494 №657537

>>657513
пиндосские?

Аноним 03/03/24 Вск 22:57:57 #495 №657699

>>657537
Брежнева

Аноним 04/03/24 Пнд 01:01:58 #496 №657775

>>654878
БАМП РЕКВЕСТУ, чуханы.

Аноним 04/03/24 Пнд 07:08:52 #497 №657871

>>657699
то голоса рвсшные а тут ттс. конечно же ты можешь делать как я . озвучивать в ттс текста а потом прогонять через рвс с нужным голосом

Аноним 04/03/24 Пнд 18:19:18 #498 №658218

В краю древних предков я рос чужаком.mp4

Вот скажите, это разве Clear and high voice (написано в промте)? гавно какое то

Аноним 04/03/24 Пнд 20:02:21 #499 №658368

xttsv2-banana-finetune-webm.webm

Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.

- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.

Веса: https://huggingface.co/Ftfyhh/xttsv2_banana

Аноним 04/03/24 Пнд 20:08:32 #500 №658380