24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

Голосовых нейронок тред (TTS, STS, STT) #5 /speech/

 Аноним 23/11/23 Чтв 01:31:54 #1 №552016 
.mp4
.mp4
.mp4
.mp4
.mp4
.mp4
.mp4
.mp4
Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Прошлый тред: >>511205 (OP)

Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.

Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?

Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc

Q: Надо распознать текст с аудио/видео файла

Используй Whisper от OpenAI: https://github.com/openai/whisper
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Шаблон для переката: https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
Аноним 23/11/23 Чтв 09:54:20 #2 №552199 
styletts2 годная тема
https://github.com/yl4579/StyleTTS2
https://huggingface.co/spaces/styletts2/styletts2
Аноним 23/11/23 Чтв 10:31:06 #3 №552221 
DockerDesktopfFL52l53HJ.png
>>552199
локально эта хрень не хочет работать, ждём нормальный web ui
Аноним 23/11/23 Чтв 14:33:03 #4 №552356 
>>552016 (OP)
Нифига себе. Мой видос первый
Аноним 23/11/23 Чтв 15:57:20 #5 №552409 
Треним в каггле. Там все можно фоном. https://www.kaggle.com/varaslaw/rvc-tg-aisingers-by-rus-no-gradio тут делать
https://youtu.be/uA92FDw_Xfw[РАСКРЫТЬ] тут обучалка
Аноним 23/11/23 Чтв 16:35:37 #6 №552461 
>>552409
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ новая версия
https://youtu.be/L-emE1pGUOM?feature=shared обучалка
Аноним 24/11/23 Птн 01:12:17 #7 №552992 
>>552016 (OP)
Репост из предыдущего треда по причине 0 ответов:
rvc (релиз из шапки прям) не хочет хавать мп3 56кбпс длиною в 49 минут, как фиксить
Аноним 24/11/23 Птн 02:51:51 #8 №553028 
.png
>>552992
Это для обучения или преобразования? Если для преобразования - попробуй просто файл нарезать. А чтобы вручную их по отдельности потом не отправлять на конвертацию, в RVC можно батчами файлы обрабатывать, в нижней части интерфейса. Я сам ничего длиннее 10 минут не пробовал скармливать, может оно неоптимизированно просто для таких длинных файлов.
Аноним 24/11/23 Птн 10:34:26 #9 №553144 
170081108345491322.mp4
Аноним 24/11/23 Птн 11:19:57 #10 №553170 
>>552461
Ебать, спасибо анон, это по царски мне все сделало. Со старой ебался месяц хуйня получалось. Каеф.
Аноним 24/11/23 Птн 12:35:48 #11 №553224 
>>552992
Ты же обучаешь? можно через какой нибудь адобе аудишн удалить тишину. У меня с 1 часа записи голоса на стриме после удаления тишины стало 25 минут чистого голоса.
А вообще советую юзать обучалку в облаке >>552409 . Тольго чтобы там можно было ГПУ подрубить - надо акк по телефону подтвердить. В РФ не работает, поэтому через какой-нибудь онлайн-сим сервис регни на другой регион. Цена 3-5 рублей.
Аноним 24/11/23 Птн 12:48:10 #12 №553233 
>>553224
че за бред что в рф не работает? Нормально активировал.
Мимоднровец
Аноним 24/11/23 Птн 13:17:02 #13 №553267 
>>553233
От оператора завист. Мой мегафон не пропустил. И где-то в гайде на ютубе видел, что там так же из РФ регали на тайланд.
Аноним 24/11/23 Птн 15:00:12 #14 №553360 
170082687207822660.mp4
17008268568421814.mp4
Аноним 24/11/23 Птн 17:09:15 #15 №553462 
DockerDesktopkOpu9tElfh.png
DockerDesktopfViOTG1j88.png
firefoxwnuv2eXkSx.png
DockerDesktopbLu4X06Dbl.png
>>552199
>>552221
короче поебавшись с docker и линуксоидным WSL 2 я заставил это работать.
Обязательные условия, если юзаете шиндовс 10 :
1. Установка ubuntu и его включение (см. пик 1) в уже установленном docker (это в моём случае, отличном от того что в видеоролике) https://www.youtube.com/watch?v=PB7zM3JrgkI
2. обязательная установка python 3.7, с 3.11 вообще не хочет работать
3. включение экспериментальной функции "containerd" в docker (см. ласт пик)
когда всё поставили - просто введите вот это в powershell с запуском от админа :
docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all registry.hf.space/styletts2-styletts2:latest python app.py
потом в docker кликаете по ссылке и всё (см. пик 2), должно открыть gradio вебуй в браузере.
Не знаю как другим, но этот tts движок пока что ебёт все остальные как нехер делать, меньше одной секунды на генерацию семлпа используя ноутбучную rtx 3070 / 8gb vram. https://voca.ro/1jB9XdkllnRi когда другие tts всё ещё будут долбить гпу в сотку.
Аноним 24/11/23 Птн 20:58:27 #16 №553729 
едж ттс светлана нейрал питч 0.mp4
едж ттс светлана нейрал питч 5.mp4
силеро ттс бая питч 0.mp4
силеро ттс бая питч -5.mp4
силеро ттс ксения питч 0.mp4
силеро ттс ксения питч -5.mp4
силеро ттс хения питч 0.mp4
силеро ттс хения питч -5.mp4
Какой голос звучит человечнее?
Аноним 24/11/23 Птн 22:05:48 #17 №553815 
>>553729
Света питч 5. К силеро надо крутить библиотеки омонимов, перевода цифр в буквы, ударений и прочего.
Аноним 24/11/23 Птн 22:12:28 #18 №553832 
>>553729
чето кряхтит пердит во всех версиях
Аноним 24/11/23 Птн 22:17:25 #19 №553844 
>>553462
туда можно вкорячить свои модели, натрененые в RVC?
если нет, то где можно текс в аудио?
Аноним 24/11/23 Птн 23:10:51 #20 №553931 
.png
>>553462
Угараешь, штоле? Всё там прекрасно работает без WSL и докеров
1. git clone https://huggingface.co/spaces/styletts2/styletts2
2. pip install -r requirements.txt
3. pip install cached_path phonemizer
4. Устанавливаешь espeak-ng https://github.com/espeak-ng/espeak-ng/releases
5. Прописываешь в PATH :
PHONEMIZER_ESPEAK_LIBRARY="C:\Program Files\eSpeak NG\libespeak-ng.dll"
PHONEMIZER_ESPEAK_PATH=“C:\Program Files\eSpeak NG”
6. Запускаешь python ./app.py
7. ?????
8. PROFIT!
Аноним 24/11/23 Птн 23:13:47 #21 №553935 
>>553931
Да, ещё torch и torchaudio нужно поставить с поддержкой CUDA, чтобы инференс работал на GPU. У меня уже стояли 2.1.0+cu121
Аноним 25/11/23 Суб 02:11:21 #22 №554224 
>>553028
> попробуй просто файл нарезать
Спасибо кэп, только это лишний гемор, пушо помимо резки/склеивания, как я должен проверить что оно не разрежется именно по середине речи?
Нет, не для обучения, аудиокнигу хочу в другом голосе послушать.

>>553224
Нет, это не для обучения.
Аноним 25/11/23 Суб 07:37:22 #23 №554360 
>>553844
это не RVC, но модель styletts2 можно зафайнтюнить на rtx 3090 за 4 часа, так говорит автор https://github.com/yl4579/StyleTTS2
Аноним 25/11/23 Суб 07:58:38 #24 №554364 
>>553815
ударения там можно сделать через + звон+ит
Аноним 25/11/23 Суб 08:37:43 #25 №554370 
>>554224
Берешь абсолютно любой аудиоредактор и вручную режешь блять, и там же склеиваешь.
Аноним 25/11/23 Суб 09:45:39 #26 №554399 
Чо, когда exe софт сделаете, а не всю эту хуету с бубнами?
Аноним 25/11/23 Суб 10:59:07 #27 №554423 
>>554399
те сложно чтоль пару команд ввести? Сразу видно виндузятника
Аноним 25/11/23 Суб 11:21:14 #28 №554431 
>>554423
те сложно чтоль все в одной папке собрать? сразу видно гитхабодебила
Аноним 25/11/23 Суб 15:01:50 #29 №554564 
>>554364
Спасибо, я знаю. Но хотелось бы автоматом. Но у автора силеро такая позиция, что они продают весь обвес вокруг их сырой модельки, так что увы.
Аноним 25/11/23 Суб 15:04:15 #30 №554565 
DockerDesktopsSzXYX7WFF.png
>>554399
хочется верить что этот styletts2 герганыч портнёт в ggml, тогда можно будет тупо одной командой запускать один .exe файл с парой моделей, там кста их 10, это если считать энкодеры тоже.
Аноним 25/11/23 Суб 18:23:07 #31 №554732 
как в едж ттс ставить ударения?
Аноним 25/11/23 Суб 23:08:23 #32 №555009 
1676164345659062.webm
Поясните за текущее состояние голосовых нейронок плз. Если я хочу генерить хорни пасты голосами милых тяночек, это возможно уже или нет? Или можно только переделывать уже существующую речь в другие голоса? Последний раз ттс трогал у яндекса, там неплохой был секси голос Алёны, но интонации все равно слишком роботизированы и одннобразны были.
Аноним 25/11/23 Суб 23:11:00 #33 №555013 
Что будет лучше, если я хочу клонировать свой собственный голос и озвучивать им написанный текст - RVC или ElevenLabs? Обычно я делаю через второй вариант, но там это довольно заёбно, приходится много раз генерировать заново, а потом ещё и склеивать удачные куски из разных вариантов в единое целое. Уходит очень много времени

Ну или может быть у вас есть гайд, как записать подходящий датасет, пользуясь диктофоном из телефона? Вроде бы всё нормально, но нейронка часто сбоит, например ускоряя голос или наоборот замедляя, а иногда появляется сильный акцент
Аноним 26/11/23 Вск 08:10:24 #34 №555225 
>>554370
Ебаный ты нахуй, там 24 файла по 50 минут, заебусь, во-вторых я не понимаю а че мешает просто один огромный файл обработать? Я понимаю когда я ставлю слишком огромное значение блока за раз обрабатываемого или че там, типа 60 секунд и он за оперативку вылазит, а тут че?
Аноним 26/11/23 Вск 09:27:34 #35 №555243 
>>555009
Можно сгенерировать в TTS, а потом прогнать через RVC с нужным тебе голосом. Но TTS'кам эмоциональности под твою задачу не хватит, как мне кажется. Они больше под монотонное чтение подходят.

>>555013
У RVC нет возможности напрямую озвучивать по тексту, она только из одного голоса в другой преобразует. Тебе придётся сначала сгенерировать по тексту дефолтным голосом любой TTS'ки, а потом через RVC прогонять.

> как записать подходящий датасет
Для RVC нужно 5-10 минут чистого голоса, желательно, в разных диапазонах. Хорошие модели стабильно работают, там не надо что-либо роллить.
Аноним 26/11/23 Вск 11:55:51 #36 №555275 
>>555225
Попробовал прогнать часовую аудиокнигу (58 минут). С моделью rmvpe всё обработалось, при обработке потребление VRAM было почти 20 Гб, но обработка заняла всего несколько секунд. Creepe — потребление VRAM около 4 Гб, но обрабатывалось долго — около 2 минут. Harvest — видеопамять не жрет, обрабатывалось минут десять и потом все упало нахуй, хотя потребление RAM было всего лишь около 22 Гб (из 64 Гб). Pm не проверял.
Аноним 26/11/23 Вск 13:23:27 #37 №555333 
>>555275
А как результат?
Аноним 26/11/23 Вск 19:32:36 #38 №555755 
>>552016 (OP)
Аноны, оценил предложенные tts проекты, XTTS в целом порадовала. На huggingface лимит в 200 символов, соответственно вопрос: если её ебануть локально можно ли за одну операцию озвучивать приличные тексты, например 10 страничные статьи? И, если да, сколько генерация будет занимать по времени на 3060 12 гигабайтной?
Аноним 27/11/23 Пнд 00:28:14 #39 №556093 
90c7a292-a226-4880-ad82-cf7e61285a991.mp4
623752df-712b-418c-82f8-15291a32e7821.mp4
bcaf519e-15c6-4b20-bc27-9b52612986580.mp4
e12c5a30-b5e7-4f58-851d-7648d4c454b20.mp4
Годная вещь, аж залип
Аноним 27/11/23 Пнд 02:23:06 #40 №556139 
was du brauchst.mp4
zwei kleine Hände.mp4
mein Häschen.mp4
Почему-то именно с этим языком самый кек получается.
Аноним 27/11/23 Пнд 02:37:25 #41 №556147 
wischegrad.mp4
Аноним 27/11/23 Пнд 02:39:29 #42 №556148 
Versuch 5.mp4
nach Hause.mp4
Brief (попытка 4) - норм.mp4
Аноним 27/11/23 Пнд 04:34:32 #43 №556194 
А есть вообще сайты по типу цивита (куда лоры и модели заливают), но с готовыми голосовыми моделями?
Аноним 27/11/23 Пнд 04:49:33 #44 №556196 
>>556194
https://discord .gg/aihub (канал voice-models)
Для RVC.
Аноним 27/11/23 Пнд 12:32:39 #45 №556453 
>>555243
А если записать самому с нужной интонацией и потом свапнуть голос?
Аноним 28/11/23 Втр 02:22:19 #46 №557155 
Аноны, для клонирования голоса обязательно микрофон?
Аноним 28/11/23 Втр 03:25:02 #47 №557166 
Himbeere.webm
Ай, наигрался. Не смешно как-то уже.
Аноним 28/11/23 Втр 11:57:16 #48 №557280 
Анон, подскажи пожалуйста, есть ли возможность научить ИИ на чужой голос, при обучении выдаёт ошибку и ругается на GPU (У меня AMD 6800XT) И еще вопрос, ему datasaet можно даже видео в mp4 подставить, он его "скушает" или ему нужен именно свой определенный формат?
Аноним 28/11/23 Втр 13:00:09 #49 №557317 
БЫСТРЫЙ ДУБЛЯЖ НА ДРУГОЙ ЯЗЫК С ПОМОЩЬЮ ИИ #ии #дубляж #перевод.mp4
Аноны, а есть сервис дубляжа своего голоса, но чтоб интонация была? Знает кто нибудь такой онлайн сервис?
Аноним 28/11/23 Втр 20:41:57 #50 №557640 
Ветер пригожина наполняет Паруса Завоеваний.mp4
Аноним 30/11/23 Чтв 23:49:07 #51 №559490 
>>553462
для локал юзеров - убрали ограничение в 400 слов, но есть проблема, он начинает каждое новое предложение без сохранения интонации.
Аноним 01/12/23 Птн 12:27:11 #52 №559905 
1311353162029.jpg
Я тупой. Не бейте, лучше обоссыте!
На hf есть вот такая модель для whisper:
https://huggingface.co/lorenzoncina/whisper-small-ru/tree/main
Но Whisper'у нужны модели с расширением .pt
Как конвертировать модель hf ---> pt?
Был бы рад, если кто-то шарящий просто сконвертирует и выложит ссылку.
Аноним 01/12/23 Птн 15:54:09 #53 №560007 
>>559905
Эти веса можно подгружать через torch.load, если использовать whisper в качестве python-модуля.
Если тебе вдруг зачем-то нужно их использовать через stand-alone версию, то требуется небольшой костыль, так как stand-alone может работать только с предопределенными моделями.

Скачиваешь эту модель при помощи git
git clone https://huggingface.co/lorenzoncina/whisper-small-ru/
И конвертируешь этим скриптом https://gist.github.com/bofenghuang/3ba54bb338f4863e6ab710a2ceb65bf2 :
python convert_whisper_to_openai.py --hf_model_name_or_path "d:/whisper-small-ru" --whisper_state_path "./small.pt"

Либо скачиваешь сконвертированную модель отсюда https://huggingface.co/savayox919/small.pt/blob/main/small.ru.pt

Закидываешь cконвертированную модель в папку %user_profile%/.cache/whisper/
Чтобы whisper знал эту модель нужно в файле %python_path%\Lib\site-packages\whisper\__init__.py под 23 строкой добавить строку
"small.ru": "aefac90e59481eb3f15b7f6725fd1e398a08ec9d99ba8969336bde5c3f667695/small.ru.pt",
И под 39 строкой добавить строку
"small.ru": None,
Теперь whisper будет работать с этой моделью
whisper --model small.ru --language ru

Но на самом деле всё это ненужный пердолинг, потому что эта модель всратая и не лучше оригинальной small
Аноним 01/12/23 Птн 18:40:29 #54 №560112 
1279126257591.jpg
>>560007
Спасибо, анончик! Аки боженька всё разжевал. Мне важно было попробовать работу этой модели на своих семплах. Результаты и впрямь так себе.
Я радиогубитель и в ИТ не большой знаток. Нейронки для меня - что-то типа магии. Хочу автоматически распознавать речь со своих радио-перехватов (приём SDR-свистком), но старое железо весьма ограничивает возможности. У меня gtx950 с 2 ГБ памяти, и её хватает только для base модели, а это полная хуита ни о чём. Даже small крашится от недостатка памяти. Поэтому ищу вменяемую по скорости и качеству распознавания модель под CPU. Может, посоветуешь что-то? Нужна только русская речь.
Аноним 01/12/23 Птн 19:31:03 #55 №560137 
17014448286430.mp4
В какой нейронке это делали?
Аноним 01/12/23 Птн 22:28:46 #56 №560346 
> coqui ai
Это годнота? Почему в шапке нет?
Аноним 01/12/23 Птн 22:41:32 #57 №560367 
>>560137
В суно, сверху криво кинули войссвап совитсом.
Аноним 01/12/23 Птн 22:45:10 #58 №560371 
>>560346
Потому что как и в дабе сосет письку. Плюс платное. Там никаких чудесных решений все еще нет, это комбайны из существующих технологий, которые по аналогии с фейс-свапом типа фейсхаба - ну продержаться год-два, выдавая хуевенький результат за нихуевенькие бабки. Потом технологию допилят и она обесценится (в хорошем смысле слова). Чмони конечно могут продолжать лазить в какойнибудь фейсап, но нахуя если везде лежит руп. Поэтому какой смысл добавлять в шапку очередную коммерческую прокладку?
Аноним 01/12/23 Птн 22:46:50 #59 №560376 
>>560371
>Потому что как и элевенлабс в дабе сосет письку
фикс

Это максимум для инди проекта энивей и если бабки карман жмут, для чего-то серьезного проще нанять актера за миску риса. Да и для инди тоже.
Аноним 01/12/23 Птн 23:14:14 #60 №560434 
>>555755
у меня тоже такая карточка, почти моментально 3000 символов генерит, так что в этом проблем нет
Аноним 01/12/23 Птн 23:17:58 #61 №560440 
>>560371
Че за комбайны из готовых решений? У них собственные решения и опенсурс на гитхабе.
Аноним 02/12/23 Суб 00:04:23 #62 №560509 
>>560440
>У них собственные решения
Из чужих моделей и разработок обмотанных петухоном. Огласи список "собственного", если не сложно.
Аноним 02/12/23 Суб 00:21:28 #63 №560525 
>>560509
> https://github.com/coqui-ai
Ты шизик?
Аноним 02/12/23 Суб 00:22:25 #64 №560527 
>>560509
https://huggingface.co/coqui
Аноним 02/12/23 Суб 00:24:59 #65 №560531 
image.png
>>560525
>>560527
нахуй ехай
Аноним 02/12/23 Суб 00:29:25 #66 №560535 
>>560531
И че? Ебать ты долбаеб, обосрался, так не закапывай себе дальше.
Аноним 02/12/23 Суб 20:24:08 #67 №561166 
Голосовые нейронки самый мощный прорыв сделали я щитаю. Ни видео ни фото не может в годнонту, а вот голосовые модели могут имитировать голос человека на 100 процентов.
Аноним 02/12/23 Суб 23:28:24 #68 №561375 
image
Есть какая-нибудь онлайн нейросеть, чтобы фразу озвучить? Мне буквально одну только. Или, может, итт кому-нибудь не лень? С меня сотни интернетов!
Аноним 02/12/23 Суб 23:45:16 #69 №561386 
image
>>561375
А, все, я нашел. Шапку жопой читал.
Аноним 04/12/23 Пнд 14:11:28 #70 №562704 
79bc1e4a-bf63-4732-add1-57941374e9a70.mp4
af093839-c792-4385-8519-828c3e98b2121.mp4
ea632f45-47fe-4515-a7a3-971ca647bcdb0.mp4
d4d7f757-c7f3-4594-a319-18bc6bb026241.mp4
Бля а неплохо вышло
Аноним 04/12/23 Пнд 18:47:10 #71 №562947 
.mp4
.mp4
.mp4
.mp4
>>562704
Вообще охрененно делает!
Аноним 04/12/23 Пнд 20:40:29 #72 №563105 
7277c502-8162-4a82-af85-d1b4217232a7.mp4
408bdf0c-a8f0-416a-8295-4ce6aa1477651.mp4
Рейт
Аноним 05/12/23 Втр 12:38:54 #73 №563631 
Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Аноним 05/12/23 Втр 22:09:06 #74 №564287 
11.mp4
22.mp4
33.mp4
44.mp4
На eleven labs появился speech to speech для склонированного голоса, но пока только на английском.
Аноним 06/12/23 Срд 07:05:40 #75 №564586 
>>564287
Чем делал голос путина тот что на русском?
Аноним 06/12/23 Срд 15:08:48 #76 №564851 
hero.webm
Аноним 07/12/23 Чтв 10:03:10 #77 №565990 
дойч.mp4
инглиш.mp4
>>557166
> наигрался
А может и нет...
Аноним 07/12/23 Чтв 16:31:59 #78 №566214 
Я прочитал шапку, но уточнить хочу. Мне нужно делать озвучку персонажей амер мультиков.
>SileroTTS
>TeraTTS
Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
>RVC
Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Аноним 07/12/23 Чтв 16:36:45 #79 №566220 
>>566214
силеро ттс. Ударения ставить так: звон+ит +перед ударным.
Про рвс да
Аноним 07/12/23 Чтв 16:39:45 #80 №566224 
Жопич.mp4
>>564586
Аноним 07/12/23 Чтв 16:48:07 #81 №566234 
>>566220
А что насчёт амер акцента?
Аноним 07/12/23 Чтв 16:49:53 #82 №566236 
>>566234
силеро ттс там американское наверно
Аноним 07/12/23 Чтв 16:51:57 #83 №566238 
>>566236
>Оффлайн-проект синтеза голоса от русскоязычной команды Silero.
Окей спорить не буду, но на всякий случай на форчане чек чем оно по-хорошему делается.
Аноним 07/12/23 Чтв 18:30:34 #84 №566384 
Падажите, эта няша из консольки чтоли управляется онли? Нет удобного интерфейса, куда совать текст и язык, модели жмакать?
https://www.youtube.com/watch?v=yRHbDbHPJMo
Аноним 07/12/23 Чтв 18:52:12 #85 №566411 
>>566384
тебе какой язык нужен?
https://github.com/hinaichigo-fox/rus-silero-webui вот там русский и украинский
https://github.com/GhostNaN/silero-webui тут все
Аноним 07/12/23 Чтв 19:01:51 #86 №566427 
image
image
>>566411
Мне англ. Ну я разные пробовал и устанавливал https://github.com/snakers4/silero-models#installation-and-basics.
Вот что ты дал, юзаю гитбаш в папке, git clone https://github.com/GhostNaN/silero-webui.git
А где там установочное или как стартовать вообще, каким файлом?
Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Аноним 07/12/23 Чтв 19:05:28 #87 №566435 
>>566427
Запускать app.py
Конечно же. если не менять язык будет ошибка. Смени язык и все
Аноним 07/12/23 Чтв 19:26:24 #88 №566471 
>>566435
А понятно. Я просто не ожидал, что так можно, никогда не делал. Спасибо, что не рвонькнул однако.
Сейчас устанавливаю какое-то nltk, а то ошибка генерации.
Аноним 07/12/23 Чтв 19:40:26 #89 №566499 
Не помогло nltk, опять чего-то не хватает. В requirements.txt
gradio
nltk
num2words
omegaconf
torch
torchaudio
Я понимаю это что-то у программистов имеющеюся само собой и что мне делать чтоб облегчить мучения?
Аноним 07/12/23 Чтв 19:56:26 #90 №566531 
У одного меня какие-то спермопроблемы как обычно, ясно, у всех остальных всё само собой встало одним нажатием кнопачки.
Аноним 07/12/23 Чтв 19:58:16 #91 №566536 
>>566499
покажи ошибки
Аноним 07/12/23 Чтв 20:08:50 #92 №566552 
image
image
>>566536
Это по-любому из-за отсутствия установки чего-то большого, что все нейросетчики по умолчаю юзают, поэтому автор и в шапке не пишут. Я просто только вкатываюсь.
Аноним 07/12/23 Чтв 20:16:02 #93 №566569 
>>566552
комп перезапусти и попробуй все в ручную через пип инсталл устанавливать
Аноним 07/12/23 Чтв 20:16:49 #94 №566571 
>>566552
Алсо, добавлю у меня подозрения на этот пи-торч. Может я его как-то криво поставил?
Я с сайта копирую в командную строку cmd что мне там дали pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Установка какая-то прошла и я закрыл. Не так чтоли?
Аноним 07/12/23 Чтв 20:19:24 #95 №566573 
>>566571
самая тупая ошибка. ПРОСТО ПИШИ ПИП ИНСТАЛЛ ТОРЧ И ВСЕ
Аноним 07/12/23 Чтв 20:30:09 #96 №566592 
>>566573
В cmd писать? Или в какую-то конкретную папку перейти? написано Requirement already satisfied:
Я также перегрузил комп, но не помогло. Может снести и зано поставить этот торч?
Остальные требования тоже уже написано Requirement already satisfied:
Аноним 07/12/23 Чтв 20:48:57 #97 №566616 
>>566592
в цмд пиши
Аноним 07/12/23 Чтв 20:52:45 #98 №566621 
image
image
Ну че, я пытался удалить и установить заново как было сказано.
1. Первый пикрил - ПРОСТО pip install torch, ошибка. С ним вообще консоль не выдаёт адресс для браузера.
2. Снёс п. 1 и поставил с сайта всё пик 2 без ошибок, всё равно не заработала, те же ошибки >>566552

А не может быть такого что мне какие-то модели там в папку с прогой докачать, чтоб не было ошибки? Я вам заскринил >>566552 чтоб вы расшифровали на что оно жалуется.
Аноним 07/12/23 Чтв 20:54:23 #99 №566624 
>>566621
pip3 install pytorch
Аноним 07/12/23 Чтв 20:57:50 #100 №566631 
image
>>566624
М?
Аноним 07/12/23 Чтв 21:00:01 #101 №566635 
>>566631
фулл скрин
Аноним 07/12/23 Чтв 21:00:40 #102 №566636 
>>566631
пошли ка в тг. тут не особо удобно
Аноним 07/12/23 Чтв 21:03:36 #103 №566642 
image
>>566635
Спасибо, что помогаешь. А можешь есть всеобщий гайд по работе с гитхабовскими нейросетками, чтоб я мог все их стандарты установить?
Аноним 07/12/23 Чтв 21:04:05 #104 №566643 
>>566636
У меня нет тг.
Аноним 07/12/23 Чтв 21:05:16 #105 №566645 
А может этот торч не в апдату, а куда-то ещё ставить?
Аноним 07/12/23 Чтв 21:06:14 #106 №566648 
>>566645
просто консоль открываешь и сразу без ничего пишешь pip install pytorch
Аноним 07/12/23 Чтв 21:09:02 #107 №566653 
>>566648
Ну да, так и пишу, но у меня при открытии путь C:\Users\Anonname>
А у тебя не так?
Аноним 07/12/23 Чтв 21:09:41 #108 №566654 
>>566653
хмммм. перезагрузи пеку и пробуй снова
Аноним 07/12/23 Чтв 21:25:29 #109 №566677 
>>566654
Ладно, я думал, тут кулцхакеры сидят, придётся замену придумать или насадку какую-то. Может онлайн придётся даже генерить.
Аноним 07/12/23 Чтв 21:29:18 #110 №566683 
>>566677
просто хз как но у меня все что надо ставилось с 1 раза
Аноним 07/12/23 Чтв 21:36:12 #111 №566691 
>>566683
Да я понимаю, как обычно у меня одного проклятие, срочно надо шамана вызывать.
Аноним 07/12/23 Чтв 23:06:25 #112 №566761 
Ну что сказать, я напоследок пошалил ещё с этими вашими торчами, смыл весь питон и накатил последню версию и в резульатте через консоль этот торч вообще никак теперь не ставится, а силена даже в браузере теперь не запускается соответсвенно.

ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch

Сделал лучше, а стало хуже, ну и говнище этот ваши питон.
Аноним 07/12/23 Чтв 23:50:12 #113 №566793 
Ладно вот последний вопрос.
# Create venv
python -m venv venv
source venv/bin/activate
Это что? Это куда?
Аноним 08/12/23 Птн 06:55:06 #114 №566992 
>>566793
> Это что? Это куда?
В консоли последовательно выполни команды:
python -m venv venv
.\venv\Scripts\activate

У тебя формат второй команды под никсы, если я правильно понимаю.

>>556453
> А если записать самому с нужной интонацией и потом свапнуть голос?
Да, тогда интонация норм подхватится.

>>560346
> coqui ai
> Это годнота? Почему в шапке нет?
Там же вроде просто XTTS под капотом? Хз, может и стоит дополнить, я не вникал, если честно.

>>563631
> Так, я попробовал вариант для амудешников, по готовой модели генерит довольно быстро, а вот свое обучается очень долго, в связи с чем возник вопрос - есть ли какой-то вариант, для обучения на колабе или еще где-то? А то у меня получается, что 20 эпох часов 8 займут, а говорят, что под 200 надо для хорошей модели
Попробуй этот коллаб глянуть, я, правда, сам не смотрел:
https://colab.research.google.com/drive/13Ot_8SJYplkxSH1vkJptd79fmvMjFqIC

>>566214
> Что из этого будет говорить с амер акцентом и выразительно как пожелаешь с настройками где ставить ударения и т.п.? Т.е. чтоб там можно было изображать гнев, грусть и т.п.?
Из опенсорс с генерацией эмоций ничего нет для TTS, насколько я знаю. В bark можно вставлять конструкции типо [смех] и что-то ещё, но не смотрел её особо: https://github.com/suno-ai/bark

> Я так понял оно не влияет на характер, эмоциональный оттенок голоса, а просто перекрашивает в нужного персонажа заранее подготовленные дорожки?
Всё так, либо можешь менять голос в риалтайме - как вариант, можешь настроить виртуальный микрофон и сразу записывать свой видоизменённый голос с нужными тебе эмоциями, в этом случае RVC норм оттенок голоса передаст.

>>566427
> Второй пик пробовал сборку от анона, но там ошибка если менять язык или модель, не поддерживает наверное.
Увы, не нашёл времени пофиксить. Работает только русик, да.
Аноним 08/12/23 Птн 07:00:03 #115 №566993 
>>566761
так емае. Те нужно максимум 3.10 ставить
Аноним 08/12/23 Птн 07:30:44 #116 №566997 
А у edge tts из шапки можно как-то ударения ставить? И там ещё какой-то странный баг с внезапным сдвигом тональности на одном предложении есть, это победимо?
Аноним 08/12/23 Птн 07:55:37 #117 №567000 
>>566997
я и сам щас думаю как ставить. Пришел пока к выводу. Ты его учи как ребенка. Вместо Зек пиши зэк вместо штирлицем пиши штир'лицэмъ и т.д. ударение либо ' перед нужной буквой либо о́ букву ударением
Аноним 08/12/23 Птн 13:28:18 #118 №567184 
image
>>566992
>У тебя формат второй команды под никсы
Эээ? По-русски пиши. Я это это инструкции слепо пытался сделать.
Аноним 08/12/23 Птн 13:34:19 #119 №567201 
А никто англоязычное не встречал? Я на форчане порылся, там только треды по стабл дифужну.
Аноним 08/12/23 Птн 13:48:26 #120 №567210 
Как же хуёво быть нищюком. Я бы купил уже этот вокс бокс за 100 баксов и не ебался тут.
Аноним 08/12/23 Птн 14:52:51 #121 №567231 
image
>Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks
Охуенно озвучили блять.
Аноним 08/12/23 Птн 15:14:26 #122 №567238 
изображение.png
>>567231
А хули ты хотел? Плоти.
Аноним 08/12/23 Птн 16:00:21 #123 №567266 
>>567238
Там нет на сайте для нищуков скромного. Что ж так плохо с этой озвучкой идёт, туго, жиды программисты не дают творить.
Аноним 08/12/23 Птн 16:01:40 #124 №567267 
>>567266
Алсо с нормальными (не премиальными) голосами тоже говорят - плоти.
Аноним 08/12/23 Птн 19:54:04 #125 №567505 
А неплохо это RVC работает, эмоции всё передаёт, не ожидал.
Но шляпа только что исходники хорошие искать, все эти TTS некудышные, говорят дикторской речью. И я так понимаю нельзя ттс научить в эмоции. Может посоветуете какую базу со фразочками всяких актрис озвучек и сэйу? А то я вижу на ютубе иногда фажики делают подборки фразочек всяких персонажей игр и аниму, может базы есть мне не очевидные.
Аноним 08/12/23 Птн 20:34:45 #126 №567544 
У меня такая мысль возникла, что для эмоций надо TTS для каждого настроения модель отдельную, не заморачиваясь на персонажей голосов, например для женского один и тот же голос, но каждая модель отличная, что одна радуется, другая говорит визгливым голосом и т.п. Не встречал никто грустных, гневных роботов и т.п.? Этого бы хватило, потом в RVC перегнать, ей пофигу какой там персонаж в оригинале озвучил. Ну может только максимально отличные типы голосов разедлить - мужской, женский, детский. Этого бы хватило, чем клепать тысячи разных персонажей, которые говорят дикторским голосом.
Аноним 10/12/23 Вск 01:56:29 #127 №568817 
>>567231
Там вообще нет возможности бесплатно TTS запускать? Мне несколько месяцев назад писали, что можно >>358924 → Но я правда забил и не тестил, ведь есть тот же EdgeTTS.
Аноним 10/12/23 Вск 19:36:14 #128 №569249 
Аноны, у меня у одного перестал этот TTS работать?
https://huggingface.co/spaces/elevenlabs/tts

Выдает ошибку:

>RateLimitError('This request exceeds your quota. You have 0 characters remaining, while 103 characters are required for this request.')
Аноним 10/12/23 Вск 21:44:49 #129 №569330 
>>568817
Похоже что нет. Вообще странность, что докуя онлайн голосовых сервисов бесплатных, но за стационарное плати.
Аноним 10/12/23 Вск 22:30:28 #130 №569361 
>>556148
со второй просто начал хрюкать
Аноним 11/12/23 Пнд 17:23:23 #131 №570032 
Аноны есть русская TTS по качеству лучше или сравнимо с silero, но на GPU, а то на ЦП пиздец долго даже не на самом донном проце.
Аноним 11/12/23 Пнд 17:26:08 #132 №570035 
>>570032
Да под русской я имею ввиду что бы на русском адекватно воспроизводила текст.
Аноним 11/12/23 Пнд 18:45:42 #133 №570115 
>>570032
>silero, но на GPU, а то на ЦП пиздец долго
Силеро долго? Ты уверен, что у тебя не дно? Оно на смартфоне работает х10.
Кстати, когда тестировал, силеро у меня на GPU (3080Ti) работало медленнее, чем на проце (на тот момент 5090х), лол.
Кидай своё железо, а то я знаю ваше "не самое донное".
Аноним 11/12/23 Пнд 18:52:45 #134 №570124 
>>570115
Проц ryzen 7 5700x видюха не важно с ней проблем пока нет. Может у нас разное понятие под долго но примерно 10 часов звука за час делает. При том что RVC на GPU тот же час за минуты 3 делает.
Аноним 11/12/23 Пнд 19:27:11 #135 №570168 
>>570124
Ебать что ты там такое звучишь?
>ryzen 7 5700x
Ну... Не шик, но окей, уговорил, не дно.
>10 часов звука за час
х10, я прям ванга.
>RVC на GPU тот же час за минуты 3 делает
Тот же, или просто час? Если просто час, то это х20, то есть ускорение относительно силеро всего в 2 раза.
Ну и да, запусти силеро на ГПУ, в чём проблема то?
Аноним 11/12/23 Пнд 19:31:06 #136 №570172 
>>570168
>Ебать что ты там такое звучишь?
Книги.
>Ну и да, запусти силеро на ГПУ, в чём проблема то?
Надо будет тогда погуглить, а то я сейчас не совсем напрямую запускаю.
Аноним 11/12/23 Пнд 19:31:41 #137 №570174 
>>570172
а нук скинь пример
Аноним 11/12/23 Пнд 19:33:15 #138 №570179 
>>570174
Пример чего? И через что скинуть, а то я давно это не делал, а все нормальные сервисы типо ргхоста уже давно отлетели.
Аноним 11/12/23 Пнд 19:34:15 #139 №570184 
>>570179
на ютуб залей хз
Аноним 11/12/23 Пнд 19:34:30 #140 №570187 
>>570179
пример книги которую озвучиваешь
Аноним 11/12/23 Пнд 19:36:17 #141 №570194 
>>570187
Завтра если не забуду скину. Хотя зачем я не совсем понял ибо там ничего необычного нет silero нормально отрабатывает.
Аноним 11/12/23 Пнд 19:39:41 #142 №570201 
>>570179
Пример кода я думаю.
>>570179
>а все нормальные сервисы типо ргхоста уже давно отлетели.
Гитхаб всё ещё работает. А так https://rentry.co
Аноним 11/12/23 Пнд 20:06:44 #143 №570241 
kripiELfwBGRN.mp4
Оцени пока мою озвучку крипистори>>570194
Аноним 11/12/23 Пнд 20:15:05 #144 №570245 
>>570241
Ну я плюс минус до такого же уровня дошел. Только без фонового звука. Мне хватает. Голос только пока не нашел еще чтоб прям нравился.
Аноним 11/12/23 Пнд 20:21:25 #145 №570257 
>>570245
ну я звук на фон поставил потому что это страшилка как никак.
Аноним 11/12/23 Пнд 20:24:02 #146 №570263 
>>570257
Я то для себя в основном пилю. Ибо читать не то что бы влом, но глаза лишний раз неохото напрягать.
Аноним 11/12/23 Пнд 21:13:56 #147 №570323 
>>570241
Ну тут прям видно, что голос искусственный. Ты убирал пробелы между фразами?
Аноним 11/12/23 Пнд 21:34:59 #148 №570353 
>>570323
какие пробелы?
Аноним 11/12/23 Пнд 22:31:23 #149 №570454 
masun2.mp4
Аноним 11/12/23 Пнд 23:21:08 #150 №570492 
>>552016 (OP)
https://www.weights.gg | https://voice-models.com
Сап двач. Как использовать эти модельки? Куда их можно вставить? А то я что-то не шарю в нейронках.
Аноним 11/12/23 Пнд 23:47:50 #151 №570509 
изображение.png
изображение.png
изображение.png
>>570492
А теперь читаешь все материалы в шапке по этим трём буквам.
Аноним 11/12/23 Пнд 23:53:39 #152 №570516 
>>570509
Что за сайт с моделями?
Аноним 12/12/23 Втр 03:38:58 #153 №570654 
>>570509
Благодарю.
Аноним 12/12/23 Втр 09:53:55 #154 №570788 
>>570492
птх файл в папку вейтс и моделс а индекс в папку с названием птх файла и в папку логс
Аноним 12/12/23 Втр 16:46:48 #155 №570996 
Ананасы, пользоваться RVC в облаке больше нельзя? Сторонние сайты прикрыли фишку с бесплатным ElevenLabs, а оплатить подписку конкретно на их сайте без иностранной карты нельзя.

Получается, для озвучки остался только один вариант: генерация стандартным голосом из доступных -> замена этого голоса на нужный мне через RVC. Компьютер его вряд ли потянет, а в облаке было бы здорово. Сплошная ебанина, короче
Аноним 12/12/23 Втр 19:42:07 #156 №571311 
inde2x.jpg
>>552016 (OP)
Тред не читал
Надо распознавать где-то 25 часов лекций на русском в неделю. Вручную это делать больно и неприятно. Платно горько и обидно. Что можно сделать в данной ситуации? Есть ли бесплатные ИИ решения или хотя бы то что можно собрать на своем компе?
Аноним 12/12/23 Втр 20:08:33 #157 №571352 
>>571311
whisper
Аноним 12/12/23 Втр 20:08:57 #158 №571354 
>>571311
Whisper
Аноним 12/12/23 Втр 22:57:09 #159 №571547 
>>570996
>Компьютер его вряд ли потянет
а ты попробуй. он не такой тяжелый, только памяти надо дохуя
Аноним 13/12/23 Срд 08:35:40 #160 №571712 
Парни, кто может натренировать модель? По деньгам договоримся
Аноним 13/12/23 Срд 10:24:57 #161 №571738 
Силеро не генерирует аудио из текста длиннее 1000 символов. Как обойти ограничение?
Аноним 13/12/23 Срд 13:40:12 #162 №571833 
>>571712
я могу, что надо?
Аноним 13/12/23 Срд 15:48:46 #163 №571924 
dc947d69-2f8c-4ee7-8758-b4351991f13f1.mp4
17022992776133.mp4
17023127053922.mp4
Аноним 13/12/23 Срд 15:50:23 #164 №571926 
17022994411883.mp4
17023118236246.mp4
17022975531795.mp4
Аноним 13/12/23 Срд 16:03:25 #165 №571933 
>>571738
а ты какое силеро юзаешь?
Аноним 13/12/23 Срд 16:04:09 #166 №571935 
>>571933
бот или питоновский силеро из треда
Аноним 13/12/23 Срд 20:33:15 #167 №572107 
>>552016 (OP)
ОП, прочитал гайды, но не совсем понял - написанно, что текст в речь нельзя научить нужному голосу. У меня есть запись 10+ минут голоса, мне нужно поставить офлайн софтину, скормить ей этот голос и потом писать текстом, а софтина должна преобразовывать текст в голос, на основе созданной модели. Такое возможно?
Аноним 13/12/23 Срд 20:35:17 #168 №572108 
eugene.mp4
aidar.mp4
Силеро бот.mp4
>>572107
Именно такое пока что нет. Но можно немного изловчиться. Просто юзать какие либо ттски. Например силероТТС или эджТТС и потом их через рвс с нужной моделью прогонять. Вот. Сравни.



Тред. Скажи, что лучше?
Аноним 13/12/23 Срд 21:23:38 #169 №572155 
>>572108
Все три звучат как робот с задержкой в развитии. Всё-таки лучше ElevenLabs ещё ничего не придумали. Я наверное умру от старости, когда у них наконец появится нормальный конкурент
Аноним 13/12/23 Срд 21:36:11 #170 №572161 
>>572107
Придётся использовать связку утилит - любую TTS (Text To Speech) и RVC. В качестве TTS мне больше всего зашла EdgeTTS, но она работает через бесплатное API Microsoft'а; если этот момент для тебя принципиален - глянь SileroTTS.

Полученную через TTS дорожку потом конвертишь к нужному голосу через RVC. И вот для RVC уже можно обучать свои модели - датасета в 10 минут должно хватить.

Кто-то реализовывал конвеера, которые сразу из текста делают генерацию нужным голосом через связку TTS+RVC (в шапке есть инфа, но мало) на Gradio-интерфейсах, но я их не смотрел и профукал ссылки. Может пробовали какие-то решения?

>>572108
Второе больше всего похоже на оригинал.
Аноним 13/12/23 Срд 22:42:45 #171 №572230 
>>571935
Пробовал и в блокноте колаба, и локально, всё равно есть ограничение.
Аноним 14/12/23 Чтв 04:17:53 #172 №572616 
>>572108
Пробуй юзать SSML-режим. Там можно ставить паузу сколько тебе нужно между словами, можно использовать параграфы, дохуя всего короче.
Тред, а вы не пробовали записывать свой собственный голос, а потом прогонять его через RVC? Опционально изменить питч/скорость изначальной дорожки.
Аноним 14/12/23 Чтв 05:58:11 #173 №572639 
>>572230
хммммм. я делал пасты и на 2к символов и ничего
Аноним 14/12/23 Чтв 05:58:32 #174 №572640 
>>572616
>SSML
Че?
Аноним 14/12/23 Чтв 06:08:55 #175 №572646 
>>572640
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb
Скролль до SSML.
>>572639
Опытным путём выяснил, что длина аудиозаписи не должна превышать минуту, иначе выкидывает ошибку. Ты где и как генерировал?
Щас попробовал пропустить свой скрипучий голос через RVC гг-женщины из киберпанка, результат плохой, гораздо хуже silero. Какой-то некоарк-пидор выходит.
Аноним 14/12/23 Чтв 06:09:39 #176 №572647 
1.png
Аноны поясните нуфагу плиз что это за пиздец? Одну дорожку переработал, дальше всё, это уебище вылетает на половине обработке и дальше тупо не генерит. Инет нормальный.
Аноним 14/12/23 Чтв 06:10:28 #177 №572649 
>>572647
Ты окошко командной строки не закрыл случайно?
Аноним 14/12/23 Чтв 06:12:33 #178 №572651 
>>572649
Неа, оно открыто всегда. Первый раз когда запускаю, загрузка кавера до половины доходит и вылетает эррор. При следующих попытках эррор сходу вылетает пока не перезапущу. При этом в первый раз у меня всё получилось сгенерить сразу.
Аноним 14/12/23 Чтв 06:18:54 #179 №572656 
1.png
>>572647
У меня вот такое вот в консоли в момент когда ошибка вылезает
Аноним 14/12/23 Чтв 06:29:30 #180 №572661 
>>572646
https://github.com/hinaichigo-fox/rus-silero-webui вот тут делаю. За ССМЛ спасибо
Аноним 14/12/23 Чтв 06:35:59 #181 №572662 
>>572647
Короче я разобрался у меня видимо компик дерьмовый слишком длинные песенки не вывозит почему то, прийдётся ебаться с обрезкой и склеиванием
Аноним 14/12/23 Чтв 06:43:57 #182 №572664 
>>571833
натренировать модель под rvc, как свзяаться с тобой можно?
Аноним 14/12/23 Чтв 06:48:15 #183 №572665 
>>572664
тг скинь напишу
Аноним 14/12/23 Чтв 07:26:56 #184 №572680 
>>572661
Я тебе рекомендую на своей машине генерить, а не в колабе. У меня хром например не позволяет скачивать получившийся файл, при попытке открыть в отдельном окне просто закрывается.
Аноним 14/12/23 Чтв 07:31:40 #185 №572681 
>>572680
ну дак я и делаю это локально
Аноним 14/12/23 Чтв 11:23:17 #186 №572804 
>>572664
@nyanmyash
Аноним 15/12/23 Птн 12:10:29 #187 №573716 
Clipboard01.jpg
Что ему надо то? В факе написано что там ВСЁ включено и никаких библиотек с питонами не надо.
Аноним 15/12/23 Птн 13:22:35 #188 №573749 
.png
>>573716
Похоже на то, что у тебя часть файлов почему-то отсутствует. В папке runtine должен быть python.exe, но у тебя этого файла почему-то нет. Может антивирь потёр? Или поменяли что-то в последних версиях, я давно не обновлялся уже.
Аноним 15/12/23 Птн 14:25:11 #189 №573772 
Как же ЫлэвынЛабз невыносимо жалко ПРОСТО дать поиграться с мемчиками и песенками бесплатно без регистрации мокрые писечки. 58 секунд максимум за раз, видос не больше 20 мегов. Принимает исключительно шебм, а выдаёт почему-то битые mp4 с какчеством звука уровня жёваной на электронике-302 кассеты. Норовит вставить всякую левую отсебятину про субтитры-подпиську-просмотр. То чёткое произношение вообще не распарсит, то неправильно переведёт, то превратит в лепет, то в шизофазию, то простое слово оставит без перевода. Просто взять напрямую со своего ойпи загрузить видос - хренушки, только один. Режим инкогнито после примерно десятка кусков подряд перестаёт выдавать ссылку на скачивание. Тор и тот через задницу помогает - каждую попытку всё стало открываться меееедленно, чтобы я заебался ждать пока очередная нода покажет "форбидден".
хотя логично - а то немедленно сайт задудосит всяким говном, вайпом, 10-часовыми стримами, фильмецами, политотой и проном
Аноним 16/12/23 Суб 09:40:18 #190 №574502 
подскажите пожалуйста текста/скрипиты для начитки, создания базы для собственной модели
или где их взять
Аноним 16/12/23 Суб 14:58:55 #191 №574648 
>>574502
тебе текст какой то нужен для того чтоб записать голос? Да хоть колобка читай главное чтоб качество было хорошее
Аноним 16/12/23 Суб 17:59:45 #192 №574821 
>>574648
понял, спасибо, думал может есть какие-то специализированные уже
Аноним 17/12/23 Вск 00:09:07 #193 №575118 
Здравствуй, анон. Нет денег, есть rtx4070, конденсаторный мик и звуковая карта, а также подготовленное помещение и, самое главное, время.
Подскажи, пожалуйста. Мне нужно изменять свой голос в реалтайме. Получается нужен только RVC? Пишу сэмплы и использую готовый датасет? Но какой? С английским датасетом проскакивает акцент, с японским вроде все нормально (в прошлых тредах прочел). Или мне самому нужно делать русский датасет, но это непосильная работа для одного. Что же делать?
Аноним 17/12/23 Вск 07:50:46 #194 №575324 
>>555275
Бля. У меня всего 16, уже думал попробовать, а ты так обламываешь блин.
Аноним 17/12/23 Вск 09:03:53 #195 №575337 
>>575324
Он долбоеб просто, силеро+вад, умеет резать/склеивать автоматически. Хуяришь чанки по 10 минут и вперед.
Аноним 17/12/23 Вск 09:39:26 #196 №575345 
>>570032
В общем если кому интересно загуглил и примерно разобрался в проблеме. silero заколхозил на использование через gpu. И скорость я скажу мое почтение примерно в 6 раз быстрее прогнал примерно тот же объем текста чем я это делал на cpu.
Аноним 17/12/23 Вск 13:35:42 #197 №575460 
>>575118
На RVC акцент минимальный вне зависимости от языка, используемого в датасете. Ты скорее всего про SVC читал, там акцент заметнее.

> Получается нужен только RVC?
Для изменения голоса в реальном времени либо RVC, либо Voice Changer: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer
Аноним 17/12/23 Вск 15:58:29 #198 №575557 
>>575460
>На RVC акцент минимальный
Спасибо. Тогда не буду заморачиваться с "датасетом с нуля".
Аноним 17/12/23 Вск 18:47:41 #199 №575695 
>>552016 (OP)
Блять, аноны, какие же вы молодцы! Всё так по полочкам разложили, организовали! Вот она - сила двача
Аноним 18/12/23 Пнд 05:04:30 #200 №576299 
существует ли open-source TTS (хотя бы для английского) сопоставимый по качеству с ElevenLabs? Те, что описаны в шапке, явно слабее.
Аноним 18/12/23 Пнд 06:36:23 #201 №576313 
>>576299
пока еще нет
Аноним 18/12/23 Пнд 11:44:00 #202 №576411 
>>576299
>сопоставимый по качеству с ElevenLabs
Даже там приходится постоянно ролить результат и высчитывать количество символов за раз, чтобы оно хотя бы постаралось звучать нормально
Аноним 18/12/23 Пнд 11:44:28 #203 №576412 
>>572664
ну и куда ты ушел?
Аноним 18/12/23 Пнд 11:46:44 #204 №576413 
StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
Аноним 18/12/23 Пнд 11:51:34 #205 №576415 
>>576413
в зависимости от модели
Аноним 18/12/23 Пнд 11:52:35 #206 №576417 
>>576413
> StS через RVC будет таким же хорошим по качеству, относительно хорошо сгенерированного текста в ElevenLabs, или хуже?
depends от качества модели, но в большей мере от погоды на марсе. иногда идеально выходит, иногда с артефактами. прямой зависимости от качества инпута я не наблюдаю, можно идеально записать исходник, но оно все сжует, а можно плохо напердеть в микрофон и получится хорошо. пробуй, если нет своей карточки, можно арендовать сервер. правда не знаю, где дешевле, мне tesla t4 за 30 рублей в час дают, но наверное можно и дешевле
Аноним 18/12/23 Пнд 19:56:22 #207 №576795 
>>564287
Лучше объясни как проплатить подписку на елевен лабс
Аноним 18/12/23 Пнд 20:15:41 #208 №576813 
https://youtu.be/qCAHyBb6SD0?si=GSEUelE0UhI7J8sh
Какой нейросеткой сделана эта озвучка?
Аноним 18/12/23 Пнд 22:19:16 #209 №576958 
>На eleven labs появился speech to speech
А вот кто пользовался, если я надиктую текст на своём английском, он поправит мне акцент на выходе, оставив только мой голос, или результат получится таким же ужасным, как и на входе?
Аноним 18/12/23 Пнд 23:02:54 #210 №576990 
>>576958
>или результат получится таким же ужасным, как и на входе
Говно на входе- говно на выходе, акцентов только больше станет, лол.
Аноним 19/12/23 Втр 18:40:21 #211 №577684 
>>576958
Честно говоря так себе, инпут должен быть идеально чистым, но акцент всё-таки убирает. Я не знаю, как он у них работает под капотом. По-моему, также как в дубляже, сначала speech-to-text, потом text-to-speech. У меня он меняет слова на выходе (скорее всего плохо понимает из-за акцента).
Аноним 19/12/23 Втр 23:04:25 #212 №577901 
>>577684
>инпут должен быть идеально чистым, но акцент всё-таки убирает
То есть, в принципе я могу озвучить что-нибудь с горем пополам, запихнуть это в StS, выбрать для выходного результата свой собственный голос, и он выдаст мне мой же текст, но уже без акцента?
Аноним 20/12/23 Срд 04:56:23 #213 №578202 
1.mp4
>>552016 (OP)
Нужно как то вокал подчистить, слишком много автотюна накрутило
Аноним 20/12/23 Срд 06:27:29 #214 №578270 
>>578202
Проще эффектов каких нибудь накатить чем чистить
Аноним 21/12/23 Чтв 10:56:30 #215 №579283 
осень с русского на русский!.mp4
>>576958
Кстати по-разному было, когда с "дубляжом" песенок игрался. То голос становится няшнее чем было, то наоборот металлическо-противным. То в оригинале гипертрофированный акцент, а на выходе обычное произношение. То на входе стандартный язык, а на выходе спик фром май харт. А качество самой записи точно повторяет, все завалы частот и шумы, даже уровень в децибелах и всякий паразитный фон.
Аноним 21/12/23 Чтв 11:17:51 #216 №579292 
geschwader1.1.mp4
geschwader1.2.mp4
>>576411
> постоянно ролить результат
Тоже бесит. Мог сделать СЕМЬ попыток и всё равно ничего путного не получить. Хоть одно место, но запорото. А может и с первого раза выдать всё идеально.
как вообще один и тот же кусок абсолютно по-разному обрабатывается, где логика?
Аноним 22/12/23 Птн 00:46:07 #217 №579821 
>>577901
в теории - да, но на практике, как всегда, есть нюансы,
но должен признаться, качество у них растет.
главная проблема - это стоимость всего этого удовольствия.
Аноним 23/12/23 Суб 12:55:31 #218 №580966 
>>552016 (OP)
Анон, тред читал по диагонали, не обессудь. Сейчас очень много информации по нейросетям, все сразу уяснить невозможно.

Интересует вопрос: что нужно для того, чтобы обучить нейронку в домашних условиях? Цель - создать диктора для чтения художественной литературы. Возможно, придется использовать свой голос для обучения. Не хотелось бы делать это на сторонней платформе. Либо же нужен бесплатный вариант хорошего русскоязычного диктора, поскольку это хобби - проект, а текста много.
Аноним 23/12/23 Суб 13:04:22 #219 №580971 
>>579292
О, ещё один глюк обнаружил - "залипание" на интонациях и эмоциях. Если в начале куска ор/визг - в переводе такой же визг до самого конца, даже если там на шёпот переходят. В начале спокойный голос - на выходе тоже вялый на всём видосе, даже если в конце в оригинале припев гроулом.
вот не знаю, как оно обрабатывает у тех, кто там зарегился и даже забашлял. Может и лосслесс стерео выдаёт?
Аноним 23/12/23 Суб 13:29:37 #220 №580992 
>>580966
>обучить нейронку в домашних условиях
хорошая видюха и датасет.
Аноним 23/12/23 Суб 14:05:03 #221 №581019 
>>580966
могу те с этим помочь. ТГ есть?
Аноним 23/12/23 Суб 19:10:51 #222 №581372 
Имя отутствует.mp4
>>580966
Аноним 23/12/23 Суб 21:51:42 #223 №581600 
>>580992
Хороший совет, но не хватает конкретики. "Хорошая" - понятие растяжимое. Нужно хотя бы минимально необходимое количество памяти указать.

>>581019
Спасибо, анон, но наверняка все не обойдется только одним обучением, потом не единожды потребуются корректировки. Да и хотелось бы самому понять, что и как.
Аноним 23/12/23 Суб 21:56:28 #224 №581615 
nark.png
>>581372
На русскоязычного диктора это слабо тянет, лол. Разве что фанфики в порядке лулзов зачитывать.
Аноним 24/12/23 Вск 02:16:56 #225 №582155 
>>575337
Так у меня rvm же...
Аноним 24/12/23 Вск 10:33:02 #226 №582354 
>>581600
>Хорошая" - понятие растяжимое
чистый звук и минимум 15 минут речи
Аноним 24/12/23 Вск 13:14:22 #227 №582483 
>>582354
Ты обгенерировался звуком, что ли, анон? Я спрашиваю про видеокарту.
Аноним 24/12/23 Вск 13:23:58 #228 №582493 
>>582483
а. ну 3080 хватит вполне
Аноним 24/12/23 Вск 16:52:36 #229 №582708 
1.mp4
А вот какие сетки тут использовались?
Аноним 24/12/23 Вск 19:31:12 #230 №582835 
>>582483
Жеска. Ясно, спасиба.
Аноним 24/12/23 Вск 19:51:26 #231 №582854 DELETED
>>582708
авоська
Аноним 25/12/23 Пнд 08:51:11 #232 №583461 
dampfer.mp4
knoten.mp4
musik1.mp4
fang mich.mp4
И всё-таки может бац и с первого раза выдать шедевр.
Аноним 25/12/23 Пнд 14:39:06 #233 №583585 
frauen.mp4
>>580971
> "залипание"
Вот из-за чего бабы-стервы не получались никак. Обрезал начиная с припева - вот теперь идеально, а не невнятный полушёпот как в куплете.
хотя без унтертителей не обошлось и "вир фрауэн зынд шлампен/хурен" не нароллил
Аноним 25/12/23 Пнд 16:44:14 #234 №583633 
Треды не читал гуглить не гуглил.

Кто-то уже сделал хотябы пруфофконцепт озвучки ЖоЖо на русском но с голосами оригинальных сэйю?

https://www.youtube.com/watch?v=vZOwxCh4S44
Аноним 25/12/23 Пнд 18:12:23 #235 №583662 
redsave.mp4
>Нейронка которую мы ждали: генерация музыки по промпту
>Нейронка которую мы получили:
Аноним 25/12/23 Пнд 21:20:17 #236 №583842 
>>583662
Так это круто же, иногда такой музон в голове играет, что прям аж жалеешь, что пропадает. Крутая штука для композиторов, как по мне, хоть я больше любитель-теоретик в музле. У меня, например есть старая .gpt, которая проебалась, но я оттуда мотив помню. Можно восстановить и сделать полноценный трек. Вообще, нейронки для творчества - суперкрутая вещь, прямо приятно эту революцию наблюдать, раз за разом охуеваешь от возможностей.
Аноним 26/12/23 Втр 20:24:53 #237 №584620 
Может кто пояснить это я туплю или у меня подели хуевые попадаются. В общем нужна ли дополнительно тонкая настройка для RVC моделей или нормальные модели и из "коробки" отлично работают? Может с индексом какие нюансы есть? Я в logs закидываю, да и в интерфейсе он их по идее находит.
Аноним 26/12/23 Втр 23:28:42 #238 №584766 
Аноны, можете пожалуйста посоветовать всяких тянских rvc моделей? Всяких там игерл и тому подобного.
Аноним 27/12/23 Срд 00:14:14 #239 №584802 
Аноны, помогите что ли немного. Хочу подавать свой поток wav байтов по сети в w-okada/voice-changer напрямую, как это проще сделать? В исходниках какой-то треш, не могу понять, как оно на фронте работает и какие методы у сервера вызывает. Есть тут, кто разбирался?
Аноним 27/12/23 Срд 14:47:43 #240 №585252 
>>584620
Да, их нужно подстраивать под себя, особенно если у тебя амд карта, но в целом можешь просто посмотреть какие настройки на чем лучше использовать, такой инфы много.
Аноним 27/12/23 Срд 16:38:04 #241 №585317 
>>585252
Может я не правильно сформулировал, модели работают, но голос порой сильно или не очень отличается от желаемого оригинала
Аноним 27/12/23 Срд 23:33:14 #242 №585523 
>>585317
Есть параметр tune, его под себя настраиваешь, что-то около 17 обычно подходит.
Аноним 28/12/23 Чтв 16:09:24 #243 №585848 
image.png
Есть какой-нибудь гайд для альтернативно-развитых, чтобы было хорошо и не было плохо? Голос звучит немного как робот, хотя семпл хороший
Аноним 28/12/23 Чтв 22:46:23 #244 №586182 
>>585848
Я немного не вдуплил, это ведь не w-okadaвский войсчендже, так?
Аноним 28/12/23 Чтв 22:56:37 #245 №586188 
Вопрос: для распознавания голоса, лучшее open-source решение это whisper?
Аноним 28/12/23 Чтв 23:37:33 #246 №586218 
>>585848
>>586182
Это единственные доступные настройки в ElevenLabs. Я так и не понял как ими пользоваться нормально, постоянно чего-то не хватает
Аноним 30/12/23 Суб 13:23:57 #247 №587082 
Подскажите видео с президентом чтобы обучить eleven labs
Аноним 30/12/23 Суб 16:12:09 #248 №587159 
1999.webm
>>587082
> видео с президентом
Аноним 30/12/23 Суб 17:41:48 #249 №587218 
>>518695 →
>>518696 →
А как вместо аудио сделать видео? Ты просто в видеоредакторе пикчу подставил?
Аноним 30/12/23 Суб 19:16:15 #250 №587257 
>>587218
А как липсинк подставить?
Аноним 31/12/23 Вск 00:33:43 #251 №587486 
>>585848
У меня бывало такое когда семпл слишком короткий.
Настройки по умолчанию, норм., но при каждой попытке будет
ощутимо отличаться интонация.
Аноним 31/12/23 Вск 08:49:04 #252 №587671 
p1.mp4
>>585848
Аноним 01/01/24 Пнд 18:35:44 #253 №588634 
Есть модель голоса диктора из 90х?
https://www.youtube.com/watch?v=lSuZmr3-UVs
Аноним 01/01/24 Пнд 22:50:08 #254 №588882 
>>576299
Эти пидоры еще демо прикрыли
Аноним 01/01/24 Пнд 22:55:45 #255 №588887 
image.png
Демке ElevenLabs поставили лимит
Есть способ обойти? Чистка кэша не помогла
Аноним 02/01/24 Втр 07:49:32 #256 №589178 
>>588887
Купить подписку
Аноним 02/01/24 Втр 10:34:28 #257 №589285 
>>588887
Дерни роутер
Зайди через инкогнито
Зайди через другой бразуер
Зайди с другого устройства
Сделай все вместе
???
Профит.
Аноним 03/01/24 Срд 22:01:57 #258 №590717 
Доброго времени суток, уважаемые. Мне нужно узнать как мне преобразовывать текст в аудиодорожку. Быстро, удобно, и как угодно.
Аноним 06/01/24 Суб 17:09:28 #259 №593187 
С новым годом нейроголосач!
Желаю вам хороших моделей в этом году!
Аноним 06/01/24 Суб 23:50:58 #260 №593518 
>>593187
>06/01/24
>С новым годом
Тебя даже новогодний шум не разбудил?
Аноним 07/01/24 Вск 02:43:59 #261 №593706 
Новый проект.mp4
>>552016 (OP)
Аноним 07/01/24 Вск 10:45:41 #262 №593886 
>>593518
только отпустило
Аноним 10/01/24 Срд 21:57:09 #263 №600509 
8ш6щ668щь6868щ6ь86.mp4
Аноним 10/01/24 Срд 23:43:33 #264 №600740 
>>593706
Зелёный слоник уже не в моде?
Аноним 11/01/24 Чтв 17:11:19 #265 №601786 
17049695627590.mp4
>>552016 (OP)
Аноны, кто-то из вас может предположить как сделана озвучка на этом видео? Со всеми вздохами и интонацией?
Аноним 11/01/24 Чтв 17:28:09 #266 №601820 
>>601786
походу анон просто записал свой голос а потом прогнал через рвс
Аноним 11/01/24 Чтв 17:45:50 #267 №601861 
>>601786
это оригинал, рвс оставляет ключи в аудио, тут их нет.
Аноним 11/01/24 Чтв 17:57:59 #268 №601892 
>>601861
какие ключи?
Аноним 12/01/24 Птн 01:22:05 #269 №603054 
Да, ElevenLabs конечно делает красиво, но все оплаченные символы ушли как дети в школу, хотя сначала кажется, что их дают довольно много. Вот Speech to Speech вроде бы может решить эту проблему, но где достать хороший входной голос, который был бы похож на человека? Если сначала озвучить через какой-нибудь Гугл переводчик, то в ElevenLabs на выходе всё равно получается тот же робот, хотя уже и с нужным голосом. Короче говоря, где можно найти бесплатную говорилку с нормальными человеческими интонациями, чтобы скормить её в Speech to Speech?
Аноним 12/01/24 Птн 18:06:27 #270 №604781 
Анонче, есть чистый, минутный сэмл где вайфу на японском базарит без лишнего шума, но елевенлабс всё ещё выдаёт некачественную обработку, не уровень всяких ДЫО и Жотаро, которые на инглише почти как на радном болтают. Мне получается нужно больше сэмплов найти? Пойдёт просто нарезка этого же семпла с каждой фразой по отдельности?
Аноним 12/01/24 Птн 18:16:31 #271 №604791 
>>604781
Не пробовал на RVC модель обучить? Видел, что писали, что если датасет качественный, то минуты как раз хватит. Правда я сам не проверял.
Аноним 12/01/24 Птн 18:19:12 #272 №604797 
>>604791
Ставил тортойз, но он на этапе загрузок некоторых библиотек выдавал ошибку и слал нахуй
Аноним 12/01/24 Птн 18:22:51 #273 №604802 
>>604797
RVC это STS (изменение голоса), а Tortoise это TTS (синтез голоса), насколько я понял. Tortoise можно дообучать на свой голос?
Аноним 13/01/24 Суб 04:01:19 #274 №605780 
>>552016 (OP)
>Ultimate Vocal Remover:
кал ёбаный блядь
Установил себе на линукс мастер - в нем гпу не используется независимо от того, ставлю я чек на gpu conversion или нет.
5.6 вообще не ставиится из-за конфликта зависимостей requirements.txt
У проекта полна жопа ишшью на гитхабе, чел ебёт вола, играется с фоном программки и шрифтами сместо того, чтобы обеспечить базовый функционал
Аноним 13/01/24 Суб 08:00:22 #275 №605900 
>>605780
ну хз. у меня бубнта все норм поставилось
Аноним 13/01/24 Суб 13:18:08 #276 №606088 
>>605900
1. какой тег ставил?
2. какая версия питона у тебя?
Аноним 13/01/24 Суб 17:01:12 #277 №606465 
>>606088
в смысле тег?
Аноним 13/01/24 Суб 17:01:39 #278 №606466 
image.png
>>606088
питон 3.10.11
Аноним 13/01/24 Суб 17:04:13 #279 №606470 
image.png
>>606088
вот такие настройки
Аноним 13/01/24 Суб 17:41:34 #280 №606533 
>>605780
>линукс
дальше не читал
Аноним 14/01/24 Вск 03:25:55 #281 №608506 
out.webm
>>606533
я знаю, что читать - не входит в стандартные умения виндузятников, ты мог мне не напоминать лишний раз.
>>606465
в репозитории гитхаба есть теги. Обычно версии программы равны тегам.

Проблема с UVR как-то сама решилась, я не знаю как. Он начал использовать видеокарту.


альсо моя первая проба пера, оценки приветствуются.
Аноним 14/01/24 Вск 05:36:54 #282 №608550 
копипаста вован.webm
хы
Аноним 14/01/24 Вск 11:11:10 #283 №608652 
>>608550
как делал?
Аноним 14/01/24 Вск 11:16:42 #284 №608657 
>>608506
>Проблема с UVR как-то сама решилась
>линукс
Аноним 14/01/24 Вск 11:30:29 #285 №608672 
Привет двачик, помогите пожалуйста. Есть mp4 на английском языке, хочу перевести его на русский. Как мне это сделать?
Аноним 14/01/24 Вск 12:53:42 #286 №608709 
>>608672
Заплати переводчику.
Аноним 14/01/24 Вск 14:16:11 #287 №608820 
>>608672
Whisper'ом можешь речь в текст перегнать и потом хоть через гугл перевести.

https://www.heygen.com/video-translate
Если тебе нужен перевод сразу в виде голоса, наложенного на видео, то есть такой онлайн-сервис. Понятия не имею, платная сейчас эта фича или нет.
Аноним 14/01/24 Вск 21:30:41 #288 №609303 
Вот вроде было 50к символов, а вот уже и нету. Я даже не всё успел исправить в уже сгенерированном. Когда уже завезут бесплатное клонирование голоса и ТТС?
Аноним 14/01/24 Вск 22:27:52 #289 №609456 
залетел спросить так как сам не слежу, есть уже что-то где можно закинуть текст книги и скочать аудиокнигу разумеется без смс и регистрации?
Аноним 14/01/24 Вск 22:46:03 #290 №609485 
>>608652
как описано в ОП-посте - сначала silerotts, потом результат в RVC
>>609456
что мешает обучить свою модель под голос этого великого озвучатора https://www.youtube.com/watch?v=AmFNCJnPuz8 и слушать любфые книги, какие захочешь?
Аноним 14/01/24 Вск 23:01:24 #291 №609515 
>>609485
>что мешает обучить свою модель
слабый комплюктор
Аноним 14/01/24 Вск 23:12:49 #292 №609535 
>>609485
у меня есть балаболка но голоса оставляют желать лучшего, а современных йоба голосов как я понимаю в открытом доступе нет, да и все равно это костыльно
Аноним 14/01/24 Вск 23:29:16 #293 №609558 
педопаста 1.webm
>>609535
а что именно тебя не устраивает в голосах?
Вот я сделал вот эту озвучку теми инструментами, которые описаны в ОП-посте. Тебе такого качества не достаточно?

Что ты понимаешь под "йоба-голосами"?
Аноним 14/01/24 Вск 23:42:07 #294 №609587 
>>609558
так я и спрашиваю есть что то что позволяет работать с большим объемом текста за раз с возможностью скачать результат?
Аноним 15/01/24 Пнд 02:57:17 #295 №609697 
out.webm
>>609587
а голова тебе для чего? Суешь книгу в питонячий код, который разделит её на фрагменты и озвучит - получаешь на выходе звуковой файл.
От силы строчек 10 кода займёт.
Аноним 15/01/24 Пнд 03:22:00 #296 №609708 
out.webm
>>609587
вот тебе пример первой страницы пелевинского iphuck-10
У SileroTTS заметна картавость местами, неправильные ударения и она не умеет называть числа из цифр.
По идее с числами можно бороться просто питоном заменяя их на дуквенные обозначения. С ударениями и буквами ё по идее должен бфыл справляться акцентуатор в TeraTTS, но он сломан в мастере и чел забил хуй на проект 4 месяца назад. Ну а с картавостью поможет только обучение нормальной модели.
Тем не менее вот тебе пруф оф концепт работы длинной озвучки.
Аноним 15/01/24 Пнд 07:11:43 #297 №609756 
>>609485
понял
Аноним 15/01/24 Пнд 07:12:34 #298 №609758 
>>609515
так есть обучение онлайн. в каггле например. я кидал выше
Аноним 15/01/24 Пнд 07:13:54 #299 №609760 
>>609708
силеро ттс в плане прогонки дальше через рвс сильно уступает еджттс. Едж умеет и числа читать и ударения в большинстве случаев правильное
Аноним 15/01/24 Пнд 12:37:45 #300 №609999 
>>609760
>Бесплатная, не требующая СМС и регистраций онлайн-система синтеза голоса от Microsoft.
>от Microsoft
фу блять
Аноним 15/01/24 Пнд 12:47:06 #301 №610002 
Нейроаноны вопрос такой, есть опенсорсные/офлайн аналоги chirp/suno?
Аноним 15/01/24 Пнд 14:32:48 #302 №610192 
>>609697
>>609708
пощадите я подпивас, а не кулхацкер
Аноним 15/01/24 Пнд 15:11:27 #303 №610277 
>>609999
ОНА И БЕЗ ТЫРНЕТА РАБОТАЕТ. А ТО ЧТО ОТ МАЙКРОСОФТ ТАК ЭТО ПРОСТО ПРОГРАММА. ДАННЫХ ОНА О ТЕБЕ НЕ СОБИРАЕТ
Аноним 15/01/24 Пнд 15:12:37 #304 №610280 
>>610192
так что тебе надо? Текст озвучить? Так силероттс и еджттс без ограничений вроде локально озвучивают. Я пасты и на 30 минут и на час озвучивал. Потом через рвс прогоняешь. Как модель делать? Так датасет с голосом нужен а потом онлайн можно. Если есть вопросы пиши в тред помогу.
Аноним 15/01/24 Пнд 21:06:41 #305 №610790 
>>610280
>рвс
что такое рвс? Кстати, такой нубовопрос. Если все говорилки кажутся пресными, есть способ как-то эмоции расставить в тексте? может с помощью параллельной дорожки?
Аноним 15/01/24 Пнд 21:22:47 #306 №610807 
>>610790
rvc это смысл этого треда
Аноним 15/01/24 Пнд 21:43:17 #307 №610824 
image.png
>>610790
ну эмоции примерно можно добавить через SSML https://github.com/snakers4/silero-models/blob/6b0bb8a7637d791fbb7adf22c56af1c89758ff19/examples_tts.ipynb
Аноним 15/01/24 Пнд 22:04:16 #308 №610844 
>>610807
>rvc это смысл этого треда
Elevenlabs
Аноним 15/01/24 Пнд 22:09:07 #309 №610847 
>>610824
там через тэги?
А нельзя как-нибудь прям через внутреннее представление нейросети? Играть с параметрами эмбеддингов? Там наверняка есть проекции связанные именно с эмоциями.
Аноним 16/01/24 Втр 06:42:44 #310 №611132 
>>610844
эмммм. нет. опенсурс вперед rvc топ!!!!
Аноним 16/01/24 Втр 12:15:20 #311 №611275 
>>611132
С RVC ещё надо поебаться, чтобы он хорошо работал
Аноним 16/01/24 Втр 14:19:21 #312 №611381 
>>611275
что именно надо сделать?
Аноним 16/01/24 Втр 15:29:15 #313 №611461 
Люди, вы не знаете названия той программы, которая очень хорошо воспроизводила речь людей, которая была в обороте в форчане ровно год назад?
При помощи которой Джоан Роулиг заставляли зачитывать пасту you will never be a real woman или Эму Уотсон Мою борьбу.
Аноним 16/01/24 Втр 15:30:56 #314 №611464 
>>611381
Поставить на комплюктор, как-нибудь натренировать модель (а хорошо может получиться не с первого раза), потом ещё нужно где-нибудь сгенерировать более-менее нормальный голос и уже только тогда можно сконвертировать его в нужный. В ElevenLabs это всё делается за пару минут, вот только нужно много платить
Аноним 16/01/24 Втр 16:55:26 #315 №611529 
>>611464
ЩАС НАШИ БРАТКИ КИТАЙЦЫ ПОДНАЖМУТ И БУДЕТ ЛУЧШЕ ЕВЕНТЛАБС НАШ РВС!!!!
Аноним 16/01/24 Втр 17:00:18 #316 №611534 
>>611464
ндааа, дейсвительно. этож целый час ебаться
Аноним 16/01/24 Втр 17:17:49 #317 №611550 
>>611534
>этож целый час ебаться
Это когда ты уже знаешь как там всё работает, и что тебе нужно примерно делать
Аноним 18/01/24 Чтв 03:48:37 #318 №614996 
Только вкатываюсь, как рвс тренируется вроде понял и оно плюс-минус нормально работает если я сэмплы сам записываю своим голосом и потом их прогоняю.
Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Аноним 18/01/24 Чтв 04:54:51 #319 №615009 
>>614996
> Есть ли какая-то хуйня чтобы натренировать ттс чтобы оно паузы и ударения расставляло как надо?
Не думаю, что ты что-то однокнопочное найдёшь под такую задачу. Весь попенсорс по TTS какими-то васянами на коленке пишется.

https://habr.com/ru/articles/767560/
В TeraTTS пытались именно ударения пофиксить, но вышел какой-то кал, на мой взгляд.

https://github.com/coqui-ai/TTS
XTTS выкладывали какие-то скрипты для файнтьюна и обучения своих моделей с нуля, можешь их попробовать раскурить.
Аноним 18/01/24 Чтв 05:16:13 #320 №615012 
>>615009
Спасибо. Я еще погуглил немного, но пока выглядит не очень радужно.
Аноним 18/01/24 Чтв 19:10:57 #321 №615669 
>>565990
а можешь прогнать на итальянском?
Аноним 18/01/24 Чтв 22:00:08 #322 №615894 
ближе.mp4
время.mp4
скатман.mp4
воскресенье.mp4
>>608672
Аноним 19/01/24 Птн 01:24:34 #323 №616112 
sector.webm
lieder.webm
>>615669
+ немецкая версия без кривых стыков
Аноним 19/01/24 Птн 02:29:16 #324 №616171 
>>616112

охуеть. Но мат перводит плохо

последний запрос пожалуста

https://www.youtube.com/watch?v=_Hv-iypFLrU
Аноним 19/01/24 Птн 02:45:11 #325 №616174 
>>615894
> время.mp4
Омерзительно, но в то же время ностальгически гипнотично.
Аноним 19/01/24 Птн 02:48:59 #326 №616175 
Dnd Russian Old.mp4
>>616171
It failed.
Аноним 19/01/24 Птн 05:07:18 #327 №616216 
romana.mp4
francais.mp4
jap.mp4
greek.mp4
>>616171
Что бы ещё попробовать...
Аноним 19/01/24 Птн 05:11:12 #328 №616217 
hindi.mp4
turk.mp4
slovak.mp4
с русского на русский.mp4
Жалко нет латыни, иврита, белмовы, баскского, албанского...
Аноним 19/01/24 Птн 05:22:03 #329 №616221 
>>616216
>>616217
мне б еще на итальянском что нибудь
Аноним 19/01/24 Птн 08:37:17 #330 №616254 
autunno.mp4
aspettiamo.mp4
carro di merda.mp4
>>616221
Аноним 19/01/24 Птн 09:07:00 #331 №616270 
es.mp4
coniglietto.mp4
того же кринжа навалил, что и на немецком
Аноним 19/01/24 Птн 09:07:34 #332 №616271 
labra.mp4
Аноним 19/01/24 Птн 14:44:34 #333 №616807 
Есть чё по STT лучше виспера? Кал же натуральный, ну. Кое-как понимает английский, а русский вообще ни в пизду, ни в красную армию.
Аноним 19/01/24 Птн 16:29:00 #334 №617086 
Чуваки, ищу человека который сможет помочь спич ту спич
Аноним 19/01/24 Птн 16:40:41 #335 №617108 
>>617086
За деревянные естественно
Аноним 19/01/24 Птн 19:57:40 #336 №617598 
>>617086
а чем там помочь?
Аноним 20/01/24 Суб 00:19:12 #337 №618529 
grünes licht.webm
brunnen.webm
frau.webm
Аноним 20/01/24 Суб 00:19:47 #338 №618531 
pferde.webm
Ну а тут не знаю, ржать или плакать.
Аноним 20/01/24 Суб 06:15:08 #339 №619164 
sessione.mp4
Аноним 20/01/24 Суб 08:55:44 #340 №619225 
smettetele.mp4
hör auf.mp4
вся игра слов конечно заруинилась
Аноним 20/01/24 Суб 13:30:17 #341 №619460 
>>617598
Спич2спич
Аноним 20/01/24 Суб 13:51:46 #342 №619469 
>>619460
а че делать то? Модель обучить или просто прогнать голос через рвс?
Аноним 20/01/24 Суб 15:50:25 #343 №619589 
>>619469
Обучить модельку (или найти готовую для рвс) и прогнать мою озвучку в голос модельки
Аноним 20/01/24 Суб 16:20:42 #344 №619627 
>>619589
готов. кидай тг
Аноним 21/01/24 Вск 07:12:50 #345 №620870 
sanox.mp4
самое современное что знаю
Аноним 22/01/24 Пнд 17:33:55 #346 №622448 
>>552016 (OP)
Насколько RVC умеет в экстремальный вокал? Получить на подобии криков Рушии https://www.youtube.com/watch?v=PcvATSahB8o в сочетании с обычным возможно?
Аноним 22/01/24 Пнд 18:42:37 #347 №622595 
https://riverside.fm/transcription
Вот это я понимаю, все бы нейронки такими были. ПРОСТО зашёл с ноги на сает, засунул туда что угодно и сколько угодно и играйся себе до усрачки.
Аноним 22/01/24 Пнд 21:17:37 #348 №622840 
>>619589
так где ты анон?
sage[mailto:sage] Аноним 23/01/24 Втр 01:43:59 #349 №623142 
ВОССТАНОВИМ СПРАВЕДЛИВОСТЬ ЗАНЕСЁМ СТАЛИНА ОБРАТНО В МАВЗОЛЕЙ ! Абдуль.mp4.mp4
Аноним 23/01/24 Втр 07:43:59 #350 №623351 
vento.mp4
due mani.mp4
gattino.mp4
Аноним 23/01/24 Втр 14:40:51 #351 №623660 
Ебёна мать, я всего лишь хочу озвучить свой сценарий в Арме 3, а тут какую-то документацию курить надо, куда меня занесло...
Аноним 23/01/24 Втр 15:36:22 #352 №623733 
дымбыр-дамбыр.webm
кувака.webm
Лади Светӥ - Пуны.webm
kizeń piziemie.webm
Какой нейронкой можно одним кликом перевести это to text?
Аноним 23/01/24 Втр 15:59:55 #353 №623758 DELETED
>>623733
sd автоматик
Аноним 23/01/24 Втр 17:57:55 #354 №623918 
Подскажите нейросеть которая меняет язык говорящего на другой
Аноним 23/01/24 Втр 18:43:37 #355 №623969 
>>623918
в евент лабс все
Аноним 23/01/24 Втр 20:31:25 #356 №624148 DELETED
>>623918
sd автоматик
Аноним 23/01/24 Втр 20:34:30 #357 №624152 
>>623918
Из локальных rvc в шапке глянь.
Аноним 25/01/24 Чтв 02:53:28 #358 №625276 
Анон, сейчас есть что то близкое к качеству Eleven Labs в плане TTS? На инглише.
Аноним 25/01/24 Чтв 14:53:16 #359 №625545 
>>622448
Бамп
Аноним 25/01/24 Чтв 16:41:18 #360 №625737 
image.png
vc.mp4
Подписка на elevenlabs заканчивается через 4 дня. Анон можешь реквестировать что-либо
Аноним 25/01/24 Чтв 22:46:13 #361 №626337 
Есть какая-нибудь нейронка, чтобы по одному клику бесплатно без реги можно было:
- "дорисовать" всратый/жатый некачественный монозвук с кассеты до вылизанного студийного стерео?
- отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
консольно-пердольное с кучей команд тоже норм
Аноним 25/01/24 Чтв 22:47:38 #362 №626344 
goodbye.webm
trial.webm
>>625737
Ну вот это на немецкий например)0
Аноним 25/01/24 Чтв 22:52:13 #363 №626350 
biorobot.webm
Или это.
небось слишком тянуче и оруче, ничего не распарсит
Аноним 25/01/24 Чтв 22:53:45 #364 №626356 
assquadron.webm
ex.webm
Тоже на немецкий порофлить.
Аноним 25/01/24 Чтв 22:57:06 #365 №626358 
recognize.webm
Всё, хватит.
ещё кто-то на итальянский просил что угодно, тоже можно всё это прогнать
Аноним 26/01/24 Птн 08:27:36 #366 №626716 
gericht.webm
Ладно, сам одну запилил. Ну вот так звучит блатняк на немецком, кек.
Аноним 26/01/24 Птн 11:06:45 #367 №626821 
Поможет ли мне AI спик фром май харт без акцента? Я видел демку, где чучмекам заменяют их голоса на синтезированные, но мне надо, чтобы голос оставался мой. Не в реальном времени.
Аноним 26/01/24 Птн 11:35:37 #368 №626835 
>>626356
эскадрон уже на все языки перевели мне кажется, смотри по тредам
Аноним 26/01/24 Птн 18:14:37 #369 №627218 
А никто не пробовал еще https://github.com/myshell-ai/OpenVoice/ ?
Аноним 28/01/24 Вск 01:12:12 #370 №628793 
neuro.webm
>>622595
О, и сразу в виде сабов может распаршенный текст оформить. А вот что получается, если языка нет даже в этой широчайшей базе и выбираешь хоть как-то похожий...
Аноним 28/01/24 Вск 17:07:50 #371 №629291 
Какая нейронка нужна чтобы извлечь японскую речь а потом преобразовать ее в русскую? Чтобы перс говорил голосом как на японском но русскими словами.
Аноним 28/01/24 Вск 20:12:07 #372 №629512 
>>629291
Локалок под такое не завезли. Можешь через elevenlabs или heygen сделать. Везде лимиты на бесплатных тарифах.

https://elevenlabs.io/dubbing
https://labs.heygen.com/video-translate
Аноним 29/01/24 Пнд 09:11:08 #373 №630013 
изображение.png
>>622595
Аноним 29/01/24 Пнд 16:25:34 #374 №630274 
>>626337
Нет
Аноним 29/01/24 Пнд 17:32:37 #375 №630343 
>>626337
> - отделить вокал от музыки и скачать оба файла? Если выход в вавках, то вообще круто.
Здесь глянь:
https://2ch-ai.gitgud.site/wiki/speech/#разделение-вокала-и-инстументалки

Работает хорошо только на композициях с малым числом инструментов.
Аноним 30/01/24 Втр 14:13:52 #376 №631010 
>>552016 (OP)
Как сделать чтобы голос ебаным противным металлом не отдавал? От чего это вообще зависит? От качества песни? Да вроде нихуя я попробовал кавернуть несколько идеальных песен без посторонних шумов(чистил их через UVR звучали идеально в итоге) и с ровным голосом всё равно этой хуйнёй в некоторых моментах отдавало. От используемой модели голоса? Вот тут хуй знает, но идеальных мне не попадалось хотя я использовал не то что бы мало. При этом на ютубе смотрю видосики с каверами ну там прям небо и земля, есть такие где даже очень сложные песни сетки поют сука с идеальной интонацией без скрежетящего говна. Может я что-то не так делаю? Каверю вроде по гайду через RVC.
Аноним 30/01/24 Втр 15:46:30 #377 №631104 
>>631010
Зависит от исходника вокальной дорожки, модели RVC и последующего мастеринга и сведения.
Аноним 30/01/24 Втр 16:41:46 #378 №631166 
>>631104
Мне кажется ни от чего не зависит, это баг самой RVC, оно совершенно случайно может начать запинаться, жужжать просто потому что и хуй че сделаешь. Хотя наверное можно нарезать и по отдельности рендерить и возможно конкретные участки получится исправить, но такое себе, хуйня короче это ваше rvc
Аноним 30/01/24 Втр 19:18:44 #379 №631352 
>>631166
Проблема RVC в том, что она заточена под нищекарты и процессоры, по идее там нужно вручную играться с параметрами x_pad, x_query, x_center, x_max в файле config.py для достижения наилучших результатов (если у тебя видеокарта с объёмом VRAM больше, чем 6гб).
Плюс для каждого конкретного случая нужно выбирать модель инференса: pm — днище, harvest — вроде как хорошо работает в низкочастотном диапазоне, crepe — хорошо работает с длинными звуками, rmvpe — даёт широкий вокальный диапазон, хорошо передает интонации, но на длинных звуках моут быть артефакты.
Я обычно прогоняю через 3 модели и потом в аудишне склеиваю лучшие куски как мне надо. Ну и мастеринг, реверб, студио дилей, RX 10. Ручной ебли много, да.
Уже полгода обещают пиздатую-распиздатую RVCv3, но воз пока на месте.
Аноним 30/01/24 Втр 20:54:16 #380 №631501 
>>631352
>тебя видеокарта с объёмом VRAM больше, чем 6гб)
у меня 2 гб, но она из озу отжирает и вроде норм, но чем больше отжирает, тем больше артефактов, странно. вот еще, чем мне не нравится rvc, так это тем, что настроек минимум, документации тоже, никто особо не понимает, как она работает, что конкретно писать в эти x_... итд
Аноним 02/02/24 Птн 05:18:43 #381 №633550 
Почему буквально все нейронки, которые связаны со звуком - протухшее говно мамонта? Постоянно натыкаюсь на то, что все репозитории заброшены уже лет по пять-семь, а авторы пропали без вести. Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
Аноним 02/02/24 Птн 08:57:42 #382 №633583 
>>633550
Сделай нормально сам.
Аноним 02/02/24 Птн 13:12:34 #383 №633704 
>>633550
>Да даже рвц не ставится на современное окружение, нужны какие-то дремучие версии библиотек.
ну во-первых для винды уже все готово, а для линукса есть conda, не так уж и сложно подобрать версии, я же смог как-то, причем там только один пакет выебистый, насколько я помню

алсо вот, но никто не заценил
>>627218
Аноним 02/02/24 Птн 16:49:44 #384 №633828 
K4vDU3i7ajk.jpg
Ну вот, маленько попердел вчера и запилил три Генкиных ковра на аукцыон и один на Леонтьева. Душевно. Ссаными тряпками не кидайтесь, няши.

https://youtu.be/wWISPDmGWic
https://youtu.be/rWM5op1tA1w

Его манера под довольно раслабленный вокал аукцыона не прямо чтоб очень подходит, зато всякие завывания и рррыки прямо заебись, даже специально из живого исполнения вырезал и конвертил.
На очереди одна подходящая данному персонажу шуточная песня Владимира Семёныча, но там нужно сводить уже наконверченый вокал, где хорошие акценты и интонации, с нормальным гитарным фоном из другой записи, то есть хз когда будет.
Аноним 02/02/24 Птн 19:56:43 #385 №633930 
>>633583
Если б я мог нормально сделать - готовое не искал бы.
>>633704
>ну во-первых для винды уже все готово
Ага, конечно.
>но никто не заценил
Они пишут, что нет поддержки ничего, кроме линукса. Даже если заработает, то непонятно как и надолго ли.

Накатил в одно окружение xtts, whisper и рвц. Видеокарту видит только xtts. Переустановил торч с кудой. Рвц заметил видеокарту, xtts всё ещё норм. Виспер такой - какая видеокарта? Нет нихуя. При том что rvc полудохлый, xtts умирающий, в виспер вроде как живой и должен поддерживаться. Ебётся в одно ядро, спасибо, что даже так быстро работает.
Аноним 02/02/24 Птн 20:26:58 #386 №633942 
>>633930
>Ага, конечно.
что ага, качаешь архив, распаковываешь и запускаешь файлик из папки, все работает, все окружение с нужными пакетами уже там, не выёбывайся. даже на дохлом амуде обожекакойпиздец работает. про видеопамять и шаманство с параметрами писали выше

btw когда я сервак арендовывал, проблем не было ни с 2080, ни с 4090, ни с теслой, хотя может потому что они все один и тот же драйвер кушают. там единственная ебля была в том, как pytorch с cuda накатить, но это один раз сделал и забыл
Аноним 02/02/24 Птн 21:58:19 #387 №633980 
>>633942
>и запускаешь файлик из папки
Хуй знает, у меня даже рекваирментс не все поставились автоматом. Да и пути к окружению нужно исправлять. Пока оно там переустанавливалось три раза, уже скачал другой софт и сделал, что хотел, по-другому. Вроде, запускается рвц без ошибок, но использовать пока так и не использовал.

Транскрибировал виспером тысячу+ файлов, текст, озвученный профессиональным актёром на студии, без фонового шума и помех, частота 22050. Идеальные условия, по сути. Отслушал пока сотню, ошибки в 45, причём если на файл две-три ошибки, это всё ещё считается за одного. Нет, это не смолл модель. Что смешно, есть ошибки в одинаковых фразах, но виспер ошибается в разных местах.
Ещё закинул аудио после пары фильтров, небольшой реверб и понижение тона. Где-то вдвое хуже результат, посмотрел десяток файлов, в четырёх даже язык неправильно опознал, без ошибок два. Что будет с фоновыми шумами, страшно представить.
Аноним 03/02/24 Суб 09:28:57 #388 №634162 
yeahteensotests.mp4
ЕСЛИ У ТЕБЯ ЕСТЬ ТРУДНОСТИ, ТО У ТЕБЯ ЕСТЬ ЦЕЛЬ
Аноним 03/02/24 Суб 11:59:08 #389 №634227 
carapusici.webm
Хм, а если разделить трек на вокал и музыку в вавках, засунуть вокал в ылэвынлабс, потом отремастерить и заново смиксовать с минусом? Ну какчество явно получше получается.
Аноним 03/02/24 Суб 14:20:23 #390 №634284 
>>634227
>засунуть вокал в ылэвынлабс
Охуеть от количества символов, которые он там у себя насчитал
Аноним 04/02/24 Вск 03:57:52 #391 №634831 
GPU.png
Хули с голосовыми нейронками такая боль дырка задница? С картинками проблем нет, с текстом проблем нет. Голос? Пизда. Запустил тренировку coqui-ai/TTS, сожрало всю vram, потом сожрало всю ram, карту ебёт на полшишечки, зато ебёт процессор. Серет ворнингами "депрекейтед" в консоль, что уже вот-вот и эти функции работать перестанут. Ну, думаю, мне-то что, сейчас один раз натренирую, а потом в рот оно ебись. В итоге один хуй отвалилось с ошибкой доступа к файлу.
>PermissionError: [WinError 32] Процесс не может получить доступ к файлу
Походу, у них какой-то долбоёб писал код, из одного потока логи создал, из другого пытается в них писать. В ишьюз нашёл, официальный ответ - мы не поддерживаем шиндовс. Типа в юникс-системах можно открывать один файл из разных потоков и всё будет хорошо.
Повезло, что из конфигов можно поставить один поток для работы, но, учитывая что оно не может работать только на GPU, тренировка будет супермедленная.

Что ещё не превратилось в окаменевшее говно мамонта и быстро делает text to speech? Пока что из всего, что тыкал, реально работает только силеро, но там нельзя добавить свои голоса или как-то это настроить. Кроме питча, лол.
Аноним 04/02/24 Вск 23:10:02 #392 №635357 
Beidoutannersong1.mp4
Первая годная генерация которая у меня вышла, все остальные песни с артефактами и скрежетом. Как вы вытаскиваете из песни вокал так, чтобы нейронка могла его нормально озвучить?
Аноним 04/02/24 Вск 23:24:56 #393 №635369 
>>635357
> вытаскиваете из песни вокал
Нашёл такую хуиту: https://vocalremover.org/
Аноним 05/02/24 Пнд 09:38:47 #394 №635582 
>>635369
двачую, давно использую, алсо там можно на инструменты разделить, полезно, если ты сам музыку делаешь

из минусов - оно как-то портит бас и в целом эквализацию музыки, поэтому никакой кавер не будет звучать так же хорошо, как и оригинал
Аноним 06/02/24 Втр 06:44:17 #395 №636494 
xtts.webm
>>634831
Я так понимаю, тред дальше rvc не ходит? Как вы текст в речь-то переводите?
Посмотрел в собаке силеро, у них такотрон и хайфайган, но реализация - моё почтение. Надеюсь, у них код автоматически генерируется, иначе это клиника. Зато понятно, почему на видимокарточке медленнее, везде хардкод cpu.
XTTS на "добавленных" моделях работает из-под палки, всё время норовит отрыгнуть, а родная 1.8гб, если тренировать - сразу улетает за 5 гигов. Работает это всё, очевидно, медленно. И хуёво.
Аноним 07/02/24 Срд 03:39:20 #396 №637261 
3275937791796006698.mp4
>>552016 (OP)
Нужен мой голос. Есть решения RVC для Win 7?
Или платно но не дорого
Аноним 07/02/24 Срд 12:40:52 #397 №637376 
>>637261
>Нужен мой голос. Есть решения RVC для Win 7?
а че, из шапки не работает что-ли?
Аноним 07/02/24 Срд 13:11:36 #398 №637389 
20240207-1010-13.0838756.mp4
>>636494
Аноним 07/02/24 Срд 15:23:15 #399 №637438 
3247698063871375378.mp4
>>637376
Мне нужно обучить на мой голос
Десктоп Rvc не работает на Виндоус 7. Коллаб зпебывает лимитами Есть альтернативы? Желательно бесплатно
Аноним 07/02/24 Срд 15:56:29 #400 №637458 
>>637438
бесплатно можно найти виндовс 11
Аноним 07/02/24 Срд 17:53:52 #401 №637629 
2024-02-07 17-46-45.mp4
xxx.png
>>637389
Бля, я рилтайм хотел. Чтобы задержки пониже.
Олсо упёрся в ударения и прочее. Что смешно, в более толстожопых решениях ударений нет. Можно из силеро выдернуть, но, опять же, учитывая что это питон, задача та ещё.
Аноним 07/02/24 Срд 19:23:08 #402 №637687 
>>637629
скинь ттску эту и как запускать
Аноним 07/02/24 Срд 19:23:29 #403 №637688 
>>637687
я про видос
Аноним 07/02/24 Срд 19:33:36 #404 №637697 
>>637687
https://docs.coqui.ai/en/latest/inference.html
Это вот это. Только они почти везде пишут про подключение сторонних штук типа витса, такотрона и т.д. При этом имеют свою gpt2 модель, которая XTTS_v2.0_original_model. Я гоняю файнтюн этой модели, который по каким-то причинам разожрался до пяти гигов с базовых 1.8 гигабайт. В сетке 16 языков, как выпилить все остальные - хуй его знает, при тренировке указывал, чтобы тренировался только русский, ему поебать.
Аноним 07/02/24 Срд 19:41:35 #405 №637707 
>>637697
можешь нормально объяснить?
Аноним 07/02/24 Срд 19:41:56 #406 №637709 
>>637697
как этим пользоваться
Аноним 07/02/24 Срд 19:51:33 #407 №637719 
>>637707
Создаёшь окружение. Если совсем влом ебаться с питоном, то скачивай анаконду. В неё есть гуй, удобно. Создаёшь там новое окружение, environment. Гонять разные сетки в питоне без разных окружений околоневозможно. Потом запускаешь это окружение, там кнопка плей и жми опен терминал.
https://docs.coqui.ai/en/latest/tutorial_for_nervous_beginners.html
Установка описана здесь. По сути, всё что надо сделать - вбить в консоль
>pip install TTS
Это не даст тебе возможности редактировать файлы самой ттски, но оно тебе надо? Если надо, клонируй гит. Там это тоже есть.
Для генерации вот это
https://docs.coqui.ai/en/latest/inference.html
Скроль до Python 🐸TTS API, спизди весь этот код в файл.
speaker_wav="my/cloning/audio.wav"
Нужно отредактировать, это путь к голосу, который ттс будет пытаться имитировать, любой вав 6-10 секунд. Без него нельзя. И запускай файл.
Аноним 07/02/24 Срд 20:14:18 #408 №637740 
>>637719
спасибо!
Аноним 07/02/24 Срд 21:08:02 #409 №637788 
>>637438
у меня сервер оплачен и простаивает, кидай исходник, могу обучить
Аноним 07/02/24 Срд 22:02:31 #410 №637830 
>>637719
>спизди весь этот код в файл.
Спиздил. Куда теперь этот файл сувать и как его через анаконду запускать?
Аноним 07/02/24 Срд 22:17:42 #411 №637843 
1.png
>>637830
>Куда теперь этот файл сувать
Так проебом вообще.
В анаконде у тебя будет окружение, которое ты создавал и куда установил TTS. Там жмёшь опен терминал. Потом пиздуешь через cd к файлу, который сохранил.
cd C:/my_folder/
Здесь нужно помнить, что если твой файл не на том же диске, что окружение, то есть не на С, то нужно хуярить
cd /d D:/my_folder/
Потом хуяришь в консоль
python my_file.py
У меня файл называется bark.py и лежит в папке D:/tts, то есть в консоль я хуярю
cd /d D:\TTS
python bark.py
Аноним 07/02/24 Срд 22:26:36 #412 №637849 
>>637843
Пон
Аноним 08/02/24 Чтв 10:06:59 #413 №638061 
Как формируете датасет при обучении rvc? Обучал на 20 треках, 200 эпох. 3.3 минуты. Качество записи отвратительное. Нужно не для вокала, а для озвучения текста.
На сайтах пишут разные требования:
> For better quality, try to obtain at least 30 minutes of voice.
> Примерная длина всех аудио от 1 до 30 минут, оптимально от 3 до 10 минут (лучший вариант - 5 минут с большим охватом спектра голоса)

Если дообучать на новых данных, то старые можно удалить? Слышал о перетренировке.
Аноним 08/02/24 Чтв 20:09:01 #414 №638359 
>>637788
А как я буду пользоваться если надо будет что озвучить, тебя снова просить?
Аноним 10/02/24 Суб 23:09:39 #415 №639743 
Хочу натренировать RVC-модель на англоязычном датасете, чтобы потом использовать его на русской говорилке. Ничего, что датасет английский? Нормально получится?
Аноним 11/02/24 Вск 02:10:38 #416 №639842 
>>639743
Должно быть ок. Во втором ОП-пике по идее англоязычная модель была для RVC.
Аноним 11/02/24 Вск 09:50:43 #417 №639957 
Das Demo.webm
>>634227
>>635369
Попытка перевести так песню целиком.
Аноним 11/02/24 Вск 15:58:03 #418 №640083 
video.mp4
sts-test full.mp4
Аноним 11/02/24 Вск 16:01:37 #419 №640089 
А я всё никак из 1999 не вылезу.
Аноним 11/02/24 Вск 19:36:04 #420 №640228 
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 4.00 GiB total capacity; 2.78 GiB already allocated; 0 bytes free; 2.86 GiB reserved in total by PyTorch)

Чо делать? 1050ti.
Аноним 11/02/24 Вск 20:20:46 #421 №640254 
>>640228
если просто - купить видяху поновее
Аноним 11/02/24 Вск 20:31:59 #422 №640260 DELETED
куда в стабле дифьюжен класть видео и куда звук, который хочу наложить? если можно скриншоты.
Аноним 11/02/24 Вск 20:55:11 #423 №640267 
>>640254
Вообще больше вариантов нет? Пробовал заменить 10 кусков по 10 минут на 1 длиной в 5 минут, результат тот же.
На колабе RVC можно тренировать?
Аноним 11/02/24 Вск 21:44:34 #424 №640309 
>>640228
на 1050 не трень. есть множество способов онлайн тренить
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ новая версия
https://youtu.be/L-emE1pGUOM?feature=shared обучалка
Аноним 12/02/24 Пнд 20:33:41 #425 №640842 
>>637719
ну все. переставил систему. через пару дней забабахаю для этого гуй
Аноним 12/02/24 Пнд 21:17:33 #426 №640877 
>>640309
Не работает. Заканчивает тренировку на необходимом количестве эпох и пишет:
Файл модели "mi-test" не найден.
При этом пишет, что промежуточные результаты при достижении n-ной эпохи сохранены, но в директории их нет.
Вот кусок кода, ответственный за сохранение:
https://pastebin.com/0K8qFQVG
Видимо баг, не позволяющий создать директорию, потому что в Output нет папки Weights.

Есть ли другие варианты?
Аноним 13/02/24 Втр 03:46:01 #427 №641136 
Привет аноны, гость с издача в вашем треде
А вот эти ваши сетки можно как-то использовать для того чтобы аудиокнигу записать?
Аноним 13/02/24 Втр 06:55:01 #428 №641164 
>>641136
А мне наоборот - чем быстро преобразовать кучу записей из многомногочасовых файлов в текст? Желательно чтоб работало без инета, идеально распаршивало хоть 20 спикеров на разных языках с качеством "диктофон в туалете" и помечало тайминг.
тупо хочу найти в записях нужные слова, чтобы не перелопачивать всё вручную
Аноним 13/02/24 Втр 07:04:13 #429 №641166 
>>640877
хмммм. недавно тренил норм было все
Аноним 13/02/24 Втр 07:05:12 #430 №641167 
>>641136
да, можно конечно. Сначала ттс книгу эту в речь преобразовываешь а потом через рвс и все
Аноним 13/02/24 Втр 07:12:45 #431 №641169 
>>641164
Whisper
Аноним 13/02/24 Втр 12:39:35 #432 №641297 
Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.

Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
Аноним 13/02/24 Втр 14:53:51 #433 №641412 
>>641297
> Ребят спасибо большое разобрался с RVC. Очень понравился форк mangio-RVC.
Можешь рассказать, в чём его плюсы? Я его пробовал ставить, кроме различий по стилям и возможности выставлять эпохи выше 1к ничего не заметил.

> Теперь такой вопрос. Какие репозитории есть для tts. Можно ли так же тренировать для определенных людей?
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts
На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу, есть такая тулза чтобы одним кликом это делать - https://github.com/daswer123/silero-rvc-tts-ru-gui Я не видел проектов TTS, где были бы готовые скрипты для тренировки своих голосов. Может кто-нибудь другой знает.
Аноним 13/02/24 Втр 15:09:35 #434 №641422 
>>641167
А есть клиенты для этого типо webui?
Аноним 14/02/24 Срд 07:15:52 #435 №642000 
>>641422
для ттс? Полно.
https://github.com/hinaichigo-fox/rus-edge-tts-webui
https://github.com/hinaichigo-fox/rus-silero-webui
вот например
Аноним 14/02/24 Срд 13:03:00 #436 №642131 
ugly.webm
2000.webm
Аутизм с песнями задом наперёд можно поднять на новый уровень.
Аноним 16/02/24 Птн 07:47:55 #437 №643216 
Der Tick.webm
>>639957
Вторая попытка.
Аноним 16/02/24 Птн 13:24:09 #438 №643339 
>>641412
Да это тоже самое просто там есть экстрактор mangio crepe

Если датасет качественный то он дает результаты намного намного лучше rmvpe. Ну а если неочень датасет то впе лучшее решение.

Ну и просто коллаб прописан намного лучше. Он на английском и очень удобный. Я видел колаб RVC он был на кеитайском и я в ужасе закрыл.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Аааааа теперь я понял.

>На свои голоса вроде как никто не обучает, обычно делают TTS, а потом через тот же RVC перегоняют к нужному голосу

Слушай а в TTS же задача намого шире чем RVC. А какого рода тренировках значит идет речь? Файн тюнинг под другой язык?

Я ктому что явно у TTS моделей ограниченное количество токенов в понимании. Значит он можно воспринимать текста только с натреннированных языков?
Аноним 17/02/24 Суб 18:27:00 #439 №644267 
>>552016 (OP)
Сап аноны
А есть че для STT что может в потоковом режиме голос с микро в текст преобразовывать?
Аноним 17/02/24 Суб 18:27:49 #440 №644269 
>>644267
Бля, забыл добавить, имеется ввиду локально, у себя на компе
Аноним 18/02/24 Вск 04:19:02 #441 №644764 
1.mp4
2.mp4
3.mp4
4.mp4
А что если распарсить идиш как немецкий...
Аноним 18/02/24 Вск 21:39:18 #442 №645662 
image.png
Кто-нибудь делал успешно клон своего голоса для генерации озвучки английского текста в ElevenLabs? Может есть какие-то неочевидные моменты или годные советы?
Аноним 19/02/24 Пнд 14:07:52 #443 №646222 
>>645662
Делал для озвучки на русском, но не своего голоса.
Единственный совет качество источников голоса важнее их количества.
Речь свою наверное лучше записывать естественную, как если бы ты с кем-то говорил, а не монотонное чтение чего-либо, так как Елевенлабс копирует и манеру речи.
Аноним 21/02/24 Срд 17:55:15 #444 №647952 
Есть тут кто-нибудь кто tts на русском языке тренил?
Аноним 21/02/24 Срд 20:30:50 #445 №648084 
>>645662
Натрень tacotron модельку просто
Аноним 22/02/24 Чтв 22:40:15 #446 №649268 
> https://github.com/Purfview/whisper-standalone-win

Быстрый скомпилированный для винды whisper, добавьте в шапку.
Аноним 22/02/24 Чтв 23:04:33 #447 №649288 
Уважаемые, с weights.gg голоса скачать можно?
Аноним 23/02/24 Птн 07:56:02 #448 №649457 
>>649288
конечно
Аноним 23/02/24 Птн 10:23:02 #449 №649496 
11wtf.png
Всё, пиздарики, плоти регься подписька? Сколько раз ни пробовал, через что только ни стучался, даже тор - резко раз и ни в какую. В обед вчера обработало последний файл и теперь постоянно вот это говно вылазит, хоть какой файл подсунь, даже самый мелкий.
Аноним 23/02/24 Птн 13:44:32 #450 №649612 
>>649457
А как? Мне предлагает только через сайт с голосом работать, а скачать не предлагает.
Аноним 23/02/24 Птн 14:16:44 #451 №649631 
image.png
>>649612
Аноним 23/02/24 Птн 15:00:09 #452 №649674 
>>649268
https://github.com/SYSTRAN/faster-whisper
Они выходит вот это в exe упаковали? Смущает, что у проекта из твоего поста никаких сорцов нет. Или не там смотрю?

Хотя автор проекта faster-whisper в своём readme его упоминает как "Standalone CLI executables of faster-whisper for Windows, Linux & macOS".
Аноним 23/02/24 Птн 15:34:42 #453 №649695 
.png
.png
>>649268
https://github.com/ggerganov/whisper.cpp
От жоры кстати не имеет смысл упомянуть версию? Или оригинальное решение от OpenAI + https://github.com/Purfview/whisper-standalone-win будет достаточно?

Добавил инфу об этом варианте whisper'а в шаблон и в вики:
https://2ch-ai.gitgud.site/wiki/speech/speech-shapka/
https://2ch-ai.gitgud.site/wiki/speech/#распознавание-речи-stt
Аноним 23/02/24 Птн 18:28:27 #454 №649841 
>>552016 (OP)
>надо было ставить линукс
А есть ли ещё какая-то версия этой песни с ИИ голосом Линуса? Мне кажется я раньше слышал другую версию где-то.
Аноним 23/02/24 Птн 20:11:47 #455 №649924 
Анон, просвети ньюфага. Вот если у меня есть только пожелания для песни (например, романтичная песня про линукс) - это в Suno Chirp. Если у меня есть только текст песни, то это туда же - мотив и музыку оно само подберëт.

А теперь задача посложнее. У меня есть минусовка (допустим, "Светит незнакомая звезда") и переделанный текст-пародия ("Глючит незнакомая винда"). Какая нейронка может мне его спеть на заданную музыку? Suno Chirp не может...
Аноним 24/02/24 Суб 15:51:37 #456 №650580 
>>413975
Нету там нихуя. Бля, лень самому генерить, да и мощностей нету, есть у кого Денис Беспалый RVC?
Аноним 24/02/24 Суб 15:52:44 #457 №650581 
>>650580
https://2ch.life/ai/arch/2024-01-02/res/314948.html
от данного треда если что
Аноним 24/02/24 Суб 16:05:26 #458 №650599 
>>650580
Блять https://t.me/AINetSD_bot, ладно.
Аноним 24/02/24 Суб 16:29:02 #459 №650629 
Что скажите по поводу использовал TTS для ютуб канала? Говно или уже норм?
И что лучше использовать? ElevenLabs?
Аноним 24/02/24 Суб 16:37:37 #460 №650648 
>>650629
Я лично юзаю свой голос и через нейронку его обрабатываю, в итоге результат вроде и ты говорил, но понять что это был ты только через манеру речи, а так слышится норм.
Аноним 24/02/24 Суб 22:35:18 #461 №650964 
>>650648
А через какую нейронку ты обрабатываешь голос?
Аноним 24/02/24 Суб 22:51:00 #462 №650979 
Проплатить elevenlabs можно только через всякие платисру с большой наценкой?
Аноним 25/02/24 Вск 02:14:24 #463 №651151 
есть гайд по обработке голоса перед кавером?
если в песне источнике голос с эхом или ревёрбом, то RVC делает звук говна. нужен именно гайд как в аудишне сделать голос "плоским" что ли, не знаю как правильно по терминологии, чтобы не было эхо, шумов на занем фоне. пробовал разные аи энхансеры, чуть лучше но всё равно говно выходит.
Аноним 25/02/24 Вск 03:16:08 #464 №651177 
>>651151
Универсального метода нет, всё зависит от того как был сведён исходник. В некоторых случаях хорошо работает Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
Аноним 25/02/24 Вск 12:04:22 #465 №651361 
>>651177
>Center Channel Extractor (тоже самое, что vocal remover, только наоборот)
не наоборот, это работает только если инструменты сильно разведены по панораме, что делается далеко не всегда, ну и как можно догадаться, метод весьма примитивный и звучит как говно.

vocalremover org работает лучше, но жопит нч и вч, так что тут только идти на компромиссы остается
Аноним 25/02/24 Вск 22:27:59 #466 №651851 
>>650648
>юзаю свой голос и через нейронку его обрабатываю
Английский/русский?
Аноним 26/02/24 Пнд 12:38:30 #467 №652171 
image.png
>>650964
на фотке скинул
>>651851
Что английский, что русский, причем модели спокойно что тот, что этот язык обрабатывают (в большинстве случаев)
Аноним 26/02/24 Пнд 17:27:35 #468 №652413 
Какие есть на данный момент лучшие варианты для TTS и STS, для БЫСТРОЙ генерации? Важно именно время генерации
Аноним 26/02/24 Пнд 17:28:10 #469 №652414 
>>652413
Для англюсика, кстати, но не помешает и если будет русский
Аноним 26/02/24 Пнд 17:29:35 #470 №652415 
>>649631
Точно, спасибо.
Аноним 26/02/24 Пнд 18:10:34 #471 №652465 
Есть ли TTS с возможностью манипулировать эмоциональным тоном в разных частях текста?
Аноним 26/02/24 Пнд 19:01:32 #472 №652519 
>>652465
https://github.com/snakers4/silero-models/wiki/SSML
Аноним 26/02/24 Пнд 20:19:04 #473 №652581 
>>555243
Так, падажи. А подскажи вот что. У меня есть 30 минут голоса. Я хочу натренировать модель и потом писать текст и чтобы он озвучивался натренированым голосом. Я так понимаю что это не про RVC ?

Глобально задача такая - хотелось бы (не знаю есть такое или нет) качнуть локально голосовую нейронку, типа как качаешь локально SD или Foooocus, тренируешь модель и потом пишешь текст и оно локально тебе генерит голос. Не хотелось бы все это в облаках делать. Вижу что есть какая-то ебала с тем, что одна сетка только голос меняет, другая еще что-то, третью надо в облаке хуярить и т.д. Может в курсе?
Аноним 27/02/24 Втр 14:42:12 #474 №653260 
>>652581
Есть XTTS, который по небольшой записи может делать синтез по тексту напрямую нужным тебе голосом. Я его мало тестил, мне не особо зашло, хотя многие нахваливают.
Спейс на хаггине: https://huggingface.co/spaces/coqui/xtts

В случае с RVC тебе действительно придётся использовать две разных сетки, так как RVC может преобразовывать голос только в уже существующей записи. Из-за этого сперва надо сгенерировать запись по тексту на любом голосе. Из локальных сеток для такой задачи мне больше всего зашла SileroTTS, из халявных облачных EdgeTTS (Edge явно лучше Silero работает). У Silero ещё проблема в том, что на русскоязычных голосах он не может англоязычный текст озвучивать.

Потестить их в онлайне можно здесь:
https://huggingface.co/spaces/NeuroSenko/tts-silero
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

> пишешь текст и оно локально тебе генерит голос
Есть несколько проектов, которые реализуют конвеер с синтезом по тексту на одной нейронке, и потом приводят их к нужному голосу через RVC. То есть под капотом используются две разных нейронки, но тебе не нужно между ними вручную переключаться. В этом треде такую тулзу кто-то использовал:
https://github.com/daswer123/silero-rvc-tts-ru-gui
Аноним 27/02/24 Втр 14:46:15 #475 №653266 
>>653260
Большое спасибо. Странно что с голосовыми такая ебала, но думаю и до них дойдет прогресс
Аноним 27/02/24 Втр 18:25:19 #476 №653437 
>>552016 (OP)
>Как обучить свою RVC-модель?

Сделал все по инструкции, но вот что интересно, оно пишет, например :
Train Epoch: 33 [58%]

А почему не 100%? Или так и должно быть? Каждая эпоха должна быть соточка или у них там свой мир и свои цифры?

Попробовал промежуточную модель (после примерно 20 или 25 эпох) работает более менее исправно. Голос в RVC меняет, но отдает роботическим пердежом. Попробую пройти все 200 эпох, может будет лучше.
Аноним 27/02/24 Втр 18:40:26 #477 №653459 
>>653437
так это от общего процента так то. 58% от всех эпох. короче забей. это норма
Аноним 27/02/24 Втр 22:30:29 #478 №653702 
>>553729
Все роботы.
Аноним 27/02/24 Втр 22:52:35 #479 №653730 
>>552016 (OP)
Натренил модель в RVC. Если просто чисто один голос и никаких шумов, вздохов и прочей хуеты, RVC все хорошо меняет. Но если есть что-то посторонее, то просто распидорашивает все, оно прямо все звуки пытается заменить что ли голосом? То есть если мне надо заменить голос, то его придется чистить от всего?
Аноним 27/02/24 Втр 23:22:44 #480 №653778 
>>566224
Так ты сам написал
> speech to speech пока только на английском.
Аноним 27/02/24 Втр 23:40:58 #481 №653799 
>>583662
Название этой чудо нейронки в студию, пожалуйста!
Аноним 27/02/24 Втр 23:42:56 #482 №653802 DELETED
>>588634
>диктора из 90х
Аноним 27/02/24 Втр 23:48:28 #483 №653807 DELETED
>>653802
Аноним 28/02/24 Срд 06:52:22 #484 №653985 
>>653730
Да, всё верно. Для разделения трека на голос/остальное есть такие решения:
Онлайн: https://vocalremover.org
Оффлайн-UI с поддержкой кучи нейронок для данной задачи: https://github.com/Anjok07/ultimatevocalremovergui

https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6
Для последнего в секции релиза можно качнуть сразу архив со всеми зависимостями, чтобы не надо было вручную питон и прочее настраивать.
Аноним 28/02/24 Срд 16:59:17 #485 №654265 
>>649496
Бамп. Пробовал на другом железе, подождать день, два, три - бесполезно, сразу после попытки загрузки webm - тот же самый Workspace None not found. Не гуглится по этому вообще ничего, в новостях про elevenlabs тоже молчок. Это что, шедоубан какой-то?
Аноним 29/02/24 Чтв 14:13:16 #486 №654878 
image
image
Сап, нейрач.
Нужно менять голос в реалтайме.

Парни, где найти обстоятельный гайд по Voice Changer'у или RVC с данной задачей, чтоб прям было написано куда жать и что делать?
В шапке никакого гайда нет (пикрил)
В нейронках полный нубас, ничего не запускал ни разу.
Аноним 29/02/24 Чтв 23:31:12 #487 №655272 
Есть ттс куда можно добавить словарь, что бы ттс нормально зачитала? Хочу себе аудиокнигу сделать
Аноним 01/03/24 Птн 00:55:57 #488 №655376 
>>552016 (OP)
нужен гайд или нейронка чтобы можно было легчайшим способом сделать простую модель двух голосов и чтобы эта нейронка распознавала текст в сэмпле
мне надо видос сделать с текст ту спичем но чтобы основная часть была из оригинала наверн ну или максимально приближенная к оригиналу
самый быстрый варик это елевен лабс но там надо шекели платить каким то хуесосам а я не хочу у меня нет денег я нищий уебан
знаю что я быдло но тяга к творению у меня с рождения извините элитарии потерпите
Аноним 01/03/24 Птн 11:28:30 #489 №655545 
Сап двач!
Хотел сделать аи кавер где персонаж из сериала поёт под один трек, прогонял акапеллу несколько раз через rvc с разными зипками этого персонажа но всегда получалось кринжовое говно с артефактами...
Трабл в том что сама капа из трека всратоватая по качеству и походу из за этого нихуя не выходит годно сделать.
Можно как-то отдельно записать как персонаж зачитывает текст и потом протюнить это всё под тон трека?
Аноним 03/03/24 Вск 01:00:48 #490 №657014 
>>642000
а как туда поставить другой голос/найти другие голоса?
Аноним 03/03/24 Вск 07:47:20 #491 №657116 
>>657014
я поставил все русские. другие голоса только пиндосские. создать низя такие вот ттс(
Аноним 03/03/24 Вск 20:05:48 #492 №657513 
>>657116
А этот голос никак к ней нельзя присобачить?
(Но в целом спасибо тебе человек за сделанную тобой работу, очень благодарен) Просто, быстро, понятно и без ебли)
Аноним 03/03/24 Вск 20:06:18 #493 №657515 
>>657513
https://t.me/modelkigolosov/485
Аноним 03/03/24 Вск 20:30:26 #494 №657537 
>>657513
пиндосские?
Аноним 03/03/24 Вск 22:57:57 #495 №657699 
>>657537
Брежнева
Аноним 04/03/24 Пнд 01:01:58 #496 №657775 
>>654878
БАМП РЕКВЕСТУ, чуханы.
Аноним 04/03/24 Пнд 07:08:52 #497 №657871 
>>657699
то голоса рвсшные а тут ттс. конечно же ты можешь делать как я . озвучивать в ттс текста а потом прогонять через рвс с нужным голосом
Аноним 04/03/24 Пнд 18:19:18 #498 №658218 
В краю древних предков я рос чужаком.mp4
Вот скажите, это разве Clear and high voice (написано в промте)? гавно какое то
Аноним 04/03/24 Пнд 20:02:21 #499 №658368 
xttsv2-banana-finetune-webm.webm
Сделал разговорный файнтюн XTTSv2 Banana для русского языка. Основан на голосовых сообщениях с матом от 5 разных девушек.

- добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
- лучше справляется с ударениями в словах (мат, разговорная лексика).
- только для русского языка, остальные языки остались неизменными.
- основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
- обучение заняло всего 1 час.

Веса: https://huggingface.co/Ftfyhh/xttsv2_banana
Аноним 04/03/24 Пнд 20:08:32 #500 №658380 
image
>>564287
>>566224
Как ты это сделал в элевенлабсе? Платный акк?
С бесплатным не даёт такого.
Аноним 06/03/24 Срд 14:32:29 #501 №661502 
>>658368
Офигенно, анон. Не помню, чтобы тут кто-то ранее тьюны TTS-моделей делал. Ты в какой среде тренил - шинде, wsl или на никсах? Что-то на винде у меня проблемы с запуском, билд-тулзы не видит. Буду на wsl пробовать.
Аноним OP 06/03/24 Срд 14:35:16 #502 №661506 
Есть предложения по правкам шапки до переката?

В вики надо будет инфу про styletts2 и тьюн XTTS докинуть.
Аноним 06/03/24 Срд 14:44:35 #503 №661518 
>>658368
> для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.
Анон, такой вопрос появился - а не думал попробовать расширить датасет синтетикой? Обучить на том же датасете RVC-модель, взять любую речь с готовыми титрами, перегнать её к нужному голосу и дообучить на этом результате?

Я просто хочу взять датасет с голосом моей аниме-вайфу (на японском) и русскоязычную TTS-модель на этом сделать. В моём случае это, кажется, единственный вариант.
Аноним 06/03/24 Срд 15:41:08 #504 №661623 
>>661506
предложений нет. делай перекат
Аноним 06/03/24 Срд 19:11:09 #505 №662072 
>>661506
Где ссылка на одиннадцать лаборатория?
Аноним 06/03/24 Срд 19:12:24 #506 №662075 
>>662072
А нахуй она нужна? RVC во всем лучше, если у тебя комп не нищий
Аноним 06/03/24 Срд 23:46:45 #507 №662435 
>>662075
>>662072
Тогда, вероятно, стоит добавить ссылки и на прочие проприетарные системы с краткой инфой, раз по ним тоже контент в тред кидают. Я их мало смотрел, есть что добавить?

Коммерческие системы

https://elevenlabs.io перевод видео, синтез и преобразование голоса
https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то
https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>495948 (OP)
Аноним 07/03/24 Чтв 07:08:13 #508 №662628 
aggressive scientist snaps during lunch break.mp4.mp4
>>662435
Можешь мемес в шапку добавить.
Аноним 07/03/24 Чтв 16:25:54 #509 №663142 
>>661506
https://www.kaggle.com/code/varaslaw/aisingers-rvc-rmvpe-https-t-me-aisingers-ru/ скрипт для обучения модели рвс в каггл https://youtu.be/L-emE1pGUOM?feature=shared обучалка
Аноним 07/03/24 Чтв 16:35:10 #510 №663167 
Насколько RVC сложнее для генерации голоса чем Elevenlabs, особенно без мощного компьютера?
Аноним 07/03/24 Чтв 16:59:16 #511 №663201 
>>663167
ну хз. моя 1050 ти генерирует аи кавер за время аудио+1-2 минуты.
Тебе что надо? РВС только для того чтоб модели обучать или юзать. речь ты там не сгенерируешь. только голос преобразуешь. Генерировать речь эт нужно сначала в ттс а потом в рвс с моделью. Обучаешь модель(что можно сделать онлайн) и делаешь нужное аудио. профит
Аноним 07/03/24 Чтв 17:22:24 #512 №663259 
>>658368
Всё звучит как всратый робот, че тут офигенного.
Но продолжай делать, будет лучше.
Аноним 07/03/24 Чтв 20:59:23 #513 №663553 
>>661502
Тренировал в Win11. Проблем с софтом не было, все завелось с первого раза. Обнови репозиторий xtts, вдруг поможет.

>>661518
> расширить датасет синтетикой
Моя цель была сделать голос более живым, а тут, скорее, будет обратный эффект.
> аниме-вайфу
Простое клонирование голоса в XTTS не дало нужного эффекта? Закинь 10 секунд ее голоса в xtts на японском и попроси говорить на русском.
Аноним 07/03/24 Чтв 21:26:34 #514 №663596 
>>663201
>Тебе что надо?
Как раз генерация речи. Приходится для этого оплачивать каждый месяц подписку в ElevenLabs, хотя там раз на раз не приходится и часто получается немного шлака среди хорошего материала, а на всё это уходят ограниченные символы
Аноним 08/03/24 Птн 01:25:57 #515 №664096 
.png
>>663142
Не хочу рекламу платных скриптов вставлять. Вставлю ссылку на видео и напрямую на фришный скрипт: https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru/notebook?scriptVersionId=143284909
ПЕРЕКАТ Аноним OP 08/03/24 Птн 02:46:36 #516 №664166 
>>664162 (OP)
>>664162 (OP)
>>664162 (OP)
Аноним 08/03/24 Птн 07:15:08 #517 №664235 
>>664096
так в видосе обучалка только. а по ссылке скрипт
comments powered by Disqus

Отзывы и предложения