Голосовых нейронок тред (TTS, STS, STT) #4 /speech/

Аноним 07/10/23 Суб 21:32:20 #1 №511205

16927037020551.mp4

Обсуждаем нейросети, связанные с синтезом, преобразованием и распознаванием речи. Не забываем публиковать свои шедевры в треде.

Text To Speech (TTS) 📝 👉 🎤

Silero
Российская разработка, легковесный, быстрый, относительно качественный. Поддерживает много языков, включая русский.
https://github.com/snakers4/silero-models

Есть 2 GUI:
Для всех систем: https://huggingface.co/spaces/NeuroSenko/tts-silero
Для винды, более продвинутый проект формата "всё в одном" (TTS/STS/TTS), часть функционала платная: SoundWorks, https://dmkilab.com/soundworks

Официальный бот в телеге. Требуется подписка на новостной канал. На бесплатном тарифе есть лимиты на число запросов в сутки: https://t.me/silero_voice_bot

Данная нейронка не обладает высокими системными требованиями. Если хотите запустить на своём компьютере, то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест. Если используете несколько нейросетей - используйте Anaconda / Miniconda!
Гайд: https://textbin.net/kfylbjdmz9

Нет возможности тренировки своих голосов, но возможно сделать генерацию с одним из имеющихся голосов, и потом преобразовать получившийся файл через STS (смотри ниже).

Elevenlabs
Онлайн-сервис синтеза и преобразования английского голоса. На бесплатном тарифе ограничения по числу символов в месяц.
Сайт: https://elevenlabs.io/speech-synthesis
Гайд по использованию и общие советы: https://rentry.org/AIVoiceStuff

VITS-Umamusume-voice-synthesizer
Только на японском, 87 голосов.
ХагингФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

MoeGoe и MoeTTS
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
Кажется можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Speech To Speech (STS) 🎤 👉 🎤

Оба проекта SVC и RVC позволяют обучать модели на любой голос, в том числе свой, любимой матушки, обожаемого политика и других представителей социального дна. Для обучения своих моделей нужен датасет от 10 минут до 1 часа. Разработчики софта рекомендуют для обучения использовать видеокарту с объёмом памяти 10 GB VRAM, но возможно обучение и на видеокартах с меньшим объёмом памяти.

Преобразование голоса можно осуществлять как на видеокарте, так и на процессоре с меньшей скоростью.

SoftVC VITS Singing Voice Conversion Fork (SVC)
Репозиторий: https://github.com/voicepaw/so-vits-svc-fork
Гайд по установке и использованию: https://rentry.org/tts_so_vits_svc_fork_for_beginners

Готовые модели:
https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com
https://huggingface.co/models?search=so-vits-svc
https://civitai.com/models?query=so-vits-svc
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/svc-models/tree/main )

Для изменения голоса в песнях вам дополнительно необходимо установить софт для отделения вокала от инструменталки: https://github.com/Anjok07/ultimatevocalremovergui

Не поддерживает AMD GPU на Windows.

Retrieval-based-Voice-Conversion-WebUI (RVC)
Репозиторий: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
Где взять последнюю версию: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Готовые модели:
https://discord .gg/aihub (канал voice-models) UPD: сервер выпилили, бекапы здесь: https://www.weights.gg | https://voice-models.com
https://huggingface.co/juuxn/RVCModels/tree/main
https://t.me/AINetSD_bot (зеркало https://huggingface.co/NeuroSenko/rvc-models/tree/main )

Утилиты для отделения вокала от инструменталки идут в комплекте.

Speech To Text (STT) 🎤 👉 📝

Консольная тулза от OpenAI, поддерживает множество языков, включая русский: https://github.com/openai/whisper

Прочее 🛠️
Утилита для нарезки длинных аудиотреков (пригодится для составления датасетов): https://github.com/flutydeer/audio-slicer
Чтобы создать видео из аудио, можно использовать FFMPEG, но если лень - есть GUI, SoundWorks (ссылку см. выше) - Tools \ Video \ Produce still video
Загрузить аудиофайл, чтобы поделиться в треде: https://vocaroo.com/upload

Ссылки на эти проекты мелькали в прошлых тредах, но не похоже на то, чтобы их активно использовали итт:
https://github.com/w-okada/voice-changer/blob/master/README_en.md
https://themetavoice.xyz/
https://github.com/coqui-ai/TTS

Шаблон для переката: https://rentry.co/byv2s
Предыдущий тред: >>461500 (OP)

Аноним 08/10/23 Вск 00:27:59 #2 №511364

Иногда проскакивает электронный звук/артефакт в букве Ц например. Это из за некачественного исходника? или из за некачественно обученой модели? Кто как с этим борется?

Аноним 08/10/23 Вск 08:03:02 #3 №511502

Годные ттски
https://github.com/hinaichigo-fox/rus-silero-webui - русская силероТТС
https://github.com/hinaichigo-fox/rus-edge-tts-webui - русская ЕджТТС. Лучше всего подходит для следующей перегонки через рвс

Аноним 08/10/23 Вск 13:47:00 #4 №511670

>>511502
По интонации все равно понятно что робот озвучивает а не человек

Аноним 08/10/23 Вск 14:11:25 #5 №511687

>>511670
у меня на силеровский голос бая встает. Кажется что реальная девушка говорит

Аноним 08/10/23 Вск 18:17:11 #6 №512000

Анон, как справляться с хором? Например у меня такой трек: везде обычно, а на 1:09 начинается часть с хором, на которой модель ахуевает
Вокал оригинала: https://voca.ro/19M1lMTqz676
Мой кавер: https://voca.ro/1itbIvewKIm8

Аноним 08/10/23 Вск 21:11:21 #7 №512319

>>512000
Никак, вырезай его, он не поддаётся трансформации.

Аноним 09/10/23 Пнд 01:48:40 #8 №512695

>>511205 (OP)
>Retrieval-based-Voice-Conversion-WebUI (RVC)
Пиздец, все на китайском.
А есть гайд, как ей пользоваться, на русском или английском?

Аноним 09/10/23 Пнд 02:22:13 #9 №512735

изображение.png

Пытаюсь вкатиться в нейронки, но, кажется, в несколько архаичном порядке. Сначала задрочил математику перцептрона и еще пару алгоритмов и их голые реализации, затем tensorflow, затем pandas.
Прямо сейчас мне нужно воспользоваться Silero из шапки треда.
Я пытаюсь запустить пример, но не пойму, как в этом ебаном формате юпитера, которым я пользуюсь в первый раз, вскормить питону ввод, которого данная ячейка, очевидно, требует.
Заодно скажите, какая там команда позволяет узнать, с каким именно питоном мы имеем дело.

Аноним 09/10/23 Пнд 02:22:35 #10 №512737

изображение.png

Аноним 09/10/23 Пнд 02:31:53 #11 №512752

>>512735
>>512737
А, проехали, я наконец поднял глаза на 20 сантиметров наверх

Аноним 09/10/23 Пнд 07:14:08 #12 №512871

>>512695
чем пользоваться? Тебе обучение или создание аи каверов описать?

Аноним 09/10/23 Пнд 07:14:56 #13 №512872

>>512695
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki

Аноним 09/10/23 Пнд 07:17:08 #14 №512873

>>512735
под шапкой треда я кидал ссылку на хорошее вебуи для силеро

Аноним 09/10/23 Пнд 23:20:08 #15 №513761

Чел Сенко музыка ты охуенный

Аноним 10/10/23 Втр 23:49:10 #16 №514800

file.mp4

dubbing (6).mp4

Быстрый даб без липсинка
https://elevenlabs.io/dubbing

29 языков с одного на другой

Аноним 10/10/23 Втр 23:53:53 #17 №514803

16960631458360.mp4

dubbing (4).mp4

Аноним 10/10/23 Втр 23:54:26 #18 №514805

dubbing (3).mp4

dubbing (1).mp4

Аноним 11/10/23 Срд 00:34:24 #19 №514843

>>514803
4 языка - один народ

Аноним 11/10/23 Срд 09:49:19 #20 №515004

26d57716-124e-4729-b807-372b13f01cc1.mp4

Аноним 11/10/23 Срд 13:05:16 #21 №515095

1.mp4

resultvoice (3).mp4.mp4

4еп34п4пп4ы.mp4.mp4

16911367570090.mp4.mp4

16855313446630.mp4.mp4

>>514800

Аноним 11/10/23 Срд 13:46:38 #22 №515124

>>514800
Не работает чет, пишет try again

Аноним 11/10/23 Срд 14:43:50 #23 №515166

term.mp4.mp4

Аноним 11/10/23 Срд 14:44:50 #24 №515169

>>515124
надо зайти на сайт через почту

Аноним 11/10/23 Срд 15:21:09 #25 №515188

FOREST GUMP Meeting Jenny for the first time Scene HD Video 1994 (2).mp4

Аноним 11/10/23 Срд 15:22:36 #26 №515191

The Avengers (2012) - Tony Stark Genius, Billionaire, Playboy, Philanthropist Movie Clip .mp4

Аноним 11/10/23 Срд 17:15:03 #27 №515364

>>515191
Бля, на самом интересном месте!

Аноним 11/10/23 Срд 17:36:19 #28 №515392

3b1834a2-77ff-4311-a66a-d09c4ea8159e.mp4

d20168c8-ca19-4c48-8196-4921a5d5016c.mp4

Аноним 11/10/23 Срд 23:31:57 #29 №515832

>>515191
Какая-то гачи-версия Мстителей

Аноним 12/10/23 Чтв 02:11:33 #30 №515940

image.png

https://disk.yandex.ru/i/yrSqvLJOuy0jNA

ElevenLabs это какой-то рандом с низким шансом сделать годноту, полдня перебирал реплики одной сцены чтоб было более менее. Голоса прям актёров, но шопот плохо разбирает прога и ударения ставит в разнобой. Эх, была бы возможность текст редактировать - можно актёров дубляжа сразу на улицу выбрасывать, но пока сыро.

Аноним 12/10/23 Чтв 02:26:31 #31 №515945

mkyd24294692694.mp4

Аноним 12/10/23 Чтв 04:16:01 #32 №515988

мы всегда будем здесь.webm

мы всегда будем здесь.webm.mp4

пытался для немытой ваты сделать перевод этой годной реплики, но нихуя, получается мусор цифровой.

Говно этот АИ, актеры озвучки пока будут в порядке.

Аноним 12/10/23 Чтв 05:52:04 #33 №516010

>so-vits-svc-fork
Аноны, не появилась там возможность учить на фонемах русского языка?

Аноним 12/10/23 Чтв 05:52:58 #34 №516012

>>515988
> мелкобуква что-то пискнула
Meh...

Аноним 12/10/23 Чтв 06:51:41 #35 №516024

>>516012
)
как легко задеть чувства немытой ваты и заставить ее ответить на свой пост

Аноним 12/10/23 Чтв 07:05:21 #36 №516027

>>515988
>актеры озвучки пока будут в порядке.
>Активная движуха с нейронками около года.
>Уже ГПТ4 высрали, уже почти точные копии голосов делают школьники на коленке, рисовач. За один ебаный год.
>Говно этот АИ, актеры озвучки пока будут в порядке.

Аноним 12/10/23 Чтв 07:13:24 #37 №516030

>>516027
Рвись попка.

Аноним 12/10/23 Чтв 10:08:44 #38 №516131

А где можно скачать голос санбоя pth+index для Mangio-RVC?

Аноним 12/10/23 Чтв 10:21:37 #39 №516144

>>516131
сори, пиздоглаз - https://huggingface.co/models?search=sunboy

Аноним 12/10/23 Чтв 12:14:13 #40 №516232

Чет стремно мне на ютуб лить озвучку чьим-то голосом. А ну как страйк кинут? Есть какая-нибудь синтетическая безкопирастная модель с хорошим английским?

Аноним 12/10/23 Чтв 12:42:34 #41 №516260

>>516232
>А ну как страйк кинут?
Кинут, не переживай, повода для этого не нужно. Заливая что-то на чужую площадку, нужно сразу понимать, что оно заведомо пропало, и не беспокоиться по этому поводу.

Аноним 12/10/23 Чтв 12:57:24 #42 №516271

>>515095
>3
Умора, просто уписиваюсь

Аноним 12/10/23 Чтв 13:02:45 #43 №516275

Стикер

>>514800
>>515095
Бля пиздец аноны. Вот с svc надо сначала тонну времени угрохать модель натренить, потом накладывать её на речь. И после этого она будет кортавить как иностранец. А тут всё на лету делается за секунды.
Это как вообще? Это с помощью чего такое? Ссылочку на репозиторий можно? Или это какие-то секретные разработки госдепа которых нет в открытом доступе?

Аноним 12/10/23 Чтв 13:02:46 #44 №516276

>>516260
Судя по твоему комменту, ты с ютубом знаком чисто теоретически, а я спрашивал совета практиков.

Аноним 12/10/23 Чтв 13:44:36 #45 №516315

>>516275
> Ссылочку на репозиторий
Попенсурсоманьки совсем ебанулись.

Аноним 12/10/23 Чтв 13:44:36 #46 №516316

изображение.png

>>516275
>Или это какие-то секретные разработки госдепа которых нет в открытом доступе?
Ты логотипа не видишь? Конечно же проприетарщина. Впрочем, они примерно вторые после меты.

Аноним 12/10/23 Чтв 17:43:36 #47 №516710

Кто пробовал обучать модельку на шакальных записях телефонного разговора?
Выходит аутентично типа как запись с диктофона, или совсем пиздец?

Аноним 12/10/23 Чтв 18:07:08 #48 №516738

>>516710
>Кто пробовал обучать модельку на шакальных записях телефонного разговора?
На сайте есть демо записи Кейва из игры Portal 2, где его голос в игре обработан под запись. Модель звучит точно также.

Аноним 12/10/23 Чтв 18:30:45 #49 №516761

>>516738
А то здесь все ебутся, шумы вычищают, я вот думаю, может быть не обязательно запариваться в таком кейсе если нужен не чистый результат.

Аноним 12/10/23 Чтв 19:03:28 #50 №516795

Поделитесь опытом очистки шум и выделения вокала из аудиозаписей с шумом? Пользуетесь ли вы UVR для изоляции вокала?

Аноним 12/10/23 Чтв 19:34:29 #51 №516826

>>516795
>Пользуетесь ли вы UVR для изоляции вокала?
А чем собственно ещё?

Аноним 12/10/23 Чтв 20:02:21 #52 №516863

>>516826
а какие модели используешь для очистки аудио от звука? kim vocal? Поделись как ты изолируешь голос. Желательно не с трека а с реального шумного аудио.

Аноним 12/10/23 Чтв 20:17:31 #53 №516885

HEYYEYAAEYAAAEYAEYAA.mp4

Аноним 13/10/23 Птн 02:55:51 #54 №517364

1588485321850.mp4

>>515392

Аноним 13/10/23 Птн 10:41:33 #55 №517561

Adolph Hitler - 1934 Movietone Moment 19 August 2022.mp4

16947672362380.mp4.mp4

16813920439460.mp4.mp4

Аноним 13/10/23 Птн 12:26:09 #56 №517645

Stability выпустили свои инструменты для тренироки аудио моделей https://github.com/Stability-AI/stable-audio-tools

Аноним 13/10/23 Птн 14:22:13 #57 №517707

почти везде сетки голос-голос требуют предварительно заготовленные модели голоса, а как же elevenlabs справляется без всего этого? опять гоев греют поди

Аноним 13/10/23 Птн 15:14:09 #58 №517764

Чем можно нагенерить голос из текста чтобы нагенеренное уже подогнать под .pth модель из rvc?

Аноним 13/10/23 Птн 15:27:22 #59 №517778

ДАЯЛЮБЛЮТЕБЯСериалЯблоневыйсад.mp4.mp4

А какие там лимиты, гайс?

Аноним 13/10/23 Птн 20:18:07 #60 №518254

>>512000
Central channel extraction в Audition.
https://vocaroo.com/1f3szxljCoNE

Аноним 14/10/23 Суб 03:15:51 #61 №518620

dubbing (1).mp4

Heygen всё же лучше озвучивает.

Аноним 14/10/23 Суб 07:10:40 #62 №518689

>>517707
Ну так у них модель может сама зафайнтюнится от одного сэмпла голоса.
Это как IP-adapter в SD, который копирует стиль с одного фото.
Или roop который накладывает лицо с одного фото.

Аноним 14/10/23 Суб 08:00:49 #63 №518695

pic1.mp4

>>515940
>была бы возможность текст редактировать

Аноним 14/10/23 Суб 08:04:44 #64 №518696

это как вообще.mp4

>>516275

Аноним 14/10/23 Суб 08:18:28 #65 №518700

Аноны пытаюсь вкатиться в SoftVC VITS Singing Voice Conversion Fork (SVC). Как я понял там специальные модели нужны? И где конфиг к моделям искать, а то зачастую модели вижу,а конфига к ним нет? И да есть ли тут жесткая зависимость модели от языка на котором она сделана. Для tts как я понял она есть например.

Аноним 14/10/23 Суб 08:24:12 #66 №518704

>>518696
Охуенно

Аноним 14/10/23 Суб 09:04:06 #67 №518716

>>518695
Чем делал? Это sts?

Аноним 14/10/23 Суб 09:32:11 #68 №518719

228.mp4

>>518716

Аноним 14/10/23 Суб 10:22:41 #69 №518739

>>511205 (OP)
Анончеки, вот есть обученный в колабе рвц голос. Так как теперь колаб агрессивно банит нейронки, я не знаю на чем мне использовать этот голос, так как есть только ноутбук без всяких там нвидиакарточек. Что делать, помогите

Аноним 14/10/23 Суб 13:07:20 #70 №518852

>>518739
Разверни рвц локально, если не запускать тренировку то просто для работы с моделями готовыми говорят хватит и ноута

Аноним 14/10/23 Суб 13:28:49 #71 №518871

Аноны для RVC исходный файл надо как-то по особому подготавливать? А то взял для примера файл без музыки с просто монотонной начиткой голосом. И при наложении голосов почему-то получается вообще даже отдаленно не похоже на оригинал, а голос смещается ближе к писклявому. Может еще какие настройки покрутить? А то я попробовал только понижение октавы и вообще не особо помогло. Модели взял русских голосов и исходник так же на русском.

Аноним 14/10/23 Суб 14:48:14 #72 №518948 DELETED

>>511205 (OP)
>4
Может кто-то так "Прекрасное далеко" запилить?

Аноним 14/10/23 Суб 21:31:59 #73 №519412

изображение.png

Помогите нюфане, поясните почему оно нихуя не видит?

Аноним 14/10/23 Суб 21:36:56 #74 №519415

>>519412
Ты пытаешься использовать RVC-модель для SVC - они несовместимы между собой.

Аноним 14/10/23 Суб 21:37:52 #75 №519416

>>519415
А понял, спасибо

Аноним 14/10/23 Суб 22:12:55 #76 №519443

1014 (7).mp4

а кто автор ?

Аноним 14/10/23 Суб 22:41:01 #77 №519465

>>516885
Сука, орууу!

Аноним 14/10/23 Суб 22:47:48 #78 №519467

>>519443
серебряная свадьба хз

Аноним 15/10/23 Вск 11:36:26 #79 №519699

image.png

Анон, выручай.
Совместными с камрадом усилиями запустил RVC на камне (Жду, когда видеокарта придёт) и наткнулся на такую проблему.
В EasyRVC (Который был на колабе) есть крутилка "Mangio-Crepe Hop Length.", в других версиях RVC её я не нашёл. Но, почему-то, там отсутствует метод rmvpe, который точно был, когда оно висело на колабе.
https://github.com/AKhilRaghav0/EasyGUI-RVC-Fork?ysclid=lnr6u9ryy344916232
Ещё у меня лежит RVC, в которой есть rmvpe, но нет этой крутилки, а она нужна шопиздец.
https://huggingface.co/datasets/Ba1yya/RVC_rmvpe/tree/main

Как забороть проблему? Пытался прикрутить rmvpe, но там больно дохуя файлов, которые приходится переделывать, да и я тут не то что бы сильно понимаю. Или, может, у кого-то есть версия с обоими этими хуйнями?

Аноним 15/10/23 Вск 15:18:11 #80 №519880

>>519699
Отбой.
Как обычно, сначала хуйню спросил, потом подумал. Эта крутилка и нинужна там.

Аноним 15/10/23 Вск 20:09:44 #81 №520196 DELETED

>>511205 (OP)

Аноним 16/10/23 Пнд 00:17:14 #82 №520476

16973941770260.mp4

Аноны, кто-нибудь может перевести это на инглиш?

Аноним 16/10/23 Пнд 02:32:56 #83 №520562

yangge posts 2023-07-12 20.06 {$POSTID}11 1000000017252284179368826352899833739814285n.mp4

>>511205 (OP)

Это она озвучивает?
>>465639 →

Аноним 16/10/23 Пнд 12:03:39 #84 №520769

Neco Arc When.mp4

>>511205 (OP)
Это же сперва человек пропевает а уже потом накладывается нейрота. Я правильно понял?

Аноним 16/10/23 Пнд 12:49:16 #85 №520793

25289539403717292171.MP4.mp4

chirp-35.mp4

645cc22bf430af59dcc6ed30aa009441.mp4.mp4

Аноним 16/10/23 Пнд 16:21:11 #86 №521040

>>520769
Да, суёшь в RVC или SVC модель, обрабатываемую дорожку (вокал нужно отделить от музыки), достаёшь оттуда такой же вокал, но с другим голосом.

Аноним 16/10/23 Пнд 20:57:45 #87 №521538

>>517561
блять анон, замени лицо гитлера на зеленского на 1 видео, это будет вообще 10/10

Аноним 16/10/23 Пнд 21:32:33 #88 №521599

анончики, пожалуйста, не поленитесь, наставьте на путь истинный, я уже изъебался осилять в пустоту

я хочу из своего скрипта отправлять нейронке текст и чтобы она выдавала мне его нужным голосом

как понял я, таков путь: отправляем текст в ттс, полученный файл отправляем в рвс, других вариантов нет?

тогда вопрос, какую ттс использовать лучше всего чтобы из неё делало охуенные результаты рвс?

текст будет только русский и мужской

и пожалуйста, подскажите такую ттс чтобы всё было в 1 папке и ненужно было ебаться с зависимостями, виртуальными средами и прочей хуйнёй

и анончики, поясните пожалуйста для тупых:
- если в форке есть файл install, он качает всё что есть в requirements, всё это говно ставится в эту папку или срёт по всей системе?
- в форке RVC-Project например в папке runtime\Lib\site-packages есть просто куча говн например google, это же всё мусор потому что нахуй ненужно и китаец который собирал этот форс просто пидор?
- все эти файлы в папке runtime в папке Lib и Scripts это же и есть те самые модули которые можно подключить к питону и тем самым расширять его функционал, то есть то что пишется после import?

Аноним 16/10/23 Пнд 21:44:20 #89 №521614

>>521599
Путь действительно один. Отправить текст в ттс и потом в рвс.
Лучшая ттска для отправки в рвс это еджттс https://github.com/hinaichigo-fox/rus-edge-tts-webui это гуи от меня могу подсказать если что надо. Установка простая. Скачиваешь 3 библиотеки
pip install edge-tts
pip install gradio
pip install asyncio
и запускаешь python app.py. Далее в консоли будет ссылка

>- если в форке есть файл install, он качает всё что есть в requirements, всё это говно ставится в эту папку или срёт по всей системе?
Без виртуального окружения тебе всегда будет срать по всей системе.
>- в форке RVC-Project например в папке runtime\Lib\site-packages есть просто куча говн например google, это же всё мусор потому что нахуй ненужно и китаец который собирал этот форс просто пидор?
Это не засорит тебе в системе. И плюсом можешь поискать по коду. Эта библиотека найдется. Там нет ничего ненужного.
>- все эти файлы в папке runtime в папке Lib и Scripts это же и есть те самые модули которые можно подключить к питону и тем самым расширять его функционал, то есть то что пишется после import?
это библиотеки. Библиотеки нужны для сокращения кода. Например вместо того чтобы писать кучу кода ты просто обращаешься к библиотеке и код сокращается в разы

Аноним 16/10/23 Пнд 22:41:45 #90 №521710

>>521614
>Лучшая ттска это еджттс
это тебе ты скозал?
>это гуи от меня
вишмастер там установлен или надо кочать?
>pip install
вот из-за него и не хочу, это пиздец какой-то, в наше время такой хуйни небыло чтобы всё само ставилось, только ручками или портабл

у тебя это просто ттс получается, из него потом нужно в рвс отправлять?
а что насчёт https://github.com/litagin02/rvc-tts-webui скажешь? мне руки не позволяют его поставить из-за всех этих git clone curl venv pip install, у меня какая-то встроенная ненависть к ним, а хочется такую штуку, как блять её наебать чтобы она как рвс без всех этих свистоперделок работало просто из папки просто по батнику

>это библиотеки
точно, они самые, просто я жабаскрипт червь без фреймворков и без опыта в питоне у меня эти ваши библиотеки сложна СЛОЖНА
>Без виртуального окружения тебе всегда будет срать
но ведь рвс работает без всех этих говн просто из папки по батнику, почему ттс не может?

Аноним 17/10/23 Втр 00:08:55 #91 №521810

1656868392079.png

>>521614
Отправил ПР для твоей репы, чтобы настраивать venv и ставить зависимости через запуск одного батника. Инструкцию по установке можно будет сократить до пикрелейтед (только имя своей репы подставь).

Развернул твой проект на HF здесь:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

TTS нетребователен, так что даже на бесплатном спейсе от HF работает быстро. Предлагаю тебе самому спейс на HF развернуть, если будешь дальше правки вносить.

Аноним 17/10/23 Втр 07:13:30 #92 №521966

>>521810
говоришь не на русском. Расскажи что такое ПР.

Аноним 17/10/23 Втр 07:18:18 #93 №521970

image.png

>>521810
как это в код добавить?

Аноним 17/10/23 Втр 07:22:00 #94 №521974

>>521970
а. все. разобрался

Аноним 17/10/23 Втр 07:33:52 #95 №521978

>>521810
Спасибо. Я переделал репу

Аноним 17/10/23 Втр 08:23:32 #96 №521996

>>521966
ПР - PR - Pull Request - Запрос на слияние
Процедура, когда кто-либо предлагает внести правки из одной гит-ветки в другую. Если говорить простым языком про основной сценарий - это когда другой человек предлагает внести свои правки в твой код. Пока ты не добавил правки вручную, на экране с тем ПР должна была быть доступна кнопка вида "Merge pull request", которая в пару кликов добавила бы правки в репу. Сейчас тебе пришлось это делать вручную.

Обычно ПРы используют, когда над проектом работает больше одного человека, чтобы они могли проверять изменения друг-друга перед тем, как слить правки в общую кодовую базу. В случае опенсорса это помогает владельцу репы удобно принимать правки от мимокроков.

Подробнее здесь можешь почитать, если будет желание:
https://git-scm.com/book/ru/v2/GitHub-Внесение-собственного-вклада-в-проекты

Аноним 17/10/23 Втр 09:06:19 #97 №522013

>>521996
спасибо

Аноним 17/10/23 Втр 10:39:17 #98 №522087

senkodrochila.mp4

senkosovietportal.mp4

Есть пайплайн для обработки чего-то сложнее чем цоевское завывание под гитарку? Желательно для безопытных в обработке аудио.

Аноним 17/10/23 Втр 14:38:29 #99 №522213

Анон, привет, ворвусь в тред не читая шапки, с набором конкретных вопросов.
У меня есть задача озвучить несколько реплик, для некоммерческих целей, типо как бы для мемеса, желательно на английском, можно и на русском.
Есть актер забугорный, голос которого хотелось бы использовать, есть кино-фильмы с его участием.
Что мне понадобится чтобы выполнить мою задачу? Буду благодарен если разъясните прямо по пунктам

Аноним 17/10/23 Втр 15:03:50 #100 №522237

>>522213
1.Обучить голосовую модель этого актера.
1.1. Для этого нужно собрать датасет. Лучше всего как минимум 1 час чистой речи.
1.2. Запихнуть в рвс и обучить модель
2. Открыть любой ттс из шапки треда. Например этот https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui . Там на русском озвучить нужный текст.
3.Получить мп3 файл с текстом и переделать его в вав.
4. Запихнуть в рвс с нужной моделью.
Профит

Аноним 17/10/23 Втр 16:19:54 #101 №522280

>>522237
1 час речи или около того, есть. С музыкой правда и прочим дерьмом.
Где достать РВС и как конкретно туда запихнуть аудидорожку для обучения модели?

https://www.youtube.com/watch?v=l5ZsZgEwivU

https://www.youtube.com/watch?v=0bG8boJZ9j4

Аноним 17/10/23 Втр 16:45:42 #102 №522309

>>522280
Чекни этот пост >>484314 → только аудиодорожку для RVC можно не нарезать на кусочки, если в датасете нет голосов других персонажей - RVC сам всё нарежет. Музыку уберёшь из датасета через https://github.com/Anjok07/ultimatevocalremovergui (UVR).

Аноним 17/10/23 Втр 18:21:56 #103 №522372

00019-3116028861.mp4

Аноним 17/10/23 Втр 21:40:50 #104 №522586

>>522087
На ютабе полным-полно гайдов по сведению и мастерингу вокала. Пайплайн в большинстве случаев примерно одинаковый и никакой рокетсаенса там нет. Освоишь — и сможешь делать из говна что-то более-менее похожее на студийную запись. Полезешь в эти дебри чуть дальше — и сможешь вручную корректировать картавость, шипящие и твердые согласные.

Аноним 17/10/23 Втр 22:33:08 #105 №522646 DELETED

Аноним 18/10/23 Срд 01:00:30 #106 №522792

>>522586
Да я хочу тупо голос Трауна в английской версии оторвать и использовать для пары тройки реплик, на случай важных переговоров

Аноним 18/10/23 Срд 11:40:54 #107 №522975

Может кто подсказать где откапать голос славы кпсс для рвц? Чет нихуя не могу найти

Аноним 18/10/23 Срд 15:18:11 #108 №523184

>>522975
Обучи сам. Он же стример ебучий, у него месяцы чистой речи без музла и прочих фонов нарезать можно.

Аноним 18/10/23 Срд 16:43:18 #109 №523237

>>523184
Я в своё время продал душу дьяволу и купил карточку интел за "цена/качество", с коей как мы знаем нейронки не хотят дружить. А на коллабах соединение разрывается через минуту.

Аноним 18/10/23 Срд 18:52:00 #110 №523351

Аноны может кто подсказать приятные женские русские голоса, а то я хз как такое гуглить, а прослушивать все модели подряд такое себе. Напишите пару субъективных примеров если кто использует.

Аноним 18/10/23 Срд 19:20:51 #111 №523376

>>523351
в siletoTTS есть бая голос. Офигенный голос. Ну а так хз

Аноним 18/10/23 Срд 19:46:12 #112 №523406

>>523376
>в siletoTTS есть бая голос. Офигенный голос
Знаю такой, да неплохой голос. Но или у меня сборка косячная, или голос еще не доработан, но при записи какие-то левые звуковые эффекты образуются типо вздохов что-ли и слушать такое тяжело причем именно с этим голосом в другом же от них который использую все нормально.

Аноним 18/10/23 Срд 19:54:10 #113 №523421

>>523406
вздохи классные. я подрочил один раз даже

Аноним 18/10/23 Срд 20:01:06 #114 №523427

2023-10-13.mp4.mp4

>>522646

Аноним 18/10/23 Срд 20:22:46 #115 №523440

Есть ли нейросеть, которая копирует русский голос на качество похуй бесплатно? Нужно одно предложение озвучить, пара секунд. Не для коммерческих целей, а так, мем запилить.

Аноним 19/10/23 Чтв 20:26:34 #116 №524309

>>511205 (OP)
посоны, хочу из текста делать озвучку нужным мне голосом, я как понял нужно сперва ттс озвучить текст, потом через рвс переозвучить нужным голосом, вот этот форк норм будет? вишмастер не разъебут меня? https://github.com/rsxdalv/tts-generation-webui

Аноним 19/10/23 Чтв 20:40:52 #117 №524318

>>524309
Это фигня полная. Бери простые ттски и потом через рвс простой прогоняй. Например возьми еджТТС. Он и для русского и украинского есть. Вот чтобы на пк скать https://github.com/hinaichigo-fox/rus-edge-tts-webui и вот чтобы онлайн https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui . Потом полученный файл прогоняешь через рвс и все

Аноним 19/10/23 Чтв 20:53:50 #118 №524332

блять аноны объясните тупому, я уже горю нахуй

например https://github.com/rsxdalv/tts-generation-webui написано что надо сделать кучу ебаных инсталов, например pip install -r requirements.txt

я правильно понимаю что pip это какойто ебаный файловый менеджер в котором хранится куча урл для скачивания всего того говна что написано в requirements.txt?

а этот пидор не ставит всё это говно сам в свой гит чтобы у меня типа была последняя версия того говна что там написано и которое необходимо для работы его программы и чтобы его программа много не весила до скачивания?

как всё это называется и какое видео можно посмотреть чтобы понять что блять происходит и в чём их логика, в моём понимании это актуальность версий софта который они использовали и малый размер при скачивании с гитхаба

сука хочешь просто скачать ебучую нейронку и запустить из папки, а тут сука куча какихто непонятных ебаных установок, виртуальных сред и хуй пойми ещё чего, а главное хуй пойми куда вся эта блядина ставится, или весь этот мусор ставится в ту же папку откуда я запускаю нейронку?

я просто пишу хуйню для озвучки текста на автомате, и у меня уже получается 5 нейронок надо запускать, сука 5 ебаных консолей говна которое ставит неведомое говно в мою систему и висит срёт в памяти поднимая ебаные сервера, я в ахуе, помогите разобраться просмотром видео от человека который объяснит весь процесс и наъуй так делают, я думаю всё это можно вообще обьеденить в 1 проект и запускать с 1 файла из сосноли

Аноним 19/10/23 Чтв 21:09:53 #119 №524347

1658423788952.png

>>524332
One-click installer пробовал? Правда, там миниконда нужна.

Вообще, если тебе нужно просто несколько фраз переозвучить, то проще делать как этот анон предлагает >>524318 Я лично вообще хз что ты там за комбайн смотришь, хотя может и годное что-то - за все эти форки не шарю.

TTS можно делать в облаке (по ссылке выше), либо скачать его и через bat-скрипты подтянуть зависимости в папку с проектом. RVC качается сразу со всеми зависимостями, там не нужно лезть в консоль.

Аноним 19/10/23 Чтв 21:13:35 #120 №524350

>>524332
>кучу ебаных инсталов,
>например pip install -r requirements.txt
Для тебя прописать пип инсталл реквестст это много?

>я правильно понимаю что pip это какойто ебаный файловый менеджер в котором хранится куча урл для скачивания всего того говна что написано в requirements.txt?

Нет. Пип это не файловый менеджер. Это модуль для установки пакетов. Пакеты нужны для простоты. Вот представь. Что легче? Нести продукты в руках или взять пакет и положить туда продукты? Вот и тут так же чтобы не писать 10000+ строк проггер импортирует библиотеку и код сжимается до 10 строк

Аноним 19/10/23 Чтв 21:30:57 #121 №524366

>>524347
зависимости это типа весь необходимый софт чтобы его скрипты запустились? например тот же gradio?

>>524350
анон у меня боль когда программа ставит непонятно что непонятно куда, у меня зависимость от портабл софта

и всё же получается pip менеджер в котром хранятся все ссылки на нужные версии софта, как ты говоришь пакетов который нужен чтобы скрипт автора нейронки смог стартовать?

Аноним 19/10/23 Чтв 21:33:49 #122 №524371

>>524366
>анон у меня боль когда программа ставит непонятно что непонятно куда, у меня зависимость от портабл софта
Переходи на линукс ставь виртуальные среды!

>и всё же получается pip менеджер в котром хранятся все ссылки на нужные версии софта

Ну не совсем. Через него пакеты нужные можно установить. Ты не идешь на какой нить сайт с исходниками библиотеки и сам ее компилишь а просто пишешь pip install либа и все.

Аноним 19/10/23 Чтв 21:38:52 #123 №524377

>>524366
Лучший совет, анон, не ешь месяц и усердно работай. Заработай себе на 1тб ссд и вставь в комп. и больше не парься по поводу памяти

Аноним 19/10/23 Чтв 21:51:18 #124 №524398

>>524377
лол, если бы в этом была проблема, я не хочу чтобы винда была засрана и биллиард телеметрий собирал записи каждого моего пука

Аноним 19/10/23 Чтв 22:02:20 #125 №524413

1554714479375.png

1675496506754.png

>>524366
> зависимости это типа весь необходимый софт чтобы его скрипты запустились? например тот же gradio?
Всё верно. Зависимости - это либы, которые требуются для запуска проекта. В большинстве случаев они прописаны в файле requrements.txt.

В случае pip зависимости могут ставиться глобально (насрать в систему) или локально.

Для проекта, который анон выше кинул, написаны скрипты, чтобы зависимости ставились в папку venv, которая будет болтаться в корне проекта. То есть оно не будет никуда срать в систему. Для RVC ещё проще - при скачивании стандартной версии (не какого-то непонятного форка) всё зависимости идут сразу в комплекте, то есть оно не будет расползаться по системе и ты всегда можешь снести всю директорию с проектом целиком, точно зная, что не останется каких-то следов в системе.

Аноним 19/10/23 Чтв 22:09:37 #126 №524424

>>524413
вот и я о том, почему нельзя делать 2 версии, одна как они любят дрочить с пипкой, а другая всё говно 1 папке чтобы не ебаться, скачать - запустить, не нравится - удалть нахуй и забыть, нет блять надо всю систему пипками ебать и потом вилкой говно чистить

Аноним 19/10/23 Чтв 22:10:32 #127 №524427

норм TTS? https://github.com/Tera2Space/TeraTTS

Аноним 19/10/23 Чтв 22:25:29 #128 №524455

>>524424
Ну, в том же Stable Diffusion WebUI зависимости автоматически ставятся в папку с проектом при первом запуске. Тут уже зависит от того, насколько сильно разработчик запарился над тем, чтобы его тулзу было легко поставить. Просто в TTS/STS куча форков и мелких проектов - не вышло какой-то стандарт де-факто сделать, как получилось в случае со Stable Diffusion. Так что сотни людей вместо того, чтобы коллективно один проект до ума доводить, пилят каждый свой велосипед, не имея времени/возможности его до ума довести.

Аноним 19/10/23 Чтв 22:55:46 #129 №524472

аноны в папке RVC\runtime\Lib\site-packages очень дохуя всяких файлов, это и есть те пакеты которая ставятся pip и прочей гадостью? это и есть зависимости? то есть то без чего остальной код RVC не заведётся?

тогда непонятно почему их так много, например там есть пакеты гугл и гидра, нахуя в рвс нужно какоето говно для работы с гул? или гидра, насколько я помню это брутфорсер паролей

Аноним 19/10/23 Чтв 23:10:22 #130 №524482

1588611191198.png

>>524472
> это и есть те пакеты которая ставятся pip и прочей гадостью? это и есть зависимости? то есть то без чего остальной код RVC не заведётся?
Всё верно.

> тогда непонятно почему их так много, например там есть пакеты гугл и гидра, нахуя в рвс нужно какоето говно для работы с гул? или гидра, насколько я помню это брутфорсер паролей
Список всех прямых зависимостей для RVC на скрине. Можно погуглить по каждой либе, что она конкретно делает, если хочешь с этим разбираться. При этом каждая либа может тащить за собой другие либы. Вот и получается, что в папке site-packages у тебя больше 300 разных папок, в которых чёрт ногу сломит.

В TTS-проекте, который анон ранее скидывал, подключаются всего три библиотеки, но, тем не менее, в site-packages там 150 директорий, так как либы друг-друга по цепочке тянутся.

Это другая гидра, там что-то про конфигурирование приложений: https://github.com/facebookresearch/hydra

Про гугл не подскажу, допускаю, он тянется другой либой, но не используется по факту. Добро пожаловать в мир современной разработки.

Аноним 19/10/23 Чтв 23:27:00 #131 №524495

>>524427
Челы пилят опенсорсный русскоязычный TTS. Заявляют, что решили проблему с автоматической расстановкой ударений.

https://habr.com/ru/articles/767560/
В комментах срутся с разрабами Silero, лол.

https://huggingface.co/spaces/TeraTTS/TTS
https://t.me/teratts_bot
Вот тут глянуть можно в онлайне.

Аноним 19/10/23 Чтв 23:35:10 #132 №524503

>>524482
>Добро пожаловать в мир современной разработки
пиздец анон, сильнее меня подбрасывает только с ООП и MVC

это как с памятью когда браузер 10гб жрёт или с играми когда пустая локация грузит гпу на 100%, пидоры одним словом а не разработчики

Аноним 19/10/23 Чтв 23:40:17 #133 №524509

>>524482
получается я могу просто скачать нужные все пакеты и закинуть в папку с питоном в папку с скачанным проектом и всё должно завестись если я правильно пути проставлю? и ненужно будет виртуальные среды создавать и инстолы запускать?

а в чём минус дохуя пакетов в системном питоне? начинает тормозить? потому что виртуализацию насколько я понял используют чтобы в основной питон не ставить нужные для гита пакеты

Аноним 19/10/23 Чтв 23:42:30 #134 №524511

>>524495
уже тыкал онлайн версию, мне показалось без хуйни с ударениями озвучка человечнее, ещё скорости надо поддать а то слишком медленно читает, короче можно использовать как основу для RVC?

Аноним 20/10/23 Птн 00:45:01 #135 №524552

silero.mp4

edge.mp4

terra.mp4

>>524503
Ну да, юзеры уплатят за доп. плашку RAM. Такова цена кроссплатформенности и быстрой разработки.

>>524509
> получается я могу просто скачать нужные все пакеты и закинуть в папку с питоном в папку с скачанным проектом и всё должно завестись если я правильно пути проставлю? и ненужно будет виртуальные среды создавать и инстолы запускать?
"Прописывание путей" по сути и есть задание виртуальной среды. Просто ты говоришь питону, что "либы качай/ищи не в стандартной системной помойке, а вот в этой папке".

> а в чём минус дохуя пакетов в системном питоне? начинает тормозить? потому что виртуализацию насколько я понял используют чтобы в основной питон не ставить нужные для гита пакеты
Во-первых, это засирает систему. Ты потыкал тулзу, удалил её, а зависимости мог забыть удалить из системы. В результате, у тебя на системном диске лежит ненужный кал, который никто потом не удалит, и его объём может быть существенным.
Во-вторых, могут быть конфликты версий, когда одна тулза работает только с одной версией либы, а другая тулза только с другой. Разбив это на виртуальные среды ты можешь скачать две разных версии либы и подсунуть то, что каждой из утилит нужно.

>>524511
Ну вот быстро затестил Silero vs Edge vs Tera с последующим изменением голосом в RVC. Имхо, Terra хуже всего себя показала на этом отрывке.

Почему, мистер Андерсон, почему? Во имя чего?.. Что вы делаете? Зачем? Зачем встаёте? Зачем продолжаете драться?.. Неужели вы верите в какую-то миссию — или вам просто страшно погибнуть? Так в чем же миссия, может быть, вы откроете?!.. Это свобода? Правда? Может быть, мир?! Или вы боретесь за любовь?! Иллюзии, мистер Андерсон, причуды восприятия! Хрупкие логические теории слабого человека, который отчаянно пытающегося оправдать своё существование, бесцельное и бессмысленное! Но они, мистер Андерсон, как и Матрица, столь же искусственны!!! Только человек может выдумать скучное и безжизненное понятие — любовь!.. Вам пора увидеть это, мистер Андерсон, увидеть и понять! Вы не можете победить! Продолжать борьбу бессмысленно!!! ПОЧЕМУ, МИСТЕР АНДЕРСОН, ПОЧЕМУ ВЫ УПОРСТВУЕТЕ?!

Ещё такой момент. У Edge плюс по сравнению с Silero в том, что Edge английские слова озвучивает посреди текста, а Silero такое просто пропускает.

Аноним 20/10/23 Птн 07:14:23 #136 №524661

>>524398
> и биллиард телеметрий собирал записи каждого моего пука

Господи. Скажи, о тебе собирает информацию лист бумаги? Пакеты в питоне за тобой следить не будут

Аноним 20/10/23 Птн 07:20:24 #137 №524662

>>524427
ну как бы тебе сказать. Сам процесс обработки текста хороший. Я его возьму. А голос не очень

Аноним 20/10/23 Птн 07:26:49 #138 №524665

>>524552
>Edge английские слова озвучивает посреди текста, а Silero такое просто пропускает.
Так и с числами. Силеро не озвучивает числа. Но от этой фигни можно избавиться.
https://github.com/oobabooga/text-generation-webui/blob/main/extensions/silero_tts/tts_preprocessor.py Вот пример обработчика текста который меняет текст как надо.
https://github.com/Em1tSan/silerotts-webui/blob/main/tts.py
Вот тут уже на русском

Аноним 20/10/23 Птн 11:26:11 #139 №524736

>>524552
блджад, матрица сбоит, откуда ты знаешь что я только что смотрел пранк про мистера андерсона? https://www.youtube.com/watch?v=YWWdtow0cZ0

Аноним 20/10/23 Птн 12:24:46 #140 №524765

>>524552
анон как это выглядит, ты поставил все эти 3 нейронки, установил кучу говна что они просят для запуска, запустил 3, ТРИ СУКА ебаных локальных сервера с гуем, сохранил результаты, запустил ещё ОДИН ЕБАНЫЙ сервер с гуем для рвс, прогнал через него, сохранил, потом взял ЕБАННЫЙ ффмпег, картинку и через ещё одну ебанную сосноль по очереди склеивал картинку с сохранённой аудиодорожкой?

пиздец нахуй ну и страдания блять, 2024 год

Аноним 20/10/23 Птн 12:38:06 #141 №524777

>>524552
>это засирает систему. Ты потыкал тулзу, удалил её, а зависимости мог забыть удалить из системы. В результате, у тебя на системном диске лежит ненужный кал, который никто потом не удалит
а зачем пакетам, насколько я понял таким же питон скриптам загружаться кудато в системные папки? а нельзя просто скопировать питон в папку с нейронкой которую хочешь поставить, закинуть в неё в папку либ необходимые пакеты из реквайрементс и запустить всё это говно не устаналивая питон себе в систему вообще? ведь рвс работает без всего этого, у него там свой питон и библиотеки, он просто запускаются и всё работает ничего не засирая, как мне показалось, возможно конечно он срёт в кучу временных папок и локальные папки пользователя

Аноним 20/10/23 Птн 13:35:42 #142 №524799

>>524552
а что насчёт https://github.com/suno-ai/bark

Аноним 20/10/23 Птн 14:07:37 #143 №524812

https://github.com/rsxdalv/tts-generation-webui тоже на bark работает?

Аноним 20/10/23 Птн 14:51:40 #144 №524830

image.png

Может кто посоветовать чем выдирать вокал, что бы чище всего было и инструментал? Я пользуюсь вот фт, вроде как...нормально?
И чем еще чистить сверху? Я пользуюсь этими двумя, нойс и удаления эха и реварба.

Аноним 20/10/23 Птн 16:55:27 #145 №524891

>>524765
Ну а как ты хотел? Сначала открываешь ттску прогоняешь текст. Потом сохраняешь его и в рвс. Потом с помощью видеоредактора соединяешь картинку и аудио.

Аноним 20/10/23 Птн 17:05:18 #146 №524893

>>524765
Вопрос 1. А че ж ты сам то не сделаешь штуку которая будет все в одном?

Аноним 20/10/23 Птн 18:58:03 #147 №525005

аноны, а что за кеш в нейронках и почему его надо чистить и почему это не происходит автоматом? и как убедиться что после использования нейронки нигде не осталось говно и всё вычистилось? и что за кучи файлов в папках __pycache__? хули всё так засрано и так много непонятных файлов с непонятными расширениями

Аноним 20/10/23 Птн 19:06:58 #148 №525012

>>525005
пайкэш можешь удалить нахрен. Оно каждый раз создается при запуске. В любом даже простецком проекте если юзается какая либо либа запоминающая что то то появляется кэш.

Аноним 20/10/23 Птн 19:16:00 #149 №525020

>>525012
п почему оно само за собой не подтирает? и при использовании рвс там тоже есть кнопка очистить память гпу, что это значит в техническом плане? питон срёт в видеопамять как в эти __pycache__ и не убирает за собой? да что он за мразь такая

Аноним 20/10/23 Птн 19:26:14 #150 №525025

>>525020
я так понимаю ты и в браузере куки каждый час чистишь?

Аноним 20/10/23 Птн 19:48:43 #151 №525035

>>525025
сперва ты узнал что я смотрю пранк про мистера андерсона, теперь узнал про куки, я в матрице?

Аноним 20/10/23 Птн 20:55:40 #152 №525070

посоны, по сути, чтобы не запускать виртуальную среду и не ставить себе всякое говно для её запуска, можно просто кинуть папку с пайтоном в папку с нейронкой и установить в неё все необходимые библиотеки и запускать просто стартовый файл через батник?

Аноним 20/10/23 Птн 20:57:00 #153 №525072

а пайтон можно например скопировать с рвс из папки runtime?

Аноним 20/10/23 Птн 21:03:26 #154 №525075

>>525035
я другой анон. тот пост с сенко не мой

Аноним 20/10/23 Птн 21:03:53 #155 №525076

>>525070
>>525072
Нет. Это так не сработает

Аноним 20/10/23 Птн 21:05:47 #156 №525080

Нет. Твой пароль 123456 не украдут от того что ты запустишь нейросеть. Нет. За тобой не приедут майкрософты и не заберут тебя в анальное рабство. Нет. За тобой не приедет фсб потому что ты сделал кавер на песню про адольфа гитлера.

Аноним 20/10/23 Птн 21:18:26 #157 №525089

>>511205 (OP)
Вот эта тема вин. Нейронки для рисования говно безе задач, а вот это действительно нужно. Кучу контента малоизвестного можно выкатить ан международную арену. Зеленый слоник на японский перевести например.

Аноним 20/10/23 Птн 21:43:55 #158 №525103

>>525076
но почему же анон? инфа сотка? смотрит я даже в ту же папку нейронки что просит запустить виртуальную среду прямо в неё закидываю питон с его файлами, запускаю его через терминал и пипкой ставлю всё что прописано в реквайремент от этой нейронки и запускаю основной файл нейронки через батник прямо из этой папки, почему не должно сработать? ведь путь до питона указан, все библиотеки установлены в папку либ

Аноним 20/10/23 Птн 21:59:35 #159 №525116

>>525103
батник это не основной файл. В батнике простые команды типа старт смд и в ней прописывается старт файл нужный. Ты батник открой в блокноте и увидишь что там. И все поймешь.
Питон не будет работать локально как и другой яп. он должен быть установлен в системе

Аноним 20/10/23 Птн 22:00:33 #160 №525117

>>525116
я щас на линуксе. И я не особо устаю от того что вместо нажатия на старт.бат я пишу в консоли python start.py

Аноним 20/10/23 Птн 23:01:34 #161 №525163

>>525116
ты меня наверно не понял, я говорю что делаю то что описал ранее, потом пишу в батник python.exe tts.py и вуаля, основной файл .py запущен, а там уже подтягиваются прописанные библиотеки из либс, почему же нет? виртуализация насколько я понял это же просто создание временной папки для питона установленного в систему чтобы в него сыпалось всё говно из реквайремент, а тут я просто в ттс добавлю свой питон и установлю всё говно в него, то есть должно же стартовать без виртуализации и сранья в основной птон, хотя мне и на основной питон похуй

Аноним 20/10/23 Птн 23:28:13 #162 №525182

Что анон думает про https://github.com/suno-ai/bark ?

https://github.com/rany2/edge-tts vs. https://github.com/suno-ai/bark куда сам сядешь, куда мать посадишь?

Аноним 21/10/23 Суб 00:36:32 #163 №525250

>>525182
>https://github.com/rany2/edge-tts
>Microsoft Edge's online text-to-speech service
>online
Сразу нахуй.

Аноним 21/10/23 Суб 06:43:36 #164 №525397

>>525250
оно работает и без тырнета

Аноним 21/10/23 Суб 06:50:45 #165 №525398

>>525182
Во первых. Если и юзать еджТТС то с гуи https://github.com/hinaichigo-fox/rus-edge-tts-webui https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui
Ну определенно на еджттс. Из плюсов: скорость, большой словарь с правильными ударениями(в барке как по мне не особо правильные ударения да и говорит с акцентом). В еджттс голос более менее не роботизированный и чистый. В барке появляются дефекты.
Ну а ты сам выбирай. Для чего тебе?
1. Для последующей обработки в рвс это тебе едж ттс
2. Для озвучки текста это тебе в барк

Аноним 21/10/23 Суб 06:51:10 #166 №525399

>>525163
https://youtu.be/lvM9ayZOxoo?feature=shared вот те гайд. Устанавливай питон на флешку и там все делай

Аноним 21/10/23 Суб 06:53:35 #167 №525400

>>525163
Анон. Пробуй. Все в твоих руках!

Аноним 21/10/23 Суб 09:06:17 #168 №525421

>>525398
Тебе платят за рекламу этого твоего гуя?

Аноним 21/10/23 Суб 09:08:31 #169 №525423

>>525421
нет не платят. Полностью бесплатно. Опенсорс лол

Аноним 21/10/23 Суб 10:30:24 #170 №525446

>>525399
ну вот анон, получается виртуальное окружение нахуй ненужно? просто закидываем нужную версию питона в папку с нейронкой, ставим все необходимые библиотеки в этот питон, настраиваем пути и готово? хоть убейте не понимаю нахуй нужна эта виртуальная среда, если можно просто закинуть свой питон в нейронку с нужными библиотеками

Аноним 21/10/23 Суб 10:44:41 #171 №525455

>>525089
Сука заорал с кореянки.

Аноним 21/10/23 Суб 11:03:29 #172 №525461

почему все эти нейронки работают на gradio? питон не может в интерфейс?

Аноним 21/10/23 Суб 11:20:27 #173 №525466

>>525461
может конечно. Только не такой будет как в гардио.

Аноним 21/10/23 Суб 11:20:59 #174 №525467

>>525446
снеси питон но перед этим скопируй питон.ехе и потом запихай в папку. ну и проверь че у тя работает

Аноним 21/10/23 Суб 11:21:08 #175 №525468

>>525467
запусти виртуалку и там тесть лол

Аноним 21/10/23 Суб 11:38:23 #176 №525474

>>525467
у меня нет питона, но рвс работает же без всей этой ебалы из своего локального питона в папке runtime без этих ваших виртуальных сред, отсюда у меня и непонимание нахуй всё это говно, если можно просто закинуть питон с нужными библиотеками в папку с нейронкой и запустить главный срипт через этот питон просто указав до них путь в батнике

Аноним 21/10/23 Суб 11:46:23 #177 №525479

>>525474
а. рвс работает без питона? Нифига себе.

Аноним 21/10/23 Суб 11:46:44 #178 №525480

>>525474
ну так перенеси из рвс файлы в другую нейронку

Аноним 21/10/23 Суб 12:03:41 #179 №525484

>>525479
бля ты жопой читаешь

Аноним 21/10/23 Суб 12:15:24 #180 №525490

>>525484
не могу понять че ты хочешь и почему не хочешь устанавливать питон

Аноним 21/10/23 Суб 12:47:30 #181 №525502

httpsyoutu.bessdmm4fMoQksi=uUYpsfEch83lITcU.mp4

🇺🇦 Гимн Украины — Ще не вмерла України і слава, і воля.mp4

Доброго вечора , ми з України! 💙💛.mp4

Аноним 21/10/23 Суб 12:50:47 #182 №525503

>>525490
не хочу ставить его в систему, зачем если его можно поставить портативно прямо в папку с нейронкой для каждой свой без установки в систему и без предвариельного запуска всяких виртуальных сред, рвс же работает без всего этого говна, значит и остальные должны смоч, как руки доберутся попробую на твой же руттсэджгуй поставить свой питон без установки в систему просто копированием и запустить всё это дело и без виртуальной стреды

Аноним 21/10/23 Суб 12:53:28 #183 №525505

>>525502
что происходит на первом вебм? уколотый шеневмерный навозец через силу поет новый гимн?

Аноним 21/10/23 Суб 12:58:06 #184 №525507

>>525505
Я соло исполнение российских гимн на скорую руку не нашел

Аноним 21/10/23 Суб 13:09:58 #185 №525510

>>525503
пробуй тогда. если в рвс работает то везде должно

Аноним 21/10/23 Суб 13:56:01 #186 №525529

16608341212190.jpg

Аноны, очень хочу трейнить модельки на RVC, но у меня AMD вместо видяхи, помогите, что делать?

Аноним 21/10/23 Суб 14:00:45 #187 №525531

>>525529
на каггле тренить. Вот гайд https://youtu.be/uA92FDw_Xfw?feature=shared

Аноним 21/10/23 Суб 14:10:40 #188 №525537

>>525531
добра тебе, анонче!

Аноним 21/10/23 Суб 14:17:25 #189 №525542

image.png

>>525531
>navalny

Аноним 21/10/23 Суб 17:14:42 #190 №525706

image.png

что эта мразь от меня хочет? чтобы я установил очередное дерьмо https://visualstudio.microsoft.com/ru/visual-cpp-build-tools/ ?

Аноним 21/10/23 Суб 17:41:47 #191 №525726

image.png

>>525706
как же я ненавижу современных разработчиков, инвалиды сука ебаные, скачай то что нахуй недоступно иначе я не буду работать, заебись блять

Аноним 21/10/23 Суб 17:49:31 #192 №525733

image.png

>>525726
блять у меня и так в системе стоит версия выше 14.0, почему это говно просит его установить?

Аноним 21/10/23 Суб 18:30:15 #193 №525792

>>525706
Не путай простой с++ и буилд тулс. это разные вещи

Аноним 21/10/23 Суб 19:37:33 #194 №525860

Хочу нейронку чтобы песню писало по промпту одного предложения и стилистике и само пело.

Типо: предоставить песню про то и то, длина 3 минуты, стиль такой-то, тональность мажорная минорная, настроение веселое, стилистика годов выпуска и тп..

Аноним 21/10/23 Суб 20:10:04 #195 №525887

>>525860
https://suno.ai/discord

Аноним 22/10/23 Вск 05:23:38 #196 №526387

image.png

>>524799
> а что насчёт https://github.com/suno-ai/bark
Чёт у них похоже пример на коллабе поломанный, с русским языком совсем какая-то шиза выходит:
https://vocaroo.com/1dizRoE1qYsw

>>524665
> Вот пример обработчика текста который меняет текст как надо.
И вправду, просто перед отдачей в нейронку меняет несколько различных подстрок, которые нейронка не распознаёт. Занятно, что такое не включили в Silero изначально, идея то тривиальная...

>>524765
> анон как это выглядит, ты поставил все эти 3 нейронки, установил кучу говна что они просят для запуска, запустил 3, ТРИ СУКА ебаных локальных сервера с гуем
Для всех трёх TTS развёрнуты спейсы в hf, так что локально при желании можно его не запускать.

> запустил ещё ОДИН ЕБАНЫЙ сервер с гуем для рвс, прогнал через него, сохранил результаты
Да.

> потом взял ЕБАННЫЙ ффмпег, картинку и через ещё одну ебанную сосноль по очереди склеивал картинку с сохранённой аудиодорожкой?
Я для этого такую фигню в онлайне запаблишил, чтобы проще было объединить аудио с картинкой:
https://huggingface.co/spaces/NeuroSenko/audio-processing-utils

Оно, правда, тоже кривое, но мне хватает. Если делать в онлайне, то добавляется 3 секунды тишины в конце т.к. там качается не та версия ffmpeg, что на винде, и команда ведёт себя иначе; и число пикселей по ширине/высоте должно быть чётным по какой-то причине...

>>524777
Можно, если ты убедишь разработчика пакета так заморочиться.

Аноним 22/10/23 Вск 08:57:51 #197 №526413

>>524830
Ну хоть что то...

Аноним 22/10/23 Вск 12:09:23 #198 №526483

>>525887
Да это оно, но еще недоразвитое, через 3 года подрастет, чат гпт внедрят 5ю версию и будут песни одной левой писать и петь.
Типа колонке говоришь, а ну-ка спой мне песню как я хорошо посрал в стиле джаз, оно само генерирует и исполняет..

Аноним 22/10/23 Вск 13:23:59 #199 №526518

Я просто хочу на чтоб мне прожка на английском читала текст женским человеческим голосом(бесплатно). Есть такое? Все что я нахожу платное или пару строк только может, я хочу прям текст закинуть

Аноним 22/10/23 Вск 13:58:11 #200 №526535

>>526518
конечно можно. Берешь модель нормальной бабы, потом прогоняешь через edgeTTS и затем через рвс

Аноним 22/10/23 Вск 17:40:49 #201 №526712

>>526387
Реально что ли для озвучки нейросетью, нужно пердолиться с указанием ручками как читается "г.", "%" и т.п.? Оно ж еще по контексту может меняться: год, грам, гривны, просто буква г, да еще и миллион разных форм слова, и точку не всегда пишут

Этот уже не нейронка в таком случае, это старый перебор всех возможных случаев руками

Аноним 22/10/23 Вск 18:27:20 #202 №526753

>>526712
это не чатжпт тебе чтобы понимать что там за г сокращено. Это синтезаторы речи. Они просто по тексту синтезируют. если есть г они будут читать это как г если есть рандомное сочитание букв то они его прочитают так как написано. Это машина, у нее нет мозга

Аноним 22/10/23 Вск 19:21:02 #203 №526816

>>526712
у Edge хорошее понимание произношения букв исходи из используемых слов и их контекста. Не совсем хорошо, но в большинстве случает читает лучше среднего гражданина этой страны.

Аноним 22/10/23 Вск 19:44:03 #204 №526827

Без названия.mp4

>>526712
Я вот тут ничего не перебирал.

Аноним 23/10/23 Пнд 00:34:18 #205 №527119

>>524799
>>526387
>suno bark
Не читал и возможно не в тему скажу: у них в дискорде можно быстро потестить. Время от времени генерит хуйню, да, зато очень эмоционально.

Аноним 23/10/23 Пнд 11:15:18 #206 №527311

аноны я дурак, установил нейронку через пипы, виртуалки и прочую хуйню, как теперь это запускать с батника? пишу вот это, а у меня просто открывается и закрывается консоль

C:\AI\venv\Scripts\activate
pause

Если открываю консоль с этой папки venv и пишу Scripts\activate то работает, а если с батника то нет, моментально закрывается и даже pause не помогает

Аноним 23/10/23 Пнд 11:47:25 #207 №527320

>>527311
короче как сделать батник чтобы он активировал виртуальное оружение уже созданного проекста и запускал нужный файл из окружения? если писать просто пайтон и ссылку на исполняемый файл то он пытается найти нужные библиотеки в глобальном пайтоне и обсирается, а если перед запуском написать активацию виртуальной среды то она активируется и тут же закрывается сосноль, чё за пиздец

Аноним 23/10/23 Пнд 12:08:30 #208 №527329

изображение.png

>>527320
Первой строкой. Дальше что хочешь. В конце
PAUSE
ставь.

Аноним 23/10/23 Пнд 12:21:21 #209 №527338

>>527329
анон спасибо, изза этого КАЛА весь мозг уже изъебал, а ебаный ChatGOVNOTA про этот call ни слова не сказал

Аноним 23/10/23 Пнд 12:26:04 #210 №527340

>>527338
> ChatGOVNOTA
Ебало имажинируйте. Подтереться-то после сранья без помощи этой хуйни еще в состоянии?

Аноним 23/10/23 Пнд 12:29:01 #211 №527341

>>527340
с каканием всё хорошо если не затягивать на 3 дня, потом может случиться запор доктор

а у кого ещё мне спросить чтобы меня не обосрали? только у него

Аноним 23/10/23 Пнд 13:46:40 #212 №527398

Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом

Аноним 23/10/23 Пнд 14:56:53 #213 №527454

>>527398
>Есть какая ТТС которая как то играет голосом немного?
Нормальная технология пока только у корпов под замком, у мордокниги полностью закрытая, у Elevenlabs можно потрогать руками, роликов в треде вагон.

Аноним 23/10/23 Пнд 15:52:19 #214 №527492

>>527398
>А какое применение вы видите вообще в этом?
Озвучка видео. Не нужно париться с записью своего или чьего-то голоса - загенерил речь, добавил звуковой дорожкой к видеоряду и актеры озвучки уже не нужны.

Аноним 23/10/23 Пнд 16:33:54 #215 №527514

>>527454
Получается ттс движок годный пока только у elvenlabs но он не опенсорс и никогда им не будет, так?
>>527492
Но ведь это озвучка то такая себе, для передачи смысла пойдет но актеры озвучки то получаются могут расслабить булки назад так как ттски хоть сейчас и могут озвучить, но актерской игры там ноль. Единственный вариант который вижу, это самому наговаривать текст и затем прогонять через рвц под понравившуюся модель. Но тогда ебли то получается не меньше если просто самому озвучивать

Аноним 23/10/23 Пнд 16:52:29 #216 №527529

>>527514
>Получается ттс движок годный пока только у elvenlabs но он не опенсорс и никогда им не будет, так?
Там не ТТС, там хитрее, >>525089 типа сразу зеро-шот перевод с языка на язык. Внутре скорее всего есть ТТС, но он явно использует данные предоставленного звука, все эти интонации и прочие акценты, помимо самого собственно голоса.

Локально у нас только либо озвучивание текста с весьма дубовыми интонациями, либо сравнительно качественный голос-в-голос, тут ты прав.

Аноним 23/10/23 Пнд 17:14:42 #217 №527544

думаю.mp4

>>527514

Аноним 23/10/23 Пнд 17:29:40 #218 №527558

>>527529
Благодарю за разъяснение

Аноним 24/10/23 Втр 09:05:46 #219 №528040

подскажите ТТС которой можно по АПИ отправить текст и она вернет ссылку на полученный аудиофайл?

Аноним 24/10/23 Втр 09:06:24 #220 №528041

>>528040
локальную, не онлайн

Аноним 24/10/23 Втр 11:15:05 #221 №528090

>>511502
>https://github.com/hinaichigo-fox/rus-edge-tts-webui
после каждой конвертации срёт в AppData\Local\Temp\gradio файлами и не чистит за собой, как это фиксить

Аноним 24/10/23 Втр 13:07:50 #222 №528146

image.png

анон, не поклади хуя своего, я уже сума схожу, в оригинальном RVC в самом низу есть кнопка Use via API, я думал это API чтобы пользоваться нейронкой через JS, но если посмотреть его, там пиздец со скрина, я не понимаю как ему отправить ссылку на аудио и модель чтобы он сделал преозвучку и вернул мне ссылку на результат?

Аноним 24/10/23 Втр 13:27:17 #223 №528168

изображение.png

>>528146
> я не понимаю как ему отправить ссылку на аудио
Ты блядь в бейс64 не можешь файл закодировать?

Аноним 24/10/23 Втр 13:42:57 #224 №528182

>>528168
>Ты блядь в бейс64 не можешь файл закодировать?
я че мудак что-ли, нахуй оно мне надо

Аноним 24/10/23 Втр 14:09:28 #225 №528207

image.png

маму ебал этих ваших requirements, блядская хуйня просто не устаналивается, нахуй блять такое говно делать и нахуй я там должен разбираться что этот пидорас от меня хочет, нахуй такое говно выкладывать в сеть, это ебаный https://github.com/Mangio621/Mangio-RVC-Fork такую хуйню высирает, пошли-ка они нахуй со своим манго

Аноним 24/10/23 Втр 14:13:08 #226 №528212

>>528207
>A very experimental fork of
Ебало непредставимо.

Аноним 24/10/23 Втр 14:20:16 #227 №528215

изображение.png

>>528207
>я там должен разбираться что этот пидорас от меня хочет

Аноним 24/10/23 Втр 14:25:58 #228 №528220

>>528207
Зачем тебе вообще этот форк? Чем оригинал с его "скочал zip, распаковал, запустил" не нравится?

Аноним 24/10/23 Втр 14:35:51 #229 №528233

image.png

>>528220
выше пчелы ноют что это некомельфо, чо поцоны только так делают

>>528215
это понятно анон, но если зайти на https://visualstudio.microsoft.com/ru/downloads/ и выбрать там Инструменты для Visual Studioа потом ебаный Инструменты сборки для Visual Studio 2022 и нажать СКОЧАТЬ БУИЛУД ТУЛЗ тебе тут же по ебалу скрин АДРЕС_ИНВАЛИЛД_ПОШЕЛ_НАХУЙ

Аноним 24/10/23 Втр 14:37:27 #230 №528235

>>528233
>АДРЕС_ИНВАЛИЛД_ПОШЕЛ_НАХУЙ
Страной не вышел.

Аноним 24/10/23 Втр 14:38:54 #231 №528236

image.png

>>528212
>Ебало

Аноним 24/10/23 Втр 14:39:27 #232 №528237

>>528233
Остановись, пощади, человек-анекдот.

Аноним 24/10/23 Втр 14:46:01 #233 №528239

>>528237
адрес дай

Аноним 24/10/23 Втр 14:46:54 #234 №528240

>>528233
> выше пчелы ноют что это некомельфо, чо поцоны только так делают
Чел, там просто объясняли, что мейнтейнерам, как правило, просто лень оформлять нормальные инсталлеры, но в случае RVC с этим как раз проблем нет.

Просто качни zip для своей платформы здесь и не сношай себе и треду мозг:
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

Сам себе выдумал проблему, и начал героически её решать.

Аноним 24/10/23 Втр 14:50:39 #235 №528244

image.png

>>528240
>>528235
нравится, так уже пол часа стоит не россия хотел просто по красоте сделать, а тут как всегда хуем по нод носом провели

Аноним 24/10/23 Втр 14:54:04 #236 №528247

>>528240
а чё делать если я вот это хочу попробовать https://github.com/litagin02/rvc-tts-webui там нет полного архива, а ошибка точно такая же

Аноним 24/10/23 Втр 14:59:02 #237 №528251

>>528247
Тогда остаётся только возиться с зависимостями. Тут хотя бы EdgeTTS+RVC а не просто форк RVC, сделанный хер значет зачем, так что здесь это имеет какой-то смысл.

Аноним 24/10/23 Втр 15:18:47 #238 №528264

image.png

ошибку установки Microsoft C++ Build Tools высирает https://github.com/facebookresearch/fairseq смотрим описание, понятно, пидоры, пидоры говноеды, вот и не работает

Аноним 24/10/23 Втр 15:21:08 #239 №528268

>>528264
Причина тряски?

Аноним 24/10/23 Втр 15:35:51 #240 №528272

>>528268
какое нормальное приложение/раширение/сайт будет собирать деньги на войну в стране воров, только пидорское

Аноним 24/10/23 Втр 15:37:07 #241 №528273

>>528090
это кэш. чисти руками

Аноним 24/10/23 Втр 15:39:31 #242 №528274

Кто может объяснить почему установка библиотек для https://github.com/litagin02/rvc-tts-webui вызывает ошибку требующую установки Visual Studio? Что за бред? Это же просто куча .py файлов

Аноним 24/10/23 Втр 15:47:56 #243 №528277

>>528274
> Это же просто куча .py файлов
Нет, там ещё куча бинарников
> вызывает ошибку требующую установки Visual Studio
Потому что некоторые библиотеки при установке собираются из исходников

Аноним 24/10/23 Втр 15:48:37 #244 №528278

>>528274
качай и все.

Аноним 24/10/23 Втр 15:49:24 #245 №528280

>>528274
Не понимаю, нафига люди качают какую то хрень если есть простой едж ттс и рвс отдельно. Нервы скажут спасибо, да и место на диске

Аноним 24/10/23 Втр 16:26:00 #246 №528306

>>528280
может быть чтобы сразу из текста получить озвучку нужным голосом, как думаешь?

Аноним 24/10/23 Втр 16:27:35 #247 №528308

>>528277
>Потому что некоторые библиотеки при установке собираются из исходников
Спасибо не знал, а нельзя никак наебать систему скопировав эти библиотеки из оригинального RVC?

>>528278
Не качается

Аноним 24/10/23 Втр 16:46:19 #248 №528316

>>528306
пипец. там качество плохое выходит

Аноним 24/10/23 Втр 16:47:59 #249 №528318

>>528316
Скинь пример?

Аноним 24/10/23 Втр 17:00:46 #250 №528328

>>528318
сам попробуй

Аноним 24/10/23 Втр 17:20:01 #251 №528346

>>528328
=> >>528308
>Не качается

Аноним 24/10/23 Втр 17:24:51 #252 №528355

Что в RVC делают вкладки Обработка ckpt и Экспорт ONNX?

Аноним 24/10/23 Втр 18:18:52 #253 №528412

>>528346
какая ошибка?

Аноним 24/10/23 Втр 18:25:39 #254 №528421

АНОНЫ!

Подскажите есть какой-то способ переводить порнушку ? Пиздец так хочется понимать о чем они там говорят, подскажите идеи как можно хотя бы англ субтитры прикрутить к видосам локальным?

Аноним 24/10/23 Втр 18:32:32 #255 №528432

>>528421
Перевод из аудио/видео в текст: https://github.com/openai/whisper
Вызови команду --help, там была возможность сохранять в формате субтитров. У меня он сейчас не настроен, точную команду не подскажу.

Аноним 24/10/23 Втр 19:00:45 #256 №528457

lenin.mp4

ну и что это за хуйня, пропустил текст через edge-tts, потом через rvc с моделью ленина, последняя в aihub, а на выходе вот это дерьмо, кто там пиздел что edge-tts идеально для rvc

Аноним 24/10/23 Втр 19:03:11 #257 №528460

>>528412
https://github.com/litagin02/rvc-tts-webui#troubleshooting

Аноним 24/10/23 Втр 19:09:32 #258 №528466

>>528264
Пипец сжв обиженка. Закенсили их, не пользуйся их софтом, тогда они поймут

Аноним 24/10/23 Втр 19:16:27 #259 №528471

>>528457
членин не матюкался. поэтому не похоже

Аноним 24/10/23 Втр 19:17:51 #260 №528473

А где то можно послушать примеры голосов которые доступны в бесплатной Silero которая у себя на компе юзается?

Аноним 24/10/23 Втр 19:18:07 #261 №528474

>>528473
русские голоса

Аноним 24/10/23 Втр 19:21:55 #262 №528478

забыли спросить.mp4

>>528466

Аноним 24/10/23 Втр 19:26:24 #263 №528483

>>528457
а ты на каком режиме делал? Лучше там делать в рвс в режиме crepe

Аноним 24/10/23 Втр 19:26:56 #264 №528484

image.png

>>528460

Аноним 24/10/23 Втр 19:28:35 #265 №528487

>>528484
=> >>528308 (You)
>Не качается

Аноним 24/10/23 Втр 19:29:27 #266 №528488

>>528483
> 'rmvpe': лучшее качество и минимальная нагрузка на GPU

Аноним 24/10/23 Втр 19:35:14 #267 №528500

>>528488
ну вот. бери crepe

Аноним 24/10/23 Втр 19:35:44 #268 №528503

>>528487
почему не качается? Там должна быть какая то ошибка. Сними на видео процесс установки или покопайся в тырнете

Аноним 24/10/23 Втр 19:40:25 #269 №528508

crepe хуйня.mp4

>>528500

Аноним 24/10/23 Втр 19:41:41 #270 №528510

>>528503
нет доступа из страны, не вошёл в список избранных у пидорасов

Аноним 24/10/23 Втр 19:50:05 #271 №528517

слава какаину.mp4

>>528457
>>528508

Аноним 24/10/23 Втр 19:55:12 #272 №528522

>>528510
че ж у тебя за страна? Я месяц назад скачивал и все норм. Живу в России

Аноним 24/10/23 Втр 19:55:23 #273 №528523

>>528508
ну я хз. мб модель плохая

Аноним 24/10/23 Втр 19:55:30 #274 №528524

>>528517
а эт где делал

Аноним 24/10/23 Втр 20:46:47 #275 №528574

>>511205 (OP)
Какой нейронкой можно скачать аудиодорожку из видео с ютуба? Желательно чтобы обращаться к ней можно было по API

Аноним 24/10/23 Втр 21:12:15 #276 №528599

>>528574
Тебе вот в этот тред >>299474 (OP)

Аноним 24/10/23 Втр 21:17:51 #277 №528607

>>528574
> скачать аудиодорожку из видео с ютуба
> нейронкой
Зачем?.. Для загрузки видео с ютуба есть браузерные плагины и онлайн-сервисы. Нейросетки-то тут причём.

Аноним 24/10/23 Втр 21:25:14 #278 №528618

>>528607
вы совсем там? Я за 5 минут в том году накидал бота для вк который простым ттс обрабатывает текст и потом загружает как голосовое смс в вк. Один хочет скачать аудиодорожку, другой хочет по апи к ттс обращаться. Ну совсем уже. Совсем уже мозги поехали с нейронками.
Для анона >>528574 тут логика простая. Скачиваешь с ютуба видос либо сразу аудио скачиваешь либо потом преобразовываешь через модуль os.
Для анона >>528040
Че тут думать? Это силеро или эдж ттс. Там апи легкие. простое обращение и потом конвертация в файл. Загружать его можно в питоне либы есть реквест та же

Аноним 24/10/23 Втр 21:58:53 #279 №528642

>>528574
Openai Whisper.

Аноним 25/10/23 Срд 01:32:45 #280 №528805

>>528264
А ты хотел там увидеть САППОРТ ПЫНЕСТАН? Лол, не удивительно, что у тебя нихуя не получается

Аноним 25/10/23 Срд 13:30:55 #281 №529015

Посоны, какой нейронкой делают локализацию киберпука? Хули такой хороший звук?

https://youtu.be/OtbMc1dx2gs?si=tc5qpyEc8JIObKC7

Аноним 25/10/23 Срд 15:39:27 #282 №529113

ищу чтобы загрузил известную композицию и оно само ремикс сделало, есть вот статья с подборкой програм, но примеры в ней не работают или не разобрался

https://filme.imyfone.com/cover-song/ai-music-remixer/

Аноним 25/10/23 Срд 16:18:52 #283 №529144

вот эта херня работает, но попробовать дает мало, дальше плати
https://covers.ai/

Аноним 25/10/23 Срд 20:06:35 #284 №529356

Аноны. А как удалить то говно чем насрала нейронка?

Аноним 25/10/23 Срд 20:29:54 #285 №529370 DELETED

>>529356
Нужно скачать и установить другую нейронку, которая чистить все после других нейронок.

Аноним 25/10/23 Срд 20:38:28 #286 №529375

>>529370
мудро

Аноним 26/10/23 Чтв 19:26:28 #287 №529980

16935134438660.mp4.mp4

Аноним 26/10/23 Чтв 20:01:34 #288 №529996

15877702751570 (online-video-cutter.com).mp4.mp4

Аноним 26/10/23 Чтв 20:55:27 #289 №530029

Синагога.mp4

Аноним 26/10/23 Чтв 21:01:07 #290 №530035

Здесь есть пользователи ControlNet?

Аноним 26/10/23 Чтв 21:02:33 #291 №530038

>>530035
Это тебе в треды с стейбл диффюшн. Тут все про аудио

Аноним 26/10/23 Чтв 21:03:21 #292 №530039

>>530038
Мда, я совсем уже обдвачевался.

Аноним 26/10/23 Чтв 21:04:13 #293 №530041

>>530039
пипец

Аноним 26/10/23 Чтв 22:13:50 #294 №530104

image.png

Привет, анон. Хочу переозвучить некоторые моменты в фильме. Нарежу фраз одного персонажа, сделаю голосовую модель в RVC. На Линухе этим методом можно воспользоваться? Подводных камней нет? Не хочу несколько часов трахаться с тем, что в итоге не получится.

Я слышал, что ему нужно 8ГБ VRAM, верно? У меня Steam Deck, вроде в описании написано что оперативная и видеопамять в нём как бы объединены (пикрил), хотя я впервые об этом слышу.

Аноним 27/10/23 Птн 07:19:20 #295 №530302

>>530104
конечно можно. запускать рвс можно через infer-web.py

Аноним 27/10/23 Птн 07:47:14 #296 №530306

>>530104
Ебать, ты собрался это на стимдэке делать? И этот человек ещё будет говорить что-то про беспощадное трахание

Аноним 28/10/23 Суб 09:25:41 #297 №530991

>>530104
На стим деке видеопамять lpddr, и это амд Какие нахрен нейронки?

Аноним 28/10/23 Суб 14:54:56 #298 №531111 DELETED

>>529980
облоеб, сын шакала

Аноним 29/10/23 Вск 09:05:46 #299 №531535

Ух ля охено, рвс спокойно переозвучивает с обученным ранее на колабе голосом на моем говноноуте без жпу. Как же я счастлив анончики. Правда если переделать долгую запись, начинает какую-то ошибку выдавать до перезапуска

Аноним 29/10/23 Вск 09:22:22 #300 №531539

Сравнение обработки в рвс голоса от еджттс и трех силероттс

Аноним 29/10/23 Вск 13:18:11 #301 №531617

>>531539
всё звучит как хуйня

Аноним 29/10/23 Вск 15:21:58 #302 №531761 DELETED

>>531111
Ебать чурка ебучая порвалась

Аноним 29/10/23 Вск 18:21:03 #303 №531864 DELETED

>>531761
Вообще то я кадырку назвал ослоебом и сыном шакала. А вот тебе нужно немножко лучше разбираться в ситуации. А по поводу чурки, в зерколо посомотрись)) Это слово пошло от имени языческого бога Чура. Раньше до христианства русские были язычниками. "Чур меня" это выражение до сих пор используется на территории рф. Вот поэтому и называли русских чурками.

Аноним 29/10/23 Вск 18:56:44 #304 №531882 DELETED

>>531864
сразу видно неуча. Впервые, именно, монголо-татары во времена вторжения на Россию называли русских чурками, потому что русские прятались от них в русских печах.
МОНГОЛО-ТАТАРСКОЕ ИГО на Руси (1243-1480) В этот период времени, когда татары собирали дань, и забирали (Русских) мужчин и молодых людей в свою армию, мужики прятались в русской печи. Татары приходя за данью, спрашивали- мужики есть? получив ответ НЕТ, они открывали печь (зная про хитрость) и зазывая из печи чумазого сажей русского мужика "ЧУРКА ВЫХОДИ" И так продолжался 237 лет (почти десятки поколений) и это выражение ЧУРКА "чумазый сажей (ЧЕРНЫЙ) и из печки остался в сознании Русского народа.

Мимоариец

Аноним 29/10/23 Вск 19:16:34 #305 №531895 DELETED

>>531882
Неучь как раз ты. Начитался в тырнете разного)))

До принятия христианства русские были язычниками и верили в нескольких богов. Так был бог ЧУР – оберегатель, хранитель границ. Русские делали деревянные истуканы с изображением бога ЧУРа и вкапывали их в качестве пограничных столбов. И когда кочевники во время набегов на русских видели эти столбы и зная о имени бога ЧУРа, стали называть тех, кто живет за этими столбами ЧУРками. Вот так и появилось это слово. Кочевники уже и позабыли, что когда-то называли русских ЧУРками, но русские помнили, как их называли, и на манер "сам дурак" всех неруских чурками стали обзывать. Вот так вот мои маленькие русские друзья, знайте этимологию этого слова!

P.S. Русские до сих пор говорят, когда случается что-то страшное "Чур меня", что означает "Убереги меня ЧУР".

Аноним 29/10/23 Вск 19:17:44 #306 №531898

image.png

>>511502
анон, можешь переделать скрипт app.py чтобы он сохранял в папке temp озвученные файлы не как gradio/рандомназваниепапки/output.mp3, а рандомное gradio/рандомназваниефайла.mp3, чтобы видеть все файлы в 1 папке, а не блять по 1 файлу в тонне папок, я пытался переделать то что на пике, но пиздец обосрался, не получается, нет знаний работы с глобальными переменными типа __file__

Аноним 29/10/23 Вск 19:44:00 #307 №531926 DELETED

>>531895
когда были ЧУРы на Русь не набегали. Это после крещение стали набегать. Когда русских дурили в храмах!

Аноним 29/10/23 Вск 19:44:25 #308 №531927

Стикер

Сап аноны.
Можно ли перетренить модель в so-vits-svc-fork? Я пока не спешу и включаю обучение на несколько часиков каждый день. Так может и до бесконечности продолжаться. Не будет ли хуже от этого, или в определенный момент модель просто не будет меняться т.к. "научится всему" образно говоря и дальше уже не будет развиваться?
Или тут может быть ситуация, что модель будет становиться хуже если передержать?

Ещё вопрос, просто давно не заходил к вам, появилось ли что-нибудь новенькое и более продвинутое в области копирования голоса в попенсорсе? Вроде SVC\RVC, а то всё-таки с русской речью эта модель не очень справляется сколько её не мучай - фонемы другие.

Аноним 29/10/23 Вск 19:46:19 #309 №531929

>>531898
а нафига те вообще сохранять в папки? Там есть кнопка скачать. Жмешь и скачиваешь куда надо

Аноним 29/10/23 Вск 19:56:37 #310 №531935

>>531898
Сцдя по твоему скрину файл сохраняется не в этом куске кода, а в классе comunicate, в методе save.
В куске кода со скрина только проверяется наличие файла, чтобы ссылочку отобразить. А в методе clearSpeech файл удаляется.

Аноним 29/10/23 Вск 20:44:58 #311 №531961 DELETED

>>531926
Что думаешь, после крещения не было тех, кто остался язычником? А кто по твоему в Сибирь откочевывал, воюя там с местными?

Аноним 29/10/23 Вск 20:46:15 #312 №531964

>>531935
вот код кста https://github.com/hinaichigo-fox/rus-edge-tts-webui/blob/main/app.py
бля походу сохранение происходит гдето в кишках модуля gradio, короче хуй найти

>>531929
анон, надо, было бы заебись если вообще можно было указать папку куда сохранять все результаты

Аноним 29/10/23 Вск 21:03:37 #313 №531977

image.png

>>531964
я те по секрету скажу, но выходной файл появляется в папке нейросети.... Вон от. оутпут мп3

Аноним 29/10/23 Вск 21:08:34 #314 №531981

image.png

аноны, объясните зачем нужно указывать файл .index? мне показалось что без него нет разницы, он обязательно нужен?

и какие настройки кроме тона от -12 до +12 можно покрутить? я просто нихуя не понимаю что делают остальные крутилки в rvc

Аноним 29/10/23 Вск 21:10:13 #315 №531986

>>531977
там только последний файл, а хочется все, которые в папке gradio появляются в рандомпапках

Аноним 29/10/23 Вск 21:17:01 #316 №531989

>>531986
а че там появляется? Покажи

Аноним 29/10/23 Вск 21:27:03 #317 №531998

image.png

>>531989
типа того, в каждой папке 1 файл output.mp3, а хочется чтобы вместо папок сами файлы были с этим рандомназванием

Аноним 29/10/23 Вск 21:34:23 #318 №532006

>>531998
дружище. это кэщ. Его переодически чистить надо если он сам не очищается.....

Аноним 29/10/23 Вск 21:41:04 #319 №532012

>>532006
вот я хочу чтобы этот кеш не выводился по 1 файлу в папке, а чтобы все сгенерированные мной файлы были в 1 папке, чтобы видеть их размер и продолжительность, кстати почему он сам не чистится, это же пиздец засрать диск можно

Аноним 29/10/23 Вск 21:43:51 #320 №532014

>>532012
>вот я хочу чтобы этот кеш не выводился по 1 файлу в папке,
иди к создателям градио. пусть кэш переделывают

Аноним 29/10/23 Вск 21:47:42 #321 №532016

>>531964
Похоже скрипт просто затирает файл оутпут. не влезая в подкапот можно просто на выходе каждый раз результат переименовывать. Без лишних импортов и нарушений скрипта, встроенными средствами питона это может выглядеть вот так.
Учти, я просто мимокрок и тот скрипт который ты используешь в глаза не видел, так что если что-то не заработает сам уже ковыряй.

Строка 38
if (os.path.exists(audio_file)):
....return audio_file

Замени на
if (os.path.exists(audio_file)):
....new_name, pe, i = audio_file, audio_file.rsplit(".",1), 2
....while os.path.exists(new_name):
........print('in loop')
........new_name, i = f"{pe[0]}_{i}.{pe[1]}", i+1
....if i != 2:
........os.rename(audio_file, new_name)
........audio_file = new_name
....return audio_file

Аноним 29/10/23 Вск 21:48:55 #322 №532019

>>532016
>........print('in loop')
Это можно удалить

Аноним 29/10/23 Вск 21:55:49 #323 №532025

>>532014
у rvc кстати с этим нормально, он сохраняет просто в папку temp с рандомназванием

>>532016
да оно похоже так и есть, но они охуели дополнительно срать в папку temp, зачем это делать если просто заменяют файл в папке с нейронкой, с твоим вариантом получается срать будет и в temp и в саму нейронку

Аноним 29/10/23 Вск 21:57:53 #324 №532027

>>532025
это ж каким нужно быть чтобы жаловаться на кэш? Эта папка удалится в худшем случае через неделю лол. А в лучшем случае после перезапуска пк..

Аноним 29/10/23 Вск 21:59:27 #325 №532028

>>532025
Ну а как ты хотел? Лезть в подкапот и искать где там насрано никто не будет. Удаляй временные файлы сам.

Аноним 29/10/23 Вск 22:11:12 #326 №532036

И вообще наверняка этого требует технический процесс и где-то в дебрях скрипта есть функция удаления кэша, которая отключена в релизе, потому что по какой-то причине комьюнити решило кэш оставлять. Такой софт не школьники пишут а студенты, которые прекрасно ЗНАЮТ что делаю. Не зная что ты делаешь и для чего ты ничего и не напишешь тащемта.

Аноним 30/10/23 Пнд 03:08:27 #327 №532137

>>511205 (OP)
На сивитае дохуя анимаций вижу. На чем их делают?

Аноним 30/10/23 Пнд 04:51:32 #328 №532190

>>527544
а как ты склонировал голос Лукашенко в ElevenLabs?
разве они не требуют подтверждения, что это реально твой голос?

Аноним 30/10/23 Пнд 09:52:06 #329 №532257

image.png

>>532190
>разве они не требуют подтверждения, что это реально твой голос?
Требуют, но подтверждение нужно тому, что ты не будешь использовать функцию клонирования голоса в злоумышленных целях.

Ну я и подтвердил. Больше ничего не нужно.

Аноним 30/10/23 Пнд 16:38:13 #330 №532396

321312312.mp4

Alan Wake 2 2023.10.30 - 13.54.09.04.mp4

Аноним 30/10/23 Пнд 17:00:31 #331 №532411

e4839c65-0037-4632-9415-5d775b323b8f.mp4

>>532396

Аноним 30/10/23 Пнд 17:03:30 #332 №532415

image.png

>>511502
анон скачал rus-silero-webui, в папке с питоном создал виртуальную среду, закинул туда содержимое гитхаба, запустил пип инстал requirements, запускаю app_aud.py, открываю выданный айпи, ввожу текст, жму генерация а мне выводит эрор, а в сосноли пишет то что на пике, как лечить? на всякий скопировал папку силеро в виртуальную среду к другим файлам, закинул туда файл hubconf и отредактировал его как в примере, не помогло, нихуя не озвучивает

Аноним 30/10/23 Пнд 17:14:22 #333 №532422

image.png

>>532415
ах да скачал ffmpeg-master-latest-win64-gpl отсюда https://github.com/BtbN/FFmpeg-Builds/releases и скипировал 3 файла с пика и указал в path пусть до этой папки

Аноним 30/10/23 Пнд 17:45:12 #334 №532436

image.png

>>532415
там снизу написано как фиксить.

Аноним 30/10/23 Пнд 18:21:34 #335 №532460

>>532436
>скопировал папку силеро в виртуальную среду к другим файлам, закинул туда файл hubconf и отредактировал его как в примере, не помогло

Аноним 30/10/23 Пнд 18:29:20 #336 №532470

>>532460
а блин. Так. Попробуй еще раз запустить.

Аноним 30/10/23 Пнд 18:55:27 #337 №532486

Бля, натренируйте Сюткина гайз. Почему ББПЕ никто не сделал с ним?

Аноним 30/10/23 Пнд 20:04:49 #338 №532530

image.png

>>518696
Я так понимаю сейчас это сделать бесплатно невозможно? Только платно, а заплатить из РФ нельзя

Аноним 30/10/23 Пнд 20:20:52 #339 №532546

vc.mp4

Аноним 30/10/23 Пнд 20:29:14 #340 №532552

>>532470
я конечо это делал, не помогает, уже ffmpeg скорировал во все папки и папку selero, нихуя, никак не подцепляется

Аноним 30/10/23 Пнд 20:30:07 #341 №532553

>>532552
хмммм. щас разберемся

Аноним 30/10/23 Пнд 20:30:18 #342 №532554

>>532552
питон 3.10?

Аноним 30/10/23 Пнд 20:31:36 #343 №532556

>>532470
поставил эту силеру https://github.com/GhostNaN/silero-webui тоже самое

Аноним 30/10/23 Пнд 20:32:06 #344 №532557

>>532556
у тебя кодеки установлены?

Аноним 30/10/23 Пнд 20:32:43 #345 №532558

image.png

>>532554
да

Аноним 30/10/23 Пнд 20:38:16 #346 №532560

>>532557
были, обновил сейчас на эти https://codecguide.com/download_k-lite_codec_pack_full.htm не помогло

Аноним 30/10/23 Пнд 20:59:20 #347 №532577

>>532560
скинь полный текст ошибки. Просто из консоли скопируй

Аноним 30/10/23 Пнд 21:33:56 #348 №532619

>>532577
Running on local URL: http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.
[nltk_data] Downloading package punkt to C:\Python\silero...
[nltk_data] Package punkt is already up-to-date!
Using cache found in C:\Users\2ch/.cache\torch\hub\snakers4_silero-models_master
Traceback (most recent call last):
File "C:\Python\silero\lib\site-packages\gradio\queueing.py", line 407, in call_prediction
output = await route_utils.call_process_api(
File "C:\Python\silero\lib\site-packages\gradio\route_utils.py", line 226, in call_process_api
output = await app.get_blocks().process_api(
File "C:\Python\silero\lib\site-packages\gradio\blocks.py", line 1550, in process_api
result = await self.call_function(
File "C:\Python\silero\lib\site-packages\gradio\blocks.py", line 1185, in call_function
prediction = await anyio.to_thread.run_sync(
File "C:\Python\silero\lib\site-packages\anyio\to_thread.py", line 33, in run_sync
return await get_asynclib().run_sync_in_worker_thread(
File "C:\Python\silero\lib\site-packages\anyio\_backends\_asyncio.py", line 877, in run_sync_in_worker_thread
return await future
File "C:\Python\silero\lib\site-packages\anyio\_backends\_asyncio.py", line 807, in run
result = context.run(func, args)
File "C:\Python\silero\lib\site-packages\gradio\utils.py", line 661, in wrapper
response = f(args, kwargs)
File "C:\Python\silero\app_aud.py", line 79, in generate
torchaudio.save(output_file, audio, params['sample_rate'])
File "C:\Python\silero\lib\site-packages\torchaudio\_backend\utils.py", line 287, in save
backend = dispatcher(uri, format, backend)
File "C:\Python\silero\lib\site-packages\torchaudio\_backend\utils.py", line 220, in dispatcher
raise RuntimeError(f"Couldn't find appropriate backend to handle uri {uri} and format {format}.")
RuntimeError: Couldn't find appropriate backend to handle uri output.wav and format None.

Аноним 30/10/23 Пнд 21:40:07 #349 №532629

>>532619
Это просто при запуске?

Аноним 30/10/23 Пнд 21:41:08 #350 №532630

>>532619
попробуй кэш очистить

Аноним 30/10/23 Пнд 22:11:39 #351 №532663

image.png

>>532629
нет при запуске только Running on local URL: http://127.0.0.1:7860, а когда пишу текст и нажимаю генерировать - снизу пишет эрор с 1 пика, а в консоли эту хуйню

кеш это папка темп? чистил, сейчас удалил папку .cache и запустил, появилось чтото новое но тоже не завелось, пик 2

C:\Python\silero\lib\site-packages\torch\hub.py:294: UserWarning: You are about to download and run code from an untrusted repository. In a future release, this won't be allowed. To add the repository to your trusted list, change the command to {calling_fn}(..., trust_repo=False) and a command prompt will appear asking for an explicit confirmation of trust, or load(..., trust_repo=True), which will assume that the prompt is to be answered with 'yes'. You can also use load(..., trust_repo='check') which will only prompt for confirmation if the repo is not already trusted. This will eventually be the default behaviour
warnings.warn(

Аноним 31/10/23 Втр 06:50:19 #352 №532855

>>532663
а нук попробуй закинуть любой файл .wav с названием output в папку с проектом

Аноним 31/10/23 Втр 08:35:17 #353 №532874

VC2.mp4

Vice city. Довольно неплохо

Аноним 31/10/23 Втр 08:58:57 #354 №532882

3.mp4.mp4

>>532874
alan

Аноним 31/10/23 Втр 08:59:23 #355 №532883

Alan Wake 2 2023.10.31 - 00.35.20.03.mp4

>>532882

Аноним 31/10/23 Втр 09:19:19 #356 №532892

>>532855
тоже самое

Аноним 31/10/23 Втр 09:22:19 #357 №532894

>>532892
тогда хз. гугли по ошибке

Аноним 31/10/23 Втр 09:41:43 #358 №532898

>>532894
а я правильно установил? мой порядок действий - из папки питона запустил cmd, создал окружение python - m venv silero, скачал https://github.com/hinaichigo-fox/rus-silero-webui/archive/refs/heads/main.zip и распоковал в папку silero, перейдя к ней через cd silero сделал активацию среды scripts\activate и запустил pip install -r requirements.txt, потом скачал https://github.com/BtbN/FFmpeg-Builds/releases/download/latest/ffmpeg-master-latest-win64-gpl-shared.zip распоковал в папку ffmpeg 3 файла из папки bin и указал путь в ней в path, потом в консоли прописал python app_aud.py, и вот тут начинает проблема, пишу русский текст и жму сгенерировать и вылетает error а в консоли это дерьмо

Аноним 31/10/23 Втр 11:05:54 #359 №532932

>>532898
ааааа. Ты не так сделал все.

Аноним 31/10/23 Втр 11:08:37 #360 №532934

image.png

анон, вот такую хуйню выдало при установке pip install fairseq нужной для работы проекта, какую из хуйнь качать отсюда? https://visualstudio.microsoft.com/ru/vs/older-downloads/

я скачал Microsoft Build Tools 2015 в самом конце, при запуске меня просит выбрать что установить со 2 пика, что выбирать? пиздец, какого хуя вообще для установки модуля для работы нейронки нужно устанавливать хуйню занимающую 3гб места с отключенными всеми компонентами, пиздец

Аноним 31/10/23 Втр 11:29:22 #361 №532941

>>532898
Короче. Сначала скачиваешь проект. Распаковываешь его, потом переходишь в папку эту и создаешь окружение. Активируешь и запускаешь пип инсталл. Так должно сработать

Аноним 31/10/23 Втр 11:29:33 #362 №532942

image.png

блять, это говно без VPN даже не качается, заебись

Аноним 31/10/23 Втр 11:30:46 #363 №532943

>>532942
пипец. Качал в августе норм все было

Аноним 31/10/23 Втр 11:33:37 #364 №532944

>>532941
не понимаю разницы, edge-tts работал и по моему способу установки, а в самом проекте как назвать папку виртуальной среды в таком случае? venv? я думал виртуальная среда и должна содержать файлы проекта, а не проект содержать папку с виртуальной средой

Аноним 31/10/23 Втр 11:42:57 #365 №532949

>>532944
виртуальная среда это папка венв и проект. Они должны находится в одной общей папке

Аноним 31/10/23 Втр 11:43:53 #366 №532950

>>532941
как я и думал это не помогло анон, ладно хуй с ним, а что есть кроме edge и silero? edge слишком деревянный, silero сам понимаешь

Аноним 31/10/23 Втр 11:44:53 #367 №532953

>>532950
Обидно что не помогло. Ну смотри. Едж ттс после обработки в rvc нормальный. А так ттс больше не знаю

Аноним 31/10/23 Втр 11:50:38 #368 №532956

>>532953
ладно спасибо анон, может кто-то подскажет что-то подобное

Аноним 31/10/23 Втр 11:53:15 #369 №532957

>>532956
в гитхабе набери tts

Аноним 31/10/23 Втр 14:21:37 #370 №533020

>>532934
Ну кидайте свои озвучки! Я что на тред подписался чтобы на ваши черные скриншоты смотреть?

Аноним 02/11/23 Чтв 17:16:16 #371 №534251

https://huggingface.co/NeuroSenko/rvc-models/tree/main
https://huggingface.co/NeuroSenko/svc-models/tree/main

Буду вынужден выпилить эти репы через сутки по определённым обстоятельствам. За это время можете скачать с хг, если кому надо.

Модели всё ещё можно будет скачать в боте телеги: https://t.me/AINetSD_bot

Аноним 02/11/23 Чтв 17:46:10 #372 №534261

>>534251
можно ли как нить их перенести на свой хг?

Аноним 02/11/23 Чтв 17:50:31 #373 №534264

>>534251
Все. Скачал

Аноним 02/11/23 Чтв 18:33:28 #374 №534275

>>534261
https://huggingface.co/spaces/huggingface-projects/repo_duplicator

Аноним 02/11/23 Чтв 19:14:50 #375 №534305

>>534251
>Буду вынужден выпилить эти репы через сутки по определённым обстоятельствам
За модель гитлера посадить хотят?

Аноним 02/11/23 Чтв 19:31:34 #376 №534318

>>534305
За Зеленского

Аноним 02/11/23 Чтв 19:47:52 #377 №534330

>>534318
одно и тоже

Аноним 02/11/23 Чтв 20:18:07 #378 №534351

>>534251
потом вернешь же?

Аноним 02/11/23 Чтв 22:01:09 #379 №534473

.mp4

>>534305
Нет, дело в копирайте. По сути, от меня требуют следующее:
1. У всех публичных моделей должны быть проставлены ссылки на их оригинальный хг-репозиторий (так что можно будет проследить авторство)
2. В репе не должно быть приватных моделей, которые продают на бусти и т.п.

Сама репа, по факту, должна быть пустым каталогом русскоязычных моделей. В rvc-репе суммарно 200+ моделей, так что провести такое займёт много времени.

Предъяву мне выкатили русскоязычные мочухи AI Hub'а (он недавно снова ожил), которые сами пытаются заработать на продаже своих моделей. Немного подумав, я решил, что мне нет смысла цепляться за эту репу, поскольку эти модели, в настоящий момент, и так доступны публично, просто чуть менее удобно.

https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki
Кроме того, они пилят русскоязычный справочник по голосовым моделям, поэтому у меня нет желания идти на конфликт, т.к. на русском языке инфы очень мало и я ценю их вклад, хотя сама концепция "платных" моделей для меня какой-то сюр. Иди попробуй чекпоинты с лорами для SD/ламы продавать - тебя только на смех поднимут. Сам факт наличия огромной бесплатной базы моделей и лор для того же SD - это один из основных факторов, почему SD 1.5 ещё может потягаться с DALLE 3, несмотря на своё техническое отставание. Если бы в SD-комьюнити сложилась подобная традиция создания платных чекпоинтов/лор (просто представьте, что у вас нет ничего, кроме базовых SD1.5/2/XL и NAI), то он был бы никому не интересен и все пошли бы сдаваться в рабство облачных решений в виде Midjourney/DALLE.

Кроме того, на площадках рода YouTube/Pixiv/DeviantArt сложилась традиция дискриминации AI-generated контента - на нём либо прямо запрещено зарабатывать (YouTube), либо его показ режется алгоритмами (DA/Pixiv). Понятное дело, что, в подобной ситуации, есть и вина самого AI-комьюнити, а именно тех, кто бездумно дампал условный DeviantArt тысячами однотипных картинок. Я клоню к тому, что AI-модели, в настоящий момент, не являются средствами заработка, и, поэтому, надо искать очень странных людей, которые будут выкладывать свои кровные, просто что бы делать переозвучку мемчиков/песенок, на которых нельзя заработать. Особенно если мы говорим про страны пост-СНГ, где за десятилетия отсутствия доступного простым людям платного контента сложилась традиция пиратства, что снова обострилось после начала сами знаете каких событий.

Нет, я, конечно, могу устроить клоунаду в репе на хг, когда прилетит жалоба, заставляя их как-то пруфать авторство моделей. Можно поступить в стиле Хачатура - поменять веса моделей на уровне погрешности и выложить под видом своих моделей. Как ультимативное решение, я мог бы просто арендовать сидбокс и выложить магнет-ссылку на торрент.

Но есть причины, по которым я не хочу так поступать:
Во-первых, модели всё ещё будут доступны публично через тг, так что смысла устраивать драку за зеркало не вижу.
Во-вторых, русскоязычное комьюнити по звуковым моделям и так довольно слабое, не хочу в открытую противостоять тем, кто что-то пытается сделать.
В третьих, то, что попало в интернет, остаётся там навсегда. Попытки нападок на держателей зеркал приведут лишь к тому, что зеркал станет ещё больше. Эффект Стрейзанд никто не отменял.

Аноним 02/11/23 Чтв 22:10:06 #380 №534481

>>534473
Насчёт срача - возможно стоило бы немного повонять, может быть это привлекло немного внимания к ру комьюнити с последующим вкатом мимокроков. Как я замети, даже после мизерного инфоповода залетают по паре человек в этот мёртвый тред на мёртвой доске.
Но как знаешь. В последнее время и так говна расплодилось что-бы ещё самому набрасывать...

Аноним 02/11/23 Чтв 22:39:54 #381 №534504

>>534473
Не, твоё право конечно, но пидоров с идеями брать за что-то там деньги нужно давить как гнойные прыщи.

Аноним 02/11/23 Чтв 22:41:48 #382 №534506

>>534275
Пиздец пориджи пошли, без гуя в браузере уже репу залить не могут.
>>534473
>Можно поступить в стиле Хачатура - поменять веса моделей на уровне погрешности и выложить под видом своих моделей.
Лол, такой рофл я пропустил. Есть ссылки с инфой?

Аноним 02/11/23 Чтв 22:52:24 #383 №534513

>>534506
> Пиздец пориджи пошли, без гуя в браузере уже репу залить не могут.
Покажи мне как форкнуть репу с LFS при помощи git не скачивая несколько стотен гигабайт моделей.

Аноним 02/11/23 Чтв 23:18:13 #384 №534523

изображение.png

>>534513
>не скачивая несколько стотен гигабайт моделей.
А может обойдёмся без камазов под водой? Берёшь и качаешь. Иначе зачем оптику в квартиру проводить?
Да и там всего лишь гиг 50 в сумме.

Аноним 03/11/23 Птн 06:39:21 #385 №534593

>>534523
57,7ГБ

Аноним 04/11/23 Суб 13:43:51 #386 №535570

Кто свои модели делал, подскажите сколько по времени занимает и сколько эпох надо?
У меня дохуя материала для обучения, пробовал по разному:
1. Разбил 8 чаасовую запись на 8 штук по часу - понял что хуйня
2. Взял часовую, её наслайсил на 3000 кусков, понял что тоже хуйня
3. В итоге сейчас взял 20 минут, насэмплил через саму сетку и сижу жду обучения.
Но тоже думаю будет полная хуйня и занимает это 5+ часов.

Аноним 04/11/23 Суб 13:46:00 #387 №535574

>>535570
8 часов записи чистого голоса?????
Да это ж офигенная модель будет. Берешь и режешь на записи по 10 сек(в тырнетах полно прог для этого на питоне) Потом это все закидываешь в рвс. Ну тут в зависимости от карточки. Если карточка норм то быстро часа 3-4 будет. Эпох ставь 200-250.

Аноним 04/11/23 Суб 13:49:51 #388 №535575

>>535574
да я бы не против, но у меня 1660Ti и как я уже говорил даже 400 сэмплов по 10 секунд у меня одна эпоха занимает 4-6 минут, получается в час штук 10. Чтобы сделать 200-250 эпох - придётся сутки обучать.
На время так то похуй, но во время обучения ПК становится почти кирпичом, игори на фоне не поиграть, ютубы и твичи в фулхд тоже начинают через пол часа- час тормозить
Меня инетерсут это адекватное время для обучения или нет?

Аноним 04/11/23 Суб 13:54:38 #389 №535578

>>535575
Тренируй в каггле. Там все можно фоном. Если твоя карта меньше 2060 то лучше не браться за обучение локально. https://www.kaggle.com/varaslaw/rvc-tg-aisingers-by-rus-no-gradio тут делать
https://youtu.be/uA92FDw_Xfw тут обучалка

Аноним 04/11/23 Суб 15:27:06 #390 №535613

>>535578
ебанул 2 часа речи (1300 сэмплов) на 500 эпох, посмотрим как быстро закончит и что на выходе будет

Аноним 04/11/23 Суб 16:26:00 #391 №535649

>>535578
сам давно пробовал по этому гайду?
у меня за 20 минут 500 эпох пролетает, но в папке аутпут ничего нет, в комментах на ютубе так же пишут, похоже на сегодняшний день не работает

Аноним 04/11/23 Суб 19:15:47 #392 №535728

.png

>>535570
https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc
У AI Hub'а есть статьи по обучению, в них советуют по тензорборду оверфит отслеживать. График лосса должен дойти до минимума и дальше будет болтаться на месте. В этот момент и начинается оверфит, если им верить.

Аноним 04/11/23 Суб 19:21:45 #393 №535734

>>535728
у меня тенсор по вертикальной оси не показывал значения, только количество шагов на горизонтальной
вроде видел как зафиксить, но не накатыва

Аноним 04/11/23 Суб 19:42:20 #394 №535750

>>535649
пробовал. И 3 модели сделал. Все на высоком уровне

Аноним 04/11/23 Суб 19:43:20 #395 №535751

>>535575
я те скажу. 1 минута на эпоху это уже пипец

Аноним 04/11/23 Суб 20:16:02 #396 №535777

>>535751
Может я че то не так делаю просто?
У меня есть голос на 8 часов. Я его вручную порезал на 8 кусков по одному часу. Сохранил в wav. Через svc (когда он у меня был) я его насемплил на дохуя мелких кусков, порядка 5 тысяч. Каждый кусок 3-10 секунд и там чистый голос. Всё это в формате wav. Как бы с этим и работаю.
Последний раз оставил 1000 сэмплов и этот архив на https://www.kaggle.com/varaslaw/rvc-tg-aisingers-by-rus-no-gradio загнал.
Только я потом заметил что у этого чела из гайда выбирается акселиратор - для этого надо телефон подтвердить.
В остальном у меня всё так же как у него.
Ну и когда 500 эпох проходят - в разделе аутпут у меня только одна папка, в ней пара других но кроме 2 файлов 0Кб ничего в них нет.

Аноним 04/11/23 Суб 20:41:44 #397 №535794

>>535777
а в чем проблема телефон подтвердить? Я не парился и подтвердил своим. Все работает

Аноним 04/11/23 Суб 20:42:24 #398 №535796

>>535777
500 эпох для 8 часов это дофига. ставь 200-250

Аноним 04/11/23 Суб 20:43:26 #399 №535799

>>535794
только что подтвердил через сервис на тайландский номер, рашку нельзя. да я заметил что у него есть выбор ГПУ, а у меня нет. но в этом гайде он про это не говорит, случайно наткнулся на ютубе на другой его видос, где он показывает как регаться на каггле и там как раз было про верификацию телефона. сейчас еще раз запустил трейн

Аноним 04/11/23 Суб 20:43:56 #400 №535801

>>535799
рашку нельзя? Я своим подтвердил лол.

Аноним 04/11/23 Суб 20:46:56 #401 №535803

image.png

>>535796
1300 сэмплов почти на час закинул на 500 эпох
какой же уродский лог, как будто ничего не работает

Аноним 04/11/23 Суб 20:47:57 #402 №535804

image.png

>>535801
может у каких то операторов пропускает. я заплатил за это 3 рубля 90 копеек

Аноним 04/11/23 Суб 20:48:30 #403 №535806

>>535803
оно не завершило работу лол

Аноним 04/11/23 Суб 20:49:00 #404 №535807

>>535803
когда вместо ранинг будет написано сексесфулл тогда и смотри файлы

Аноним 04/11/23 Суб 20:50:14 #405 №535809

image.png

>>535806
да я понял, но уже 300 секунд лог не двигается

Аноним 04/11/23 Суб 20:50:54 #406 №535810

image.png

а во, просралось кажись

Аноним 04/11/23 Суб 20:51:41 #407 №535812

>>535809
гайд смотреть внимательней надо. Логи и не будут двигаться. там все по тихому. Эпохи не отображаются. Завтра приходи на сайт и там будет уже все завершено

Аноним 04/11/23 Суб 20:55:39 #408 №535816

image.png

лол, внатуре из-за отустствия гпу не обучалось

Аноним 04/11/23 Суб 20:56:57 #409 №535817

>>535816
вытаскивай по гайду.

Аноним 04/11/23 Суб 21:05:14 #410 №535821

image.png

но нету индекс файла, который начинается с "added", а сами модели в weights есть. он кажись не не нужен, rvc без него модель скушала и даже высрала что-то. короче работает, разобрался. пойду все 8 часов заебашу, лол

Аноним 04/11/23 Суб 21:15:33 #411 №535826

>>535821
так. Там смотри. В файлы переходишь(в меню сверху) и там жмешь лоад мор. Будет папка нужная

Аноним 04/11/23 Суб 21:28:23 #412 №535831

image.png

>>535826
не, по папкам всё ок но вот этого файла как в гайде я не нашёл. сразу взял модели из weights - локально прогнал, вроде работают. я хз зачем этот файл .index нужен

Аноним 04/11/23 Суб 21:37:04 #413 №535835

>>535831
лучше скачай и закинь куда надо.

Аноним 04/11/23 Суб 21:39:35 #414 №535836

>>535831
файл нужен чтоб настраивать акцент

Аноним 04/11/23 Суб 22:16:58 #415 №535863

>>535835
да я бы рад, но его нету.

Короче запустил на 2000 эпочей с шагом сохранения 200 сэмплов на 2 часа (вышло 3000 штук).
Так вопрос, а если хуевая модель получится - че делать? Поиграть длиной семплов или что можно сделать?

Аноним 05/11/23 Вск 07:50:19 #416 №536116

>>535863
какие 2000 эпох????? Тут не работает чем больше тем лучше. Чем больше тем лучше это про количество аудио. Грузи 5 часов и ставь 200 эпох. лучше всего будет

Аноним 05/11/23 Вск 16:57:51 #417 №536363

Я так понял просто скачал/онлайн ввел текст и получил норм записи сейчас нет? По крайней мере бесплатно нет?

Аноним 05/11/23 Вск 19:00:08 #418 №536407

>>536363
да

Аноним 05/11/23 Вск 20:53:26 #419 №536461

image.png

чет нихуя не понимаю, скачал для проверки какую то анимешную модель, прогнал через неё тестовый сэмпл, нихуя не поменялось.
ЧЯДНТ?

Аноним 05/11/23 Вск 20:57:48 #420 №536467

>>536461
питч поставь на 12

Аноним 05/11/23 Вск 20:59:25 #421 №536469

>>536467
да, просто перезапустил - вроде сработало

Аноним 06/11/23 Пнд 02:21:16 #422 №536740

Для инфы:
В RVC v2 NO GRADIO сэмплы общей длительностью 2 часа выполнились на 125 эпох, дальше отключилось, т.к. лимит по времени 12 часов (43200 секунд).
Если там линейная зависимость, получается максимум можно 50-60 минут пронать на 200-250 эпох

Аноним 06/11/23 Пнд 03:21:49 #423 №536758

>>536740
UPD оказалось это не так, похоже овердохуя файлов в любом случае отваливаются по лимтиу. Закинул 1000 сэмплов на 650 эпох - обработалось за 15 минут.

Аноним 06/11/23 Пнд 04:33:19 #424 №536789

>>536740
>>536758
upd2 оказалось всё хуйня - просто ебучий каггле завис у меня на 12 часов.
Если он через 20 минут не выдаёт 200 эпох - надо перезапускать проект

Аноним 06/11/23 Пнд 15:48:40 #425 №537041

Чет бухтите что-то, а песенки забавные перестали выкладывать, а прошлых тредах так классно было, что случилось?

Аноним 06/11/23 Пнд 16:06:03 #426 №537058

Neco arc - ансамбль христа спасителя и мать сыра земля (АХС и МСЗ) - Еби феминисток.mp4

>>537041

Аноним 06/11/23 Пнд 16:20:26 #427 №537067

Neco arc - ромпомпом.mp4

>>537041

Аноним 06/11/23 Пнд 22:33:17 #428 №537495

скиньте отделенные воис и инструментал какой нибудь, на котором нормально получаются каверы.
сделал свою модель, но какой-то всратый звук получается, как у робота.
хочу на нормальных записях проверить.

Аноним 07/11/23 Втр 02:38:19 #429 №537721

VOBLYA1.mp4

>>537067

Аноним 07/11/23 Втр 04:06:18 #430 №537759

video2023-06-2514-14-26.mp4

Всем привте, тоько залетел, один вопрос - может доставить кто модель Бориса Репертура? Кто-тож уж точно должен был сделать, с меня как обычно

Аноним 07/11/23 Втр 04:20:29 #431 №537763

изображение.png

>>537759
а все ненад, почитал шапку и нашол
Хотел уже я написать, пока нашел чето в шапке, а там блять, мудак какой-то шутканул, вот и че это?
Короче вопрос актуален.

Аноним 07/11/23 Втр 04:22:36 #432 №537764

>>537759
https://files.catbox.moe/nq6hl5.pth
Из бота тг из шапки, сам не пробовал.

Аноним 07/11/23 Втр 04:22:40 #433 №537765

изображение.png

>>537763
впервые вижу ваще такую шнягу, погуглил метод, понял что это сдеано было при помощи py7zr, нет, это не дает возможности им открыть архива, но если типа захотите такую же хуйню забабахать то вы пидор

Аноним 07/11/23 Втр 05:13:35 #434 №537768

>>537764
Короче я понял примерно че там не работает, осталось понять как фиксить.
У меня G_.pth файлы с конфигом в жсоне нормально работают, а .pth (без конфига, как этот например) дают мегадлинную ошибку где последние строчки такие:

"C:\Users\user_name\AppData\Local\Programs\Python\Python310\lib\concurrent\futures\_base.py",
line 403, in __get_result
raise self._exception
PermissionError: [Errno 13] Permission denied: '.'

Как фиксить?

Аноним 07/11/23 Втр 05:28:35 #435 №537770

>>537768
баляя, полуркал, это оказуется для другой проги, то есть для so-vits-svc-fork не работает большая часть из шапки в том числе та, с Репертуром :с , ну, попробую чето еще, но походу придется свою делать блин...

Аноним 07/11/23 Втр 06:09:54 #436 №537787

>>537770
Баляяя, в телеге тоже один файл и он, удивительно, не работает.
Короче нашел на данный момент 2 модели и все, сука. одним pth файлом.
1. >>537764
2. С бота с телеги
траль-пидарас-уебок-мать-его-ебал не считается

Выручайте, котаны

Аноним 07/11/23 Втр 07:05:48 #437 №537793

>>537770
Ты бы сразу уточнил, что на SVC модель ищешь. Для неё модели несовместимы с моделями для RVC.

Вообще советую сразу RVC поставить, SVC со второй половины лета уже мало кто использует и моделей для RVC на порядок больше.

Аноним 07/11/23 Втр 07:47:05 #438 №537800

>>537768
А нахуя кстати нужны D_ и G_ файлы?

Аноним 07/11/23 Втр 08:20:20 #439 №537809

>>537800
G_*.pth это типа формат для одной проги конкретной другой формат короче я сам хуй знает D_ тоже хуй знает че реально

>>537793
Бля ок сяп учту

Аноним 07/11/23 Втр 14:30:32 #440 №538032

Да как нормально натренить модель. Я уже заебался, у меня безлимитное количество записей для тренировки, но что бы я не делал - выходит хуйня.
И 10 минут закидывал без сэмплов и с сэмплами
И 2 часа без сэмплов и с сэмплами
И в wav и в мп3
И 1000 и 200 эпох
Всегда одинаково выходит - хуйня 3/10 качество.
Может датасет сперва как то обработать?

Аноним 07/11/23 Втр 15:23:59 #441 №538089

>>538032
Качество датасета важнее длительности. Сами разрабы RVC говорят, что хватит датасета длительностью менее 10 минут голоса в разных диапазонах.

Если используешь UVR, то выбери нормальные модели, а не те, что идут в комплекте. Самая пиздатая это похоже MDX23C-InstVoc HQ, но она очень медленно работает и сильно грузит GPU. После неё мне больше всего нравится htdemucs_ft, но она более агрессивно режет эхо, судя по моим небольшим тестам. Хотя может это и плюс.

Если на датасете есть монотонные шумы, можешь их выпилить через Audacity: https://blog.selfpub.ru/not-noise-with-audacity

Аноним 07/11/23 Втр 17:24:49 #442 №538182

Здравствуйте аноны. С помощью какой локально нейронки можно сделать звуковую дорожку для видео без звука? Я слышал такое существует, но не понятно локально ли это

Аноним 07/11/23 Втр 20:38:45 #443 №538391

>>538089
Ну я так понимаю порядок такой:
1. Через UVR выдернуть и почистить голос
2. Через RVС засэмплить его, тут же тишина удалится
3. Обучать на сэмплах.

Формат файла как-то влияет? И можно ли в каггле дообучать имеющуся модель?

Аноним 08/11/23 Срд 06:41:45 #444 №538658

rosen.mp4

agatha.mp4

>>537041
> песенки забавные
)0

Аноним 08/11/23 Срд 06:43:27 #445 №538659

lippen.mp4

schneesturm.mp4

verstehe.mp4

Аноним 08/11/23 Срд 06:44:39 #446 №538661

bitten.mp4

fomalhaut.mp4

surreal.mp4

Аноним 08/11/23 Срд 06:47:12 #447 №538662

maxim.mp4

mein traum.mp4

wind.mp4

Аноним 08/11/23 Срд 06:48:59 #448 №538664

blatt.mp4

wolken.mp4

baby.mp4

Аноним 08/11/23 Срд 12:44:15 #449 №538802

Назрел вопрос, вот у меня есть модель натрененная на японском голосе, можно ли как-нибудь научить ее говорить по русски без дичайшего акцента?

Аноним 08/11/23 Срд 17:54:09 #450 №539118

SoftVC VITS Singing Voice Conversion Fork (SVC) модели этой хуиты можно заставить читать какой нибудь текст или они только для замены голоса?

Аноним 08/11/23 Срд 18:02:54 #451 №539131

Аноны, а шо за хуйня с этим llElevenLabs? Переводил короткие ролики с инглиша на русский, первые 3 заебись перевелись, все последующие просто нихера не происходит, только звук заглушается. Это мне так сообщают о том, что у меня попытки закончились чи шо

Аноним 08/11/23 Срд 18:53:55 #452 №539160

photo2023-03-3123-21-22.jpg

Анон, можешь посоветовать сетку, где я смогу озвучить свой текст торжественнымголосом на русском и эхом? Будто речь в огромном зале перед сотнями тысяч людей.

И ещё вопрос первая предложенная в шапке русская сетка - она как вам? Можно рассказики озвучивать? Там можно выбирать только голоса?

А если мне хочется особого голоса или атмосферы, придётся в секвенсорах играться?

Аноним 08/11/23 Срд 18:54:33 #453 №539161

>>539131
Лан, вопрос неактуальный, понял, что прост работает через жопу зачастую

Аноним 08/11/23 Срд 19:02:45 #454 №539165

>>538802
что такое голосовая модель? Это просто голос. На любом языке говорит. Ей пофиг

Аноним 09/11/23 Чтв 02:55:37 #455 №539547

Есть способ делать батч для еджи ТТС? В интерфейсе только вставление куска текста.

Аноним 09/11/23 Чтв 04:06:28 #456 №539561

base.mp4

shit carrier.mp4

овощевоз vs. говновоз

Аноним 09/11/23 Чтв 07:39:12 #457 №539620

>>539547
че такое батч

Аноним 09/11/23 Чтв 12:52:04 #458 №539768

Аноны я вот видел войс ченеджер на голоса известных стримеров, известных людей, название не могу найти, но он работал в реалтайме с микрофона, а есть ли какой-то софт для изменения голоса с файла? помогите пож

Аноним 09/11/23 Чтв 15:24:55 #459 №539904

>>539118
> SoftVC VITS Singing Voice Conversion Fork (SVC) модели этой хуиты можно заставить читать какой нибудь текст или они только для замены голоса?
Нет, придётся сначала генерить через TTS и потом прогонять через SVC или RVC. Были какие-то проекты, которые автоматизируют процесс TTS -> STS, но я их не смотрел, не могу чего-то конкретного посоветовать.

>>539160
> Анон, можешь посоветовать сетку, где я смогу озвучить свой текст торжественнымголосом на русском и эхом? Будто речь в огромном зале перед сотнями тысяч людей.
Про торжественность хз, русскоязычные опенсорсные TTS довольно монотонны, а при конвертации в RVC стилистику не поменяешь. Хотя тот же EdgeTTS, на мой взгляд, звучит гораздо более пафосно, по сравнению с Silero. Если в EdgeTTS никакие голоса не не заходят, то не знаю, что предложить можно. Эхо можно через Audacity добавить с плагином
FabFilter https://rutracker.org/forum/viewtopic.php?t=6198392

>>539768
RVC твой выбор. Там есть как realtime замена голоса, так и замена голоса в файле (или сразу в множестве файлов).

Аноним 09/11/23 Чтв 15:54:33 #460 №539949

>>538802
Насчет дичайшего не знаю, но акцент всё равно будет, звуки различаются. То же самое "р", "ш" и т.д.

Аноним 09/11/23 Чтв 22:04:35 #461 №540289

бамп

Аноним 10/11/23 Птн 13:26:19 #462 №540634

Kurwa Bobr bydlo jebanie.mp4

Аноним 10/11/23 Птн 22:46:03 #463 №541026 DELETED

Аноним 10/11/23 Птн 22:51:21 #464 №541030 DELETED

Аноним 10/11/23 Птн 23:00:12 #465 №541038 DELETED

>>532190
Я так понимаю это толкьо по подписке, верно?

Аноним 11/11/23 Суб 01:47:41 #466 №541145

>>511205 (OP)
Олсо, а этот пак записей голоса подойдет для обучения голоса?
https://nnmclub.to/forum/viewtopic.php?t=154903
Голос брутальный альфачовский

Аноним 11/11/23 Суб 15:29:17 #467 №541442

1693613883152521903.jpg

image.png

Хочу сделать оффлайн windows приложуху с качественным (относительно майкрософтной говорилки) tts синтеза для курсача.

Какие есть открытые для скачивания ai-модели? Может не такие крутые как в шапке, но хотя бы быстрые

Аноним 12/11/23 Вск 10:43:34 #468 №542096

Стикер

Помогите найти голосовую модель для so-vits-svc Путина

Аноним 13/11/23 Пнд 08:21:03 #469 №542812

>>538182
Звуковую дорожку для видео без звука, чиво? Картинки в (слушабельный) звук еще пока вроде даже без нейронок не научились превращать, мне кажется ты хочешь сделать озвучку сам записать и потом прогнать под желаемый голос.

Аноним 13/11/23 Пнд 10:27:55 #470 №542853

>>542096
RVC лучше и на каждом углу

Аноним 14/11/23 Втр 02:57:23 #471 №543620

Куда вы все эти модели устанавливаете?
Софт есть какой то или только сайты?

Аноним 14/11/23 Втр 03:37:19 #472 №543643

>>543620
RVC для нейрокаверов и преобразования голоса локально ставится, глянь ссылки в шапке.

TTS из шапки и отсюда >>511502 тоже локально ставится при желании.

Аноним 14/11/23 Втр 04:11:58 #473 №543655

>>511205 (OP)
Умерла девушка, сколько нужно записей что бы синтезировать голос?

Аноним 14/11/23 Втр 04:32:09 #474 №543659

>>543655
Помогите, не хочу сам искать

Аноним 14/11/23 Втр 04:36:00 #475 №543661

>>543655
От пяти минут до одного часа для обучения RVC модели. Опытные челы писали, что лучшим датасетом будет датасет небольшой длины (~10 минут), но что бы голос в нём был представлен в разных диапазонах.

Аноним 14/11/23 Втр 09:47:05 #476 №543724

>>543655
Делал из 15мин голосовых в тг, 300 эпох, после тюнинга получилось 1 в 1, звонил мамке ее, говорил ее голосом, она ничего не поняла.

Аноним 14/11/23 Втр 11:22:01 #477 №543777

169994946189560190.mp4

Аноним 14/11/23 Втр 17:07:25 #478 №543982

Под Windows 7 есть какой то софт?

Аноним 14/11/23 Втр 20:35:54 #479 №544155

изображение.png

>>543982
Только это
https://support.microsoft.com/ru-ru/windows/52d0e866-22ec-c630-6bd1-1ee6b5a0e3c8

Аноним 14/11/23 Втр 21:16:54 #480 №544186

>>544155
зачем мне твой сгенерированный шлак с отслеживанием мышки и отправкой скриншотов рабочего стола?

есть нормальный STS преобразователь чтобы песенки со спанчбобом делать, который будет работать на windows 7?

Аноним 14/11/23 Втр 21:58:23 #481 №544234

>>544186
Нету. Только шлак, ссылка выше.

Аноним 14/11/23 Втр 22:51:17 #482 №544292

>>544234
Правда? хуево вам там наверное с платными сайтиками и 2умя высерами с гитхаба написанными в глубинах тайваньских катакомб

Аноним 15/11/23 Срд 00:06:32 #483 №544350

>>544292
Кому вам? На сперме осталось 1,5 аксакала, все нормальные люди на дристянке.

Аноним 15/11/23 Срд 11:03:10 #484 №544542

>>544350
> все нормальные люди на
Линуксе.

Аноним 15/11/23 Срд 11:38:38 #485 №544552

La Foule.mp4

Минздрав.mp4

Песенка крокодила Гены.mp4

есть понт обновлять rvc?

Аноним 15/11/23 Срд 12:19:40 #486 №544573

>>544350
>>544542
Нормальные на десятке, красноглазые на линуксе, бородатые старцы на семёрке, соевые криэйторы на макоси, зумеры на андроиде/иос - зачем этим эти ваши громоздкие ящики на столе?

Аноним 15/11/23 Срд 16:22:11 #487 №544725

>>544350
Нормальные — это ретрограды-реакционеры?

Аноним 15/11/23 Срд 22:51:38 #488 №545127

1658473481829.mp4

Дочитать до третьего куплета было нелегко

Аноним 15/11/23 Срд 23:50:59 #489 №545161

170008106674567692.mp4

Аноним 15/11/23 Срд 23:51:37 #490 №545162

170008095324587050.mp4

Аноним 16/11/23 Чтв 00:00:10 #491 №545169

>>544573
> Нормальные на десятке
Быть кретином это не нормально, чел.

Нормальная ось это линукс, остальное от лукавого.
На мобилка андроид офкос.

Аноним 16/11/23 Чтв 00:46:27 #492 №545191

>>545169
Нормальная ось - Линукс.
Нормальный софт - опенсорс.

Всё остальное - от глюкавого.

Аноним 17/11/23 Птн 14:10:34 #493 №546422

https://www.youtube.com/watch?v=VF3yM7q1hJc
Аноны, хочу также свой голос заебашить, где это можно сделать?

Аноним 17/11/23 Птн 20:45:25 #494 №546673

>>545161
модель?

>>545191
spittin' fax

Аноним 17/11/23 Птн 22:59:56 #495 №546781

>>545162
блять я подумал тесак допрашивает Дмитрия Комарова

Аноним 17/11/23 Птн 23:20:38 #496 №546788

бля rvc (релиз из шапки прям) не хочет хавать мп3 56кбпс на 49 минут пмргите

Аноним 18/11/23 Суб 00:21:53 #497 №546848

>>546673
>модель?
элевенпролапс даббинг с английского

Аноним 18/11/23 Суб 00:56:11 #498 №546870

Я заебался обучать модель в RVC, уже 3 недели ебусь с ней. Делал и локально и на Каггле. И дата сет брал 4 минуты и 15 и 30 и несколько часов. Сам дата сет чистил от тишин, убирал ревёрб, хотя его там нихуя нет. Пробовал и 30 эпох и 500 ( в приницпе на 40-50 уже максимальное качество получается, дальше перетрен идёт). Пробовал и продолжать тренировку. Пробовал даже выдёргивать голос через UVR, хотя в дата сете чистый голос без музыки и посторонних шумов.
Одна хуйня выходит модель, которая хуево похожа на соус. Думаю надо предварительно датасет как то отредактировать что ли хз.
Может есть кто шарит в подготовке дата сета или уже полученном на выходе файле? Искал советы по этой теме - нигде ничего нет, челы тупо берут 5 минут записи и у них нормально получается.

Аноним 18/11/23 Суб 01:15:21 #499 №546880

>>546422
Бля, чел, там же в названии видео и описании указано.

Аноним OP 18/11/23 Суб 03:28:04 #500 №546930

1557334948010.png

https://2ch-ai.gitgud.site/wiki/speech/

Всю инфу из шапки структурировал и вынес по разделам сюда. Так же добавил инфу о нескольких других TTS'ках и ещё нескольких проектах, которые не упомянуты в шапке, включая UI, которые скидывали вначале треда.

Из ссылок убрал только китайский видеогайд для MoeTTS, т.к. нашёл для него английские доки на гитхабе.

Вики хранится в виде кучи md-файлов в git-репе, которые потом проливаются на статичный сайт. Из особенностей выбранного движка вики то, что все текстовые документы с вики прогружаются в момент загрузки любой страницы. Благорадя этому, поиск работает сразу по всей вики, несмотря на отсутствие какого-либо бекенда (пик).

Вики можно форкнуть и запустить локально, при желании. Я написал небольшие скрипты, которые облегчат этот процесс на винде - вам нужно лишь стянуть проект через git и запустить нужные батники, инфа здесь:
https://2ch-ai.gitgud.site/wiki/

Из требований только наличие python + pip в системе.

Приветствуются предложения по внесению правок посредством цитирования ОП-поста и запросом изменений в треде. Так же приветствуется участие посредством отправки Pull Requests.

Текущая версия шапки и так перегружена, что до сих пор спрашивают платину - в связи с этим, хочу переработать структуру шапки таким образом, что бы на ней была ссылка на вики и небольшой FAQ с разбором платины. А всю инфу о конкретных системах упрятать в вики.

Мнение, пчелы.

Аноним 18/11/23 Суб 03:42:53 #501 №546932

>>546880
Так там платно, не охота платить деньгу за это.

Аноним 19/11/23 Вск 14:57:01 #502 №548052

>>546930
> Всю инфу из шапки структурировал и вынес по разделам сюда.
Охуенно структурировал, прямо нравится.
> небольшой FAQ с разбором платины
Вот да, этого конечно действительно не хватает. Просто во всей этой инфе платиновый пайплайн ну для тех же нейрокаверов на песенки как то затерялся кмк.

Аноним 19/11/23 Вск 17:24:53 #503 №548118

>>546930
Я бы ещё добавил теги:
портабл
работает в облаке
только локально (ручная установка с гита)

Аноним 19/11/23 Вск 19:24:06 #504 №548214

1700410862866622.mp4

Аноним 19/11/23 Вск 22:41:04 #505 №548380

sgB1XWpTfy4.jpg

Привет аноны.
Я один из тех людей, которые внезапно возгораются энтузиазмом что-то делать, а потом энтузиазм спадает на неопределённый срок. Но пока волна энтузиазма есть, прёт энергия и можно свернуть горы.
Сейчас меня нахлынула такая волна, когда наткнулся на нейронный кавер на ДДТ голосом НекоАрк.
И хочу я перезаписать нейронную кавер-версию %песня-нейм% в исполнении %группа-нейм% так, чтобы голосом %группа-нейм% поверх минуса %песня-нейм% в мотив оригинальной %песни-нейм% другой текст, похожий интонационно и по рифмам
Вопросы от меня интеллекту тотального нуба в теме нейронок:
1) Эти ваши сети онлайн в бравузере или нужно будет что-то качать?
2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией
3) Правильно ли я понимаю, мне нужно сперва скормить оригинальную кучу песен %группа-нейм%, чтобы нейронка переняла интонации, затем скормить именно нужную мне песню несколько раз (разные студийки и лайвы), а потом как-то подключить текстовую нейронку к музыкальной, чтобы написанный мной текст нейронка наложила на минус %песня-нейм%, и только тогда я смогу получть в одной из сотен генераций песню, в которой поверх минуса/инструментальной версии %песня-нейм% будет наложен найросеточный голос, имитирующий голос, интонации и манеру исполнения оригинального исполнителя но с моим текстом?
Типа как в видриле Путину наложили арабскую речь изначально написанным текстом https://www.youtube.com/watch?v=kY6s1RRdktY
Какой в пизду обход бана? Я первый раз в разделе

Аноним 20/11/23 Пнд 04:45:30 #506 №548691

>>511205 (OP)
Что качать стейбл дифижн скачал

Аноним 20/11/23 Пнд 04:46:14 #507 №548692

>>548691
Я слушаю ваши нейронки на Ютубе, но мне этого нехватает

Аноним 20/11/23 Пнд 15:55:50 #508 №549020

>>548380
эт называется мэшап. Выходит нейромэшап

Аноним 20/11/23 Пнд 17:05:54 #509 №549065

img.jpg

>>549020
>эт называется мэшап. Выходит нейромэшап
Ну что ж, с терминами мы разобрались.
Это хорошо.
Теперь вопросы по существу:
1) Эти ваши мешап-мейкеры онлайн в бравузере или нужно будет что-то качать?
2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией?
3) 2) Там как двач - ввёл капчу и вперёд, или там анальный цирк с кармой, СМС и регистрацией....
и т.д.
В чём делать, короче, и как?

Аноним 20/11/23 Пнд 18:20:46 #510 №549114

>>548380
1. Берёшь голос/вокал будущего исполнителя. Если нету нормальной дорожки с голосом, то делаешь с трека через Ultimate Vocal Remover (разделяет музыку и голос).
2. Чистишь от тишины, шумов (ну или не чисти, при тренеровке само подчистится, но может хуево). Этот чистый голос называется датасет
3. Обучаешь модель под этот голос. Для этого качаешь Mangio-RVC или идёшь сюда https://www.kaggle.com/code/varaslaw/rvc-v2-no-gradio-https-t-me-aisingers-ru (загугли телегу его, там есть гайд).
4. Кормишь свой дата сет. Обучаешь до 100-150 эпох, с сохраненим каждой 10-20. На выходе получаешь разной степени обученности модели. Они могут "перетренироваться", поэтому надо будет потестить какая лучше
5. Потом делаешь то же самое что в п.1 но с целевой песней, которую будут перепевать. У тебя получится несколько файлов, один с вокалом, остальные (или 1) с музыкой.
6. Берёшь вокал из п.5 и накладываешь на него модель из п4. На выходе получаешь перепетый голос.
7. Склеиваешь это в аудио редакторе по дорожкам с музыкой из п.4.

Но у меня говно получается, 3 недели ебался, так и не сделал нормально. Думаю надо уметь работать со звуком чтобы все это подправлять и выравнитьвать
мимо >>546870

Аноним 20/11/23 Пнд 18:36:20 #511 №549132

>>549114
> качаешь Mangio-RVC
А в чём профит по сравнению с https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI ?

Аноним 20/11/23 Пнд 20:44:02 #512 №549269

>>549132
Одна хуйня. То что ты скинул - это китайский первоисточник. Может там при установке все на китайском, хз. Так что ставь Мангио.

Аноним 20/11/23 Пнд 20:59:16 #513 №549281

>>549114
># Установка необходимых зависимостей
>!apt-get -y install build-essential python3-dev ffmpeg
Но Это Же на линукс. У меня-то шинда10

Аноним 20/11/23 Пнд 21:42:31 #514 №549341

>>549281
это на облаке делается

Аноним 20/11/23 Пнд 21:58:01 #515 №549357

>>549281
читай гайд внимательно, поди, смотришь в раздел для красноглазых. все для винды есть.

Аноним 21/11/23 Втр 02:40:42 #516 №549541

Анон, нет времени вникать во все самому, поэтому прошу у тебя помощи с такой задачей: нужно украсть голос, сделать его идентичным или хотя бы похожим на оригинал, озвучивать с ним тексты, либо в идеале изменение голоса в реальном времени, через дискорд, скайп, тг. Готов заплатить за труды.

Аноним 21/11/23 Втр 11:40:44 #517 №549693

>>549541
чей голос? Сколько минут есть этого голоса. Насколько чистый

Аноним 21/11/23 Втр 13:43:47 #518 №549799

>>549693
Голос знакомых, они в курсе, есть возможность записать этот голос столько, сколько нужно, ну и под определенные требования.
моя тг @Almironc

Аноним 21/11/23 Втр 14:22:18 #519 №549831

>>549799
там голоса минимум час нужно в хорошем качестве. сможешь?

Аноним 21/11/23 Втр 14:28:23 #520 №549837

>>549831
Смогу, конечно.

Аноним 21/11/23 Втр 14:35:24 #521 №549843

>>549837
тогда делай. как будет напишешь

Аноним OP 22/11/23 Срд 02:24:04 #522 №550779

Прошлый тред: >>
Вики треда: https://2ch-ai.gitgud.site/wiki/speech/

FAQ

Q: Хочу озвучивать пасты с двача голосом Путина/Неко-Арк/и т.п.

1. Используешь любой инструмент для синтеза голоса из текста - есть локальные, есть онлайн через huggingface или в виде ботов в телеге:
https://2ch-ai.gitgud.site/wiki/speech/#синтез-голоса-из-текста-tts

Спейс без лимитов для EdgeTTS:
https://huggingface.co/spaces/NeuroSenko/rus-edge-tts-webui

Так же можно использовать проприетарный комбайн Soundworks (часть фич платная):
https://dmkilab.com/soundworks

2. Перегоняешь голос в нужный тебе через RVC. Для него есть огромное число готовых голосов, можно обучать свои модели:
https://2ch-ai.gitgud.site/wiki/speech/sts/rvc/rvc/

Q: Как делать нейрокаверы?

1. Делишь оригинальную дорожку на вокал и музыку при помощи Ultimate Vocal Remover:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/UVR

2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC

3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио

Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.

Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.

Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.

Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
Используй RVC (запуск через go-realtime-gui.bat) либо Voice Changer:
https://github.com/w-okada/voice-changer/blob/master/README_en.md

Гайд по Voice Changer, там же рассказывается, как настроить виртуальный микрофон:
https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/Voice‐Changer (часть ссылок похоже сдохла)

Q: Как обучить свою RVC-модель?
Гайд на русском: https://github.com/MaHivka/ultimate-voice-models-FAQ/wiki/RVC#создание-собственной-модели
Гайд на английском: https://docs.aihub.wtf/guide-to-create-a-model/model-training-rvc
Определить переобучение через TensorBoard: https://docs.aihub.wtf/guide-to-create-a-model/tensorboard-rvc

Q: Надо распознать текст с аудио/видео файла
Используй Whisper от OpenAI: https://github.com/openai/whisper
Так же есть платные решения от Сбера/Яндекса/Тинькофф.

Шаблон для переката: http://