24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна. Подробности случившегося. Мы призываем всех неравнодушных помочь нам с восстановлением утраченного контента!

TTS тред № 1 Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео пер /tts/

 Аноним OP 29/01/23 Вск 15:28:17 #1 №88212 
1 (2).mp4
1 (1).mp4
1.mp4
11.mp4
TTS тред № 1
Обсуждаем генераторы спичей и постим что получилось, но надо конвертировать в видео перед постингом. Советую аудио лучше слушать в наушниках.
Есть VITS-Umamusume-voice-synthesizer, она только на японском говорит, но у неё 87 голосов.
ХагиФейс: https://huggingface.co/spaces/Plachta/VITS-Umamusume-voice-synthesizer
Гугл-Калаб: https://colab.research.google.com/drive/1J2Vm5dczTF99ckyNLXV0K-hQTxLwEaj5?usp=sharing

Также есть MoeGoe и MoeTTS.
Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8

Они довольно лёгкие, если вам нужно на своём компьютере то, придётся накачать около 5 гигов + питон + гит, но всё будет установленно в одну папку поэтому будет легко удалить если надоест.
Гайд: https://textbin.net/kfylbjdmz9
Аноним 29/01/23 Вск 15:33:25 #2 №88226 
1.mp4
Вкатился
Аноним 29/01/23 Вск 15:35:08 #3 №88227 
>>88226
Бля, оп использовал это аудио, не заметил.
Аноним 29/01/23 Вск 15:36:59 #4 №88230 
test.mp4
>>88212 (OP)
>только на японском говорит
Нужно это исправлять.
Аноним 29/01/23 Вск 15:37:36 #5 №88231 
>>88230
Можешь обучить свою модель
Аноним 29/01/23 Вск 15:40:26 #6 №88240 
sasai.mp4
Аноним 29/01/23 Вск 15:40:41 #7 №88241 
https://github.com/cjyaddone/ChatWaifuL2D
Китайчата что то пилят интересное
Аноним 29/01/23 Вск 15:42:53 #8 №88244 
"Ух бля" сгенерировать сможете?
Аноним 29/01/23 Вск 15:45:42 #9 №88247 
>>88241
Хуя, на базе Live2D.
Аноним 29/01/23 Вск 15:51:30 #10 №88251 
36980115.mp4
Аноним 29/01/23 Вск 15:52:27 #11 №88254 
>>88251
Нихуя не понятно, но очень интересно
Аноним 29/01/23 Вск 15:54:13 #12 №88255 
>>88254
Что-то типа "покажи, покажи что внутри других людей, сломано, сломано, этот мир смеётся над нами..."
Аноним 29/01/23 Вск 15:55:02 #13 №88257 
Еще бы картинки спомощью нейронки анимировать (а сами картинки тоже сгенерированы нейронкой) и это будет НЕЙРОБЛАЖЕНСТВО.
Аноним 29/01/23 Вск 15:55:50 #14 №88258 
>>88255
Я все же думаю пора обучать русскому и использовать для озвучки паст про говно
Аноним 29/01/23 Вск 15:56:09 #15 №88259 
>>88255
Лучше прикрепляй промпт на японском к аудио, так сможет любой в дипл засунуть его и понять что сказано
Аноним 29/01/23 Вск 15:56:27 #16 №88260 
test2.mp4
>>88244
Спорно
Аноним 29/01/23 Вск 15:57:53 #17 №88262 
>>88254
Опенинг токийского калеки ну вы чево...
Аноним 29/01/23 Вск 15:59:30 #18 №88263 
а есть уже какие-то работы по нейроконвертации голоса? смена тембра и все такое, без сеток тембр меняется очень топорно
Аноним 29/01/23 Вск 16:00:27 #19 №88264 
ahegao.mp4
Если хотите с картинками то можно скачать ффмпег и через кансоль делать:
ffmpeg -loop 1 -i imag.png -i ahegao.wav -c:v libx264 -t 30 -pix_fmt yuv420p -shortest ahegao.mp4

Надо заменит imag.png - на путь до файла, если там пробелы то надо в кавычки ""
Также ahegao.wav - на путь до аудио. А ahegao.mp4 - это название видео
Аноним 29/01/23 Вск 16:00:43 #20 №88265 
>>88262
Тогда в первых словах заставь тянуть ошииихитео, да и с паузами поиграй
Аноним 29/01/23 Вск 16:01:09 #21 №88268 
>>88259
У меня нет промта, я с аудио услышал...
Аноним 29/01/23 Вск 16:01:51 #22 №88270 
>>88251
А музыка откуда?
Аноним 29/01/23 Вск 16:02:35 #23 №88271 
>>88265
А это как?
Аноним 29/01/23 Вск 16:02:56 #24 №88272 
>>88270
С ютуба:
https://www.youtube.com/watch?v=reOlqJ6LsoY
Аноним 29/01/23 Вск 16:03:04 #25 №88273 
image.png
пометил себе девочек в .json, ибо их китайские имена гуглить не умею
Аноним 29/01/23 Вск 16:03:57 #26 №88274 
image.png
image.png
>>88271
Вот истинный промт по которому генерит нейронка.
Сюда прожимаешь и можешь по нему генерировать, а не по языку.
Аноним 29/01/23 Вск 16:04:38 #27 №88277 
>>88273
Поделись фейлом.
Аноним 29/01/23 Вск 16:04:58 #28 №88278 
>>88274
Благодарю, сейчас попробую.
Аноним 29/01/23 Вск 16:05:12 #29 №88279 
>>88273
У 6 перса, Vodka. Очень грубый женский голос.
Аноним 29/01/23 Вск 16:06:26 #30 №88285 
>>88277
https://textbin.net/4bvjpu3slr
Вот кусок с пронумерованными персами.
Можно тут по ним инфы взять.
https://umamusume.fandom.com/wiki/Characters
https://gametora.com/umamusume/characters
Аноним 29/01/23 Вск 16:07:05 #31 №88287 
>>88262
Во я объебался с текстом.
>>88268
Аноним 29/01/23 Вск 16:08:20 #32 №88288 
>>88279
Ой, она 7, но и у 6 тоже грубый.
Аноним 29/01/23 Вск 16:17:27 #33 №88307 
1.mp4
Теперь идеально, фон черный из-за того, что у оригинальной картинки он прозрачный.
Аноним 29/01/23 Вск 16:19:53 #34 №88318 
Сделайте "Словно хуй ДРОЧЕННЫЙ..." голосом Соловьева
Аноним 29/01/23 Вск 16:23:08 #35 №88325 
>>88260
это она суп на сковороде поджарила?
Аноним 29/01/23 Вск 16:24:58 #36 №88330 
Почему на форче такого треда нет? Неужели опять победа двача?
Аноним 29/01/23 Вск 16:32:39 #37 №88349 
Стесняюсь слушать генерации голоса...
Аноним 29/01/23 Вск 16:38:06 #38 №88360 
>>88307
Какой голос, номер?
Аноним 29/01/23 Вск 16:40:00 #39 №88365 
>>88360
51
Аноним 29/01/23 Вск 16:42:32 #40 №88370 
>>88212 (OP)
>она только на японском говорит
Но дышит и пыхтит она на международном, первая строка демо в хаггинг фейсе.
Аноним 29/01/23 Вск 16:49:53 #41 №88390 
Как бы заставить эту мокрописю и другие vits модели юзать...
>>88370
Может ты разбираешься в этом?
Аноним 29/01/23 Вск 16:54:44 #42 №88394 
А где в случае venv модели хранятся? Оно работает спокойно и без модели в паке pretrained_models
Аноним 29/01/23 Вск 16:55:44 #43 №88397 
>>88390
Я щас капаюсь в ней, что такое vits?
Аноним 29/01/23 Вск 16:56:54 #44 №88401 
>>88397
в папке часть в VITS-Umamusume-voice-synthesizer часть в anon_eblan
Аноним 29/01/23 Вск 16:57:40 #45 №88405 
image.png
image.png
>>88397
Я имею в виду вот эти модельки, они вроде бы именно этим и являются.
Аноним 29/01/23 Вск 16:59:54 #46 №88411 
image.png
А, нет, убрал из той папки все модели и не запускается. Значит именно оттуда и использует.
Аноним 29/01/23 Вск 17:00:59 #47 №88415 
image.png
>>88411
Для запуска ей хватает лишь одной пикрил модели.
Аноним 29/01/23 Вск 17:01:01 #48 №88416 
ahegao.mp4
Учу детей плохому.
Аноним 29/01/23 Вск 17:02:21 #49 №88417 
>>88415
При этом программа спокойно работает и разные голоса тоже.
Аноним 29/01/23 Вск 17:04:51 #50 №88418 
image.png
>>88417
Попытался подменить модельку, изменяя имена, результат - пикрил. Стена неясного текста и не запускается.
Аноним 29/01/23 Вск 17:07:09 #51 №88422 
>>88416
はつをちるねえー???
Аноним 29/01/23 Вск 17:08:06 #52 №88423 
>>88418
Размер тензоров не совпадает, это скорее веса, тут просто так не пофиксить это. Это скорее всего веса, они получаются из тренировки. Или ты файлы перепутал.
Аноним 29/01/23 Вск 17:09:01 #53 №88428 
>>88422
Хачу член
Аноним 29/01/23 Вск 17:09:33 #54 №88431 
>>88422
Да не, хотел сделать что-то похожее по звуку на "Хочу член"
ha↓tsu↓ tsi↓re↓n↓↓

Надо вкатываться в обучение русских моделей
Аноним 29/01/23 Вск 17:10:54 #55 №88438 
>>88423
>не совпадает
С чем?
Аноним 29/01/23 Вск 17:11:03 #56 №88439 
>>88431
Найди датасет
Аноним 29/01/23 Вск 17:12:30 #57 №88443 
>>88439
Есть только японские голоса из VN ((
Видел онлайн сервис, ему примерно минута нужна. А сколько нужно этим моделям? Или ещё никто не добрался до тренировок?
Аноним 29/01/23 Вск 17:15:11 #58 №88448 
>>88443
> Или ещё никто не добрался до тренировок?
Не, анон, который мне показал tts, сказал что можно натренировать. Я лично нашел лишь то видео от китайца и его колаб. Сам ничего не тренировал.

>Гайд на китайском: https://colab.research.google.com/drive/1HDV84t3N-yUEBXN8dDIDSv6CzEJykCLw#scrollTo=EuqAdkaS1BKl
кажется итт можно тренировать свои голосовые модели, но это не точно
Гугл-Калаб: https://www.bilibili.com/video/BV16G4y1B7Ey/?share_source=copy_web&vd_source=630b87174c967a898cae3765fba3bfa8
Аноним 29/01/23 Вск 17:15:43 #59 №88449 
>>88212 (OP)
Какие мощности локальная нейронка требует?
Аноним 29/01/23 Вск 17:16:39 #60 №88452 
>>88449
Примерно никакие, загружается во врам ~400мб и вычисления выполняет процессор.
Аноним 29/01/23 Вск 17:17:02 #61 №88454 
>>88452
Пасеба
Аноним 29/01/23 Вск 17:18:47 #62 №88457 
>>88438
все так называемые нейросети работают по шаблону
Input -> Model -> Output
В этом случае Input - это текст, а аутпут аудио.
Текст конвертируется в тензор(многомерный набор чисел с определённым размером, например, (256, 16, 2)) над этим вектором делают матиматическую магию и делают новый тензор, с новым размером который декодируется в аудио. И проблема в том что программа конвертится в твой текст в тензор, модель не может его использовать потому-что его размер не подходит для арефметических операций этой модели, потому что она по другому это делает. Это как мозги, у нас они могут по разному устроены и с разным количеством нейроннов, но делать одно и тоже.
Аноним 29/01/23 Вск 17:20:27 #63 №88461 
>>88448
Хммм. Оригинальный датасет весит 11 гиг, и это на 110 English speakers. То есть на одного нужно примерно 100 метров голоса, 400 фраз. Мда, из фильмов такое не наколупать.
Аноним 29/01/23 Вск 17:32:27 #64 №88480 
>>88457
MoeTTS смог в ту модель, но результат - полный бред. Сейчас затестил через MoeTTS другую модель, и она программе не понравилась.
Аноним 29/01/23 Вск 17:32:50 #65 №88483 
image.png
>>88480
Аноним 29/01/23 Вск 17:33:22 #66 №88485 
>>88461
попроси сестру наговорить
Аноним 29/01/23 Вск 17:35:39 #67 №88489 
image.png
>>88483
MoeGoe же в принципе у меня не работает.
Аноним 29/01/23 Вск 17:36:54 #68 №88490 
>>88485
Я ж потом дрочить на это не смогу.
Аноним 29/01/23 Вск 17:36:59 #69 №88491 
https://github.com/CjangCjengh/TTSModels
Здесь есть парочка моделек, но хз, сможет ли хоть что то их использовать.
Аноним 29/01/23 Вск 17:37:31 #70 №88492 
https://huggingface.co/spaces/skytnt/moe-tts
Вообще ещё такой хаггин есть, в нем аж 15 моделей разных.
Аноним 29/01/23 Вск 17:41:07 #71 №88495 
>>88492
И все они там прекрасно работают.
Аноним 29/01/23 Вск 17:41:32 #72 №88496 
>>88483
У теюя ошибка на одно число, скорее всего это багкоторый можно фикснуть. Надо смотреть на ввод и в код
Аноним 29/01/23 Вск 17:42:17 #73 №88497 
>>88489
Сделай 噪声比例 noise_scale = 1
Аноним 29/01/23 Вск 17:44:37 #74 №88499 
image.png
image.png
image.png
>>88497
Аноним 29/01/23 Вск 17:44:58 #75 №88500 
image.png
>>88492
Норм
Аноним 29/01/23 Вск 17:53:50 #76 №88517 
изображение.png
>>88500
Пойду Илью озвучивать.
Аноним 29/01/23 Вск 18:06:54 #77 №88543 
>>88500
Бля, локально бы эти модельки запускать...
Аноним 29/01/23 Вск 18:20:54 #78 №88563 
>>88212 (OP)
https://github.com/TensorSpeech/TensorFlowTTS внятных демок нет, с гуглодиска качать лень
https://github.com/TensorSpeech/TensorflowTTS/tree/master/examples/android то же самое, для запуска на ведре

https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples
https://sforaidl.github.io/Neural-Voice-Cloning-With-Few-Samples/ клонирование голоса, с семплами, сильные искажения

https://github.com/coqui-ai/TTS поддержка 20 языков
http://erogol.com/ddc-samples/
Аноним 29/01/23 Вск 18:23:22 #79 №88568 
>>88461
>То есть на одного нужно примерно 100 метров голоса, 400 фраз. Мда, из фильмов такое не наколупать.
Любая русская стримерша.
Аноним 29/01/23 Вск 18:55:32 #80 №88658 
>>88568
Там же наверняка всякая музыка и прочие вспуки на фоне будут.
Аноним 29/01/23 Вск 18:57:51 #81 №88662 
>>88230
>>88231
Вот на разных языках + говоры
https://colab.research.google.com/github/snakers4/silero-models/blob/master/examples_tts.ipynb#scrollTo=0c29189f
Аноним 29/01/23 Вск 18:58:22 #82 №88664 
image.png
Сейчас чекну что форчаньки об этом думают, и знают ли они вообще.
>>88658
Датасет надо долго и упорно подготавливать, да.
Аноним 29/01/23 Вск 19:08:57 #83 №88711 
https://vocaroo.com/1hp9Vi9sMtDS
Пример гена TTS модели, которую они юзают.
Аноним 29/01/23 Вск 19:09:00 #84 №88713 
>>88662
А я хочу чтобы было как в аниме. И японские сейю мне на русском говорили. Такое и в гугл переводчике можно послушать.
Аноним 29/01/23 Вск 19:10:23 #85 №88718 
>>88713
Это да
Аноним 29/01/23 Вск 19:14:26 #86 №88722 
https://voca.ro/1oTUCvphkCTj
можно ведь на вокару заливать войс
Аноним 29/01/23 Вск 19:20:59 #87 №88743 
>>88664
Реакция околонулевая
Аноним 29/01/23 Вск 19:21:34 #88 №88746 
>>88658
>Там же наверняка всякая музыка и прочие вспуки на фоне будут.
Во-первых, есть вырыватели голоса. Во-вторых, можно тупо взять какие-нибудь порнорассказы начитанные томными женскими голосами. Там обычно фона нет.
Аноним 29/01/23 Вск 19:22:15 #89 №88749 
image.png
опа
Аноним 29/01/23 Вск 19:22:35 #90 №88750 
promis.mp4
>>88662
Аноним 29/01/23 Вск 19:23:00 #91 №88753 
>>88749
https://github.com/NaruseMioShirakana/VitsGradio
Вебуи для витс моделей.
https://www.bilibili.com/video/BV1DT41127wr/
Аноним 29/01/23 Вск 19:23:34 #92 №88756 
>>88746
гений, как я до этого не додумался. многие же сею вкатывались через аудиокниги
Аноним 29/01/23 Вск 19:25:53 #93 №88760 
>>88711
Норм.
Аноним 29/01/23 Вск 19:26:01 #94 №88763 
>>88753
Я хз насколько это хуета рабочая, т.к. полный ноунейм
Аноним 29/01/23 Вск 19:27:41 #95 №88771 
>>88711
как это сделать?
Аноним 29/01/23 Вск 19:28:48 #96 №88776 
>>88771
https://beta.elevenlabs.io/
Аноним 29/01/23 Вск 19:30:41 #97 №88782 
>>88776
К сожалению, проприетарная хуитка.
Аноним 29/01/23 Вск 19:32:44 #98 №88789 
>>88782
Ага, они плачутся от этого в треде, но мои посты игнорят.
Аноним 29/01/23 Вск 19:51:45 #99 №88850 
>>88789
?
Аноним 29/01/23 Вск 19:53:17 #100 №88856 
>>88850
>>88664
Я именно на нытье про проприетарщину ответил своим постом.
Аноним 29/01/23 Вск 19:58:20 #101 №88879 
Что-то не догоняю в тред.
Куда что жать, чтобы накачать аудиокниг на русском языке женских, которые начитали всякое фэнтези женское про ведьм. И потом эти аудиокниги скормить и на выходе получить русский ттс, который озвучит мне все что угодно?
Аноним 29/01/23 Вск 20:03:59 #102 №88907 
>>88879
В яндексе нажми "слушать эротические порноистории бесплатно без смс мп3 мокрые письки ильхам зулькарнеев"
Аноним 29/01/23 Вск 20:04:17 #103 №88908 
>>88879
Пока не знаем.
Кстати, вспомнил, что проект "Песнь Сайи" как-то озвучивали на русском. Итого есть к примеру целых 50 мегабайт озвучки самой Сайи и чуть больше 200 метров всей озвучки на русском. Если кто будет трейнить, можно будет выдрать и сами тесты, если это нужно.
Аноним 29/01/23 Вск 20:08:18 #104 №88925 
>>88908
Вот пример если что.
https://voca.ro/1iJdoWfSBgJV
Аноним 29/01/23 Вск 20:09:53 #105 №88931 
>>88908
спасиб за подгон
Аноним 29/01/23 Вск 20:11:29 #106 №88936 
>>88931
Эм, это один файл из 568.
Сам найдёшь, или мне весь пак залить?
Аноним 29/01/23 Вск 20:13:51 #107 №88943 
>>88936
Я щс ищу, но меня смущает приписка с цензурой. Если у тебя пак с текстом то да.
Аноним 29/01/23 Вск 20:21:20 #108 №88956 
>>88943
Тексты надо из скриптов выковыривать. Звук же могу хоть сейчас залить, хотя я просто распаковал файлы для андроид версии и прошёл по пути main.10105.ru.anso.saya\assets\x-game\x-voice\x-Persons_rus
Аноним 29/01/23 Вск 20:29:03 #109 №88972 
>>88943
Короче декомпилировал скрипт игры, там в формате типа
> voice "voice/Persons_rus/Saya/04.ogg"
> s "Я работала в гостиной, покраска наполовину завершена. И теперь я готовлю тебе ужин, как показывают по телевизору."
> voice "voice/Persons_rus/Fuminori/40.ogg"
> f "Здорово."
Надо такое, или мне привести в более божеский вид? А то я немного приболевший сейчас, программировать неохото.
Аноним 29/01/23 Вск 20:40:19 #110 №88987 
>>88908
>Песнь Сайи
Я загуглил. Зачем такое читать вообще, господи.
Аноним 29/01/23 Вск 20:46:04 #111 №88997 
>>88987
Лучшая ВН всех времён и народов. Автор кстати потом деградировал и начал снимать всякое говно типа Психопаспорт, Судьба: Начало и прочие Мадоки. http://www.world-art.ru/people.php?id=80224
Аноним 29/01/23 Вск 20:48:32 #112 №89009 
>>88997
Впрочем похуй, как кому кажется игра, главное, это почти готовый датасет чистых голосов на русском с текстами. Для бедных.
Аноним 29/01/23 Вск 20:49:16 #113 №89011 
>>88997
>Лучшая ВН
БЛ же.
Аноним 29/01/23 Вск 20:55:56 #114 №89021 
>>88972
Я смогу достать, ты откуда это берёшь, из игры?
Аноним 29/01/23 Вск 20:56:09 #115 №89023 
Какие применения могут быть у TTS?
Аноним 29/01/23 Вск 20:58:46 #116 №89029 
23369801154363.mp4
Аноним 29/01/23 Вск 21:00:35 #117 №89033 
>>89023
Если игрыть в игры с генеративным сюжетом, то будет классно кроме чтения ещё и слушать речь персонажа. Особенно если там есть не только слова.
Аноним 29/01/23 Вск 21:03:26 #118 №89038 
image.png
>>88760
Но в японский не может.
Аноним 29/01/23 Вск 21:04:55 #119 №89040 
>>89038
Или они хотят английский со звучанием японской сэйю? Что за бред.
Аноним 29/01/23 Вск 21:08:17 #120 №89044 
>>89021
Да, из игры. Куда заливать?
>>89040
Я мечтаю о таком, лол. И с русским чтобы было. Конечно задача на порядок сложнее, но не думаю что прям вообще невозможно.
Аноним 29/01/23 Вск 21:16:31 #121 №89051 
>>89044
Просто дай ссылку на скачку.
Аноним 29/01/23 Вск 21:17:20 #122 №89054 
>>89023
Можешь полностью озвучить свой мультик одним ттс, или прикрутить в игре ттс, к чатжпт персонажам, в итоге нпс будут как люди генерировать фразы, ещё и озвучивать.
Можешь вести свой ютуб канал на любом языке, давая озвучку ттс.
Ну и ещё миллион вариаций.
Аноним 29/01/23 Вск 21:20:19 #123 №89061 
>>89054
>ютуб канал
А это неплохая идея.
Аноним 29/01/23 Вск 21:20:44 #124 №89062 
Можно еще в voicework пытаться.
Аноним 29/01/23 Вск 21:26:21 #125 №89076 
>>89051
Держи.
https://files.catbox.moe/memvmk.7z
Аноним 29/01/23 Вск 21:39:04 #126 №89116 
>>89076
Спасиб, я и не думал о таком варианте даже.
Аноним 29/01/23 Вск 21:41:28 #127 №89125 
>>89116
В принципе, можно пиздить голоса из любых игр, для которых есть анпакеры.

Скажешь, если чего получится.
Аноним 29/01/23 Вск 21:51:43 #128 №89149 
>>89125
Я думаю к тому времени нужно будет новый тред создовать
Аноним 30/01/23 Пнд 04:01:28 #129 №89902 
https://boards.4chan.org/pol/thread/414088182/new-ai-voice-model-can-fake-anyones-voice-with
видел тут обсуждался проприетарный генератор
минус - в русский очень сломано может
https://beta.elevenlabs.io/

С голосом знакомой тянки сгенерил
https://voca.ro/1mqLK9h2qNfK
Аноним 30/01/23 Пнд 13:05:35 #130 №90487 
>>89902
Вот эта штука вообще ништяк, но увы только для англо-говорящих. Русский там звучит как чухонец какой-то. Надеюсь, в будущем кто-нибудь запилит русскую версию, да чтоб с национальными акцентами. Идеально и для озвучки игр, и для аудиокниг, и для анимации. Можно и песенки позаписывать типа вокалоидов. Знай себе играй с ползунками, проставляя ударения и тональность.
Аноним 30/01/23 Пнд 13:49:23 #131 №90590 
>>89023
Я книги им озвучиваю и всякие тексты, где озвучки нет.
Аноним 30/01/23 Пнд 18:34:08 #132 №91089 
>>90487
есть utau, фри версия вокалоида, где можно создать свой банк голоса или использовать ещё чей-то

хз правда можно ли им нормальную речь сделать или только песенки

тоже синтез реяи такого рода это то для чего нейросети особенно не нужны

мне интересно а если сделать банк своего голоса... конечно никому его не давать
Аноним 30/01/23 Пнд 20:56:40 #133 №91360 
Блядь, да как эту вашу хуйню локально запустить? Куча ошибок по гайду из шапки
Аноним 30/01/23 Пнд 22:03:19 #134 №91488 
>>91360
Этот гайд я писал и его прошли только пару человек, поэтому это ожидаемо что могут быть какие-то траблы. Если у тебя есть какая-то конкретная проблема, то можещь написать в чём именно. И не забудь прикрепить скрин последних логов для из повершелл.
Аноним 31/01/23 Втр 11:46:12 #135 №92221 
image
>>91488
При нажатии Generate в градио

Traceback (most recent call last):
File "E:\TTS\anon_eblan\lib\site-packages\gradio\routes.py", line 337, in run_predict
output = await app.get_blocks().process_api(
File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 1018, in process_api
data = self.postprocess_data(fn_index, result["prediction"], state)
File "E:\TTS\anon_eblan\lib\site-packages\gradio\blocks.py", line 956, in postprocess_data
prediction_value = block.postprocess(prediction_value)
File "E:\TTS\VITS-Umamusume-voice-synthesizer\app.py", line 36, in audio_postprocess
suffix=".wav", dir=self.temp_dir, delete=False
AttributeError: 'Audio' object has no attribute 'temp_dir'
Аноним 31/01/23 Втр 11:54:48 #136 №92238 
>>92221
В гайде степы с созданием папки(mk dir) и изменением куска кода делал? Посмотри внимательно и проделай еще раз.
не автор
Аноним 31/01/23 Втр 11:57:04 #137 №92244 
>>92238
Они по гайду идут после запуска app.py, так что не делал.
Аноним 31/01/23 Втр 12:32:14 #138 №92284 
>>92238
Спасибо анон, в тот раз не догадался.
Аноним 31/01/23 Втр 14:23:27 #139 №92502 
synthesized-audio.mp4
Аноним 31/01/23 Втр 14:36:59 #140 №92520 
synthesized-audio.mp4
Аноним 31/01/23 Втр 14:38:18 #141 №92523 
>>92502
чел, это проприетарная хуита
Аноним 31/01/23 Втр 14:44:34 #142 №92533 
>>92502
>>92520
Никто не спорит, что там норм качество, но:
1) Модель для английского языка.
2) Платная хуита.
3) Моджель для английского языка.
Нужна TTS уровня Виспера и Стабл Дифьюжена, чтоб можно было голос клонить на компе у себя/в калабе. А фочаньки тупые могут на свою хуиту сколько угодно дрочить, для наших целей это хуетой быть не перестает.
Аноним 31/01/23 Втр 16:43:08 #143 №92653 
Клонер голоса на существующую запись. Так сказать голос-сваппер.

https://olawod.github.io/FreeVC-demo/- тут демы, листайте до третьей, там понятно сразу
https://github.com/OlaWod/FreeVC
https://huggingface.co/spaces/OlaWod/FreeVC демо на цпу

Можете тестить на русском, я не проверял. Но демки качественный и принцип хороший.
Аноним 31/01/23 Втр 17:06:06 #144 №92676 
>>92533
Для таких целей архитектура должна быть заточена под zero/few shot learning, как SD. Не читал про архитектуру tts-моделей, но там точно есть VAE.
Аноним 31/01/23 Втр 17:09:27 #145 №92681 
ygygq2.mp4
Аноним 31/01/23 Втр 17:11:28 #146 №92684 
https://vocaroo.com/1jpnVw5zRyLR
Аноним 31/01/23 Втр 17:27:50 #147 №92718 
synthesized-audio.mp4
>>92523
>>92533
Аноним 31/01/23 Втр 17:54:04 #148 №92772 
>>92718
Ты заеб этим калом срать.
Аноним 31/01/23 Втр 17:57:49 #149 №92777 
>>92676
Gradio Demo for FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion.
Читать умеешь?
Аноним 01/02/23 Срд 11:24:38 #150 №94256 
sh.mp4
result.mp4
Про xVAsynth уже писали? Дружелюбный интерфейс, куча уже готовых голосов + очень легко нагенерить свои, можно буквально 1 ссылкой из ютуба и десятком кликов запустить процесс. Но если заморочиться, то и результат будет лучше.
Аноним 01/02/23 Срд 23:50:20 #151 №95479 
image.png
image.png
Парни, помогите сгенерировать голос.
есть 7166 звуковых файлов опредеоённого голоса, от 1 секунды до 1 минуты каждый. В названии файлов текст произносимый персонажом. Куда их закинуть чтобы кнопка была "сделать всё пиздато"?
Chatgpt не предлагать
Аноним 02/02/23 Чтв 11:08:53 #152 №95910 
>>95479
https://youtu.be/PXv_SeTWk2M
Аноним 02/02/23 Чтв 16:54:53 #153 №96552 
Без названия (2).mp4
Тред умер?
Аноним 02/02/23 Чтв 17:11:20 #154 №96584 
synthesized-audio.mp4
>>96552
Аноним 02/02/23 Чтв 19:48:46 #155 №96927 
>>96552
Никто не решается обучить модель на русских голосах.
Аноним 02/02/23 Чтв 19:51:16 #156 №96938 
>>96927
Ну я щс в этом капаюсь, но у меня трабля с библиотеками, потому что они расчитанны на убунту. Я щс учу докер, к своему стыду я им не пользовался. Если не получится то тогда просто скачаю ОС.
Аноним 02/02/23 Чтв 20:21:11 #157 №96984 
>>96927
Натренировали бы на вокалоидах, лол.
Аноним 02/02/23 Чтв 20:40:45 #158 №97020 
>>96984
русских вокалоидов нет
есть русские утаоиды но хрен ты кого на них натренируешь

в треде говорили же тренировать можно на аудиокнигах или на голосе своем или родственников/друзей/знакомые
Аноним 02/02/23 Чтв 21:01:11 #159 №97076 
>>97020
Вот блядь идеальная ссылка с набором чистого голоса. Нет блин ждём непонятно чего.
>>89076
Аноним 02/02/23 Чтв 21:26:23 #160 №97135 
Оставлю это здесь
https://vocaroo.com/1aXsLiOIx7rI
А пока ждём таких же возможностей на русском языке
Аноним 02/02/23 Чтв 21:44:18 #161 №97168 
>>97135
Абасцался, теперь и мои рофельные стишки читают с таким надрывом, что я аж преисполняюсь...
https://vocaroo.com/1yZuonRNs0VZ
Аноним 02/02/23 Чтв 21:48:37 #162 №97175 
1 (2).mp4
РОССИЯ СВЯЩЕННАААААЯ НАША ДЕРЖАВАААА
это текст
Аноним 02/02/23 Чтв 21:49:35 #163 №97177 
>>97175
блять вот я дурак не тот файл кинул
Аноним 02/02/23 Чтв 21:49:58 #164 №97179 
>>97135
есть причина почему дикторам хуже всего
Аноним 02/02/23 Чтв 22:05:31 #165 №97199 
Ну все, пиздец.
Вчера переписывал на свой лад для ВН-ки- речь Профессора Озпина, а теперь спустя день уже озвучил...
Напомните, а Ритан сколько сотен тысяч на озвучку ЛМР, с блэкджеком и борщом собирал, но не дособирал?

https://vocaroo.com/1nPCUDxT2cLS
Аноним 02/02/23 Чтв 22:18:08 #166 №97220 
>>88318
Не мог ждать русского, пришлось просить Товарстча Арнольда пасту зачитать!
https://vocaroo.com/1hu5c38RuYk8
Аноним 02/02/23 Чтв 22:22:32 #167 №97232 
>>88997
Сая-переоцененное говнище с душком сырого мяса.
Аноним 02/02/23 Чтв 22:26:01 #168 №97239 
>>97232
Да. Ушёл дрочить на Саю, ням ням.
Аноним 02/02/23 Чтв 22:54:22 #169 №97322 
Saya2929.webp
>>97239
https://vocaroo.com/1jhZ9oX7ae6I
Аноним 02/02/23 Чтв 23:00:04 #170 №97335 
>>97322
ЯННП, ну да ладно. Если что я за попенсорс модели, которые можно скачать да запустить у себя на ПК. Если у тебя такая, делись. Если это всё тот же сайт, то нах не нужно, ибо лимиты/цены/правила/пидорнут за просто так.
Аноним 02/02/23 Чтв 23:07:23 #171 №97352 
>>97335
Так хер забей и не трясись, сделают для вас однокнопочный веб гуй, как для чатбота/риффстейшона/СД и прочего прочего.
Это я к чему-технология не нова и в нете все уже есть, еще месяца 4 первый серъезный взбугурт на эту тему был у озвучкобак.
А дрочишь ты на сырой кусок мяса а не на лолю.
Аноним 02/02/23 Чтв 23:16:27 #172 №97373 
>>97352
Да я бы и с консолью попердолился, пердоля из меня ещё та.
>>97352
>А дрочишь ты на сырой кусок мяса а не на лолю.
Само собой, товарищ майор. На лоль я не дрочу.
Аноним 02/02/23 Чтв 23:23:42 #173 №97388 
>>97373
А вдруг она мужик? У нас с этим строго...
Аноним 02/02/23 Чтв 23:34:04 #174 №97399 
>>97388
Не, товарищ смотрящий, она всегда девушкой представлялась. правда я всё равно зашкварен, ибо она сосала, и я с ней сосался, всё, потрогал член губой и иду под шконку. А вообще пора заканчивать обсуждать игру и начать тренить TTS
Аноним 02/02/23 Чтв 23:40:06 #175 №97416 
>>97399
Все впорядке-у неё может быть несколько ртов-не факт что она сосет член тем ртом-что тебя целует.
Аноним 03/02/23 Птн 07:09:24 #176 №97829 
kikislavicvikingtransformerterminatorfacehelmetjapanes63c09434-65b4-4fed-ac0f-dedee14784e8.png
Аноны, нам нужен cleaner на русском, для того чтобы токенизировать аудио. Если кто-нибудь найдёт пишите.
Аноним 05/02/23 Вск 20:42:36 #177 №102553 
>>102542 (OP)
японские тоже
>>88212 (OP)
Аноним 25/02/23 Суб 13:58:23 #178 №131167 
>>88263
Есть. В реальном времени меняет голос на нейроночный, но иногда ошибается
Аноним 26/02/23 Вск 01:29:29 #179 №131836 
Бля усыкаюсь с этой нейронки!

https://huggingface.co/spaces/OlaWod/FreeVC

Хотел загрузить результат, но даже в вебм формате пишет тип файла не поддерживается.
Аноним 26/02/23 Вск 02:32:07 #180 №131859 
>>131836
Занрузи аудиофайл на вокару и ссылку в тред
Аноним 26/02/23 Вск 03:49:55 #181 №131889 
>>131859
https://voca.ro/1avl3oiKiQiL
https://voca.ro/18ufKzytfWUD

Надо только референс и сурс очень ОЧЕНЬ чёткие заливать. Иначе будут артефакты. Но даже с моими видосами которые я туды залил получилось вот это
Аноним 26/02/23 Вск 06:18:01 #182 №131923 
>>131836
https://vocaroo.com/1oaYfZwKzIbw
Аноним 26/02/23 Вск 09:37:45 #183 №131984 
А нет такой, чтоб из моего голоса делала другой голос? Все эти штуки, по типу голосов варкрафта из телеги максимум на мемы годятся, для чего-то серьёзного нифига.
Аноним 26/02/23 Вск 10:04:52 #184 №131991 
Сказочка на ночь.
https://vocaroo.com/1dIUjWpF7cLh
Аноним 28/02/23 Втр 02:36:30 #185 №134414 
Кто-то уже тестил нейронки на предмет получения монетизации Ютуба? А то с инглишем в плане понимания у меня все хорошо, а вот с произношением довольно плохо. А нейронки вроде как выход
Аноним 28/02/23 Втр 03:01:46 #186 №134424 
>>134414
Есть одна проблема - ютуб режет монетизацию аи-контента.
Аноним 28/02/23 Втр 12:27:25 #187 №134645 
>>134424
>Есть одна проблема - ютуб режет монетизацию аи-контента

А как он отличит качественный AI от живой речи? Понятное дело, что хуевые говорилки банят, а тут уже нейронка, которая реально паузы ставит, интонации меняет и вообще очень круто звучит. Мне кажется намного лучше, чем когда я со своим акцентом записываю звук на английском
Аноним 01/03/23 Срд 14:54:36 #188 №135958 
В чем можно локально на винде генерить человекоподобную речь? Влажные фантазии чтобы на русском, но и английский пойдет.
Аноним 01/03/23 Срд 17:19:46 #189 №136037 
>>135958
В Play.ht
Аноним 01/03/23 Срд 17:23:40 #190 №136042 
>>134424
>ютуб режет монетизацию аи-контента
В РФ по закону не льзя с ютуба получать все равно бабки
Аноним 01/03/23 Срд 23:20:16 #191 №136419 
Модели для русского языка есть?
Аноним 02/03/23 Чтв 00:24:37 #192 №136491 
image
>>136037
>Play.ht
Почему они ограничивают сколько я могу на своей видеокарте генерить реплик?
Аноним 02/03/23 Чтв 01:38:16 #193 №136530 
>>136419
Есть.
Аноним 02/03/23 Чтв 01:45:29 #194 №136536 
Соранно, что никто не кидал tortoise, по архитектуре лучший ттс-клонироваиелл голоса, даже в русский можетя но с акцентом
https://replicate.com/afiaka87/tortoise-tts
Аноним 02/03/23 Чтв 01:48:59 #195 №136539 
>>136536
Было в соседнем треде. Вердикт- параша, которая на каждую фразу пердит по полчаса.
>>102542 (OP)
Аноним 02/03/23 Чтв 10:34:52 #196 №136667 
>>136530
А где взять?
Аноним 02/03/23 Чтв 12:20:55 #197 №136728 
image
>>136037
Хуйню посоветовал, оно не локальное.
Аноним 02/03/23 Чтв 12:25:25 #198 №136734 
>>136667
На гитхабе.
Так уж и быть https://github.com/snakers4/silero-models#text-to-speech
Аноним 02/03/23 Чтв 12:33:53 #199 №136743 
image
>>136734
>Модели для русского языка
Ураина цэ Россия?
Аноним 02/03/23 Чтв 12:37:39 #200 №136744 
изображение.png
>>136743
Ежели ты слепой, то тебе модель не поможет.
Аноним 02/03/23 Чтв 13:54:15 #201 №136787 
>>136728
Зато на русском
Аноним 02/03/23 Чтв 16:06:46 #202 №136907 
>>136744
Как все сложно на энтих ваших гетьманхабах.
Есть нормальный энтерфэйс? Но не бот в телеграфе.
Аноним 02/03/23 Чтв 16:28:29 #203 №136939 
>>136907
Дофига хочешь. Пока так, либо пердоль на русском (я даже не пробовал, лол), либо простая установка с жапонскими голосами.
Аноним 02/03/23 Чтв 19:10:27 #204 №137121 
изображение.png
>>136907
Короче там всё просто, весь нужный код в репозитории.
https://voca.ro/18R9Y2GWUmEK
Весь код на скрине, нужно поставить торч, эту хуиту пипом и запускать.
Аноним 03/03/23 Птн 00:31:27 #205 №137703 
>>137121
Слышь, раз такой умный, то как v6 запустить?
https://github.com/snakers4/silero-models/blob/master/models.yml

Ну или хотя бы v2 а то там голоса наташек, которых в v3 нет.
Аноним 03/03/23 Птн 00:53:50 #206 №137736 
>>137703
>v6 запустить
Если ты посмотришь внимательно, то v6 это STT модели (и они не выложили русскую).
>>137703
>Ну или хотя бы v2 а то там голоса наташек
Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу.
>>137121
Кстати, на проце модель работает в 2 раза быстрее. Так что куду подключать нет смысла.
Аноним 03/03/23 Птн 10:31:04 #207 №137941 
>>137736
>Там вроде все в одну модель упакованы, выбирай + рандомные голоса, можешь роллить свою вайфу.
В v3 только aidar, baya, kseniya, xenia, eugene, random
Я хотел v2_natasha.pt заценить, а оно выдает TypeError: TTSModelAcc_v2.save_wav() got an unexpected keyword argument 'text'
Аноним 03/03/23 Птн 14:15:01 #208 №138012 
>>137941
Нахуя тебе старая модель? Она же заикается, весит больше, срёт под себя и вообще.
Но вот, без проблем. Лайфхак- открыть .pt файл архиватором, зайти и найти там файл типа mono_acc_v2_package.py. Там все определения функций. Думаю дальше ты поймёшь, раз дошёл до шага с ошибкой.
https://voca.ro/1dPkmaIPG0Ac
Аноним 03/03/23 Птн 15:20:36 #209 №138051 
image
>>138012
>Лайфхак- открыть .pt файл архиватором
Аноним 03/03/23 Птн 15:56:44 #210 №138075 
>>136734
Я это уже использую. Мне хочется теперь имитировать войс по входному примеру. Я из другого треда просто.
Аноним 03/03/23 Птн 16:45:26 #211 №138101 
>>138051
Ну да, модели, как и куча другого дерьма сейчас, это переименованные zip архивы. Они везде просто, пиздец какой-то.
>>138075
>Мне хочется теперь имитировать войс по входному примеру
А, ну за этим нужны другие инструменты. Тебе побаловаться или как?
Аноним 04/03/23 Суб 15:48:00 #212 №139538 
>>138101
> А, ну за этим нужны другие инструменты. Тебе побаловаться или как?

Скорее всего, использовать на постоянке в одном проекте. Качество не обязательно хорошее должно быть, главное, чтобы результат можно было понять и было хоть как-то похоже на имитируемый голос.
Аноним 05/03/23 Вск 13:48:32 #213 №140622 
>>139538
И всё это из тюрьмы? Просто не хотел бы помогать преступникам. Даже с учётом открытости и прочего.
Аноним 05/03/23 Вск 17:53:05 #214 №140989 
>>140622
Лол. Для творческих проектов.
Аноним 09/03/23 Чтв 12:53:02 #215 №147265 
Только вкатываюсь в ТТС, шапка актуальна? Что сейчас самое топовое чтобы макисмально быстро генерить голоса? У меня хорошая видюха, я могу это делать локально? Хочу попробовать подключить голос к character.ai или TavernAI
Аноним 09/03/23 Чтв 15:51:05 #216 №147419 
>>147265
Силеро, чуть выше скрин с 0iq гайдом.
Аноним 09/03/23 Чтв 16:08:49 #217 №147456 
>>147265
На силеро можно хоть на цпу делать.
Аноним 09/03/23 Чтв 16:11:13 #218 №147458 
>>147419
https://git.ecker.tech/mrq/ai-voice-cloning/wiki/Installation

А это что? Это норм?

Еще потыкал китайскую модель VITS-Umamusume-voice-synthesizer и охуеть. Почему еще нет гайда как они это сделали? Она почти идеальна и там хуева куча голосов с разными интонациями и эмоциями.
Аноним 09/03/23 Чтв 16:12:12 #219 №147459 
Еще вспомнил что где-то пол года назад видел в телеге TTS где натренили голоса из русского Warcraft 3, как они это сделали?
Аноним 09/03/23 Чтв 16:29:45 #220 №147483 
>>147459
Это и есть силеро. У них частично доки открытые, можешь погуглить репу.
>>147458
>А это что? Это норм?
В шапке написано что и зачем...
Аноним 09/03/23 Чтв 16:49:40 #221 №147508 
>>147483
>Это и есть силеро.
Разве их модели можно обучать? Я не припомню в доках такого.
Аноним 09/03/23 Чтв 16:54:51 #222 №147523 
>>147508
Они релизили готовую. Обучать то можно, это простой чекпоинт. Вопрос чем, ведь каждая модель - это практически доведенный до идеала голос. Тут разве что другим языкам обучать вопрос стоит, но для этого желательно иметь первоисточник голоса чтобы не извращаться с промтами на произношение.
Аноним 09/03/23 Чтв 17:04:46 #223 №147538 
>>147523
>Вопрос чем, ведь каждая модель - это практически доведенный до идеала голос.
Так ведь аноны хотят голоса своих вайф.
Аноним 09/03/23 Чтв 17:19:03 #224 №147556 
>>147538
Ну тут только с нуля обучать. Например так https://habr.com/ru/company/speechpro/blog/358816/
Аноним 09/03/23 Чтв 17:34:57 #225 №147588 
>>147556
>2018
Хуя старьё, ещё до Whisper.
Просто я думал, что дообучить готовую модель на нужный голос проще, чем с нуля пердолится. С картинками и текстом оно работает именно так.
>>147523
>Обучать то можно, это простой чекпоинт.
А где можно почитать про обучение простых чекпоинтов? Для чайников.
Аноним 09/03/23 Чтв 18:03:35 #226 №147641 
ц.png
>>147419
У меня 0 iq и я не понимаю что делать.

Сделал pip install silero and then import silero

А дальше что? Куда нажимать? Я в питоне второй раз. Разбираться как работает PyTorch Hub?
Аноним 09/03/23 Чтв 18:27:22 #227 №147682 
Кто-нибудь тыкал https://google-research.github.io/seanet/speartts/examples/ ?
Аноним 09/03/23 Чтв 18:28:06 #228 №147683 
>>147641
Держи код для генерации речи. Кстати на твоём скрине распознание речи, тебе нужен TTS, а не STT.
>>137121
Аноним 09/03/23 Чтв 18:40:10 #229 №147704 
Вроде как самый топ это Coqui-TTS/ YourTTS на vits model? Кто-нибудь пробовал свои модели на этом тренить?
Аноним 09/03/23 Чтв 18:56:03 #230 №147739 
>>147704
>Coqui-TTS
>CODE_OF_CONDUCT.md
🤮
Аноним 10/03/23 Птн 11:21:42 #231 №148795 
ТТС-тред такое убожество. В шапке 0 инфы про проприетарные ТТСы, которые можно абузить перерегистрациями.
Аноним 10/03/23 Птн 12:05:07 #232 №148818 
>>148795
>буквально первый тред по ттс
Какой есть. Всегда можно накидать ссылок, которые уйдут в шапку при следующем перекате.
Аноним 10/03/23 Птн 12:23:03 #233 №148826 
>>148818
да я в гугле написал и нашел все что хотел уже
Аноним 10/03/23 Птн 13:32:20 #234 №148888 
>>148795
>проприетарные ТТСы
Не нужны. Впрочем >>102542 (OP)
Аноним 10/03/23 Птн 13:45:04 #235 №148912 
>>148888
там омериканское
Аноним 10/03/23 Птн 14:02:25 #236 №148937 
А что есть по части офлайновых переводчиков текста с русского на английский и vice versa? Или там только уровень промпта и лучше к апи DeepL подсасываться?

Посмотрел этот видос и захотел что-то подобное сделать.
https://youtu.be/UY7sRB60wZ4
Но он пока ничего из исходников не выложил.
Аноним 10/03/23 Птн 14:06:58 #237 №148946 
>>148937
>Или там только уровень промпта и лучше к апи DeepL подсасываться?
Дипл однозначно лучше.
>Но он пока ничего из исходников не выложил.
https://github.com/hackdaddy8000/unsuperior-ai-waifu
Вот похожий проект, вдруг тебе пригодится.
Аноним 11/03/23 Суб 22:06:19 #238 №151176 
>там омериканское
Вы ебанутые? Нахуя вам разные треды на разные языки? Я думал тут просто виабушники даже не гуглили англоязычные/русскоязычный, а вы просто ебнутые.

Единому треду по TTS быть.
Аноним 12/03/23 Вск 00:29:56 #239 №151466 
>>148937
Годнота, у него новый видос вышел с сылкой на гитхаб
Аноним 12/03/23 Вск 19:34:21 #240 №152611 
Так-с, а где собсна учить модели новым голосам и всему такому? Какой длинны должна быть дорожка для должного обучения и хуле в шапке какая-то хуйня, а не полезные ссылки? Нахуй мне ваша геншино-параша?
Аноним 13/03/23 Пнд 06:35:33 #241 №153417 
>>152611
>>95910
Аноним 15/03/23 Срд 02:11:48 #242 №156557 
>>88212 (OP)
Что-то из этого может аудиокниги начитывать?
Аноним 15/03/23 Срд 02:17:27 #243 №156561 
>>156557
Силеро точно сможет.
Аноним 15/03/23 Срд 02:47:07 #244 №156585 
>>156561
А есть готовые инструменты для скармливания ему большого текстового файла книги, или прийдется самому писать?
Аноним 15/03/23 Срд 05:10:15 #245 №156644 
image
>>156585
Ну разбей текст на куски и сделай ченить тип.

count = 0
while (count < 500):
input_text = "C:\TTS Silero\text_" + str(count) + ".txt"
audio_paths = model.save_wav(text=input_text, speaker=speaker, audio_path="C:\TTS Silero\output_" + str(count) + ".wav")
print("C:\TTS Silero\output_" + str(count) + ".wav")
count = count + 1
Аноним 15/03/23 Срд 13:03:08 #246 №156887 
>>156644
Сейчас бы виндой пользоваться.
Аноним 15/03/23 Срд 16:59:19 #247 №157250 
>>88212 (OP)
audio-books su/reads/page/3/
Аноны, ищу аудиокниги, желатально английские с приятными голосами, или сайты, где можно смотреть английских дикторов. Выше скинул пример сайта.
Аноним 15/03/23 Срд 17:07:41 #248 №157264 
>>88212 (OP)
Пример хорошего голоса
youtube com/watch?v=GH27p6RaHH8
Аноним 15/03/23 Срд 18:54:40 #249 №157434 
>>156887
Человек просит готовые инструменты, ты уверен, что он из вашей красноглазой братии?
Аноним 15/03/23 Срд 18:56:19 #250 №157440 
>>157264
Пример хорошего голоса
https://youtu.be/fDAnmujWlsM
Аноним 15/03/23 Срд 19:47:02 #251 №157560 
>>157434
Именно. Линукс - готовый инструмент,который даёт полный контроль пользователю и принадлежит только ему.
Аноним 15/03/23 Срд 20:34:19 #252 №157657 
>>157560
>который даёт полный контроль пользователю
Не даёт, а принуждает к контролю, настраиванию и прочему пердолингу.
Аноним 15/03/23 Срд 20:37:20 #253 №157670 
>>157657
> пердолинг
А теперь скажи как полностью отключить телеметрию на винде.
Аноним 15/03/23 Срд 20:49:04 #254 №157696 
>>157440
Это пример среднего голоса
Аноним 15/03/23 Срд 21:18:12 #255 №157774 
>>157670
>полностью
Снести винду, или никак.
мимо
Аноним 15/03/23 Срд 21:22:12 #256 №157790 
>>157670
Поищи скрипт Ameliorated.
мимо
Аноним 15/03/23 Срд 21:51:47 #257 №157851 
>>157670
Это не обязательное действие. Шинда нормально работает и с анальной пробкой. А теперь скажи, как отключить телеметрию в бубунте с хромом на борту.
Аноним 15/03/23 Срд 22:00:31 #258 №157867 
>>157851
>с хромом
Юзай хромиум? Или UngoogledChrome? Или firefox? Кек.
Аноним 15/03/23 Срд 22:02:41 #259 №157875 
>>157851
> телеметрию в бубунте
Собрать ядро самому.
Аноним 15/03/23 Срд 22:29:25 #260 №157912 
>>157867
>Или firefox?
This. Хоть и под шиндой. Впрочем, и там анальных пробок достаточно.
>>157875
Ага. И либы. И вычистить весь код. А так я и ядро шинды собрать могу ХРшное, но радости мне это не прибавит.
Аноним 23/03/23 Чтв 13:37:18 #261 №174663 
>>157851
Разве бубунта идёт не с лисом?
Аноним 23/03/23 Чтв 20:12:06 #262 №175661 
>>174663
У хроморабов анальная пробка так глубоко, что они её тащат даже на люнукс. Замечал десятки раз.
Аноним 26/03/23 Вск 20:30:11 #263 №184922 
Есиь сейчас аналоги evenlabs для русских голосов?
Аноним 26/03/23 Вск 20:31:55 #264 №184932 
>>140622
Нет конечно. У нас локальные мемы где знаменистости некие вещи говорят, хотим это в ирл сделать
Аноним 31/03/23 Птн 01:21:44 #265 №194833 
Стикер
Бамп.

Аноны, как я понял из постов и истории гугла, раньше у silero была в открытом доступе модель для копирования образцов голоса, но из за РАБОТНИКОВ СБЕРБАНКА они эту фичу быстро скрыли от общественности. Теперь у них там только "random" который выдает полное говно, нагенерировал штук 500 голосов и все очень плохого качества.

Ну и как быть? Какие ещё есть варианты для копирования голоса на русском? Сразу говорю мне не для сугубо личных целей. Есть одна тян актриса озвучания, которая мне давно нравится, сэмплы её голоса и аудиокниги я давно собираю. Хочу этот голос в свое полное распоряжение.

И второй вопрос. Как в голосовую модель добавить интонацию? Может кто знает какие приемы для этого? По умолчанию есть вопросительная и восклицательная которые нейросеть сама делает исходя из промпта, но может как-то ещё это можно контролировать? Слишком сухая речь получается. Не обязательно в silero а вдруг есть ещё какая-то неизвестная мне модель могущая в русскую речь.

Короче бампуа нужному треду, не тонем.
Аноним 31/03/23 Птн 20:57:50 #266 №196348 
>>194833
>Ну и как быть? Какие ещё есть варианты для копирования голоса на русском? Сразу говорю мне не для сугубо личных целей.

https://github.com/NVIDIA/mellotron
https://github.com/NVIDIA/tacotron2

На русский язык тренировать заебешься, но я вроде финансирование от ВУЗа выбил, может и смогу
Аноним 01/04/23 Суб 06:54:30 #267 №197179 
>>196348
Дали денег на проработку api, владельцы которого запретили использование в России, коммерческое так точно. Ебал рты наших попильных вузов.
Аноним 01/04/23 Суб 21:18:08 #268 №198113 
>>197179
>Дали денег на проработку api, владельцы которого запретили использование в России,
Я не совсем еблан это ВУЗу говорить

> коммерческое так точно
Про коммерческое никто не говорит
Аноним 03/04/23 Пнд 05:05:11 #269 №200659 
Я не понимаю, как установить pyopenjtalk, это просто какой-то пиздец. Что это за хуйня?

Collecting pyopenjtalk
Using cached pyopenjtalk-0.3.0.tar.gz (1.5 MB)
Installing build dependencies ... done
Getting requirements to build wheel ... error
error: subprocess-exited-with-error

× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> [28 lines of output]
setup.py:26: DeprecationWarning: distutils Version classes are deprecated. Use packaging.version instead.
_CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver)
Traceback (most recent call last):
File "C:\Python310\lib\runpy.py", line 196, in _run_module_as_main
return _run_code(code, main_globals, None,
File "C:\Python310\lib\runpy.py", line 86, in _run_code
exec(code, run_globals)
File "C:\anon_eblan\Scripts\cmake.exe\__main__.py", line 4, in <module>
ModuleNotFoundError: No module named 'cmake'
Traceback (most recent call last):
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 353, in <module>
main()
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 335, in main
json_out['return_val'] = hook(hook_input['kwargs'])
File "C:\anon_eblan\lib\site-packages\pip\_vendor\pyproject_hooks\_in_process\_in_process.py", line 118, in get_requires_for_build_wheel
return hook(config_settings)
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 162, in get_requires_for_build_wheel
return self._get_build_requires(
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 143, in _get_build_requires
self.run_setup()
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 267, in run_setup
super(_BuildMetaLegacyBackend,
File "C:\Users\USERNAME\AppData\Local\Temp\pip-build-env-uid2__cb\overlay\Lib\site-packages\setuptools\build_meta.py", line 158, in run_setup
exec(compile(code, __file__, 'exec'), locals())
File "setup.py", line 154, in <module>
File "C:\Python310\lib\subprocess.py", line 456, in check_returncode
raise CalledProcessError(self.returncode, self.args, self.stdout,
subprocess.CalledProcessError: Command '['cmake', '..', '-DHTS_ENGINE_INCLUDE_DIR=.', '-DHTS_ENGINE_LIB=dummy']' returned non-zero exit status 1.
[end of output]

note: This error originates from a subprocess, and is likely not a problem with pip.
error: subprocess-exited-with-error

× Getting requirements to build wheel did not run successfully.
│ exit code: 1
╰─> See above for output.

note: This error originates from a subprocess, and is likely not a problem with pip.
Аноним 03/04/23 Пнд 10:21:14 #270 №200850 
>>200659
>subprocess.CalledProcessError: Command '['cmake
А чому смейк? И вообще билд тулы установлены?
Аноним 03/04/23 Пнд 10:50:38 #271 №200878 
>>200850
> >subprocess.CalledProcessError: Command '['cmake
> А чому смейк?
Понятия не имею, в питоне не разбираюсь. Это же он эту функцию вызвал, а не я.
> И вообще билд тулы установлены?
Какие?
спасибо, что написал
Аноним 03/04/23 Пнд 12:17:10 #272 №200981 
изображение.png
изображение.png
>>200878
>Какие?
Обычно рекомендуют ставить визуал студию с примерно такими компонентами.
Аноним 03/04/23 Пнд 12:33:57 #273 №201013 
>>200981
У меня стоит, хотя надо проверить, все ли необходимые компоненты. А как оно будет взаимодействовать с питоном?
Аноним 03/04/23 Пнд 13:37:40 #274 №201090 
изображение.png
>>201013
А ХЗ, это я всё по опыту текстовых нейронок. Обычный вызов программы.
Попробуй просто в обычной консоли цмейк вызвать.
Аноним 03/04/23 Пнд 14:07:19 #275 №201136 
ЗАЛЕТАЮ С ДВУХ НОГ С САМЫМ ГЕНИАЛЬНЫМ ВОПРОСОМ ITT!!!
Есть ли рабочий способ озвучивать текст с генеративных нейронок, вроде https://github.com/oobabooga/text-generation-webui не копируя его вручную в интерфейс озвучки?
Конкретно к этой оболочке прикручена богомерзкая silero, но она нихуя не работает с русским.
Может есть какие-то другие движки, которые могут в русский? Меня бы даже качество https://beta.elevenlabs.io вполне устроило.
Аноним 03/04/23 Пнд 15:08:18 #276 №201234 
ahegao.mp4
>>201136
>silero, но она нихуя не работает с русским
Аноним 03/04/23 Пнд 15:37:20 #277 №201269 
>>201234
>не копируя его вручную в интерфейс озвучки
Аноним 03/04/23 Пнд 16:33:08 #278 №201377 
>>201269
Ну так настрой встроенный в вебгуй сирено, чтобы он применял русскую модель. Там почти всё готово, небось пару строчек дописать нужно.
Аноним 03/04/23 Пнд 16:57:54 #279 №201418 
>>201090
Cmake вызывается. Да и другие нейронки работают. Только pyopenjtalk не ставится. А в гайде ОПа вообще ни слова об этом.
Аноним 03/04/23 Пнд 17:27:39 #280 №201456 
>>201377
>небось пару строчек дописать нужно
Ахуенный совет. Ты бы ещё погуглить предложил.

Список спикеров есть только в питоновском файле и даже если я его отредактирую, мне придётся пересобирать колаб, чтобы это запустить. хотя вряд ли это вообще поможет
Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править, так что даже смысла с ней возиться нет.
Задача по разгребанию всего этого полурабочего говна по красноглазию может посоперничать с написанием своего движка с нуля.

Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?!
и похоже что нет
Аноним 03/04/23 Пнд 17:47:55 #281 №201503 
>>201418
>А в гайде ОПа вообще ни слова об этом.
Он вообще на минималках был написан. Кстати, я тут заметил строчки
>>200659
> _CYTHON_INSTALLED = ver >= LooseVersion(min_cython_ver)
Какие у тебя версии софта? И откуда pyopenjtalk ставишь?
>>201456
>мне придётся пересобирать колаб
Ну так сделой.
>Локальная же версия ВебГУИ в принципе не может в русский из за всратой ошибки, которую никто не хочет править
Чел, ты же понимаешь, что колаб это такой же компьютер, просто в облаке гугла? Всё, что работает там, можно запустить локально (если ресурсов хватает).
>Поэтому я и спросил ЕСТЬ ЛИ РАБОЧЕЕ РЕШЕНИЕ?!
Готового нету. И впиливание другого TTS движка 100% будет сложнее, чем перенастройка сирено на русский.
Аноним 03/04/23 Пнд 18:15:33 #282 №201548 
cython.jpg
>>201503
>Какие у тебя версии софта? И откуда pyopenjtalk ставишь?
Python 3.10.7
Cython version 0.29.34
pyopenjtalk ставлю командой pip install pyopenjtalk.
Аноним 03/04/23 Пнд 18:23:47 #283 №201560 
изображение.png
>>201548
А, сорян, в инструкции же всё есть. Качай@пользуйся.
Аноним 03/04/23 Пнд 18:50:15 #284 №201594 
>>201560
Я еблан. Спасибо, помогло.
Аноним 03/04/23 Пнд 19:12:46 #285 №201621 
изображение.png
>>201594
>Я еблан.
Я знаю. Пожалуйста. Вспомнил, что у меня тоже самое было.
Аноним 03/04/23 Пнд 19:12:51 #286 №201622 
arigato.mp4
>>201560
Аноним 03/04/23 Пнд 19:15:55 #287 №201633 
>>201503
>Всё, что работает там, можно запустить локально
Да и именно поэтому буквально НИКТО как минимум на этой борде не смог запустить модуль гуглпереводчика локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет.

>Ну так сделой.
Когда тебя о чём-то спрашивают о решении какой-то проблемы, ты всегда сначала говоришь что это хуйня, а потом советуешь спросившему разобраться самостоятельно? Охуенно ценный совет, что бы я блядь, без тебя делал.
Аноним 03/04/23 Пнд 19:18:42 #288 №201641 
7.mp4
Аноним 03/04/23 Пнд 19:26:39 #289 №201651 
>>88212 (OP)
То есть тут один тред на всю борду и нет ни одного женского голоса, способного приятно зачитать текст по-русски?

Дайте хоть ссылку, где Microsoft Svetlana скачать можно. Онлайн видел, норм читает
Аноним 03/04/23 Пнд 19:56:42 #290 №201712 
>>201651
Внезапно Ксения на колабе запускается успешно. Спасибо, Анон.
Аноним 03/04/23 Пнд 20:24:40 #291 №201767 
ahegao.mp4
>>201651
У нас всё есть.
Аноним 03/04/23 Пнд 20:52:42 #292 №201853 
>>88273
Напомните, как json прикрутить?
Аноним 03/04/23 Пнд 23:37:09 #293 №202253 
>>88212 (OP)
Анонсы, помогите!
Перечитываю тред, но всё меньше понимаю смысл, и всё больше не понимаю, что в моем случае норм бы сработало.
Моя задача - озвучивать большие объемы текста нормальной английской речью. если там можно будет свой голос загрузить, то это плюс, но опционально
Что для этого использовать? На онлайн ресурсах для озвучки всегда количественные ограничения, есть какие-то непонятные японские вайфо-дрочилки с японским акцентом, мне наверное такое не подойдет. Остается скачивать питон и загружать на него какое-то ТТС дополнение от ОПа или что-то другое? Или как
Аноним 04/04/23 Втр 00:03:36 #294 №202302 
>>202253
гайд по локальной модели генерит только японские голоса
Аноним 04/04/23 Втр 04:52:47 #295 №202617 
>>194833
>Есть одна тян актриса
Дани Рохас? (Алия Насырова)
Аноним 04/04/23 Втр 05:54:19 #296 №202661 
Satania1.mp4
Satania2.mp4
https://www.youtube.com/watch?v=wyoFIAZlJuc&ab_channel=TheFakeProfessional

Есть ли какие-то гайды, как добиться хорошего результата с помощью символов и прочего? А то получается плохо, смех вообще сделать не могу.

Tomato cross - это Сатания
Аноним 04/04/23 Втр 06:32:24 #297 №202671 
Satania3.mp4
Аноним 04/04/23 Втр 07:06:56 #298 №202688 
Satania4.mp4
Аноним 04/04/23 Втр 08:14:44 #299 №202724 
>>201633
>локально. Если ты такой сверхмозг, сделай это, напиши как у тебя это вышло и тебе весь Ламатред спасибо скажет.
Я это сделал. Могу даже пруфы предоставить, только я разочарован тупой ламой и больше не пользуюсь.
Рассказывать пидорашкам из того треда как сделать не буду, так как они отказались по многочисленным просьбам анонов поднять ламу на коллабе, поэтому идут нахуй.

Пусть сидят квантуют и тупые вопросы задают не менее тупой модели. Хотели пердолиться каждый отдельно - пердольтесь.
Аноним 04/04/23 Втр 12:29:47 #300 №202905 
Хай, гайс. Хочу вкатиться в ттс, с чего начать, что юзает местный анон? Полистал по треду вроде самая норм херня это платная
штука: https://beta.elevenlabs.io/speech-synthesis
Есть ещё что-нибудь на англе?
Аноним 04/04/23 Втр 12:57:04 #301 №202925 
>>201767
Так-то и я могу, а вот почему мне колаб не разрешает длинные фалы сохранять? 40 секунд - всё, нету ссылки на файл. Слушать можешь, качать нет
Аноним 04/04/23 Втр 13:04:42 #302 №202936 
>>202253
ТТС ещё пойди найди. Пока только смог скачать голос от IVONA, но он звучит как мультики с двача. Самый приятный пока голос - это xenia, но им на колабе только короткие фрагменты можно озвучить, а если хочешь с SSML, то вообще не больше 1000 символов.

В общем, ситуация в отрасли озвучки самая днищенская, как я вижу. Картинки генерить - бесплатные модели валяются везде на выбор по тематике. Текст генерить - ОпенАИ хоть и не раздает, но доступ на сайте есть. Да и открытые модели в сети какие-то тоже. Видимо звук не так востребован, что ли
Аноним 04/04/23 Втр 13:32:55 #303 №202969 
>>202724
>Я умею запускать ГТА 3 на денди, только я тебе не расскажу потому что ты не чёткий пацан.
Признавайся, пиздел такое?

>Могу даже пруфы предоставить
Лол, единственный возможный пруф это способ решения этой проблемы, который заработает не только у тебя в манямире
Аноним 04/04/23 Втр 14:26:11 #304 №203027 
>>202905
>Хочу вкатиться в ттс, с чего начать, что юзает местный анон?
MoeTTS для япа с инглишом и силеро для русича.
>>202925
Я не в колабе если что, всё локально.
Что же касается ограничений, кажется, у колаба проблемы с отдачей файлов больше х мегабайт. Можно попробовать сохранять сразу на свой диск.
Аноним 04/04/23 Втр 15:03:17 #305 №203069 
>>203027
откуда у тебя xenia локально?
Аноним 04/04/23 Втр 15:30:06 #306 №203109 
>>203069
Оттуда же, откуда и остальные.
https://github.com/snakers4/silero-models/blob/master/models.yml
Аноним 04/04/23 Втр 15:44:52 #307 №203145 
>>203109
О! А я могу её подключить в Speech2Go так же как и IVONA? Или это другая технология. Я не шарю, но мне интересно сделать так, чтобы я мог озвучивать текст хоть локально, хоть в колабе, не важно. Не для комерческого применения.
Аноним 04/04/23 Втр 15:50:53 #308 №203159 
>>203145
Понятия не имею.
Но silero очень лёгкие, не вижу смысла пердолится с колабами.
Аноним 04/04/23 Втр 15:53:06 #309 №203166 
>>203159
Ладно. А как тогда их запускать?
Аноним 04/04/23 Втр 16:34:51 #310 №203238 
изображение.png
>>203166
Очевидно код напердолить. Вот минимальный вариант, дальше пили сам.
Аноним 04/04/23 Втр 16:36:09 #311 №203241 
Почитал гайды, ниче не пони. Мне надо ставить себе питон и на нем писать код? Я не люблю питон, я гошник. Можно мне что-то на го или без танцев с кодом? Ну или просто ткните пальцем в мануал
Аноним 04/04/23 Втр 16:40:08 #312 №203243 
>>203238
Ладно. Давно пора его подучить. Спасибо
Аноним 04/04/23 Втр 16:51:22 #313 №203260 
>>203238
https://www.programming-hero.com/code-playground/python/index.html
Кинь, пж, код куда-то сюда, или в другой блокнот, чтоб не набивать заново.
Аноним 04/04/23 Втр 17:15:05 #314 №203295 
>>203260
В яндекс картинку закинь, потом по минимуму почистить надо будет. А вообще это даже полезно, хоть поймёшь немного, что и зачем в коде.
Аноним 07/04/23 Птн 03:35:18 #315 №207763 
>>202936
>это xenia
Локально их запустите, господи
Аноним 08/04/23 Суб 08:42:24 #316 №210400 
>>88212 (OP)
> VITS-Umamusume-voice-synthesizer, она только на японском говорит,
Есть какие-то гайды, как генерить годноту? У меня не получается сделать экспрессию нужного уровня.
Аноним 08/04/23 Суб 09:03:44 #317 №210407 
https://youtu.be/y7r6PAkFRfU
Аноним 09/04/23 Вск 02:51:36 #318 №212561 
>>97199
Можешь сказать какую модель использовал?
Аноним 09/04/23 Вск 03:22:23 #319 №212580 
>>136787
> Зато на русском
Не локальное на русском - тут и SoundWorks подойдёт. Но тред именно о локальном.
Аноним 09/04/23 Вск 03:28:06 #320 №212584 
>>202936
> Видимо звук не так востребован, что ли
Самый последний Ксеон стоимостью 10 штук за процессор, лепит звук на скорости около 15 секунд в секунду. То есть это дорогое удовольствие. Текст генерировать дешевле. Поэтому бесплатных хороших моделей пока и не найти. Платных - выбор голосов зашкаливает.
Аноним 09/04/23 Вск 14:16:37 #321 №213155 
>>212584
>Текст генерировать дешевле.
Хороший текст можно делать только на небольшом кластере видях стоимостью в 10 этих ваших платиновых зивонов, так что нифига не дешевле.
Аноним 09/04/23 Вск 14:33:32 #322 №213199 
>>213155
Щито? Каком кластере видях? Там одна A6000 справится. И это не 100 килобаксов, иначе триала на OpenAI не было бы.
Аноним 09/04/23 Вск 14:54:30 #323 №213252 
>>213199
>Там одна A6000 справится.
Не справится. 175B параметров требуют больше 200 гиг врама.
>>213199
>иначе триала на OpenAI не было бы.
Они на подсосе у майкрософта, на них бабки льются рекой. Они будут захватывать рынок любой ценой, даже работая в глубокий минус.
Аноним 10/04/23 Пнд 03:11:16 #324 №215024 
Silero TTS можно вообще подтянуть на чтение английских букв и цифр в ру модели 3_1 которая?
Я нормализацию цифр и чтение транслита имею ввиду
У меня она просто скипает числа записанные как 1, 2, 3, и любые слова на английском языке, хотя я видел в интернете пару человек у кого это нормально работало.
Аноним 10/04/23 Пнд 12:40:46 #325 №215501 
image
Мне бы кряк или лучше пожизненную учётку на voxbox, там тысячи голосов персонажей из мультиков и не только... Не пиар, я же кряк прошу лол. Может где можно купить сворованную у хакиров?
Аноним 11/04/23 Втр 01:50:55 #326 №217590 
>>215501
Попробуй удалить ключ реестра
HKEY_CURRENT_USER\SOFTWARE\iMyFone
Должны сброситься лимиты
Аноним 11/04/23 Втр 04:29:42 #327 №217800 
изображение.png
>>215501
Хотя мне всё равно нечего было делать. Держи взломанный екзешник для последней версии (4.1.0)
https://anonfiles.com/X7K913k0zc/VoxBox_exe
Вирустотал
https://www.virustotal.com/gui/file/857492207b61a226777091817c6d10a7e66bbfa8f85067953b73f0eb8a66fe67?nocache=1
Аноним 12/04/23 Срд 22:00:29 #328 №221179 
>>215024
Надо подключать словари
Аноним 12/04/23 Срд 22:08:14 #329 №221202 
>>213252
Чет не похоже, что любой ценой, после того, насколько они закрутили цензуру. Раньше GPT была развратной, как мокрощелка, потом её уже надо было разводить на интим, но это было интересно, а вчера она вообще давать перестала, разве что не говорит, что потратила на меня лучшие годы. Уже подумываю уйти от неё к RuBERT.
Аноним 12/04/23 Срд 23:54:41 #330 №221552 
>>221202
Так дрочеры не рынок, они не дадут бабла.
>RuBERT
Хуя ты уникум. Как ответы?
Аноним 13/04/23 Чтв 00:04:36 #331 №221568 
>>221552
Пока только мануал читаю.
Аноним 13/04/23 Чтв 00:19:53 #332 №221592 
>>221179
Подскажешь как это сделать при использовании модели локально? Или дашь ссылку на гитхаю?
Аноним 13/04/23 Чтв 00:56:15 #333 №221638 
>>221592
Я сам этого не делал, но видел в мануале у Demagog. Там есть экспериментальная версия со скриптом для Silero и у неё в ридми всё написано. Гугли
Аноним 13/04/23 Чтв 08:28:05 #334 №221943 
>>221638
Спасибо, анончк
Аноним 15/04/23 Суб 20:59:54 #335 №228388 
image
>>217800
Спсибо, ты хороший анон, я не ожидал тут решения.
Пригодилась она. Как твоё мнение о проге?
Аноним 15/04/23 Суб 21:01:31 #336 №228391 
>>217800
А она не включает платные функции питч и тп? Впринципе можно и без них лол.
Аноним 16/04/23 Вск 23:46:53 #337 №232392 
>>88212 (OP)
Гайс, а есть какие-то варики ускорить тортойс? ахуенно работает, ахуенно мимикрирует голоса но я так понял, что он в отличии от других нейронок не создает модель голоса, а всегда заново анализирует, и дает результат
Аноним 17/04/23 Пнд 00:07:02 #338 №232455 
>>215024
А в SSML оно умеет? Если да, то изи.
Аноним 17/04/23 Пнд 04:12:35 #339 №232783 
SoftVC VITS Singing Voice Conversion

Поём как АИ. Тема любопытная, тред решил сделать, чтобы оставить на АИ-борде отпечаток истории развития АИ.

Наткнулся тут на АИ-каверы. Реддиторы с сабреlдита r/Yedits/ обучают АИ петь как медийныt личностb, в основном там правда рэперы, но тут уж кто на что горазд. На трубе множество АИ-каверов на Канье Уэста. Любопытно можно "фитануть" со звездой не снимая свитера, ну либо самому спеть как Эминем или там Рианна.

Ссылки-ссылочки:
Туториал по созданию кавера: https://www.youtube.com/watch?v=MlsNg1ugJMM[РАСКРЫТЬ]
Создать свой кавер: https://colab.research.google.com/drive/1128nhe0empM7u4uo5hbZx5lqjgjG1OSf
Модели голосов: https://docs.google.com/spreadsheets/d/1qzeFdpUPr7E0jOFwWSXd8LF30ZLjz1CSVEBiG8gPHTU/edit#gid=1792554832
melody.ml - можно использовать чтобы разбить песню на голос и инструментал

Натренькать свою модель на журчание ленивой струи мочи: https://colab.research.google.com/drive/1PLQW7P-qUj3UGc-8o6N3KB4pWfQN5pe1
Аноним 17/04/23 Пнд 13:52:45 #340 №233460 
Пидорской моче жалко мест на борде, треды закрывает, хуесосина.
Аноним 17/04/23 Пнд 14:07:18 #341 №233508 
>>233460
Смысл плодить треды на три поста, которые тонут в тот же день?
Аноним 17/04/23 Пнд 15:04:54 #342 №233644 
>>233508
Смысла нет, но на доске с 10 тредами можно донести свою руку до контрол це и своими мокрыми дрожащими рученками скинуть шапку закрытого треда в целевой тред, нет?
Аноним 17/04/23 Пнд 15:06:35 #343 №233649 
>>232783
>https://colab.research.google.com/drive/1PLQW7P-qUj3UGc-8o6N3KB4pWfQN5pe1
Это кстати не работает. Тупо ничего не делает на этапе после 44к (да и в 44к не конвертит просто создает папку пустую). А оригинальный китайский колаб с тренировкой меня отпугивает какой-то ебанутой сруктурой папок датасета.
Аноним 17/04/23 Пнд 18:19:02 #344 №234271 
>>232783
нормальная темка
первый блин: https://www.youtube.com/watch?v=PPBtAwJZi4Q
сейчас треню на локалке модель одного из отечественных исполнителей
по факту отпишусь
Аноним 17/04/23 Пнд 18:21:55 #345 №234282 
>>234271
Хреново что непонятно, что изменилось, то есть как было и какой голос накладывался поверх.
Аноним 17/04/23 Пнд 18:23:57 #346 №234289 
>>234282
оригинал: https://www.youtube.com/watch?v=fS9m0Ac8PCU
Аноним 17/04/23 Пнд 18:25:48 #347 №234296 
>>234282
ну а как поет рианна можешь найти сам, я думаю.
нейронка очень точно и тонко передала ее хриплость голоса на высоких и обрывы слогов, я был приятно удивлен
Аноним 17/04/23 Пнд 18:35:04 #348 №234336 
>>234289
>>234296
Да, результат неплохой. Но это как я понимаю голос-ту-голос?
Хотелось бы больше экспериментов, например, с русским, или попробовать натянуть голос англичанки на русский текст.
Аноним 17/04/23 Пнд 18:43:30 #349 №234375 
>>234336
да, все так, нейронка из одного голоса делает другой
я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается
а так, нейронке похуй, на каком языке делать переозвучку
сейчас треню русский голос, думаю, после 21 по мск смогу уже что-то скинуть сюда
Аноним 17/04/23 Пнд 19:47:05 #350 №234671 
muzyka-molodyh-1.jpg
>>234375
сделал модель моргенштерна, работает через раз
буду тестить дальше
результат: https://www.youtube.com/watch?v=X8qiOxmfqtI>>234336
Аноним 17/04/23 Пнд 21:04:42 #351 №234897 
show.png
>>234375
>я пробовал натягивать голос англосаксов на русских, звучит не очень, но лишь по той причине, что ты знаешь как звучит англосакс на своем языке и мозг просто ломается
Нет, дело в том что в английской речи отсутствуют звуки, поэтому появляется естественный акцент, ведь суть акцента в том что человек чей язык приучен к выдаче определенных звуков пытается своими звуками имитировать иностранные звуки, в его речи отсутствующие. Соответственно, лучший вариант для обучения использовать русских.

>>234671
В каком каллабе обучение запустил? У меня почему то не запускалось в том что по ссылкам. Мой совет - делай датасет не по вырванным из песен кускам, найди чистый голос. Это ускорит обучение и качество улучшит.
Аноним 17/04/23 Пнд 21:34:49 #352 №234978 
>>234375
А работает только с песнями? Есть варик самому что-нибудь наговорить, а потом просто натянуть модельку на свой же собственный голос?
Аноним 17/04/23 Пнд 21:35:15 #353 №234981 
>>234671
А это не фейк? Они и так фитились же. Ты давай что-нибудь очевидно говнарское типа ДДТ в исполнении моргенштерна или Летова, что он точно бы в жизни петь не стал.
Аноним 17/04/23 Пнд 21:36:16 #354 №234986 
>>234978
На чем научишь на том и будет работать. Левитана только не трогай, мразь.
Аноним 17/04/23 Пнд 21:39:26 #355 №234997 
>>234986
Большой датасет требуется? Вопрос именно в этом. Тип есть голос тян, которая просто говорит что-то. Сколько нужно минут её голоса, чтобы можно было её голос натягивать на свой или любой другой не песня.
Аноним 17/04/23 Пнд 21:49:36 #356 №235026 
show.png
>>234997
Очевидно, чем больше тем лучше, плюс тебе надо его почистить будет, и тогда твоя мамка наконец сможет говорить "сынок, давай я пососу твой хуец, всегда об этом мечтала". Но думаю тут истина такая же как с любыми нейросвапами. Лору, допустим, можно тренировать на 1 фото, если мозг в черепе имеется тупо делаешь качественные фейссвапы. Здесь таким же методом можно получить хоть из одной минуты звука, но это конечно повлияет на результат. То есть, ты делаешь на своем материале, подбираешь для замены похожее что то, делаешь свап - добавляешь результат к своему датасету - делаешь еще. Но скорее всего такой мороки не нужно.
Аноним 17/04/23 Пнд 21:58:11 #357 №235051 
>>234897
да, скорее всего придется вырезать голос из кусков интервью и блогов, с песен не очень получилось

делаю на своей пеке, в коллабе не пробовал

>>234978
можно самому что угодно наговорить и наложить голос, даже можно в лайве накладывать

>>234981
всм фейк, не понял тебя
это я из голоса инстасамки сделал голос моргена, там, где вышло хуево на бэк подкинул оригинал голос инстасамки, чтобы норм звучало

>>234997
дело в качестве исходников, а не в количестве
можно натренить на 50 файлах и будет заебись, можно закинуть 500 хуевых, и на выходе будет говно
Аноним 17/04/23 Пнд 22:00:43 #358 №235062 
>>235051
>да, скорее всего придется вырезать голос из кусков интервью и блогов, с песен не очень получилось
Тебе надо их тогда к песням подмешать.

Делай кавер на летова!
Аноним 17/04/23 Пнд 23:18:08 #359 №235332 
aicoversencoded.mp4
>>234336
Я пробовал, вот Канье на Окси, вышло уг.
Аноним 17/04/23 Пнд 23:29:21 #360 №235359 
00075.png
еще один более-менее получился
https://www.youtube.com/watch?v=UYDvDcbwQfM

MORGENSHTERN x НОГГАНО - Ролексы (AI cover)
Аноним 17/04/23 Пнд 23:31:37 #361 №235372 
aicoversnaencoded.mp4
А вот этот заебись, скидывал в закрытом.

Оригинал Iggy Azalea Kream, АИ - Nicki Minaj.
Аноним 18/04/23 Втр 00:18:34 #362 №235480 
image.png
Еще один
https://www.youtube.com/watch?v=568ozhn58Gw

MORGENSHTERN x Настя Каменских - Попа как у Ким
Аноним 18/04/23 Втр 00:28:47 #363 №235497 
>>235480
>>235372
>>235359
Я вообще не знаю кто это, какой смысл делать каверы ноунеймов на ноунеймов?
Аноним 18/04/23 Втр 01:01:32 #364 №235567 
>>235497
ну обучи свою модель и делай какие тебе хочется каверы
мы послушаем
Аноним 18/04/23 Втр 03:02:41 #365 №235718 
image
>>235497
Ну пиздец, а кого ты знаешь Лещенко и Киркорова,
Аноним 18/04/23 Втр 03:04:30 #366 №235720 
>>235480
Хороший прогресс для начала. Сколько шагов?
Аноним 18/04/23 Втр 03:08:00 #367 №235723 
show.png
>>235718
Да этих знаю. Можно чтобы лещенко спел с инстасамкой?

>>235567
Я бы рад. Там же на калабе сменили версию питона. Но после трех часов ебли и тупизны, даже я старый 57 летний дед смог. Правда я не понял один момент. Там типа у команды авторов этой хуйни этой есть собственная претрейнед модель? Она претренирована на английский? Или на неё вообще можно хуй забить? Или это как в стабле базовая модель - типа она нужна для лучшего качества?
Аноним 18/04/23 Втр 03:09:20 #368 №235724 
>>235723
Инстасамку мы значит знаем, а Никки Минаж нет? Ладно там Игги Азалию, хотя она в вебм тредах с фанси постилась раньше.
Аноним 18/04/23 Втр 03:20:32 #369 №235732 
show.png
>>235724
>Инстасамку мы значит знаем
Так её вон запрещают, в новостях говорят.

>Игги
Честно думал будет Игги Поп.
Аноним 18/04/23 Втр 04:59:42 #370 №235785 
>>235359
Где нормальность? Голоса моргенчлена даже близко нет. Ты хоть с параметрами играйся иногда. Ну и своим протыкласникам включай на оценку раз сам не понимаешь.
>>235480
Тут чуть лучше, но то ли ты модель хуево надрочил, то ли акапеллы с коричневыми нотами вычленяешь. Либо что более вероятно и то и другое.
Аноним 18/04/23 Втр 07:49:31 #371 №235867 
>>235785
Я тебя вроде попросил уебать со своей тупорылой "критикой" нахуй? Хули ты опять вылез?
Аноним 18/04/23 Втр 08:09:31 #372 №235906 
Ну и? Где бесплатная читалка с интонацией для Александр не любищего читать а только слушать речь?
Аноним 18/04/23 Втр 10:11:28 #373 №236055 
>>235785
я думаю и то и то
как доставать пиздатые акапеллы?
Аноним 18/04/23 Втр 10:14:25 #374 №236062 
>>235720
мне не очень нравится, модель обучалась на акапеллах из его песен, а он хуй пойми как везде поет, то с автотюном, то без
100к
Аноним 18/04/23 Втр 10:35:35 #375 №236131 
А посоветуйте прогу или сайт, чтоб убирать лишние звуки задние и оставлять только голоса, даже не из песен, а из шоу мне надо реплики.
(Это не подходящий тред для такого вопроса, но мало ли, в s точно не ответят.)
Аноним 18/04/23 Втр 10:46:24 #376 №236152 
>>236131
ultimate vocal remover 5
Аноним 18/04/23 Втр 11:03:25 #377 №236191 
>>236062
Ну слушай, не идеально разумеется, но и другие модели тоже не супер, это всё же "пионерское" поколение, а у тебя для первого раза как миумум узнаётся уже, чтоу же хорошо.

Алсо список моделей прилично пополнился в гугл-доке.
Аноним 18/04/23 Втр 11:04:10 #378 №236193 
>>236131
melody.ml
Аноним 18/04/23 Втр 11:16:06 #379 №236202 
>>235867
Ебать ты порвался. Алсо чини детектор.
Аноним 18/04/23 Втр 11:42:40 #380 №236269 
>>235867
Жоско ты его приложил.
Аноним 18/04/23 Втр 13:47:07 #381 №236579 
>>236131
Если вдруг ты еще не делаешь этого, первый шаг это вырезать фронтальный канал из многоканального аудио, именно в нем обычно голос и минимум посторонних звуков.
Аноним 18/04/23 Втр 18:11:15 #382 №237356 
>>235723
Дед, подскажи рабочий способ натренить свою модель. С ангельскими скучно играться.
Аноним 18/04/23 Втр 18:26:54 #383 №237389 
image.png
show.png
>>237356
Пока не знаю у меня уже полтора часа сопли жует. Вообще из-за обновления питона на калабе почти все дневники упали. Но я сделал бочку и украл ячейки. Но хз хватит ли времени на тренировку.
Аноним 18/04/23 Втр 19:55:08 #384 №237644 
image.png
>>88212 (OP)
Эй, моргенпорридж. Вопрос для знатаков - он будет бесконечно дрочить поколения, пока я не остановлю? А то уже 3 часа, меня в сон клонит, сердце уже болит от волнения за Лёву.
Аноним 19/04/23 Срд 01:48:30 #385 №238453 
изображение.png
>>228388
Версия 4.1 часто отдаёт мусор вместо голосов, в 4.2 вроде пофиксили это. Генерация текста больше 2к символов тоже починили в 4.2
>>228391
> А она не включает платные функции питч и тп? Впринципе можно и без них лол.
Эти функции работают только с "Real People" голосами. Похоже остальные голоса генерятся онлайн

Кряк для 4.2
https://anonfiles.com/Ac9al0mazf/VoxBox_exe
Вирустотал
https://www.virustotal.com/gui/file/9d2f0b79c9cfda638e0fccc3a753c6215795567d03e1e98e52936ff0cdfafbe1
Аноним 19/04/23 Срд 06:15:13 #386 №238630 
>>237389
>>237644
Короче это хуйня не для колаба, одна генерация - 1 час. То есть, 3 генерации в сутки и сосо. Плюс там сцена расползлась на тыщу форков с миллионом дохлых блокнотов которые никто не чинит, потому что эта тема по какой-то причине интересна только китайцам, которые дрочат на маняме. Так что 80% вопросов там решается на китайском.
Аноним 20/04/23 Чтв 00:26:05 #387 №241205 
>>235359
сколько тренил по времени модель и на каких треках моргена?
Аноним 20/04/23 Чтв 02:32:46 #388 №241518 
>>241205
19 часов 3070ti
около 30 треков было
Аноним 20/04/23 Чтв 03:24:27 #389 №241576 
>>241518
спасибо! это сколько примерно итераций (steps) вышло? 30к+?
Аноним 20/04/23 Чтв 12:26:39 #390 №242163 
>>241576
100к получилось
но процесс не полностью выполнился, мне впадлу ждать было дальше, после 100к отключил
Аноним 20/04/23 Чтв 15:51:06 #391 №242731 
>>242163
Неплохо! Спасибо! А возможно поделиться моделью моргена, а то боюсь я даже до 50к не обучу, колаб уже коленца выкидывает, а видюха - кал. Не смогу локально(
Аноним 20/04/23 Чтв 20:25:06 #392 №243461 
>>242731
Чувак, зачем ты попрошайничаешь чужой труд? Хоть бы 500р ему предложил или тыщи две.
Аноним 20/04/23 Чтв 22:06:44 #393 №243703 
Screenshot4.png
Screenshot5.png
на форчке запостили
https://github.com/suno-ai/bark
https://huggingface.co/spaces/suno/bark
если не пиздят о скорости то это шик.
Аноним 20/04/23 Чтв 22:28:20 #394 №243770 
>>243461
ну не к тебе ж вопрос был. лулз
Аноним 20/04/23 Чтв 23:21:12 #395 №243927 
>>243703
Что-то у них даже в тестовых аудио бывают левые шумы.
>Bark has the capability to fully clone voices - including tone, pitch, emotion and prosody. The model also attempts to preserve music, ambient noise, etc. from input audio. However, to mitigate misuse of this technology, we limit the audio history prompts to a limited set of Suno-provided, fully synthetic options to choose from for each language. Specify following the pattern: {lang_code}_speaker_{number}.

>opensource

Ебало?
Аноним 20/04/23 Чтв 23:25:04 #396 №243936 
>>243927
ебать хуета, пропустил это как лох на волне "локального хайпа"
видимо не видать нам нормального tts :/
Аноним 21/04/23 Птн 02:12:26 #397 №244150 
>>232455
Умеет. Как изи то, как мне сделать это автоматически на питоне, например?
[mailto:[email protected]Аноним 21/04/23 Птн 08:42:29 #398 №244326 
>>238453
Будь добр, скажи сайт с которого ты кряк для версии 4.2 скачал.
Аноним 21/04/23 Птн 10:38:34 #399 №244389 
>>242731

Соряй, никак
Аноним 21/04/23 Птн 10:47:17 #400 №244410 
>>244389
Вот с такими жадными пидорахозумерами и приходится сидеть в тредах. Как спиздить что у комьюнити - то эт всегда пожалуйста, как поделиться чем - то - АРРРРЯ МАЁ!!!!1
Аноним 21/04/23 Птн 13:02:32 #401 №244568 
>>244150
Ну, тебе придётся детектить числа и оборачивать их в SSML тэги. Это элементарно. Ну а насчет английских слов... Тут поинтереснее. Лучше, наверное, модельку найти, которая может в элементарную транскрипцию, чтобы самому временный огород не городить.
Аноним 21/04/23 Птн 13:57:03 #402 №244652 
>>244410
ну-ка покажи, где я что-то спиздил?
Аноним 21/04/23 Птн 14:23:01 #403 №244697 
show.png
>>244410
Попрошайка, спох. Вот поэтому вас спидорах визгливых даже зумеры попускают.
Аноним 21/04/23 Птн 16:04:36 #404 №244904 
image.png
>>244697
Соевый либераха порридж, ты? Помню как обоссывал тебя на митинге сисяна
Аноним 21/04/23 Птн 18:42:31 #405 №245173 
>>244389
окееее
Аноним 22/04/23 Суб 03:30:16 #406 №246425 
image.png
>>243936
Вроде есть способ немного улучшить результат генерации.
Аноним 23/04/23 Вск 22:31:51 #407 №251908 
59c028a00d0513619ed62fdb728bb4cb.jpg
бамп
MORGENSHTERN - Танцы в трусиках
https://www.youtube.com/watch?v=RsbwVtkh-JI
Аноним 24/04/23 Пнд 02:27:01 #408 №252727 
>>251908
Вот. Откуда картавость появилась? Это ведь та же самая твоя модель.
Аноним 24/04/23 Пнд 03:02:21 #409 №252827 
>>252727
Ну Семён Семёныч, а ну ка заканчивайте с самоподдувом. Неровен час и снесу к хуям твой канал с пацанской музыкой про тазы по АП. В соседних тредах и без тебя хватает аватарочных вниманиеблядей. Хочешь поделиться - ебашь шебм
Аноним 24/04/23 Пнд 03:38:40 #410 №252907 
>>252727
Да, модель та же
Аноним 24/04/23 Пнд 03:41:35 #411 №252914 
>>252827
Снеси, мамкин дартаньян
Ебал я с вебм танцевать, не нравиться - не заходи и не смотри с трубы, мне похуй
Аноним 24/04/23 Пнд 03:45:20 #412 №252927 
>>252914
Извините, т9
тся
Аноним 24/04/23 Пнд 06:30:54 #413 №253203 
>>252907
Так откуда картавость? Послушай внимательно там местами буква "р" сглатывается.
Аноним 24/04/23 Пнд 06:31:29 #414 №253205 
>>252827
Пасть прикрой.
Аноним 24/04/23 Пнд 09:35:44 #415 №253432 
>>253203
> Так откуда картавость? Послушай внимательно там местами буква "р" сглатывается.

Всё просто. Картавость появляется, когда ты меняешь голос речи, сгенерированной другой моделью. Например - в VITS.

>>242731
> А возможно поделиться моделью моргена

У него нет "модели моргена". Он не генерирует его голосом, а меняет существующий. Ну а модель для VITS с его голосом даже проскакивала где-то, ну и свою создать - 15 минут.
Аноним 24/04/23 Пнд 09:51:12 #416 №253448 
>>157696
Сразу видно, что ты никогда не играл в трёшку. Это отличный голос.
Аноним 24/04/23 Пнд 11:06:45 #417 №253590 
show.png
>>253432
Спасибо за тупоебские замечания, но я уже сам генерировал и получше тебя (судя по твоему пуку) понимаю о чем речь. Мне интересен его ответ.

>>253432
>Он не генерирует его голосом,
А мы и не говорим про генерацию, тупое животное, сюда витс перенеслир просто потому что модеру похуй ттс это или войсвап. И да, чмоня, на войсвап точно так же ТРЕНИРУЕТСЯ МОДЕЛЬ ЫЫЫЫЫЫ даунидзе блядь, поэтому у него есть моджель моргена, так же как у меня есть модель лещенко для войссвапа.
Аноним 24/04/23 Пнд 12:51:47 #418 №253920 
>>253590
>>252727
в оригинальной акапелле чел сам картавит, модель просто повторяет
Аноним 24/04/23 Пнд 12:53:56 #419 №253932 
>>253432
очень охота посмотреть на то, как ты создаешь модель за 15 минут
Аноним 24/04/23 Пнд 13:24:28 #420 №254041 
>>253920
Понял. Я просто подумал, что это из-за того что ты русский кинул на английский, а у них там р не выговаривают как в русском.

Еще вопрос: ты являешься наносеком? В какую сумму, условно, ты бы оценил модель типа моргена.
Аноним 24/04/23 Пнд 13:42:25 #421 №254084 
>>254041
изначально то песня русская, язык тут вообще не при чем.
пока что не вижу продажу модели разумным шагом,
все еще очень сырое и работает хуй пойми как.
условно, конечно, могу ее толкнуть, но 8 треков из 10 она не вывезет, а пиздюлей потом я получу, т.к. продал хуйню
и это касается всех моделей на данный момент
я на данный момент натренил двух моргенов, один умеет только петь, а второй только говорить, разговорного могу скинуть, мне не жалко, но там всего 1к шагов
Аноним 24/04/23 Пнд 13:46:33 #422 №254093 
>>254084
Мне морген не нужен, мне нужна цена твоей тренировки модели на моем чистом материале. Допустим все ттх такие же как ты указал у моргена, выше.
Аноним 24/04/23 Пнд 13:56:47 #423 №254109 
>>254093
если делать модель на 100к, которой я делаю все треки сейчас, то я бы взялся от десяти к деревянных, там работы на 2-3 суток
Аноним 24/04/23 Пнд 14:58:29 #424 №254274 
>>254109
>если делать модель на 100к, которой я делаю все треки сейчас, то я бы взялся от десяти к деревянных, там работы на 2-3 суток
Тебе для этого надо не в России жить. 2-3к топ. Поэтому я и спросил про наносековость. Обычный россиянин 30-40к получает в месяц, на несезонной работе. Ты сказал у тебя на обучение ушло 19 часов. Но я не оспариваю твою цену. Просто озвучил мнение. Ты у себя контакты на ютубе оставь, на фейкопочту. Не разговаривай ни с кем, кто не дост задаток 1к сразу, чисто для начала разговора. Если не хочешь с троллями общаться.
Аноним 24/04/23 Пнд 14:59:27 #425 №254277 
>>254109
>там работы на 2-3 суток
Или ты подразумеваешь, что сам будешь датасет делать по источникам?
Аноним 24/04/23 Пнд 15:12:27 #426 №254308 
>>254274
>>254277
мы оба прекрасно понимаем, как легко и быстро можно монетизировать модель, поэтому цену в 2-3к вижу ну уж совсем неразумной
какая разница где жить и работать, если мы в инторнетах с тобой сидим
мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая
Аноним 24/04/23 Пнд 15:27:28 #427 №254354 
>>254308
>мой рабочий день стоит от 5к, с учетом того, что пека будет занята фармом модельки, я не смогу нормально выполнять свою основную работу, поэтому цена такая
Ну вот это другой разговор. У меня просто точно такая же ситуация. Поэтому мне нужен ничем не занятый малолетний игрогений, которому видяху на др подарили, взяв кредит под залог мамкиных яичников.
Аноним 24/04/23 Пнд 19:13:04 #428 №255035 
на форче запостили ретард-пруф инсталлер барка https://github.com/Fictiverse/bark
Аноним 24/04/23 Пнд 19:27:53 #429 №255098 
Screenshot2.png
>>255035
имейте ввиду что это хня докачивает несколько моделей, и это для одного спикера а их там десятки
бляздец короче.
Аноним 24/04/23 Пнд 19:33:11 #430 №255115 
Screenshot4.png
>>255098
оп и OOM получен, если у вас rtx 3070 - даже не пытайтесь.
Аноним 25/04/23 Втр 14:46:49 #431 №257610 
image.png
Может кто пояснить где я обосрался?
Аноним 25/04/23 Втр 18:49:07 #432 №258234 
изображение.png
>>257610
Вгугли.
Аноним 25/04/23 Втр 18:50:40 #433 №258238 
image.png
>>258234
Без тупых вопрос я не можу это я пофиксил и щас выдаёт это
Аноним 25/04/23 Втр 19:42:59 #434 №258393 
>>258238
дядь, закидываеш все в чатгопоту и получаешь фикс всех своих проблем, ну как вчера родился, ейбогу
Аноним 25/04/23 Втр 19:59:26 #435 №258426 
>>258393
В ответ на высказанную реплику я могу сказать, что не согласен с таким подходом к решению проблем. Решение проблем требует ответственности и серьезного подхода, а просто закидывать все в одну кучу и надеяться на лучшее - это неэффективно. Я готов помочь вам с конкретными вопросами или проблемами, но для этого необходимо четко определить их и найти рациональные решения.
Аноним 25/04/23 Втр 23:00:47 #436 №258953 
изображение.png
>>258238
>и щас выдаёт это
https://yandex.ru/search/?text=cannot+import+name+'deprecated'+from+'typing_extensions'
Аноним 26/04/23 Срд 08:09:26 #437 №259591 
show.png
>>258953
Тебе поговорить не с кем, падаль?
Аноним 26/04/23 Срд 15:15:19 #438 №260254 
>>88212 (OP)
Нужно программой озвучить книги и другие тексты, с ударениями, может даже эмоциями, хз до чего уже прогресс дошёл. Тренировать свои собственные голоса (пока?) не хочу. Дайте ссылку на готовое оффлайн решение.
Аноним 26/04/23 Срд 18:24:36 #439 №260679 
show.png
>>260254
Лови https://www.youtube.com/watch?v=CC51fS5GJl8
Аноним 27/04/23 Чтв 20:01:39 #440 №264042 
pupu.mp4
>>232783
Искал тред по сетке, а нашел только этот пост. Эта хуйня достойна большего
Аноним 28/04/23 Птн 02:36:16 #441 №265131 
image.png
>>260254
Скинешь суп с флажком в жопе, дам ссылку на годный 100% рабочий коллаб, куча моделей на русском, казахстанском и американском языках, настраивается с пол пинка
Аноним 28/04/23 Птн 04:48:47 #442 №265310 
>>265131
Эта ссылка выше есть, плюс он вообще не это спрашивает, так что съеби в МФ, животное.
Аноним 28/04/23 Птн 12:39:09 #443 №265809 
>>265310
не верищи, без тебя разберемся что кому нужно, я человеку предложил, пусть ищет тогда по всему интернету
Аноним 28/04/23 Птн 15:17:27 #444 №266088 
>>265809
Ебало подвали, ну и флагшток из жопы вытащи своей, а то заражение в мозг пошло.
Аноним 28/04/23 Птн 21:20:44 #445 №267115 
>>266088
есть хуй, будешь?
Аноним 29/04/23 Суб 01:30:50 #446 №267630 
Screenshot1.png
опа
https://github.com/ggerganov/llama.cpp/discussions/1220
Аноним 30/04/23 Вск 23:03:05 #447 №272459 
>>88750
Звучит приятно. Что за модель?
Аноним 30/04/23 Вск 23:34:09 #448 №272530 
>>264042
долго обучал so-vits? и на датасете из постола тупа?
Аноним 01/05/23 Пнд 00:09:48 #449 №272649 
tualet.mp4
>>272530
>долго
День в коллабе. на том видосе около 10к эпох.
Дотренил до 50к эпох - результат не сильно лучше. Мб из-за того, что датасет тупо только из видоса со всеми фразами из постала, а он там говорит в основном в одной тональности с одной интонацией.
Аноним 01/05/23 Пнд 01:55:40 #450 №272781 
>>272649
Поделись моделью пожалуйста.
Аноним 01/05/23 Пнд 04:39:15 #451 №272858 
новый метод для tts, от майкрософт (опять)
и нет, не опенсорс.
https://speechresearch.github.io/naturalspeech2/
Аноним 01/05/23 Пнд 14:05:08 #452 №273386 
>>272858
>не опенсорс
Уноси обратно.
Аноним 01/05/23 Пнд 14:54:19 #453 №273494 
>>273386
>не попенсорс уииии
Тред про ттс, а не про то, как ты прыщи давишь.
Аноним 01/05/23 Пнд 15:01:59 #454 №273501 
>>272781
anonfiles. com/ 4c409bo1z3/ duderus_pth
Аноним 01/05/23 Пнд 16:04:25 #455 №273629 
>>273494
Чел, если хуитку нельзя запустить у себя или хотя бы в коллабе, она бесполезна.
Аноним 01/05/23 Пнд 16:36:22 #456 №273701 
>>273386
>>273629
ну тут хз
https://github.com/lucidrains/naturalspeech2-pytorch
без весов это просто бесполезный код.
Аноним 02/05/23 Втр 21:09:32 #457 №276113 
>>273501
Здорово. Куда её дальше запихивать?
Аноним 02/05/23 Втр 21:23:00 #458 №276144 
>>276113
в очко, например
зачем ты просишь модель, если даже не знаешь, как это все работает
Аноним 02/05/23 Втр 21:44:15 #459 №276206 
>>276144
Голос понравился, и по-русски говорит. То что нужно для озвучки длинных текстов.
Аноним 03/05/23 Срд 15:14:58 #460 №277450 
>>273501
Как ты тренил эту хуйню, я джва часа пытался, ебучий коллаб ошибками весь еблет мне обсыпал.
Аноним 03/05/23 Срд 15:28:50 #461 №277462 
>>277450
https://colab.research.google.com/drive/1XkdLFWnGc9OsgSY9k-XA5gjl_Up01kmm
Аноним 03/05/23 Срд 15:40:36 #462 №277482 
>>277462
Спасибо. Скажи ещё, у тебя датасет был одним файлом или кучей мелких? Имеет это вообще значение или нет?
Аноним 03/05/23 Срд 16:05:46 #463 №277529 
>>277482
Много файлов не длиннее 10 секунд
Аноним 03/05/23 Срд 20:41:54 #464 №278058 
>>277462
Извините, я знаю, что дегенерат, но все же наставьте на путь истинный, где все же в дальнейшем можно применить модель созданную в данном колабе?
Аноним 03/05/23 Срд 20:45:47 #465 №278062 
>>278058
Зачитав свой ссаный текст и наложив на свой ссаный голос, чтобы он стал менее ссаным. То есть, конкретно ты - нигде.
Аноним 03/05/23 Срд 20:54:10 #466 №278075 
>>278062
Понял спасибо, я почему то подумал, что это tts, а это именно из темы про песенки вылилось. Двачую за подсказку.
Аноним 03/05/23 Срд 21:29:15 #467 №278122 
kr.mp4
>>278075
Схуяли только про песенки? Если школьники суют только моргенштернов - это не значит что этим применение ограничивается. Однако, это voice to voice, а не text to voice.
Ты всё ещё можешь сгенерировать текст голосом робота из переводчика, а затем наложить на него нормальной голос, если найдёшь.
Аноним 03/05/23 Срд 22:26:25 #468 №278250 
>>278122
>Схуяли только про песенки?
С того что только на фоне песенок гличи не слышно. Он норм ложится только на монотонный голос.
Аноним 03/05/23 Срд 23:07:42 #469 №278328 
kr4.mp4
>>278250
>С того что только на фоне песенок гличи не слышно
От части да, но
>Он норм ложится только на монотонный голос
Он норм ложиться на похожий голос и манеру речи. Если в твоём датасете диктор ёпта только монотонно и говорит, то ясен хуй на генерации криков будут клитчи. Как тут.
Идеально модель можно, пока, получить только записывая голос специально для этой цели.
Аноним 03/05/23 Срд 23:40:39 #470 №278385 
>>278328
Если ты добавишь в датасет с монотонной речью крики - ты получишь хуйню. Дело не в манере речи, а в том, как модель накладывается.
Аноним 04/05/23 Чтв 00:01:02 #471 №278399 
>>278385
>ты получишь хуйню
Это если тренировать 5 минут. Если заебаться и потренить пару дней - всё будет ок.
Я бы пруфанул, если бы у меня был голос поставлен и я не запинался бы в слове из четырёх букв. А так просто иди нахуй.
Аноним 04/05/23 Чтв 02:50:20 #472 №278547 
>>278399
Ну ты же пиздабол просто. Причем твой ссаный голос. Датасет откуда угодно можешь вырвать, так же как и целевой материал. Можешь хоть 100 дней тренировать, от этого принцип наложения не изменится.
Аноним 04/05/23 Чтв 04:47:05 #473 №278575 
>>278250
Это че он за говно тогда, когда даже древний пониебский проект нормально голосами поней говорил.
Аноним 04/05/23 Чтв 08:17:21 #474 №278670 
>>278575
>Это че он за говно тогда, когда даже древний пониебский проект нормально голосами поней говорил.
Там голоса не естественные, кучи частот нет, не тупи. Плюс не путая локовость рук и реальную выдачу.
Аноним 04/05/23 Чтв 12:52:31 #475 №279319 
Хуйню для чтения книг уже изобрели?
Аноним 04/05/23 Чтв 14:35:35 #476 №279504 
>>279319
За деньги.
Аноним 04/05/23 Чтв 18:17:33 #477 №279815 
>>279504
А не жирно деньги отдвавать за машинное чтение?
Аноним 04/05/23 Чтв 18:19:58 #478 №279818 
>>279319

Называется Яндекс читалка.
Аноним 14/05/23 Вск 15:08:21 #479 №299842 
Как сделать видео как кто-то что-то поет как в тиктоке
Аноним 14/05/23 Вск 15:11:35 #480 №299845 
>>299842
Научится читать.
Аноним 14/05/23 Вск 15:21:53 #481 №299870 
>>299845
так ка к сделать то
Аноним 18/05/23 Чтв 09:37:48 #482 №306902 
Бамп, а то утонем.
Аноним 18/05/23 Чтв 16:10:49 #483 №307576 
Ребята, привет. А это чем сделано, кто в курсе?

https://www.youtube.com/watch?v=OSXFmgYBWmk
Аноним 18/05/23 Чтв 16:12:19 #484 №307580 
https://www.youtube.com/watch?v=KT8OEpdtVB0

https://vk.com/mashuphk?z=video-199959846_456239524%2Fvideos-199959846%2Fpl_-199959846_-2
Аноним 18/05/23 Чтв 23:14:21 #485 №308580 
artworks-cYdoZSnyuVdGyhTK-3QrKfQ-t500x500.jpg
>>88212 (OP)
БЛЯТЬ, посмотрите блять, ну есть же ахуенный тортойс ттс, который работает исправно, вот видос где челик рассказывает как его ахуенно улучшили, и теперь он генерирует аудио с нормальной скоростью https://www.youtube.com/watch?v=8i4T5v1Fl_M&ab_channel=MartinThissen
Почему никто не обсуждает?
Аноним 18/05/23 Чтв 23:31:11 #486 №308603 
images.jfif
>>308580
Кста, раз уж вы это прочитали, помогите пожалуйта, был тортойс старый, который медленно генерировал но уверенно - https://colab.research.google.com/drive/1wVVqUPqwiDBUVeWWOUNglpGhU3hg_cbR?usp=sharing И вот он запускался без интерфейса, и это ахуенно было. А можете подсказать, че как сделать, чтобы тортойс фаст https://colab.research.google.com/drive/11FG_ZRdAZ09Euoqc40RiRZyLaRXqjM7b?usp=sharing не через интерфейс работал, а просто в текстовом варианте?
Аноним 19/05/23 Птн 10:49:24 #487 №308940 
Untitled.webm
>>88212 (OP)
https://t.me/mashup_source/582
Аноним 19/05/23 Птн 13:17:02 #488 №309095 
>>308580
>Почему никто не обсуждает?
Подостыли как-то. А что там улучшили? Я репо клонировал, и не вижу там запуска уеб-сервиса.
Аноним 19/05/23 Птн 13:27:24 #489 №309107 
>>309095
https://colab.research.google.com/drive/11FG_ZRdAZ09Euoqc40RiRZyLaRXqjM7b?usp=sharing допустим по ссылке в колабе через стимлит запускается интерфейс. А по изменениям дохуя чего, вот тут челик описал https://medium.com/@martin-thissen/5x-faster-voice-cloning-tortoise-tts-fast-tutorial-5b8c1d4de975
Аноним 19/05/23 Птн 16:28:56 #490 №309416 
изображение.png
изображение.png
>>309107
>через стимлит
Окей, ясно-понятно. Я просто привык всё логально запускать.
>medium.com
Ну ты и пидр.
Аноним 20/05/23 Суб 12:53:24 #491 №310850 
Вопрос не совсем по сабжу, но связанный.
Есть 50Гб голосовых записей.

Есть ли решение на базе нейросетей, чтобы перевести эти записи
в текстовый формат
Собеседник 1: бла-бла
Собеседник 2: пук-пук-пук

Решение должно крутится на моей пекарне или инфраструктуре
Аноним 20/05/23 Суб 16:43:56 #492 №311122 
Можно ли как-то подогнать существующие образцы голоса под всякие эротические звуки, стоны и т.п.? Или хотя бы посоветуйте нейросетку стонов, буду наиболее похожее искать.
Аноним 20/05/23 Суб 17:16:58 #493 №311190 
>>311122
Есть прям в этот треде.
Аноним 20/05/23 Суб 18:20:12 #494 №311297 
>>311122
тогда уж и шопота тоже
(за генеративным ASMR будущее хех)
Аноним 20/05/23 Суб 18:24:14 #495 №311301 
>>310850
в сторону silero models посмотри, вроде лайтовая и шустрая штука, правда я stt в ней не тестил, меня интересовала больше задача озвучивать текст (правда для озвучки она ударения плохо оч ставит, приходится сразу гонять скрипт ударений, а потом озвучивать)
Аноним 20/05/23 Суб 21:25:24 #496 №311647 
>>308940
едрить голос железный, Bark поприятней голос генерит, но шумит блин, шо рация времен второй мировой
Аноним 20/05/23 Суб 21:38:06 #497 №311666 
>>267630
вот нафига? Барк и так на 4 гб работает спокойно, или вообще на расбериПай надо запускать? (та и вопрос скорости открытым остается, барк не сказать что быстрый, а больше всего раздражает ограничение по времени, в один присест до 38 "токенов", или че там оно в консоли считает - примерно 13 секунд, дальше тупо рубит
Аноним 20/05/23 Суб 21:41:45 #498 №311673 
>>255098
модели общие, для спикеров только настройки, а чтоб запускать на 8 и меньше гигах надо включить "маленькие модели" тогда и докачивает в пару раз меньше, и в 4 Гб влазит вроде
Аноним 20/05/23 Суб 21:49:28 #499 №311688 
>>243927
так клонинг чисто на уровне АПИ залочен, давно уже есть репы с разлоченым клоном, правда не пробовал пока еще клонинг...
Аноним 20/05/23 Суб 21:57:08 #500 №311709 
>>213252
>200 гиг врама
Я думаю они не на видяхах а на тензорблоках гоняют, хотя хз...
Аноним 20/05/23 Суб 22:18:30 #501 №311766 
>>311190
я неосилятор походу, тред пролистал, но чет не вижу чем генерили люди...
Аноним 20/05/23 Суб 23:35:00 #502 №311893 
Untitled.webm
>>311647
>голос железный
зависит от того какой исходник возьмёшь
не отличить от оригинала https://youtu.be/l6LjQ0yLxyE
Аноним 21/05/23 Вск 04:40:14 #503 №312189 
>>310850
Вишпер.
>>311301
>silero models
Там русека для STT нет.
>>311688
Само собой это шиза. Но лично я копаться в коде не хочу.
>>311709
Ну так а тензорные блоки какую рам используют?


Кто будет катить тред? А то тонем.
Аноним 22/05/23 Пнд 12:16:18 #504 №314759 
Пытаюсь научить Tortoise русеку
https://voca.ro/11oUhx9CPqUO
Аноним 22/05/23 Пнд 14:18:49 #505 №314924 
>>310850
> Есть ли решение на базе нейросетей, чтобы перевести эти записи
> в текстовый формат
> Собеседник 1: бла-бла
> Собеседник 2: пук-пук-пук
Нет. Такого пока не создали.
Аноним 22/05/23 Пнд 14:37:54 #506 №314950 
Котитесь

https://2ch.hk/ai/res/314948.html
https://2ch.hk/ai/res/314948.html
https://2ch.hk/ai/res/314948.html
Аноним 22/05/23 Пнд 21:32:06 #507 №315643 
>>314924
Ну в смысле? Нейросетка не способна распознать, что на записи два разных голоса присутствуют? Возможно нет в попенсурс доступе. Я конечно, понимаю, что архитектура в данном случае ещё сложнее будет, часть просто должна уметь распознавать, а другая часть ещё и отличать и узнавать голос
Аноним 04/06/23 Вск 04:41:46 #508 №340649 
>>273501
Нужен config.json он постоянно апдейтится, а какой именно ты использовал, хз... Кароче, скинь пожалуйста config.json свой... И, ты использовал so-vits-svc?
Аноним 04/06/23 Вск 04:42:43 #509 №340650 
>>340649
So-vits-svc-fork*?
Аноним 04/06/23 Вск 17:08:53 #510 №341381 
>>340650
нашел, нужно юзать конфиг
https://github.com/voicepaw/so-vits-svc-fork/blob/main/src/so_vits_svc_fork/preprocessing/config_templates/so-vits-svc-4.0v1.json
comments powered by Disqus

Отзывы и предложения