como treinar a voz Clonada para ficar perfeita faz um outro turotial muita gente não conseguiu trainar e o repositorio esta diferente das configurações que foram feitas
Olá bom dia! Sou uma pessoa cega, instalei o programa em minha máquina e estou me aventurando na criação de minha voz. Me chamou muito atenção a ideia do treinamento que você fez. Qual seria a possibilidade de você criar um vídeo desse pensando na acessibilidade. Digo, em vez de dizer: clique aqui ou ali, Também dar a opção de Como fazer isso via teclado. Será que é possível? Parabéns pelo vídeo. Diferentemente do que vejo pela internet, o seu foi muito instrutivo, Objetivo e didático.
Não entendi como treinar a voz com o modelo de AUDIO.WAV lá dentro da pasta para ficar perfeita. Por gentileza, faz um outro turotial, se possivel masi direto e simples, assim como EU, muita gente tanmbem não conseguiu trainar. Gratidão ETERNA! OBS: Todso o programa foi instalado e até ja esta funcionando TUOD. Mas esse PYTON...nao instalei....e AGORA 🤭🤣?
Muito bom Marcel! Agora o modelo usado para treinamento é o xtts2, da coqui, que tem licença NÃO comercial, da pra clonar também usando o Bark e ele tem licenca comercial liberada. Se for possível, adicione ele na comparaçâo no proximo vídeo. Abraços e parabéns pelo excelente vídeo.
Oi Ihering. Eu fiz testes com o Bark logo que lançou, mas ele é muito instável para narração. Ele é um modelo bom para simular conversas em formato de entrevista e informais. Mas eu realmente nunca testei o treinamento. Vou dar uma pesquisada para ver como fica. Valeu pela sugestão.
Sim, o EL é pago. Eu daria nota 6 pra clonagem rápida dele em português, e 8 pra clonagem profissional (quando você faz o plano mais caro). Um abraço :)
Mais um ótimo video, obrigado. Esse modelo seria o mesmo usado para criar as musicas cover com IA? Poderia fazer um video sobre isso, seria interessante.
@@maykehafemann9531 Então, eu descobri aqui q não é necessário, funcionou normal sem precisar desta instalação. Creio que as bibliotecas ja estejam no pacote.
Qual o tamanho limite de audio em . wav para treinar essa IA, o máximo é 2 minutos? ou não tem limite? se for 2 minutos, podem ser vários arquivos ou apenas um?
Bom dia, gosto muito do seu canal, queria sua ajuda pra um problema que tive com a configuração do CUDA da Nvidea e o Roop unleashed, usei por meses e era super agil, do nada ele ficou super lento, algo desconfigurou, voce teria como me ajudar com isso? Muito obrigado1
Mano o meu está dando esse erro. Não sei coda, só estou copiando e colando o passo a passo dos vossos vídeos. Mais queria saber o que devo fazer para solucionar esse problema; Arquivo "C:\text-generation-webui-main\modules\ui_model_menu.py", linha 248, em load_model_wrapper shared.model, shared.tokenizer = load_model(selected_model, loader) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Arquivo "C:\text-generation-webui-main\modules\models.py", linha 94, em load_model output = load_func_maploader ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ Arquivo "C:\text-generation-webui-main\modules\models.py", linha 327, em ExLlamav2_HF_loader from modules.exllamav2_hf import Exllamav2HF Arquivo "C:\text-generation-webui-main\modules\exllamav2_hf.py", linha 7, em from exllamav2 import ( ModuleNotFoundError: Nenhum módulo chamado 'exllamav2'
Muito Bom, muito bom mesmo. Acabei de Criar um personagem apocalíptico do MCU, e ficou assustador, kkkkkkkkkk Agora da para criar algo para assustar os priminhos hehehehehe
Eu achei que ficou bem parecido. Mãe da pra tentar mexer nos parâmetros e criar um sample maior. Eu usei o mínimo possível de 2 minutos. E veja que foi difícil conseguir uma qualidade de áudio boa pro sample. Talvez o resultado seja melhor com um sabor de 15 minutos em alta qualidade. Mas mesmo assim eu não espero muito desses modelos. Mesmo o EL não dá uma qualidade perfeita né clonagem
algum pode me ajuda com este erro: an error !! Please check the console to verify the full error message! Error summary: Traceback (most recent call last): File "C:\text-generation-webui\extensions\alltalk_tts\finetune.py", line 1395, in preprocess_dataset train_meta, eval_meta, audio_total_size = format_audio_list(target_language=language, whisper_model=whisper_model, out_path=out_path, eval_split_number=eval_split_number, speaker_name_input=speaker_name_input, gradio_progress=progress) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\text-generation-webui\extensions\alltalk_tts\finetune.py", line 331, in format_audio_list asr_model = WhisperModel(whisper_model, device=device, compute_type="float32") ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\text-generation-webui\installer_files\env\Lib\site-packages\faster_whisper\transcribe.py", line 144, in __init__ self.model = ctranslate2.models.Whisper( ^^^^^^^^^^^^^^^^^^^^^^^^^^^ RuntimeError: CUDA failed with error out of memory