-
-
Save turicas/da12b3c8e67a27e088d12d9c41be65d9 to your computer and use it in GitHub Desktop.
Olá, bom dia!
Muito obrigado pelo tutorial e pelas dicas!!
Já estou usando aqui para transcrição de entrevistas.... muito bom.
Só uma dúvida...
É possível fazer algum tipo de marcação entre as pessoas que falam?
Tipo... Entre o entrevistador e o entrevistado...
Fazer marcações...
Isso é fala do entrevistador...
Isso é fala do entrevistado...
Pode haver algum parâmetro que se possa configurar para isso?
Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?
@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.
Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?
@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.
Opa... muito obrigado pela resposta.
Nós usávamos a ferramenta "transcriptor". Essa ferramenta faz a segmentação de quem está falando. Contudo, a qualidade da transcrição é muito ruim. Por isso estamos buscando outras alternativas.
Mesmo sem exemplos prontos, vc consegue citar outros modelos que possam fazer essa segmentação??
@vieiradatalab um dos mais usados é esse: https://huggingface.co/pyannote/segmentation
Olá amigo @turicas
Como faço para que, no arquivo TXT, também sair impresso o tempo inicial e final do áudio?
Olá Amigos eu fiz dessa forma e também obtive êxito!
!whisper "arquivo.mp3" --language Portuguese --model medium #or large or small
espero poder ter ajudado!
Pessoal, encontrei uma forma similar que funcionou 100%! Não estava conseguindo também e encontrei esse vídeo: https://www.youtube.com/watch?v=9prLBRpwZ78&list=LL&index=4
É simples: primeiro altere a execução do ambiente, mudando o tipo para T4GPU.
copie para executar: !pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
Quando terminar a execução, você carrega seu arquivo mp3, e arrasta ele para a pasta "sample_data".
Daí vc executa o seguinte comando em outra linha:
!whisper "/content/sample_data/arquivo.mp3" --model medium
Precisa ser especificamente o caminho do arquivo dentro da pasta sample, como fazer isso? 3 pontinhos e "copiar caminho".
Execute e baixe o arquivo txt.
O arquivo que transcrevi tinha 1h 27min, e deu tudo certo no "medium". Demorou 21 minutos.
prints:

