-
-
Save turicas/da12b3c8e67a27e088d12d9c41be65d9 to your computer and use it in GitHub Desktop.
Estava enfrentando o seguinte erro na saída do comando
AssertionError: libcuda.so cannot found!
Para corrigir execute antes do !pip
Audio disponível aqui
!export LC_ALL="en_US.UTF-8"
!export LD_LIBRARY_PATH="/usr/lib64-nvidia"
!export LIBRARY_PATH="/usr/local/cuda/lib64/stubs"
!ldconfig /usr/lib64-nvidia
!pip install openai-whisper
import subprocess
filename = "/content/Alfabeto_portugues_brasileiro.ogg"
model_name = "medium"
completed_process = subprocess.run(
[
"whisper",
"--language", "pt",
"--word_timestamps", "True",
"--model", model_name,
"--output_dir", f"output-{model_name}",
filename
],
capture_output=True, # Capture the output of the process
text=True # Convert the output to text (for Python 3.7 and later)
)
# Print the output of the process
print("STDOUT:", completed_process.stdout)
print("STDERR:", completed_process.stderr)
Pessoal, encontrei uma forma similar que funcionou 100%! Não estava conseguindo também e encontrei esse vídeo: https://www.youtube.com/watch?v=9prLBRpwZ78&list=LL&index=4
É simples: primeiro altere a execução do ambiente, mudando o tipo para T4GPU.
copie para executar: !pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg
Quando terminar a execução, você carrega seu arquivo mp3, e arrasta ele para a pasta "sample_data".
Daí vc executa o seguinte comando em outra linha:
!whisper "/content/sample_data/arquivo.mp3" --model medium
Precisa ser especificamente o caminho do arquivo dentro da pasta sample, como fazer isso? 3 pontinhos e "copiar caminho".
Execute e baixe o arquivo txt.
O arquivo que transcrevi tinha 1h 27min, e deu tudo certo no "medium". Demorou 21 minutos.
Olá, bom dia!
Muito obrigado pelo tutorial e pelas dicas!!
Já estou usando aqui para transcrição de entrevistas.... muito bom.
Só uma dúvida...
É possível fazer algum tipo de marcação entre as pessoas que falam?
Tipo... Entre o entrevistador e o entrevistado...
Fazer marcações...
Isso é fala do entrevistador...
Isso é fala do entrevistado...
Pode haver algum parâmetro que se possa configurar para isso?
Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?
@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.
Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?
@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.
Opa... muito obrigado pela resposta.
Nós usávamos a ferramenta "transcriptor". Essa ferramenta faz a segmentação de quem está falando. Contudo, a qualidade da transcrição é muito ruim. Por isso estamos buscando outras alternativas.
Mesmo sem exemplos prontos, vc consegue citar outros modelos que possam fazer essa segmentação??
@vieiradatalab um dos mais usados é esse: https://huggingface.co/pyannote/segmentation
Olá amigo @turicas
Como faço para que, no arquivo TXT, também sair impresso o tempo inicial e final do áudio?
Olá Amigos eu fiz dessa forma e também obtive êxito!
!whisper "arquivo.mp3" --language Portuguese --model medium #or large or small
espero poder ter ajudado!
Fiz exatamente como vc postou, mas meu áudio está demorando horas pra ser transcrito (20 min).
Tem mais alguma coisa que eu possa fazer?