turicas/Transcrição de textos em Português com whisper (OpenAI).ipynb

Last active February 12, 2026 13:14

Star (62) You must be signed in to star a gist
Fork (17) You must be signed in to fork a gist

Select an option

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/turicas/da12b3c8e67a27e088d12d9c41be65d9.js"></script>
Save turicas/da12b3c8e67a27e088d12d9c41be65d9 to your computer and use it in GitHub Desktop.

Download ZIP

Transcrição de textos em Português com whisper (OpenAI)

Raw

Transcrição de textos em Português com whisper (OpenAI).ipynb

Sorry, something went wrong. Reload?

Sorry, we cannot display this file.

Sorry, this file is invalid so it cannot be displayed.

GabrielaVictorio commented Mar 5, 2024

!pip install git+ https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg

!pip install subprocesso de importação openai-whisper

!whisper "Nomedoarquivo.mp3" --model médio --linguagem pt

Assim gera o arquivo para download. Deixo também o ambiente de execução em GPU

Fiz exatamente como vc postou, mas meu áudio está demorando horas pra ser transcrito (20 min).
Tem mais alguma coisa que eu possa fazer?

danielsouzatrt14 commented Mar 8, 2024 •

edited

Loading

Estava enfrentando o seguinte erro na saída do comando

AssertionError: libcuda.so cannot found!

Para corrigir execute antes do !pip

Audio disponível aqui

!export LC_ALL="en_US.UTF-8"
!export LD_LIBRARY_PATH="/usr/lib64-nvidia"
!export LIBRARY_PATH="/usr/local/cuda/lib64/stubs"
!ldconfig /usr/lib64-nvidia


!pip install openai-whisper
import subprocess

filename = "/content/Alfabeto_portugues_brasileiro.ogg"
model_name = "medium"
completed_process  = subprocess.run(
  [
    "whisper", 
    "--language", "pt", 
    "--word_timestamps", "True",
    "--model", model_name, 
    "--output_dir", f"output-{model_name}", 
    filename
  ],
    capture_output=True,  # Capture the output of the process
    text=True  # Convert the output to text (for Python 3.7 and later)
)


# Print the output of the process
print("STDOUT:", completed_process.stdout)
print("STDERR:", completed_process.stderr)

mileenacm commented Mar 23, 2024

Pessoal, encontrei uma forma similar que funcionou 100%! Não estava conseguindo também e encontrei esse vídeo: https://www.youtube.com/watch?v=9prLBRpwZ78&list=LL&index=4

É simples: primeiro altere a execução do ambiente, mudando o tipo para T4GPU.

copie para executar: !pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg

Quando terminar a execução, você carrega seu arquivo mp3, e arrasta ele para a pasta "sample_data".

Daí vc executa o seguinte comando em outra linha:

!whisper "/content/sample_data/arquivo.mp3" --model medium

Precisa ser especificamente o caminho do arquivo dentro da pasta sample, como fazer isso? 3 pontinhos e "copiar caminho".
Execute e baixe o arquivo txt.
O arquivo que transcrevi tinha 1h 27min, e deu tudo certo no "medium". Demorou 21 minutos.

prints:

vieiradatalab commented Mar 27, 2024

Olá, bom dia!
Muito obrigado pelo tutorial e pelas dicas!!
Já estou usando aqui para transcrição de entrevistas.... muito bom.
Só uma dúvida...
É possível fazer algum tipo de marcação entre as pessoas que falam?
Tipo... Entre o entrevistador e o entrevistado...
Fazer marcações...
Isso é fala do entrevistador...
Isso é fala do entrevistado...
Pode haver algum parâmetro que se possa configurar para isso?

Author

turicas commented Mar 27, 2024

Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?

@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.

vieiradatalab commented Apr 1, 2024

Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?

@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.

Opa... muito obrigado pela resposta.
Nós usávamos a ferramenta "transcriptor". Essa ferramenta faz a segmentação de quem está falando. Contudo, a qualidade da transcrição é muito ruim. Por isso estamos buscando outras alternativas.
Mesmo sem exemplos prontos, vc consegue citar outros modelos que possam fazer essa segmentação??

Author

turicas commented Apr 1, 2024

@vieiradatalab um dos mais usados é esse: https://huggingface.co/pyannote/segmentation

guilhermegomes2 commented May 8, 2024 •

edited

Loading

Olá amigo @turicas

Como faço para que, no arquivo TXT, também sair impresso o tempo inicial e final do áudio?

bishoppython commented Jun 9, 2024

Olá Amigos eu fiz dessa forma e também obtive êxito!
!whisper "arquivo.mp3" --language Portuguese --model medium #or large or small

espero poder ter ajudado!

Br3n0k commented Aug 18, 2025

Segui o tutorial como base, mas acabei rodando localmente fazendo um script para mim desse jeito: Transcriber

turicas/Transcrição de textos em Português com whisper (OpenAI).ipynb

Select an option

No results found

Select an option