Speech To Text

Speech To Text skills and workflows surfaced by the site skill importer.

5 skills

transcribe

por openai

transcribe converte áudio ou vídeo em texto com diarização opcional e dicas de falantes conhecidos. É uma boa opção para redação técnica, atas de reunião, entrevistas, aulas e operações de conteúdo quando você precisa de uma skill de transcrição repetível, com formatos de saída claros e menos tentativa e erro do que um prompt genérico.

Technical Writing

Favoritos 0GitHub 18.8k

azure-speech-to-text-rest-py

por microsoft

azure-speech-to-text-rest-py é uma skill REST do Azure Speech em Python para transcrição de áudios curtos sem o Speech SDK. Use-a no desenvolvimento de backend quando você precisar de controle direto por HTTP, configuração rápida e suporte para arquivos de áudio de até 60 segundos. O guia cobre instalação, autenticação, formatação de áudio e quando evitar áudio longo, streaming ou transcrição em lote.

Backend Development

Favoritos 0GitHub 2.3k

speech-to-text

por NoizAI

A skill speech-to-text transcreve arquivos de áudio compatíveis em texto simples, com opções de timestamps, identificação de falantes e saída em JSON. Ela foi pensada para uso prático de speech-to-text em fluxos de trabalho repetíveis, incluindo entrevistas, reuniões, podcasts, aulas e tarefas de automação em que a consistência da transcrição faz diferença.

Workflow Automation

Favoritos 0GitHub 498

tts

por NoizAI

O skill tts transforma texto em áudio com voz para narração, dublagem, locução e reprodução sincronizada com a linha do tempo. Use-o para gerar um arquivo de voz a partir de texto simples, converter artigos ou arquivos de texto em fala, ou renderizar áudio guiado por SRT com controle de timing. Ele oferece modos simples e de linha do tempo, além de fluxos de trabalho cientes do backend para uso repetível do tts.

Voice Generation

Favoritos 0GitHub 498

detecting-deepfake-audio-in-vishing-attacks

por mukul975

detecting-deepfake-audio-in-vishing-attacks ajuda equipes de segurança a analisar áudio em busca de fala gerada por IA em casos de vishing, fraude e impersonação. A skill extrai características espectrais e baseadas em MFCC, atribui pontuação a amostras suspeitas e gera um relatório no estilo forense para revisão. É ideal para fluxos de Security Audit e resposta a incidentes.

Security Audit

Favoritos 0GitHub 0