Real-Time Speech Recognition

PoC's for speech recognition and speaker diarization.

Working PoC's

rtsr_en.py: PoC using AssemblyAI WebSocket API (english only)
rtsr_de.py: PoC using OpenAI Whisper (de, probably multilingual)

Prototypes

Additionally, a handful of prototypes were created using various technologies:

librosa
NVIDIA NeMo
Tensorflow + Keras Model
Mel Spectrogram CNN

Credits

davabase

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
docs		docs
paper		paper
src		src
test		test
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

docs

docs

paper

paper

src

src

test

test

.gitignore

.gitignore

README.md

README.md

requirements.txt

requirements.txt

Repository files navigation

Real-Time Speech Recognition

Working PoC's

Prototypes

Credits

About

Languages

j-schmied/RealTimeSpeechRecognition

Folders and files

Latest commit

History

Repository files navigation

Real-Time Speech Recognition

Working PoC's

Prototypes

Credits

About

Topics

Resources

Stars

Watchers

Forks

Languages