accents_unplugged_deepspeech_v93

Sleeping

App Files Files Community

akki2825 commited on Dec 10, 2023

Commit

4720733

1 Parent(s): 94c1047

Update run.py

Browse files

Files changed (1) hide show

run.py +27 -16

run.py CHANGED Viewed

@@ -2,6 +2,10 @@ from deepspeech import Model
 import gradio as gr
 import numpy as np
 import urllib.request
 model_file_path = "deepspeech-0.9.3-models.pbmm"
 lm_file_path = "deepspeech-0.9.3-models.scorer"
@@ -20,26 +24,33 @@ model.setScorerAlphaBeta(lm_alpha, lm_beta)
 model.setBeamWidth(beam_width)
-def reformat_freq(sr, y):
-    if sr not in (
-        48000,
-        16000,
-    ):  # Deepspeech only supports 16k, (we convert 48k -> 16k)
-        raise ValueError("Unsupported rate", sr)
-    if sr == 48000:
-        y = (
-            ((y / max(np.max(y), 1)) * 32767)
-            .reshape((-1, 3))
-            .mean(axis=1)
-            .astype("int16")
-        )
-        sr = 16000
-    return sr, y
 def transcribe(audio_file):
-    text = model.stt(audio_file)
     return text

 import gradio as gr
 import numpy as np
 import urllib.request
+import wave
+import subprocess
+import sys
+import shlex
 model_file_path = "deepspeech-0.9.3-models.pbmm"
 lm_file_path = "deepspeech-0.9.3-models.scorer"
 model.setBeamWidth(beam_width)
+def convert_samplerate(audio_path, desired_sample_rate):
+    sox_cmd = 'sox {} --type raw --bits 16 --channels 1 --rate {} --encoding signed-integer --endian little --compression 0.0 --no-dither - '.format(quote(audio_path), desired_sample_rate)
+    try:
+        output = subprocess.check_output(shlex.split(sox_cmd), stderr=subprocess.PIPE)
+    except subprocess.CalledProcessError as e:
+        raise RuntimeError('SoX returned non-zero status: {}'.format(e.stderr))
+    except OSError as e:
+        raise OSError(e.errno, 'SoX not found, use {}hz files or install it: {}'.format(desired_sample_rate, e.strerror))
+    return desired_sample_rate, np.frombuffer(output, np.int16)
 def transcribe(audio_file):
+    desired_sample_rate = model.sampleRate()
+    fin = wave.open(audio_file, 'rb')
+    fs_orig = fin.getframerate()
+    if fs_orig != desired_sample_rate:
+        print('Warning: original sample rate ({}) is different than {}hz. Resampling might produce erratic speech recognition.'.format(fs_orig, desired_sample_rate), file=sys.stderr)
+        fs_new, audio = convert_samplerate(audio_file, desired_sample_rate)
+    else:
+        audio = np.frombuffer(fin.readframes(fin.getnframes()), np.int16)
+    audio_length = fin.getnframes() * (1/fs_orig)
+    fin.close()
+    text = model.stt(audio)
     return text