Spaces:

viditk
/

en-stt-model

Sleeping

App Files Files Community

viditk commited on May 19

Commit

0da2c4e

verified ·

1 Parent(s): 46ba302

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -19

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import gradio as gr
 import torch
 import speech_recognition as sr
 from pydub import AudioSegment
-import jiwer
 import os
 # Constants
@@ -19,14 +18,14 @@ def convert_audio_to_wav(file_path):
 def transcribe_audio_in_chunks(audio_path, chunk_duration=30):
     recognizer = sr.Recognizer()
     audio = AudioSegment.from_wav(audio_path)
     if len(audio) > MAX_AUDIO_DURATION * 1000:
         audio = audio[:MAX_AUDIO_DURATION * 1000]
     full_text = []
     for i in range(0, len(audio), chunk_duration * 1000):
-        chunk = audio[i : i + chunk_duration * 1000]
-        chunk_path = f"temp_chunk.wav"
         chunk.export(chunk_path, format="wav")
         with sr.AudioFile(chunk_path) as source:
@@ -42,33 +41,24 @@ def transcribe_audio_in_chunks(audio_path, chunk_duration=30):
     return " ".join(full_text)
 # --- Main Function ---
-def transcribe_and_compute_wer(audio):
     if not audio.endswith(".wav"):
         audio = convert_audio_to_wav(audio)
     transcription = transcribe_audio_in_chunks(audio)
-    # Provide reference text here manually (you can replace this with real ground truth data)
-    reference_text = "This is the ground truth text that you expect from the audio."
-    # Compute WER (Word Error Rate)
-    wer = jiwer.wer(reference_text.lower(), transcription.lower())
-    wer_accuracy = round((1 - wer) * 100, 2)
-    return transcription, f"{wer_accuracy} %"
 # --- Gradio UI ---
 iface = gr.Interface(
-    fn=transcribe_and_compute_wer,
     inputs=[
         gr.Audio(sources=["microphone", "upload"], type="filepath", label="Input English Audio")
     ],
     outputs=[
-        gr.Textbox(label="Transcribed Text"),
-        gr.Textbox(label="WER Accuracy (%)")
     ],
-    title="English Speech Recognition + WER Accuracy",
-    description="Upload or record English audio → Transcribe → Compute WER Accuracy against fixed reference text.",
     allow_flagging="never"
 )

 import torch
 import speech_recognition as sr
 from pydub import AudioSegment
 import os
 # Constants
 def transcribe_audio_in_chunks(audio_path, chunk_duration=30):
     recognizer = sr.Recognizer()
     audio = AudioSegment.from_wav(audio_path)
     if len(audio) > MAX_AUDIO_DURATION * 1000:
         audio = audio[:MAX_AUDIO_DURATION * 1000]
     full_text = []
     for i in range(0, len(audio), chunk_duration * 1000):
+        chunk = audio[i: i + chunk_duration * 1000]
+        chunk_path = "temp_chunk.wav"
         chunk.export(chunk_path, format="wav")
         with sr.AudioFile(chunk_path) as source:
     return " ".join(full_text)
 # --- Main Function ---
+def transcribe_audio(audio):
     if not audio.endswith(".wav"):
         audio = convert_audio_to_wav(audio)
     transcription = transcribe_audio_in_chunks(audio)
+    return transcription
 # --- Gradio UI ---
 iface = gr.Interface(
+    fn=transcribe_audio,
     inputs=[
         gr.Audio(sources=["microphone", "upload"], type="filepath", label="Input English Audio")
     ],
     outputs=[
+        gr.Textbox(label="Transcribed Text")
     ],
+    title="English Speech Recognition",
+    description="Upload or record English audio → Transcribe to text.",
     allow_flagging="never"
 )