Spaces:

ChAbhishek28
/

PensionBot

Sleeping

ChAbhishek28 commited on Sep 26

Commit

75546b0

1 Parent(s): fbf0654

🔧 Improve FFmpeg installation and browser ASR handling

- Update Dockerfile to explicitly install FFmpeg system dependency
- Enhance packages.txt with additional build dependencies
- Add intelligent browser-native ASR support in WebSocket handler
- Handle transcription from browser when server ASR is unavailable
- Improve error messaging for different ASR modes

Files changed (3) hide show

Dockerfile +2 -1
enhanced_websocket_handler.py +31 -13
packages.txt +3 -1

Dockerfile CHANGED Viewed

@@ -1,9 +1,10 @@
 # Use Python 3.12 as specified
 FROM python:3.12-slim
-# Install system dependencies
 RUN apt-get update && apt-get install -y \
     curl \
     && rm -rf /var/lib/apt/lists/*
 # Create a non-root user

 # Use Python 3.12 as specified
 FROM python:3.12-slim
+# Install system dependencies including FFmpeg
 RUN apt-get update && apt-get install -y \
     curl \
+    ffmpeg \
     && rm -rf /var/lib/apt/lists/*
 # Create a non-root user

enhanced_websocket_handler.py CHANGED Viewed

@@ -296,20 +296,38 @@ async def handle_voice_message(websocket: WebSocket, data: dict, session_data: d
             temp_file.write(audio_data)
             temp_file_path = temp_file.name
-        logger.info(f"🎤 Processing audio with language preference: {user_language}")
-        # Convert speech to text with language support
-        transcribed_text = await voice_service.speech_to_text(temp_file_path, user_language)
-        # Clean up temp file
-        Path(temp_file_path).unlink()
-        if not transcribed_text:
-            await websocket.send_json({
-                "type": "error",
-                "message": "Could not transcribe audio. Please try speaking clearly or check your microphone."
-            })
-            return
         logger.info(f"🎤 Transcribed ({user_language}): {transcribed_text}")

             temp_file.write(audio_data)
             temp_file_path = temp_file.name
+        # Check if we should use server-side ASR or expect browser transcription
+        if voice_service.asr_provider == "browser-native":
+            # Expect transcription to come from browser, not from audio processing
+            logger.info("� Using browser-native ASR - expecting transcription from client")
+            # Clean up temp file since we won't process it
+            Path(temp_file_path).unlink()
+            # Check if transcription was provided in the message
+            if "transcription" in data:
+                transcribed_text = data["transcription"]
+                logger.info(f"🎤 Browser transcription ({user_language}): {transcribed_text}")
+            else:
+                await websocket.send_json({
+                    "type": "info",
+                    "message": "Browser ASR mode - please ensure your browser supports speech recognition"
+                })
+                return
+        else:
+            # Use server-side ASR (Whisper)
+            logger.info(f"🎤 Processing audio with language preference: {user_language}")
+            transcribed_text = await voice_service.speech_to_text(temp_file_path, user_language)
+            # Clean up temp file
+            Path(temp_file_path).unlink()
+            if not transcribed_text:
+                await websocket.send_json({
+                    "type": "error",
+                    "message": "Could not transcribe audio. Please try speaking clearly or check your microphone."
+                })
+                return
         logger.info(f"🎤 Transcribed ({user_language}): {transcribed_text}")

packages.txt CHANGED Viewed

	@@ -1 +1,3 @@
1	- ffmpeg

+ffmpeg
+libffi-dev
+build-essential