Spaces:

sasan
/

KITT

Build error

sasan commited on Jun 21, 2024

Commit

338197e

1 Parent(s): de203b2

Refactor save_and_transcribe_audio function for better code organization

Files changed (2) hide show

kitt/core/stt.py CHANGED Viewed

@@ -22,12 +22,9 @@ def save_audio_as_wav(data, sample_rate, file_path):
     )
-def save_and_transcribe_audio(audio):
     sample_rate, data = audio
     try:
-        # add timestamp to file name
-        filename = f"recordings/audio{time.time()}.wav"
-        save_audio_as_wav(data, sample_rate, filename)
         data = data.astype(np.float32)
         data /= np.max(np.abs(data))
         text = transcriber({"sampling_rate": sample_rate, "raw": data})["text"]
@@ -36,4 +33,13 @@ def save_and_transcribe_audio(audio):
     except Exception as e:
         logger.error(f"Error: {e}")
         raise Exception("Error transcribing audio.")
-    return text

     )
+def transcribe_audio(audio):
     sample_rate, data = audio
     try:
         data = data.astype(np.float32)
         data /= np.max(np.abs(data))
         text = transcriber({"sampling_rate": sample_rate, "raw": data})["text"]
     except Exception as e:
         logger.error(f"Error: {e}")
         raise Exception("Error transcribing audio.")
+    return text
+def save_and_transcribe_audio(audio, save=True):
+    sample_rate, data = audio
+    # add timestamp to file name
+    filename = f"recordings/audio{time.time()}.wav"
+    if save:
+        save_audio_as_wav(data, sample_rate, filename)
+    return transcribe_audio(audio)

space.py CHANGED Viewed

@@ -9,7 +9,7 @@ from kitt.core import tts_gradio
 from kitt.core import utils as kitt_utils
 from kitt.core import voice_options
 from kitt.core.model import generate_function_call as process_query
-from kitt.core.stt import save_and_transcribe_audio
 from kitt.core.tts import prep_for_tts, run_melo_tts, run_tts_replicate
 from kitt.skills import (
     code_interpreter,
@@ -182,7 +182,7 @@ def update_vehicle_status(trip_progress, origin, destination, state):
 def save_and_transcribe_run_model(audio, voice_character, state):
-    text = save_and_transcribe_audio(audio)
     out_text, out_voice, vehicle_status, state, update_proxy = run_model(
         text, voice_character, state
     )
@@ -452,7 +452,7 @@ def create_demo(tts_server: bool = False, model="llama3"):
             ],
         )
         input_audio_debug.stop_recording(
-            fn=save_and_transcribe_audio,
             inputs=[input_audio_debug],
             outputs=[input_text_debug],
         )

 from kitt.core import utils as kitt_utils
 from kitt.core import voice_options
 from kitt.core.model import generate_function_call as process_query
+from kitt.core.stt import transcribe_audio
 from kitt.core.tts import prep_for_tts, run_melo_tts, run_tts_replicate
 from kitt.skills import (
     code_interpreter,
 def save_and_transcribe_run_model(audio, voice_character, state):
+    text = transcribe_audio(audio)
     out_text, out_voice, vehicle_status, state, update_proxy = run_model(
         text, voice_character, state
     )
             ],
         )
         input_audio_debug.stop_recording(
+            fn=transcribe_audio,
             inputs=[input_audio_debug],
             outputs=[input_text_debug],
         )