Spaces:

sasan
/

KITT

Build error

sasan commited on Jun 21, 2024

Commit

68ce4a1

1 Parent(s): b945617

chore: Refactor TTS functionality and dependencies

Files changed (2) hide show

kitt/core/tts.py CHANGED Viewed

@@ -1,12 +1,9 @@
 import copy
 from collections import namedtuple
-import soundfile as sf
 import torch
 from loguru import logger
-from parler_tts import ParlerTTSForConditionalGeneration
 from replicate import Client
-from transformers import AutoTokenizer
 from kitt.skills.common import config
@@ -94,31 +91,6 @@ def run_tts_replicate(text: str, voice_character: str):
     return output
-def get_fast_tts():
-    device = "cuda:0" if torch.cuda.is_available() else "cpu"
-    model = ParlerTTSForConditionalGeneration.from_pretrained(
-        "parler-tts/parler-tts-mini-expresso"
-    ).to(device)
-    tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-expresso")
-    return model, tokenizer, device
-fast_tts = get_fast_tts()
-def run_tts_fast(text: str):
-    model, tokenizer, device = fast_tts
-    description = "Thomas speaks moderately slowly in a sad tone with emphasis and high quality audio."
-    input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
-    prompt_input_ids = tokenizer(text, return_tensors="pt").input_ids.to(device)
-    generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
-    audio_arr = generation.cpu().numpy().squeeze()
-    return (model.config.sampling_rate, audio_arr), dict(text=text, voice="Thomas")
 def load_melo_tts():
     from melo.api import TTS as MeloTTS

 import copy
 from collections import namedtuple
 import torch
 from loguru import logger
 from replicate import Client
 from kitt.skills.common import config
     return output
 def load_melo_tts():
     from melo.api import TTS as MeloTTS

main.py CHANGED Viewed

@@ -9,7 +9,7 @@ from kitt.core import utils as kitt_utils
 from kitt.core import voice_options
 from kitt.core.model import generate_function_call as process_query
 from kitt.core.stt import save_and_transcribe_audio
-from kitt.core.tts import prep_for_tts, run_melo_tts, run_tts_fast, run_tts_replicate
 from kitt.skills import (
     code_interpreter,
     date_time_info,
@@ -118,9 +118,6 @@ def run_llama3_model(query, voice_character, state):
             voice_out = tts_gradio(
                 output_text_tts, voice_character, speaker_embedding_cache
             )[0]
-        #
-        # voice_out = run_tts_fast(output_text)[0]
-        #
     return (
         output_text,
         voice_out,

 from kitt.core import voice_options
 from kitt.core.model import generate_function_call as process_query
 from kitt.core.stt import save_and_transcribe_audio
+from kitt.core.tts import prep_for_tts, run_melo_tts, run_tts_replicate
 from kitt.skills import (
     code_interpreter,
     date_time_info,
             voice_out = tts_gradio(
                 output_text_tts, voice_character, speaker_embedding_cache
             )[0]
     return (
         output_text,
         voice_out,