Spaces:

gbibbo
/

vad_demo

Sleeping

App Files Files Community

Gabriel Bibbó commited on Aug 15

Commit

ad332f8

1 Parent(s): ee24bdc

adjust app.py

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -860,7 +860,7 @@ class AudioProcessor:
             hop_size = int(self.sample_rate * self.base_hop)
             energy_signal = []
-            for i in range(0, len(audio_data) - window_size, hop_size):
                 window = audio_data[i:i + window_size]
                 energy = np.sum(window ** 2)
                 energy_signal.append(energy)
@@ -874,7 +874,7 @@ class AudioProcessor:
             vad_times = np.array([r.timestamp for r in vad_results])
             vad_probs = np.array([r.probability for r in vad_results])
-            energy_times = np.arange(len(energy_signal)) * self.base_hop
             vad_interp = np.interp(energy_times, vad_times, vad_probs)
             vad_interp = (vad_interp - np.mean(vad_interp)) / (np.std(vad_interp) + 1e-8)
@@ -883,9 +883,9 @@ class AudioProcessor:
                 delay_samples = np.argmax(correlation) - len(vad_interp) + 1
                 delay_seconds = delay_samples * self.base_hop
-                max_corr = np.max(correlation) / (len(vad_interp) * np.std(energy_signal) * np.std(vad_interp))
-                if max_corr > self.correlation_threshold:
-                    self.delay_compensation = np.clip(delay_seconds, -0.1, 0.1)
             return self.delay_compensation
@@ -1290,7 +1290,7 @@ class VADDemo:
                     delay = self.processor.estimate_delay_compensation(processed_audio, model_results)
                     model_delays[model_name] = delay
                     for r in model_results:
-                        r.timestamp -= delay
                     debug_info.append(f" Delay compensation = {delay:.3f}s applied to {model_name} timestamps")
             # Compute total duration
@@ -1472,4 +1472,4 @@ demo_app = VADDemo()
 # Create and launch interface
 if __name__ == "__main__":
     interface = create_interface()
-    interface.launch(share=True, debug=False)

             hop_size = int(self.sample_rate * self.base_hop)
             energy_signal = []
+            for i in range(0, len(audio_data) - window_size + 1, hop_size):
                 window = audio_data[i:i + window_size]
                 energy = np.sum(window ** 2)
                 energy_signal.append(energy)
             vad_times = np.array([r.timestamp for r in vad_results])
             vad_probs = np.array([r.probability for r in vad_results])
+            energy_times = np.arange(len(energy_signal)) * self.base_hop + self.base_window / 2
             vad_interp = np.interp(energy_times, vad_times, vad_probs)
             vad_interp = (vad_interp - np.mean(vad_interp)) / (np.std(vad_interp) + 1e-8)
                 delay_samples = np.argmax(correlation) - len(vad_interp) + 1
                 delay_seconds = delay_samples * self.base_hop
+                max_corr = np.max(correlation) / (len(vad_interp) * np.std(energy_signal) * np.std(vad_interp) + 1e-8)
+                # Removed the if condition, always apply
+                self.delay_compensation = np.clip(delay_seconds, -1.0, 1.0)
             return self.delay_compensation
                     delay = self.processor.estimate_delay_compensation(processed_audio, model_results)
                     model_delays[model_name] = delay
                     for r in model_results:
+                        r.timestamp += delay
                     debug_info.append(f" Delay compensation = {delay:.3f}s applied to {model_name} timestamps")
             # Compute total duration
 # Create and launch interface
 if __name__ == "__main__":
     interface = create_interface()
+    interface.launch(share=True, debug=False)