Spaces:

k2-fsa
/

speaker-diarization

Running

App Files Files Community

csukuangfj commited on Oct 14, 2024

Commit

ff7ef47

1 Parent(s): b72035a

support microphone and url

Browse files

Files changed (1) hide show

app.py +138 -17

app.py CHANGED Viewed

@@ -22,7 +22,9 @@
 import logging
 import os
 import shutil
 import time
 import uuid
 from datetime import datetime
@@ -94,28 +96,38 @@ def process_uploaded_file(
             "result_item_error",
         )
     try:
-        input_num_speakers = int(input_num_speakers)
-    except ValueError:
         return "", build_html_output(
-            "Please set a valid number of speakers",
             "result_item_error",
         )
-    if input_num_speakers <= 0:
-        try:
-            input_threshold = float(input_threshold)
-            if input_threshold < 0 or input_threshold > 10:
-                raise ValueError("")
-        except ValueError:
-            return "", build_html_output(
-                "Please set a valid threshold between (0, 10)",
-                "result_item_error",
-            )
-    else:
-        input_threshold = 0
-    MyPrint(f"Processing uploaded file: {in_filename}")
     try:
         return process(
             in_filename=in_filename,
@@ -130,6 +142,32 @@ def process_uploaded_file(
         return "", build_html_output(str(e), "result_item_error")
 def process(
     embedding_framework: str,
     embedding_model: str,
@@ -145,6 +183,27 @@ def process(
     MyPrint(f"input_threshold: {input_threshold}")
     MyPrint(f"in_filename: {in_filename}")
     filename = convert_to_wav(in_filename)
     now = datetime.now()
@@ -313,6 +372,42 @@ with demo:
                 outputs=[uploaded_output, uploaded_html_info],
                 fn=process_uploaded_file,
             )
         upload_button.click(
             process_uploaded_file,
@@ -327,6 +422,32 @@ with demo:
             outputs=[uploaded_output, uploaded_html_info],
         )
     gr.Markdown(description)
 if __name__ == "__main__":

 import logging
 import os
 import shutil
+import tempfile
 import time
+import urllib.request
 import uuid
 from datetime import datetime
             "result_item_error",
         )
+    MyPrint(f"Processing uploaded file: {in_filename}")
     try:
+        return process(
+            in_filename=in_filename,
+            embedding_framework=embedding_framework,
+            embedding_model=embedding_model,
+            speaker_segmentation_model=speaker_segmentation_model,
+            input_num_speakers=input_num_speakers,
+            input_threshold=input_threshold,
+        )
+    except Exception as e:
+        MyPrint(str(e))
+        return "", build_html_output(str(e), "result_item_error")
+def process_microphone(
+    embedding_framework: str,
+    embedding_model: str,
+    speaker_segmentation_model: str,
+    input_num_speakers: str,
+    input_threshold: str,
+    in_filename: str,
+):
+    if in_filename is None or in_filename == "":
         return "", build_html_output(
+            "Please first click 'Record from microphone', speak, "
+            "click 'Stop recording', and then "
+            "click the button 'submit for speaker diarization'",
             "result_item_error",
         )
+    MyPrint(f"Processing microphone: {in_filename}")
     try:
         return process(
             in_filename=in_filename,
         return "", build_html_output(str(e), "result_item_error")
+def process_url(
+    embedding_framework: str,
+    embedding_model: str,
+    speaker_segmentation_model: str,
+    input_num_speakers: str,
+    input_threshold: str,
+    url: str,
+):
+    MyPrint(f"Processing URL: {url}")
+    with tempfile.NamedTemporaryFile() as f:
+        try:
+            urllib.request.urlretrieve(url, f.name)
+            return process(
+                in_filename=f.name,
+                embedding_framework=embedding_framework,
+                embedding_model=embedding_model,
+                speaker_segmentation_model=speaker_segmentation_model,
+                input_num_speakers=input_num_speakers,
+                input_threshold=input_threshold,
+            )
+        except Exception as e:
+            MyPrint(str(e))
+            return "", build_html_output(str(e), "result_item_error")
 def process(
     embedding_framework: str,
     embedding_model: str,
     MyPrint(f"input_threshold: {input_threshold}")
     MyPrint(f"in_filename: {in_filename}")
+    try:
+        input_num_speakers = int(input_num_speakers)
+    except ValueError:
+        return "", build_html_output(
+            "Please set a valid number of speakers",
+            "result_item_error",
+        )
+    if input_num_speakers <= 0:
+        try:
+            input_threshold = float(input_threshold)
+            if input_threshold < 0 or input_threshold > 10:
+                raise ValueError("")
+        except ValueError:
+            return "", build_html_output(
+                "Please set a valid threshold between (0, 10)",
+                "result_item_error",
+            )
+    else:
+        input_threshold = 0
     filename = convert_to_wav(in_filename)
     now = datetime.now()
                 outputs=[uploaded_output, uploaded_html_info],
                 fn=process_uploaded_file,
             )
+        with gr.TabItem("Record from microphone"):
+            microphone = gr.Audio(
+                sources=["microphone"],  # Choose between "microphone", "upload"
+                type="filepath",
+                label="Record from microphone",
+            )
+            record_button = gr.Button("Submit for speaker diarization")
+            recorded_output = gr.Textbox(label="Result from recordings")
+            recorded_html_info = gr.HTML(label="Info")
+            gr.Examples(
+                examples=examples,
+                inputs=[
+                    embedding_framework_radio,
+                    embedding_model_dropdown,
+                    speaker_segmentation_model_dropdown,
+                    input_num_speakers,
+                    input_threshold,
+                    microphone,
+                ],
+                outputs=[recorded_output, recorded_html_info],
+                fn=process_microphone,
+            )
+        with gr.TabItem("From URL"):
+            url_textbox = gr.Textbox(
+                max_lines=1,
+                placeholder="URL to an audio file",
+                label="URL",
+                interactive=True,
+            )
+            url_button = gr.Button("Submit for speaker diarization")
+            url_output = gr.Textbox(label="Result from URL")
+            url_html_info = gr.HTML(label="Info")
         upload_button.click(
             process_uploaded_file,
             outputs=[uploaded_output, uploaded_html_info],
         )
+        record_button.click(
+            process_microphone,
+            inputs=[
+                embedding_framework_radio,
+                embedding_model_dropdown,
+                speaker_segmentation_model_dropdown,
+                input_num_speakers,
+                input_threshold,
+                microphone,
+            ],
+            outputs=[recorded_output, recorded_html_info],
+        )
+        url_button.click(
+            process_url,
+            inputs=[
+                embedding_framework_radio,
+                embedding_model_dropdown,
+                speaker_segmentation_model_dropdown,
+                input_num_speakers,
+                input_threshold,
+                url_textbox,
+            ],
+            outputs=[url_output, url_html_info],
+        )
     gr.Markdown(description)
 if __name__ == "__main__":