WO2024226024A1

WO2024226024A1 - Systèmes et procédés de localisation sonore personnalisée dans une conversation

Info

Publication number: WO2024226024A1
Application number: PCT/US2023/019559
Authority: WO
Inventors: Dimitri Kanevsky; Artem Dementyev; Sagar SAVLA; Sharlene Yuan; Samuel Jialuo YANG; Perrin ANTO; Alex Olwal; Tien-Chi Huang; Chet Nicholas GNEGY; Yun Che CHUNG; Richard Francis LYON
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2024-10-31
Anticipated expiration: 2025-10-24

Abstract

L'invention concerne un procédé donné à titre d'exemple qui consiste à recevoir des premier et second signaux audio en provenance de premier et second dispositifs d'entrée audio respectifs. Les premier et second signaux audio correspondent à une entrée vocale d'une conversation entre deux participants. Le procédé consiste à estimer, sur la base des premier et second signaux audio, un retard temporel dans des temps d'arrivée respectifs pour l'entrée vocale au niveau des premier et second dispositifs d'entrée audio. Le procédé consiste à estimer des directions respectives pour deux sources audio sur la base du retard temporel estimé dans les temps d'arrivée respectifs. Le procédé consiste à associer, sur la base des directions estimées des deux sources audio, de parties respectives d'une transcription parole-texte de la conversation avec les participants respectifs. Le procédé consiste à afficher, sur la base de l'association des parties respectives, une transcription de parole en texte modifiée de la conversation qui marque les parties respectives de la transcription de parole en texte associée aux participants respectifs.