ES3039819T3 - Deep-learning based speech enhancement - Google Patents
Deep-learning based speech enhancementInfo
- Publication number
- ES3039819T3 ES3039819T3 ES21815021T ES21815021T ES3039819T3 ES 3039819 T3 ES3039819 T3 ES 3039819T3 ES 21815021 T ES21815021 T ES 21815021T ES 21815021 T ES21815021 T ES 21815021T ES 3039819 T3 ES3039819 T3 ES 3039819T3
- Authority
- ES
- Spain
- Prior art keywords
- block
- series
- frequency
- blocks
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Se describe un sistema para suprimir ruido y mejorar el habla, así como un método relacionado. El sistema entrena un modelo de red neuronal que toma las energías en bandas correspondientes a una forma de onda ruidosa original y genera un valor de voz que indica la cantidad de voz presente en cada banda en cada fotograma. El modelo neuronal comprende un bloque de extracción de características que implementa una función de anticipación. A este bloque le sigue un codificador con un muestreo descendente constante a lo largo del dominio de la frecuencia, formando una trayectoria de contracción. Al codificador le sigue un decodificador correspondiente con un muestreo ascendente constante a lo largo del dominio de la frecuencia, formando una trayectoria de expansión. El decodificador recibe mapas de características de salida escalados del codificador a un nivel correspondiente. Al decodificador le sigue un bloque de clasificación que genera un valor de voz que indica la cantidad de voz presente para cada banda de frecuencia de la pluralidad de bandas de frecuencia en cada fotograma de la pluralidad de fotogramas. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
P ote n c ia c ió n de h ab la b asad a en a p re n d iza je p ro fu n d o
Referencia cruzada a solicitudes relacionadas
E sta so lic itu d re iv in d ica p rio rid a d de la so lic itu d p rov is ion a l de E E .U U . n° 63 /115213 , p re se n ta d a el 18 de n o v ie m b re de 2020 , la so lic itu d p rov is io n a l de E E .U U . n° 63 /221629 , p re se n ta d a el 14 de ju lio de 2021 , y la s o lic itu d in te rn a c io n a l de p a ten te n° P C T /C N 2020 /124635 , p re se n ta d a el 29 de o c tu b re de 2020.
Campo técnico
La p re se n te so lic itu d se re fie re a la re du cc ió n de ru ido en el hab la. M ás e sp e c ífica m e n te , la o las re a liza c io n e s de e je m p lo d e sc rita s a co n tin u a c ió n se re fie ren a la a p lica c ió n de m o d e lo s de a p re n d iza je p ro fu n d o para p ro d u c ir in fe re n c ia b asad a en tra m a s a p a rtir de co n te x to de h ab la g rande .
Antecedentes
Los e n fo q u e s d e sc rito s en e sta se cc ió n son e n fo q u e s q ue p od rían p erse gu irse , pero no n e ce sa ria m e n te e n fo q u e s q ue se han co n ce b id o o p e rse g u id o a n te rio rm e n te . P o r lo tan to , a m enos que se in d iq u e lo con tra rio , no d eb e a su m irse q ue n in g un o de los e n fo q u e s d e sc rito s en e sta se cc ió n se ca lifica com o té c n ica a n te rio r s im p le m e n te en v irtu d de su inc lu s ió n en e sta secc ión .
G e n e ra lm e n te es d ifíc il re tira r con p re c is ió n ru ido de una señ a l de m e zc la de h ab la y ru ido, c o n s id e ra n d o las d ife re n te s fo rm a s de h ab la y d ife re n te s tip o s de ru ido que son pos ib les. P ue d e s e r e sp e c ia lm e n te d esa fia n te s u p rim ir ru ido en tie m p o real.
Un m é to d o de su p re s ió n de ru ido e je m p la r q ue usa una red n eu ro na l co n vo lu c io n a l con e s tru c tu ra de co d ifica d o rd e s c o d ific a d o r se d ivu lg a en A m é lie B osca e t al.: “ D ila ted U -n e t b ased a p p ro a ch fo r m u ltica na l spe ech e n h a n ce m e n t fro m F irs t-O rd e r A m b iso n ic s re c o rd in g s ” , A R X IV .O R G , C O R N E L L U N IV E R S IT Y L IB R A<r>Y, 201 O L IN L IB R A R Y C O R N E L L U N IV E R S IT Y IT H A C A , NY 14853, 2 de ju n io de 2020.
Sumario
Un m é to d o im p le m e n ta d o p or o rd e n a d o r para s u p rim ir ru ido y p o te n c ia r el h ab la se d ivu lg a de a cu e rd o con la re iv in d ica c ió n 1. A d e m á s, un s is te m a de o rd e n a d o r se d ivu lg a de a cu e rd o con la re iv in d ica c ió n 15.
Breve descripción de los dibujos
La o las re a liza c io n e s de e je m p lo de la p re se n te inve n c ió n se ilus tra n a m o do de e je m p lo , y no a m o do de lim itac ió n , en las fig u ra s de los d ib u jo s que se a co m p a ñ a n y en los q ue n ú m e ro s de re fe re n c ia ig u a le s se re fie ren a e le m e n to s s im ila re s y en los que:
La fig u ra 1 ilu s tra un s is te m a de o rd e n a d o r en red de e je m p lo en el q ue se p ueden p ra c tica r d ive rsa s re a liza c io ne s .
La fig u ra 2 ilu s tra co m p o n e n te s de e je m p lo de un o rd e n a d o r de s e rv id o r de g es tión de a ud io de a cu e rd o con las re a liza c io n e s d ivu lga da s .
La fig u ra 3 ilus tra un m o de lo de red neu ro na l de e je m p lo para la re du cc ió n de ru ido.
La fig u ra 4 A ilus tra un b lo q ue de e x tra cc ió n de ca ra c te rís tica s de e jem p lo .
La fig u ra 4 B ilus tra o tro b lo q ue de e x tra cc ió n de ca ra c te rís tica s de e je m p lo .
La fig u ra 5 ilus tra un m o d e lo de red n eu ro na l de e je m p lo com o c o m p o n e n te del m o de lo n eu ro na l ilu s tra d o en la fig u ra 3.
La fig u ra 6 ilus tra un m o d e lo de red neu ro na l de e je m p lo com o co m p o n e n te del m o de lo de red n eu ro na l ilus tra do en la fig u ra 5.
La fig u ra 7 ilus tra un m o d e lo de red n eu ro na l de e je m p lo , com o co m p o n e n te del m o de lo n eu ro na l ilu s tra d o en la fig u ra 3.
La fig u ra 8 ilu s tra un p roce so de e je m p lo re a liza d o con un o rd e n a d o r de s e rv id o r de g es tión de a ud io de a cu e rdo con a lg u n a s re a liza c io n e s d e sc rita s en el p re se n te d ocum e n to .
La fig u ra 9 es un d ia g ra m a de b lo q u e s q ue ilus tra un s is te m a de o rd e n a d o r en el que se p uede im p le m e n ta r una re a liza c ió n de la inve nc ión .
Descripción de las realizaciones de ejemplo
En la s ig u ie n te d e sc rip c ió n , con fin e s e xp lica tivo s , se e xp o n e n n u m e ro so s d e ta lle s e sp e c ífico s con el fin de p ro p o rc io n a r una co m p re n s ió n e xh a u s tiva de la o las re a liza c io n e s de e je m p lo de la p re se n te inve nc ión . S erá e v id en te , s in e m ba rg o , que la o las re a liza c io n e s de e je m p lo p uede p on e rse en p rá c tica s in e s to s d e ta lle s e sp e c ífico s . En o tro s casos, se m u e s tra n e s tru c tu ra s y d isp o s itivo s b ien c o n o c id o s en fo rm a de d ia g ra m a de b lo q u e s con el fin de e v ita r o scu re ce r in n e ce sa ria m e n te la o las re a liza c io n e s de e jem p lo .
A co n tin u a c ió n se d esc rib e n re a liza c io n e s , en se cc io n e s de a cu e rd o con el s ig u ie n te esq ue m a :
1. V IS IÓ N G E N E R A L
2. E N T O R N O S IN F O R M Á T IC O S DE E JE M P L O
3. C O M P O N E N T E S DE O R D E N A D O R DE E JE M P L O
4. D E S C R IP C IO N E S F U N C IO N A L E S
4.1. M O D E L O DE R E D N E U R O N A L
4.1.1. B LO Q U E DE E X T R A C C IÓ N DE C A R A C T E R ÍS T IC A S
4.1.2. B LO Q U E DE R E D EN U
4.1.2.1. B L O Q U E D E N S O
4.1.2.11. C O N V O L U C IÓ N S E P A R A B L E EN P R O F U N D ID A D C O N U S O DE P U E R TA S
4.1.2.2. B L O Q U E R E S ID U A L Y C A P A R E C U R R E N T E
4.2. E N T R E N A M IE N T O DE M O D E L O
4.3. E JE C U C IÓ N DE M O D E L O
5. P R O C E S O S DE E JE M P L O
6. IM P L E M E N T A C IÓ N DE H A R D W A R E
1. V IS IÓ N G E N E R A L
Se d ivu lg a n un s is te m a para s u p rim ir ru ido y p o te n c ia r el h ab la y un m é to do re lac io na do . En a lg u n a s re a liza c io n e s , el s is te m a e n tre n a un m o de lo de red neu ro na l q ue to m a e n e rg ía s b a n d e a d a s c o rre sp o n d ie n te s a una fo rm a de o nda ru ido sa o rig in a l y p ro d u ce un v a lo r de h ab la que ind ica la ca n tid a d de h ab la p re se n te en cada b an da en cad a tra m a . E s to s va lo re s de h ab la p ue de n usa rse p ara s u p rim ir ru ido re d u c ie n d o las m a g n itu d e s de fre cu e n c ia en a q u e lla s b an da s de fre cu e n c ia en las que es m e no s p ro b a b le que e sté p re se n te el hab la. El m o de lo de red neu ro na l tie n e b a ja la te n c ia y p ue de usa rse p ara la su p re s ió n de ru ido en tie m p o real. El m o de lo n eu ro na l co m p re n d e un b lo q ue de e x tra cc ió n de c a ra c te rís tica s q ue im p le m e n ta a lg u n a a n tic ip a c ió n . El b loque de e x tra cc ió n de c a ra c te rís tica s va se g u id o de un c o d ifica d o r con m u e s tre o d e sce n d e n te s o s te n id o a lo la rgo del d o m in io fre cu e n c ia que fo rm a una tra ye c to ria de con tracc ión . La co n vo lu c ió n a lo la rgo de la tra ye c to ria de co n tra cc ió n se re a liza con fa c to re s de d ila ta c ió n cada ve z m ás g ra n d e s a lo la rg o de la d im e n s ió n de tiem p o . El c o d ific a d o r va se g u id o de un d e s c o d ific a d o r co rre sp o n d ie n te con m u e s tre o a sce n d e n te s o s te n id o a lo la rgo del d o m in io fre cu e n c ia q ue fo rm a una tra ye c to ria de exp an s ión . El d e s c o d ific a d o r rec ibe m a pa s de ca ra c te rís tica s de s a lid a e sca la d o s d esde el c o d ific a d o r a un n ive l co rre sp o n d ie n te de m o do q ue las c a ra c te rís tica s e x tra íd a s de d ife re n te s ca m p o s re ce p tivo s a lo la rg o de la d im e n s ió n de fre cu e n c ia p ue de n c o n s id e ra rse to d a s al d e te rm in a r cu á n ta h ab la e stá p re se n te en cad a b anda de fre cu e n c ia en cad a tra m a.
En a lg u n a s re a liza c io ne s , en el t ie m p o de fu n c io n a m ie n to , el s is te m a to m a una fo rm a de o nda ru idosa , la co n v ie rte en el d o m in io fre cu e n c ia q ue cu b re una p lu ra lid a d de b an da s de fre cu e n c ia q ue m o tivan p e rce p tu a lm e n te en cada tra m a . El s is te m a e je cu ta e n to n ce s el m o d e lo para o b te n e r el v a lo r de h ab la p ara cada b an da de fre cu e n c ia en cad a tra m a . P o s te rio rm e n te , el s is te m a a p lica los va lo re s de h ab la a los d a tos o rig in a le s en el d o m in io fre cu e n c ia y los tra n s fo rm a de v u e lta en una fo rm a de o nd a p o te n c ia d a con su p re s ió n de ru ido.
El s is te m a tie n e d ive rso s b e n e fic io s té cn ico s . El s is te m a e stá d ise ñ a d o para s e r p re c iso a la ve z q ue de baja la te n c ia p ara la su p re s ió n de ru ido en tie m p o real. La ba ja la te n c ia se log ra p or m e d ia c ió n de un n úm ero re la tiva m e n te p e q u e ñ o de ke rne ls de co n vo lu c ió n re la tiva m e n te p eq ue ño s, ta l com o o cho kerne ls b id im e n s io n a le s de ta m a ñ o 1 p o r 1 o 3 p o r 3, en un m o de lo de red neu ro na l co n vo lu c io n a l (C N N ) pobre . La c o n so lid a c ió n de los d a to s in ic ia le s en el d o m in io fre cu e n c ia en b an da s p e rce p tu a lm e n te m o tiva d o ra s reduce a d ic io n a lm e n te la ca n tid a d de cá lcu lo . Tam b ién se ap lica , cu a n d o se a pos ib le , co n vo lu c ió n se p a ra b le en p ro fu n d id a d que tie n d e a re d u c ir el tie m p o de e je cuc ión .
La p rec is ión se log ra p o r m e d ia c ió n de la e x tra cc ió n de c a ra c te rís tica s fre n te a d ife re n te s ca m p o s re ce p tivo s en los d a tos de e n tra d a a lo la rgo de la d im e n s ió n de fre cu e n c ia , que se usan en co m b in a c ió n para lo g ra r una c la s ifica c ió n densa . Un b loque de e x tra cc ió n de c a ra c te rís tica s e sp e c ífico q ue in co rp o ra una a n tic ip a c ió n de un p e q u e ñ o n ú m e ro de tra m as , ta l com o una o d os tra m a s , co n trib u ye a d ic io n a lm e n te a la riq u e za de las c a ra c te rís tica s . Tam b ién se a p lican , cu a n d o sea pos ib le , b lo q u e s d e n so s en los que m a pa s de c a ra c te rís tica s de sa lid a de una capa co n vo lu c io n a l se p rop a ga n a to d a la ca p a co n vo lu c io n a l posterio r. A d e m á s, el m o de lo n eu ro na l p ue de e n tre n a rse para p re d e c ir no só lo la can tid a d de h ab la p re se n te para cad a b an da de fre cu e n c ia en ca d a tra m a , s in o la d is trib u c ió n de ta le s can tida de s. p ueden u sa rse p a rá m e tro s de a d ic ión de la d is trib u c ió n para a ju s ta r fin a m e n te las p re d icc io ne s .
2. E N T O R N O S IN F O R M Á T IC O S DE E JE M P L O
La fig u ra 1 ilus tra un s is te m a de o rd e n a d o r en red de e je m p lo en el q ue se p ueden p ra c tica r d ive rsa s re a liza c io n e s . La fig u ra 1 se m u e s tra en fo rm a to s im p lif ica d o e sq u e m á tico con el fin de ilu s tra r un e je m p lo c la ro y o tra s re a liza c io n e s p ueden in c lu ir m ás, m e no s o d ife re n te s e le m e n to s .
En a lg u n a s re a liza c io n e s , el s is te m a de o rd e n a d o r en red co m p re n d e un o rd e n a d o r de s e rv id o r de g es tión de a u d io 102 (“s e rv id o r” ), uno o m á s se n so re s 104 o d isp o s itivo s de e n tra da , y uno o m ás d isp o s itivo s de sa lid a 110, q ue e s tán a co p la d o s co m u n ic a tiv a m e n te a tra vé s de co n e x io n e s fís ica s d ire c ta s o p o r m e d ia c ió n de una o m ás re de s 118.
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 re p re se n ta en té rm in o s g e n e ra le s uno o m ás o rd e n a d o re s , ins ta nc ias in fo rm á tica s v irtu a le s y /o in s ta n c ia s de una a p lica c ió n q ue e stán p ro g ra m a d o s o c o n fig u ra d o s con e s tru c tu ra s de d a tos y /o re g is tro s de base de d a tos que e stán d isp u e s to s para a lo ja r o e je cu ta r fu n c io n e s re la c io n a d a s con la p o te n c ia c ió n de h ab la de ba ja la te n c ia m e d ia n te re du cc ió n de ru ido. El s e rv id o r 102 p uede c o m p re n d e r una g ra n ja de se rv id o re s , una p la ta fo rm a in fo rm á tica en la nube, un o rd e n a d o r p a ra le lo o cu a lq u ie r o tra ins ta la c ión in fo rm á tica con su fic ie n te p o te n c ia in fo rm á tica en el p ro ce sa m ie n to de datos , a lm a c e n a m ie n to de d a tos y c o m u n ica c ió n de red para las fu n c io n e s d e sc rita s a n te rio rm e n te .
En a lg u n a s re a liza c io n e s , cad a uno del uno o m ás se n so re s 104 p ue de in c lu ir un m ic ró fo n o u o tro d isp o s itivo de g ra b a c ió n d ig ita l que co n v ie rte so n id o s en se ñ a le s e lé c tricas . C ad a s e n s o r e stá c o n fig u ra d o p ara tra n s m it ir da tos de a ud io d e te c ta d o s al s e rv id o r 102. C ada s e n s o r p uede in c lu ir un p ro c e sa d o r o p uede e s ta r in te g ra d o en un d isp o s itivo de c lie n te típ ico , ta l com o un o rd e n a d o r de e sc rito rio , un o rd e n a d o r portá til, un o rd e n a d o r de tab le ta , un te lé fo n o in te lig e n te o un d isp o s itivo llevab le .
En a lg u n a s re a liza c io n e s , ca d a uno del uno o m ás d isp o s itivo s de sa lid a 110 p uede in c lu ir un a lta vo z u o tro d isp o s itivo de re p ro d u cc ió n d ig ita l q ue co n v ie rte se ñ a le s e lé c trica s de nue vo en son ido s . C ad a d isp o s itivo de sa lid a e stá p ro g ra m a d o para re p ro d u c ir d a tos de a ud io re c ib id o s d e sd e el s e rv id o r 102. De m a ne ra s im ila r a un sensor, un d isp o s itivo de sa lid a p ue de in c lu ir un p ro c e sa d o r o p uede in te g ra rse en un d isp o s itivo de c lien te típ ico , ta l com o un o rd e n a d o r de e sc rito rio , un o rd e n a d o r portá til, un o rd e n a d o r de ta b le ta , un te lé fo n o in te lig e n te o un d isp o s itivo llevab le .
La una o m á s re de s 118 p ue de n im p le m e n ta rse m e d ia n te cu a lq u ie r m e d io o m e ca n ism o q ue e s tip u le el in te rca m b io de d a tos e n tre los d ive rso s e le m e n to s de la fig u ra 1. E je m p lo s de las re de s 118 inc lu ye n , sin lim itac ió n , una o m ás de una red ce lu lar, a co p la d a co m u n ica tiva m e n te con una con e x ió n de d a tos a los d isp o s itivo s in fo rm á tico s a tra vé s de una a n te n a ce lu la r, una red de c o m u n ica c ió n de ca m p o ce rca n o (N FC ), una red de á rea loca l (LA N ), una red de á re a a m p lia (W A N ), In te rne t, un e n la ce te rre s tre o p o r sa té lite , etc.
En a lg u n a s re a liza c io ne s , el s e rv id o r 102 e stá p ro g ra m a d o p ara re c ib ir d a tos de a ud io de e n tra da c o rre sp o n d ie n te s a so n id o s en un e n to rn o d ad o d esde el uno o m ás se n so re s 104. El s e rv id o r 102 está p ro g ra m a d o para p ro ce sa r a co n tin u a c ió n los d a tos de a ud io de e n tra da , q ue típ ica m e n te co rre sp o n d e n a una m e zc la de h ab la y ru ido, para e s tim a r cuá n ta h ab la e stá p re se n te en ca d a tra m a de los d a tos de e n tra da . El s e rv id o r 102 ta m b ié n e stá p ro g ra m a d o para a c tu a liz a r los d a tos de a ud io de e n tra d a b a sá n d o se en las e s tim a c io n e s para p ro d u c ir d a tos de a ud io de sa lid a lim p ia d o s q ue se e sp e ra q ue co n te n g a n m e no s ru ido que los d a tos de a ud io de e n tra da . A d e m á s, el s e rv id o r 102 e stá p ro g ra m a d o para e n v ia r los d a tos de a ud io de sa lid a al uno o m ás d isp o s itivo s de sa lida .
3. C O M P O N E N T E S DE O R D E N A D O R DE E JE M P L O
La fig u ra 2 ilu s tra co m p o n e n te s de e je m p lo de un o rd e n a d o r de s e rv id o r de g es tión de a ud io de a cu e rd o con las re a liza c io n e s d ivu lga da s . La fig u ra es so lo con fin e s ilu s tra tivo s y el s e rv id o r 102 p ue de c o m p re n d e r m e no s o m á s co m p o n e n te s fu n c io n a le s o de a lm a ce n a m ie n to . C ad a uno de los c o m p o n e n te s fu n c io n a le s puede im p le m e n ta rs e com o c o m p o n e n te s de so ftw a re , co m p o n e n te s de h a rd w a re g e n e ra le s o de p ro p ó s ito e sp ec ífico , c o m p o n e n te s de firm w a re o cu a lq u ie r co m b in a c ió n de los m ism os . C ad a uno de los c o m p o n e n te s fu n c io n a le s ta m b ié n p ue de e s ta r a co p la d o con uno o m ás co m p o n e n te s de a lm a c e n a m ie n to (n o m o strad os ). Un co m p o n e n te de a lm a ce n a m ie n to p uede im p le m e n ta rse u sa nd o cu a lq u ie ra de b ases de d a tos re la c io n a le s , b ases de d a tos de ob je to s , s is te m a s de a rch ivo s p la n os o a lm a ce n e s JS O N . Un co m p o n e n te de a lm a c e n a m ie n to p uede co n e c ta rse a los c o m p o n e n te s fu n c io n a le s lo ca lm e n te o a tra vé s de las re de s u sa nd o lla m a d a s p rog ra m á tica s , in s ta la c io n e s de lla m a d a s de p ro ce d im ie n to s re m o to s (R P C ) o un bus de m e nsa je ría . Un co m p o n e n te p uede o no se r a u to co n te n id o . D e p e n d ie n d o de co n s id e ra c io n e s e sp e c ífica s de la im p le m e n ta c ió n u o tras , los co m p o n e n te s p ue de n e s ta r ce n tra liz a d o s o d is tr ib u id o s fu n c io n a l o fís ica m e n te .
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 co m p re n d e un b lo q ue de tra n s fo rm a d a e sp ec tra l y g e n e ra c ió n de m a rca 204, un b lo q ue de m o de lo 208 , un b lo q ue de b a n d e a d o in ve rso 212 , una m u ltip lica c ió n del b lo q ue de e sp e c tro de e n tra d a 218 , y un b lo q ue de tra n s fo rm a d a e sp e c tra l in ve rsa 222.
En a lg u n a s re a liza c io ne s , el s e rv id o r 102 rec ibe una fo rm a de o nd a ru idosa . En el b loque 204 , el s e rv id o r 102 se g m e n ta la fo rm a de o nd a en una se cu e n c ia de tra m a s a tra vé s de una tra n s fo rm a d a esp ec tra l, ta l com o una se c u e n c ia q ue tie n e se is s e g u n d o s de lo n g itu d q ue tien e tra m a s de 20 m s (re su lta n te s 300 tra m a s ) con o sin su p e rp o s ic ió n . La tra n s fo rm a d a e sp ec tra l p ue de s e r cu a lq u ie ra de una va r ie d a d de tra n s fo rm a d a s , ta le s com o la tra n s fo rm a d a de F o u rie r de tie m p o co rto o la tra n s fo rm a d a de ban co de filtro s e sp e jo en c u a d ra tu ra com p le ja (C Q M F ), la ú ltim a de las cu a le s t ie n d e a p ro d u c ir a rte fa c to s de so la p a m ie n to m ín im os . P ara g a ra n tiz a r una re so lu c ió n de fre cu e n c ia re la tiva m e n te a lta , el n úm e ro de k e rn e ls /filtro s de tra n s fo rm a d a p o r tra m a de 20 m s p ue de e le g irse de ta l m a ne ra q ue la a n ch u ra de co n te n e d o r de fre cu e n c ia sea de a p ro x im a d a m e n te 25 Hz.
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 co n v ie rte e n to n ce s la se cu e n c ia de tra m a s en un v e c to r de e ne rg ía s b an de ad as , para 56 b an da s p e rce p tu a lm e n te m o tiva da s, p o r e je m p lo . C ada b anda p e rce p tu a lm e n te m o tiva d a se u b ica n o rm a lm e n te en un d o m in io fre cu e n c ia , ta l com o de 120 Hz a 2.000 Hz, q ue co in c id e con cóm o un o ído h u m a n o p ro ce sa el hab la, de ta l m a ne ra q ue ca p tu ra r d a tos en e s ta s b an da s p e rce p tu a lm e n te m o tiva da s s ig n ifica no p e rd e r ca lid a d de h ab la p ara un o ído hum ano . M ás e sp e c ífica m e n te , las m a g n itu d e s c u a d ra d a s de los co n te n e d o re s de fre cu e n c ia de sa lid a de la tra n s fo rm a d a e sp e c tra l se a g ru p a n en b a n da s p e rce p tu a lm e n te m o tiva da s, d on de el n ú m e ro de c o n te n e d o re s de fre cu e n c ia p o r b anda a u m e n ta a fre cu e n c ia s m ás a ltas. La e s tra te g ia de a g ru p a m ie n to p uede s e r “ b la n d a ” con a lg u n a e n e rg ía e sp e c tra l q ue se fu g a a tra vé s de b andas ve c in a s o “d u ra ” s in fu g a a tra vé s de bandas.
En a lg u n a s re a liza c io n e s , cu a n d o las e n e rg ía s de co n te n e d o r de una tra m a ru ido sa se re p re se n ta n s ie n d o x un v e c to r co lu m n a de ta m a ñ o p p o r 1, d on de p d e n o ta el n ú m e ro de co n te n e d o re s , la co n ve rs ió n a un v e c to r de e n e rg ía s b a n d e a d a s pod ría re a liza rse ca lcu la n d o y = W * x, d on de y es un v e c to r co lu m n a de ta m a ñ o q p o r 1 q ue re p re se n ta las e n e rg ía s de b an da p ara e sta tra m a ru idosa , W es una m a triz de b a n d e a d o de ta m a ñ o q por p, y q d en o ta el n ú m e ro de b an da s p e rce p tu a lm e n te m o tiva da s. ;;En a lg u n a s re a liza c io n e s , en el b loque 208 , el s e rv id o r 102 p red ice un v a lo r de m á sca ra para cada b anda en ca d a tra m a q ue ind ica la ca n tid a d de h ab la p resen te . En el b lo q ue 212 , el s e rv id o r 102 co n v ie rte los v a lo re s de m á sca ra de b an da de v u e lta a las m á sca ra s de c o n te n e d o r e sp ec tra l. ;;En a lg u n a s re a liza c io n e s , cu a n d o la b anda se e n m a sca ra para y e s tá re p re se n ta d o p o r un v e c to r co lu m n a m _ b a n d a de ta m a ñ o q por 1, la co n ve rs ió n a las m á sca ra s de c o n te n e d o r p uede re a liza rse ca lcu la n d o m _ co n te n e d o r = W _ tra s p u e s ta * m _ ba nd a , d on de m _ co n te n e d o r es un v e c to r co lu m n a de ta m a ñ o p p or 1 y W _ tra s p u e s ta de ta m a ñ o p por q es la tra sp u e s ta de W. En el b lo q ue 218, el s e rv id o r 102 m u ltip lica las m á sca ra s de m a g n itu d e sp ec tra l con las m a g n itu d e s de e sp e c tro para e fe c tu a r el e n m a sca ra m ie n to o re du cc ió n de ru ido y o b te n e r un e sp e c tro lim p io es tim a do . F in a lm e n te , en el b lo q ue 222 , el s e rv id o r co n v ie rte el e sp e c tro e sp ec tra l lim p io e s tim a d o de v u e lta en una fo rm a de o nd a com o una fo rm a de o nd a p o te n c ia d a (so b re la fo rm a de o nda de ru ido ), q ue pod ría co m u n ica rse p o r m e d ia c ió n de un d isp o s itivo de sa lid a , u sa n d o cu a lq u ie r m é to d o co n o c id o por un e xp e rto en la técn ica , ta l com o una tra n s fo rm a d a in ve rsa (tal com o C Q M F inve rsa).
4. D E S C R IP C IO N E S F U N C IO N A L E S
4.1. M O D E L O DE R E D N E U R O N A L
La fig u ra 3 ilu s tra un m o de lo de red n eu ro na l 300 de e je m p lo para la re du cc ió n de ru ido, q ue re p re se n ta una re a liza c ió n del b lo q ue 208. En a lg u n a s re a liza c io ne s , el m o de lo 300 co m p re n d e un b loque 308 para la e x tra cc ió n de ca ra c te rís tica s , y un b lo q ue 340 q ue se b asa en una e s tru c tu ra de red en U, tal com o la d e sc rita en el d o cu m e n to a rX iv :1505.04597 v1 [cs .C V ] 18 de m a yo de 2015, pero tie n e v a r ia s va r ia c io n e s , com o se d e sc rib e en el p re se n te d o cu m e n to . Se ha d e m o s tra d o q ue la e s tru c tu ra de red en U p os ib ilita la lo ca liza c ió n p rec isa del re co n o c im ie n to y c la s ifica c ió n de ca ra c te rís tica s .
4.1.1. B LO Q U E DE E X T R A C C IÓ N DE C A R A C T E R ÍS T IC A S
En a lg u n a s re a liza c io n e s , en el b lo q ue 308 en la fig u ra 3, el s e rv id o r 102 e xtra e c a ra c te rís tica s de a lto n ivel o p tim iza d a s p ara la ta re a de su p re s ió n de ru ido a p a rtir de las e n e rg ía s de b anda b ruta . La fig u ra 4 A ilus tra un b lo q ue de e x tra cc ió n de c a ra c te rís tica s de e je m p lo , que re p re se n ta una re a liza c ió n del b lo q ue 308. La fig u ra 4B ilu s tra o tro b loque de e x tra cc ió n de c a ra c te rís tica s de e je m p lo . C om o se ilu s tra en la e s tru c tu ra 400 A en la fig u ra 4A, p or e je m p lo , el s e rv id o r 102 p ue de n o rm a liza r la m e d ia y v a r ia n za de las e n e rg ía s de b an da (p o r e je m p lo , 56 de e lla s ) en una s e cu e n c ia de T tra m a s m e d ia n te una capa 408 de n o rm a liza c ió n de lo te s a p re n d ib le con oc id a p o r a lg u ien e xp e rto en la técn ica . A lte rn a tiva m e n te , la n o rm a liza c ió n g lo b a l ta m b ié n p uede p re ca lcu la rse a p a rtir del co n ju n to de e n tre n a m ie n to u sa nd o una té cn ica con o c id a p o r a lg u ien e xp e rto en la m ate ria .
En a lg u n a s re a liza c io ne s , el s e rv id o r 102 p uede te n e r en cu e n ta in fo rm a c ió n fu tu ra en la e x tra cc ió n de las ca ra c te rís tic a s de a lto n ive l m e n c io n a d a s a n te rio rm e n te . C om o se ilu s tra en 400 A en la fig u ra 4A, p or e je m p lo , tal a n tic ip a c ió n p ue de im p le m e n ta rse con una ca p a b id im e n s io n a l (2D ) de cap a co n vo lu c io n a l de un cana l (co nv2d ) 406 con uno o m ás kerne ls . La a ltu ra de un kerne l en la capa co n v2 d 406 co rre sp o n d ie n te al n ú m e ro de b andas p ara e va lu a r ca d a ve z p od ría e s ta b le ce rse en un v a lo r p eq ueño , ta l com o tre s . El ta m a ñ o de kerne l a lo la rgo del e je de tie m p o d e p e n d e de cu á n ta a n tic ip a c ió n se d esea o perm ite . P o r e je m p lo , s in n in g un a a n tic ip a c ió n , el kerne l p uede cu b rir la tra m a a c tu a l y las L tra m a s p asadas , ta le s com o d os tra m a s , y cu a n d o se p e rm ite n L tra m a s fu tu ra s , el ta m a ñ o del kerne l p ue de s e r 2L+1 ce n tra d o en la tra m a actua l, para co in c id ir con 2L+1 tra m a s en los d a tos de e n tra d a cada vez , ta l co m o 422 s ie n d o L dos en 406. C om o se ilus tra en 400 B en la fig u ra 4B, la a n tic ip a c ió n ta m b ié n p uede im p le m e n ta rs e con una se rie de cap as co n v2 d 410 , 412, o m ás. C ad a kerne l tie n e un ta m a ñ o de kerne l p eq u e ñ o a lo la rg o del e je de tiem p o . P or e je m p lo , la L pod ría e s ta b le ce rse en uno para 410, 412 y cu a lq u ie r o tra capa s im ila r. C o m o re su ltado , la cap a 410 p od ría co in c id ir con los d a tos de e n trada o rig in a le s con a n tic ip a c ió n de 2 L+1 , ta l co m o 422 s ie n d o L uno q ue co n d u ce a los tre s ke rne ls 428 , y la ca p a 412 p od ría co in c id ir con la s a lid a de la capa 412. El s e rv id o r p ue de u sa r la se rie de cap as co n v2 d ilu s tra d a s en la fig u ra 4B para a u m e n ta r g ra d u a lm e n te el ca m p o re cep tivo d en tro de los d a tos de e n tra da .
En a lg u n a s re a liza c io n e s , el n ú m e ro de ke rne ls en cada ca p a co n v2 d p uede d e te rm in a rse b a sá n d o se en la n a tu ra le za del to rre n te de a ud io de e n tra da , el vo lu m e n de ca ra c te rís tic a s de a lto n ive l d esea da s , el a lca n ce de los re q u is ito s de re cu rso s in fo rm á tico s u o tro factor. P o r e je m p lo , el n ú m e ro p od ría s e r 8, 16 o 32. A d e m á s, cada una de las ca p a s co n v2 d en el b loque 308 p ue de ir se g u id a de una fu n c ió n de a c tiva c ió n no linea l, ta l com o una u n id ad linea l re c tifica d a p a ra m é trica (P R e LU ), q ue lue g o p ue de ir se g u id a de una cap a de n o rm a liza c ió n de lo tes se p a ra d a , para a ju s ta r f in a m e n te la sa lid a del b lo q ue 308.
En a lg u n a s re a liza c io n e s , el b lo q ue 308 p uede im p le m e n ta rse u sa n d o o tra s té cn ica s de p ro ce sa m ie n to de se ñ a le s no re la c io n a d a s con re de s n e u ro n a le s a rtific ia les , ta le s com o la d e sc rita en C. K im y R. M. S tern, “ P o w e r-N o rm a lize d C ep stra l C o e ffic ie n ts (P N C C ) fo r R o b u s t S pe e ch R e c o g n itio n ” , en IE E E /A C M T ra n sa c tio n s on A u d io , S pe e ch , a nd L a n g u a g e P ro cess ing , vo l. 24, n° 7, págs. 1315-1329 , ju lio de 2016, doi: 10.1109 /T A S LP .2016.2545928.
4.1.2. B L O Q U E DE R E D EN U
En a lg u n a s re a liza c io n e s , en el b loque 340 de la fig u ra 3, el s e rv id o r 102 re a liza la co d ifica c ió n de los d a tos de ca ra c te rís tic a s (p a ra e n co n tra r m ás y m e jo res ca ra c te rís tica s ) se g u id a de la d e sco d ifica c ió n para re co n s tru ir d a tos de a ud io p o te n c ia d o s a n te s de re a liza r f in a lm e n te la c la s if ica c ió n p ara d e te rm in a r cu á n ta h ab la está p rese n te . El b lo q ue 340 co m p re n d e así un lad o c o d ifica d o r a la izqu ie rda , y un d e s c o d ific a d o r a la derecha , c o n e c ta d o por un b lo q ue 350. El co d ific a d o r co m p re n d e uno o m ás b lo q ue s de cá lcu lo de c a ra c te rís tica s , ta le s com o 310, 312 y 314, cad a uno se g u id o de un m u e s tre a d o r d e sc e n d e n te de fre cu e n c ia , ta l com o 316, 318 y 320, p a ra fo rm a r una tra ye c to ria de co n tra cc ió n . Un b loque d en so (D B ) es una im p le m e n ta c ió n para ta l b lo q ue de cá lcu lo de c a ra c te rís tica s , com o se d iscu te a d ic io n a lm e n te a con tin u a c ió n . C ad a uno de los tr ip le te s in d ica d o s en el d ia g ram a , ta l co m o (8, T, 64), in c lu ye el ta m a ñ o de los d a tos de e n tra d a o sa lid a de un b lo q ue de cá lcu lo de ca ra c te rís tica s , d o n d e el p rim e r co m p o n e n te d e n o ta el n ú m e ro de ca n a le s o m a pa s de c a ra c te rís tica s , el se g u n d o c o m p o n e n te d e n o ta un n ú m e ro fijo de tra m a s a lo la rg o de la d im e n s ió n de tiem p o , y el te rce r c o m p o n e n te d e n o ta un ta m a ñ o a lo la rgo de la d im e n s ió n de fre cu e n c ia . E s to s b lo q ue s de cá lcu lo de ca ra c te rís tica s , co m o se d iscu te a d ic io n a lm e n te m ás a de lan te , ca p tu ra n c a ra c te rís tica s de n ive l m ás y m ás a lto en co n te x to s de fre cu e n c ia m ás y m ás g ran d es . El b lo q ue 350 co m p re n d e un b lo q ue de cá lcu lo de c a ra c te rís tica s p ara re a liza r un m o d e la d o q ue cub re to d a s las b an da s p e rce p tu a lm e n te m o tiva d a s d isp o n ib le s o rig in a lm e n te . El d e sc o d ific a d o r ta m b ié n co m p re n d e uno o m á s b lo q u e s de cá lcu lo de c a ra c te rís tica s , ta le s com o 320, 322 y 324, cada uno se g u id o de un m u e s tre a d o r a sce n d e n te de fre cu e n c ia , ta l com o 326, 328 y 330, para fo rm a r una tra ye c to ria de e xp an s ión . E s to s b lo q ue s de cá lcu lo de c a ra c te rís tica s en la tra ye c to ria de exp an s ión , q ue se basan en los m a pa s de c a ra c te rís tica s g e n e ra d o s d u ra n te la tra ye c to ria de co n tra cc ió n , se co m b in a n para p ro ye c ta r c a ra c te rís tica s d is c rim in a tiva s a d ife re n te s n ive les en un e sp a c io de a lta re so lu c ió n , c o n c re ta m e n te al n ive l p o r b an da en cad a tra m a , para o b te n e r una c la s ifica c ió n densa , c o n c re ta m e n te los v a lo re s de m ásca ra . D eb ido a la co m b in a c ió n , el n úm e ro de ca n a le s de e n tra d a (o m a pa s de c a ra c te rís tica s ) p a ra ca d a b lo q ue de cá lcu lo de c a ra c te rís tica s en la tra ye c to ria de e xp a n s ió n p uede s e r el d ob le q ue para cad a b lo q ue de cá lcu lo de ca ra c te rís tic a s en la tra ye c to ria de co n tra cc ió n . S in e m ba rg o , la e le cc ió n en el n úm e ro de ke rne ls en cad a b loque de cá lcu lo p od ría d e te rm in a r el n úm e ro de ca n a le s de sa lid a , q ue se co n v ie rte en el n ú m e ro de ca n a le s de e n tra d a para el s ig u ie n te b lo q ue de cá lcu lo de ca ra c te rís tica s en la tra ye c to ria de exp an s ión .
El s e rv id o r 102 p ro d u ce los va lo re s de m á sca ra f in a le s para cada b an da en una tra m a a tra vé s de un b lo q ue de c la s ifica c ió n , ta l co m o el b lo q ue 360, q ue co m p re n d e un kerne l 2D de 1x1 se g u id o de la fu n c ió n de a c tiva c ió n no linea l s ig m o id e a .
En a lg u n a s re a liza c io n e s , en cad a m u e s tre a d o r d e sce n d e n te de fre cu e n c ia , el s e rv id o r 102 fu s io n a cada dos e n e rg ía s de b anda a d ya ce n te s m e d ia n te una cap a co n v2d con ta m a ñ o s de kerne l y paso de 2 a lo la rg o del e je de fre cu e n c ia por m e d ia c ió n de una co n vo lu c ió n re gu la r o una co n vo lu c ió n en p ro fu nd ida d . A lte rn a tiva m e n te , la cap a co n v2 d p ue de s e r re m p la za d a p or una cap a de a g ru p a m ie n to m á xim o . En c u a lq u ie ra de los casos, la a n ch u ra de los m a pa s de ca ra c te rís tic a s de sa lid a se d iv id e a la m itad d e sp u é s de cad a m u e s tre a d o r d e s c e n d e n te de fre cu e n c ia , a m p lia n d o p o r e llo de m a ne ra s o s te n id a el ca m p o re ce p tivo d e n tro de los d a tos de e n tra da . P ara p o s ib ilita r ta l re du cc ió n se cu e n c ia l y e xp o n e n c ia l en la a n ch u ra de los m a pa s de c a ra c te rís tica s de sa lid a , el s e rv id o r 102 re llen a la sa lid a del b lo q ue 308 a una a n ch u ra q ue es una p o te n c ia de 2, q ue e n to n ce s se co n v ie rte en los d a to s de e n tra d a al b lo q ue 340. El re lleno p od ría hacerse , por e je m p lo , a ñ a d ie n d o ce ro s en a m b o s ta m a ñ o s de los m a pa s de c a ra c te rís tica s de sa lid a del b lo q ue 308.
En a lg u n a s re a liza c io ne s , en cad a m u e s tre a d o r a sce n d e n te de fre cu e n c ia , el s e rv id o r 102 e m p le a una capa c o n v2d tra sp u e s ta co rre sp o n d ie n te a la cap a co n v2d al m ism o n ive l en el co d ific a d o r para re s ta u ra r el n úm ero o rig in a l de e n e rg ía s de banda . La p ro fu n d id a d del b loque 340, o el n úm e ro de c o m b in a c io n e s de un b loque de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r d e sce n d e n te de fre cu e n c ia (y de m a ne ra e q u iva le n te el n úm e ro de co m b in a c io n e s de un b lo q ue de cá lcu lo de ca ra c te rís tica s y un m u e s tre a d o r a sce n d e n te de fre cu e n c ia ), pod ría d e p e n d e r del ca m p o re ce p tivo m á x im o d esea do , la ca n tid a d de re cu rso s in fo rm á tico s u o tro s fa c to re s .
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 usa co n e x io n e s de sa lto , ta le s com o 342, 344 y 346, para co n ca te n a r la s a lid a de un b lo q ue de cá lcu lo de c a ra c te rís tica s en el co d ific a d o r con la e n tra d a de un b lo q ue de cá lcu lo de ca ra c te rís tic a s en el d e sc o d ific a d o r al m ism o n ive l com o una m a ne ra para q ue el d e s c o d ific a d o r rec iba ca ra c te rís tic a s d is c rim in a to ria s de los d a to s de e n tra d a a d ife re n te s n ive les en ú ltim a in s ta n c ia p ara una c la s if ica c ió n densa , com o se ind icó a n te rio rm e n te . P o r e je m p lo , los m a pa s de c a ra c te rís tica s p ro d u c id o s p or el b lo q ue 310 se usan ju n to s com o d a tos de e n tra d a con los m a pa s de c a ra c te rís tica s a lim e n ta d o s al b lo q ue 324 d e sd e el m u e s tre a d o r a sce n d e n te de fre cu e n c ia 330 p or m e d ia c ió n de la co n e x ió n de sa lto 346. C om o resu ltado , el n úm e ro de ca n a le s en los d a tos de e n tra d a de cada b lo q ue de cá lcu lo de c a ra c te rís tica s en el d e sco d ifica d o r se ría el d ob le que el n ú m e ro de ca n a le s en los d a tos de e n tra d a de cad a b lo q ue d en so en el cod ificado r.
En a lg u n a s re a liza c io n e s , en lu g a r de una co n ca te n a c ió n d irec ta , el s e rv id o r 102 a p re n d e un m u ltip lica d o r de e sc a la d o r para cad a con ex ió n de sa lto , ta l com o a 1, a 2 y a 3, co m o se m u es tra en la fig u ra 3. C ad a a i co n tie n e N (p o r e je m p lo , 8) p a rá m e tro s a p re n d ib le s , q ue p od rían in ic ia liza rse a 1 al co m ie n zo del e n tre n a m ie n to . C ada uno de los p a rá m e tro s a p re n d ib le s se usa para m u ltip lica r un m a pa de c a ra c te rís tica s g e n e ra d o p o r el b lo q ue de cá lcu lo de c a ra c te rís tica s co rre sp o n d ie n te en el c o d ific a d o r p ara p ro d u c ir un m a pa de c a ra c te rís tica s esca la d o , q ue lue g o se co n ca te n a con el m a pa de ca ra c te rís tica s q ue va a a lim e n ta rse al b lo q ue de cá lcu lo de ca ra c te rís tic a s co rre sp o n d ie n te en el descod ifica do r.
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 p ue de su s titu ir la c o n ca te n a c ió n p o r la ad ic ión . P o r e je m p lo , los ocho m a pa s de c a ra c te rís tica s p ro d u c id o s p o r el b lo q ue 310 p ueden a ñ a d irse re sp e c tiva m e n te a los 8 m a pa s de ca ra c te rís tic a s q ue se a lim e n ta rá n al b lo q ue d e n so 324, re a lizá n d o se cada una de las o ch o a d ic io n e s en base a co m p o n e n te s . Tal a d ic ión en lu g a r de co n ca te n a c ió n re du ce el n ú m e ro de m a pa s de ca ra c te rís tica s u sa do s com o d a tos de e n tra d a p ara cad a b lo q ue de cá lcu lo de ca ra c te rís tica s en el d e sc o d ific a d o r y re du ce en g en era l el cá lcu lo a cos ta de c ie rta d e g ra d a c ió n del re nd im ie n to .
4.1.2.1. B LO Q U E D E N S O
La fig u ra 5 ilus tra un m o d e lo de red n eu ro na l de e je m p lo , que co rre sp o n d e a una re a liza c ió n del b lo q ue 310 y a cu a lq u ie r o tro b lo q ue s im ila r en el b loque 340 en la fig u ra 3. El m o d e lo de red neu ro na l se b asa en una e s tru c tu ra D en se N e t, ta l com o la d e sc rita en a rX iv :1608.06993 v5 [cs .C V ] 28 de e n e ro de 2018, pero tie n e va ria s va r ia c io n e s , com o se d e sc rib e en el p re se n te d ocum e n to . Se ha d e m o s tra d o q ue la e s tru c tu ra D e n se N e t a liv ia el p ro b le m a del g ra d ie n te de d e sva n e c im ie n to , fo rta le ce la p ro p a g a c ió n de ca ra c te rís tica s , fo m e n ta la reu tilizac ió n de c a ra c te rís tica s y reduce el n úm e ro de pará m e tros .
En a lg u n a s re a liza c io ne s , el s e rv id o r 102 usa el b lo q ue 500 com o un b lo q ue de cá lcu lo de ca ra c te rís tica s para re fo rza r aún m ás la p ro p a g a c ió n de c a ra c te rís tica s y la c la s ifica c ió n densa . El b lo q ue 500 e m ite N (p o r e jem p lo , 8) ca n a le s de m a pa s de c a ra c te rís tica s ig u a le s al n ú m e ro de d a tos de e n tra d a de m a pa s de ca ra c te rís tica s . C ad a cana l ta m b ié n tie n e cad a uno la m ism a fo rm a de t ie m p o -fre cu e n c ia q ue un m a pa de c a ra c te rís tica s en los d a tos de e n tra da . El b lo q ue 500 co m p re n d e una se rie de ca p a s co n vo lu c io n a le s , ta le s co m o 520 y 530. Los d a tos de e n tra d a a cada cap a co n vo lu c io n a l con tien en la co n ca te n a c ió n de to d o s los d a tos de s a lid a de las ca p a s co n vo lu c io n a le s pev ias, fo rm a n d o p o r e llo la co n e c tiv id a d densa . P o r e je m p lo , los d a tos de e n tra d a a la cap a 530 inc lu ye n los d a tos 512, que p ueden s e r los d a tos de e n tra d a in ic ia le s o los d a tos de sa lid a de una capa c o n vo lu c io n a l an terio r, y los d a tos 522, q ue son los d a tos de e n tra d a de la capa 520.
En a lg u n a s re a liza c io n e s , cada cap a co n vo lu c io n a l co m p re n d e una capa de cue llo de b o te lla que tie n e uno o m á s ke rne ls 2D de 1x1, ta l com o la ca p a 504, para co n so lid a r los d a tos de e n tra d a q ue co m p re n d e n K m a pa s de ca ra c te rís tic a s d e b id o a la co n e c tiv id a d d en sa en un n úm e ro m ás p eq u e ñ o de m a pa s de ca ra c te rís tica s . P or e je m p lo , cada kerne l 2D de 1x1 p ue de a p lica rse re sp e c tiva m e n te a cad a g rup o de K /2N m a pa s de ca ra c te rís tica s , para s u m a r e fe c tiva m e n te los K /2N m a pa s de c a ra c te rís tica s en un m apa de ca ra c te rís tica s , y o b te n e r fin a lm e n te 2N m a pa s de c a ra c te rís tica s . A lte rn a tiva m e n te , un to ta l de 2N kerne l 2D de 1x1 podría a p lica rse a to d o s los m a pa s de c a ra c te rís tica s para g e n e ra r m a pa s de c a ra c te rís tica s 2D . C ad a kerne l 2D de 1x1 p od ría ir se g u id o de una fu n c ió n de a c tiva c ió n no linea l, ta l com o una P R eLU , y /o una capa de n o rm a liza c ió n de lotes.
En a lg u n a re a liza c ió n , cad a capa co n vo lu c io n a l co m p re n d e una p e q u e ñ a capa co n v2 d con N kerne ls , ta l com o el b lo q ue 506 q ue tie n e una cap a co n vd 2 d de 3x3, d e sp u é s de la capa de cu e llo de b o te lla para p ro d u c ir N m apas de c a ra c te rís tica s . E s ta s p e q u e ñ a s cap as co n v2 d en cap as co n vo lu c io n a le s su ce s iv a s del b lo q ue 500 e m p le an d ila ta c io n e s e xp o n e n c ia lm e n te c re c ie n te s a lo la rg o del e je de tie m p o para m o d e la r in fo rm a c ió n de co n te x to m ás y m ás g ran d e . P o r e je m p lo , el fa c to r de d ila ta c ió n u sa do en el b lo q ue 506 es 1, lo que s ig n ifica que no hay d ila ta c ió n en cada kerne l, m ie n tra s q ue el fa c to r de d ila ta c ió n u sa do en el b lo q ue 508 es 2, lo q ue s ig n ifica q ue el kerne l se d ila ta en el e je de tie m p o en un fa c to r de d os y el ca m p o re ce p tivo ta m b ié n a u m e n ta de ta m a ñ o en un fa c to r de d os en cad a d im en s ió n .
En a lg u n a s re a liza c io n e s , e n tre las ca p a s c o n vo lu c io n a le s del b lo q ue 500, el s e rv id o r 102 p ro ye c ta lin e a lm e n te las e n e rg ía s de b anda a un e sp a c io a p re n d id o en una capa de m a pe o de fre cu e n c ia s p ara unas s a lid a s m ás u n ifica d a s , ta l com o la d e sc rita en a rX iv :1904.11148 v1 [cs .S D ] 25 de abril de 2019. C om o el m ism o kerne l p od ría p ro d u c ir d ife re n te s e fe c to s so b re los m ism os d a tos de a ud io d e p e n d ie n d o de en q ué b anda de fre cu e n c ia se lo ca lice n los d a tos de aud io , se ría útil a lg u n a u n ifica c ión de ta le s e fe c to s a tra vé s de d ife re n te s bandas. Por e je m p lo , una ca p a de m a pe o de fre cu e n c ia s 580 e stá u b ica d a en el m e d io de la p ro fu n d id a d del b lo q ue 500.
En a lg u n a s re a liza c io n e s , al fina l del b lo q ue 500, se p uede usa r una capa 590 s im ila r a la cap a de cue llo de b o te lla q ue tie n e uno m ás ke rne ls 2D de 1x1 para p ro d u c ir una sa lid a de un te n s o r con N m a pa s de ca ra c te rís tica s .
4.1.1.11. C O N V O L U C IÓ N S E P A R A B L E EN P R O F U N D ID A D C O N U S O DE P U E R TA S
La fig u ra 6 ilu s tra un m o de lo de red n eu ro na l de e jem p lo , q ue co rre sp o n d e a una re a liza c ió n del b lo q ue 506 y cu a lq u ie r o tro b lo q ue s im ila r ilu s tra d o en la fig u ra 5. En a lg u n a s re a liza c io n e s , el b lo q ue 600 co m p re n d e co n vo lu c ió n se p a ra b le en p ro fu n d id a d con una fu n c ió n de a c tiva c ió n no linea l, ta l com o u n id ad linea l con p ue rtas (G LU ). C om o se ilus tra en la fig u ra 6 , la p rim e ra ru ta en la G LU co m p re n d e una p eq u e ñ a cap a co n v2 d en p ro fu nd ida d , ta l com o una cap a co n v2d de 3 x3 602 , q ue va se g u id a de una cap a de n o rm a liza c ió n de lo te s 604. La s e g u n d a ruta en la G LU co m p re n d e de m a ne ra s im ila r una cap a co n v2 d de 3x3 606, se g u id a de una ca p a de n o rm a liza c ió n de lo te s 608 , q ue lue g o va se g u id a de una fu n c ió n de uso de p u e rta s a p re n d ib le , ta l com o la fu n c ió n de a c tiva c ió n no linea l s ig m o id e a . A l igua l q ue en un b lo q ue d e n so ilu s tra d o en la fig u ra 5, las p eq ue ña s cap as co n v2 d en cap as co n v o lu c io n a le s su ce s iv a s del b lo q ue 500 p ue de n e m p le a r d ila ta c io n e s e xp o n e n c ia lm e n te c re c ie n te s a lo la rgo del e je de tie m p o p ara m o d e la r in fo rm a c ió n de co n te x to m ás y m ás g ran d e . P o r e je m p lo , los b lo q u e s 602 y 606 en la capa co n vo lu c io n a l q ue co rre sp o n d e al b lo q ue 506 pueden a so c ia rse con un fa c to r de d ila ta c ió n de 1, y b lo q ue s s im ila re s en la s ig u ie n te ca p a co n vo lu c io n a l q ue p ueden c o rre sp o n d e r a una re a liza c ió n del b lo q ue 508 p od rían a so c ia rse con un fa c to r de d ila ta c ió n de 2. La fu n c ió n de uso de p u e rtas id e n tifica re g io n e s im p o rta n te s de los d a tos de e n tra d a para la ta re a de in te ré s. Las d os ru tas e s tán u n id as p or el o p e ra d o r de p ro d u c to de H a d a m a rd 618. La capa co n v2 d de 1x1 612 a p re n d e las in te rco n e x io n e s e n tre los m a pa s de c a ra c te rís tica s de sa lid a g e n e ra d o s p o r la co m b in a c ió n de las dos rutas, co m o p arte de la co n vo lu c ió n se p a ra b le en p ro fu nd ida d . La cap a 612 p ue de ir se g u id a de una cap a de n o rm a liza c ió n de lo tes 614 y una fu n c ió n de a c tiva c ió n no linea l 616, ta l com o una P R eLU .
4.1.2.2 B L O Q U E R E S ID U A L Y C A P A R E C U R R E N T E
La fig u ra 7 ilus tra un m o d e lo de red n eu ro na l de e je m p lo , q ue co rre sp o n d e a una re a liza c ió n del b lo q ue 310 y a cu a lq u ie r o tro b lo q ue s im ila r ilu s tra d o en la fig u ra 3. En a lg u n a s re a liza c io n e s , el b lo q ue 500 ilu s tra d o en la fig u ra 5, q ue ta m b ié n co rre sp o n d e a una re a liza c ió n del b lo q ue 310, pod ría re m p la za rse p or un b lo q ue 700 res idua l para un n úm e ro re d u c id o de co n e x io n e s . El b lo q ue 700 co m p re n d e m ú ltip le s ca p a s co n vo lu c io n a le s , ta le s com o las ca p a s 720 y 730.
En a lg u n a s re a liza c io n e s , ca d a cap a co n vo lu c io n a l co m p re n d e una cap a de cu e llo de b o te lla s im ila r al b loque 504 ilu s tra d o en la fig u ra 5, ta l com o la capa 704. La cap a de cu e llo de b o te lla ta m b ié n pod ría ir se g u id a de una a c tiva c ió n no linea l, ta l com o una P R eLU , y /o una capa de n o rm a liza c ió n de lotes.
En a lg u n a s re a liza c io n e s , la cap a co n vo lu c io n a l ta m b ié n co m p re n d e una p e q u e ñ a capa con v2d , s im ila r al b loque 506 ilu s tra d o en la fig u ra 5, ta l com o la cap a co n v2d de 3x3 706. El p e q u e ñ o b lo q ue co n v2 d p od ría re a liza rse con d ila tac ión , con fa c to re s de d ila ta c ió n e xp o n e n c ia lm e n te c re c ie n te so b re ca p a s co n vo lu c io n a le s suce s iva s . La p e q u e ñ a cap a co n v2d p uede re m p la za rse por co n vo lu c ió n se p a ra b le en p ro fu n d id a d con uso de pue rtas , com o se ilus tra en la fig u ra 6.
En a lg u n a s re a liza c io n e s , la cap a co n vo lu c io n a l co m p re n d e o tra cap a co n v2 d de 1x1, ta l co m o la cap a 708, que hace c o in c id ir la s a lid a del b lo q ue 706 de v u e lta con la e n tra d a del b lo q ue 704 en té rm in o s de ta m a ñ o y e sp e c ífica m e n te el n ú m e ro de ca n a le s o m a pa s de ca ra c te rís tica s . La sa lid a se a ña de e n to n ce s a los d a tos de e n tra d a a tra vé s del o p e ra d o r de p ro d u c to de H a d a m a rd 710 para re d u c ir el p ro b le m a de d e sva n e c im ie n to del g ra d ie n te cu a n d o se usa la re tro p ro p a g a c ió n para e n tre n a r a la red, ya q ue el g ra d ie n te te n d rá una tra ye c to ria d ire c ta d e sd e la sa lid a al lado de e n tra d a s in n in g u n a m u ltip lica c ió n e n tre e llos. La cap a co n v de 1x1 ta m b ié n p od ría ir se g u id a de una a c tiva c ió n no linea l, ta l com o una P R eLU , y /o una cap a de n o rm a liza c ió n de lotes.
En a lg u n a s re a liza c io n e s , el b lo q u e 500 ilu s tra d o en la fig u ra 5, q ue ta m b ié n co rre sp o n d e a una re a liza c ió n del b lo q ue 310, p od ría re m p la za rse p o r una capa re cu rre n te q ue co m p re n d e al m e no s una red n eu ro na l re cu rre n te (R N N ). El uso de una R N N para m o d e la r se cu e n c ia s de tie m p o la rg o p uede s e r un e n fo q u e e fic ien te . “ E fic ie n te ” s ig n ifica que la R N N pod ría m o d e la r se cu e n c ia s de tie m p o m uy la rga s m a n te n ie n d o un v e c to r de e s ta d o o cu lto in te rn o com o un re sum e n de to d o el h is to ria l q ue ha v is to y g e n e ra n d o las s a lid a s para cad a nue va tra m a b a sá n d o se en ese vec to r. En co m p a ra c ió n con el uso de la d ila ta c ió n en cap as de C N N , el ta m a ñ o de la m e m o ria in te rm e d ia para a lm a c e n a r la in fo rm a c ió n p a sad a para una R N N es m u ch o m ás p e q u e ñ o (so lo 1 vector, fre n te a 2d+1 v e c to re s para una C N N d on de d es el fa c to r de d ila tac ión ).
4.2. E N T R E N A M IE N T O DE M O D E L O
En a lg u n a s re a liza c io ne s , el e n tre n a m ie n to del m o de lo de red n eu ro na l 208 p uede re a liza rse com o un p roce so de e x tre m o a extre m o . A lte rn a tiva m e n te , el b lo q ue de e x tra cc ió n de c a ra c te rís tica s 308 y el b lo q ue de red en U 340 p ueden s e r e n tre n a d o s p o r sep a ra d o , d on de la s a lid a de la a p lica c ió n del b lo q ue de e x tra cc ió n de c a ra c te rís tica s 308 a los d a to s rea les p uede u sa rse com o d a tos de e n tre n a m ie n to para el b lo q ue de red en U.
S e u tilizan d ive rso s d a tos de e n tre n a m ie n to para e n tre n a r el m o de lo de red n eu ro na l 208 ilu s tra d o en la fig u ra 2. En a lg u n a s re a liza c io ne s , la d ive rs id a d in co rp o ra d ive rs id a d de h ab lan te s , in c lu ye n d o en los d a to s de e n tre n a m ie n to e xp re s io n e s n a tu ra le s en una a m p lia g am a de e s tilos de hablar, en té rm in o s de ve lo c id ad , e m o c ió n y o tros a tr ibu to s . C ada e xp re s ió n de e n tre n a m ie n to p ue de s e r h ab la de un h a b la n te o un d iá lo g o e n tre m ú ltip le s hab lan tes .
En a lg u n a s re a liza c io ne s , la d ive rs id a d p ro ce d e de la in c lu s ió n de d a tos de ru ido co n ce n tra d o s , in c lu ye n d o d a tos de re ve rb e ra c ió n . U na base de d a tos com o A u d io S e t p uede u sa rse com o una base de d a to s de ru ido sem illa . El s e rv id o r 102 p uede f iltra r a fu e ra cad a fra g m e n to en la b ase de d a tos de ru ido s e m illa con una e tiq u e ta de c lase q ue ind ica p rese nc ia p ro b a b le de h ab la en el fra g m e n to . P or e je m p lo , la c lase de “vo z h u m a n a ” en la o n to lo g ía d ad a p uede filtra rse a fu era . La b ase de d a tos de ru ido s e m illa p uede filtra rs e a d ic io n a lm e n te a p lica n d o cu a lq u ie r té c n ica de s e p a ra c ió n de h ab la co n o c id a p o r a lg u ie n e xp e rto en la té c n ica para re tira r fra g m e n to s a d ic io n a le s en los q ue p ro b a b le m e n te e stá p re se n te hab la. P or e je m p lo , se re tira cu a lq u ie r fra g m e n to para el que la p red icc ió n de h ab la co n tie n e al m e no s una tra m a (p o r e je m p lo , de lo n g itu d 100 m s) con e n e rg ía cu a d rá tica m e d ia por e n c im a de un um bra l (p o r e je m p lo , 1e-3).
En a lg u n a s re a liza c io n e s , la d ive rs id a d se a u m e n ta in c lu ye n d o un a m p lio in te rva lo de n ive les de in te n s id a d en la m e zc la de ru ido con hab la. A l c o m p o n e r una señ a l ru idosa , el s e rv id o r 102 p uede e sca la r re sp e c tiva m e n te una señ a l de h ab la lim p ia y una señ a l de ru ido a n ive les m ás a ltos p re d e te rm in a d o s , a ju s ta r a le a to ria m e n te cad a uno h ac ia a ba jo en uno de un ra ng o de dB, ta l co m o 0 a 30 dB, y s u m a r a le a to ria m e n te una señ a l de hab la lim p ia a ju s ta d a y una señ a l de ru ido a ju s tad a , s u je to a una re lac ió n se ñ a l-ru id o m á s ba ja p re d e te rm in a d a . Se e n cu e n tra q ue ta l a m p lio in te rva lo de n ive les de so n o rid a d a yu da a re d u c ir la so b re su p re s ió n de h ab la (o su b su p re s ió n de ru ido).
En a lg u n a s re a liza c io n e s , la d ive rs id a d se e n cu e n tra en p re se n c ia de d a tos en d ife re n te s b a n d a s de fre cu e n c ia . El s e rv id o r 102 p uede c re a r se ñ a le s q ue tie n e n al m enos un c ie rto p o rce n ta je en una b anda de fre cu e n c ia e sp e c ífica de un a ncho de b anda e sp ec ífico , ta l com o al m e no s un 20 % en una b anda de fre cu e n c ia de 300 Hz a 500 Hz.
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 e n tre n a el m o de lo de red neu ro na l 208 u sa nd o cu a lq u ie r p roce so de o p tim iza c ió n co n o c id o p o r un e xp e rto en la té cn ica , ta l com o el a lg o ritm o de o p tim iza c ió n de d e sce n so de g ra d ie n te e s to cá s tico d o n d e los p esos se a c tu a liza n u sa n d o la re tro p ro p a g a c ió n del a lg o ritm o de error. El m o de lo de red neu ro na l 208 p uede m in im iza r la p é rd id a de e rro r cu a d rá tico m e d io (M S E ) e n tre la m á sca ra p re d ich a y la m á sca ra de ve rd a d fu n d a m e n ta l para cada b anda en cada tra m a . La m á sca ra de v e rd a d fu n d a m e n ta l p uede ca lcu la rse com o la re lac ió n de la e n e rg ía de h ab la y la su m a de las e n e rg ía s de hab la y ru ido.
En a lg u n a s re a liza c io n e s , p ue sto q ue la so b re su p re s ió n de h ab la p e rju d ica la ca lid a d del h ab la m ás q ue la s u b su p re s ió n de hab la, el s e rv id o r 102 usa un M S E p on de ra do q ue a s ig n a m ás p en a liza c ió n a la so b re su p re s ió n de hab la. C om o el v a lo r de m á sca ra p ro d u c id o p o r el m o de lo de red neu ro na l 208 ind ica la ca n tid a d de hab la p resen te , cu a n d o un v a lo r de m á sca ra p re d ich o es m e n o r q ue el v a lo r de m á sca ra de ve rd a d fu n d a m e n ta l, se p red ice m e no s h ab la q ue la ve rd a d fu n d a m e n ta l y así se su p rim e m ás h ab la de la n ecesa ria , lo que co n d u ce a la so b re su p re s ió n de h ab la p o r el m o d e lo de red n eu rona l. P o r e je m p lo , el M S E p o n d e ra d o p ue de ca lcu la rse com o s igue:
d o n d e m(t, f) y m(t, f) re p re se n ta n los va lo re s de m á sca ra p re d ich o s y de ve rd a d fu n d a m e n ta l para la b anda de tie m p o -fre cu e n c ia (t, f) re sp e c tiva m e n te , y p re p re se n ta una co n s ta n te d e te rm in a d a e m p írica m e n te (n o rm a lm e n te e s ta b le c id a m a yo r q ue 0 ,5 ) para d a r m ás peso a la s o b re su p re s ió n de hab la.
En a lg u n a s re a liza c io n e s , el m o d e lo de red n eu ro na l 208 e stá e n tre n a d o para p re d e c ir la d is trib u c ió n de hab la (en lu g a r de un ú n ico v a lo r de m á sca ra ) so b re d ife re n te s c o n te n e d o re s de fre cu e n c ia d en tro de cada banda. E sp e c ífica m e n te , el s e rv id o r 102 p ue de e n tre n a r el m o de lo p ara p re d e c ir los va lo re s de m e d ia y va r ia n za de una d is trib u c ió n g a u ss ia n a para cad a b an da en cada tra m a , d o n d e la m e d ia re p re se n ta la m e jo r p red icc ió n del v a lo r de m á sca ra p o r el m o de lo de red n eu ro na l 208. La fu n c ió n de p é rd ida para la d is trib u c ió n g a u ss ia n a puede d e fin irse com o:
d o n d e s(t, f) re p re se n ta la p red icc ió n de la d e sv ia c ió n e s tá n d a r para (t, f).
En a lg u n a s re a liza c io n e s , la p red icc ió n de v a r ia n za p uede in te rp re ta rse com o la co n fia n za en la p red icc ió n m edia para re d u c ir la a pa ric ió n de s o b re su p re s ió n de hab la. C u a n d o la p red icc ió n m e d ia es re la tiva m e n te baja, in d ica n d o una ca n tid a d ba ja de h ab la p resen te , y la p red icc ió n de v a r ia n za es re la tiva m e n te a lta , e sto p od ría in d ica r una p ro b a b le so b re su p re s ió n de h ab la y la m á sca ra de b an da pod ría e n to n ce s a u m e n ta rse a esca la . U na fu n c ió n de e sca la d o de e je m p lo para p ro d u c ir una g a n a n c ia a ju s ta d a b asad a en la d e sv ia c ió n e s tá n d a r es:
Qscaia= (1 - eSt-f) ( l -m t¿ )+rñtj
La fu n c ió n de e sca la d o a u m e n ta la m á sca ra de b an da (g a n a n c ia ) en p rop o rc ión a la d e sv ia c ió n estándar. C u a n d o la d e sv ia c ió n e s tá n d a r es g ran d e , la m á sca ra se e sca la de ta l m a ne ra q ue es m a yo r q ue la m ed ia , pero aún m e n o r o igua l a 1, y cu a n d o la d e sv ia c ió n e s tá n d a r es 0, la m á sca ra se rá igua l a la m edia .
En a lg u n a s re a liza c io n e s , s u p o n ie n d o una d is trib u c ió n g a u ss ia n a para cad a m á sca ra , la p ro b a b ilid a d de cada v a lo r de m á sca ra o b se rva d o (o b je tivo ) es:
M in im iza r el lo g a ritm o n eg a tivo de e sta p ro b a b ilid a d (e q u iva le n te a m a x im iza r la p rop ia p ro b a b ilid a d ) co n d u ce a la fu n c ió n de p é rd ida g a u ss ia n a in d ica d a a n te rio rm e n te .
4.3. E JE C U C IÓ N DE M O D E L O
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 p uede a ce p ta r co m o tra m a in d iv id u a l de d a tos de e n tra da , o un c o n ju n to de tra m a s cu a n d o se im p le m e n ta a n tic ip a c ió n en el m o de lo de red n eu ro na l 208 , e sp e c ífica m e n te el b lo q ue 308 de e x tra cc ió n de c a ra c te rís tica s , y g e n e ra r al m e no s un v a lo r de m á sca ra para cad a tra m a com o d a tos de sa lid a . P ara cad a cap a co n vo lu c io n a l con un ta m a ñ o de kerne l m a yo r que uno a lo la rg o de la d im e n s ió n de tie m p o , el s e rv id o r 102 m a n tie n e una m e m o ria in te rm e d ia in te rn a para a lm a ce n a r el h is to ria l que re q u ie re p ara g e n e ra r los d a tos de sa lid a . La m e m o ria in te rm e d ia p uede m a n te n e rse com o una co la con un ta m a ñ o igua l al ca m p o re ce p tivo de la cap a co n vo lu c io n a l a lo la rgo de la d im e n s ió n de tiem p o .
5. P R O C E S O S DE E JE M P L O
La fig u ra 8 ilus tra un p roce so de e je m p lo re a liza d o con un o rd e n a d o r de s e rv id o r de g es tión de a ud io de a cu e rdo con a lg u n a s re a liza c io n e s d e sc rita s en el p re se n te d ocum e n to . La fig u ra 8 se m u es tra en fo rm a to s im p lif ica d o y e sq u e m á tico con el fin de ilu s tra r un e je m p lo c la ro y o tra s re a liza c io n e s p ueden in c lu ir m ás, m e no s o d ife re n te s e le m e n to s c o n e c ta d o s de d ive rsa s m a ne ra s . La fig u ra 8 e stá d e s tin a d a cada una a d ivu lg a r un a lg o ritm o , p lan o e sb o zo que p uede u sa rse para im p le m e n ta r uno o m ás p ro g ra m a s de o rd e n a d o r u o tro s e le m e n to s de so ftw a re que, cu a n d o se e je cu ta n , p ro vo ca n la re a liza c ió n de las m e jo ra s fu n c io n a le s y los a va n ce s té c n ico s q ue se d e sc rib e n en el p re se n te d ocum e n to . A d e m á s, los d ia g ra m a s de f lu jo en el p re se n te d o cu m e n to se d esc rib e n al m ism o n ive l de d e ta lle q ue las p e rso n a s con co n o c im ie n to s o rd in a r io s en la m a te ria usan h a b itu a lm e n te para c o m u n ica rse e n tre sí so b re a lg o ritm o s , p la n es o e sp e c ifica c io n e s q ue fo rm a n una base de p ro g ra m a s de so ftw a re q ue p la n ea n c o d ifica r o im p le m e n ta r u sa nd o su co n o c im ie n to y p eric ia a cu m u la do s .
En a lg u n a s re a liza c io n e s , en la e ta pa 802, el s e rv id o r 102 e stá p ro g ra m a d o para re c ib ir da tos de a ud io de e n tra d a q ue cu b re n una p lu ra lid a d de b a n d a s de fre cu e n c ia a lo la rgo de una d im e n s ió n de fre cu e n c ia en una p lu ra lid a d de tra m a s a lo la rgo de una d im e n s ió n de tiem p o . En a lg u n a s re a liza c io n e s , la p lu ra lid a d de b a n da s de fre cu e n c ia son b an da s p e rce p tu a lm e n te m o tiva da s, q ue cu b re n m ás co n te n e d o re s de fre cu e n c ia a fre cu e n c ia s m á s a ltas.
En a lg u n a s re a liza c io n e s , en la e ta pa 804, el s e rv id o r 102 e stá p ro g ra m a d o para e n tre n a r un m o de lo de red n eu ro na l. El m o d e lo de red n eu ro na l co m p re n d e un b lo q ue de e x tra cc ió n de c a ra c te rís tica s que im p le m e n ta una a n tic ip a c ió n de un n úm e ro e sp e c ífico de tra m a s en la e x tra cc ió n de c a ra c te rís tica s a p artir de los d a tos de a ud io de e n tra da ; un co d ific a d o r que in c lu ye una p rim e ra se r ie de b lo q u e s q ue p rod u ce n m a pa s de ca ra c te rís tica s c o rre sp o n d ie n te s a ca m p o s re ce p tivo s cad a ve z m ás g ra n d e s en los d a to s de a ud io de e n tra d a a lo la rgo de la d im e n s ió n de fre cu e n c ia ; un d e s c o d ific a d o r q ue in c lu ye una s e g u n d a se r ie de b lo q u e s q ue rec iben m a pa s de c a ra c te rís tica s de sa lid a g e n e ra d o s p o r el co d ific a d o r com o m a pa s de c a ra c te rís tica s de e n tra da ; y un b lo q ue de c la s ifica c ió n q ue g e n e ra un v a lo r de h ab la que ind ica una ca n tid a d de h ab la p re se n te p ara cad a b anda de fre cu e n c ia de la p lu ra lid a d de b a n d a s de fre cu e n c ia en cada tra m a de la p lu ra lida d de tra m as .
En a lg u n a s re a liza c io n e s , el b lo q u e de e x tra cc ió n de c a ra c te rís tica s tie n e un kerne l de co n vo lu c ió n q ue tie n e un ta m a ñ o e sp e c ífico a lo la rg o de la d im e n s ió n de tie m p o , y el co d ific a d o r y el d e sc o d ific a d o r no tie n e n un kerne l de co n vo lu c ió n q ue tie n e un ta m a ñ o a lo la rgo de la d im e n s ió n de tie m p o q ue es igua l o m a yo r que el ta m a ñ o e sp e c ífico . En o tras re a liza c io ne s , cad a uno del b lo q ue de e x tra cc ió n de ca ra c te rís tica s , la p rim e ra se r ie de b lo q u e s y la s e g u n d a se rie de b lo q u e s p ro d u ce un n ú m e ro com ú n de m a pa s de ca ra c te rís tica s .
En a lg u n a s re a liza c io n e s , el b lo q u e de e x tra cc ió n de ca ra c te rís tic a s co m p re n d e una cap a de n o rm a liza c ió n de lo te s se g u id a de una capa c o n vo lu c io n a l con un kerne l de co n vo lu c ió n b id im e n s io n a l.
De a cu e rd o con la inve nc ión , cad a b lo q ue de la p rim e ra se rie de b lo q u e s en el co d ific a d o r co m p re n d e un b loque de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r d e sce n d e n te de fre cu e n c ia . El b lo q ue de cá lcu lo de c a ra c te rís tica s co m p re n d e una se r ie de cap as co n vo lu c io n a le s .
De a cu e rd o con la inve nc ión , d a tos de sa lid a de una cap a co n vo lu c io n a l de la se r ie de cap as co n vo lu c io n a le s se a lim e n ta n a to d a s las cap as co n vo lu c io n a le s p o s te rio re s de la se r ie de cap as c o n vo lu c io n a le s . La se r ie de cap as c o n vo lu c io n a le s im p le m e n ta una d ila ta c ió n cad a ve z m a yo r a lo la rgo de la d im e n s ió n de tie m p o . En re a liza c io n e s , ca d a una de la se r ie de cap as co n vo lu c io n a le s co m p re n d e b lo q u e s c o n vo lu c io n a le s se p a ra b le s en p ro fu n d id a d con un m e ca n ism o de uso de puertas.
En a lg u n a s re a liza c io n e s , cad a una de la se r ie de cap as co n vo lu c io n a le s co m p re n d e un b lo q ue res idua l que tie n e una se rie de b lo q u e s c o n vo lu c io n a le s , que in c lu ye un p rim e r b lo q u e co n vo lu c io n a l q ue tie n e un p rim e r kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno y un ú ltim o b lo q u e co n vo lu c io n a l q ue tie n e un ú ltim o kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno.
En a lg u n a s re a liza c io n e s , d a tos de sa lid a de un b lo q u e de cá lcu lo de c a ra c te rís tica s en un b lo q ue de la p rim era se r ie de b lo q u e s se e sca la n m e d ia n te un peso a p re n d ib le para fo rm a r d a tos de sa lid a e sca la d os , y los d a tos de sa lid a e sca la d o s se co m u n ica n a un b lo q u e de la s e g u n d a se r ie de b lo q u e s en el d e s c o d ific a d o r p or m e d ia c ió n de una con e x ió n de sa lto .
En a lg u n a s re a liza c io n e s , un m u e s tre a d o r d e sce n d e n te de fre cu e n c ia de un b lo q u e en la p rim e ra se rie de b lo q u e s co m p re n d e ke rn e ls de co n vo lu c ió n con un ta m a ñ o de paso m a yo r q ue uno a lo la rgo de la d im e n s ió n de fre cu e n c ia .
En a lg u n a s re a liza c io n e s , cada b lo q ue de la s e g u n d a se r ie de b lo q u e s co m p re n d e un b lo q u e de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r a sc e n d e n te de fre cu e n c ia . Un b lo q ue de cá lcu lo de c a ra c te rís tica s en un b loque de la s e g u n d a se r ie de b lo q ue s re c ibe p rim e ro s da tos de sa lid a de un b lo q ue de cá lcu lo de c a ra c te rís tica s en un b lo q ue de la p rim e ra se rie de b lo q u e s y s e g u n d o s d a tos de s a lid a de un m u e s tre a d o r a sce n d e n te de fre cu e n c ia de un b lo q ue p rev io en la s e g u n d a se rie de b loques. Los p rim e ros d a tos de sa lid a y los s e g u n d o s d a tos de sa lid a se co n ca te n a n o a ñ a d e n e n to n ce s para fo rm a r da tos de e n tra d a e sp e c ífico s p ara el b lo q ue de cá lcu lo de c a ra c te rís tica s en el b lo q ue de la s e g u n d a se rie de b loques.
En a lg u n a s re a liza c io n e s , el b lo q ue de c la s if ica c ió n co m p re n d e un kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno y una fu n c ió n de a c tivac ión no linea l.
En a lg u n a s re a liza c io n e s , el m o d e lo de red neu ro na l co m p re n d e a d e m á s un b lo q ue de cá lcu lo de ca ra c te rís tica s q ue son d a tos de sa lid a del co d ific a d o r y d a tos de e n tra d a del d e scod ifica do r.
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 e stá p ro g ra m a d o p ara re a liza r el e n tre n a m ie n to con una fu n c ió n de p é rd ida e n tre un v a lo r de h ab la p re d ich o y un v a lo r de h ab la de v e rd a d fu n d a m e n ta l para cad a b an da de fre cu e n c ia de la p lu ra lid a d de b a n d a s de fre cu e n c ia en cad a tra m a , con un peso m a yo r en la fu n c ió n de p érd ida cu a n d o el v a lo r de h ab la p re d ich o c o rre sp o n d e a una so b re su p re s ió n de h ab la y un p eso m e n o r en la fu n c ió n de p é rd ida cu a n d o el v a lo r de h ab la p re d ich o c o rre sp o n d e a una s u b su p re s ió n de hab la. En a lg u n a s re a liza c io ne s , el b lo q ue de c la s if ica c ió n g e n e ra a d e m á s una d is trib u c ió n de c a n tid a d e s de hab la so b re una b an da de fre cu e n c ia de la p lu ra lid a d de b an da s de fre cu e n c ia en una tra m a , s ie n d o el v a lo r de h ab la una m e d ia de la d is trib uc ió n .
En a lg u n a s re a liza c io n e s , los d a to s de a ud io de e n tra d a co m p re n d e n d a tos c o rre sp o n d ie n te s a h ab la de d ife re n te s ve lo c id a d e s o e m oc ion es , d a tos q ue co n tie n e n d ife re n te s n ive les de ru ido , o d a tos c o rre sp o n d ie n te s a d ife re n te s c o n te n e d o re s de fre cu e n c ia .
En a lg u n a s re a liza c io n e s , en la e ta p a 806, el s e rv id o r 102 e s tá p ro g ra m a d o para re c ib ir n u e vo s d a tos de a ud io q ue co m p re n d e n una o m ás tra m as .
En a lg u n a s re a liza c io ne s , en la e ta pa 808, el s e rv id o r 102 e s tá p ro g ra m a d o para e je cu ta r el m o d e lo de red n eu ro na l en los n u e vo s d a tos de a ud io para g e n e ra r n ue vo s va lo re s de h ab la para cad a b anda de fre cu e n c ia de la p lu ra lid a d de b an da s de fre cu e n c ia en cad a tra m a de la una o m ás tra m as .
En a lg u n a s re a liza c io n e s , en la e ta pa 810, el s e rv id o r 102 se p ro g ra m a para g e n e ra r n u e vo s d a tos de sa lid a que su p rim e n ru ido en los n u e vo s d a to s de a ud io en base a los n u e vo s va lo re s de habla.
En a lg u n a s re a liza c io n e s , en la e ta pa 812, el s e rv id o r 102 e stá p ro g ra m a d o para tra n s m itir los n u e vo s d a tos de sa lida .
En a lg u n a s re a liza c io n e s , el s e rv id o r 102 e stá p ro g ra m a d o p ara re c ib ir una fo rm a de o nd a de e n tra da . El s e rv id o r 102 e stá p ro g ra m a d o para tra n s fo rm a r e n to n ce s la fo rm a de o nd a de e n tra d a en d a tos de a ud io b ru tos que cu b re n una p lu ra lid a d de c o n te n e d o re s de fre cu e n c ia a lo la rgo de la d im e n s ió n de fre cu e n c ia en la una o m ás tra m a s a lo la rgo de la d im e n s ió n de tie m p o . El s e rv id o r 102 se p ro g ra m a para co n ve rtir e n to n ce s los d a tos de a ud io b ru tos en los n u e vo s d a to s de a ud io a g ru p a n d o la p lu ra lid a d de co n te n e d o re s de fre cu e n c ia en la p lu ra lid a d de b an da s de fre cu e n c ia . El s e rv id o r 102 e stá p ro g ra m a d o para re a liza r b a n d e a d o in ve rso so b re los n u e vo s va lo re s de h ab la para g e n e ra r v a lo re s de h ab la a c tu a liza d o s para cad a co n te n e d o r de fre cu e n c ia de la p lu ra lid a d de c o n te n e d o re s de fre cu e n c ia en ca d a tra m a de la una o m ás tra m a s . A d e m á s, el s e rv id o r 102 está p ro g ra m a d o p ara a p lica r e n to n ce s los va lo re s de h ab la a c tu a liza d o s a los d a tos de a ud io b ru tos p ara g e n e ra r los n u e vo s d a tos de sa lid a . F in a lm e n te , el s e rv id o r 102 e stá p ro g ra m a d o para tra n s fo rm a r los n u e vo s d a tos de sa lid a en una fo rm a de o nd a p o ten c iad a .
6. IM P L E M E N T A C IÓ N DE H A R D W A R E
De a cu e rd o con una re a liza c ió n , las té c n ica s d e sc rita s en el p re se n te d o cu m e n to se im p le m e n ta n m e d ia n te al m e no s un d isp o s itivo in fo rm á tico . Las té c n ica s p ueden im p le m e n ta rse en su to ta lid a d o en p arte u sa nd o una co m b in a c ió n de al m e no s un o rd e n a d o r de s e rv id o r y /u o tros d isp o s itivo s in fo rm á tico s que se a co p la n u sando una red, ta l com o una red de d a tos p o r paq ue te s . Los d isp o s itivo s in fo rm á tico s p ueden e s ta r ca b le a d o s para re a liza r las té cn ica s , o p ueden in c lu ir d isp o s itivo s e le c tró n ico s d ig ita le s ta le s com o al m e no s un c ircu ito in te g ra d o de a p lica c ió n e sp e c ífica (A S IC ) o una m a triz de p u e rta s p ro g ra m a b le s de ca m p o (F P G A ) q ue e stá p ro g ra m a d o de m a ne ra p e rs is te n te para re a liza r las té cn ica s , o p ueden in c lu ir al m e no s un p ro c e sa d o r de h a rd w a re de p ro p ó s ito g en e ra l p ro g ra m a d o para re a liza r las té c n ica s de co n fo rm id a d con in s tru cc io n e s de p ro g ra m a en firm w a re , m e m oria , o tro a lm a ce n a m ie n to o una co m b in a c ió n . Ta les d isp o s itivo s in fo rm á tico s ta m b ié n p ueden co m b in a r lóg ica c a b le a d a p e rso n a liza d a , A S IC o F P G A con p ro g ra m a c ió n p e rso n a liza d a p ara lo g ra r las té cn ica s d escritas . Los d isp o s itivo s in fo rm á tico s p ue de n s e r o rd e n a d o re s de se rv id o r, e s ta c io n e s de tra b a jo , o rd e n a d o re s p e rso na les , s is te m a s de o rd e n a d o r p ortá tile s , d isp o s itivo s p o rtá tile s , d isp o s itivo s in fo rm á tico s m óviles, d isp o s itivo s lleva b le s , d isp o s itivo s m o n ta d o s en el cue rp o o im p la n ta b le s , te lé fo n o s in te lig e n te s , a p a ra to s in te lig e n te s , d isp o s itivo s de in te rco n e x ió n de redes, d isp o s itivo s a u tó n o m o s o s e m ia u tó n o m o s ta le s com o robo ts o v e h ícu lo s a é re o s o te rre s tre s no trip u la d o s , cu a lq u ie r o tro d isp o s itivo e le c tró n ico q ue in co rp o re lóg ica ca b le a d a y /o de p ro g ra m a para im p le m e n ta r las té c n ica s d escritas , una o m ás m á q u in a s o in s ta n c ia s in fo rm á tica s v irtu a le s en un ce n tro de d a tos y /o una red de o rd e n a d o re s de s e rv id o r y /u o rd e n a d o re s pe rso na les .
La fig u ra 9 es un d ia g ra m a de b lo q u e s q ue ilus tra un s is te m a de o rd e n a d o r de e je m p lo con el q ue se puede im p le m e n ta r una re a liza c ió n . En el e je m p lo de la fig u ra 9, un s is te m a de o rd e n a d o r 900 e in s tru cc io n e s para im p le m e n ta r las te c n o lo g ía s d ivu lg a d a s en h ard w are , so ftw a re o una co m b in a c ió n de h a rd w a re y so ftw a re , se re p re se n ta n e sq u e m á tica m e n te , p o r e je m p lo com o cu a d ra d o s y c írcu lo s, al m ism o n ive l de d e ta lle que se usa c o m ú n m e n te p o r p e rso n a s con e xp e rie n c ia o rd in a ria en la té c n ica a la que e sta d ivu lg a c ió n p e rte n e ce para co m u n ica r im p le m e n ta c io n e s de a rq u ite c tu ra de o rd e n a d o r y s is te m a s de o rdenador.
El s is te m a de o rd e n a d o r 900 in c lu ye un s u b s is te m a de e n tra d a /sa lid a (E /S ) 902 que p uede in c lu ir un bus y /u o tro u o tros m e ca n ism o s de c o m u n ica c ió n para c o m u n ic a r in fo rm a c ió n y /o in s tru cc io n e s e n tre los co m p o n e n te s del s is te m a de o rd e n a d o r 900 a tra vé s de tra ye c to ria s de señ a l e le c tró n ica s . El su b s is te m a de E /S 902 p uede inc lu ir un co n tro la d o r de E /S, un co n tro la d o r de m e m o ria y al m e no s un p ue rto de E/S. Las tra ye c to ria s de seña l e le c tró n ica s se re p re se n ta n e sq u e m á tic a m e n te en los d ibu jos , p o r e je m p lo co m o líneas, fle c h a s u n id ire cc io n a le s o fle c h a s b id ire cc io n a le s .
A l m e no s un p ro ce sa d o r de h a rd w a re 904 e stá a co p la d o al su b s is te m a de E /S 902 para p ro ce sa r in fo rm a c ió n e in s tru cc io n e s . El p ro ce sa d o r de h a rd w a re 904 p uede inclu ir, p o r e je m p lo , un m ic ro p ro c e s a d o r o m ic ro co n tro la d o r de p ro p ó s ito g en e ra l y /o un m ic ro p ro c e s a d o r de p ro p ó s ito e sp ec ia l ta l com o un s is te m a e m b e b id o o una u n idad de p ro ce sa m ie n to g rá fico (G P U ) o un p ro ce sa d o r de se ñ a l d ig ita l o p ro c e sa d o r A R M . El p ro c e sa d o r 904 puede c o m p re n d e r una u n id ad a ritm é tica lóg ica in te g ra d a (A L U ) o p uede e s ta r a co p la d o a una A L U sep a ra d a .
El s is te m a de o rd e n a d o r 900 in c lu ye una o m ás u n id a d e s de m e m o ria 906, ta l com o una m e m o ria p rinc ip a l, que e sta a co p la d a al su b s is te m a de E /S 902 para a lm a c e n a r e le c tró n ic a m e n te de m a ne ra d ig ita l d a tos e in s tru cc io n e s q ue va n a e je cu ta rse p o r el p ro ce sa d o r 904. La m e m o ria 906 p uede in c lu ir m e m o ria vo lá til ta l com o d ive rsa s fo rm a s de m e m o ria de a cce so a le a to rio (R A M ) u o tro d isp o s itivo de a lm a ce n a m ie n to d in á m ico . La m e m o ria 906 ta m b ié n p uede u sa rse para a lm a c e n a r va r ia b le s te m p o ra le s u o tra in fo rm a c ió n in te rm e d ia d u ra n te la e je cu c ió n de in s tru cc io n e s q ue va n a e je cu ta rse p o r el p ro ce sa d o r 904. Ta les in s tru cc io n e s , cu a n d o se a lm a ce n a n en m e d io s de a lm a ce n a m ie n to le g ib le s p o r o rd e n a d o r no tra n s ito r io s a cce s ib le s al p ro ce sa d o r 904, p ueden h ace r q ue el s is te m a de o rd e n a d o r 900 se co n v ie rta en una m á q u in a de p ro p ó s ito e sp e c ia l que se p e rso n a liza p ara re a liza r las o p e ra c io n e s e sp e c ifica d a s en las ins tru cc io n e s .
El s is te m a de o rd e n a d o r 900 in c lu ye a d e m á s m e m o ria no vo lá til ta l com o m e m o ria de so lo le c tu ra (R O M ) 908 u o tro d isp o s itivo de a lm a ce n a m ie n to e s tá tico a co p la d o al s u b s is te m a de E /S 902 p ara a lm a ce n a r in fo rm a c ió n e in s tru cc io n e s p ara el p ro ce sa d o r 904. La R O M 908 p ue de in c lu ir d ive rsa s fo rm a s de R O M p ro g ra m a b le (P R O M ), ta l com o p R o M b o rra b le (E P R O M ) o P R o M b o rra b le e lé c tr ica m e n te (E E P R o M). U na u n id ad de a lm a ce n a m ie n to p e rs is te n te 910 p ue de in c lu ir d ive rsa s fo rm a s de R AM no vo lá til (N V R A M ), ta l com o m e m oria F LA S H , o a lm a c e n a m ie n to de e s ta d o só lid o , d isco m a g n é tico o d isco ó p tico ta l com o C D -R O M o D V D -R O M , y p ue de e s ta r a co p la d a al su b s is te m a de E /S 902 para a lm a c e n a r in fo rm a c ió n e in s tru cc io n e s . El a lm a ce n a m ie n to 910 es un e je m p lo de un m e d io no tra n s ito r io le g ib le p o r o rd e n a d o r que p uede u sa rse para a lm a ce n a r in s tru cc io n e s y d a tos que cu a n d o se e je cu ta n p o r el p ro ce sa d o r 904 hacen q ue se re a lice n m é to do s im p le m e n ta d o s p o r o rd e n a d o r para e je cu ta r las té c n ica s en el p re se n te d ocum e n to .
Las in s tru cc io n e s en la m e m o ria 906, la R O M 908 o el a lm a ce n a m ie n to 910 p ueden c o m p re n d e r uno o m ás co n ju n to s de in s tru cc io n e s que se o rg a n iza n com o m ó du los , m é todos , ob je to s , fu n c io n e s , ru tina s o lla m a d a s . Las in s tru cc io n e s p ueden o rg a n iza rse co m o uno o m ás p ro g ra m a s de o rdenador, s e rv ic io s de s is te m a o p e ra tivo o p ro g ra m a s de a p lica c ió n , in c lu id a s a p lica c io n e s m ó viles . Las in s tru cc io n e s p ueden c o m p re n d e r un s is te m a o p e ra tivo y /o so ftw a re de s is te m a ; una o m ás b ib lio te ca s para s o p o rta r fu n c io n e s m u ltim e d ia , de p ro g ra m a c ió n u o tras ; p ila s o in s tru cc io n e s de p ro to co lo s de da tos para im p le m e n ta r TC P/IP , H T T P u o tros p ro to co lo s de co m u n ica c ió n ; in s tru cc io n e s de p ro ce sa m ie n to de a rch ivo s para in te rp re ta r y re n d e riza r a rch ivo s co d ifica d o s u sa nd o H TM L, X M L, JP E G , M P E G o PN G ; in s tru cc io n e s de in te rfa z de u su a rio para re n d e riza r o in te rp re ta r co m a n d o s para una in te rfa z g rá fica de u su a rio (G U I), in te rfa z de líne a de co m a n d o o in te rfa z de u su a rio de texto; so ftw a re de a p lica c ió n ta l com o un p aq ue te de a p lica c io n e s de o fic ina , a p lica c io n e s de a cce so a in te rne t, a p lica c io n e s de d ise ñ o y fa b rica c ió n , a p lica c io n e s g rá ficas , a p lica c io n e s de aud io, a p lica c io n e s de in g e n ie ría de so ftw a re , a p lica c io n e s e du ca tiva s , ju e g o s o a p lica c io n e s m isce lá n e a s . Las in s tru cc io n e s p ueden im p le m e n ta r un s e rv id o r w eb , un s e rv id o r de a p lica c io n e s w e b o un c lie n te w eb . Las in s tru cc io n e s p ue de n o rg a n iza rse com o una ca p a de p re se n ta c ió n , una cap a de a p lica c ió n y una cap a de a lm a ce n a m ie n to de da tos ta l com o un s is te m a de base de d a tos re lac io na l q ue usa le n g u a je de co n su lta e s tru c tu ra d o (S Q L) o N oS Q L, un a lm a c e n a m ie n to de ob je to s , una base de d a tos de g rá ficos , un s is te m a de a rch ivo s p la n os u o tro a lm a c e n a m ie n to de datos.
El s is te m a de o rd e n a d o r 900 p uede e s ta r a co p la d o p o r m e d ia c ió n del s u b s is te m a de E /S 902 a al m e no s un d isp o s itivo de sa lid a 912. En una re a liza c ió n , el d isp o s itivo de sa lid a 912 es un v isu a liz a d o r de o rd e n a d o r d ig ita l. E je m p lo s de un v is u a liz a d o r q ue se p uede usa r en d ive rsa s re a liza c io n e s in c lu ye n un v is u a liz a d o r de pan ta lla tá c til o un v isu a liz a d o r de d iodo e m iso r de luz (L E D ) o un v is u a liz a d o r de c ris ta l líqu ido (L C D ) o un v isu a liz a d o r de pape l e le c trón ico . El s is te m a de o rd e n a d o r 900 p uede in c lu ir o tro u o tro s tip o s de d isp o s itivo s de sa lid a 912, a lte rn a tiva m e n te o a d e m á s de un d isp o s itivo de v isu a liza c ió n . E je m p lo s de o tro s d isp o s itivo s de sa lid a 912 in c lu ye n im p re so ra s , im p re so ra s de b ille tes , tra za d o re s g rá ficos , p roye cto re s , ta r je ta s de s o n id o o ta r je ta s de v íd e o , a lta voces , z u m b a d o re s o d isp o s itivo s p ie zo e lé c trico s u o tros d isp o s itivo s a ud ib le s , lá m p a ra s o in d ica d o re s LE D o LCD, d isp o s itivo s h áp tico s, a cc io n a d o re s o servos.
A l m e no s un d isp o s itivo de e n tra d a 914 e stá a co p la d o al s u b s is te m a de E /S 902 para c o m u n ic a r se ñ a le s , datos, se le cc io n e s de co m a n d o o g es tos al p ro c e sa d o r 904. E je m p lo s de d isp o s itivo s de e n tra d a 914 in c lu ye n p an ta llas tá c tile s , m ic ró fon os , cá m a ra s d ig ita le s fija s y de v íd e o , te c la s a lfa n u m é rica s y de o tro tipo , te c la d o s num éricos , te c la d o s , ta b le ta s g rá ficas , e scá n e re s de im á ge ne s, p a la n ca s de m ando, re lo jes, c o n m u ta d o re s , bo tones, d ia les, p o rta o b je to s y /o d ive rso s tip o s de se n so re s ta le s com o se n s o re s de fue rza , se n s o re s de m o v im ie n to , sen so re s de calor, a ce le ró m e tro s , g iro sco p io s y se n s o re s de u n idad de m e d ic ió n ine rc ia l (IM U ) y /o d ive rso s tip o s de tra n s c e p to re s ta le s com o tra n s c e p to re s ina lá m b rico s , ta le s com o c e lu la re s o W i-F i, de ra d io fre cu e n c ia (R F) o in fra rro jo s (IR ), y tra n s c e p to re s de s is te m a de p o s ic io n a m ie n to g loba l (G P S ).
O tro tip o de d isp o s itivo de e n tra d a es un d isp o s itivo de con tro l 916, q ue p uede re a liza r con tro l de cu rso r u o tras fu n c io n e s de con tro l a u to m a tiza d a s ta le s com o n a ve g a c ió n en una in te rfa z g rá fica en una p a n ta lla de v isu a liza c ió n , a lte rn a tiv a m e n te o a d e m á s de fu n c io n e s de e n tra da . El d isp o s itivo de con tro l 916 p uede s e r un pane l tác til, un ra tón , una bola de se g u im ie n to o te c la s de d ire cc ió n de cu rso r para c o m u n ic a r in fo rm a c ió n de d ire cc ió n y se le cc io n e s de co m a n d o al p ro ce sa d o r 904 y p ara co n tro la r el m o v im ie n to de cu rso r en el v is u a liz a d o r 912. El d isp o s itivo de e n tra d a p ue de te n e r al m e no s dos g ra d o s de lib e rta d en d os e jes, un p rim e r e je (p o r e je m p lo , x ) y un s e g u n d o e je (p o r e je m p lo , y), que p e rm ite n que el d isp o s itivo e sp e c ifiq u e p o s ic io n e s en un p lano. O tro tip o de d isp o s itivo de e n tra d a es un d isp o s itivo de con tro l cab lea do , in a lá m b rico u ó p tico ta l com o una p a la n ca de m ando, va rilla , con so la , vo la n te de d irecc ión , pedal, m e ca n ism o de c a m b io de m a rch a s u o tro tip o de d isp o s itivo de con tro l. Un d isp o s itivo de e n tra d a 914 p uede in c lu ir una co m b in a c ió n de m ú ltip les d isp o s itivo s de e n tra d a d ife re n te s , ta le s com o una cá m a ra de v íd e o y un s e n s o r de p ro fu nd ida d .
En o tra re a liza c ió n , el s is te m a de o rd e n a d o r 900 p uede c o m p re n d e r un d isp o s itivo de In te rn e t de las co sa s (IoT) en el que se o m iten uno o m ás del d isp o s itivo de sa lid a 912, el d isp o s itivo de e n tra d a 914 y el d isp o s itivo de con tro l 916. O, en ta l re a liza c ió n , el d isp o s itivo de e n tra d a 914 p ue de c o m p re n d e r una o m ás cám aras, d e te c to re s de m o v im ie n to , te rm ó m e tro s , m ic ró fon os , d e te c to re s s ísm ico s , o tro s se n so re s o de tec to res , d isp o s itivo s de m e d ic ión o c o d ifica d o re s y el d isp o s itivo de sa lid a 912 p uede c o m p re n d e r un v is u a liz a d o r de p ro p ó s ito e sp ec ia l ta l com o un v isu a liz a d o r LED o LCD de una so la línea, uno o m ás in d ica d o re s , un panel de v isu a liza c ió n , un m edidor, una vá lvu la , un so le no ide , un a cc io n a d o r o un servo .
C u a n d o el s is te m a de o rd e n a d o r 900 es un d isp o s itivo in fo rm á tico m óvil, el d isp o s itivo de e n tra d a 914 puede c o m p re n d e r un re ce p to r de s is te m a de p o s ic io n a m ie n to g lo b a l (G P S ) a co p la d o a un m ó d u lo de G P S q ue es ca p a z de tr ia n g u la r a una p lu ra lid a d de s a té lite s de G P S , d e te rm in a n d o y g e n e ra n d o d a tos de g e o lo ca liza c ió n o p os ic ió n ta le s com o v a lo re s de la titu d -lo n g itu d para una lo ca liza c ió n g e o fís ica del s is te m a de o rd e n a d o r 900. El d isp o s itivo de s a lid a 912 p uede in c lu ir h a rd w are , so ftw a re , firm w a re e in te rfa ce s para g e n e ra r p aq u e te s de in fo rm e de p os ic ió n , n o tifica c io n e s , se ñ a le s de p u lso o la tido , u o tra s tra n s m is io n e s de d a tos re cu rre n te s que e sp e c ifica n una p os ic ió n del s is te m a de o rd e n a d o r 900, so lo o en co m b in a c ió n con o tro s d a to s e sp e c ífico s de a p lica c ió n , d ir ig id o s h ac ia el a n fitrión 924 o el s e rv id o r 930.
El s is te m a de o rd e n a d o r 900 p ue de im p le m e n ta r las té cn ica s d e sc rita s en el p re se n te d o cu m e n to u sa nd o lóg ica c a b le a d a p e rso n a liza d a , al m enos un A S IC o FP G A , firm w a re y /o ló g ica o in s tru cc io n e s de p ro g ra m a q ue cua nd o se ca rga n y usan o e je cu ta n en co m b in a c ió n con el s is te m a de o rd e n a d o r p ro vo ca n o p ro g ra m a n q ue el s is te m a de o rd e n a d o r o p e re com o una m á q u in a de p ro p ó s ito e sp ec ia l. De a cu e rd o con una re a liza c ió n , las té cn ica s en el p re se n te d o cu m e n to se re a lizan por el s is te m a de o rd e n a d o r 900 en re sp u e s ta a q ue el p ro c e sa d o r 904 e je cu ta al m e no s una se cu e n c ia de al m e no s una in s tru cc ió n co n te n id a en la m e m o ria p rinc ip a l 906. Ta les in s tru cc io n e s p ue de n lee rse en la m e m o ria p rinc ip a l 906 d esde o tro m e d io de a lm a ce n a m ie n to , ta l co m o el a lm a ce n a m ie n to 910. La e je cu c ió n de las se cu e n c ia s de in s tru cc io n e s c o n te n id a s en la m e m o ria p rinc ip a l 906 hace q ue el p ro c e sa d o r 904 re a lice las e ta p a s de p ro ce so d e sc rita s en el p re se n te d ocum e n to . En re a liza c io n e s a lte rn a tivas , se p uede usa r c ircu ite ría ca b le a d a en lu g a r de o en co m b in a c ió n con in s tru cc io n e s de so ftw a re .
El té rm in o “ m e d io s de a lm a c e n a m ie n to ” , com o se usa en el p re se n te d ocum e n to , se re fie re a cu a lq u ie r m ed io no tra n s ito r io q ue a lm a ce n e d a tos y /o in s tru cc io n e s que h agan q ue una m á q u in a o pe re de una m a ne ra esp ec ífica . Ta les m e d io s de a lm a c e n a m ie n to p ueden c o m p re n d e r m e d io s no vo lá tile s y /o m e d io s vo lá tile s . Los m e d io s no v o lá tile s inc lu ye n , p o r e je m p lo , d iscos ó p tico s o m a gn é ticos , ta le s com o el a lm a ce n a m ie n to 910. Los m edios v o lá tile s in c lu ye n m e m o ria d in á m ica , ta l com o la m e m o ria 906. F o rm a s co m u n e s de m e d io s de a lm a ce n a m ie n to inc lu ye n , p o r e je m p lo , un d isco duro , una u n id ad de e s ta d o só lid o , una u n id ad fla sh , un m e d io de a lm a c e n a m ie n to de d a tos m a gn é ticos , cu a lq u ie r m e d io de a lm a ce n a m ie n to de d a tos ó p tico o fís ico , un ch ip de m e m o ria o s im ila res .
Los m e d io s de a lm a ce n a m ie n to son d is tin to s de, p e ro p ueden u sa rse ju n to con, los m e d io s de tra n sm is ió n . Los m e d io s de tra n s m is ió n p a rtic ip a n en la tra n s fe re n c ia de in fo rm a c ió n e n tre m e d io s de a lm a ce n a m ie n to . P or e je m p lo , los m e d io s de tra n s m is ió n in c lu ye n ca b le s coa x ia les , cab le de cob re y fib ra óp tica , in c lu ye n d o los cab les q ue co m p re n d e n un bus del s u b s is te m a de E /S 902. Los m e d io s de tra n s m is ió n ta m b ié n p ueden a d o p ta r la fo rm a de o nd as a cú s tica s o de luz, ta le s co m o las g e n e ra d a s d u ra n te las co m u n ica c io n e s de d a tos p o r o nd as de rad io e in fra rro jo s .
D ive rsa s fo rm a s de m e d io s p ueden e s ta r im p lica d a s en tra n s p o rta r al m e no s una s e cu e n c ia de al m e no s una in s tru cc ió n al p ro ce sa d o r 904 p ara su e je cu c ió n . P o r e je m p lo , las in s tru cc io n e s p ueden s e r lle va d a s in ic ia lm e n te en un d isco m a g n é tico o u n id ad de e s ta do só lid o de un o rd e n a d o r rem o to . El o rd e n a d o r rem o to p ue de ca rg a r las in s tru cc io n e s en su m e m o ria d in á m ica y e n v ia r las in s tru cc io n e s a tra vé s de un e n la ce de c o m u n ica c ió n ta l com o un cab le coa x ia l u ó p tico de fib ra o líne a te le fó n ica u sa n d o un m ó de m . Un m ó de m o e n ru ta d o r loca l al s is te m a de o rd e n a d o r 900 p ue de re c ib ir los d a tos en el e n la ce de co m u n ica c ió n y co n ve rtir los d a to s a le e r p o r el s is te m a de o rd e n a d o r 900. P o r e je m p lo , un re ce p to r ta l co m o una a n te n a de ra d io fre cu e n c ia o un d e te c to r in fra rro jo puede re c ib ir los d a tos tra n s p o rta d o s en una señ a l in a lá m b rica u ó p tica y c ircu ite ría a p ro p ia d a p uede p ro p o rc io n a r los d a tos al s u b s is te m a de E /S 902 ta l com o c o lo ca r los d a to s en un bus. El s u b s is te m a de<e>/<s>902 lle va los d a tos a la m e m o ria 906, d esde la cua l el p ro ce sa d o r 904 re cu p e ra y e je cu ta las in s tru cc io n e s . Las in s tru cc io n e s re c ib id as p o r la m e m o ria 906 p ue de n a lm a ce n a rse o p c io n a lm e n te en el a lm a ce n a m ie n to 910 ya se a a n tes o d e sp u é s de la e je cu c ió n p or el p ro ce sa d o r 904.
El s is te m a de o rd e n a d o r 900 ta m b ié n in c lu ye una in te rfa z de co m u n ica c ió n 918 a co p la d a al bus 902. La in te rfaz de co m u n ica c ió n 918 p ro p o rc io n a un a co p la m ie n to de c o m u n ica c ió n de d a tos b id ire cc io n a l al e n la ce o e n la ce s de red 920 q ue e stán d irec ta o in d ire c ta m e n te co n e c ta d o s a al m e no s una red de c o m u n ica c ió n , ta l com o una red 922 o una nube p úb lica o p riva d a en In te rne t. P or e je m p lo , la in te rfa z de co m u n ica c ió n 918 p ue de se r una in te rfa z de con e x ió n de re de s de E the rn e t, una ta rje ta de red d ig ita l de s e rv ic io s in te g ra d o s (IS D N ), un m ó de m de cab le , un m ó de m de sa té lite , o un m ó de m p ara p ro p o rc io n a r una co n e x ió n de c o m u n ica c ió n de d a tos a un tipo co rre sp o n d ie n te de líne a de co m u n ica c io n e s , p o r e je m p lo un cab le E th e rn e t o un cab le m e tá lico de cu a lq u ie r tip o o una línea de fib ra ó p tica o una línea te le fó n ica . La red 922 re p re se n ta en té rm in o s g e n e ra le s una red de á rea loca l (LA N ), una red de á rea a m p lia (W A N ), una red de cam p us , una red de In te rn e t o cu a lq u ie r co m b in a c ió n de las m ism as. La in te rfa z de co m u n ica c ió n 918 p ue de c o m p re n d e r una ta r je ta LAN p ara p ro p o rc io n a r una con ex ió n de co m u n ica c ió n de d a tos a una LAN com p a tib le , o una in te rfa z de ra d io te lé fo n o ce lu la r que e sté ca b le a d a para e n v ia r o re c ib ir d a tos c e lu la re s de a cu e rd o con n o rm as de con e x ió n de re de s in a lá m b rica de ra d io te lé fo n o s ce lu la res , o una in te rfa z de ra d io por sa té lite q ue e sté ca b le a d a para e n v ia r o re c ib ir d a tos d ig ita le s de a cu e rd o con n o rm as de con e x ió n de re de s in a lá m b rica p o r sa té lite . En cu a lq u ie ra de ta le s im p le m e n ta c io n e s , la in te rfaz de c o m u n ica c ió n 918 e nv ía y rec ibe se ñ a le s e lé c tricas , e le c tro m a g n é tic a s u ó p tica s p o r tra ye c to ria s de señ a l que tra n sp o rta n to rre n te s de d a tos d ig ita le s q ue re p re se n ta n d ive rso s tip o s de in fo rm a c ión .
El e n la ce de red 920 n o rm a lm e n te p ro p o rc io n a c o m u n ica c ió n de d a tos e lé c trica , e le c tro m a g n é tic a u ó p tica d ire c ta m e n te o a tra vé s de al m e no s una red a o tros d isp o s itivo s de datos , usando , por e je m p lo , te c n o lo g ía de sa té lite , ce lu lar, W i-F i o B L U E T O O T H . P o r e je m p lo , el e n la ce de red 920 p uede p ro p o rc io n a r una con ex ió n a tra vé s de una red 922 a un o rd e n a d o r de a n fitr ió n 924.
A d e m á s , el e n la ce de red 920 p ue de p ro p o rc io n a r una con ex ió n a tra vé s de la red 922 o a o tro s d isp o s itivo s in fo rm á tico s p o r m e d ia c ió n de d isp o s itivo s de in te rco n e x ió n de re de s y /u o rd e n a d o re s que son o p e ra d o s p o r un p ro v e e d o r de s e rv ic io s de In te rn e t (IS P ) 926. El ISP 926 p ro p o rc io n a se rv ic io s de co m u n ica c ió n de d a tos a tra vé s de una red de c o m u n ica c ió n de d a tos por p a q u e te s a n ive l m u nd ia l re p re se n ta d a com o In te rn e t 928. Un o rd e n a d o r de s e rv id o r 930 p ue de e s ta r a co p la d o a In te rn e t 928. El s e rv id o r 930 re p re se n ta en té rm in o s g e n e ra le s cu a lq u ie r o rdenador, cen tro de datos , m á q u in a v irtu a l o in s ta n c ia in fo rm á tica v irtu a l con o s in un h ipe rv iso r, u o rd e n a d o r que e je cu ta un s is te m a de p ro g ra m a c o n te n e d o riza d o ta l com o D O C K E R o K U B E R N E T E S . El s e rv id o r 930 p uede re p re se n ta r un se rv ic io d ig ita l e le c tró n ico q ue se im p le m e n ta u sa nd o m ás de un o rd e n a d o r o in s ta n c ia y al que se a cce d e y se usa tra n s m itie n d o p e tic io n e s de se rv ic io s w eb , ca d e n a s de lo c a liza d o r u n ifo rm e de re cu rso s (U R L ) con p a rá m e tro s en ca rg a s ú tiles HTTP, lla m a d a s A P I, lla m a d a s de s e rv ic io s de a p lica c io n e s u o tras lla m a d a s de se rv ic io . El s is te m a de o rd e n a d o r 900 y el s e rv id o r 930 pueden fo rm a r e le m e n to s de un s is te m a in fo rm á tico d is trib u id o q ue in c lu ye o tro s o rd e n a d o re s , un co n g lo m e ra d o (o c lú s te r) de p ro ce sa m ie n to , una g ra n ja de s e rv id o re s u o tra o rg a n iza c ió n de o rd e n a d o re s q ue coo p e ra n para re a liza r ta re a s o e je cu ta r a p lica c io n e s o se rv ic io s . El s e rv id o r 930 p ue de c o m p re n d e r uno o m ás co n ju n to s de in s tru cc io n e s q ue se o rg a n iza n com o m ó du los , m é to do s , ob je to s , fu n c io n e s , ru tinas o llam ad as . Las in s tru cc io n e s p ueden o rg a n iza rse co m o uno o m ás p ro g ra m a s de o rdenador, s e rv ic io s de s is te m a o p e ra tivo o p ro g ra m a s de a p lica c ió n in c lu ye n d o a p lica c io n e s m óviles . Las in s tru cc io n e s p ue de n c o m p re n d e r un s is te m a o p e ra tivo y /o so ftw a re de s is te m a ; una o m ás b ib lio te ca s para s o p o rta r fu n c io n e s m u ltim e d ia , de p ro g ra m a c ió n u o tras ; in s tru cc io n e s o p ilas de p ro to co lo s de da tos para im p le m e n ta r TC P/IP , H T T P u o tros p ro to co lo s de co m u n ica c ió n ; in s tru cc io n e s de p ro ce sa m ie n to de fo rm a to de a rch ivo para in te rp re ta r o re n d e riza r a rch ivo s c o d ifica d o s u sa n d o H TM L, X M L, JP E G , M P E G o PN G ; in s tru cc io n e s de in te rfa z de u su a rio para re n d e riza r o in te rp re ta r c o m a n d o s para una in te rfa z g rá fica de u su a rio (G U I), in te rfa z de líne a de co m a n d o o in te rfa z de u su a rio de tex to ; so ftw a re de a p lica c ió n ta l co m o un p a q u e te de a p lica c io n e s de o fic ina , a p lica c io n e s de a cce so a in te rn e t, a p lica c io n e s de d ise ñ o y fa b ric a c ió n , a p lica c io n e s g rá ficas , a p lica c io n e s de aud io , a p lica c io n e s de in g e n ie ría de so ftw a re , a p lica c io n e s e du ca tiva s , ju e g o s o a p lica c io n e s m isce lá ne as . El s e rv id o r 930 puede c o m p re n d e r un s e rv id o r de a p lica c ió n w e b q ue a lo ja una cap a de p re se n ta c ió n , una cap a de a p lica c ió n y una ca p a de a lm a ce n a m ie n to de datos , ta l co m o un s is te m a de base de d a tos re lac io na l q ue usa le n g u a je de co n su lta e s tru c tu ra d o (S Q L) o N oS Q L, un a lm a ce n a m ie n to de ob je to s , una base de d a tos de g rá ficos , un s is te m a de a rch ivo s p la n os u o tro a lm a ce n a m ie n to de datos.
El s is te m a de o rd e n a d o r 900 p uede e n v ia r m e n sa je s y re c ib ir da tos e in s tru cc io n e s , in c lu ye n d o có d ig o de p rog ra m a , a tra vé s de la o las redes, el e n la ce de red 920 y la in te rfa z de c o m u n ica c ió n 918. En el e je m p lo de In te rne t, un s e rv id o r 930 pod ría tra n s m it ir un cód igo p ed ido p ara un p ro g ra m a de a p lica c ió n a tra vé s de In te rn e t 928, IS P 926, red loca l 922 e in te rfa z de co m u n ica c ió n 918. El cód igo re c ib id o p uede s e r e je cu ta d o p or el p ro ce sa d o r 904 a m e d id a q ue se rec ibe , y /o a lm a ce n a d o en el a lm a c e n a m ie n to 910, u o tro a lm a c e n a m ie n to no vo lá til p a ra su e je cu c ió n posterio r.
La e je cu c ió n de in s tru cc io n e s co m o se d e sc rib e en e sta se cc ió n p ue de im p le m e n ta r un p ro ce so en fo rm a de una in s ta n c ia de un p ro g ra m a de o rd e n a d o r q ue se e stá e je cu ta n d o , y q ue co n s is te en có d ig o de p ro g ra m a y su a c tiv id a d actua l. D e p e n d ie n d o del s is te m a o p e ra tivo (S O ), un p roce so p uede e s ta r c o m p u e s to p or m ú ltip le s h ilos de e je cu c ió n que e je cu ta n in s tru cc io n e s s im u ltá n e a m e n te . En e s te con tex to , un p ro g ra m a de o rd e n a d o r es una co le cc ió n p as iva de in s tru cc io n e s , m ie n tra s que un p ro ce so p ue de s e r la e je cu c ió n real de e sa s in s tru cc io ne s . V arios p ro ce so s p ueden e s ta r a so c ia d o s con el m ism o p rog ra m a ; p o r e je m p lo , a b rir v a r ia s in s ta n c ia s del m ism o p ro g ra m a a m e n u d o s ig n ifica q ue se e stá e je cu ta n d o m ás de un p roce so . Se p uede im p le m e n ta r la m u ltita re a p ara p e rm itir que m ú ltip le s p ro ce so s co m p a rta n el p ro ce sa d o r 904. M ie n tra s q ue cad a p ro ce sa d o r 904 o núc leo del p ro ce sa d o r e je cu ta una ú n ica ta re a a la vez, el s is te m a de o rd e n a d o r 900 p uede p ro g ra m a rse para im p le m e n ta r la m u ltita re a para p e rm itir que cad a p ro ce sa d o r co n m u te e n tre ta re a s q ue se e s tán e je cu ta n d o sin te n e r que e sp e ra r a q ue fin a lice cad a ta rea . En una re a liza c ió n , los co n m u ta d o re s p ueden re a liza rse cu a n d o las ta re a s re a liza n o p e ra c io n e s de e n tra d a /sa lid a , cu a n d o una ta re a ind ica q ue p uede co n m u ta rse , o en in te rru p c io n e s de h a rd w are . La co m p a rtic ió n de tie m p o p uede im p le m e n ta rse para p e rm itir una re spu es ta ráp ida p ara a p lica c io n e s de u su a rio in te ra c tiva s re a liza n d o rá p id a m e n te co n m u ta d o re s de co n te x to para p ro p o rc io n a r la a p a ric ió n de e je cu c ió n co n cu rre n te de m ú ltip le s p roce so s s im u ltá n e a m e n te . En una re a liza c ió n , p o r se g u rid a d y f ia b ilid a d , un s is te m a o p e ra tivo p uede e v ita r la co m u n ica c ió n d irec ta e n tre p ro ce so s in d e p e n d ie n te s , p ro p o rc io n a n d o fu n c io n a lid a d de co m u n ica c ió n e n tre p ro ce so s e s tr ic ta m e n te m e d ia d a y con tro la d a .
7. E X T E N S IO N E S Y A LT E R N A T IV A S
En la m e m o ria d e sc rip tiva q ue an tece de , se han d escrito re a liza c io n e s de la d ivu lg a c ió n con re fe re n c ia a n u m e ro so s d e ta lle s e sp e c ífico s que p ueden v a r ia r de im p le m e n ta c ió n a im p le m e n ta c ió n . La m e m o ria d e sc rip tiva y los d ib u jo s d eben co n s id e ra rse , por co n s ig u ie n te , en un se n tid o ilu s tra tivo en lu g a r de re s tr ic tivo . El ú n ico y e xc lu s ivo in d ic a d o r del a lca n ce de la d ivu lg a c ió n , y lo q ue los so lic ita n te s p re te n d e n q ue se a el a lca n ce de la d ivu lg a c ió n , es el a lca n ce del ju e g o de re iv in d ica c io n e s q ue e m a n a de e sta so lic itud .
Claims (15)
1. Un m é to do im p le m e n ta d o por o rd e n a d o r para s u p rim ir ru ido y p o te n c ia r el hab la, q ue com p re nd e :
- recib ir, m e d ia n te un p rocesador, n ue vo s d a tos de a ud io que co m p re n d e n una o v a r ia s tra m as ;
- e jecu ta r, m e d ia n te el p roce sa d or, un m o de lo de red n eu ro na l e n tre n a d o en los n u e vo s d a tos de aud io , en el que el m o de lo de red n eu ro na l e stá e n tre n a d o para g e n e ra r n u e vo s va lo re s de hab la para cada b an da de fre cu e n c ia de una p lu ra lid a d de b a n d a s de fre cu e n c ia en cad a tra m a de la una o m ás tra m as ,
c o m p re n d ie n d o el m o de lo de red neu ro na l e n tre n a d a in s tru cc io n e s e je cu ta b le s p o r o rd e n a d o r para:
un b lo q ue de e x tra cc ió n de c a ra c te rís tica s q ue im p le m e n ta una a n tic ip a c ió n de un n ú m e ro e sp e c ífico de tra m a s al e x tra e r c a ra c te rís tica s de los n u e vo s d a tos de aud io;
un co d ific a d o r que in c lu ye una p rim e ra se r ie de b lo q ue s q ue p ro d u ce n p rim e ro s m a pa s de ca ra c te rís tica s c o rre sp o n d ie n te s a ca m p o s re ce p tivo s cad a v e z m ás g ra n d e s en los n u e vo s d a tos de a ud io a lo la rgo de la d im e n s ió n de fre cu e n c ia ;
un b lo q ue de cá lcu lo que co n e c ta el co d ific a d o r y un d e sco d ifica d o r;
el d e s c o d ific a d o r q ue in c lu ye una s e g u n d a se rie de b lo q u e s q ue rec iben m apas de c a ra c te rís tica s de sa lid a g e n e ra d o s p or el co d ific a d o r co m o m a pa s de c a ra c te rís tica s de e n tra d a y q ue p rod u ce n s e g u n d o s m a pa s de ca ra c te rís tica s ;
en d on de cad a b lo q ue de la p rim e ra se r ie de b lo q u e s co m p re n d e un b lo q ue de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r d e sce n d e n te de fre cu e n c ia , c o m p re n d ie n d o el b loque de cá lcu lo de c a ra c te rís tica s una se r ie de cap as co n vo lu c io n a le s , y en d on de d a to s de s a lid a de una capa co n vo lu c io n a l de la se rie de cap as c o n vo lu c io n a le s se a lim e n ta n a to d a s las cap as co n v o lu c io n a le s p o s te rio re s de la se r ie de cap as co n vo lu c io n a le s , im p le m e n ta n d o la se r ie de ca p a s co n vo lu c io n a le s una d ila ta c ió n cad a ve z m a yo r a lo la rgo de la d im e n s ió n de tiem p o ; y
un b lo q ue de c la s if ica c ió n que re c ibe los s e g u n d o s m a pa s de c a ra c te rís tica s y g en e ra n u e vo s va lo re s de hab la q ue ind ican una ca n tid a d de h ab la p re se n te p ara cad a b an da de fre cu e n c ia de la p lu ra lid a d de b an da s de fre cu e n c ia en cad a tra m a de una p lu ra lid a d de tra m a s ; y
- g e n e ra r n u e vo s d a tos de sa lid a que su p rim e n ru ido en los n u e vo s d a tos de a ud io b a sá n d o se en los nue vo s va lo re s de habla;
- tra n s m it ir los n u e vo s d a tos de sa lida .
2. El m é to d o im p le m e n ta d o por o rd e n a d o r de la re iv in d ica c ió n 1, q ue com p re nd e :
recib ir, m e d ia n te un p roce sa d or, d a tos de a ud io de e n tra d a q ue cu b re n una p lu ra lid a d de b a n d a s de fre cu e n c ia a lo la rgo de una d im e n s ió n de fre cu e n c ia en una p lu ra lid a d de tra m a s a lo la rgo de una d im e n s ió n de tiem p o ; en trena r, m e d ia n te el p rocesador, el m o de lo de red neu ro na l u sa nd o los d a tos de a ud io de e n tra da .
3. El m é to d o im p le m e n ta d o por o rd e n a d o r de la re iv in d ica c ió n 2, q ue co m p re n d e a de m ás:
re c ib ir una fo rm a de o nd a de e n tra da ;
tra n s fo rm a r la fo rm a de o nda de e n tra d a en d a tos de a ud io b ru to s que cu b re n una p lu ra lid a d de c o n te n e d o re s de fre cu e n c ia a lo la rgo de la d im e n s ió n de fre cu e n c ia en la una o m ás tra m a s a lo la rg o de la d im e n s ió n de tiem p o; c o n v e rtir los d a tos de a ud io b ru tos en los n u e vo s da tos de a ud io a g ru p a n d o la p lu ra lida d de co n te n e d o re s de fre cu e n c ia en la p lu ra lid a d de b a n d a s de fre cu e n c ia ;
re a liza r b a n d e a d o in ve rso so b re los n u e vo s va lo re s de hab la para g e n e ra r va lo re s de h ab la a c tu a liza d o s para ca d a co n te n e d o r de fre cu e n c ia de la p lu ra lid a d de co n te n e d o re s de fre cu e n c ia en cad a tra m a de la una o m ás tra m as ;
a p lica r los va lo re s de h ab la a c tu a liza d o s a los d a tos de a ud io b ru tos para g e n e ra r los n ue vo s d a to s de sa lida ; tra n s fo rm a r los n ue vo s d a tos de sa lid a en una fo rm a de o nda p o ten c iad a , en donde , o p c io n a lm e n te , la p lu ra lida d de b an da s de fre cu e n c ia son b a n d a s p e rce p tu a lm e n te m o tiva da s, que cu b re n m ás co n te n e d o re s de fre cu e n c ia a fre cu e n c ia s m ás a ltas.
4. El m é to d o im p le m e n ta d o seg ún una de las re iv in d ica c io n e s 2-3,
te n ie n d o el b lo q ue de e x tra cc ió n de c a ra c te rís tica s un kerne l de co n vo lu c ió n que tie n e un ta m a ñ o e sp e c ífico a lo la rg o de la d im e n s ió n de tiem p o ,
s ie n d o el ta m a ñ o e sp e c ífico m a yo r q ue un ta m a ñ o a lo la rg o de la d im e n s ió n de tie m p o de cu a lq u ie r kerne l co n vo lu c io n a l en el c o d ific a d o r o el d e scod ifica do r,
y /o en el q ue el b lo q ue de e x tra cc ió n de c a ra c te rís tica s co m p re n d e una cap a de n o rm a liza c ió n de lo te s se g u id a de una ca p a co n vo lu c io n a l con un kerne l co n vo lu c io n a l b id im e ns ion a l.
5. El m é to d o im p le m e n ta d o por o rd e n a d o r seg ún una de las re iv in d ica c io n e s 2-4,
p ro d u c ie n d o cad a uno del b lo q ue de e x tra cc ió n de c a ra c te rís tica s , la p rim e ra se r ie de b lo q ue s y la s e g u n d a serie de b lo q u e s un n úm e ro com ún de m a pa s de ca ra c te rís tica s , y /o
en el q ue cada una de la se rie de ca p a s co n vo lu c io n a le s co m p re n d e b lo q u e s co n vo lu c io n a le s s e p a ra b le s en p ro fu n d id a d con un m e ca n ism o de uso de puertas.
6. El m é to d o im p le m e n ta d o por o rd e n a d o r seg ún una de las re iv in d ica c io n e s 2-5,
c o m p re n d ie n d o cad a una de la se r ie de cap as co n vo lu c io n a le s un b lo q ue re s idu a l q ue tie n e una se r ie de b lo q ue s co n vo lu c io n a le s , in c lu ye n d o un p rim e r b lo q ue co n vo lu c io n a l q ue tie n e un p rim e r kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno y un ú ltim o b lo q ue co n vo lu c io n a l que tie n e un ú ltim o kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno, y /o
en el que d a tos de sa lid a de un b lo q ue de cá lcu lo de c a ra c te rís tica s en un b loque de la p rim e ra se rie de b lo q ue s se e sca la n m e d ia n te un peso a p re n d ib le para fo rm a r d a tos de sa lid a e sca la d os ,
s ie n d o c o m u n ica d o s los d a tos de sa lid a e sca la d o s a un b lo q ue de la s e g u n d a se r ie de b lo q ue s en el d e s c o d ific a d o r p or m e d ia c ió n de una con e x ió n de sa lto .
7. El m é to do im p le m e n ta d o p o r o rd e n a d o r seg ún una de las re iv in d ica c io n e s 2-6, c o m p re n d ie n d o un m u e s tre a d o r d e sce n d e n te de fre cu e n c ia de un b lo q ue en la p rim e ra se r ie de b lo q u e s ke rne ls de co n vo lu c ió n con un ta m a ñ o de paso m a yo r q ue uno a lo la rgo de la d im e n s ió n de fre cu e n c ia .
8. El m é to do im p le m e n ta d o por o rd e n a d o r se g ú n una de las re iv in d ica c io n e s 2-7, c o m p re n d ie n d o cada b lo q ue de la s e g u n d a se rie de b lo q ue s un b lo q ue de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r a sce n d e n te de fre cu e n c ia .
9. El m é to d o im p le m e n ta d o por o rd e n a d o r de la re iv in d ica c ió n 8,
re c ib ie n d o un b lo q ue de cá lcu lo de c a ra c te rís tica s en un b lo q ue de la s e g u n d a se rie de b lo q u e s p rim e ro s d a tos de sa lid a de un b loque de cá lcu lo de c a ra c te rís tica s en un b lo q ue de la p rim e ra se r ie de b lo q u e s y se g u n d o s d a to s de sa lid a de un m u e s tre a d o r a sce n d e n te de fre cu e n c ia de un b lo q ue p rev io en la s e g u n d a se r ie de b loques,
s ie n d o c o n ca te n a d o s o a ñ a d id o s los p rim e ro s d a tos de sa lid a y los s e g u n d o s d a tos de sa lid a para fo rm a r d a tos de e n tra d a e sp e c ífico s para el b lo q ue de cá lcu lo de ca ra c te rís tic a s en el b loque de la s e g u n d a se r ie de b loques.
10. El m é to do im p le m e n ta d o p or o rd e n a d o r seg ún una de las re iv in d ica c io n e s 1-9, c o m p re n d ie n d o el b loque de c la s if ica c ió n un kerne l de co n vo lu c ió n b id im e n s io n a l uno a uno y una fu n c ió n de a c tiva c ió n no linea l.
11. El m é to do im p le m e n ta d o p or o rd e n a d o r seg ún una de las re iv in d ica c io n e s 1-10, re a lizá n d o se el e n tre n a m ie n to con una fu n c ió n de p é rd ida e n tre un v a lo r de hab la p re d ich o y un v a lo r de h ab la de ve rd a d fu n d a m e n ta l para cad a b anda de fre cu e n c ia de la p lu ra lida d de b an da s de fre cu e n c ia en cad a tra m a , con un m a yo r peso en la fu n c ió n de p é rd id a cu a n d o el v a lo r de h ab la p re d ich o co rre sp o n d e a una so b re su p re s ió n de h ab la y un m e n o r peso en la fu n c ió n de p é rd ida cu a n d o el v a lo r de h ab la p re d ich o c o rre sp o n d e a una s u b su p re s ió n de hab la.
12. El m é to do im p le m e n ta d o por o rd e n a d o r se g ú n una de las re iv in d ica c io n e s 1-11, g e n e ra n d o a d e m á s el b loque de c la s ifica c ió n una d is trib u c ió n de c a n tid a d e s de h ab la so b re una b anda de fre cu e n c ia de la p lu ra lida d de b an da s de fre cu e n c ia en una tra m a , s ie n d o el v a lo r de h ab la una m e d ia de la d is trib uc ió n .
13. El m é to d o im p le m e n ta d o p or o rd e n a d o r se g ú n una de las re iv in d ica c io n e s 2 -12 , c o m p re n d ie n d o los d a to s de a ud io de e n tra d a d a tos co rre sp o n d ie n te s a h ab la de d ife re n te s ve lo c id a d e s o e m oc ion es , d a tos que con tien en d ife re n te s n ive les de ru ido, o d a to s c o rre sp o n d ie n te s a d ife re n te s co n te n e d o re s de fre cu e n c ia .
14. El m é to do im p le m e n ta d o p o r o rd e n a d o r seg ún una de las re iv in d ica c io n e s 2 -13 , c o m p re n d ie n d o a d e m á s el m o d e lo de red neu ro na l un b lo q ue de cá lcu lo de ca ra c te rís tica s que son da tos de sa lid a del c o d ific a d o r y d a tos de e n tra d a del d e scod ifica do r.
15. Un s is te m a de o rdenador, q ue com p re nd e :
• una m em oria ;
• uno o m ás p ro ce sa d o re s a co p la d o s a la m e m o ria y co n fig u ra d o s para rea liza r:
- la re cep c ió n de d a to s de a ud io de e n tra d a que cub ren una p lu ra lid a d de b a n d a s de fre cu e n c ia a lo la rgo de una d im e n s ió n de fre cu e n c ia en una p lu ra lid a d de tra m a s a lo la rg o de una d im e n s ió n de tiem p o;
- el e n tre n a m ie n to de un m o de lo de red n eu ro na l u sando los d a tos de a ud io de e n trada , co m p re n d ie n d o el m o d e lo de red neu rona l:
un b lo q ue de e x tra cc ió n de c a ra c te rís tica s q ue im p le m e n ta una a n tic ip a c ió n de un n ú m e ro e sp e c ífico de tra m a s al e x tra e r c a ra c te rís tica s de los d a tos de a ud io de entrada ;
un co d ific a d o r que in c lu ye una p rim e ra se r ie de b lo q ue s q ue p ro d u ce n p rim e ro s m a pa s de ca ra c te rís tica s c o rre sp o n d ie n te s a ca m p o s re ce p tivo s cad a ve z m ás g ra n d e s en los d a to s de a ud io de e n tra d a a lo la rgo de la d im e n s ió n de fre cu e n c ia ;
un d e s c o d ific a d o r q ue in c lu ye una s e g u n d a se r ie de b lo q ue s q ue re c ibe n m a pa s de c a ra c te rís tica s de sa lida g e n e ra d o s p or el co d ific a d o r co m o m a pa s de c a ra c te rís tica s de e n tra d a y q ue p rod u ce n s e g u n d o s m a pa s de ca ra c te rís tica s ;
en d on de cad a b lo q ue de la p rim e ra se r ie de b lo q u e s co m p re n d e un b lo q ue de cá lcu lo de c a ra c te rís tica s y un m u e s tre a d o r d e sc e n d e n te de fre cu e n c ia , c o m p re n d ie n d o el b loque de cá lcu lo de c a ra c te rís tica s una se r ie de cap as co n vo lu c io n a le s , y en d on de d a to s de s a lid a de una capa co n vo lu c io n a l de la se rie de cap as c o n vo lu c io n a le s se a lim e n ta n a to d a s las cap as co n v o lu c io n a le s p o s te rio re s de la se r ie de cap as co n vo lu c io n a le s , im p le m e n ta n d o la se r ie de ca p a s co n vo lu c io n a le s una d ila ta c ió n cad a ve z m a yo r a lo la rgo de la d im e n s ió n de tiem p o ; y
un b lo q ue de c la s ifica c ió n que re c ibe los se g u n d o s m a pa s de c a ra c te rís tica s y g e n e ra un v a lo r de h ab la que ind ica una ca n tid a d de h ab la p re se n te p ara cad a b anda de fre c u e n c ia de la p lu ra lid a d de b a n d a s de fre cu e n c ia en cad a tra m a de la p lu ra lid a d de tra m as ;
- el a lm a ce n a m ie n to del m o de lo de red neu rona l.
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN2020124635 | 2020-10-29 | ||
| US202063115213P | 2020-11-18 | 2020-11-18 | |
| US202163221629P | 2021-07-14 | 2021-07-14 | |
| PCT/US2021/057378 WO2022094293A1 (en) | 2020-10-29 | 2021-10-29 | Deep-learning based speech enhancement |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES3039819T3 true ES3039819T3 (en) | 2025-10-24 |
Family
ID=78771211
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21815021T Active ES3039819T3 (en) | 2020-10-29 | 2021-10-29 | Deep-learning based speech enhancement |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US20230368807A1 (es) |
| EP (2) | EP4238089B1 (es) |
| JP (2) | JP7711190B2 (es) |
| KR (1) | KR20230097106A (es) |
| CN (2) | CN116508099B (es) |
| ES (1) | ES3039819T3 (es) |
| WO (1) | WO2022094293A1 (es) |
Families Citing this family (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12327571B2 (en) * | 2020-12-07 | 2025-06-10 | Transportation Ip Holdings, Llc | Systems and methods for diagnosing equipment |
| EP4364138A1 (en) * | 2021-07-02 | 2024-05-08 | Dolby Laboratories Licensing Corporation | Over-suppression mitigation for deep learning based speech enhancement |
| US11948599B2 (en) * | 2022-01-06 | 2024-04-02 | Microsoft Technology Licensing, Llc | Audio event detection with window-based prediction |
| CN115240648B (zh) * | 2022-07-18 | 2023-04-07 | 四川大学 | 一种面向语音识别的管制员语音增强方法及装置 |
| WO2024030338A1 (en) * | 2022-08-05 | 2024-02-08 | Dolby Laboratories Licensing Corporation | Deep learning based mitigation of audio artifacts |
| CN115331694B (zh) * | 2022-08-15 | 2024-09-20 | 北京达佳互联信息技术有限公司 | 语音分离网络生成方法、装置、电子设备以及存储介质 |
| CN115810364B (zh) * | 2023-02-07 | 2023-04-28 | 海纳科德(湖北)科技有限公司 | 混音环境中的端到端目标声信号提取方法及系统 |
| CN120958516A (zh) * | 2023-04-11 | 2025-11-14 | 杜比实验室特许公司 | 用于基于深度学习的语音增强的方法和装置 |
| CN116824640B (zh) * | 2023-08-28 | 2023-12-01 | 江南大学 | 基于mt与三维残差网络的腿部识别方法、系统、介质和设备 |
| CN117558284A (zh) * | 2023-12-26 | 2024-02-13 | 中邮消费金融有限公司 | 一种语音增强方法、装置、设备及存储介质 |
| WO2025153481A1 (en) | 2024-01-17 | 2025-07-24 | Dolby International Ab | Computational audio engine |
| WO2025190810A1 (en) | 2024-03-11 | 2025-09-18 | Dolby International Ab | Systems and methods for spatial fidelity improving dialogue estimation |
| US12455214B1 (en) * | 2025-06-26 | 2025-10-28 | FPT USA Corp. | Systems and methods for anomalous sound detection |
| CN120510860B (zh) * | 2025-07-21 | 2025-09-19 | 山东理工大学 | 一种可控的因果双路语音增强方法及系统 |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10224058B2 (en) * | 2016-09-07 | 2019-03-05 | Google Llc | Enhanced multi-channel acoustic models |
| CN108172238B (zh) * | 2018-01-06 | 2021-08-13 | 广州音书科技有限公司 | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 |
| CN115410583B (zh) | 2018-04-11 | 2025-08-12 | 杜比实验室特许公司 | 基于机器学习的用于音频编码和解码的基于感知的损失函数 |
| US11100941B2 (en) * | 2018-08-21 | 2021-08-24 | Krisp Technologies, Inc. | Speech enhancement and noise suppression systems and methods |
| CN109841226B (zh) * | 2018-08-31 | 2020-10-16 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
| CN109326299B (zh) * | 2018-11-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
| CN110867181B (zh) * | 2019-09-29 | 2022-05-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
-
2021
- 2021-10-29 EP EP21815021.7A patent/EP4238089B1/en active Active
- 2021-10-29 CN CN202180073792.3A patent/CN116508099B/zh active Active
- 2021-10-29 EP EP25185579.7A patent/EP4629240A2/en active Pending
- 2021-10-29 ES ES21815021T patent/ES3039819T3/es active Active
- 2021-10-29 JP JP2023526072A patent/JP7711190B2/ja active Active
- 2021-10-29 US US18/250,393 patent/US20230368807A1/en active Pending
- 2021-10-29 WO PCT/US2021/057378 patent/WO2022094293A1/en not_active Ceased
- 2021-10-29 CN CN202411887138.8A patent/CN119673191A/zh active Pending
- 2021-10-29 KR KR1020237017854A patent/KR20230097106A/ko active Pending
-
2025
- 2025-07-09 JP JP2025115526A patent/JP2025157327A/ja active Pending
Also Published As
| Publication number | Publication date |
|---|---|
| EP4238089B1 (en) | 2025-07-30 |
| JP2023548468A (ja) | 2023-11-17 |
| CN116508099A (zh) | 2023-07-28 |
| WO2022094293A1 (en) | 2022-05-05 |
| JP7711190B2 (ja) | 2025-07-22 |
| EP4238089A1 (en) | 2023-09-06 |
| JP2025157327A (ja) | 2025-10-15 |
| CN119673191A (zh) | 2025-03-21 |
| EP4629240A2 (en) | 2025-10-08 |
| KR20230097106A (ko) | 2023-06-30 |
| CN116508099B (zh) | 2025-01-10 |
| US20230368807A1 (en) | 2023-11-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES3039819T3 (en) | Deep-learning based speech enhancement | |
| US12190860B2 (en) | End-to-end text-to-speech conversion | |
| US10713491B2 (en) | Object detection using spatio-temporal feature maps | |
| US10043512B2 (en) | Generating target sequences from input sequences using partial conditioning | |
| US20240289999A1 (en) | Method, apparatus, device and storage medium for image generation | |
| CN111292768B (zh) | 丢包隐藏的方法、装置、存储介质和计算机设备 | |
| EP3380992B1 (en) | Generating images using neural networks | |
| CN113539273B (zh) | 一种语音识别方法、装置、计算机设备和存储介质 | |
| CN110472599A (zh) | 对象数量确定方法、装置、存储介质与电子设备 | |
| US20230080230A1 (en) | Method for generating federated learning model | |
| US11895343B2 (en) | Video frame action detection using gated history | |
| US20200364872A1 (en) | Image segmentation using neural networks | |
| CN114338623B (zh) | 音频的处理方法、装置、设备及介质 | |
| EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
| CN109961141A (zh) | 用于生成量化神经网络的方法和装置 | |
| CN113409756A (zh) | 语音合成方法、系统、设备及存储介质 | |
| CN114283837B (zh) | 一种音频处理方法、装置、设备及存储介质 | |
| WO2019141896A1 (en) | A method for neural networks | |
| US20250139733A1 (en) | Occlusion-aware forward warping for video frame interpolation | |
| CN112951202A (zh) | 语音合成方法、装置、电子设备以及程序产品 | |
| CN113395539A (zh) | 音频降噪方法、装置、计算机可读介质和电子设备 | |
| CN116485728B (zh) | 抽油杆表面缺陷检测方法及装置、电子设备和存储介质 | |
| Flowers et al. | BRIC: Bottom-up residual vector quantization for learned image compression | |
| CN116757178A (zh) | 一种信息处理方法和装置 | |
| CN119919703A (zh) | 模型训练方法、图像识别方法、装置及存储介质 |