Convierte archivos audio en transcripciones de texto e integra el reconocimiento de voz en aplicaciones con API fáciles de usar.
Los nuevos clientes también reciben hasta 300 USD en crédito gratis para probar Speech‐to‐Text y otros productos de Google Cloud.
Características
Speech-to-Text puede utilizar Chirp 3, el modelo básico de Google Cloud para la voz entrenado con millones de horas de datos de audio y miles de millones de frases de texto. Esto contrasta con las técnicas tradicionales de reconocimiento de voz, que se centran en grandes cantidades de datos supervisados específicos de cada idioma. Estas técnicas facilitan el reconocimiento y la transcripción para los usuarios cuando se hablan más idiomas y acentos.
Desarrolla una base de usuarios global y permite la compatibilidad con un amplio abanico de idiomas. Transcribe datos de audio cortos, largos e incluso en streaming. Speech-to-Text también ofrece a los usuarios implementaciones más precisas y de alcance internacional para desplegar funciones de transcripción con Chirp 3, la nueva generación de modelos de voz universales.
La función de transcripción de Chirp 3 se creó mediante entrenamiento autosupervisado en millones de horas de audio y 28.000 millones de frases de texto en más de 100 idiomas.
Recibe los resultados del reconocimiento de voz en tiempo real conforme la API procesa las señales de audio captadas por el micrófono de tu aplicación o enviadas desde un archivo de audio que ya estuviera grabado (insertado o a través de Cloud Storage).
Speech-to-Text utiliza la adaptación de modelos para mejorar la precisión de las palabras utilizadas con frecuencia, ampliar el vocabulario disponible para transcribir y mejorar la transcripción de audio ruidoso. La adaptación de modelos permite a los usuarios personalizar Speech-to-Text para reconocer palabras o frases concretas con más frecuencia que otras opciones que, de otro modo, se habrían sugerido. Por ejemplo, puedes ajustar Speech-to-Text para que transcriba con más frecuencia "cuando" en lugar de "cuanto".
La versión 2 de la API Speech-to-Text ofrece a los clientes corporativos y empresariales requisitos adicionales normativos y de seguridad desde el primer momento. La residencia de datos permite invocar modelos de transcripción a través de un servicio totalmente regionalizado que aprovecha las regiones de Google Cloud, como Singapur y Bélgica. En la consola de Google Cloud puedes acceder fácilmente a los registros para generar y transcribir recursos. La versión 2 de la API Speech-to-Text ofrece un cifrado de nivel empresarial con claves de cifrado gestionadas por el cliente para todos los recursos, así como transcripción en lotes.
Utiliza sugerencias para personalizar las funciones de reconocimiento de voz y transcribir términos de un dominio específico y palabras poco frecuentes. Además, podrás mejorar la precisión con la que se transcriben palabras o frases concretas. También puedes utilizar las clases para convertir automáticamente los números dichos de viva voz en direcciones, años, divisas y mucho más.
Disfruta de un control total sobre tu infraestructura y sobre datos de discurso oral protegidos a la vez que aprovechas la tecnología de reconocimiento de voz de Google on‑premise en tus propios centros de datos privados. Contacta con Ventas para empezar.
Speech-to-Text puede distinguir entre un canal y otro en las situaciones donde intervengan varios canales (por ejemplo, en una videoconferencia) y anotar las transcripciones para mantener el orden de aparición.
Speech-to-Text puede procesar archivos de audio de multitud de entornos ruidosos sin necesidad de aplicar ninguna reducción adicional del ruido.
Elige entre una selección de modelos entrenados para recibir control por voz o transcribir vídeos y llamadas de teléfono. Estos modelos están optimizados para satisfacer los requisitos de calidad de los dominios específicos. Por ejemplo, nuestro modelo mejorado de llamadas de teléfono está entrenado para procesar los archivos de audio de telefonía (como las llamadas originadas desde un teléfono y grabadas a una frecuencia de muestreo de 8 kHz).
El filtro de palabras malsonantes te ayuda a detectar el contenido que no sea adecuado o profesional en los datos de audio y a descartar las palabras inapropiadas en los resultados de texto.
Sube datos de tu voz y transcribe mensajes sin necesidad de usar código. Evalúa la calidad iterando la configuración.
Speech-to-Text puntúa las transcripciones con precisión, ya sea mediante comas, signos de interrogación y puntos.
La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién ha dicho qué.
Compara el modelo Chirp de Speech-to-Text en la API y en Vertex AI Studio
| Producto | ¿Qué es? | Usos recomendados | Características principales | 
|---|---|---|---|
| Chirp 3: Transcripción en Vertex AI | Una interfaz gráfica de usuario basada en la Web y sin código, muy fácil de usar. | Prueba archivos de audio rápidamente, crea prototipos al momento, crea transcripciones de audio, sube audio o grabaciones directamente a un navegador web. | - Detección y transcripción de idiomas multilingües mejoradas - Admite la transcripción en más de 85 idiomas y variantes - Admite la diarización del interlocutor y la adaptación del modelo - Reconocimiento automático de voz, que transcribe el audio en texto - Detección y transcripción de idiomas multilingües | 
| Chirp 3: transcripción con la API de la versión 2 de Speech-to-Text | Una API que es la nueva generación del modelo universal de voz a texto de Google, que unifica datos de varios idiomas. | Desarrollar aplicaciones escalables de nivel empresarial. Integración sencilla de la función de transcripción en el software que ya usas. | - Detección y transcripción de idiomas multilingües mejoradas - Admite la transcripción en más de 85 idiomas y variantes - Admite la diarización del interlocutor y la adaptación del modelo - Reconocimiento automático de voz, que transcribe el audio en texto - Detección y transcripción de idiomas multilingües | 
Chirp 3: Transcripción en Vertex AI
Una interfaz gráfica de usuario basada en la Web y sin código, muy fácil de usar.
Prueba archivos de audio rápidamente, crea prototipos al momento, crea transcripciones de audio, sube audio o grabaciones directamente a un navegador web.
- Detección y transcripción de idiomas multilingües mejoradas
- Admite la transcripción en más de 85 idiomas y variantes
- Admite la diarización del interlocutor y la adaptación del modelo
- Reconocimiento automático de voz, que transcribe el audio en texto
- Detección y transcripción de idiomas multilingües
Chirp 3: transcripción con la API de la versión 2 de Speech-to-Text
Una API que es la nueva generación del modelo universal de voz a texto de Google, que unifica datos de varios idiomas.
Desarrollar aplicaciones escalables de nivel empresarial.
Integración sencilla de la función de transcripción en el software que ya usas.
- Detección y transcripción de idiomas multilingües mejoradas
- Admite la transcripción en más de 85 idiomas y variantes
- Admite la diarización del interlocutor y la adaptación del modelo
- Reconocimiento automático de voz, que transcribe el audio en texto
- Detección y transcripción de idiomas multilingües
Cómo funciona
Speech-to-Text cuenta con tres métodos principales para realizar el reconocimiento de voz: síncrono, asíncrono y en streaming. Cada método devuelve resultados de texto en función de si es necesario transcribir después de procesarlo, de forma periódica o en tiempo real. Básicamente, cuando introduces datos de audio, recibes una respuesta de texto.
Demo
Crea rápidamente transcripciones de audio a partir de un archivo subido o habla directamente a un micrófono.
Usos habituales
Crea una transcripción de audio
Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.
Crea una transcripción de audio
Aprende a usar la API Speech-to-Text desde la consola de Cloud creando una transcripción de audio en solo unos pasos. También puedes transcribir audios cortos, largos y en streaming.
Crea subtítulos para vídeos con IA
Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.
Crea subtítulos para vídeos con IA
Transcribe archivos de audio y vídeo e incluye subtítulos. Añade subtítulos a tu contenido o en tiempo real al contenido en streaming. Nuestro modelo de transcripción de vídeo es ideal para indexar o subtitular vídeos y contenido donde intervienen varios interlocutores. Además, utiliza una tecnología de aprendizaje automático similar a la que utiliza YouTube para subtitular vídeos. En este tutorial se explica cómo usar las API Speech-to-Text y la API Translation de los servicios de IA de Google Cloud para añadir subtítulos a vídeos y proporcionar subtítulos localizados en otros idiomas.
Cómo añadir Speech-to-Text a las aplicaciones
Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.
Cómo añadir Speech-to-Text a las aplicaciones
Descubre cómo habilitar Speech-to-Text en tu aplicación de forma rápida y sencilla con Google Cloud. En este vídeo se explica cómo añadir IA a una aplicación sin una amplia experiencia en modelos de aprendizaje automático. Con la API Speech-to-Text preentrenada, podrás habilitar la IA en tu aplicación de forma rápida y sencilla.
Idioma, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.
Idioma, voz, texto y traducción con las APIs de Google Cloud
En este curso, usarás la API Speech-to-Text para transcribir un archivo de audio en un archivo de texto, traducir con la API Google Cloud Translation y crear voces sintéticas con Natural Language. IA.
Precios
| Cómo funcionan los precios de Speech-to-Text | Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento. | |
|---|---|---|
| Versión de la API | Servicio y capacidad | Precios | 
| Versión 2 de la API Speech-to-Text | La versión 2 ofrece residencia de datos para implementaciones de Chirp 3 en varias regiones y en una sola región. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente. | 0,016 USD por minuto | 
Consulta la información de precios de Speech-to-Text.
Cómo funcionan los precios de Speech-to-Text
Los precios de Speech‐to‐Text se basan en la versión de la API, los canales, los métodos por lotes y cualquier otro coste de los servicios de Google Cloud, como el almacenamiento.
Versión 2 de la API Speech-to-Text
La versión 2 ofrece residencia de datos para implementaciones de Chirp 3 en varias regiones y en una sola región. La versión 2 incluye registro de auditoría y compatibilidad con claves de cifrado gestionadas por el cliente.
0,016 USD
por minuto
Consulta la información de precios de Speech-to-Text.