通过简单易用的 API,将音频转换为文字转写,并将语音识别功能集成到应用中。
新客户最高还可获享 $300 赠金,用于试用 Speech-to-Text 和其他 Google Cloud 产品。
功能
在 API 处理通过应用的麦克风流式传输的音频输入或从预先录制的音频文件发送的音频输入(内嵌或通过 Cloud Storage 传输)时,获得实时语音识别结果。
Speech-to-Text 使用模型自适应技术来提高常用字词的准确性、扩充可用于转录的词汇,并改善嘈杂音频的转录效果。模型自适应可让用户自定义 Speech-to-Text,使其能够更频繁地使用同音字词中的某一个而非建议的其他选项。例如,您可以让 Speech-to-Text 在转录时更多地使用“时常”而不是“时长”。
Speech-to-Text 可在多通道情况(例如视频会议)下识别不同的通道,并为转录内容添加注释以保留相应的顺序。
Speech-to-Text 可处理来自各种环境的嘈杂音频,而无需额外的降噪措施。
从多种经过训练的模型中进行选择,实现优化的语音控制、电话和视频转写,满足特定领域的质量要求。举例来说,我们的增强型电话模型针对来自电话的音频(例如以 8khz 采样率录制的电话通话)进行了优化。
脏话过滤器可帮助您检测音频数据中不当或不专业的内容,并滤除文本结果中的亵渎性字词。
上传您自己的语音数据,并进行转录,而无需使用代码。通过配置迭代来评估质量。
Speech-to-Text 能够准确地为转录的文本加注标点符号,例如逗号、问号和句号。
获得有关对话中哪位讲话者讲了哪句话的自动估测结果,了解有哪些人讲话以及分别说了什么。
比较 API 和 Vertex AI Studio 中的 Speech-to-Text Chirp 模型
| 产品 | 它是什么 | 适用场景 | 主要特性 | 
|---|---|---|---|
| Chirp 3:Vertex AI 中的转写 | 简单易用的无代码的基于 Web 的图形界面。 | 快速测试音频文件、快速制作原型、创建音频转写、直接将音频或录音上传到网络浏览器。 | - 增强了多语言检测和转写 - 支持 85 种以上的语言和变体转写 - 支持讲话人区分和模型自适应 - 自动语音识别,将音频转写为文本 - 多语言检测和转写 | 
| Chirp 3:基于 Speech-to-Text V2 API 的转写 | 此 API 是 Google 的新一代通用语音转文字模型,可统一多种语言的数据。 | 构建可伸缩的企业级应用。 轻松将转写功能集成到现有软件中。 | - 增强了多语言检测和转写 - 支持 85 种以上的语言和变体转写 - 支持讲话人区分和模型自适应 - 自动语音识别,将音频转写为文本 - 多语言检测和转写 | 
Chirp 3:Vertex AI 中的转写
简单易用的无代码的基于 Web 的图形界面。
快速测试音频文件、快速制作原型、创建音频转写、直接将音频或录音上传到网络浏览器。
- 增强了多语言检测和转写
- 支持 85 种以上的语言和变体转写
- 支持讲话人区分和模型自适应
- 自动语音识别,将音频转写为文本
- 多语言检测和转写
Chirp 3:基于 Speech-to-Text V2 API 的转写
此 API 是 Google 的新一代通用语音转文字模型,可统一多种语言的数据。
构建可伸缩的企业级应用。
轻松将转写功能集成到现有软件中。
- 增强了多语言检测和转写
- 支持 85 种以上的语言和变体转写
- 支持讲话人区分和模型自适应
- 自动语音识别,将音频转写为文本
- 多语言检测和转写
演示
快速为上传的文件或直接对着麦克风的讲话创建音频转写内容。
常见用途
利用 AI 为视频创建字幕
转写音频和视频以添加字幕。为现有内容添加字幕,或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕,以及提供其他语言的本地化字幕。
利用 AI 为视频创建字幕
转写音频和视频以添加字幕。为现有内容添加字幕,或实时向流式传输内容添加字幕。我们的视频转写模型非常适合为视频和/或有多人说话的内容编制索引或编排字幕,该模型使用与 YouTube 视频字幕类似的机器学习技术。本教程介绍了如何使用 Google Cloud AI 服务 Speech-to-Text API 和 Translation API 为视频添加字幕,以及提供其他语言的本地化字幕。
如何将 Speech-to-Text 添加到应用
了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。
如何将 Speech-to-Text 添加到应用
了解如何借助 Google Cloud 快速轻松地为您的应用启用 Speech-to-Text。此视频介绍了如何在没有大量机器学习模型经验的情况下将 AI 添加到您的应用。利用预训练的 Speech-to-Text API,您可以快速轻松地为应用启用 AI。
利用 Google Cloud API 处理语言、语音、文本和翻译
在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。
利用 Google Cloud API 处理语言、语音、文本和翻译
在本课程中,您将使用 Speech-to-Text API 将音频文件转录为文本文件,使用 Google Cloud Translation API 进行翻译,并使用 Natural Language AI 创建合成语音。
价格
| Speech-to-Text 的定价方式 | Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。 | |
|---|---|---|
| API 版本 | 服务和功能 | 价格 | 
| Speech-to-Text V2 API | V2 为 Chirp 3 的多区域和单区域部署提供数据驻留。V2 包含审核日志记录,并支持客户管理的加密密钥。 | $0.016 每分钟 | 
查看 Speech-to-Text 的价格详情。
Speech-to-Text 的定价方式
Speech-to-Text 的价格取决于 API 版本、音频通道、批处理方法以及任何附加的 Google Cloud 服务费用(例如存储费用)。
Speech-to-Text V2 API
V2 为 Chirp 3 的多区域和单区域部署提供数据驻留。V2 包含审核日志记录,并支持客户管理的加密密钥。
$0.016
每分钟
查看 Speech-to-Text 的价格详情。