[go: up one dir, main page]

RU2161336C2 - Система для верификации говорящего - Google Patents

Система для верификации говорящего Download PDF

Info

Publication number
RU2161336C2
RU2161336C2 RU98100221/09A RU98100221A RU2161336C2 RU 2161336 C2 RU2161336 C2 RU 2161336C2 RU 98100221/09 A RU98100221/09 A RU 98100221/09A RU 98100221 A RU98100221 A RU 98100221A RU 2161336 C2 RU2161336 C2 RU 2161336C2
Authority
RU
Russia
Prior art keywords
speaker
specified
speech
classifiers
classifier
Prior art date
Application number
RU98100221/09A
Other languages
English (en)
Other versions
RU98100221A (ru
Inventor
Ричард Дж. Мэммон
Кевин Фаррел
Мэниш Шарма
Нейк Дивэнг
Зяою Занг
Халед Ассалех
Хан-Шенг Леу
Original Assignee
Ратгерс Юниверсити
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ратгерс Юниверсити filed Critical Ратгерс Юниверсити
Publication of RU98100221A publication Critical patent/RU98100221A/ru
Application granted granted Critical
Publication of RU2161336C2 publication Critical patent/RU2161336C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Selective Calling Equipment (AREA)
  • Traffic Control Systems (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Eye Examination Apparatus (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

Изобретение относится к системам распознавания речи. Его использование в системе проверки личности говорящего позволяет достичь технический результат в виде повышения точности распознавания. Этот технический результат достигается благодаря тому, что в способе верификации говорящего выделяют по меньшей мере один признак из первого речевого фрагмента, произнесенного говорящим, классифицируют этот признак с помощью множества классификаторов для формирования множества результатов классификации, объединяют множество результатов классификации для формирования объединенных результатов классификации, распознают объединенные результаты классификации путем определения сходства объединенных результатов классификации и второго речевого фрагмента, произнесенного говорящим до верификации говорящего, и на основании распознанных объединенных результатов классификации принимают решение принять или отвергнуть говорящего. Реализующая данный способ система содержит средства для выполнения перечисленных операций. 2 с. и 22 з.п.ф-лы, 14 ил.

Description

1. Область изобретения
Настоящее изобретение относится к системам распознавания образов и, в частности, к системе проверки личности говорящего, которая использует слияние данных для объединения данных, соответствующих множеству выделенных признаков, и множество классификаторов для точной проверки заявленной идентичности.
2. Описание областей техники, относящихся к изобретению
Распознавание образов относится к идентификации образов, например, речи говорящего или изображения. Идентифицированный речевой образ может быть использован в системе идентификации говорящего для того, чтобы по фрагменту речи определить личность говорящего.
Цель системы для верификации говорящего заключается в подтверждении подлинности личности говорящего по фрагменту его речи. По отношению к вводимой речи система верификации может быть зависящей от текста и не зависящей от текста. Зависящие от текста системы верификации говорящего устанавливают личность говорящего после того, как тот произнесет заранее заданную фразу или пароль. Не зависящие от текста системы верификации говорящего устанавливают личность говорящего независимо от вида произнесенного фрагмента речи. Поскольку не зависящие от текста системы не требуют произнесения пароля, они являются более удобными с точки зрения пользователя.
Извлечение признаков, несущих информацию о говорящем, осуществляется с помощью модуляционной модели, использующей взвешивание адаптивных компонент в каждом речевом кадре, как описано в заявке на патент США N 08/203988 "Speaker Identification Verification System", владельцами которой являются заявители этого изобретения и которая включена в настоящее описание путем ссылки. При адаптивном взвешивании компонент ослабляют неголосовые компоненты тракта и нормализуют речевые компоненты для улучшения распознавания говорящего через канал.
Другие известные способы выделения признаков включают определение кепстральных коэффициентов из частотного спектра или коэффициентов кодирования спектра путем линейного предсказания. Нейронные древовидные сети используют совместно с не зависящими от говорящего данными для определения взаимных параметров говорящих, основанных на различении. Нейронная древовидная сеть является иерархическим классификатором, который сочетает свойства деревьев решений и нейронных сетей, как описано в статье "A. Sankar, R.3. Mammone, Growing and Pruning Neural Tree Networks, IEEE Transactions on Computers, С-42: 221-229, March 1993". Обучающие данные нейронной древовидной сети для распознавания говорящего состоят из данных, соответствующих заданному говорящему, и данных, соответствующих другим говорящим. Нейронная древовидная сеть разбивает пространство признаков на области, которым присваиваются заданные значения вероятностей, отражающие то, насколько вероятно, что говорящий сформировал вектор признаков, который попадает в эту область. Не зависящие от текста системы обладают тем недостатком, что для моделирования и оценки акустических признаков говорящего требуется большого количества данных.
В патенте США N 4957961 описана нейронная сеть, которую можно легко обучить распознаванию связанных слов. Используется способ динамического программирования, при котором входные нейронные блоки входного уровня группируются в многоуровневую нейронную сеть. Для распознавания входного образа компоненты каждого вектора признаков подаются в соответствующие входные нейронные блоки одного из входных уровней, которые выбирают из трех последовательно пронумерованных кадров входного уровня. Промежуточный уровень соединяет входные нейронные блоки по меньшей мере двух кадров входного уровня. Выходной нейронный блок соединен с промежуточным уровнем. Регулирующий блок соединен с промежуточным уровнем для регулирования соединений вход - промежуточный уровень и промежуточный уровень - выход так, чтобы выходной блок вырабатывал выходной сигнал. Нейронная сеть идентифицирует входной образ, как заранее заданный образ, когда регулирующий блок максимизирует выходной сигнал. Для обучения динамической нейронной сети используются около сорока тренировок для каждого речевого образа.
Было обнаружено, что количество данных, необходимых для обучения и тестирования системы верификации, может быть уменьшено при использовании зависящих от текста фрагментов речи говорящего. Одна из известных систем верификации говорящего, зависящих от текста, использует динамическое предыскажение шкалы времени для временного выравнивания оценки признаков на основе искажения, см. "S.Furui. Cepstral Analysis Technique For Automatic Speaker Verification, IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-29:254-272, April, 1981". Эталонный шаблон генерируется во время тестирования из пароля, произнесенного несколько раз. Решение принять или отвергнуть заявленную идентичность говорящего принимается на основании того, падает ли искажение, соответствующее речи говорящего, ниже заранее заданного порога. Недостатком такой системы является низкая точность.
Использование скрытых марковских моделей обеспечивает преимущество по сравнению с системами, использующими динамическое предыскажение шкалы времени, как описано в работе "J.J. Naik, L.P. Netsch, G.R. Doddington. Speaker Verification Over Long Distance Telephone Lines, Proceedings ICASSP (1089)". Для зависящей от текста верификации говорящего было использовано несколько форм скрытых марковских моделей. Например, для верификации говорящего рассматривались подсловные модели, как описано в работе "A.E.Rosenberg, С.Н. Lee, F. K. Soong. Subword Unit Talker Verification Using Hidden Markov Models, Proceedings ICASSP, pp.269-272 (1990)", и полнословные модели "A.E.Rosenberg, С.Н. Lee, S. Gokeen, "Connected Word Talker Recognition Using Whole Word Hidden Markov Models, Proceedings ICASSP, pp. 381-384 (1991)". Недостатком способа с использованием скрытых марковских моделей является то, что для адекватной оценки параметров модели требуется большое количество данных. Общим недостатком систем, использующих динамическое предыскажение шкалы времени и скрытые марковские модели, является то, что они моделируют только конкретного говорящего, а не учитывают данных моделирования других говорящих, которые используют эти системы. Сбой при обучении распознаванию дает возможность самозванцу легко проникнуть в систему.
Желательно создать такую систему распознавания образов, в которой для повышения точности распознавания образа множество выделенных признаков могут быть объединены в множестве заранее заданных классификаторов.
Сущность изобретения
Говоря кратко, настоящее изобретение охватывает такую систему распознавания образов, которая объединяет множество выделенных признаков в множестве классификаторов, включающих классификаторы, обученные на различных и перекрывающихся субстратах обучающих данных, например по способу "отбрось один", описанному ниже. Предпочтительно система распознавания образов используется для верификации говорящего, при которой признаки выделяются из речи говорящего. Для классификации выделенных признаков используется множество классификаторов. Результаты классификации объединяются для выявления сходства речи говорящего и речи, заранее запомненной для конкретного говорящего. На основании объединенного результата классификации принимается решение принять или отвергнуть говорящего. Наиболее предпочтительно, чтобы речь классифицировалась посредством объединения классификатора, использующего динамическое предыскажение шкалы времени для подтверждения достоверности произнесенной парольной фразы и классификатора, использующего нейронную древовидную сеть для различения говорящего среди других говорящих. Преимуществом обученного различению классификатора в системе верификации говорящего является повышение точности различения одного говорящего среди других.
Система может также включать предварительное определение, принять или отвергнуть говорящего, основанное на распознавании слова, произнесенного говорящим, то есть на пароле говорящего. Если пароль говорящего подтверждается, разрешается работа классификаторов. Предпочтительно, чтобы классификаторы были обучены посредством подачи на классификатор множества фрагментов речи при одном отброшенном фрагменте. Отброшенный фрагмент может быть подан на классификатор для определения вероятности подтверждения личности говорящего, лежащей между 0 и 1. Вероятности могут сравниваться с порогом классификатора для принятия решения о том, принять или отвергнуть говорящего.
Текст, произносимый говорящим, может быть зависящим от говорящего и не зависящим от говорящего. Кроме того, выделяемые признаки могут быть сегментированы в подслова. Предпочтительно, чтобы подслово являлось фонемой. Каждое из подслов может быть моделировано по меньшей мере одним классификатором. Выходные результаты классификаторов, основанных на подсловах, могут быть объединены для создания верификационной системы, основанной на подсловах.
Предпочтительно признаки можно выделить с помощью полюсной фильтрации для уменьшения влияния канала на речь. Кроме того, выделенные признаки могут быть отрегулированы с помощью афинного преобразования для уменьшения рассогласования между условиями обучения и тестирования.
Изобретение будет описано более подробно со ссылками на прилагаемые чертежи.
Краткое описание чертежей
На фиг.1 изображена блок-схема системы верификации говорящего, выполненной согласно настоящему изобретению,
на фиг. 2А изображена блок-схема модуля распознавания слов, показанного на фиг. 1, в процессе обучения системы,
на фиг. 2В изображена блок-схема модуля распознавания слов, показанного на фиг. 1, в процессе тестирования системы,
на фиг. 3 изображена блок-схема модуля верификации говорящего, объединяющего множество выделенных признаков с множеством классификаторов,
на фиг. 4 изображена блок-схема комбинации классификатора, использующего модифицированную нейронную древовидную сеть, и классификатора, использующего динамическое предыскажение шкалы времени, используемых в модуле верификации говорящего, показанном на фиг. 1,
на фиг. 5 изображена блок-схема классификатора на основе модифицированной нейронной древовидной сети, используемого в модуле верификации говорящего, показанном на фиг. 1,
на фиг. 6 схематично изображен классификатор на основе динамического предыскажения шкалы времени, используемый в модуле верификации говорящего, показанном на фиг.1,
на фиг. 7А схематично изображено множество речевых фрагментов, используемых для обучения модуля верификации говорящего,
на фиг.7В,С изображена блок-схема использования в модуле верификации говорящего множества речевых фрагментов, показанных на фиг.7А,
на фиг.8 графически представлены количественные показатели, соответствующие говорящему и другим говорящим,
на фиг. 9 изображена блок-схема системы верификации говорящего, основанной на подсловах,
на фиг. 10А изображена блок-схема системы классификации, основанной на подсловах, в процессе обучения,
на фиг. 10В изображена блок-схема системы классификации, основанной на подсловах, в процессе тестирования,
на фиг.11А изображена блок-схема известной системы нормализации канала,
на фиг. 11В изображена блок-схема системы нормализации канала согласно настоящему изобретению,
на фиг. 12 графически иллюстрируется нормализация канала с полюсной фильтрацией,
на фиг. 13А изображен график спектра речевого кадра,
на фиг. 13В изображен график спектра речевого кадра для системы нормализации, выполненной согласно настоящему изобретению, по сравнению с кадром для известной системы нормализации,
на фиг. 14 изображена блок-схема системы афинного преобразования.
Подробное описание предпочтительного варианта выполнения изобретения
В этом описании одинаковые позиции обозначают одинаковые элементы на различных чертежах, иллюстрирующих изобретение.
На фиг. 1 изображена блок-схема варианта выполнения системы 10 верификации говорящего в соответствии с настоящим изобретением. Говорящий 11 произносит фрагмент 12 речи. Фрагмент 12 речи в виде входного речевого сигнала 13 подается в модуль 14 выделения признаков. Модуль 14 выделения признаков определяет векторы 15 речевых признаков, представляющие характерные параметры входного речевого сигнала 13. Предпочтительно, чтобы векторы 15 речевых признаков определялись с помощью линейного предсказания для определения кепстральных коэффициентов линейного предсказания. Линейно предсказанные кепстральные коэффициенты могут быть подвергнуты полосовой фильтрации с использованием окна в виде поднятой синусоиды с помощью известных способов, применяемых для улучшенного распознавания кепстральных коэффициентов.
Альтернативно линейному предсказанию или в комбинации с ним модуль 14 выделения признаков может выделять признаки множеством способов. Например, для выделения векторов 15 речевых признаков может быть использован способ адаптивного взвешивания компонент, который описан в вышеупомянутой заявке США N 08/203988. Способ адаптивного взвешивания компонент усиливает выделенные признаки с помощью взвешивания заранее заданных компонент входного речевого сигнала 13 для формирования нормализованного спектра, который усиливает признаки сигнала, связанные с голосовым трактом, при уменьшении влияния неголосовых трактов. Модуль 14 выделения признаков может генерировать также другие признаки, полученные путем линейного предсказания, из коэффициентов линейного предсказания при использовании известных способов, например логарифмического отношения площадей, линейных спектральных пар и коэффициентов отражения. Модуль 14 выделения коэффициентов может также генерировать спектральные признаки путем быстрого преобразования Фурье в линейном и логарифмическом масштабах, фундаментальную частоту (высоту тона), коэффициент громкости и частоту пересечений нулевого уровня.
Модуль 20 распознавания слова принимает векторы 15 речевых признаков и сравнивает их с данными 16, соответствующими векторам 15 речевых признаков. Данные 16 могут хранится в базе 50 данных. Например, говорящий 11 может произнести в качестве фрагмента 12 речи пароль. Векторы 15 речевых признаков представляют фразу пароля для говорящего 11. Конечное множество паролей может быть представлено данными 16 и хранится в базе 50 данных. Конечное множество паролей соответствует множеству индивидуальных говорящих и включает пароль для говорящего 11. При условии, что принятые модулем 20 распознавания слова векторы 15 речевых признаков согласуются с данными 16, хранимыми в базе 50 данных, например соответствуют паролю для заявленной идентичности, модуль 30 верификации говорящего приводится в действие. Если принятые векторы 15 речевых признаков не согласуются с данными 16, хранимыми в базе 50 данных, например не соответствуют паролю для заявленной идентичности, пользователю 11 предлагается в модуле 21 повторить вызов.
В модуле 30 верификации говорящего предпочтительно используется слияние данных для объединения множества классификаторов с векторами 15 речевых признаков, как подробно описано ниже. Выходные сигналы 35, соответствующие объединенным классификаторам, поступают в логический модуль 40 объединения решений. Логический модуль 40 объединения решений принимает окончательное решение принять или отвергнуть заявленную идентичность говорящего 11, тем самым выполняя верификацию заявленной идентичности говорящего.
На фиг. 2А и 2В иллюстрируется модуль 20 распознавания слов в процессе регистрации и тестирования говорящего 11 соответственно. Во время регистрации говорящего 11 в системе 10 верификации говорящий 11 произносит обучающие фразы 22. Например, обучающая фраза 22 может содержать четыре повторения пароля говорящего 11. Каждое из повторений идентифицируется модулем 28 идентификации совпадения слова. Предпочтительно в модуле 28 идентификации совпадения слова для выработки опознанных слов 23 используют алгоритм совпадения с шаблоном, основанный на динамическом предыскажении шкалы времени. Опознанные слова 23 группируются в шаблон 24, зависящий от говорящего. С помощью опознанных слов 23 и данных от повторения той же обучающей фразы 22, произнесенной другими говорящими 25, при использовании системы 10 верификации говорящего можно формировать шаблоны 26, не зависящие от говорящего. Для идентификации пароля 27 пользователя для говорящего 11 может быть использован принцип мажоритарной выборки по словам, идентифицированным модулем 28 идентификации совпадения слов.
Во время тестирования говорящего 11 он произносит речевые фразы 12, которые в модуле 28 идентификации совпадения слов сравниваются с шаблоном 24, зависящим от пользователя, и шаблоном 26, не зависящим от пользователя. Если речевая фраза 12 соответствует паролю 27 говорящего 11 и совпадает или с шаблоном 24 слов, зависящем от говорящего, или шаблоном 26 слов, не зависящим от говорящего, в линию 29 выдается сигнал "Принят". Если речевая фраза 12 не совпадает как с шаблоном 24 слов, зависящим от говорящего, так и с шаблоном 26 слов, не зависящим от говорящего, в линию 29 выдается сигнал "Отвергнут".
Предпочтительно, чтобы модуль 30 верификации говорящего использовал слияние данных для объединения множества выделенных признаков 60, 61 и 62 со множеством классификаторов 70, 71 и 72, как показано на фиг.3. Признаки 60, 61 и 62 могут представлять векторы 15 речевых признаков, выделенные с помощью различных заранее заданных способов, описанных выше. Классификаторы 70, 71 и 72 могут представлять различные заранее заданные способы классификации, например нейронную древовидную сеть, многоуровневый перцептрон, скрытую марковскую модель, динамическое предыскажение шкалы времени, смешанную гауссову модель и векторное квантование. В альтернативном варианте выполнения изобретения признаки 60, 61 и 62 могут представлять собой выделенные признаки альтернативных образов, например речи и изображения, а классификаторы 70,71 и 72 могут представлять заранее заданные способы классификации речевых или зрительных образов. Результаты 73, 74 и 75 из соответствующих классификаторов 70, 71 и 72 могут объединяться в логическом модуле 40 объединения решений для принятия окончательного решения - принять или отвергнуть говорящего 11. Для объединения классификаторов 70, 71 и 72 модуль 40 может использовать известные способы, например линейную совокупность мнений, логарифмическую совокупность мнений, байесовские правила сложения, метод мажоритарной выборки или дополнительные классификаторы. Должно быть понятно, что может быть взято любое количество признаков или классификаторов. Классификаторы могут также включать классификаторы, обучаемые с помощью других или перекрывающихся субстратов обучающих данных, например с помощью способа "отбрось один", описанного ниже.
На фиг. 4 иллюстрируется предпочтительный модуль 30 верификации говорящего для использования в системе верификации говорящего согласно настоящему изобретению. Векторы 102 речевых признаков подаются в классификаторы 104, 106, 108 и 110, использующие нейронную древовидную сеть, и классификаторы 120, 122, 124 и 126, использующие динамическое предыскажение шкалы времени. В процессе классификации каждый классификатор 104, 106, 108 и 110, использующий нейронную древовидную сеть, определяет, превышает ли величина вектора 102 речевых признаков соответствующее заранее заданное пороговое значение "TNTN" для нейронной древовидной сети, хранимое в базе 132 данных. Каждый классификатор 120, 122, 124 и 126, использующий динамическое предыскажение шкалы времени, определяет, превышает ли величина вектора 102 речевых признаков соответствующее заранее заданное пороговое значение "TDTW" для динамического предыскажения шкалы времени, хранимое в базе 132 данных. Если величины векторов 102 признаков превышают соответствующие пороговые значения TNTN и TDTW, то на линии 240 и 241 соответственно выдается двоичная "1". Если величины векторов 102 признаков меньше, чем соответствующие заранее заданные пороговые значения TNTN и TDTW, то на соответствующую линию 240 или 241 выдается двоичный "0".
Во время тестирования говорящего 11 с помощью системы 10 верификации на модуль 40 принятия решения поступают выходные двоичные сигналы с линий 240 и 241. В предпочтительном варианте выполнения модуля 40 может быть произведена мажоритарная выборка выходных двоичных сигналов для определения того, принять или отвергнуть говорящего 11. В этом варианте выполнения изобретения, если большая часть выходных двоичных сигналов представляет собой "1", то говорящий принимается, а если большая часть выходных двоичных сигналов представляет собой "0", то говорящий отвергается.
Предпочтительный классификатор, выполненный в виде модифицированной нейронной древовидной сети 200, может быть использован в модуле 30 верификации говорящего в качестве классификатора, основанного на различении. Модифицированная нейронная древовидная сеть 200 имеет множество соединенных между собой узлов 202, 204 и 206, как показано на фиг. 5. Узел 204 связан с листовым узлом 208 и листовым узлом 210, а узел 206 связан с листовым узлом 212 и листовым узлом 214. В каждом из листовых узлов 208, 210, 212 и 214 используется измерение вероятности за счет "прямой обрезки" дерева путем усечения роста модифицированной нейронной древовидной сети 200 дальше заранее заданного уровня.
Обучение модифицированной нейронной древовидной сети 200 в отношении говорящего 11 производится путем подачи данных 201, соответствующих другим говорящим 25, использующим систему 10 верификации. Векторы 15 выделенных признаков, соответствующие говорящему 11, обозначенные как Si, получают метку "1", а векторы выделенных признаков, соответствующие другим говорящим 25, использующим систему 10 верификации, получают метку "0". Данные 220, 230, 240 и 250 подаются соответственно в листовые узлы 208, 210, 212 и 214 векторов выделенных признаков. В каждом из листовых узлов 208, 210, 212 и 214 производится мажоритарная выборка. Каждому из листьев 208, 210, 212 и 214 присваивается метка в соответствии с мажоритарной выборкой. "Достоверность" определяется как отношение числа большинства меток к общему числу меток. Например, данным 220, которые включают восемь признаков "0", присваивается метка "0" и достоверность "1,0". Данным 230, которые включают шесть признаков "1" и четыре признака "0", присваивается метка "1" и достоверность "0,6".
Обученная модифицированная нейронная древовидная сеть 200 может быть использована в модуле 30 верификации говорящего для определения соответствующего говорящему количественного показателя из последовательности векторов "X" признаков из речевого кадра 12. Соответствующий количественный показатель PMNTN(X/Si) говорящего может быть определен с помощью следующего уравнения
Figure 00000002

где говорящему 11 соответствует Si, C1 - количественный показатель достоверности для говорящего 11, С0 - количественный показатель достоверности для всех остальных говорящих. М и N соответствуют числу векторов, классифицированных как "1" и "0" соответственно.
Предпочтительный классификатор на основе динамического предыскажения шкалы времени использует подход, базирующийся на внесении искажений, для совмещения во времени двух сигналов или двух образов признаков, как показано на фиг. 6. Сигналы представлены опорными образами векторов 15 речевых признаков по оси X и тестируемыми образами векторов 15 речевых признаков по оси Y, причем N соответствует числу опорных образов, а М - числу тестируемых образов. Глобальные ограничения 270, 271, 272 и 273 соответствуют пределам для пути 275 динамического предыскажения шкалы времени. Путь 275 динамического предыскажения шкалы времени может быть определен известными способами, например, описанными в работе "H.Sakoe and S.Chiba. Dynamic programming algorithm optimization for spoken word recognition, IEEE Trans. on Acoustic, Speech and Signal Processing, vol. ASSP-26, No. 1, pp. 43-49, Feb. 1978".
Предпочтительно объединять классификатор, который основан на внесении искажений, например динамического предыскажения шкалы времени, для получения информации о говорящем, и классификатор, основанный на различении, на нейронной древовидной сети или модифицированной нейронной древовидной сети для получения информации о говорящем относительно других говорящих, использующих систему 10 верификации. Кроме того, преимущество объединения классификатора, использующего динамическое предыскажение шкалы времени, и классификатора, использующего нейронную древовидную сеть или модифицированную нейронную древовидную сеть, заключается в том, что классификатор, использующий динамическое предыскажение шкалы времени, предоставляет временную информацию, которой обычно не имеется в классификаторах, использующих нейронную древовидную сеть или модифицированную нейронную древовидную сеть.
Классификаторы 104, 106, 108 и 110, использующие нейронную древовидную сеть, и классификаторы 120, 122, 124 и 126, использующие динамическое предыскажение шкалы времени, могут быть обучены с помощью обучающего модуля 300, показанного на фиг. 7А и 7В. Обучающий модуль 300 может быть также использован для обучения классификаторов, использующих модифицированную нейронную древовидную сеть, классификаторов, использующих динамическое предыскажение шкалы времени, и других классификаторов, которые могут быть использованы в модуле 30 верификации говорящего. В обучающем модуле 300 предпочтительно используется способ повторной выборки, названный "отбрось один". От говорящего 11 поступает заранее заданное количество речевых фрагментов. В данном варианте выполнения изобретения используются четыре фрагмента, обозначенные как 302, 304, 306 и 308, речи 22, являющиеся паролем говорящего. Комбинация трех из четырех фрагментов при одном отброшенном фрагменте подается в пары классификаторов 104, 106, 108 и 110, использующих нейронную древовидную сеть, и классификаторов 120, 122, 124 и 126, использующих динамическое предыскажение шкалы времени. Три фрагмента используются для обучения классификаторов, а оставшийся фрагмент используется для независимого тестирования. Например, фрагменты 302, 304 и 306 могут быть поданы в классификатор 104, использующий нейронную древовидную сеть, и классификатор 120, использующий динамическое предыскажение шкалы времени, фрагменты 304, 306 и 308 могут быть поданы в классификатор 106, использующий нейронную древовидную сеть, и классификатор 122, использующий динамическое предыскажение шкалы времени, фрагменты 302, 306 и 308 могут быть поданы в классификатор 108, использующий нейронную древовидную сеть, и классификатор 124, использующий динамическое предыскажение шкалы времени, а фрагменты 302, 304 и 308 могут быть поданы в классификатор 110, использующий нейронную древовидную сеть, и классификатор 126, использующий динамическое предыскажение шкалы времени.
После подачи трех соответствующих фрагментов в каждую пару классификаторов 104, 106, 108 и 110, использующих нейронную древовидную сеть, и классификаторов 120, 122, 124 и 126, использующих динамическое предыскажение шкалы времени, отброшенный фрагмент подают в каждую соответствующую пару классификаторов 104, 106, 108 и 110, использующих нейронную древовидную сеть, и классификаторов 120, 122, 124 и 126, использующих динамическое предыскажение шкалы времени, как показано на фиг.7С. Например, фрагмент 308 подают в классификатор 104, использующий нейронную древовидную сеть, и классификатор 120, использующий динамическое предыскажение шкалы времени, фрагмент 302 подают в классификатор 106, использующий нейронную древовидную сеть, и классификатор 122, использующий динамическое предыскажение шкалы времени, фрагмент 304 подают в классификатор 108, использующий нейронную древовидную сеть, и классификатор 124, использующий динамическое предыскажение шкалы времени, а фрагмент 306 подают в классификатор 110, использующий нейронную древовидную сеть, и классификатор 126, использующий динамическое предыскажение шкалы времени. Вычисляют вероятность P, лежащую между 0 и 1 и обозначенную как 310, 312, 314 и 316. Вероятности 310, 312, 314 и 316 сравнивают с порогом TDTW, а вероятности 317, 318, 319 и 320 сравнивают с порогом TNTN в модуле 321 мажоритарной выборки логического модуля 40 объединения решений.
На фиг. 8 представлен график внутренних количественных показателей говорящего относительно других говорящих 25 и взаимных количественных показателей говорящих относительно говорящего 11, который может быть использован для определения порогов классификаторов, применяемых в системе 10 верификации говорящего, например порогов TDTW и TNTN. Взаимные количественные показатели относительно других говорящих для фразы 12 говорящего 11 представлены графиком 350, имеющим средний количественный показатель 351 говорящего. Внутренние количественные показатели других говорящих 25 для фразы 12 представлены графиком 360, имеющим средний количественный показатель 361 говорящего. Порог Т может быть определен из следующего уравнения:
Т = x • взаимн.показатель + у • взаимн. показатель.
Мягкий количественный показатель S может быть определен величиной, на которую речь 12 отклоняется от порога Т в большую или меньшую сторону. Количественный показатель С каждого классификатора лежит между нулем и единицей, причем нуль соответствует наиболее достоверному отклонению, а единица - наиболее достоверному принятию. Достоверность Caccept принятия лежит между порогом Т и единицей и может быть определена как
Figure 00000003

Достоверность Creject отклонения лежит между нулем и порогом Т и может быть определена как:
Figure 00000004

На фиг. 9 иллюстрируется блок-схема системы 400 верификации говорящего, основанная на подсловах. После выделения векторов 15 речевых признаков в модуле 14 выделения признаков эти векторы 15 сегментируются в модуле 402 подсловной сегментации на подслова 404. Предпочтительно, чтобы подслова являлись фонемами. Подслова 404 могут быть поданы на обучаемый модуль 406 говорящего и тестовый модуль 408 говорящего.
На фиг.10А показана блок-схема системы 400 верификации говорящего, основанная на подсловах, при использовании обучаемого модуля 406 говорящего. Выделенные признаки 15 говорящего, описывающие обучающие фрагменты речи говорящего 11, и копию пароля 410 подают в модуль 402 сегментации на уровне подсловных фонем. Копия пароля 410 может быть произнесена говорящим 11, введена с компьютера, считана с карты или введена аналогичным способом. Модуль 402 речевой сегментации сегментирует выделенные признаки 15 говорящего на подслова, от 1 до "М", например подслово "1" в модуль 420, подслово "m" - в модуль 422 и подслово "М" - в модуль 424, где М - число сегментированных подслов. Подслова 420, 422 и 424 могут храниться в базе 425 данных подслов. Контролируемая обучающая схема 430 маркирования векторов определяет метки обучающих речевых векторов для обучающих классификаторов 440, 442 и 444, присваивая им значения "0" и "1". Например, все подслова для других говорящих 25 могут быть помечены как "0", а подслова для говорящего 15 могут быть помечены как "1". Альтернативно ближайшие фонемы можно искать в базе данных 425. Для классификации каждого из подслов 420, 422 и 424 могут использоваться классификаторы 440, 442 и 444 подслов. Предпочтительно, чтобы классификаторы 440, 442 и 444 подслов использовали методы классификации с использованием нейронной древовидной сети и динамического предыскажения шкалы времени.
На фиг. 10В показана блок-схема системы 400 верификации говорящего, основанной на подсловах, при использовании модуля тестирования 408 говорящего. Выделенные признаки 15 говорящего, описывающие тестовые фрагменты речи говорящего 11, и копию пароля 410 подают в модуль 402 сегментации на уровне подсловных фонем. Классификаторы 440, 442 и 444 подслов классифицируют соответствующие подслова 420, 422 и 424, определенные по выделенным речевым признакам 15, описывающим тестовые фрагменты речи говорящего 11. Результат 445 с выхода классификаторов 440, 442 и 444 подается в логический модуль 40 объединения решений для определения, принять или отвергнуть говорящего 11 на основании объединенного результата из классификаторов 440, 442 и 444, полученного на основе вычисленной достоверности Caccept принятия, как описано выше.
В модуле 14 выделения признаков для формирования векторов 15 выделенных признаков, устойчивых по отношению к различиям каналов, может быть использован предпочтительный способ, который можно назвать "полюсной фильтрацией". Полюсная фильтрация осуществляет нормализацию каналов с использованием интеллектуальной фильтрации всеполюсного фильтра линейного предсказания.
Чистый речевой сигнал Cs в канале подвергается свертке с импульсным откликом h, тогда кепстр канала с обычным кепстральным средним может быть представлен как:
CS= Σ M m=1 Sm+h,
где
SS= Σ M m=1 Sm
соответствует компоненте кепстрального среднего, обусловленной только исходным чистым речевым сигналом. Компонента, обусловленная чистым речевым сигналом, должна иметь нулевое среднее, чтобы оценка Cs канального кепстра соответствовала кепстральной оценке h действительного исходного сверточного искажения.
Может быть показано эмпирически, что для коротких речевых фрагментов средняя кепстральная компонента, обусловленная чистым речевым сигналом, никогда не равна нулю и может служить для обучения и тестирования системы 10 верификации говорящего.
На фиг. 11А показана известная система 500 нормализации канала, в которой речевой сигнал подается на модуль 502 внутрикадрового взвешивания. Адаптивное взвешивание компонент является примером внутрикадрового взвешивания для нормализации канала. Взвешенный речевой сигнал 504 поступает в модуль 506 межкадровой обработки для удаления дополнительного влияния канала. Одним из известных межкадровых способов устранения влияния каналов является вычитание кепстрального среднего. Поскольку кепстр канала включает общее спектральное распределение, обусловленное как каналом, так и речью, то известное исключение искаженной оценки спектра канала из кепстра каждого речевого кадра фактически соответствует деконволюции (обращению свертки) ненадежной оценки канала.
На фиг. 11В иллюстрируется система 600 нормализации канала согласно настоящему изобретению. Речевой сигнал 12 подается в модуль 602 полюсной фильтрации для оценки канала. Полюсная фильтрация ослабляет вклад инвариантной компоненты, обусловленной речью Ss. Уточненная оценка канала используется для нормализации канала. Предпочтительно уточнение кепстра канала производится итеративным способом.
Оценка кепстра Cs канала зависит от числа речевых кадров в речевом фрагменте. В случае, когда доступный речевой фрагмент имеет достаточную длину, можно получить оценку кепстра канала, которая аппроксимирует истинную оценку h канала. В большей части практических ситуаций длительности речевых фрагментов для обучения или тестирования никогда не являются достаточно большими, чтобы обеспечить Ss, стремящееся к 0. Средняя кепстральная оценка может быть улучшена путем определения доминирования полюсов в речевом кадре и их вклада в оценку кепстра канала.
Влияние каждой моды голосового тракта на кепстральное среднее определяется путем преобразования кепстрального среднего в коэффициенты линейного предсказания и изучения доминирования соответствующих пар комплексно сопряженных полюсов. Спектральная компонента для речевого кадра доминирует в максимальной степени, если она соответствует паре комплексно сопряженных полюсов, ближайших к единичной окружности (минимальная ширина полосы), и доминирует в минимальной степени, если она соответствует паре комплексно сопряженных полюсов, наиболее удаленных от единичной окружности (максимальная ширина полосы).
Наложение ограничений на речевые полюсы для получения более гладкой и, следовательно, более точной оценки обратного канала в кепстральной области соответствует модифицированному кепстральному среднему CSpf, которое ослабляет кепстральное смещение, связанное с инвариантной компонентой, обусловленной речью. Удаление уточненного кепстрального среднего, лишенного компоненты общего спектрального распределения, обусловленной речью, обеспечивает улучшенную схему нормализации канала.
Оценку канала, предпочтительно полученную из модуля 602 полюсной фильтрации канала, объединяют с речевым сигналом 12 в модуле 730 деконволюции во временной области для получения нормализованной речи 735. Для формирования вектора 740 речевых признаков нормализованного канала, к нормализованному речевому сигналу 735 может быть применено известное межкадровое соединение 502 и обработка 506 интерференции. Вектор 740 речевых признаков может быть приложен так же, как векторы 15 речевых признаков, показанные на фиг. 1. Один предпочтительный способ улучшения оценки канала использует кепстральные коэффициенты, обработанные полюсной фильтрацией, причем полоса частот узкополосных полюсов расширяется, в то время как их частоты остаются без изменения, как показано на фиг. 12. Полюсы 801, 802, 803, 804, 805 и 806 перемещены к модифицированным полюсам 811, 812, 813, 814, 815 и 816. Это эквивалентно перемещению узкополосных полюсов внутри единичной окружности вдоль одного и того же радиуса, то есть без изменения частоты, но с расширением полосы частот.
Кепстральные коэффициенты, обработанные полюсной фильтрацией, определяют для речевого сигнала одновременно с векторами 15 речевых признаков. Обработанные полюсной фильтрацией кепстральные коэффициенты определяют, анализируя, имеет ли полюс в кадре 12 полосу частот, меньшую заранее заданного порога t. Если речевой сигнал 12 меньше заранее заданного порога, полосу частот этого полюса ограничивают до порога t. Кепстральные коэффициенты, обработанные полюсной фильтрацией, могут быть использованы для оценки модифицированного кепстрального среднего. Улучшенную оценку обратного фильтра получают с использованием кепстральных коэффициентов, обработанных полюсной фильтрацией, которые лучше аппроксимируют истинный фильтр обратного канала. Вычитание модифицированного кепстрального среднего из кепстральных речевых кадров сохраняет спектральную информацию и при этом точнее компенсирует наклон спектра для этого канала.
На фиг. 13А иллюстрируется образец спектра 700 речевого кадра. На фиг. 13В иллюстрируется спектр 710 известного кепстрального среднего CS, вычитаемый из спектра 700. Спектр 720 соответствует модифицированному кепстральному среднему CSpf при полюсной фильтрации, вычитаемому из спектра 700. Спектр 720 демонстрирует улучшенную спектральную информацию по сравнению со спектром 710.
На фиг. 14 иллюстрируется система 900 афинного преобразования, которая может быть использована совместно с системой 10 верификации говорящего при обучении и тестировании. Рассогласование между условиями обучения и тестирования может быть уменьшено с помощью афинного преобразования кепстральных коэффициентов, выделенных в модуле 14 выделения признаков. Афинное преобразование вектора x определяется как
y = Ax + b,
где A - матрица, соответствующая линейному преобразованию, b - ненулевой вектор, соответствующий переносу, y - тестовые данные, а x соответствует обучающим данным. В области обработки речи матрица А моделирует стягивание индивидуальных кепстральных коэффициентов вследствие шума, а вектор b учитывает смещение кепстрального среднего за счет влияния канала.
Сингулярное разложение описывает геометрию афинного преобразования следующим уравнением:
y = UΣVTx+b,
где U и VT - унитарные матрицы, а Σ - диагональ. Геометрический смысл состоит в том, что "x" поворачивается с помощью VT, перемасштабируется с помощью Σ и вновь поворачивается с помощью U. Кроме того, имеется перенос, обусловленный вектором b.
Было обнаружено, что на практике каждый кепстральный коэффициент масштабируется на различную величину, а перемасштабирование кепстральных коэффициентов сопровождается небольшим изменением углов. Кепстральный вектор Cns шума может быть представлен как произведение чистого кепстрального вектора "с" и матрицы, то есть
Cns = Ac
Для одновременного представления искажений, вызванных как каналом, так и шумом, может быть использовано афинное отображение, представленное как
c'= Ac + b
Параметр афинного преобразования "x" определяется афинным преобразованием
x = A-1(y-b),
где x эквивалентно x.
Параметры афинного преобразования А и x могут быть найдены посредством решения вышеприведенного уравнения методом наименьших квадратов на массиве обучающих данных или данных взаимной достоверности.
Во время обучения системы 10 верификации говорящего векторы 15 речевых признаков подают в модуль 902 афинного преобразования, а во время тестирования - через входную линию 901 классификатора подают в классификатор 904. Во время обучения векторы 15 речевых признаков связывают с модулем 902 афинного преобразования и через входную линию 903 классификатора подают в классификатор 904. Предпочтительно, чтобы классификатор 904 представлял собой классификатор с квантованием вектора. Классификатор 904 может соответствовать, например, классификаторам 70, 71 и 72, показанным на фиг. 2, классификаторам 104, 106, 108 и 119, использующим нейронную древовидную сеть, и классификаторам 120, 122, 124 и 126, использующим динамическое предыскажение шкалы времени, показанным на фиг. 4.
В системе 10 верификации говорящего, тех говорящих, которые заявляют истинную идентичность, можно называть истинными говорящими, в то время как говорящих, которые заявляют ложную идентичность, можно называть самозванцами. При оценке говорящих система 10 верификации говорящего может делать ошибки двух типов: (а) ложное отклонение и (б) ложный допуск. Ошибка ложного отклонения имеет место, когда истинный говорящий заявляет истинную идентичность, но система 10 верификации говорящего его отвергает. Когда самозванец получает допуск с помощью системы 10 верификации говорящего, имеет место ошибка ложного допуска. Решение принять или отвергнуть идентичность зависит от порога Т, как описано выше. В зависимости от цены ошибки каждого типа система может быть спроектирована так, чтобы достичь компромисса между одним типом ошибки и другим. Альтернативно для того, чтобы оценить конкурирующие разработки, можно сравнивать равные частоты ошибок в сравниваемых системах. Равные частоты ошибок достигаются тогда, когда оба типа ошибок (ложное отклонение и ложный допуск) происходят с равной вероятностью.
Система верификации говорящего, основанная на подсловах и выполненная согласно настоящему изобретению, была оценена на основе известного собрания речевых данных, называемого YOHO, Консорциума лингвистических данных, Филадельфия. Система верификации говорящего, основанная на подсловах и выполненная согласно настоящему изобретению, продемонстрировала коэффициент равных частот ошибок, равный 0,36%, по сравнению с коэффициентом 1,66%, полученным при тех же условиях для известной скрытой марковской модели.
Преимущество настоящего изобретения заключается в объединении множества свойств различных классификаторов для создания мощной системы распознавания, которая способна точно распознать заданный образ. В варианте выполнения системы верификации классификаторы, основанные на искажении, могут быть объединены с классификаторами, основанными на различении, для объединения признаков, относящихся к говорящему, и признаков, относящихся к говорящему и другим говорящим. Предпочтительно использовать нейронную древовидную сеть для классификации данных, получаемых от говорящего и других говорящих, с уменьшенной обработкой. Модуль разрешения распознавания слова может значительно повысить точность системы верификации и сократить обработку для отвергнутых говорящих. Кроме того, классификаторы могут быть основаны на подсловах, с зависящими и не зависящими от текста данными. Дополнительно для уменьшения объема данных, необходимых для обучения системы, система верификации может быть обучена с помощью способа "отбрось один". Для уменьшения искажения в каналах системы может быть использована полюсная фильтрация. Афинное преобразование выделенных признаков обеспечивает улучшенную корреляцию обучающих и тестовых данных. Чтобы учесть возрастные изменения говорящего, система может также обновлять модель говорящего после того, как верификация завершилась положительно.
Хотя изобретение описано со ссылками на предпочтительные варианты его выполнения, это описание не ограничивает его объем. Специалистам в данной области должно быть понятно, что могут быть сделаны различные модификации изобретения.

Claims (24)

1. Способ верификации говорящего, в соответствии с которым выделяют по меньшей мере один признак из первого речевого фрагмента, произнесенного говорящим, классифицируют указанный по меньшей мере один признак с помощью множества классификаторов для формирования множества результатов классификации, объединяют указанное множество результатов классификации для формирования объединенных результатов классификации, распознают указанные объединенные результаты классификации путем определения сходства указанных объединенных результатов классификации и второго речевого фрагмента, произнесенного говорящим до указанной верификации говорящего, и на основании указанных распознанных объединенных результатов классификации принимают решение принять или отвергнуть указанного говорящего.
2. Способ по п.1, отличающийся тем, что дополнительно определяют достоверность на основании указанных распознанных объединенных результатов классификации.
3. Способ по п.2, отличающийся тем, что дополнительно перед классификацией указанного по меньшей мере одного признака проводят распознавание слов в указанном первом речевом фрагменте, произнесенном указанным говорящим, путем сравнения указанного по меньшей мере одного признака с данными, соответствующими указанному говорящему и запомненными до верификации говорящего, чтобы предварительно принять указанного говорящего или предварительно отвергнуть указанного говорящего, и осуществляют указанную операцию классификации по меньшей мере одного признака, если решено предварительно принять указанного говорящего, и приводят в действие модуль повторного запроса, если решено предварительно отвергнуть указанного говорящего.
4. Способ по п.3, отличающийся тем, что указанный первый речевой фрагмент содержит по меньшей мере один пароль для указанного говорящего.
5. Способ по п.4, отличающийся тем, что указанные данные содержат шаблон, зависящий от говорящего, сформированный из первого речевого фрагмента, заранее произнесенного указанным говорящим, и шаблон, не зависящий от говорящего, сформированный из первого речевого фрагмента, заранее произнесенного по меньшей мере одним вторым говорящим.
6. Способ по п.1, отличающийся тем, что указанную операцию классификации выполняют с помощью классификатора, использующего нейронную древовидную сеть, и классификатора, использующего динамическое предыскажение шкалы времени.
7. Способ по п.1, отличающийся тем, что указанную операцию классификации выполняют с помощью классификатора, использующего модифицированную нейронную древовидную сеть, и классификатора, использующего динамическое предыскажение шкалы времени.
8. Способ по п.1, отличающийся тем, что при указанном распознавании подают на пару из указанного множества классификаторов множество первых фрагментов речи указанного говорящего и отбрасывают один из указанных фрагментов, образующий отброшенный фрагмент, для обучения указанных классификаторов, подают указанный отброшенный фрагмент в указанные пары классификаторов для независимого тестирования указанных классификаторов, вычисляют первую вероятность для первого из классификаторов из указанной пары классификаторов и вторую вероятность для второго классификатора из указанной пары классификаторов и определяют первый порог для первого классификатора из указанной пары классификаторов на основании указанной первой вероятности и второй порог для второго классификатора из указанной пары классификаторов на основании указанной второй вероятности, причем указанное сходство множества результатов классификации определяют путем сравнения указанного первого классификатора из пары классификаторов с указанным первым порогом и указанного второго классификатора из пары классификаторов с указанным вторым порогом.
9. Способ по п.1, отличающийся тем, что указанное выделение выполняют путем модификации полюсов в полюсном фильтре указанных первого и второго речевых фрагментов для выделения указанного по меньшей мере одного признака.
10. Способ по п. 1, отличающийся тем, что дополнительно сегментируют указанный по меньшей мере один признак указанного первого речевого фрагмента на множество первых подслов после указанной операции выделения.
11. Способ по п.10, отличающийся тем, что указанные подслова являются фонемами.
12. Способ по п.1, отличающийся тем, что указанный по меньшей мере один признак корректируют с использованием афинного преобразования.
y = Ax + b,
где y - указанное афинное преобразование вектора x;
A - матрица, соответствующая линейному преобразованию;
b - вектор, соответствующий переносу.
13. Способ по п.10, отличающийся тем, что указанные полюсы модифицируют путем определения спектральной компоненты указанного по меньшей мере одного признака и ограничения узкой полосы частот для получения оценки канала.
14. Способ по п.13, отличающийся тем, что дополнительно выполняют деконволюцию указанного первого речевого фрагмента и указанного второго речевого фрагмента с использованием указанной оценки канала для получения нормализованного речевого фрагмента и вычисляют спектральные признаки указанного нормализованного речевого фрагмента для получения векторов признаков нормализованного речевого фрагмента, которые используют при указанной классификации.
15. Способ по п. 13, отличающийся тем, что дополнительно преобразуют указанную оценку канала в кепстральные коэффициенты для получения модифицированной оценки канала в кепстральной области и вычитают указанную модифицированную оценку канала из кепстральных кадров указанного первого речевого фрагмента и указанного второго речевого фрагмента.
16. Способ по п.12, отличающийся тем, что указанный по меньшей мере один признак является кепстральными коэффициентами, которые корректируют с использованием афинного преобразования.
17. Способ по п.7, отличающийся тем, что дополнительно выделяют по меньшей мере один признак из второго речевого фрагмента, произнесенного другими говорящими, присваивают первую метку указанному по меньшей мере одному признаку из первого речевого фрагмента, произнесенного указанным говорящим, присваивают вторую метку указанному по меньшей мере одному признаку из второго речевого фрагмента, произнесенного другими говорящими, и обучают указанные классификаторы первой и второй меткам.
18. Способ по п.10, отличающийся тем, что дополнительно выделяют по меньшей мере один признак из второго речевого фрагмента, произнесенного другими говорящими, сегментируют указанный по меньшей мере один признак указанного второго речевого фрагмента на множество вторых подслов после указанного выделения, запоминают указанное первое множество подслов и второе множество подслов в базе данных подслов, определяют из указанных запомненных первых подслов первые метки для указанного говорящего, а из указанных вторых подслов вторые метки для других говорящих, и обучают указанные классификаторы первым и вторым меткам.
19. Система варификации говорящего, содержащая средства выделения по меньшей мере одного признака из первого речевого фрагмента, произнесенного указанным говорящим, средства классификации указанного по меньшей мере одного признака с помощью множества классификаторов для формирования множества результатов классификации, средства объединения указанного множества выходных сигналов классификации для формирования объединенных результатов классификации, средства распознавания указанных объединенных результатов классификации путем определения сходства указанных объединенных результатов классификации и второго речевого фрагмента, произнесенного говорящим до указанной верификации говорящего, и средства принятия решения, на основании указанных распознанных объединенных результатов классификации, принять или отвергнуть указанного говорящего.
20. Система по п.19, отличающаяся тем, что дополнительно содержит средства распознавания слов в указанном первом речевом фрагменте, произнесенном указанным говорящим, путем сравнения указанного по меньшей мере одного признака с данными, относящимися к указанному говорящему и запомненными до верификации говорящего, для определения, принять указанного говорящего предварительно или отвергнуть указанного говорящего предварительно, и средства приведения в действие указанных средств классификации по меньшей мере одного признака, если решено принять указанного говорящего предварительно, и приведения в действие модуля повторного запроса, если решено отвергнуть указанного говорящего предварительно.
21. Система по п.20, отличающаяся тем, что указанные данные содержат шаблон, зависящий от говорящего и сформированный из первого речевого фрагмента, заранее произнесенного указанным говорящим, и шаблон, не зависящий от говорящего и сформированный из первого речевого фрагмента, заранее произнесенного по меньшей мере одним вторым говорящим.
22. Система по п.21, отличающаяся тем, что указанные средства классификации содержат классификатор, использующий модифицированную нейронную древовидную сеть, и классификатор, использующий динамическое предыскажение шкалы времени.
23. Система по п.22, отличающаяся тем, что указанные средства выделения реализованы путем ограничения полюсов во всеполюсном фильтре.
24. Система по п. 23, отличающаяся тем, что указанный по меньшей мере один признак является кепстральным коэффициентом, который корректируется с использованием афинного преобразования.
RU98100221/09A 1995-06-07 1996-06-06 Система для верификации говорящего RU2161336C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/479,012 1995-06-07
US08/479,012 US5839103A (en) 1995-06-07 1995-06-07 Speaker verification system using decision fusion logic

Publications (2)

Publication Number Publication Date
RU98100221A RU98100221A (ru) 2000-01-10
RU2161336C2 true RU2161336C2 (ru) 2000-12-27

Family

ID=23902297

Family Applications (1)

Application Number Title Priority Date Filing Date
RU98100221/09A RU2161336C2 (ru) 1995-06-07 1996-06-06 Система для верификации говорящего

Country Status (16)

Country Link
US (1) US5839103A (ru)
EP (1) EP0870300B1 (ru)
JP (1) JPH11507443A (ru)
KR (1) KR19990022391A (ru)
CN (1) CN1197526A (ru)
AT (1) ATE323934T1 (ru)
AU (1) AU711496B2 (ru)
CA (1) CA2221415A1 (ru)
DE (1) DE69636057T2 (ru)
FI (1) FI117954B (ru)
IL (1) IL122354A (ru)
NO (1) NO321125B1 (ru)
NZ (1) NZ311289A (ru)
RU (1) RU2161336C2 (ru)
TR (1) TR199701555T1 (ru)
WO (1) WO1996041334A1 (ru)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005346A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for fast calculation of observation probabilities in speech recognition
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
RU2276810C2 (ru) * 2001-07-03 2006-05-20 Интел Зао Способ и устройство для динамической регулировки луча в поиске по витерби
RU2351023C2 (ru) * 2007-05-02 2009-03-27 Общество с ограниченной ответственностью "Тридакна" Способ верификации пользователя в системах санкционирования доступа
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
RU2421699C1 (ru) * 2010-05-19 2011-06-20 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "Интегрированные Биометрические Решения И Системы" (ООО "ИБРиС") Способ верификации личности по голосу на основе анатомических параметров человека
RU2697736C1 (ru) * 2016-07-15 2019-08-19 ГУГЛ ЭлЭлСи Верификация говорящего

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
US6038528A (en) * 1996-07-17 2000-03-14 T-Netix, Inc. Robust speech processing with affine transform replicated data
US6003002A (en) * 1997-01-02 1999-12-14 Texas Instruments Incorporated Method and system of adapting speech recognition models to speaker environment
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
WO1999019865A1 (en) * 1997-10-15 1999-04-22 British Telecommunications Public Limited Company Pattern recognition using multiple reference models
EP1027700A4 (en) * 1997-11-03 2001-01-31 T Netix Inc MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6243695B1 (en) * 1998-03-18 2001-06-05 Motorola, Inc. Access control system and method therefor
EP1072035A1 (en) * 1998-04-20 2001-01-31 Koninklijke KPN N.V. Theshold setting and training of a speaker verification system
WO1999059136A1 (en) * 1998-05-08 1999-11-18 T-Netix, Inc. Channel estimation system and method for use in automatic speaker verification systems
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6178400B1 (en) * 1998-07-22 2001-01-23 At&T Corp. Method and apparatus for normalizing speech to facilitate a telephone call
TW418383B (en) * 1998-09-23 2001-01-11 Ind Tech Res Inst Telephone voice recognition system and method and the channel effect compensation device using the same
US6411930B1 (en) * 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
JP2000200098A (ja) * 1999-01-07 2000-07-18 Sony Corp 学習装置および学習方法、並びに認識装置および認識方法
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
US20010044818A1 (en) * 2000-02-21 2001-11-22 Yufeng Liang System and method for identifying and blocking pornogarphic and other web content on the internet
US6735562B1 (en) * 2000-06-05 2004-05-11 Motorola, Inc. Method for estimating a confidence measure for a speech recognition system
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6728674B1 (en) * 2000-07-31 2004-04-27 Intel Corporation Method and system for training of a classifier
US20040190688A1 (en) * 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US20020147694A1 (en) * 2001-01-31 2002-10-10 Dempsey Derek M. Retraining trainable data classifiers
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
GB0112749D0 (en) * 2001-05-25 2001-07-18 Rhetorical Systems Ltd Speech synthesis
EP1399915B1 (en) * 2001-06-19 2009-03-18 Speech Sentinel Limited Speaker verification
US7899688B2 (en) 2001-12-31 2011-03-01 Genworth Financial, Inc. Process for optimization of insurance underwriting suitable for use by an automated system
US7895062B2 (en) 2001-12-31 2011-02-22 Genworth Financial, Inc. System for optimization of insurance underwriting suitable for use by an automated system
US7844476B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for case-based insurance underwriting suitable for use by an automated system
US8793146B2 (en) * 2001-12-31 2014-07-29 Genworth Holdings, Inc. System for rule-based insurance underwriting suitable for use by an automated system
US8005693B2 (en) 2001-12-31 2011-08-23 Genworth Financial, Inc. Process for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7844477B2 (en) 2001-12-31 2010-11-30 Genworth Financial, Inc. Process for rule-based insurance underwriting suitable for use by an automated system
US7818186B2 (en) 2001-12-31 2010-10-19 Genworth Financial, Inc. System for determining a confidence factor for insurance underwriting suitable for use by an automated system
US7630910B2 (en) 2001-12-31 2009-12-08 Genworth Financial, Inc. System for case-based insurance underwriting suitable for use by an automated system
US20030149881A1 (en) * 2002-01-31 2003-08-07 Digital Security Inc. Apparatus and method for securing information transmitted on computer networks
US6687672B2 (en) 2002-03-15 2004-02-03 Matsushita Electric Industrial Co., Ltd. Methods and apparatus for blind channel estimation based upon speech correlation structure
US7424425B2 (en) * 2002-05-19 2008-09-09 International Business Machines Corporation Optimization of detection systems using a detection error tradeoff analysis criterion
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
US7734025B2 (en) * 2003-02-28 2010-06-08 Grape Technology Group, Inc. Methods and systems for providing on-line bills for use in communications services
US7801748B2 (en) 2003-04-30 2010-09-21 Genworth Financial, Inc. System and process for detecting outliers for insurance underwriting suitable for use by an automated system
US7567914B2 (en) 2003-04-30 2009-07-28 Genworth Financial, Inc. System and process for dominance classification for insurance underwriting suitable for use by an automated system
US7813945B2 (en) 2003-04-30 2010-10-12 Genworth Financial, Inc. System and process for multivariate adaptive regression splines classification for insurance underwriting suitable for use by an automated system
US7383239B2 (en) 2003-04-30 2008-06-03 Genworth Financial, Inc. System and process for a fusion classification for insurance underwriting suitable for use by an automated system
CN1308911C (zh) * 2003-07-10 2007-04-04 上海优浪信息科技有限公司 一种说话者身份识别方法和系统
US7698159B2 (en) 2004-02-13 2010-04-13 Genworth Financial Inc. Systems and methods for performing data collection
US20050288930A1 (en) * 2004-06-09 2005-12-29 Vaastek, Inc. Computer voice recognition apparatus and method
US7386448B1 (en) 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7853539B2 (en) * 2005-09-28 2010-12-14 Honda Motor Co., Ltd. Discriminating speech and non-speech with regularized least squares
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
CN101051463B (zh) * 2006-04-06 2012-07-11 株式会社东芝 说话人认证的验证方法及装置
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
WO2008126627A1 (ja) * 2007-03-26 2008-10-23 Nec Corporation 音声分類装置、音声分類方法、および音声分類用プログラム
US8886663B2 (en) * 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US20130243207A1 (en) * 2010-11-25 2013-09-19 Telefonaktiebolaget L M Ericsson (Publ) Analysis system and method for audio data
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9390445B2 (en) 2012-03-05 2016-07-12 Visa International Service Association Authentication using biometric technology through a consumer device
CN102664011B (zh) * 2012-05-17 2014-03-12 吉林大学 一种快速说话人识别方法
EA023695B1 (ru) * 2012-07-16 2016-07-29 Ооо "Центр Речевых Технологий" Способ распознавания речевых сообщений и устройство для его осуществления
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US8694315B1 (en) 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US10237399B1 (en) 2014-04-01 2019-03-19 Securus Technologies, Inc. Identical conversation detection method and apparatus
US9621713B1 (en) 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
CN103986725A (zh) * 2014-05-29 2014-08-13 中国农业银行股份有限公司 一种客户端、服务器端以及身份认证系统和方法
US9922048B1 (en) 2014-12-01 2018-03-20 Securus Technologies, Inc. Automated background check via facial recognition
CN104410697A (zh) * 2014-12-02 2015-03-11 广东安居宝数码科技股份有限公司 考勤信息的处理方法和系统
JP6481939B2 (ja) * 2015-03-19 2019-03-13 株式会社レイトロン 音声認識装置および音声認識プログラム
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
WO2017212206A1 (en) * 2016-06-06 2017-12-14 Cirrus Logic International Semiconductor Limited Voice user interface
CN106228976B (zh) * 2016-07-22 2019-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
CN107886955B (zh) * 2016-09-29 2021-10-26 百度在线网络技术(北京)有限公司 一种语音会话样本的身份识别方法、装置及设备
US10614813B2 (en) * 2016-11-04 2020-04-07 Intellisist, Inc. System and method for performing caller identity verification using multi-step voice analysis
KR102125549B1 (ko) * 2017-04-20 2020-06-22 한국전자통신연구원 심층신경망 기반 음성 인식 시스템을 위한 발화 검증 방법
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10957318B2 (en) * 2018-11-02 2021-03-23 Visa International Service Association Dynamic voice authentication
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
US10891318B2 (en) * 2019-02-22 2021-01-12 United States Of America As Represented By The Secretary Of The Navy Temporal logic fusion of real time data
CN114175150A (zh) * 2019-06-07 2022-03-11 日本电气株式会社 语音处理设备、语音处理方法和存储程序的非暂时性计算机可读介质
WO2021075012A1 (ja) * 2019-10-17 2021-04-22 日本電気株式会社 話者認証システム、方法およびプログラム
JP7395960B2 (ja) * 2019-10-30 2023-12-12 富士通株式会社 予測モデル説明方法、予測モデル説明プログラム、予測モデル説明装置
CN111081255B (zh) * 2019-12-31 2022-06-03 思必驰科技股份有限公司 说话人确认方法和装置
US20230317085A1 (en) * 2020-08-11 2023-10-05 Nec Corporation Audio processing device, audio processing method, recording medium, and audio authentication system
CN114004353B (zh) * 2021-09-30 2025-02-28 中国科学院计算技术研究所 减少光器件数量的光神经网络芯片构建方法及系统
CN116153336B (zh) * 2023-04-19 2023-07-21 北京中电慧声科技有限公司 一种基于多域信息融合的合成语音检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2343292A1 (fr) * 1976-03-01 1977-09-30 Ncr Co Systeme de controle d'identite de locuteur
SU1629917A1 (ru) * 1989-02-10 1991-02-23 Институт Систем Управления Ан Гсср Способ идентификации говор щего
US5170432A (en) * 1989-09-22 1992-12-08 Alcatel N.V. Method of speaker adaptive speech recognition
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
EP0645755A1 (en) * 1993-09-27 1995-03-29 International Business Machines Corporation Speech coding apparatus and method using classification rules

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
JPH0673080B2 (ja) * 1987-11-25 1994-09-14 日本電気株式会社 連続音声認識方式
DE69030561T2 (de) * 1989-12-28 1997-10-09 Sharp Kk Spracherkennungseinrichtung
US5220640A (en) * 1990-09-20 1993-06-15 Motorola, Inc. Neural net architecture for rate-varying inputs
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
US5430827A (en) * 1993-04-23 1995-07-04 At&T Corp. Password verification system
US5528728A (en) * 1993-07-12 1996-06-18 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and DTW matching technique
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
US5457770A (en) * 1993-08-19 1995-10-10 Kabushiki Kaisha Meidensha Speaker independent speech recognition system and method using neural network and/or DP matching technique
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2343292A1 (fr) * 1976-03-01 1977-09-30 Ncr Co Systeme de controle d'identite de locuteur
SU1629917A1 (ru) * 1989-02-10 1991-02-23 Институт Систем Управления Ан Гсср Способ идентификации говор щего
US5170432A (en) * 1989-09-22 1992-12-08 Alcatel N.V. Method of speaker adaptive speech recognition
DE4325404A1 (de) * 1993-07-29 1995-02-02 Telefonbau & Normalzeit Gmbh Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
EP0645755A1 (en) * 1993-09-27 1995-03-29 International Business Machines Corporation Speech coding apparatus and method using classification rules

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005346A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for fast calculation of observation probabilities in speech recognition
WO2003005344A1 (en) * 2001-07-03 2003-01-16 Intel Zao Method and apparatus for dynamic beam control in viterbi search
RU2276810C2 (ru) * 2001-07-03 2006-05-20 Интел Зао Способ и устройство для динамической регулировки луча в поиске по витерби
RU2351023C2 (ru) * 2007-05-02 2009-03-27 Общество с ограниченной ответственностью "Тридакна" Способ верификации пользователя в системах санкционирования доступа
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
RU2421699C1 (ru) * 2010-05-19 2011-06-20 ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "Интегрированные Биометрические Решения И Системы" (ООО "ИБРиС") Способ верификации личности по голосу на основе анатомических параметров человека
RU2697736C1 (ru) * 2016-07-15 2019-08-19 ГУГЛ ЭлЭлСи Верификация говорящего
US10403291B2 (en) 2016-07-15 2019-09-03 Google Llc Improving speaker verification across locations, languages, and/or dialects
US11017784B2 (en) 2016-07-15 2021-05-25 Google Llc Speaker verification across locations, languages, and/or dialects
US11594230B2 (en) 2016-07-15 2023-02-28 Google Llc Speaker verification

Also Published As

Publication number Publication date
JPH11507443A (ja) 1999-06-29
KR19990022391A (ko) 1999-03-25
IL122354A (en) 2000-10-31
CA2221415A1 (en) 1996-12-19
US5839103A (en) 1998-11-17
CN1197526A (zh) 1998-10-28
DE69636057D1 (de) 2006-05-24
NZ311289A (en) 1998-12-23
FI117954B (fi) 2007-04-30
WO1996041334A1 (en) 1996-12-19
TR199701555T1 (xx) 1998-04-21
FI974339L (fi) 1998-02-06
EP0870300B1 (en) 2006-04-19
NO321125B1 (no) 2006-03-20
EP0870300A4 (en) 1999-04-21
DE69636057T2 (de) 2007-04-12
ATE323934T1 (de) 2006-05-15
NO975475L (no) 1998-01-21
NO975475D0 (no) 1997-11-28
AU711496B2 (en) 1999-10-14
AU6257696A (en) 1996-12-30
IL122354A0 (en) 1998-04-05
FI974339A0 (fi) 1997-11-26
EP0870300A1 (en) 1998-10-14

Similar Documents

Publication Publication Date Title
RU2161336C2 (ru) Система для верификации говорящего
US6519561B1 (en) Model adaptation of neural tree networks and other fused models for speaker verification
Hansen et al. Speaker recognition by machines and humans: A tutorial review
US6539352B1 (en) Subword-based speaker verification with multiple-classifier score fusion weight and threshold adaptation
EP1399915B1 (en) Speaker verification
KR100406307B1 (ko) 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US6308153B1 (en) System for voice verification using matched frames
AU2002311452A1 (en) Speaker recognition system
JPH08314491A (ja) ミックスチャ分解識別による話者検証方法と装置
Li et al. Recent advancements in automatic speaker authentication
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
Kadhim et al. Enhancement and modification of automatic speaker verification by utilizing hidden Markov model
Moustafa et al. Towards an Efficient Voice Identification Using Wav2Vec2. 0 and HuBERT Based on the Quran Reciters Dataset
KR100917419B1 (ko) 화자 인식 시스템
Olsson Text dependent speaker verification with a hybrid HMM/ANN system
Zulfiqar et al. Text-independent speaker identification using VQ-HMM model based multiple classifier system
MXPA97009615A (en) High verification system
WO2005038774A1 (en) Adaptive sound and image learning system and method
EP1016075B1 (en) Method and arrangement for providing speaker reference data for speaker verification
TUTORIAL et al. Dialogue Systems Research Department Bell Laboratories, Lucent Technologies
Liñares et al. On combining classifiers for speaker authentication
HK1016727A (en) Speaker verification system
Ll et al. Automatic Speaker

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20090607