RU2701465C1 - Method of selecting digital streams - Google Patents
Method of selecting digital streams Download PDFInfo
- Publication number
- RU2701465C1 RU2701465C1 RU2018147691A RU2018147691A RU2701465C1 RU 2701465 C1 RU2701465 C1 RU 2701465C1 RU 2018147691 A RU2018147691 A RU 2018147691A RU 2018147691 A RU2018147691 A RU 2018147691A RU 2701465 C1 RU2701465 C1 RU 2701465C1
- Authority
- RU
- Russia
- Prior art keywords
- cpu
- values
- value
- digital streams
- linear prediction
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
Изобретение относится к области радиотехники, в частности, к радиосетям передачи данных и речевых сообщений диапазона высоких частот (ВЧ) и может быть использовано для анализа и выделения (селекции) цифровых потоков, формируемых низкоскоростными кодерами речи, определения факта смены радиостанцией вида связи.The invention relates to the field of radio engineering, in particular, to radio networks for transmitting data and voice messages in the high-frequency range (HF) and can be used to analyze and isolate (select) digital streams generated by low-speed speech encoders, to determine the fact of changing the type of communication by a radio station.
Заявленное техническое решение расширяет возможности средств аналогичного назначения за счет более высокой точности селекции цифровых потоков, формируемых низкоскоростными кодерами речи, на основе анализа линейных взаимосвязей между элементами (битами) исследуемого цифрового потока (ЦП) канального уровня (КУ), формируемого вокодером радиостанции при передаче речевого сообщения.The claimed technical solution expands the capabilities of similar means due to the higher accuracy of the selection of digital streams generated by low-speed speech encoders, based on the analysis of linear relationships between the elements (bits) of the studied digital stream (CPU) channel level (KU), formed by the radio station vocoder when transmitting voice messages.
Известны способы селекции цифровых потоков, предложенные в Пат. РФ №2480932, МПК H04L 25/03, опубл. 27.04.2013, бюл. №13. Аналоги предполагают одновременный прием ЦП набором декодеров, определение по заданному критерию номера декодера, успешно принявшего ЦП, формирование выходного информационного сигнала на основе использования сигнала на выходе наиболее успешного декодера.Known methods for selecting digital streams proposed in Pat. RF №2480932, IPC H04L 25/03, publ. 04/27/2013, bull. No. 13. Analogs suggest the simultaneous reception of a CPU by a set of decoders, determining, according to a given criterion, the number of the decoder that successfully received the CPU, generating an output information signal based on the use of the signal at the output of the most successful decoder.
В качестве недостатков аналогов следует отметить следующее:As disadvantages of analogues, the following should be noted:
большая аппаратурная избыточность;high hardware redundancy;
требуют априорного знания характеристик всех используемых в ЦП кодеров речи.require a priori knowledge of the characteristics of all speech encoders used in the CPU.
Наиболее близким к заявленному является способ селекции цифровых потоков (см. Тимофеев Д.И., Тавалинский Д.А., Чубатый Д.Н. Анализ параметров низкоскоростных кодеров речи в условиях структурной и параметрической неопределенности // Наукоемкие технологии, №8,2011. - С. 4-9.). Он заключается в том, что в течение интервала времени ΔT принимают цифровой информационный поток у=(у1, у2, …, yn,…, yN), где yn - n-й бит ЦП у, содержащего N бит, на основе ЦП у формируют нормированную автокорреляционную функцию (АКФ) r={r0, r1, r2, …, rN-1}, где rn=cn/Dn - n_й коэффициент корреляции, - n-й коэффициент ковариации, D(y)=М[у2]-(М[у])2 - дисперсия ЦП у, М[.] - стандартная функция вычисления математического ожидания, - центрированный вектор, - центрированный вектор, сдвинутый на n=0, 1, 2, …, N-1 значений относительно , по наличию регулярных с равными интервалами Δn экстремумов АКФ r принимают решение о наличии блочной битовой структуры в ЦП у, что соответствует наличию в ЦП речевого сообщения, подвергнутого низкоскоростному кодированию.Closest to the claimed one is a method for selecting digital streams (see Timofeev D.I., Tavalinsky D.A., Chubaty D.N. Analysis of parameters of low-speed speech encoders under structural and parametric uncertainty // High-tech technologies, No. 8,2011. - S. 4-9.). It consists in the fact that during the time interval ΔT, the digital information stream y = (y 1 , y 2 , ..., y n , ..., y N ) is received, where y n is the nth bit of the CPU y containing N bits, based on the CPU y form the normalized autocorrelation function (ACF) r = {r 0 , r 1 , r 2 , ..., r N-1 }, where r n = c n / D n - n _th correlation coefficient, is the nth covariance coefficient, D (y) = M [y 2 ] - (M [y]) 2 - the variance of the CPU y, M [.] is the standard function for calculating the mathematical expectation, - centered vector - the centered vector shifted by n = 0, 1, 2, ..., N-1 values relative to , by the presence of regular at equal intervals Δn extrema of the ACF r, they decide on the presence of a block bit structure in the CPU y, which corresponds to the presence in the CPU of a voice message subjected to low-speed encoding.
Прототип обеспечивает достаточно высокую точность селекции цифровых информационных потоков КУ с наличием блочной структуры на основе автокорреляционного метода, в том числе при отсутствии кадра управления, в рассматриваемых коммуникационных протоколах. Однако ЦП имеет блочную структуру не только при обмене речевыми сообщениями, но и при передаче данных. Автокорреляционная функция ЦП, содержащего текстовое сообщение (фиг. 1а), имеет значительное сходство с АКФ ЦП речевого сообщения (фиг. 1б). В результате недостаток прототипа проявляется через снижение точностных характеристик при увеличении доли цифровых потоков с блочной структурой, содержащих данные. В конечном счете это не позволяет правильно определять используемый радиостанцией вид связи и осуществлять выделение цифровых потоков, формируемых низкоскоростными кодерами речи (НКР).The prototype provides a sufficiently high accuracy of the selection of digital information flows KU with the presence of a block structure based on the autocorrelation method, including in the absence of a control frame, in the considered communication protocols. However, the CPU has a block structure not only when exchanging voice messages, but also when transmitting data. The autocorrelation function of the CPU containing the text message (Fig. 1a) has significant similarities with the ACF of the CPU of the voice message (Fig. 1b). As a result, the disadvantage of the prototype is manifested through a decrease in accuracy characteristics with an increase in the share of digital streams with block structure containing data. Ultimately, this does not allow to correctly determine the type of communication used by the radio station and to allocate digital streams generated by low-speed speech encoders (NKR).
Кроме того, при использовании способа-прототипа исследуемые цифровые потоки с блочной структурой, содержащие данные, ложно определяются как реализации, сформированные на основе новых протоколов НКР, что приводит к снижению вероятности правильного распознавания протоколов НКР.In addition, when using the prototype method, the studied digital streams with a block structure containing data are falsely defined as implementations formed on the basis of new NKR protocols, which reduces the likelihood of correct recognition of NKR protocols.
Целью изобретения является разработка способа селекции цифровых потоков, обеспечивающего повышение вероятности правильной селекции ЦП, в условиях априорной неопределенности о их параметрах и структуре, форме кадра управления, благодаря выполнению дополнительного анализа линейных взаимосвязей между элементами одной реализации ЦП.The aim of the invention is to develop a method for selecting digital streams, which increases the likelihood of correct selection of CPUs, under conditions of a priori uncertainty about their parameters and structure, shape of the control frame, by performing additional analysis of linear relationships between elements of one CPU implementation.
Поставленная цель достигается тем, что в известном способе селекции цифровых потоков, включающем прием в течение интервала времени ΔT цифрового информационного потока у=(у1; у2, …, yn, …, yN), где yn - n-й бит цифрового потока y, содержащего N бит, формирование на основе ЦП у нормированной автокорреляционной функции r={r0, r1, r2, …, rN-1} по наличию регулярных экстремумов функции r с интервалами между ними, равными Δn, принятие решения о наличии блочной битовой структуры в ЦП у, дополнительно определяют линейные взаимосвязи между элементами усеченной выборки значений АКФ rM={r0, r1, r2, …, rM-1}, М<N, на основе вычисления средней квадратичной ошибки (СКО) ЕМ линейного предсказания (ЛП) и значений коэффициентов линейного предсказания (КЛП) {a m}М, m=1, 2, … М, где М определяет порядок линейного предсказания, а решение об используемом в ЦП виде связи принимают по совокупности событий: превышению значения СКО ЛП ЕМ заданного порогового значения и наличию в наборе КЛП {a m}М глобального минимума , порядковый номер m которого совпадает с одним из значений объема Nб, Nб=М-1, пакета ЦП, что соответствует приему речевого сообщения, в противном случае решение о приеме текста или изображения принимают по результатам пороговой обработки с где значение ЕМ>0,1 соответствует приему изображения, иначе - приему текста.This goal is achieved by the fact that in the known method for the selection of digital streams, including the reception during the time interval ΔT of the digital information stream y = (y 1; y 2 , ..., y n , ..., y N ), where y n is the nth bit of a digital stream y containing N bits, the formation on the basis of the CPU of the normalized autocorrelation function r = {r 0 , r 1 , r 2 , ..., r N-1 } by the presence of regular extrema of the function r with intervals between them equal to Δn, making a decision about the presence of a block bit structure in the CPU y, additionally determine the linear relationships between elements truncated th sample ACF r M = values {r 0, r 1, r 2, ..., r M-1}, M <N, based on calculating the mean square error (MSE) E M linear prediction (LP) and the values of linear prediction coefficients (LPC) { a m } M , m = 1, 2, ... M, where M determines the linear prediction order, and the decision on the type of communication used in the CPU is made according to the totality of events: exceeding the value of the RMSE L M E of a given threshold value and the presence in the set of CLP { a m } M of a global minimum , the serial number m of which coincides with one of the values of the volume N b , N b = M-1, of the CPU packet, which corresponds to the receipt of a voice message, otherwise the decision to receive text or image is made according to the results of threshold processing with where the value of E M > 0.1 corresponds to the reception of the image, otherwise - the reception of the text.
Благодаря новой совокупности существенных признаков в заявленном способе достигается повышение вероятности правильной селекции ЦП, содержащего кодированные речевые сообщения, за счет вычисления значения СКО ЛП ЕМ и значений КЛП {a m} (m=1, 2, …, М), сравнения значения СКО ЕМ ЛП с пороговым значением , определения факта наличия глобального минимума , совпадающего с одним из известных значений m объема Nб пакета, характерных для цифровых потоков, которые содержат речевые сообщения. Кроме того, для ЦП, имеющего блочную структуру, но не содержащего речевое сообщение, сравнение значения ЕМ с пороговым уровнем позволяет определить наличие в ЦП изображений или текста.Thanks to the new set of essential features in the claimed method, an increase in the probability of correct selection of the CPU containing the encoded voice messages is achieved by calculating the mean-square deviation of the meander PL E M and CLP values { a m } (m = 1, 2, ..., M), comparing the mean-square deviation E M LP with a threshold value determining the existence of a global minimum coinciding with one of the known values m of volume N b of the packet, characteristic of digital streams that contain voice messages. In addition, for a CPU having a block structure but not containing a voice message, comparing the value of E M with a threshold level allows you to determine the presence of images or text in the CPU.
Заявленный способ поясняется чертежами, на которых показаны:The claimed method is illustrated by drawings, which show:
на фиг. 1 - автокорреляционные функции, сформированные по цифровым потокам, которые содержат текст (1а) и речевое сообщение (1б);in FIG. 1 - autocorrelation functions generated by digital streams that contain text (1a) and voice message (1b);
на фиг. 2 - значения КЛП {a m} для цифровых потоков, содержащих речь и сформированных вокодерами типов LPC-10-2400 (2а) и MELPe-600 (2б);in FIG. 2 - KLP values { a m } for digital streams containing speech and formed by vocoders of types LPC-10-2400 (2a) and MELPe-600 (2b);
на фиг. 3 - значения {a m} для цифровых потоков, содержащих текст (3а) и изображение (3б);in FIG. 3 - values { a m } for digital streams containing text (3a) and image (3b);
на фиг. 4 - обобщенный (для L>1) алгоритм селекции цифровых потоков;in FIG. 4 - generalized (for L> 1) algorithm for selecting digital streams;
на фиг. 5 - алгоритм селекции цифровых потоков в соответствии с заявленным изобретением;in FIG. 5 is a digital stream selection algorithm in accordance with the claimed invention;
на фиг. 6 - зависимость выигрыша ΔТ по точности от доли ложных (неправильно отобранных) ЦП b, определяющих вероятность ложной тревоги.in FIG. 6 - dependence of the gain ΔТ in accuracy on the proportion of false (incorrectly selected) CPU b determining the probability of false alarm.
Основным направлением развития техники радиосвязи диапазона ВЧ является переход на системы передачи дискретной информации. Замена устаревших аналоговых средств радиосвязи привела к широкому распространению цифровых радиостанций, в том числе в диапазоне ВЧ (см. Аладинский В.А., Кузьминский С.В. Анализ цифровых потоков на выходах вокодеров, применяемых на зарубежных линиях радиосвязи диапазона высоких частот // Успехи современной радиоэлектроники, №7, 2015. С. 71-74), со встроенными или внешними (подключаемыми) вокодерами, разработанными на основе методов ЛП. При этом для передачи сообщений с НКР или данных применяются одни и те же стандарты радиосвязи с аналогичными параметрами радиосигналов.The main direction of development of the radio technology of the HF range is the transition to discrete information transmission systems. Replacing obsolete analogue radio communications has led to the widespread use of digital radio stations, including in the high frequency range (see Aladinsky V.A., Kuzminsky S.V. Analysis of digital streams at the vocoder outputs used on foreign high-frequency radio lines // Successes modern radio electronics, No. 7, 2015. P. 71-74), with built-in or external (plug-in) vocoders developed on the basis of LP methods. At the same time, the same radio standards with the same parameters of radio signals are used to transmit messages from the NKR or data.
Данный факт затрудняет выполнение селекции цифровых потоков КУ, содержащих разнотипные сообщения, на основе сравнения таких параметров вокодера, как скорость Ввок и количество Nб бит в одном блоке ЦП, значения которых задаются на этапе разработки конкретного изделия (см. там же) и могут совпадать со значениями аналогичных параметров цифровых потоков различных видов связи. Кроме того, передаваемые изображения и данные зачастую имеют периодическую структуру, что приводит к появлению ошибок селекции цифровых потоков на основе сравнения значений параметров АКФ r.This fact hinders the selection of digital streams CG containing heterogeneous messages based on the comparison of parameters of the vocoder as speed in a wok and the number N b of bits in one CPU unit values which are set at the design stage of a particular product (ibid.), And can match the values of similar parameters of digital streams of various types of communication. In addition, the transmitted images and data often have a periodic structure, which leads to the appearance of errors in the selection of digital streams based on a comparison of the values of the ACF parameters r.
Исходя из принципа подобия, повышение качества селекции цифровых потоков, сформированных вокодерами с ЛП, может быть достигнуто при анализе АКФ r принимаемого ЦП на основе исследования таких параметров ЛП, как СКО и КЛП. В общем виде значение СКО ЛП порядка М определяется по известной формуле (см. Wai Chu С. Speech coding algorithms: Foundation and evolution of standardized coders. Hoboken: Wiley-Interscience. - 2003. - 558 p.):Based on the principle of similarity, an increase in the quality of selection of digital streams generated by vocoders with LP can be achieved by analyzing the ACF of the received CPU based on the study of such parameters of the LP as RMSE and CLP. In general terms, the value of the standard deviation of a medication of order M is determined by a well-known formula (see Wai Chu, S. Speech coding algorithms: Foundation and evolution of standardized coders. Hoboken: Wiley-Interscience. - 2003. - 558 p.):
где a m - m-й коэффициент ЛП, m=1, 2, …, М.where a m is the m-th coefficient of the drug, m = 1, 2, ..., M.
Значения КЛП вычисляются на основе матричного уравнения вида (см. там же)LPC values are calculated based on a matrix equation of the form (see ibid.)
гдеWhere
т - операция транспонирования.t is the transpose operation.
по различным алгоритмам. Эффективным по минимизации вычислительных затрат считается итерационный алгоритм Левинсона-Дарбина (см. там же), для которого исходными данными являются усеченная выборка значений АКФ {r0, r1, r2, …, rm, …, rM-1} и начальное значение СКО ЛП Е0=r0. Количество циклов итерации задается величиной М. При m=1 имеем: a 1=-r1/E0, E1=E0(1-a 1). Значения m-го КЛП и соответствующего СКО вычисляются по следующим формулам (см. там же)according to various algorithms. The Levinson-Darbin iterative algorithm (see ibid.) Is considered effective for minimizing computational costs, for which the initial data are a truncated sample of ACF values {r 0 , r 1 , r 2 , ..., r m , ..., r M-1 } and the initial value of the standard deviation is E 0 = r 0 . The number of iteration cycles is set by the value M. For m = 1 we have: a 1 = -r 1 / E 0 , E 1 = E 0 (1 - a 1 ). The values of the mth CLP and the corresponding standard deviation are calculated by the following formulas (see ibid.)
где - значения КЛП, вычисленные на предыдущих i=1, 2, …, m-1 циклах.Where - KLP values calculated on the previous i = 1, 2, ..., m-1 cycles.
Последовательность действий, предложенная Левинсоном и Дарбиным была реализована на ЭВМ в среде программирования MATLAB. При этом входные цифровые потоки содержали речевые сообщения, сформированные модельными вокодерами типов LPC-10-2400 (Nб=54) и MELPe-600 (Nб=60), которые активно применяются в радиостанциях диапазона ВЧ (см. Аладинский В.А., Кузьминский С.В. Анализ цифровых потоков на выходах вокодеров, применяемых на зарубежных линиях радиосвязи диапазона высоких частот // Успехи современной радиоэлектроники, №7, 2015. С. 71-74), а также текстовые сообщения и изображения. Исходя из свойств АКФ r, для уменьшения количества итераций в алгоритме Левинсона-Дарбина было принято, что М=Nб+1. Как правило, значение Nб априорно неизвестно для каждой входной реализации, поэтому в ходе эксперимента кроме значений Nб=54 и 60 были также выбраны максимально возможные значения Nб=81 и 96.The sequence of actions proposed by Levinson and Darbin was implemented on a computer in the programming environment MATLAB. In this case, the input digital streams contained voice messages generated by model vocoders of the types LPC-10-2400 (N b = 54) and MELPe-600 (N b = 60), which are actively used in high-frequency radio stations (see Aladinsky V.A. , Kuzminsky S.V. Analysis of digital streams at the vocoder outputs used on foreign radio lines of the high frequency range // Uspekhi modern radioelectronics, No. 7, 2015. P. 71-74), as well as text messages and images. Based on the properties of the ACF r, in order to reduce the number of iterations in the Levinson-Darbin algorithm, it was assumed that M = N b +1. As a rule, the value of N b is a priori unknown for each input implementation, therefore, during the experiment, in addition to the values of N b = 54 and 60, the maximum possible values of N b = 81 and 96 were also selected.
По каждому из трех видов сообщений были сформированы L=200 цифровых потоков КУ. Д ля цифровых потоков одного вида сообщений по формуле (1) с учетом формул (3) и (4) были вычислены значения и усреднены следующим образом (см. Математический энциклопедический словарь. / Гл. ред. Прохоров Ю.В. - М.: Большая российская энциклопедия, 1995. Репринтное издание - М.: Сов. энциклопедия, 1988. - 847 с.):For each of the three types of messages, L = 200 digital KU streams were generated. For digital streams of one type of message according to formula (1), taking into account formulas (3) and (4), the values were calculated and averaged as follows (see the Mathematical Encyclopedic Dictionary. / Ch. ed. Prokhorov Yu.V. - M .: Big Russian Encyclopedia, 1995. Reprint edition - M: Sov. Encyclopedia, 1988. - 847 p.):
Итоговые результаты эксперимента приведены в таблице 1.The final results of the experiment are shown in table 1.
Из анализа таблицы 1 следует, что для цифровых потоков, содержащих речевые сообщения, значения существенно больше в сравнении с цифровыми потоками, содержащими тексты или изображения. На фиг. 1 приведены результаты расчета значений АКФ по цифровым потокам, содержащим текст (фиг. 1а) или речевое сообщение (фиг. 1б).From the analysis of table 1 it follows that for digital streams containing voice messages, the values significantly more in comparison with digital streams containing texts or images. In FIG. 1 shows the results of calculating ACF values for digital streams containing text (Fig. 1a) or voice message (Fig. 1b).
В ходе эксперимента установлено, что вектор КЛП а М, полученный при анализе АКФ ЦП с речевым сообщением, имеет глобальный минимум для m∈{Nб}. При этом максимальное значение из совокупности {Nб} априорно известных значений определяло величину . На фиг. 2 приведены результаты расчета значений {a m} при М=97 по цифровым потокам КУ, сформированным вокодерами типа LPC-10-2400 (фиг. 2а) и MELPe-600 (фиг. 2б). Здесь имеет значения при m=54 и m=60 соответственно, m∈{Nб}. На фиг. 3 приведены аналогичные результаты для цифровых потоков КУ, содержащих тексты (фиг. 3а) и изображения (фиг. 3б), в которых отсутствуют глобальные минимумы.In the course of the experiment, it was found that the KLP vector a M obtained by analyzing the ACF of the CPU with voice communication has a global minimum for m∈ {N b }. In this case, the maximum value from the set {N b } a priori known values determined the value . In FIG. Figure 2 shows the results of calculating the values of { a m } at M = 97 for digital KU streams formed by vocoders of the LPC-10-2400 type (Fig. 2a) and MELPe-600 (Fig. 2b). Here matters at m = 54 and m = 60 respectively, m∈ {N b }. In FIG. Figure 3 shows similar results for digital streams KU containing texts (Fig. 3A) and images (Fig. 3b), in which there are no global minima.
Из вышесказанного следует, что критерием для принятия решения об обнаружении, а, следовательно, и для выполнения операции селекции речевых сообщений из ЦП, целесообразно считать выполнение следующих условий: значение (см. Таблицу 1); в наборе КЛП {a m} имеется глобальный минимум , для которого m∈{Nб}. Введение порога позволяет селектировать между собой текстовые сообщения и изображения.From the foregoing it follows that the criterion for making a decision about detection, and, therefore, for performing the operation of selecting voice messages from the CPU, it is advisable to consider the following conditions: value (see Table 1); in the set of KLP { a m } there is a global minimum for which m∈ {N b }. Threshold setting allows you to select text messages and images.
Исходя из изложенного выше, предлагается следующая обобщенная (для L>1) последовательность операций (см. фиг. 4) при анализе цифровых потоков КУ:Based on the foregoing, it is proposed the following generalized (for L> 1) sequence of operations (see Fig. 4) in the analysis of digital streams KU:
1. Ввод исходных данных: интервал времени ΔT; значения {Nб} известных вокодеров; М=Nбmax+1; количество реализаций ЦП L.1. Input data: time interval ΔT; values {N b } of known vocoders; M = N bmax +1; the number of CPU implementations L.
2. Задание начальной переменной 2. Setting the initial variable
3. Прием ЦП 3. CPU reception
4. Вычисление АКФ 4. Calculation of ACF
5. Проверка на наличие блочной структуры в ЦП. При положительном результате осуществляют переход на этап №6. При отрицательном результате переход на этап №19.5. Check for block structure in the CPU. If the result is positive, go to
6. Формирование усеченной выборки значений АКФ размерности М, М<N6. Formation of a truncated sample of ACF values dimension M, M <N
7. Нахождение по формуле (3) с учетом (4) составляющих a m вектора КЛП а М.7. Finding by formula (3), taking into account (4) the components a m of the CLP vector a M.
8. Вычисление значения по формуле (1).8. The calculation of the value by the formula (1).
9. Проверка на завершение цикла При выполнении условия переход на этап №11, иначе на этапе №10.9. Check for completion of the cycle If the condition is met, go to step 11, otherwise at
10. Изменение переменной 10. Variable change
11. Определение усредненного значения в соответствии с (5).11. Determination of the average value in accordance with (5).
12. Проверка выполнения условия: Если условие выполняется, то осуществляется переход на этап №13, иначе - переход на этап №15.12. Verification of the condition: If the condition is met, then go to step 13, otherwise - go to step 15.
13. Поиск глобального минимума в наборе а М.13. The search for a global minimum in a set and M.
14. Проверка выполнения условия для . Если для найденного значение m∈{Nб}, то осуществляется переход на этап №16, иначе - переход на этап №15.14. Verification of the condition for . If for found value m∈ {N b }, then the process proceeds to step 16, otherwise, the transition to step 15.
15. Проверка выполнения условия: Если условие выполняется, то осуществляется переход на этап №15, иначе - на этап №18.15. Verification of the condition: If the condition is met, then the transition to step
16. Формирование результата: «ЦП содержит речевое сообщение».16. Formation of the result: "The CPU contains a voice message."
17. Формирование результата: «ЦП содержит изображение».17. Formation of the result: "The CPU contains the image."
18. Формирование результата «ЦП содержит текст».18. Formation of the result "the CPU contains the text."
19. Формирование результата «ЦП не содержит заданной информации».19. Formation of the result "the CPU does not contain the specified information."
20. Вывод информации.20. Information output.
Селекция цифровых потоков, как правило, предполагает L=1. В связи с этим предлагается (см. фиг. 5) следующая последовательность операций, соответствующая заявленному способу:Selection of digital streams, as a rule, assumes L = 1. In this regard, it is proposed (see Fig. 5) the following sequence of operations corresponding to the claimed method:
1. Ввод исходных данных: интервал времени ΔТ; значения {Nб} известных вокодеров; M=Nб max+1; ; 1. Input data: time interval ΔТ; values {N b } of known vocoders; M = N b max +1; ;
2. Прием ЦП у=(y1, у2, …, yn, …, yN).2. CPU reception y = (y 1 , y 2 , ..., y n , ..., y N ).
3. Вычисление АКФ r={r0, r1, r2, …, rN-1}.3. The calculation of the ACF r = {r 0 , r 1 , r 2 , ..., r N-1 }.
4. Проверка на наличие блочной структуры в ЦП. При отрицательном результате переход на этап №15.4. Check for block structure in the CPU. If the result is negative, go to step 15.
5. Формирование усеченной выборки значений АКФ rM={r0, r1, r2, …, rm, …, rM-1} размерности М, M<N.5. Formation of a truncated sample of ACF values r M = {r 0 , r 1 , r 2, ..., r m , ..., r M-1 } of dimension M, M <N.
6. Нахождение по формулам (2), (3) с учетом (4) составляющих a m вектора КЛП а М.6. Finding by formulas (2), (3) taking into account (4) the components a m of the CLP vector a M.
7. Вычисление значения ЕМ по формуле (1).7. The calculation of the value of E M according to the formula (1).
8. Проверка выполнения условия: Если условие выполняется, то осуществляется переход на этап №9, иначе - переход на этап №11.8. Verification of the condition: If the condition is met, then the transition to step number 9, otherwise - the transition to step number 11.
9. Поиск глобального минимума в наборе а М.9. Search for a global minimum in a set and M.
10. Проверка выполнения условия для . Если для найденного значение m∈{Nб}, то осуществляется переход на этап №12, иначе - переход на этап №11.10. Verification of the condition for . If for found value m∈ {N b }, then the transition to stage 12 is carried out, otherwise - the transition to stage 11.
11. Проверка выполнения условия ЕМ>0,1. Если условие выполняется, то осуществляется переход на этап №13, иначе переход на этап №14.11. Verification of the condition E M > 0.1. If the condition is met, then the transition to step No. 13, otherwise, the transition to step No. 14.
12. Формирование результата: «ЦП содержит речевое сообщение».12. Formation of the result: "The CPU contains a voice message."
13. Формирование результата: «ЦП содержит изображение».13. Formation of the result: "The CPU contains the image."
14. Формирование результата «ЦП содержит текст».14. Formation of the result "CPU contains text."
15. Формирование результата «ЦП не содержит заданной информации».15. The formation of the result "the CPU does not contain the specified information."
16. Вывод информации.16. Information output.
Таким образом, при анализе АКФ ЦП на основе ЛП по алгоритму Левинсона-Дарбина обеспечивается вычисление значений КЛП и СКО. Экспериментальная проверка методом моделирования на ЭВМ показала, что для ЦП, содержащего речевое сообщение, вектор КЛП имеет глобальный минимум, а величина СКО ЛП существенно больше, чем по другим видам сообщений (тексты, изображения). Текстовые сообщения и изображения, передаваемые по цифровому каналу, также имеют контрастный признак ЕМ, позволяющий их идентифицировать.Thus, when analyzing the ACF of a CPU based on an LP using the Levinson-Darbin algorithm, the values of the CLP and RMSE are calculated. Experimental verification by computer simulation showed that for a CPU containing a voice message, the LPC vector has a global minimum, and the magnitude of the standard deviation of the LPC is significantly larger than for other types of messages (texts, images). Text messages and images transmitted over a digital channel, also have a contrasting sign of EM, which allows them to identify.
Точность селекции цифровых потоков, определяется выражением (см. Маннинг К.Д., Рагхаван П., Шютце Х. Введение в информационный поиск. - М.: ООО «И.Д. Вильямс», 2011. - 528 с.)The accuracy of the selection of digital streams is determined by the expression (see Manning K.D., Raghavan P., Schütze H. Introduction to the information search. - M.: LLC “ID Williams, 2011. - 528 p.)
где ν - доля цифровых потоков, правильно отобранных при их селекции (содержащих речевые сообщения, т.е. истинных); b - доля цифровых потоков, неправильно отобранных (не содержащих речевые сообщения, т.е. ложных и определяющих вероятность ложной тревоги) по каким-либо причинам; (ν+b) - общее количество цифровых потоков, подвергшихся селекции.where ν is the fraction of digital streams correctly selected during their selection (containing voice messages, i.e. true); b - the proportion of digital streams that were incorrectly selected (not containing voice messages, i.e. false and determining the likelihood of a false alarm) for some reason; (ν + b) is the total number of digital streams subjected to selection.
По результатам селекции пяти тысяч реальных и модельных цифровых потоков, сформированных вокодерами, установлено следующее. Предлагаемый способ обеспечивает значение ν не хуже, чем способ-прототип, но при прочих равных условиях устраняет не менее 90% неправильно отобранных цифровых потоков из общего их числа (ν+b). Таким образом, уменьшается вероятность ложной тревоги до значения 0,1. Доля неправильно отобранных цифровых потоков при использовании предлагаемого способа составляет не более 0,1b при постоянном значении ν. Разность между полученным значением точности селекции Т1 Based on the results of the selection of five thousand real and model digital streams generated by vocoders, the following was established. The proposed method provides a value of ν no worse than the prototype method, but ceteris paribus eliminates at least 90% of improperly selected digital streams from their total number (ν + b). Thus, the probability of false alarm is reduced to a value of 0.1. The proportion of improperly selected digital streams when using the proposed method is not more than 0.1b with a constant value of ν. The difference between the obtained value of the accuracy of selection T 1
и Т, определяемым согласно (5) при селекции на основе способа-прототипа, составит выигрыш по точности селекции цифровых потоков, содержащих речевые сообщения:and T, determined according to (5) during selection based on the prototype method, will make a gain in the accuracy of selection of digital streams containing voice messages:
Принимая, что (ν+b)=1 при ν, b∈[0, 1], подставим в (8) ν=1-b и после некоторых сокращений получимAssuming that (ν + b) = 1 for ν, b∈ [0, 1], we substitute ν = 1-b in (8) and, after some reductions, we obtain
Из (9) следует, что значение выигрыша ΔТ по точности селекции цифровых потоков, содержащих речевые сообщения, определяется значением доли b∈[0, 1]. В реальных условиях доля цифровых потоков с блочной структурой, содержащих данные, не превышает 10%, что соответствует b≤0,1. На фиг. 6 представлена вычисленная по формуле (9) зависимость выигрыша ΔТ по точности селекции от значения b. Выполненный анализ показывает, что максимальный выигрыш по точности селекции при b=0,1 и прочих равных условиях составит ΔТ=0,089 или 8,9%.From (9) it follows that the value of the gain ΔТ in the accuracy of selection of digital streams containing voice messages is determined by the value of the fraction b∈ [0, 1]. In real conditions, the proportion of digital streams with a block structure containing data does not exceed 10%, which corresponds to b≤0.1. In FIG. Figure 6 shows the dependence of the gain ΔТ in the selection accuracy on the value of b calculated by formula (9). The performed analysis shows that the maximum gain in selection accuracy for b = 0.1 and other conditions being equal will be ΔТ = 0.089 or 8.9%.
Claims (1)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2018147691A RU2701465C1 (en) | 2018-12-28 | 2018-12-28 | Method of selecting digital streams |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| RU2018147691A RU2701465C1 (en) | 2018-12-28 | 2018-12-28 | Method of selecting digital streams |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| RU2701465C1 true RU2701465C1 (en) | 2019-09-26 |
Family
ID=68063409
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| RU2018147691A RU2701465C1 (en) | 2018-12-28 | 2018-12-28 | Method of selecting digital streams |
Country Status (1)
| Country | Link |
|---|---|
| RU (1) | RU2701465C1 (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| RU2296364C1 (en) * | 2005-07-04 | 2007-03-27 | Федеральный научно-производственный центр Открытое акционерное общество "Научно-производственное объединение "Марс" (ФНПЦ ОАО "НПО "Марс") | Method for digital compression of primary radiolocation information for transfer via exchange channel |
| US20100115343A1 (en) * | 2008-11-03 | 2010-05-06 | International Business Machines Corporation | Method for automated processor power management for better energy-efficiency |
| US20110035190A1 (en) * | 2005-05-03 | 2011-02-10 | Aware, Inc. | Method and system for real-time signal classification |
-
2018
- 2018-12-28 RU RU2018147691A patent/RU2701465C1/en not_active IP Right Cessation
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20110035190A1 (en) * | 2005-05-03 | 2011-02-10 | Aware, Inc. | Method and system for real-time signal classification |
| US20120203511A1 (en) * | 2005-05-03 | 2012-08-09 | Aware, Inc. | Method and system for real-time signal classification |
| US20130144564A1 (en) * | 2005-05-03 | 2013-06-06 | Aware, Inc. | Method and system for real-time signal classification |
| RU2296364C1 (en) * | 2005-07-04 | 2007-03-27 | Федеральный научно-производственный центр Открытое акционерное общество "Научно-производственное объединение "Марс" (ФНПЦ ОАО "НПО "Марс") | Method for digital compression of primary radiolocation information for transfer via exchange channel |
| US20100115343A1 (en) * | 2008-11-03 | 2010-05-06 | International Business Machines Corporation | Method for automated processor power management for better energy-efficiency |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Higuchi et al. | Mask CTC: Non-autoregressive end-to-end ASR with CTC and mask predict | |
| CN114787914B (en) | System and method for streaming end-to-end speech recognition with asynchronous decoder | |
| US11776531B2 (en) | Encoder-decoder models for sequence to sequence mapping | |
| US11100920B2 (en) | System and method for end-to-end speech recognition with triggered attention | |
| US10699696B2 (en) | Method and apparatus for correcting speech recognition error based on artificial intelligence, and storage medium | |
| CN109859743B (en) | Audio identification method, system and machine equipment | |
| CN108021705B (en) | Answer generation method and device | |
| US10417329B2 (en) | Dialogue act estimation with learning model | |
| CN113470619A (en) | Speech recognition method, apparatus, medium, and device | |
| US9280969B2 (en) | Model training for automatic speech recognition from imperfect transcription data | |
| KR20220035222A (en) | Speech recognition error correction method, related devices, and readable storage medium | |
| US20190013015A1 (en) | Initialization of ctc speech recognition with standard hmm | |
| CN111326148A (en) | Confidence level correction and its model training method, device, equipment and storage medium | |
| CN113963682B (en) | A speech recognition correction method, device, electronic device and storage medium | |
| CN114998881B (en) | Training methods, text recognition methods, devices and equipment for deep learning models | |
| CN115244616A (en) | Training of models for processing sequence data | |
| Li et al. | Bi-directional lattice recurrent neural networks for confidence estimation | |
| CN114067786A (en) | Speech recognition method, device, electronic device and storage medium | |
| CN110970031A (en) | Speech recognition system and method | |
| CN114171001A (en) | Voice recognition method and device, electronic equipment and storage medium | |
| CN115457938A (en) | Method, device, storage medium and electronic device for identifying wake-up words | |
| Karita et al. | A comparative study on neural architectures and training methods for Japanese speech recognition | |
| Zapotoczny et al. | Lattice Generation in Attention-Based Speech Recognition Models. | |
| RU2701465C1 (en) | Method of selecting digital streams | |
| CN114140783A (en) | Character recognition method and device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20201229 |