[go: up one dir, main page]

WO2008044669A1 - Audio information search program and its recording medium, audio information search system, and audio information search method - Google Patents

Audio information search program and its recording medium, audio information search system, and audio information search method Download PDF

Info

Publication number
WO2008044669A1
WO2008044669A1 PCT/JP2007/069655 JP2007069655W WO2008044669A1 WO 2008044669 A1 WO2008044669 A1 WO 2008044669A1 JP 2007069655 W JP2007069655 W JP 2007069655W WO 2008044669 A1 WO2008044669 A1 WO 2008044669A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
database
voice information
character string
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2007/069655
Other languages
French (fr)
Japanese (ja)
Inventor
Toshifumi Okuhara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of WO2008044669A1 publication Critical patent/WO2008044669A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • Voice information search program and its recording medium voice information search system, and voice information search method
  • the present invention relates to a speech information retrieval program. More specifically, the present invention relates to a voice information search program and its recording medium, a voice information search system, and a voice information search method. Background art
  • Patent Document 1 describes a technique for searching for speech information in consideration of the possibility that a recognition error has occurred when generating a speech element sequence from an input arbitrary word. It ’s been disclosed.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2005-257954. Disclosure of the invention Problems to be solved by the invention
  • the main object of the present invention is to provide a speech information search program that can obtain more accurate search results and can be easily used in various databases. Means for solving the problem
  • a step of converting an audio element recorded in audio information into a character string a step of measuring the reproduction time of the audio information, and a reproduction time of the audio information If it is longer than a predetermined time, the character string of the audio information is divided into predetermined time intervals and registered in the database.
  • the character of the audio information is Registering in the database without separating columns, determining a search item for searching the database, and a search condition for the search item, and for the database according to the search condition.
  • a voice information search program for causing a computer to execute at least a step of executing a search and a step of outputting a result of the search.
  • a speech information search program characterized by causing a computer to execute a step of determining whether a character string specified by a search condition is included in a character string of each speech information.
  • a recording time position of voice information in which a voice element corresponding to the character specified in the search condition is recorded is specified.
  • a voice information retrieval program characterized by causing a computer to execute a voice reproduction step. By causing the computer to execute each of these steps, the sound S can be reproduced from the more accurate reproduction position that matches the search condition.
  • the present invention provides a computer-readable recording medium on which the program is recorded.
  • the “recording medium” used in the present invention means any computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution and distribution, and the like.
  • the voice element recorded in the voice information is converted into a character string, the voice information playback time measuring means, and the voice information playback time is longer than a predetermined time.
  • the character string IJ of the voice information is registered in the database by dividing it at predetermined time intervals, and when the reproduction time of the voice information is equal to or shorter than the predetermined time, the character string of the voice information is not divided into the database.
  • a procedure for converting an audio element recorded in audio information into a character string a procedure for measuring a reproduction time of the audio information, and a reproduction time of the audio information from a predetermined time If the length of the voice information is too long, the character ⁇
  • the voice information A procedure for registering in the database without dividing the character string, a search item for searching the database, a procedure for determining a search condition for the search item, and a search condition for the search item, and the search condition Accordingly, there is provided a voice information search method comprising at least a procedure for executing a search on the database and a procedure for outputting a result of the search. According to the voice information retrieval method, it is possible to perform voice information retrieval with high retrieval accuracy and high search speed.
  • audio information in the present invention means any information in which at least an audio element is recorded, unless otherwise specified, and includes, for example, moving image information.
  • voice information file in the present invention includes at least a moving picture information file in which a voice element is recorded, unless otherwise specified.
  • steps, procedures, means, etc. in the present invention are not limited to the order of performing these steps as long as the object of the present invention can be achieved, and within the scope of the present invention! ,.
  • the audio information search program of the present invention it is possible to search audio information with high search accuracy and to perform audio information search with a high search speed.
  • FIG. 1 is a conceptual diagram for explaining a speech information retrieval program according to the present invention.
  • a speech information retrieval program includes a speech information file text conversion function 1, a speech information file playback time measurement function 2, and a database registration function 3.
  • Search condition determination function 4 search processing function 5, and search result output function 6 are executed at least by the computer. 7 is accumulated. Each function will be described below.
  • the text conversion function 1 of the voice information file is a function of converting a voice element input to the voice information file into a character string.
  • Audio information file playback time measurement function 2 is a function for measuring the playback time of an audio information file.
  • the database registration function 3 is a function for registering the voice information file in the database 7.
  • the search condition determination function 4 is a function for determining a search condition for extracting a desired audio information file.
  • the search processing function 5 is a function for executing a search on the database 7 in accordance with the search conditions determined by the search condition determination function 4.
  • the search result output function 6 is a function for outputting the search result obtained by the search processing function 5.
  • FIG. 2 is a flowchart when registering a database in the first embodiment of the speech information retrieval program according to the present invention. That is, FIG. 2 is a flowchart for registering an audio information file in the database based on the playback time.
  • file information of an audio information file (including a moving image information file; the same applies hereinafter) is input (Sl).
  • the file information As the file information, the title name, category, creator, voice language, creation date, etc. of the voice information file are input.
  • the ability to input filter condition items such as content name and category is not particularly limited, and the file information input in this step is not particularly limited.
  • Information necessary for database construction can be input. For example, basic content information may be input.
  • the input method is not particularly limited in the present invention, and can be performed by, for example, a keyboard.
  • Various information input in this way is registered in the database as file information of the audio information file (S2).
  • an audio information file is reproduced, converted into text using an audio conversion system, and stored in a database.
  • the played audio is in Japanese (S 3, see S4a), and the text conversion is displayed in hiragana. Or, it is not particularly limited to display Japanese translation! / Katakana display.
  • the text conversion is displayed in the foreign language such as English characters.
  • the target language is not particularly limited, and may be Japanese, English, Chinese, Korean, French, etc. In this case, it is preferable to use a language that does not have speech.
  • speech information the words (characters) corresponding to the speech can be uniquely converted and determined, so that higher search accuracy can be obtained. .
  • steps S1 to S4 are appropriately performed from the viewpoint of search items used as search conditions that are not necessarily required, the viewpoint of easy management of audio information files on a database, and the like. Can do.
  • the audio information file is reproduced (S 5), and the audio elements of the reproduced audio information file are converted to text (S 6).
  • the method for text-converting a voice element of a voice information file is not particularly limited.
  • text conversion can be performed using a voice conversion system such as Microsoft (registered trademark) R.Net Speech.
  • step S8a is a short-time audio information file with a playback time of n seconds or less.
  • step S7 If it is determined in step S7 that it is longer than n seconds, the playback part of the first n seconds of the audio information file is separated, and the text information of the separated audio information file is separated. Register in the database (S8b). Then, the remaining portion of the cut audio information file is determined again in step S7 as to whether or not the reproduction time is longer than n seconds, and is finally divided in units of audio information file power seconds.
  • the audio information file processed in step S8b is an audio information file whose playback time is longer than the predetermined time n seconds.
  • the reproduced audio information is converted into text and stored in the database.
  • each time stamp is pressed at predetermined time intervals (n seconds), Recorded in units. Also, if the audio information is short and / or information amount less than the predetermined time interval (n seconds), the time stamp is recorded without being divided (see FIG. 3 etc.).
  • the time setting of the predetermined time n seconds in step S7 is not particularly limited, and can be set as appropriate in consideration of the search accuracy, the processing capability of the computer or the like used, the usage environment, and the like. For example, if you want to increase the search accuracy, you can shorten the n-second time setting. If you want to focus on the search speed, etc., you can increase the n-second time setting.
  • FIG. 3 is a conceptual diagram for explaining the basic information table of the audio information file registered in the database in the first embodiment (see FIG. 2, S1, etc.), and FIG. 4 is the first embodiment.
  • FIG. 3 is a conceptual diagram illustrating content data of an audio information file registered in a database in the form (see FIG. 2; S7, S8a, S8b, etc.).
  • FIG. 3 is an example of the file information of the audio information file, and four programs with content IDs “1” to “4” are registered. Information about the titles, categories, and audio languages of the four programs is shown. For example, the content ID “1” is assigned to the first registered program (“Create homepage”) as the number that identifies and identifies the program. “Computer” is assigned to the power category. Thus, the search accuracy can be further improved by registering the genre and the like of the content program. Then, “Japanese” as the voice language is registered as file information.
  • FIG. 4 shows the content data of the audio information file registered in the database, and the audio information file is converted to text and divided so as to have a reproduction time of a predetermined time n seconds or less ( Figure 2; see S8a, 8b etc.).
  • FIG. 4 illustrates the program “homepage creation” with the content ID “1” in FIG. 3 and the program “weather in Tokyo today” with the content ID “4”. .
  • the content ID is a number assigned to each program as in FIG.
  • the record ID indicates the power of the audio information played back in the program. For example, record ID “1” is the first audio information file played back in the program. Record ID “2” is played after record ID “1”. Show that it is the second audio information file! /
  • the time stamp in Fig. 4 indicates the playback time from the beginning of the program.
  • the time stamp “00:00:00” indicates that it is 0 seconds from the beginning of the program, and the time stamp “00:00:00” is exactly 10 seconds from the beginning of the program. It is shown that it was time. That is, in this case, the predetermined time n of each record is 10 seconds (see FIG. 2; S8b, etc.).
  • the item “text” in FIG. 4 indicates data obtained by converting the voice element of the voice information file into characters.
  • the voice of “I will make a home page from now on!
  • the next record ID “2” is a continuation of the record ID “1”, and the text of the record ID “2” must be “ ⁇ .
  • Muriyo “•” audio is converted to text!
  • FIG. 5 is a flowchart for performing a search process for the database in the first embodiment. That is, FIG. 5 is a flowchart for performing a search process for the database registered in FIG. 2, and shows a search process for searching for an audio information file including a predetermined keyword.
  • search condition items to be entered include the category, language, text keyword, etc. of the voice information file.
  • items of search condition items (see S2 in FIG. 2) input at the time of database creation can be input.
  • the search condition items are not particularly limited. For example, a category, a language, a keyword included (character ⁇ IJ), and the like can be set.
  • step S10 it is determined whether the number of extractions is 0 or more than 1 (Sl l). As a result, if there are more extractions that match the search conditions, a content ID list of the content ID (see Fig. 2 etc.) of the corresponding data is created. On the other hand, if the number of extracted cases is 0, “N / A” is displayed (12b).
  • the number of content ID lists is looped (S13 to S26). That is, all the contents extracted in step S 10 are searched. For example, when a search is made in the database using the category “computer” as a search condition, all the contents belonging to the category “computer” are extracted, and all the records of the content group are searched for text.
  • the text search is performed in the following steps. First, the content data count is reset (S14), and a search is made for records with matching content IDs in the same content data table (S15 to 25). First, a search is made for a group of records that are divided and registered within the content (within the program). For the record ID, the nth ID and the (n + 1) th ID are extracted (S16). For example, records with record IDs “1” and “2” are extracted. Alternatively, records with record IDs “2” and “3” are extracted.
  • step S20 keyword search is performed for the character string in the text of the content “n”.
  • step S20 text search is performed within a single record without combining previous and subsequent records. For example, in the example of FIG. 3, a keyword search is performed on the character string in the content ID “2”.
  • the search result list obtained so far data in which the corresponding content ID and the same item in the content basic information table match is acquired (S28). Then, the acquired data is converted into display data (S29).
  • the aspect of the display data is not particularly limited, but may be an aspect listed on the user terminal, for example.
  • FIG. 6 is a flowchart when outputting the detection result in the first embodiment. That is, FIG. 6 is a flowchart for outputting the search result obtained by the search processing in FIG. 5, and is a search result output for reproduction from a reproduction portion including a predetermined key keyword.
  • the accuracy improvement mode is selected, more accurate keyword playback is possible.
  • the start time position of the corresponding content data is first obtained from the result list obtained in the search process (see FIG. 4 etc.) (S34).
  • the output audio information file is selected from Japanese or English (S35).
  • the speech language is not limited to Japanese and English, and may be a plurality of types of languages.
  • noise cut processing based on English speech is performed (S36b). Since the utterance wave number varies depending on the language, it can be reproduced with little noise when it is reproduced and output by performing an appropriate noise cut process according to the language. This noise cut should be processed while playing back the audio information file.
  • information on the start time position of the corresponding content data is acquired from the search result list obtained in the search process (see FIG. 4 etc.) (S36).
  • information on the scheduled playback position of which audio ID file (that is, which content ID) should be played back from what record ID of what record ID is acquired.
  • playback is started from the corresponding scheduled playback position (S37), and the playback location is converted to text (S38).
  • the first character 1S of the keyword 1S is determined as to the power contained in the text at the scheduled playback position (S39). For example, when a voice information file including the keyword “Internet” is searched, it is a step of determining whether or not the first character “I” of “Internet” is included in the scheduled playback position. As a result, if the first character is included, the playback position obtained by subtracting a predetermined time (1 second) from the playback start time (scheduled playback position) of the first character is stored in a variable (S40). [0058] In this step S40, for example, in the case where the keyword "Internet” is searched for the content "homepage creation" in FIG.
  • the playback position is 34 seconds one second before that position. Is stored in a variable. As a result, it is possible to prevent the voice information finale from being played when the first character of “Internet” is cut off and the head is cut off like “Internet”, and the sound is played back right before “Internet”. be able to.
  • the predetermined time may not be 1 second, but can be determined appropriately according to the type of search target file, the audio content, and the like.
  • step S39 If it is determined in step S39 that the first character of the keyword does not match, the voice information file at the scheduled start position is played again (S37), and the second character (n It is determined whether or not 2) matches (S44).
  • the start time position of the corresponding content data in the search result list and the time confirmed in the variable are calculated (S46). For example, in the case of Figure 3, if the playback start position of the keyword “Internet” is 35 seconds after the beginning of the content, the position of 34 seconds is calculated by subtracting the predetermined time of 1 second from 35 seconds. To do.
  • step S46 the reproduction start position calculated in step S46 is set (designated) (S47), and reproduction is performed from the reproduction designated position of the predetermined audio information file (S48).
  • step S33 If the accuracy improvement mode is not selected in step S33, the start time position of the corresponding content data is directly acquired from the result list obtained by the search process. (S10b), the playback is started from the start time position (S47). For example, if the content data “Homepage creation” in FIG. 3 is searched with the keyword “Homepage” and then the keyword “Homepage” is searched, the first playback start position of the record ID “4” containing the keyword (ie, the content Playback starts from 30 seconds from the beginning).
  • the accuracy improvement mode can be appropriately set to “valid” or “invalid”.
  • set the accuracy improvement mode to “Enable”.
  • playback is performed from the time stamp of the record to be searched, and the location matching the keyword is specified. Then, the total time of the time until matching and the time of the time stamp is set as the playback start position for the user.
  • the accuracy improvement mode is set to "invalid". As a result, playback starts from the time stamp of the record to be searched (that is, from the beginning of the record ID to be searched).
  • FIG. 7 is a flowchart showing a procedure for registering a database in the second embodiment of the speech information search program according to the present invention.
  • the audio information file according to the present invention is registered in a database based on a predetermined number of characters. The following description will focus on differences from the first embodiment of the present invention.
  • file information of an audio file is input (S1), and the audio file is converted to text.
  • the procedure up to (S6) is the same as in FIG. It is determined whether the number of characters in the voice information file converted into text in this way is larger or smaller than a predetermined number of characters (n in FIG. 7) (S7-2).
  • the audio information file processed in step S8a is an audio information file composed of short // text with a reproduction time of n characters or less.
  • step S7-2 If it is determined in step S7-2 that the number of characters is longer than n, the first n number of playback parts of the audio information file are separated, and the audio information file text is delimited. Information is registered in the database (S8b). And the cut audio information For the rest of the file, it is determined again in step S7-2 whether the text is longer than n characters. Finally, the audio information file is divided in units of n characters. That is, the audio information file processed in step S8b is an audio information file in which the number of texts in the reproduction information is longer than the predetermined number of characters (n characters).
  • the reproduced audio information is converted into text and stored in the database.
  • a time stamp with a predetermined number of characters (n characters)
  • each unit unit It is recorded separated by. If the audio information has a short amount of information equal to or less than the predetermined number of characters (n characters), the time stamp is pressed and recorded as it is without being divided.
  • search processing, search result output processing, and the like can be performed in the same procedure as in the first embodiment of the present invention (Figs. 5 and 5). (Refer to 6).
  • FIG. 8 is a flowchart showing a procedure for registering a database in the third embodiment of the speech information search program according to the present invention.
  • the audio information file according to the present invention is registered in the database based on the predetermined number of words. The following description will focus on differences from the first embodiment and the second embodiment of the present invention.
  • the text is divided into predetermined phrase units or word units.
  • the delimiter unit may be a phrase unit or a word unit, and can be selected as appropriate.
  • the method for recognizing the phrase unit or the word unit is not particularly limited, and a suitable method can be used as appropriate.
  • the unit to be divided is not particularly limited. For example, although it is not shown, a predetermined phrase unit or word unit) can be set as n clause number or n word number). If the unit is shortened, the search accuracy is improved, and if the unit is lengthened, the search speed can be increased. A suitable unit can be appropriately determined in consideration of these factors.
  • the voice information file processed in step S8a is a voice information file consisting of short text and text whose playback time is less than the number of possessed phrases n (predetermined number of words n).
  • step S7-3 If it is determined in step S7-3 that it is longer than n clauses (n words), the playback portion of the first n clauses (n words) of the audio information file is selected. Divide and register the text information of the separated audio information file in the database (S8b). Then, the remaining portion of the cut audio information file is determined again in step S 7-3 whether or not the text is longer than n clauses (n words). Finale is separated by n clauses (n words). That is, the audio information file processed in step S8b is an audio information file in which the number of texts of the reproduction information is longer than the predetermined number of phrases (predetermined number of words).
  • FIG. 9 is a flowchart for performing a search process for a database according to the third embodiment. That is, FIG. 9 is a flowchart for performing a search process for the database registered in FIG. The difference from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 6 etc.) will be described below.
  • the search condition is input (S9) until the procedure (S10, S11) for extracting data from the content basic information table from a predetermined condition such as category 'language', the first embodiment of the present invention, The same as in the second embodiment.
  • step S11 if there are more than the number of extracted cases in step S11, the corresponding data is copied.
  • a keyword in the text of the content data table is searched from the content ID (S49 a) D, that is, a step of further searching the content ID.
  • step S11 If the number of extractions in the search result of step S11 is 0, "N / A" is displayed and the search is terminated (S49b).
  • step S49a If there is one or more extraction results as a result of keyword search in step S49a, a loop search is performed for the corresponding number (S51a to S57). In step S49a, if the number of extractions is 0, “N / A” is displayed and the search ends (S49b).
  • the following loop search is performed (S51a to S57).
  • the content ID and record ID “n” are added to the result list.
  • this step identifies the record ID that includes the corresponding audio part.
  • the data corresponding to the same item in the content ID and the content basic information table is acquired from the result list (S53).
  • the acquired data is converted into display data (S54). For example, it may be display data that can be displayed in a list on the user's terminal device and the corresponding part can be reproduced as it is by clicking on the linked part.
  • a loop search is performed (S57) in which the series of steps (S52 to S56) are all performed for the corresponding number of cases.
  • FIG. 10 is a flowchart for outputting the detection result in the third embodiment. That is, FIG. 10 is a flowchart for outputting the search result obtained by the search process in FIG. The difference from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 7 etc.) will be described below.
  • the start time position of the corresponding content data is acquired from the result list obtained by the search processing performed in FIG. 9 (S58). Subsequently, the start time of the content data is set (S59). Then, playback is performed from the set start time (S60).
  • an audio information file into text when converting an audio information file into text, it may be divided by a predetermined time unit! / (See FIG. 2 etc.) or may be divided by a predetermined number of characters! / (See Fig. 7 etc.) and may be separated by the number of specified phrases or words (see Fig. 8 etc.). These are appropriately determined in consideration of the processing capability when converting the voice information file to text and the processing capability such as whether the text-converted file can be recognized as a character, a phrase or a word, etc. Select with power S.
  • FIG. 11 is a conceptual diagram for explaining an example of the speech information retrieval system according to the present invention.
  • the speech information retrieval system includes a text conversion server 8, a database server 9, a web server 10, a speech information file storage server 11, and a management server 12.
  • the system connected by the network 13.
  • the text conversion server 8 is a server that converts a voice information file into text, creates a content information file, and registers it in a database.
  • the database server 9 is a server that stores the text-converted information file 91 and the content information file 92.
  • the Web server 10 is a server that is connected to the user's terminal 101 and exhibits a search condition input from the user's terminal 101 and a function for displaying and outputting the search result.
  • the audio information file storage server 11 is a server that stores an audio information file (including a video information file) 111.
  • the management server 12 is a server that manages system failures such as each server and the network 13.
  • the above-described accuracy improvement mode can be operated as required. If the accuracy improvement mode is to function, set the accuracy improvement mode to “valid” (see Figure 6). As a result, playback is performed from the time stamp of the record to be searched, and the location that matches the keyword is specified. Then, the sum of the time until matching and the time of the time stamp is set as the playback start position for the user.
  • the accuracy improvement mode is set to "invalid". As a result, playback starts from the time stamp of the record to be searched (that is, from the beginning of the record to be searched).
  • the database capability can be adjusted by shortening the time required for search or improving the search accuracy by adjusting settings as appropriate. For example, when the accuracy improvement mode is set to be effective, the search accuracy of voice information is improved, and a position where a user's desired keyword is output (spoken) can be detected, and a more accurate reproduction start position can be determined. Searchable. On the other hand, by disabling the accuracy improvement mode, the time required for the search can be shortened because the step of the accuracy improvement mode is unnecessary, and the load on the server of the search system can be reduced. That is, according to the present invention, it is possible to appropriately construct a search system in consideration of the type and amount of information file to be searched, a certain hardware environment, and the hardware environment to be used.
  • the information recorded in the database used in the present invention is not limited to the audio information file (or moving image information file), and for example, a text information file is also recorded.
  • a text information file is also recorded.
  • voice information is converted into text and registered in the database, not only the voice information file but also the text information file can be simultaneously searched. That is, in the present invention, by registering not only the audio information file but also the text information file, the audio information file (or moving picture information file) and the text information file can be simultaneously stored by executing one search. You can search.
  • a step of designating a search target before the search execution may be separately provided.
  • an appropriate selection in consideration of the user's purpose of use, usage environment, etc., such as a search for only audio information files or a search for only text information files.
  • a function may be provided in which a plurality of contents can be searched simultaneously when performing a search process. By performing simultaneous search for multiple contents, the time required for search processing can be reduced. In this case, it is possible to appropriately determine whether to provide this function in consideration of the processing capacity of the computer or the like used in the present invention.
  • the voice information search program according to the present invention can be used for management, tabulation, and search of various voice information files.
  • a multimedia-related database for managing a voice information file with a large amount of information It can be used by incorporating a large number of information files into a search engine on the Internet that is the search target.
  • FIG. 1 is a conceptual diagram for explaining a speech information retrieval program according to the present invention.
  • FIG. 2 is a flowchart for registering a database in the first embodiment of the audio information program according to the present invention.
  • FIG. 3 is a conceptual diagram illustrating a basic information table of audio information files registered in a database in the first embodiment.
  • FIG. 4 is a conceptual diagram illustrating content data of a voice information file registered in a database in the first embodiment.
  • FIG. 5 is a flowchart when a search process is performed for a database in the first embodiment.
  • FIG. 6 is a flowchart for outputting a detection result in the first embodiment.
  • FIG. 7 is a flowchart for registering a database in the second embodiment of the audio information program according to the present invention.
  • FIG. 8 is a flowchart for registering a database in the third embodiment of the audio information program according to the present invention.
  • FIG. 9 is a flowchart when a search process is performed for a database in the third embodiment.
  • FIG. 10 is a flowchart for outputting a detection result in the third embodiment.
  • FIG. 11 is a conceptual diagram for explaining an example of a speech information retrieval system according to the present invention. Explanation of symbols

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

[PROBLEMS] To provide an audio information search program which can obtain an accurate search result and can be easily used in various databases. [MEANS FOR SOLVING PROBLEMS] An audio information search program causes a computer to execute at least: a step of converting an audio element recorded in audio information into a character string, a step of measuring a reproduction time of the audio information, a step of registering the character string of the audio information in a database by dividing the string into a predetermined time interval if the reproduction time of the audio information is longer than the predetermined time and registering the character string of the audio information in the database without dividing it if the reproduction time of the audio information is not longer than the predetermined time, a step of deciding a search item for searching the database and a search condition for the search item, a step of executing a search of the database according to the search condition, and a step of outputting the search result.

Description

明 細 書  Specification

音声情報検索プログラムとその記録媒体、音声情報検索システム、並び に音声情報検索方法  Voice information search program and its recording medium, voice information search system, and voice information search method

技術分野  Technical field

[0001] 本発明は、音声情報検索プログラムに関する。より詳しくは、音声情報検索プロダラ ムとその記録媒体、音声情報検索システム、並びに音声情報検索方法に関する。 背景技術  [0001] The present invention relates to a speech information retrieval program. More specifically, the present invention relates to a voice information search program and its recording medium, a voice information search system, and a voice information search method. Background art

[0002] 近年の電子化促進により、テキスト情報、画像情報、音声情報、動画情報等の種々 の電子情報がデータ化'使用されている。そして、これらの情報が蓄積されたデータ ベースにユーザーがアクセスし、データベース内で検索することで所望の情報フアイ ルを入手できる。これに関して、検索対象となるデータベースに登録されている情報 ファイルの種類の多様化に伴って、その検索方法も開発されている。  With the recent promotion of computerization, various electronic information such as text information, image information, audio information, and moving image information has been converted into data. Then, a user can access a database in which such information is stored, and obtain a desired information file by searching in the database. In this regard, as the types of information files registered in the database to be searched are diversified, search methods have been developed.

[0003] 例えば、講義やニュース番組等の音声情報ファイルに対してキーワードを入力する ことで、そのキーワードを含んだ音声情報ファイルを検索すること等が行なわれて!/ヽ る。その場合、音声情報ファイル中の、希望するキーワードが発せられる時間帯(再 生時間位置)をいかに効率よく正確に検索できるかが重要である。例えば、数時間に わたる映画や講演の動画ファイル ·音声情報ファイルのなかで、ユーザーが見たいシ ーン (所望するセリフが発せられる場面とその再生時間位置)を効率よく検索できるこ とは、ユーザーの時間的負担の軽減だけでなぐ検索使用時のストレスも軽減される  [0003] For example, by inputting a keyword to an audio information file such as a lecture or a news program, searching for an audio information file including the keyword is performed! In that case, it is important how efficiently and accurately the time zone (playback time position) in which the desired keyword is issued in the audio information file can be searched. For example, in a movie file or audio information file for several hours of movie or speech, it is possible to efficiently search for the scene that the user wants to see (the scene where the desired speech is emitted and its playback time position). The stress when using search is reduced by reducing the user's time burden.

[0004] このような音声情報検索方法として、ユーザーが入力した検索キーワードを音声素 子に変換し、データベースの音声情報ファイルに格納された音声とのマッチングを行 なう方法等が行なわれている。また、特許文献 1には、音声情報の検索方法として、 入力された任意の単語から音声素子列を生成する場合に、認識誤りが発生している 可能性を考慮して検索する技術等にっレ、て開示されてレ、る。 [0004] As such a speech information retrieval method, there is a method of converting a search keyword input by a user into a speech element and performing matching with speech stored in a speech information file of a database. . Patent Document 1 describes a technique for searching for speech information in consideration of the possibility that a recognition error has occurred when generating a speech element sequence from an input arbitrary word. It ’s been disclosed.

[0005] 特許文献 1 :特開 2005— 257954号公報。 発明の開示 発明が解決しょうとする課題 Patent Document 1: Japanese Patent Application Laid-Open No. 2005-257954. Disclosure of the invention Problems to be solved by the invention

[0006] しかし、音声情報の検索を行う場合、データベースに蓄積された音声情報ファイル を音声素子として音声検索すると、その音声のイントネーションや強弱やなまりの有 無等によって正確に音声認識できない場合が生じ、検索精度が低下する。また、音 声情報ファイルに記録された情報量 (録音時間 ·録画時間等)が大きい場合には、こ の音声情報ファイルの中から正確に所望する場面(再生時間位置)を検索できなレ、 場合があり、検索精度が低下する。  [0006] However, when searching for voice information, if the voice information file stored in the database is used as a voice element, the voice may not be recognized correctly due to the intonation of the voice, the presence or absence of strength, or the like. , Search accuracy decreases. Also, if the amount of information recorded in the audio information file (recording time, recording time, etc.) is large, the desired scene (playback time position) cannot be searched from this audio information file. In some cases, search accuracy decreases.

[0007] そこで、本発明は、より正確な検索結果を得ることができ、かつ種々のデータベース にも簡易に使用できる音声情報検索プログラムを提供することを主目的とする。 課題を解決するための手段  [0007] Therefore, the main object of the present invention is to provide a speech information search program that can obtain more accurate search results and can be easily used in various databases. Means for solving the problem

[0008] まず、本発明の第 1の側面として、音声情報に記録された音声素子を文字列に変 換するステップと、前記音声情報の再生時間を測定するステップと、音声情報の再生 時間が所定時間よりも長い場合には、前記音声情報の前記文字列を所定時間ごと に区切ってデータベースに登録し、音声情報の再生時間が所定時間以下である場 合には、前記音声情報の前記文字列を区切らずにデータベースに登録するステップ と、前記データベースに対して検索を行なう検索項目と、該検索項目についての検 索条件と、を決定するステップと、前記検索条件に従って、前記データベースに対し て検索を実行するステップと、前記検索の結果を出力するステップと、を少なくともコ ンピュータに実行させる音声情報検索プログラムを提供する。これら各ステップをコン ピュータに実行させることで、高い検索精度を有するとともに、検索所要速度も速い 音声情報検索を行なうことができる。  [0008] First, as a first aspect of the present invention, a step of converting an audio element recorded in audio information into a character string, a step of measuring the reproduction time of the audio information, and a reproduction time of the audio information If it is longer than a predetermined time, the character string of the audio information is divided into predetermined time intervals and registered in the database. If the reproduction time of the audio information is less than the predetermined time, the character of the audio information is Registering in the database without separating columns, determining a search item for searching the database, and a search condition for the search item, and for the database according to the search condition There is provided a voice information search program for causing a computer to execute at least a step of executing a search and a step of outputting a result of the search. By causing the computer to execute each of these steps, it is possible to perform voice information search with high search accuracy and high search speed.

[0009] また、本発明の第 2の側面として、文字列を構成する文字数を測定し、その文字数 が所定文字数よりも長い場合には分節し、長くない場合にはそのままデータベースに 登録するステップを fiなうようにすることもできる。  [0009] In addition, as a second aspect of the present invention, there is a step of measuring the number of characters constituting the character string, segmenting if the number of characters is longer than a predetermined number of characters, and registering it directly in the database if it is not longer You can be like fi.

[0010] 次に、本発明では、前記データベースに対して検索を実行するために、少なくとも、  [0010] Next, in the present invention, in order to perform a search on the database, at least

(1)区切られた音声情報のうち、連続する前後 2つの音声情報を結合するステップ、 (1) A step of combining two pieces of audio information before and after the divided audio information,

(2)前記結合された 2つの音声情報の文字列のなかに、検索条件で指定した文字が 含まれるか判断するステップ、(3)前記区切られた 2つの音声情報のそれぞれの文 字列のなかに、各音声情報の文字列に検索条件で指定した文字が含まれるか判断 するステップ、をコンピュータに実行させることを特徴とする音声情報検索プログラム を提供する。音声情報を区切ることで頭切れや尻切れになった文字列に対しても、 高い検索精度である音声情報検索を行なうことができる。 (2) a step of determining whether the character string specified by the search condition is included in the character string of the two combined voice information, or (3) each sentence of the two separated voice information. There is provided a speech information search program characterized by causing a computer to execute a step of determining whether a character string specified by a search condition is included in a character string of each speech information. By separating speech information, it is possible to perform speech information search with high search accuracy even for character strings that are truncated or truncated.

[0011] 続いて、本発明では、前記検索の結果を出力するために、少なくとも、(a)検索条 件で指定した文字に対応する音声素子が記録されている音声情報の記録時間位置 を指定するステップ、(b)前記指定された記録時間位置よりも、所定時間だけ前にさ 力、のぼった記録時間位置を再生開始位置として指定するステップ、 (c)前記指定さ れた再生開始位置から音声再生するステップ、をコンピュータに実行させることを特 徴とする音声情報検索プログラムを提供する。これらの各ステップをコンピュータに実 行させることで、検索条件に合致した、より正確な再生位置から前記音声情報を再生 すること力 Sでさる。 Subsequently, in the present invention, in order to output the search result, at least (a) a recording time position of voice information in which a voice element corresponding to the character specified in the search condition is recorded is specified. (B) a step of designating a recording time position that is a predetermined time before the designated recording time position as a reproduction start position, and (c) starting from the designated reproduction start position. Provided is a voice information retrieval program characterized by causing a computer to execute a voice reproduction step. By causing the computer to execute each of these steps, the sound S can be reproduced from the more accurate reproduction position that matches the search condition.

[0012] 更に、本発明では、前記プログラムが記録されたコンピュータ読取可能な記録媒体 を提供する。なお、本発明において用いられる「記録媒体」とは、プログラムのインスト ール、実行、プログラムの流通 ·頒布等のために用いられる、プログラムが記録された コンピュータで読み取り可能なあらゆる記録媒体をいう。  Furthermore, the present invention provides a computer-readable recording medium on which the program is recorded. The “recording medium” used in the present invention means any computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution and distribution, and the like.

[0013] また、本発明では、音声情報に記録された音声素子を文字列に変換する手段と、 前記音声情報の再生時間の測定手段と、音声情報の再生時間が所定時間よりも長 い場合には、前記音声情報の前記文字歹 IJを所定時間ごとに区切ってデータベース に登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情報の 前記文字列を区切らずにデータベースに登録する手段と、前記データベースに対し て検索を行なう検索項目と、該検索項目についての検索条件の決定手段と、前記検 索条件に従って、前記データベースに対して検索を実行する手段と、前記検索の結 果の出力手段と、を少なくとも備えた音声情報検索システムを提供する。かかる音声 情報検索システムとすることで、高い検索精度を有するとともに、検索所要速度も速 V、音声情報検索システムを構築することができる。  [0013] Also, in the present invention, the voice element recorded in the voice information is converted into a character string, the voice information playback time measuring means, and the voice information playback time is longer than a predetermined time. The character string IJ of the voice information is registered in the database by dividing it at predetermined time intervals, and when the reproduction time of the voice information is equal to or shorter than the predetermined time, the character string of the voice information is not divided into the database. Means for registering in the database, search items for searching the database, means for determining search conditions for the search items, means for executing a search for the database according to the search conditions, and the search And a speech information retrieval system comprising at least a result output means. By using such a voice information search system, it is possible to construct a voice information search system having high search accuracy and a fast search speed V.

[0014] そして、本発明では、音声情報に記録された音声素子を文字列に変換する手順と 、前記音声情報の再生時間を測定する手順と、音声情報の再生時間が所定時間より も長い場合には、前記音声情報の前記文字歹 |Jを所定時間ごとに区切ってデータべ ースに登録し、音声情報の再生時間が所定時間以下である場合には、前記音声情 報の前記文字列を区切らずにデータベースに登録する手順と、前記データベースに 対して検索を行なう検索項目と、該検索項目につ!/、ての検索条件と、を決定する手 順と、前記検索条件に従って、前記データベースに対して検索を実行する手順と、 前記検索の結果を出力する手順と、を少なくとも備えた音声情報検索方法を提供す る。力、かる音声情報検索方法によれば、高い検索精度を有するとともに、検索所要速 度も速!/、音声情報検索を行なうことができる。 [0014] In the present invention, a procedure for converting an audio element recorded in audio information into a character string, a procedure for measuring a reproduction time of the audio information, and a reproduction time of the audio information from a predetermined time If the length of the voice information is too long, the character 歹 | J of the voice information is divided into predetermined intervals and registered in the database. If the playback time of the voice information is less than the predetermined time, the voice information A procedure for registering in the database without dividing the character string, a search item for searching the database, a procedure for determining a search condition for the search item, and a search condition for the search item, and the search condition Accordingly, there is provided a voice information search method comprising at least a procedure for executing a search on the database and a procedure for outputting a result of the search. According to the voice information retrieval method, it is possible to perform voice information retrieval with high retrieval accuracy and high search speed.

[0015] なお、本発明における「音声情報」とは、特に記載がない限り、少なくとも音声素子 が記録されたあらゆる情報をいい、例えば、動画情報等も含むものである。また、本 発明における「音声情報ファイル」についても同様に、特に記載がない限り、少なくと も音声素子が記録された動画情報ファイル等も含むものである。また、本発明におい てステップ、手順、手段等については、本発明の目的を達成できればよぐこれらを 行なう順番等にっレ、ては本発明の範囲内にお!/、て限定されなレ、。 It should be noted that “audio information” in the present invention means any information in which at least an audio element is recorded, unless otherwise specified, and includes, for example, moving image information. Similarly, the “voice information file” in the present invention includes at least a moving picture information file in which a voice element is recorded, unless otherwise specified. In addition, steps, procedures, means, etc. in the present invention are not limited to the order of performing these steps as long as the object of the present invention can be achieved, and within the scope of the present invention! ,.

発明の効果  The invention's effect

[0016] 本発明に係る音声情報検索プログラムによれば、音声情報を高い検索精度で検索 できるとともに、その検索所要速度も速い音声情報検索を行なうことができる。  [0016] According to the audio information search program of the present invention, it is possible to search audio information with high search accuracy and to perform audio information search with a high search speed.

発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION

[0017] 以下、添付した図面に基づいて、本発明の好適な実施形態について説明する。な お、以下に説明する実施形態は本発明の好適な実施形態を例示したものであり、こ れにより本発明が狭く解釈されることはない。本願は、 2006年 10月 10日に出願され た日本国特許出願第 2006— 277026号に基づく優先権を主張するものであり、当 該特許出願の明細書、図面等に記載される内容は本願に組み込まれるものである。 Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings. It should be noted that the embodiments described below exemplify preferred embodiments of the present invention, and the present invention is not construed to be narrowly limited thereby. This application claims priority based on Japanese Patent Application No. 2006-277026 filed on Oct. 10, 2006. The contents described in the specification, drawings, etc. of the patent application are It is built in.

[0018] 図 1は、本発明に係る音声情報検索プログラムを説明するための概念図である。 FIG. 1 is a conceptual diagram for explaining a speech information retrieval program according to the present invention.

[0019] 図 1に示すように、本発明に係る実施形態である音声情報検索プログラムは、音声 情報ファイルのテキスト変換機能 1、音声情報ファイルの再生時間測定機能 2、デー タベースへの登録機能 3、検索条件決定機能 4、検索処理機能 5、検索結果出力機 能 6を少なくともコンピュータに実行させるものであり、音声情報ファイルはデータべ ース 7に蓄積されている。以下、各機能について説明する。 As shown in FIG. 1, a speech information retrieval program according to an embodiment of the present invention includes a speech information file text conversion function 1, a speech information file playback time measurement function 2, and a database registration function 3. Search condition determination function 4, search processing function 5, and search result output function 6 are executed at least by the computer. 7 is accumulated. Each function will be described below.

[0020] 音声情報ファイルのテキスト変換機能 1は、音声情報ファイルに入力された音声素 子を文字列に変換する機能である。音声情報ファイルの再生時間測定機能 2は、音 声情報ファイルの再生時間を測定する機能である。データベースへの登録機能 3は 、音声情報ファイルをデータベース 7へ登録する機能である。検索条件決定機能 4は 、所望する音声情報ファイルを抽出するための検索条件を決定する機能である。検 索処理機能 5は、前記検索条件決定機能 4で決定された検索条件に従って、データ ベース 7に対して検索を実行処理する機能である。検索結果出力機能 6は、前記検 索処理機能 5によって得られた検索結果を出力する機能である。  [0020] The text conversion function 1 of the voice information file is a function of converting a voice element input to the voice information file into a character string. Audio information file playback time measurement function 2 is a function for measuring the playback time of an audio information file. The database registration function 3 is a function for registering the voice information file in the database 7. The search condition determination function 4 is a function for determining a search condition for extracting a desired audio information file. The search processing function 5 is a function for executing a search on the database 7 in accordance with the search conditions determined by the search condition determination function 4. The search result output function 6 is a function for outputting the search result obtained by the search processing function 5.

[0021] 図 2は、本発明に係る音声情報検索プログラムの第 1実施形態におけるデータべ一 スを登録する際のフロー図である。即ち、図 2は音声情報ファイルをその再生時間に 基づいてデータベースに登録するフロー図である。  FIG. 2 is a flowchart when registering a database in the first embodiment of the speech information retrieval program according to the present invention. That is, FIG. 2 is a flowchart for registering an audio information file in the database based on the playback time.

[0022] まず、音声情報ファイル (動画情報ファイルも含む。以下、同じ。 )のファイル情報を 入力する(Sl)。前記ファイル情報として、音声情報ファイルのタイトル名、カテゴリ、 作成者、音声言語、作成日等を入力する。このように、本発明では、音声情報をコン テンッ登録する際に、コンテンツ名やカテゴリ等のフィルタ条件項目を入力することが できる力 このステップで入力するファイル情報については特に限定されず、適宜、 データベース構築に必要な情報を入力することができ、例えば、コンテンツ基本情報 等を入力してもよい。入力方法については、本発明において特に限定されず、例え ばキーボード等によって行なうことができる。このようにして入力された各種情報は、 音声情報ファイルのファイル情報としてデータベースに登録される(S2)。  [0022] First, file information of an audio information file (including a moving image information file; the same applies hereinafter) is input (Sl). As the file information, the title name, category, creator, voice language, creation date, etc. of the voice information file are input. Thus, in the present invention, when content information is registered as audio information, the ability to input filter condition items such as content name and category is not particularly limited, and the file information input in this step is not particularly limited. Information necessary for database construction can be input. For example, basic content information may be input. The input method is not particularly limited in the present invention, and can be performed by, for example, a keyboard. Various information input in this way is registered in the database as file information of the audio information file (S2).

[0023] 次に、音声情報ファイルの音声素子が、 日本語なのか英語なのかを判断する(S3) 。その結果、 日本語の音声情報ファイルと判断された場合、 日本語についてのノイズ カット処理が行われる(S4a)。そして、英語の音声情報ファイルと判断された場合、英 語につ!/、てのノイズカット処理が行われる(S4b)。このノイズカットは音声情報フアイ ルを再生しながら処理することが望ましレ、。  [0023] Next, it is determined whether the sound element of the sound information file is Japanese or English (S3). As a result, if it is determined that the audio information file is in Japanese, noise cut processing for Japanese is performed (S4a). If it is determined that the sound information file is in English, noise cut processing is performed for English! / S (b4). This noise cut should be processed while playing back the audio information file.

[0024] このように、本発明では、音声情報ファイルを再生して、音声変換システムを用いて テキスト変換を行ないデータベースに格納する。再生された音声が日本語の場合(S 3, S4a等参照)には、そのテキスト変換はひらがなで表示する。あるいは、 日本語変 換の表示等につ!/、ては特に限定されず、カタカナ表示であってもよレ、。 As described above, in the present invention, an audio information file is reproduced, converted into text using an audio conversion system, and stored in a database. When the played audio is in Japanese (S 3, see S4a), and the text conversion is displayed in hiragana. Or, it is not particularly limited to display Japanese translation! / Katakana display.

[0025] また、再生された音声が英語等の外国語の場合には、そのテキスト変換は英文字 等の当該外国語で表示する。本発明において、対象とする言語については特に限 定されず、 日本語や英語であってもよいし、あるいは中国語、韓国語、フランス語等 であってもよいが、好適には同音異義語を持たない言語であることが好ましぐこの場 合には、音声情報の場合には音声と対応する単語 (文字)を一義的に変換,決定で きるため、より高い検索精度を得ることができる。  [0025] When the reproduced voice is in a foreign language such as English, the text conversion is displayed in the foreign language such as English characters. In the present invention, the target language is not particularly limited, and may be Japanese, English, Chinese, Korean, French, etc. In this case, it is preferable to use a language that does not have speech. In the case of speech information, the words (characters) corresponding to the speech can be uniquely converted and determined, so that higher search accuracy can be obtained. .

[0026] なお、本発明において、ステップ S 1〜S4は必ずしも行なう必要がなぐ検索条件と して使用する検索項目や、データベース上での音声情報ファイルの管理容易の観点 等から、適宜、行なうことができる。  [0026] In the present invention, steps S1 to S4 are appropriately performed from the viewpoint of search items used as search conditions that are not necessarily required, the viewpoint of easy management of audio information files on a database, and the like. Can do.

[0027] 次に、音声情報ファイルを再生し(S 5)、再生された音声情報ファイルの音声素子 をテキスト変換する(S6)。本発明において、音声情報ファイルの音声素子をテキスト 変換する方法については特に限定されず、例えば、 Microsoft (登録商標) R.Net Sp eech」等の音声変換システムを用いてテキスト変換することができる。  Next, the audio information file is reproduced (S 5), and the audio elements of the reproduced audio information file are converted to text (S 6). In the present invention, the method for text-converting a voice element of a voice information file is not particularly limited. For example, text conversion can be performed using a voice conversion system such as Microsoft (registered trademark) R.Net Speech.

[0028] そして、再生された音声情報ファイルの再生時間が n秒よりも長!/、か、短!/、か、を判 断する(S7)。その結果、 n秒よりも短いと判断された場合には、前記音声情報フアイ ルのテキスト情報がデータベースに登録される(S 8a)。ステップ S 8aで処理される音 声情報ファイルは、再生時間が所定時間 n秒以下の短時間の音声情報ファイルであ  [0028] Then, it is determined whether the reproduction time of the reproduced audio information file is longer than n seconds! / Or shorter! / (S7). As a result, when it is determined that the time is shorter than n seconds, the text information of the voice information file is registered in the database (S 8a). The audio information file processed in step S8a is a short-time audio information file with a playback time of n seconds or less.

[0029] ステップ S7での判断の結果、 n秒よりも長いと判断された場合には、音声情報フアイ ルの最初の n秒の再生部分を区切って、区切られた音声情報ファイルのテキスト情報 をデータベースに登録する(S8b)。そして、切り取られた音声情報ファイルの残りの 部分については再度ステップ S7で n秒よりも長い再生時間か否かが判断され、最終 的に、音声情報ファイル力 秒単位で区切られる。ステップ S8bで処理される音声情 報ファイルは、再生時間が所定時間 n秒よりも長時間の音声情報ファイルである。 [0029] If it is determined in step S7 that it is longer than n seconds, the playback part of the first n seconds of the audio information file is separated, and the text information of the separated audio information file is separated. Register in the database (S8b). Then, the remaining portion of the cut audio information file is determined again in step S7 as to whether or not the reproduction time is longer than n seconds, and is finally divided in units of audio information file power seconds. The audio information file processed in step S8b is an audio information file whose playback time is longer than the predetermined time n seconds.

[0030] 即ち、本発明において、再生された音声情報はテキスト変換されてデータベースに 保存されるが、その際には、所定時間(n秒)の間隔でタイムスタンプを押すことで、各 ユニット単位に区切って記録される。また、音声情報が前記所定の時間間隔 (n秒) 以下の短!/、情報量である場合には、分割されることなくタイムスタンプを押してそのま ま記録される(図 3等参照)。 That is, in the present invention, the reproduced audio information is converted into text and stored in the database. At that time, each time stamp is pressed at predetermined time intervals (n seconds), Recorded in units. Also, if the audio information is short and / or information amount less than the predetermined time interval (n seconds), the time stamp is recorded without being divided (see FIG. 3 etc.).

[0031] 本発明において、ステップ S7の所定時間 n秒の時間設定は特に限定されず、検索 精度や使用するコンピュータ等の処理能力や使用環境等を考慮して、適宜、設定で きる。例えば、検索精度を上げたい場合には、 n秒の時間設定を短くすれば良ぐ検 索速度等を重視する場合には n秒の時間設定を長くすればよい。  [0031] In the present invention, the time setting of the predetermined time n seconds in step S7 is not particularly limited, and can be set as appropriate in consideration of the search accuracy, the processing capability of the computer or the like used, the usage environment, and the like. For example, if you want to increase the search accuracy, you can shorten the n-second time setting. If you want to focus on the search speed, etc., you can increase the n-second time setting.

[0032] 以上のように、最終的に所定時間 n秒以下となった音声情報ファイルはデータべ一 スに全て登録される。  [0032] As described above, all audio information files that have finally reached the predetermined time n seconds or less are registered in the database.

[0033] 図 3は、同第 1実施形態において、データベースに登録された音声情報ファイルの 基本情報テーブルを説明する概念図であり(図 2、 S1等参照)、図 4は、同第 1実施 形態において、データベースに登録された音声情報ファイルのコンテンツデータを説 明する概念図である(図 2 ; S7, S8a, S8b等参照)。  FIG. 3 is a conceptual diagram for explaining the basic information table of the audio information file registered in the database in the first embodiment (see FIG. 2, S1, etc.), and FIG. 4 is the first embodiment. FIG. 3 is a conceptual diagram illustrating content data of an audio information file registered in a database in the form (see FIG. 2; S7, S8a, S8b, etc.).

[0034] 図 3は、音声情報ファイルのファイル情報についての例示であり、コンテンツ ID「1」 〜「4」の 4番組が登録されている。そして、 4番組のタイトル、カテゴリ、音声言語に関 する情報が示されている。例えば、 1番目に登録した番組(「ホームページ作成」)に ついては、番組を特定 ·識別する番号として、コンテンツ ID「1」が付与されている。力 テゴリとし、「コンピュータ」が付与されている。このように、コンテンツ番組のジャンル 等を登録することで、より検索精度を向上させることができる。そして、音声言語として 「日本語」であることがファイル情報として登録されてレ、る。  FIG. 3 is an example of the file information of the audio information file, and four programs with content IDs “1” to “4” are registered. Information about the titles, categories, and audio languages of the four programs is shown. For example, the content ID “1” is assigned to the first registered program (“Create homepage”) as the number that identifies and identifies the program. “Computer” is assigned to the power category. Thus, the search accuracy can be further improved by registering the genre and the like of the content program. Then, “Japanese” as the voice language is registered as file information.

[0035] 図 4は、データベースに登録された音声情報ファイルのコンテンツデータを示して おり、音声情報ファイルがテキスト変換され、所定時間 n秒以下の再生時間となるよう に区切られたものである(図 2 ; S8a, 8b等参照)。そして、図 4では、図 3のコンテンツ ID「1」が付与された番組「ホームページ作成」と、コンテンツ ID「4」が付与された番 組「今日の東京の天気」と、について例示されている。コンテンツ IDは、図 3と同様に 、番組ごとに付与された番号である。レコード IDは、番組のなかで何番目に再生され た音声情報であるの力、を示している。例えば、レコード ID「1」は、番組の 1番目に再 生された音声情報ファイルである。レコード ID「2」は、レコード ID「1」の次に再生され た 2番目の音声情報ファイルであることを示して!/、る。 [0035] FIG. 4 shows the content data of the audio information file registered in the database, and the audio information file is converted to text and divided so as to have a reproduction time of a predetermined time n seconds or less ( Figure 2; see S8a, 8b etc.). FIG. 4 illustrates the program “homepage creation” with the content ID “1” in FIG. 3 and the program “weather in Tokyo today” with the content ID “4”. . The content ID is a number assigned to each program as in FIG. The record ID indicates the power of the audio information played back in the program. For example, record ID “1” is the first audio information file played back in the program. Record ID “2” is played after record ID “1”. Show that it is the second audio information file! /

[0036] そして、図 4のタイムスタンプは、番組の最初からの再生時間を示している。例えば 、タイムスタンプ「00 : 00 : 00 : 00」は、番組の最初から 0秒であることを示しており、タ ィムスタンプ「00: 00: 10: 00」は、番組の最初からちょうど 10秒経過した時間である ことを示している。即ち、この場合は、各レコードの所定時間 nは 10秒である(図 2 ; S8 b等参照)。  [0036] The time stamp in Fig. 4 indicates the playback time from the beginning of the program. For example, the time stamp “00:00:00” indicates that it is 0 seconds from the beginning of the program, and the time stamp “00:00:00” is exactly 10 seconds from the beginning of the program. It is shown that it was time. That is, in this case, the predetermined time n of each record is 10 seconds (see FIG. 2; S8b, etc.).

[0037] 一方、図 4では、コンテンツ ID「4」が付与された番組「今日の東京の天気」について は、タイムスタンプが「00 : 00 : 00 : 00」、レコード IDは、 「1」のみであり、この番糸且の 再生時間は合計 8秒の短い番組である(図 2, S8a参照)。従って、この番組は、所定 時間 n (n= 10秒)よりも短い音声情報ファイルであり、レコード「ID」は「1」のみからな  On the other hand, in FIG. 4, for the program “Today's Tokyo Weather” with the content ID “4”, the time stamp is “00:00:00” and the record ID is “1” only. This is a short program with a total playback time of 8 seconds (see Fig. 2, S8a). Therefore, this program is an audio information file shorter than the predetermined time n (n = 10 seconds), and the record “ID” consists only of “1”.

[0038] また、図 4の「テキスト」の項目は、音声情報ファイルの音声素子が文字に変換され たデータを示している。例えば、コンテンツ ID「1」のレコード ID「1」では、「これからホ ームページを作って!/、くわけですが、まず必要なものをそろ · · ·」の音声がテキスト変 換されている。最後の「そろ · · ·」で所定時間 n (n= 10秒)となって区切られている。 そして、次のレコード ID「2」では、レコード ID「1」の続きとなっており、レコード ID「2」 のテキストは、「· · ·えなければなりません。ここで紹介するのは一部を除いてむりよ" •」の音声がテキスト変換されて!/、る。 In addition, the item “text” in FIG. 4 indicates data obtained by converting the voice element of the voice information file into characters. For example, in the record ID “1” of the content ID “1”, the voice of “I will make a home page from now on! The last “Sor…” is divided into a predetermined time n (n = 10 seconds). The next record ID “2” is a continuation of the record ID “1”, and the text of the record ID “2” must be “····. Muriyo “•” audio is converted to text!

[0039] 図 5は、同第 1実施形態におけるデータベースについて検索処理する際のフロー 図である。即ち、図 5は、図 2で登録されたデータベースについて検索処理するフロ 一図であり、所定のキーワードを含む音声情報ファイルを検索する検索処理を示して いる。  FIG. 5 is a flowchart for performing a search process for the database in the first embodiment. That is, FIG. 5 is a flowchart for performing a search process for the database registered in FIG. 2, and shows a search process for searching for an audio information file including a predetermined keyword.

[0040] まず、検索条件を入力する(S9)。まず、入力する検索条件項目として、音声情報フ アイルのカテゴリ、言語、テキストキーワード等が挙げられる。本発明では、データべ ース作成の際に入力した検索条件項目(図 2、 S2参照)の項目を入力することができ る。本発明では、検索条件の項目については特に限定されないが、例えば、カテゴリ 、言語、含まれるキーワード(文字歹 IJ)等を設定することができる。  First, a search condition is input (S9). First, the search condition items to be entered include the category, language, text keyword, etc. of the voice information file. In the present invention, items of search condition items (see S2 in FIG. 2) input at the time of database creation can be input. In the present invention, the search condition items are not particularly limited. For example, a category, a language, a keyword included (character 歹 IJ), and the like can be set.

[0041] 次に、登録されたコンテンツ基本情報テーブルに基づいて、設定したカテゴリ、言 語等の条件に合致するコンテンツ基本情報を有するデータを検索 ·抽出する(S 10) 。このステップは、音声情報ファイルに付与された基本情報(図 2、図 3等参照)に基

Figure imgf000011_0001
[0041] Next, based on the registered content basic information table, the set category and language are set. Search and extract data having basic content information that meets the conditions such as words (S10). This step is based on the basic information (see Figure 2, Figure 3, etc.) given to the audio information file.
Figure imgf000011_0001

[0042] ステップ S10の結果、抽出件数が 0件か、 1件以上ある力、、を判断する(S l l)。その 結果、検索条件に合致する抽出件数力 件以上ある場合には、該当データのコンテ ンッ ID (図 2等参照))のコンテンツ IDリストを作成する。一方、抽出件数が 0件の場合 には、「該当なし」を表示する(12b)。  [0042] As a result of step S10, it is determined whether the number of extractions is 0 or more than 1 (Sl l). As a result, if there are more extractions that match the search conditions, a content ID list of the content ID (see Fig. 2 etc.) of the corresponding data is created. On the other hand, if the number of extracted cases is 0, “N / A” is displayed (12b).

[0043] 続いて、コンテンツ IDのリスト件数分をループする(S 13〜26)。即ち、ステップ S 10 によって抽出されたコンテンツについて全て検索する。例えば、カテゴリ「コンピュータ 」を検索条件としてデータベース内で検索した場合に、カテゴリ「コンピュータ」に属す るコンテンツが全て抽出される力 S、そのコンテンツ群のレコードについて全てテキスト 検索を行なうものである。  [0043] Subsequently, the number of content ID lists is looped (S13 to S26). That is, all the contents extracted in step S 10 are searched. For example, when a search is made in the database using the category “computer” as a search condition, all the contents belonging to the category “computer” are extracted, and all the records of the content group are searched for text.

[0044] 前記テキスト検索は、以下のステップで行なわれる。まず、コンテンツデータのカウ ントをリセットし(S14)、同一のコンテンツデータテーブル内のコンテンツ IDがー致す るレコードについて検索する(S 15〜25)。まず、コンテンツ内(番組内)で区切られて 登録されたレコード群に対して検索するものである。レコード IDについて、 n番目の I Dと、 n+ 1番目の IDとを抽出する(S16)。例えば、レコード ID「1」と「2」のレコードを 抽出する。あるいは、レコード ID「2」と「3」のレコードを抽出するものである。  [0044] The text search is performed in the following steps. First, the content data count is reset (S14), and a search is made for records with matching content IDs in the same content data table (S15 to 25). First, a search is made for a group of records that are divided and registered within the content (within the program). For the record ID, the nth ID and the (n + 1) th ID are extracted (S16). For example, records with record IDs “1” and “2” are extracted. Alternatively, records with record IDs “2” and “3” are extracted.

[0045] 次に、抽出されたレコード ID「n」と「n+ l」のテキストを結合する(S17)。そして、結 合されたレコード ID「n」と「n+ 1」のテキスト内の文字列に対してキーワード検索を行 なう。このように、前後の 2つのレコード IDを結合してテキスト検索を行なうことで、レコ ード IDの前後の区切られた言葉 (頭切れや尻切れ)に対しても検索を行なうことがで きる。例えば、図 3の例において、コンテンツ ID「2」と「3」とを結合することで、コンテ ンッ ID「2」と「3」で区切られた単語「むりょ/う(無料)」についても検索することができ る。即ち、コンテンツ ID「2」の先頭からコンテンツ ID「3」の最後尾の文字歹 IJ「えなけれ ば のぞいて無料ですので' · ·作ること力 Sできます。」(図 3参照)について検索を 行なう。その結果、該当するキーワードが含まれる場合には、ステップ S20に進み、 該当するレコードがない場合にはステップ 26に進む。 [0046] ステップ S20では、前記コンテンツ「n」のテキスト内の文字列についてキーワード検 索を行なう。このステップ S20は、前後のレコードを結合せずに、単一のレコード内で テキスト検索を行なうものである。例えば、図 3の例において、コンテンツ ID「2」内の 文字列に対してキーワード検索を行なうものである。 Next, the texts of the extracted record IDs “n” and “n + 1” are combined (S17). Then, a keyword search is performed on the character strings in the combined record IDs “n” and “n + 1”. In this way, by combining the two preceding and following record IDs and performing a text search, you can also search for the delimited words before and after the record ID (cut off the head and the bottom). For example, in the example of Figure 3, by combining the content IDs “2” and “3”, the word “Muryo / U (free)” separated by the content IDs “2” and “3” is also searched. can do. In other words, from the beginning of content ID “2” to the last character of content ID “3” J IJ “Because it is free, it ’s free, so you can make it.” (See Figure 3) Do. As a result, if the corresponding keyword is included, the process proceeds to step S20, and if there is no corresponding record, the process proceeds to step 26. In step S20, keyword search is performed for the character string in the text of the content “n”. In this step S20, text search is performed within a single record without combining previous and subsequent records. For example, in the example of FIG. 3, a keyword search is performed on the character string in the content ID “2”.

[0047] その結果、該当する文字列が抽出されなかった場合には、後続のレコード ID「n + 1」のテキスト内の文字列に対してもキーワード検索を行なう(S22a)。一方、単一レコ ード「n」内で該当する文字列(即ち、検索キーワード)が抽出された場合には、レコー ド ID「n」のコンテンツ D 情報とレコード D 情報を検索リストに追加する(S22b)。即ち 、この場合は、レコード ID「n」内に検索キーワードが存在している場合である。  As a result, if the corresponding character string is not extracted, a keyword search is also performed for the character string in the text of the subsequent record ID “n + 1” (S22a). On the other hand, when the corresponding character string (ie, search keyword) is extracted in the single record “n”, the content D information and record D information of the record ID “n” are added to the search list. (S22b). That is, in this case, a search keyword exists in the record ID “n”.

[0048] そして、単一レコード「n+ l」内でも該当する文字列(即ち、検索キーワード)が抽出 されなレ、場合には、レコード ID「n」と「n+ 1」の両方のコンテンツ ID情報とレコード ID 情報を検索リストに追加する(S24a)。即ち、この場合は、レコード ID「n」と「n+ l」に またがって検索キーワードが存在している場合である。  [0048] If the corresponding character string (ie, search keyword) is not extracted even in the single record “n + 1”, the content ID information of both the record IDs “n” and “n + 1” is used. And record ID information are added to the search list (S24a). That is, in this case, the search keyword exists across the record IDs “n” and “n + 1”.

[0049] 一方、単一レコード「n+ l」内で該当する文字列(即ち、検索キーワード)が抽出さ れた場合には、レコード ID「n+ l」のコンテンツ D 情報とレコード D 情報を検索リスト に追加する(S24b)。即ち、この場合は、レコード ID「n+ l」内に検索キーワードが存 在している場合である。  [0049] On the other hand, when the corresponding character string (ie, search keyword) is extracted in the single record “n + 1”, the content D information and record D information of the record ID “n + 1” are retrieved from the search list. (S24b). In other words, in this case, the search keyword exists in the record ID “n + 1”.

[0050] 続いて、次のコンテンツ ID「n+ l」と「n+ 2」について同様に検索を行なう(S15〜 S25)。そして、 1のコンテンツに属する全てのレコード IDに対して検索を行う。  Subsequently, the same content IDs “n + 1” and “n + 2” are searched similarly (S15 to S25). A search is performed for all record IDs belonging to one content.

[0051] 次に、今までで得られた検索結果リストから、該当コンテンツ IDとコンテンツ基本情 報テーブルの同項目が一致するデータを取得する(S28)。そして、取得データを表 示用データに変換する(S29)。本発明では、表示用データの態様等については特 に限定されないが、例えば、ユーザー端末にリストされる態様等であってもよい。  [0051] Next, from the search result list obtained so far, data in which the corresponding content ID and the same item in the content basic information table match is acquired (S28). Then, the acquired data is converted into display data (S29). In the present invention, the aspect of the display data is not particularly limited, but may be an aspect listed on the user terminal, for example.

[0052] 続いて、該当コンテンツ IDとコンテンツ基本情報テーブルの同項目がー致するデ ータを取得する(S30)。そして、取得データを表示用データに変換する(S31)。本 発明では、表示用データの態様等については特に限定されないが、例えば、ユーザ 一端末にリストされる態様等であってもよい。そして、該当する検索リストの件数分全 て ίこつレヽて同様 ίこステップ S28〜S31を ί亍なぅ(S27〜32)。 [0053] 図 6は、同第 1実施形態における検出結果を出力する際のフロー図である。即ち、 図 6は、図 5で検索処理された検索結果を出力するフロー図であり、所定のキーヮー ドを含む再生箇所から再生する検索結果出力である。 [0052] Subsequently, data in which the corresponding content ID matches the same item in the content basic information table is acquired (S30). Then, the acquired data is converted into display data (S31). In the present invention, the mode of the display data is not particularly limited, but may be a mode listed in one user terminal, for example. Then, repeat steps S28 to S31 as many times as there are records in the search list (S27 to 32). FIG. 6 is a flowchart when outputting the detection result in the first embodiment. That is, FIG. 6 is a flowchart for outputting the search result obtained by the search processing in FIG. 5, and is a search result output for reproduction from a reproduction portion including a predetermined key keyword.

[0054] まず、精度向上モードで再生位置を出力するか否かを選択する(S33)。精度向上 モードを選択した場合には、より正確なキーワードの再生位置からの再生が可能とな る。精度向上モードを選択した場合には、まず検索処理(図 4等参照)で得た結果リス トから該当コンテンツデータの開始時間位置を取得する(S34)。続いて、出力する音 声情報ファイルが日本語か英語のもののいずれかを選択する(S35)。なお、本発明 では、音声言語は日本語と英語に限定されず、複数種類の言語であってもよい。  First, it is selected whether or not to output the playback position in the accuracy improvement mode (S33). When the accuracy improvement mode is selected, more accurate keyword playback is possible. When the accuracy improvement mode is selected, the start time position of the corresponding content data is first obtained from the result list obtained in the search process (see FIG. 4 etc.) (S34). Subsequently, the output audio information file is selected from Japanese or English (S35). In the present invention, the speech language is not limited to Japanese and English, and may be a plurality of types of languages.

[0055] 日本語の場合には、 日本語の音声に基づいたノイズカット処理を行なう(S36a)。  In the case of Japanese, noise cut processing based on Japanese speech is performed (S36a).

英語の場合には、英語の音声に基づいたノイズカット処理を行なう(S36b)。言語に よって、発声波数も異なるため、言語に応じて適切なノイズカット処理を行なうことで、 再生出力した際にノイズが少ない状態で再生することができる。このノイズカットは音 声情報ファイルを再生しながら処理することが望ましい。  In the case of English, noise cut processing based on English speech is performed (S36b). Since the utterance wave number varies depending on the language, it can be reproduced with little noise when it is reproduced and output by performing an appropriate noise cut process according to the language. This noise cut should be processed while playing back the audio information file.

[0056] 次に、検索処理(図 4等参照)で得られた検索結果リストから該当するコンテンツデ ータの開始時間位置の情報を取得する(S36)。このステップによって、どの音声情 報ファイルの(即ち、どのコンテンツ IDなのか)どのレコード IDの何分何秒目から再生 すべきかという再生予定位置の情報を取得する。そして、その再生予定位置の情報 に従って、該当する再生予定位置から再生し(S37)、再生された箇所をテキスト変換 する(S38)。一旦、音声情報の音声素子をテキスト変換して、そのテキストがキーヮ ードの文字を本当に含んでいる箇所なのかを検証することで、検索精度を向上でき  Next, information on the start time position of the corresponding content data is acquired from the search result list obtained in the search process (see FIG. 4 etc.) (S36). Through this step, information on the scheduled playback position of which audio ID file (that is, which content ID) should be played back from what record ID of what record ID is acquired. Then, according to the information of the scheduled playback position, playback is started from the corresponding scheduled playback position (S37), and the playback location is converted to text (S38). Once the voice information of voice information is converted to text and verified whether the text really contains the key words, the search accuracy can be improved.

[0057] そして、キーワードの 1文字目 1S 前記再生予定位置のテキストに含まれる力、を判 断する(S39)。例えば、キーワード「インターネット」を含む音声情報ファイルを検索し た場合に、再生予定位置に「インターネット」の最初の 1文字目「い」が含まれるか否 力、を判断するステップである。その結果、前記 1文字目が含まれている場合には、該 1文字目の再生開始時間(再生予定位置)から所定時間(1秒)を減じた再生位置を 変数に格納する(S40)。 [0058] このステップ S40は、例えば、図 3のコンテンツ「ホームページ作成」に対してキーヮ ード「インターネット」を検索 ·出力再生する場合であれば、「インターネット」が含まれ るレコード IDは「4」であり、キーワード「インターネット」の 1文字目「ィ」が位置する再 生開始時間が、当該コンテンツの先頭から 35秒後である場合には、当該位置から 1 秒前の 34秒を再生位置として変数に格納するステップである。これにより、「インター ネット」の 1文字目が切れて「ンターネット」のような頭切れの状態で音声情報フアイノレ が再生されることを防止でき、「インターネット」の直前から正確に音声を再生すること ができる。 [0057] Then, the first character 1S of the keyword 1S is determined as to the power contained in the text at the scheduled playback position (S39). For example, when a voice information file including the keyword “Internet” is searched, it is a step of determining whether or not the first character “I” of “Internet” is included in the scheduled playback position. As a result, if the first character is included, the playback position obtained by subtracting a predetermined time (1 second) from the playback start time (scheduled playback position) of the first character is stored in a variable (S40). [0058] In this step S40, for example, in the case where the keyword "Internet" is searched for the content "homepage creation" in FIG. ”And the playback start time at which the first character“ i ”of the keyword“ Internet ”is located is 35 seconds after the beginning of the content, the playback position is 34 seconds one second before that position. Is stored in a variable. As a result, it is possible to prevent the voice information finale from being played when the first character of “Internet” is cut off and the head is cut off like “Internet”, and the sound is played back right before “Internet”. be able to.

[0059] 本発明では、この所定時間は 1秒でなくともよぐ適宜、検索対象ファイルの種類や 音声内容等に応じて適宜決定できる。  In the present invention, the predetermined time may not be 1 second, but can be determined appropriately according to the type of search target file, the audio content, and the like.

[0060] また、ステップ S39で、キーワードの最初の 1文字が一致しない、と判断された場合 には、再び、開始予定位置の音声情報ファイルを再生し(S37)、キーワードの 2文字 目(n = 2)がー致するかを判断する(S44)。  [0060] If it is determined in step S39 that the first character of the keyword does not match, the voice information file at the scheduled start position is played again (S37), and the second character (n It is determined whether or not 2) matches (S44).

[0061] このように、キーワードの 2文字目以降も同様のステップを行ない、キーワードである 単語 (あるいは文節や文章)が再生予定位置のテキストに含まれているかを判断する (S4;!〜 S45)。即ち、キーワードの 2文字目以降の判定も、同様に、開始予定位置 の音声情報ファイルを再生し(S42)、これをテキスト変換する(S43)。そして、変換さ れたテキストと、キーワードの n文字目(n = 3, 4, · · · )がー致するかを判断する(S44 )。このステップ S4;!〜 S45のループは、キーワードの n文字全てが一致するまで行な われる。  [0061] In this way, the same steps are performed for the second and subsequent characters of the keyword, and it is determined whether the keyword word (or phrase or sentence) is included in the text at the playback planned position (S4;! To S45). ). That is, for the determination after the second character of the keyword, the voice information file at the scheduled start position is also reproduced (S42), and this is converted to text (S43). Then, it is determined whether the converted text matches the nth character (n = 3, 4, ···) of the keyword (S44). This loop of steps S4;! To S45 is repeated until all n characters of the keyword match.

[0062] そして、検索結果リストの該当コンテンツデータの開始時間位置と、前記変数に確 認した時間と、を計算する(S46)。例えば、図 3の場合において、キーワード「インタ 一ネット」の再生開始位置がコンテンツの最初から 35秒後である場合には、 35秒から 所定時間である 1秒を減じた 34秒の位置を計算する。  [0062] Then, the start time position of the corresponding content data in the search result list and the time confirmed in the variable are calculated (S46). For example, in the case of Figure 3, if the playback start position of the keyword “Internet” is 35 seconds after the beginning of the content, the position of 34 seconds is calculated by subtracting the predetermined time of 1 second from 35 seconds. To do.

[0063] このようにしてステップ S46で計算された再生開始位置をセット(指定)して(S47)、 所定の音声情報ファイルの再生指定位置から再生する(S48)。  In this way, the reproduction start position calculated in step S46 is set (designated) (S47), and reproduction is performed from the reproduction designated position of the predetermined audio information file (S48).

[0064] なお、ステップ S33で前記精度向上モードを選択しなかった場合には、検索処理で 得られた結果リストから該当するコンテンツデータの開始時間位置をそのまま取得し て(S10b)、当該開始時間位置からそのまま再生する(S47)。例えば、図 3のコンテ ンッデータ「ホームページ作成」にお!/、てキーワード「ホームページ」で検索した場合 であれば、前記キーワードが含まれるレコード ID「4」の最初の再生開始位置(即ち、 コンテンツの最初から 30秒の位置)から再生される。 [0064] If the accuracy improvement mode is not selected in step S33, the start time position of the corresponding content data is directly acquired from the result list obtained by the search process. (S10b), the playback is started from the start time position (S47). For example, if the content data “Homepage creation” in FIG. 3 is searched with the keyword “Homepage” and then the keyword “Homepage” is searched, the first playback start position of the record ID “4” containing the keyword (ie, the content Playback starts from 30 seconds from the beginning).

[0065] 即ち、本発明において、精度向上モードを設けることで、適宜精度向上モードを「 有効」にしたり「無効」にしたり選択することができる。精度向上モードを機能させる場 合には、精度向上モードを「有効」に設定する。これにより、検索対象のレコードのタ ィムスタンプから再生を行い、キーワードと一致する場所を特定する。そして、一致す るまでの時間とタイムスタンプの時間と、を合計した時間をユーザーに対する再生開 始位置とする。 That is, in the present invention, by providing the accuracy improvement mode, the accuracy improvement mode can be appropriately set to “valid” or “invalid”. To enable the accuracy improvement mode, set the accuracy improvement mode to “Enable”. As a result, playback is performed from the time stamp of the record to be searched, and the location matching the keyword is specified. Then, the total time of the time until matching and the time of the time stamp is set as the playback start position for the user.

[0066] また、精度向上モードを機能させたくない場合には、精度向上モードを「無効」に設 定する。これにより、検索対象のレコードのタイムスタンプから(即ち、検索対象のレコ ード IDの頭から)再生することになる。  [0066] If the accuracy improvement mode is not desired to function, the accuracy improvement mode is set to "invalid". As a result, playback starts from the time stamp of the record to be searched (that is, from the beginning of the record ID to be searched).

[0067] 図 7は、本発明に係る音声情報検索プログラムの第 2実施形態におけるデータべ一 スを登録する際の手順を示すフロー図である。この第 2実施形態では、本発明におけ る音声情報ファイルを所定文字数に基づいてデータベースに登録する。以下、本発 明の第 1実施形態との相違点を中心に説明する。  FIG. 7 is a flowchart showing a procedure for registering a database in the second embodiment of the speech information search program according to the present invention. In the second embodiment, the audio information file according to the present invention is registered in a database based on a predetermined number of characters. The following description will focus on differences from the first embodiment of the present invention.

[0068] まず、音声ファイルのファイル情報を入力し(S1)、音声ファイルをテキスト変換する  [0068] First, file information of an audio file is input (S1), and the audio file is converted to text.

(S 6)までの手順は図 2と同様である。このようにしてテキスト変換された音声情報ファ ィルの文字数が、所定文字数(図 7では、 n文字数)より多いか少ないかを判断する( S7— 2)。  The procedure up to (S6) is the same as in FIG. It is determined whether the number of characters in the voice information file converted into text in this way is larger or smaller than a predetermined number of characters (n in FIG. 7) (S7-2).

[0069] その結果、 n文字数より少な!/、と判断された場合には、前記音声情報ファイルのテ キスト情報がデータベースに登録される(S8a)。即ち、ステップ S8aで処理される音 声情報ファイルは、再生時間が所持文字数 n文字数以下の短!/、テキストからなる音 声情報ファイルである。  [0069] As a result, when it is determined that there are fewer than n characters! /, The text information of the voice information file is registered in the database (S8a). That is, the audio information file processed in step S8a is an audio information file composed of short // text with a reproduction time of n characters or less.

[0070] ステップ S7— 2での判断の結果、 n文字数よりも長いと判断された場合には、音声 情報ファイルの最初の n文字数の再生部分を区切って、区切られた音声情報フアイ ルのテキスト情報をデータベースに登録する(S8b)。そして、切り取られた音声情報 ファイルの残りの部分については、再度ステップ S7— 2で n文字数よりも長いテキスト であるか否かを判断され、最終的に、音声情報ファイルが n文字数単位で区切られる 。即ち、ステップ S8bで処理される音声情報ファイルは、再生情報のテキスト数が所 定文字数 (n文字)よりも長!/、音声情報ファイルである。 [0070] If it is determined in step S7-2 that the number of characters is longer than n, the first n number of playback parts of the audio information file are separated, and the audio information file text is delimited. Information is registered in the database (S8b). And the cut audio information For the rest of the file, it is determined again in step S7-2 whether the text is longer than n characters. Finally, the audio information file is divided in units of n characters. That is, the audio information file processed in step S8b is an audio information file in which the number of texts in the reproduction information is longer than the predetermined number of characters (n characters).

[0071] 即ち、本発明において、再生された音声情報がテキスト変換されてデータベースに 保存されるが、その際に、所定文字数 (n文字数)の繰り返し単位でタイムスタンプを 押すことで、各ユニット単位に区切って記録される。また、音声情報が前記所定文字 数 (n文字数)以下の短い情報量である場合には、分割されることなくタイムスタンプを 押してそのまま記録される。  That is, in the present invention, the reproduced audio information is converted into text and stored in the database. At this time, by pressing a time stamp with a predetermined number of characters (n characters), each unit unit It is recorded separated by. If the audio information has a short amount of information equal to or less than the predetermined number of characters (n characters), the time stamp is pressed and recorded as it is without being divided.

[0072] このように、音声情報を所定文字数で区切ることで、音声情報中の無声部分や音 楽のみの部分等をカットできる。即ち、無音状態の部分等についてはレコードが作成 されないため、データの肥大化を防止できる。従って、長時間のファイルであっても最 小限のデータ容量でテキストデータ(音声情報がテキスト変換されたデータ)を格納 すること力 Sできる。この方法は、音楽や映画あるいはミュージカル等のような歌詞や台 詞以外の部分を多く含む長時間の音声ファイルを対象とする場合に特に有効である [0072] As described above, by dividing the audio information by a predetermined number of characters, it is possible to cut the unvoiced part, the music-only part, etc. in the audio information. In other words, since no records are created for silent parts, data enlargement can be prevented. Therefore, even for long-time files, it is possible to store text data (data obtained by converting voice information into text) with a minimum data capacity. This method is particularly effective for long-time audio files that contain many parts other than lyrics and lines, such as music, movies, and musicals.

Yes

[0073] そして、音声情報ファイルをデータベースに登録した後の、検索処理や検索結果の 出力処理等については本発明に係る第 1実施形態と同様の手順で行なうことができ る(図 5、図 6等参照)。  [0073] Then, after the audio information file is registered in the database, search processing, search result output processing, and the like can be performed in the same procedure as in the first embodiment of the present invention (Figs. 5 and 5). (Refer to 6).

[0074] 図 8は、本発明に係る音声情報検索プログラムの第 3実施形態におけるデータべ一 スを登録する際の手順を示すフロー図である。この第 3実施形態では、本発明におけ る音声情報ファイルを所定単語数に基づいてデータベースに登録する。以下、本発 明の第 1実施形態、第 2実施形態との相違点を中心に説明する。  [0074] FIG. 8 is a flowchart showing a procedure for registering a database in the third embodiment of the speech information search program according to the present invention. In the third embodiment, the audio information file according to the present invention is registered in the database based on the predetermined number of words. The following description will focus on differences from the first embodiment and the second embodiment of the present invention.

[0075] まず、音声情報ファイルのファイル情報を入力し(S1)、音声情報ファイルをテキスト 変換する(S6)までの手順は図 2,図 7と同様である。このようにしてテキスト変換され た音声情報ファイルについて文節又は単語を単位として区切っていく処理を行う(S7 3)。  [0075] First, the procedure from inputting the file information of the audio information file (S1) to text conversion of the audio information file (S6) is the same as in Figs. The voice information file converted into text in this way is divided into phrases or words as a unit (S73).

[0076] 即ち、本実施形態では、テキストを所定の文節単位あるいは単語単位で区切って いくものであり、その区切る単位は、文節単位でもよいし、単語単位でもよぐ適宜選 択すること力 Sできる。そして、本発明では、前記文節単位や単語単位を認識する方法 については特に限定されず、適宜好適な方法を用いることができる。また、区切る単 位についても特に限定されず、例えば、図示はしないが所定の文節単位ほたは単 語単位)を n文節数ほたは n単語数)と設定すること力 Sでき、前記区切る単位を短くす れば検索精度は高くなり、長くすれば検索速度を速くすることができ、これらを考慮し て適宜好適な単位を決定できる。 That is, in this embodiment, the text is divided into predetermined phrase units or word units. The delimiter unit may be a phrase unit or a word unit, and can be selected as appropriate. In the present invention, the method for recognizing the phrase unit or the word unit is not particularly limited, and a suitable method can be used as appropriate. Also, the unit to be divided is not particularly limited. For example, although it is not shown, a predetermined phrase unit or word unit) can be set as n clause number or n word number). If the unit is shortened, the search accuracy is improved, and if the unit is lengthened, the search speed can be increased. A suitable unit can be appropriately determined in consideration of these factors.

[0077] その結果、テキスト変換された音声情報ファイルの文節数ほたは単語数)力 前記 所定 n文節数 (または n単語数)以下の場合には、再生終了とともにデータベースに 登録されて処理が終了する(S8a)。即ち、ステップ S8aで処理される音声情報フアイ ノレは、再生時間が所持文節数 n (所定単語数 n)以下の短レ、テキストからなる音声情 報ファイルである。 [0077] As a result, if the number of phrases or the number of words of the voice information file subjected to text conversion is less than the predetermined number of n phrases (or n words), it is registered in the database at the end of playback and processed. The process ends (S8a). That is, the voice information file processed in step S8a is a voice information file consisting of short text and text whose playback time is less than the number of possessed phrases n (predetermined number of words n).

[0078] ステップ S7— 3での判断の結果、 n文節数 (n単語数)よりも長いと判断された場合 には、音声情報ファイルの最初の n文節数 (n単語数)の再生部分を区切って、区切 られた音声情報ファイルのテキスト情報をデータベースに登録する(S8b)。そして、 切り取られた音声情報ファイルの残りの部分については、再度ステップ S 7— 3で n文 節 (n単語数)よりも長いテキストであるか否力、を判断され、最終的に、音声情報フアイ ノレが n文節数 (n単語数)単位で区切られる。即ち、ステップ S8bで処理される音声情 報ファイルは、再生情報のテキスト数が所定文節数 (所定単語数)よりも長い音声情 報ファイルである。  [0078] If it is determined in step S7-3 that it is longer than n clauses (n words), the playback portion of the first n clauses (n words) of the audio information file is selected. Divide and register the text information of the separated audio information file in the database (S8b). Then, the remaining portion of the cut audio information file is determined again in step S 7-3 whether or not the text is longer than n clauses (n words). Finale is separated by n clauses (n words). That is, the audio information file processed in step S8b is an audio information file in which the number of texts of the reproduction information is longer than the predetermined number of phrases (predetermined number of words).

[0079] 図 9は、同第 3実施形態におけるデータベースについて検索処理する際のフロー 図である。即ち、図 9は、図 8で登録されたデータベースについて検索処理するフロ 一図である。以下、前記音声情報ファイルを所定時間に基づいてデータベースに登 録する場合(図 6等参照)との相違点について説明する。  [0079] FIG. 9 is a flowchart for performing a search process for a database according to the third embodiment. That is, FIG. 9 is a flowchart for performing a search process for the database registered in FIG. The difference from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 6 etc.) will be described below.

[0080] まず、検索条件を入力し(S9)コンテンツ基本情報テーブルからカテゴリ '言語等の 所定の条件からデータを抽出する手順(S 10, S 11)までは、本発明の第 1実施形態 、第 2実施形態と同様である。  [0080] First, the search condition is input (S9) until the procedure (S10, S11) for extracting data from the content basic information table from a predetermined condition such as category 'language', the first embodiment of the present invention, The same as in the second embodiment.

[0081] そして、ステップ S 11において抽出件数力 件以上ある場合には、該当データのコ ンテンッ IDからコンテンツデータテーブルのテキスト内のキーワードを検索する(S49 a) D即ち、コンテンツ IDに対して更に検索をかけていくステップである。 [0081] Then, if there are more than the number of extracted cases in step S11, the corresponding data is copied. A keyword in the text of the content data table is searched from the content ID (S49 a) D, that is, a step of further searching the content ID.

[0082] また、ステップ S 11の検索結果において抽出件数 0件の場合には、「該当なし」の表 示をして検索は終了する(S49b)。  [0082] If the number of extractions in the search result of step S11 is 0, "N / A" is displayed and the search is terminated (S49b).

[0083] ステップ S49aにおいてキーワード検索を行なった結果の抽出件数が 1件以上あつ た場合には、引き続き、該当件数分をループ検索する(S51a〜S57)。また、ステツ プ S49aにおいて、前記抽出件数が 0件であった場合には、「該当なし」の表示をして 検索は終了する(S49b)。  [0083] If there is one or more extraction results as a result of keyword search in step S49a, a loop search is performed for the corresponding number (S51a to S57). In step S49a, if the number of extractions is 0, “N / A” is displayed and the search ends (S49b).

[0084] 抽出件数 1件以上あった場合には、以下のループ検索を行なう(S51a〜S57)。ま ず、コンテンツ IDとレコード ID「n」を結果リストに追加する。即ち、このステップにより、 該当する音声箇所が含まれるレコード IDを特定する。更に前記結果リストから該当コ ンテンッ IDとコンテンツ基本情報テーブルの同項目がー致するデータを取得する(S 53)。続いて、取得した前記データを表示用データに変換する(S 54)。例えば、ユー ザ一の端末機器に一覧表示して、リンクが張られた箇所をクリック等することで、その まま該当箇所の再生を行なうことができる表示用データであってもよい。  [0084] When the number of extractions is one or more, the following loop search is performed (S51a to S57). First, the content ID and record ID “n” are added to the result list. In other words, this step identifies the record ID that includes the corresponding audio part. Further, the data corresponding to the same item in the content ID and the content basic information table is acquired from the result list (S53). Subsequently, the acquired data is converted into display data (S54). For example, it may be display data that can be displayed in a list on the user's terminal device and the corresponding part can be reproduced as it is by clicking on the linked part.

[0085] 前記一連のステップ(S52〜S56)を該当する件数について全て行なうループ検索 を行なう(S 57)。  [0085] A loop search is performed (S57) in which the series of steps (S52 to S56) are all performed for the corresponding number of cases.

[0086] このように、本発明に係る第 3実施形態のように、文節数や単語数に基づいて音声 情報を区切ることで、隣接するレコード ID「n」とレコード ID「n+ 1」とを結合して検索 する処理 (例えば、図 5の S15〜S25等参照)等を行なわなくても精度の高い音声情 報検索を行なうことができる。即ち、あらかじめ意味をなす文節単位あるいは単語単 位でデータベースに登録するため、レコード IDの末尾が尻切れになって登録される 状態(例えば、図 4のコンテンツ ID「1」のレコード ID「2」等参照)を防止することがで きる。  Thus, as in the third embodiment according to the present invention, by separating audio information based on the number of phrases and the number of words, adjacent record IDs “n” and record IDs “n + 1” are obtained. High-accuracy voice information retrieval can be performed without performing a process of combining and retrieving (for example, see S15 to S25 in FIG. 5). In other words, since it is registered in the database in terms of phrases or words that make sense in advance, the record ID ends in a truncated state (for example, the record ID “2” in the content ID “1” in FIG. 4). Reference) can be prevented.

[0087] このように本実施例のように文節数ほたは単語数)に基づいて登録 ·処理を行うこと で、音声ファイル中の無声部分等の箇所を省いてデータベースに登録できる点や、 テキストデータのレコード IDを結合して検索する必要もな!/、点等から、サーバへの負 担をより軽減できるともに、より高速の検索が可能になる。 [0088] 図 10は、同第 3実施形態における検出結果を出力する際のフロー図である。即ち、 図 10は、図 9で検索処理された検索結果を出力するフロー図である。以下、前記音 声情報ファイルを所定時間に基づいてデータベースに登録する場合(図 7等参照)と の相違点について説明する。 [0087] In this way, by performing registration and processing based on the number of phrases or the number of words as in this embodiment, it is possible to register in the database by omitting parts such as unvoiced parts in the audio file, It is not necessary to search by combining record IDs of text data! /, Etc., so that the burden on the server can be reduced and higher speed search is possible. FIG. 10 is a flowchart for outputting the detection result in the third embodiment. That is, FIG. 10 is a flowchart for outputting the search result obtained by the search process in FIG. The difference from the case where the audio information file is registered in the database based on a predetermined time (see FIG. 7 etc.) will be described below.

[0089] 図 9で行なった検索処理で得られた結果リストから該当コンテンツデータの開始時 間位置を取得する(S58)。続いて、前記コンテンツデータの開始時間をセットする(S 59)。そして、セットされた開始時間から再生を行なう(S60)。  [0089] The start time position of the corresponding content data is acquired from the result list obtained by the search processing performed in FIG. 9 (S58). Subsequently, the start time of the content data is set (S59). Then, playback is performed from the set start time (S60).

[0090] 本実施形態のように文節数ほたは単語数)に基づいて登録 ·処理を行うことで、文 節単位ほたは単語単位)でデータ登録することができるため、本発明に係る第 1実 施形態や第 2実施形態のように検索時に精度向上モード(図 6の S33等参照)を設定 •選択する必要がない。従って、より早い検索処理が可能であり、かつサーバへの負 担もより軽減でき、かつ精度向上モードと同様の高い検索精度での検索が可能であ る。更に、幅広い種類の音声情報ファイル (例えば、動画ファイル)にも対応可能であ り、サーバへの負担も少ないため、より大容量のデータを幅広く极うこともできる。  [0090] Since registration and processing are performed based on the number of phrases or the number of words) as in this embodiment, data can be registered on a phrase basis or word basis. There is no need to set or select the accuracy improvement mode (see S33 in Fig. 6) during search as in the first and second embodiments. Therefore, faster search processing can be performed, the burden on the server can be reduced, and a search with high search accuracy similar to the accuracy improvement mode can be performed. Furthermore, it can handle a wide variety of audio information files (for example, moving image files), and the burden on the server is small, so a larger amount of data can be widely used.

[0091] 以上のように、本発明において、音声情報ファイルをテキスト変換する際に所定時 間単位で区切ってもよ!/、し(図 2等参照)、所定文字数で区切ってもよ!/、し(図 7等参 照)、所定文節数や単語数で区切ってもよい(図 8等参照)。これらは、音声情報ファ ィルをテキスト変換する際の処理能力や、前記テキスト変換されたファイルを文字とし て認識できるか、文節や単語として認識できるか等の処理能力を考慮して、適宜、選 択すること力 Sでさる。  [0091] As described above, in the present invention, when converting an audio information file into text, it may be divided by a predetermined time unit! / (See FIG. 2 etc.) or may be divided by a predetermined number of characters! / (See Fig. 7 etc.) and may be separated by the number of specified phrases or words (see Fig. 8 etc.). These are appropriately determined in consideration of the processing capability when converting the voice information file to text and the processing capability such as whether the text-converted file can be recognized as a character, a phrase or a word, etc. Select with power S.

[0092] このように、本発明では、音声情報ファイルを一定単位のテキストデータとしてデー タベースに登録すること等によって、高い検索速度でありながらサーバへの負担が少 なぐ高い精度の音声情報検索を行なうことができる。従って、本発明は種々のデー タベースにも幅広ぐかつ簡易に使用できる。  [0092] Thus, in the present invention, high-accuracy voice information retrieval with a high search speed and a low burden on the server is achieved by registering a voice information file as text data in a certain unit in the database. Can be done. Therefore, the present invention can be used widely and easily for various databases.

[0093] 図 11は、本発明に係る音声情報検索システムの一例を説明するための概念図で ある。  FIG. 11 is a conceptual diagram for explaining an example of the speech information retrieval system according to the present invention.

[0094] 本発明に係る音声情報検索システムは、テキスト変換サーバ 8と、データベースサ ーバ 9と、 Webサーバ 10と、音声情報ファイル格納サーバ 11と、管理サーバ 12とが 、ネットワーク 13で接続されたシステムである。 The speech information retrieval system according to the present invention includes a text conversion server 8, a database server 9, a web server 10, a speech information file storage server 11, and a management server 12. The system connected by the network 13.

[0095] テキスト変換サーバ 8は、音声情報ファイルをテキスト変換するとともに、コンテンツ 情報ファイルを作成し、データベースに登録するサーバである。データベースサーバ 9は、前記テキスト変換された情報ファイル 91と、前記コンテンツ情報ファイル 92と、 を格納するサーバである。 Webサーバ 10は、ユーザーの端末 101と接続され、ユー ザ一の端末 101から入力される検索条件や、その検索結果の表示 ·出力する機能を 発揮するサーバである。音声情報ファイル格納サーバ 11は、音声情報ファイル (動 画情報ファイルを含む。) 111を格納するサーバである。管理サーバ 12は、各サーバ やネットワーク 13等のシステムの障害を管理するサーバである。  The text conversion server 8 is a server that converts a voice information file into text, creates a content information file, and registers it in a database. The database server 9 is a server that stores the text-converted information file 91 and the content information file 92. The Web server 10 is a server that is connected to the user's terminal 101 and exhibits a search condition input from the user's terminal 101 and a function for displaying and outputting the search result. The audio information file storage server 11 is a server that stores an audio information file (including a video information file) 111. The management server 12 is a server that manages system failures such as each server and the network 13.

[0096] また、このようなシステムにおいても、必要に応じ、前述した精度向上モードを機能 させること力 Sできる。精度向上モードを機能させる場合には、精度向上モードを「有効 」に設定する(図 6等参照)。これにより、検索対象のレコードのタイムスタンプから再 生を行い、キーワードと一致する場所を特定する。そして、一致するまでの時間とタイ ムスタンプの時間と、を合計した時間をユーザーに対する再生開始位置とする。  [0096] Also in such a system, the above-described accuracy improvement mode can be operated as required. If the accuracy improvement mode is to function, set the accuracy improvement mode to “valid” (see Figure 6). As a result, playback is performed from the time stamp of the record to be searched, and the location that matches the keyword is specified. Then, the sum of the time until matching and the time of the time stamp is set as the playback start position for the user.

[0097] また、精度向上モードを機能させたくない場合には、精度向上モードを「無効」に設 定する。これにより、検索対象のレコードのタイムスタンプから(即ち、検索対象のレコ ードの頭から)再生する。  [0097] If the accuracy improvement mode is not desired to function, the accuracy improvement mode is set to "invalid". As a result, playback starts from the time stamp of the record to be searched (that is, from the beginning of the record to be searched).

[0098] そして、本発明では、適宜、設定を調整すること等によって、検索所要時間を短縮 させたり、検索精度を向上させたりすることで、データベースの能力を調整することが できる。例えば、前記精度向上モードを有効に設定することで、音声情報の検索精 度が向上し、ユーザーが所望するキーワードが出力される(発声される)位置を検出 でき、より正確な再生開始位置を検索できる。一方、前記精度向上モードを無効に設 定することで、精度向上モードのステップが不要であるため検索所要時間を短縮でき 、かつ検索システムのサーバ等への負担も軽減できる。即ち、本発明では、検索対 象の情報ファイルの種類や情報量、あるレ、は使用するハードウェア環境等を考慮し て、適宜、検索システムを構築することが可能となる。  In the present invention, the database capability can be adjusted by shortening the time required for search or improving the search accuracy by adjusting settings as appropriate. For example, when the accuracy improvement mode is set to be effective, the search accuracy of voice information is improved, and a position where a user's desired keyword is output (spoken) can be detected, and a more accurate reproduction start position can be determined. Searchable. On the other hand, by disabling the accuracy improvement mode, the time required for the search can be shortened because the step of the accuracy improvement mode is unnecessary, and the load on the server of the search system can be reduced. That is, according to the present invention, it is possible to appropriately construct a search system in consideration of the type and amount of information file to be searched, a certain hardware environment, and the hardware environment to be used.

[0099] 更に、本発明において用いられるデータベースに記録される情報は音声情報ファ ィル(あるいは動画情報ファイル)に限定されず、例えば、テキスト情報ファイルも記録 することもできる。そして、本発明では、音声情報をテキスト変換してデータベース登 録するため、音声情報ファイルだけでなくテキスト情報ファイルも同時に検索対象と すること力 Sできる。即ち、本発明において、音声情報ファイルだけでなくテキスト情報 ファイルも登録しておくことで、 1回の検索を実行することで、音声情報ファイル (ある いは動画情報ファイル)とテキスト情報ファイルを同時に検索することができる。 Furthermore, the information recorded in the database used in the present invention is not limited to the audio information file (or moving image information file), and for example, a text information file is also recorded. You can also In the present invention, since voice information is converted into text and registered in the database, not only the voice information file but also the text information file can be simultaneously searched. That is, in the present invention, by registering not only the audio information file but also the text information file, the audio information file (or moving picture information file) and the text information file can be simultaneously stored by executing one search. You can search.

[0100] また、本発明において、別途、検索実行前に検索対象を指定するステップ等を別 途設けても良い。これにより、音声情報ファイルのみの検索、あるいはテキスト情報フ アイルのみの検索等のようにユーザーの使用目的や使用環境等を考慮して、適宜、 選択できる。  [0100] Further, in the present invention, a step of designating a search target before the search execution may be separately provided. As a result, it is possible to make an appropriate selection in consideration of the user's purpose of use, usage environment, etc., such as a search for only audio information files or a search for only text information files.

[0101] そして、本発明では、検索処理を行う際に、複数のコンテンツを同時に検索するで きる機能を設けても良い。複数のコンテンツに対して同時検索を行うことで、検索処 理の所要時間を短縮することができる。この場合には、本発明で使用するコンビユー タゃサーバ等の処理能力等を考慮して、この機能を設けるか適宜決定できる。 産業上の利用可能性  [0101] In the present invention, a function may be provided in which a plurality of contents can be searched simultaneously when performing a search process. By performing simultaneous search for multiple contents, the time required for search processing can be reduced. In this case, it is possible to appropriately determine whether to provide this function in consideration of the processing capacity of the computer or the like used in the present invention. Industrial applicability

[0102] 本発明に係る音声情報検索プログラムは、種々の音声情報ファイルの管理、集計、 検索に用いることができ、特に、情報量の多い音声情報ファイルを管理するマルチメ ディア関連のデータベースや、膨大な情報ファイル数を検索対象とするインターネッ ト上の検索エンジン等に組み込んだりして利用できる。  [0102] The voice information search program according to the present invention can be used for management, tabulation, and search of various voice information files. In particular, a multimedia-related database for managing a voice information file with a large amount of information, It can be used by incorporating a large number of information files into a search engine on the Internet that is the search target.

図面の簡単な説明  Brief Description of Drawings

[0103] [図 1]本発明に係る音声情報検索プログラムを説明するための概念図である。  FIG. 1 is a conceptual diagram for explaining a speech information retrieval program according to the present invention.

[図 2]本発明に係る音声情報プログラムの第 1実施形態におけるデータベースを登録 する際のフロー図である。  FIG. 2 is a flowchart for registering a database in the first embodiment of the audio information program according to the present invention.

[図 3]同第 1実施形態において、データベースに登録された音声情報ファイルの基本 情報テーブルを説明する概念図である。  FIG. 3 is a conceptual diagram illustrating a basic information table of audio information files registered in a database in the first embodiment.

[図 4]同第 1実施形態において、データベースに登録された音声情報ファイルのコン テンッデータを説明する概念図である。  FIG. 4 is a conceptual diagram illustrating content data of a voice information file registered in a database in the first embodiment.

[図 5]同第 1実施形態におけるデータベースについて検索処理する際のフロー図で ある。 [図 6]同第 1実施形態における検出結果を出力する際のフロー図である。 FIG. 5 is a flowchart when a search process is performed for a database in the first embodiment. FIG. 6 is a flowchart for outputting a detection result in the first embodiment.

[図 7]本発明に係る音声情報プログラムの第 2実施形態におけるデータベースを登録 する際のフロー図である。  FIG. 7 is a flowchart for registering a database in the second embodiment of the audio information program according to the present invention.

[図 8]本発明に係る音声情報プログラムの第 3実施形態におけるデータベースを登録 する際のフロー図である。  FIG. 8 is a flowchart for registering a database in the third embodiment of the audio information program according to the present invention.

[図 9]同第 3実施形態におけるデータベースについて検索処理する際のフロー図で ある。  FIG. 9 is a flowchart when a search process is performed for a database in the third embodiment.

[図 10]同第 3実施形態における検出結果を出力する際のフロー図である。  FIG. 10 is a flowchart for outputting a detection result in the third embodiment.

[図 11]本発明に係る音声情報検索システムの一例を説明するための概念図である。 符号の説明 FIG. 11 is a conceptual diagram for explaining an example of a speech information retrieval system according to the present invention. Explanation of symbols

1 音声情報ファイルのテキスト変換機能  1 Text conversion function for audio information files

2 音声情報ファイルの再生時間測定機能  2 Audio information file playback time measurement function

3 データベースへの登録機能  3 Database registration function

4 検索条件決定機能  4 Search condition determination function

5 検索処理機能  5 Search processing function

6 検索結果出力機能  6 Search result output function

7 データベース  7 Database

8 テキスト変換サーバ  8 Text conversion server

9 データベースサーノ  9 Database Sano

10 Webサーバ  10 Web server

11 音声情報ファイル格納サーバ  11 Audio information file storage server

12 管理サーバ  12 Management server

13 ネットワーク  13 network

Claims

請求の範囲 [1] 音声情報に記録された音声素子を文字列に変換するステップと、 前記音声情報の再生時間を測定するステップと、 音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字 歹 IJを所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定 時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベース に登録するステップと、 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件と、を決定するステップと、 前記検索条件に従って、前記データベースに対して検索を実行するステップと、 前記検索の結果を出力するステップと、 を少なくともコンピュータに実行させる音声情報検索プログラム。 [2] 音声情報に記録された音声素子を文字列に変換するステップと、 前記音声情報の文字数を計測するステップと、 前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文 字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所 定文字数以下である場合には、前記文字列を区切らずにデータベースに登録するス 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件と、を決定するステップと、 前記検索条件に従って、前記データベースに対して検索を実行するステップと、 前記検索の結果を出力するステップと、 を少なくともコンピュータに実行させる音声情報検索プログラム。 [3] 前記データベースに対して検索を実行するために、少なくとも以下のステップをコン ピュータに実行させることを特徴とする請求の範囲第 1項又は第 2項に記載の音声情 報検索プログラム。 Claims [1] The step of converting the voice element recorded in the voice information into a character string, the step of measuring the playback time of the voice information, and the playback time of the voice information being longer than a predetermined time, The character 歹 IJ of the voice information is registered in the database by dividing it every predetermined time, and if the reproduction time of the voice information is less than the predetermined time, it is registered in the database without dividing the character string of the voice information. Determining a search item for searching the database and a search condition for the search item; executing a search for the database according to the search condition; and A voice information retrieval program that causes at least a computer to execute a result output step; [2] converting a voice element recorded in voice information into a character string; measuring a number of characters in the voice information; and if the number of characters in the character string is greater than a predetermined number of characters, the character string is If the number of characters in the character string is equal to or less than the predetermined number of characters, register the characters in the database without dividing the character string. A search item for performing the search, a search condition for the search item, executing a search for the database according to the search condition, and outputting a result of the search at least A voice information retrieval program to be executed by a computer. [3] The audio information search program according to claim 1 or 2, wherein the computer is caused to execute at least the following steps in order to execute a search on the database. (1)区切られた音声情報のうち、連続する前後 2つの音声情報を結合するステップ、 (1) A step of combining two pieces of audio information before and after the divided audio information, (2)前記結合された 2つの音声情報の文字列のなかに、検索条件で指定した文字が 含まれるか判断するステップ、 (2) The character specified by the search condition in the combined two voice information character strings Determining whether it is included, (3)前記区切られた 2つの音声情報のそれぞれの文字列のなかに、各音声情報の文 字列に検索条件で指定した文字が含まれるか判断するステップ。  (3) A step of determining whether the character string specified by the search condition is included in the character string of each voice information in the character strings of the two separated voice information. [4] 前記検索の結果を出力するために、少なくとも以下のステップをコンピュータに実 行させることを特徴とする請求の範囲第 1項〜第 3項のいずれか一項記載の音声情 報検索プログラム。 [4] The speech information search program according to any one of claims 1 to 3, wherein the computer executes at least the following steps in order to output the search result. . (a)検索条件で指定した文字に対応する音声素子が記録されて!/、る音声情報の記 録時間位置を指定するステップ、  (a) The step of designating the recording time position of the voice information corresponding to the character specified in the search condition is recorded! / (b)前記指定された記録時間位置よりも、所定時間だけ前にさかのぼった記録時間 位置を再生開始位置として指定するステップ、  (b) a step of designating a recording time position retroactive by a predetermined time before the designated recording time position as a reproduction start position; (c)前記指定された再生開始位置力 音声再生するステップ。  (c) The step of reproducing the designated reproduction starting position force voice. [5] 請求の範囲第 1項〜第 4項のいずれか一項記載の音声情報検索プログラムが記録 されたコンピュータ読取可能な記録媒体。  [5] A computer-readable recording medium on which the speech information retrieval program according to any one of claims 1 to 4 is recorded. [6] 音声情報に記録された音声素子を文字列に変換する手段と、 [6] means for converting a voice element recorded in voice information into a character string; 前記音声情報の再生時間の測定手段と、  Means for measuring the playback time of the audio information; 音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字 歹 IJを所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定 時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベース に登録する手段と、  If the playback time of the voice information is longer than the predetermined time, register the character 歹 IJ of the voice information in a database divided every predetermined time, and if the playback time of the voice information is less than the predetermined time, Means for registering in the database without dividing the character string of the voice information; 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件の決定手段と、  A search item for searching the database, a search condition determining means for the search item, 前記検索条件に従って、前記データベースに対して検索を実行する手段と、 前記検索の結果の出力手段と、  Means for executing a search on the database in accordance with the search condition; and means for outputting the search result; を少なくとも備えた音声情報検索システム。  Voice information retrieval system comprising at least [7] 音声情報に記録された音声素子を文字列に変換する手段と、 [7] means for converting a voice element recorded in voice information into a character string; 前記音声情報の文字数の計測手段と、  A means for measuring the number of characters of the voice information; 前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文 字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所 定文字数以下である場合には、前記文字列を区切らずにデータベースに登録する 手段と、 If the number of characters in the character string is larger than the predetermined number of characters, the characters constituting the character string are divided into predetermined characters and registered in the database, and the number of characters in the character string is determined. If the number of characters is less than or equal to the number of characters, means for registering the character string in the database without dividing 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件と、を決定する手段と、  Means for determining a search item for searching the database and a search condition for the search item; 前記検索条件に従って、前記データベースに対して検索を実行する手段と、 前記検索の結果を出力する手段と、  Means for performing a search on the database in accordance with the search condition; means for outputting a result of the search; を少なくとも備えた音声情報検索システム。  Voice information retrieval system comprising at least [8] 音声情報に記録された音声素子を文字列に変換する手順と、 [8] A procedure for converting a voice element recorded in voice information into a character string, 前記音声情報の再生時間を測定する手順と、  Measuring the playback time of the audio information; 音声情報の再生時間が所定時間よりも長い場合には、前記音声情報の前記文字 歹 IJを所定時間ごとに区切ってデータベースに登録し、音声情報の再生時間が所定 時間以下である場合には、前記音声情報の前記文字列を区切らずにデータベース に登録する手順と、  If the playback time of the voice information is longer than the predetermined time, register the character 歹 IJ of the voice information in a database divided every predetermined time, and if the playback time of the voice information is less than the predetermined time, Registering the voice information in the database without dividing the character string; 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件と、を決定する手順と、  A procedure for determining a search item for searching the database and a search condition for the search item; 前記検索条件に従って、前記データベースに対して検索を実行する手順と、 前記検索の結果を出力する手順と、  A procedure for performing a search on the database according to the search condition; a procedure for outputting a result of the search; を少なくとも備えた音声情報検索方法。  Voice information retrieval method comprising at least [9] 音声情報に記録された音声素子を文字列に変換する手順と、 [9] A procedure for converting a voice element recorded in voice information into a character string; 前記音声情報の文字数を計測する手順と、  A procedure for measuring the number of characters of the voice information; 前記文字列の文字数が所定文字数よりも多い場合には、前記文字列を構成する文 字を所定文字数ごとに区切ってデータベースに登録し、前記文字列の文字数が所 定文字数以下である場合には、前記文字列を区切らずにデータベースに登録する 手順と、  When the number of characters in the character string is larger than the predetermined number of characters, the characters constituting the character string are registered in a database by dividing the character string by the predetermined number of characters, and when the number of characters in the character string is less than the predetermined number of characters , A procedure for registering in the database without separating the character string, 前記データベースに対して検索を行なう検索項目と、該検索項目についての検索 条件と、を決定する手順と、  A procedure for determining a search item for searching the database and a search condition for the search item; 前記検索条件に従って、前記データベースに対して検索を実行する手順と、 前記検索の結果を出力する手順と、 を少なくとも備えた音声情報検索方法。 A procedure for performing a search on the database according to the search condition; a procedure for outputting a result of the search; Voice information retrieval method comprising at least
PCT/JP2007/069655 2006-10-10 2007-10-09 Audio information search program and its recording medium, audio information search system, and audio information search method Ceased WO2008044669A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-277026 2006-10-10
JP2006277026A JP2008097232A (en) 2006-10-10 2006-10-10 Voice information retrieval program, recording medium thereof, voice information retrieval system, and method for retrieving voice information

Publications (1)

Publication Number Publication Date
WO2008044669A1 true WO2008044669A1 (en) 2008-04-17

Family

ID=39282862

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/069655 Ceased WO2008044669A1 (en) 2006-10-10 2007-10-09 Audio information search program and its recording medium, audio information search system, and audio information search method

Country Status (2)

Country Link
JP (1) JP2008097232A (en)
WO (1) WO2008044669A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797632A (en) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 Information processing method and device and electronic equipment

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055259A (en) 2008-08-27 2010-03-11 Konica Minolta Business Technologies Inc Image processing apparatus, image processing program, and image processing method
CN106021249A (en) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 Method and system for voice file retrieval based on content
JP6721981B2 (en) * 2015-12-17 2020-07-15 ソースネクスト株式会社 Audio reproducing device, audio reproducing method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348064A (en) * 1999-04-09 2000-12-15 Internatl Business Mach Corp <Ibm> Method and device for retrieving voice information by using contents information and speaker information
JP2002157112A (en) * 2000-11-20 2002-05-31 Teac Corp Voice information converter
JP2006054517A (en) * 2004-08-09 2006-02-23 Bank Of Tokyo-Mitsubishi Ltd Information presenting apparatus, method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348064A (en) * 1999-04-09 2000-12-15 Internatl Business Mach Corp <Ibm> Method and device for retrieving voice information by using contents information and speaker information
JP2002157112A (en) * 2000-11-20 2002-05-31 Teac Corp Voice information converter
JP2006054517A (en) * 2004-08-09 2006-02-23 Bank Of Tokyo-Mitsubishi Ltd Information presenting apparatus, method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797632A (en) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 Information processing method and device and electronic equipment
CN111797632B (en) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 Information processing method and device and electronic equipment

Also Published As

Publication number Publication date
JP2008097232A (en) 2008-04-24

Similar Documents

Publication Publication Date Title
US11978439B2 (en) Generating topic-specific language models
US7546288B2 (en) Matching media file metadata to standardized metadata
US7310601B2 (en) Speech recognition apparatus and speech recognition method
US8583418B2 (en) Systems and methods of detecting language and natural language strings for text to speech synthesis
US8355919B2 (en) Systems and methods for text normalization for text to speech synthesis
JP5178109B2 (en) Search device, method and program
US20100274667A1 (en) Multimedia access
US20160012047A1 (en) Method and Apparatus for Updating Speech Recognition Databases and Reindexing Audio and Video Content Using the Same
CN101778233B (en) Data processing apparatus, data processing method
JP2008158511A (en) WEB site system for voice data search
US20100318532A1 (en) Unified inverted index for video passage retrieval
US20110029545A1 (en) Syllabic search engines and related methods
US9015172B2 (en) Method and subsystem for searching media content within a content-search service system
US9305119B1 (en) System, apparatus and method for determining correct metadata from community-submitted data
JP3545824B2 (en) Data retrieval device
JP4064902B2 (en) Meta information generation method, meta information generation device, search method, and search device
EP1531405B1 (en) Information search apparatus, information search method, and information recording medium on which information search program is recorded
WO2008044669A1 (en) Audio information search program and its recording medium, audio information search system, and audio information search method
KR102252522B1 (en) Method and system for automatic creating contents list of video based on information
US7949667B2 (en) Information processing apparatus, method, and program
Lindsay et al. Representation and linking mechanisms for audio in MPEG-7
LawTo et al. A scalable video search engine based on audio content indexing and topic segmentation
JP2001195427A (en) Method for automatic extraction of key characteristics of digital document
JP2009239630A (en) Epg data retrieval system and epg data retrieval method
Mazur et al. Music information retrieval on the internet

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07829393

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS (EPO FORM 1205A DATED 24-07-2009)

122 Ep: pct application non-entry in european phase

Ref document number: 07829393

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)