[go: up one dir, main page]

WO2009113266A1 - コンテンツ検索装置及びコンテンツ検索方法 - Google Patents

コンテンツ検索装置及びコンテンツ検索方法 Download PDF

Info

Publication number
WO2009113266A1
WO2009113266A1 PCT/JP2009/000926 JP2009000926W WO2009113266A1 WO 2009113266 A1 WO2009113266 A1 WO 2009113266A1 JP 2009000926 W JP2009000926 W JP 2009000926W WO 2009113266 A1 WO2009113266 A1 WO 2009113266A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
keyword
keywords
section
database
Prior art date
Application number
PCT/JP2009/000926
Other languages
English (en)
French (fr)
Inventor
高田和豊
續木貴史
松浦聰
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to US12/672,085 priority Critical patent/US8073851B2/en
Priority to JP2009528429A priority patent/JP4388137B2/ja
Priority to CN2009801012516A priority patent/CN101889281B/zh
Publication of WO2009113266A1 publication Critical patent/WO2009113266A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • Y10S707/914Video

Definitions

  • the present invention relates to a content search apparatus for searching content that a user wants to use from among a large amount of stored content.
  • the related keyword means a word (keyword) related to the word (keyword) specified by the user.
  • the degree of association representing the degree of association between keywords related to each other is calculated based on the number of co-occurrence between keywords, the appearance frequency, and the like.
  • Such a search device updates the association between keywords for presenting related keywords at the same time as updating data in the content database in which the content is stored (see, for example, Patent Document 1). Therefore, this search device presents the related keywords based on the latest content stored in the content database to the user.
  • the related keywords that the user recalls from specific keywords differ from user to user. For example, a user who has watched only a recently broadcast drama in which “Actor A” has appeared recalls “Actress B” who has appeared in that drama as a related keyword. On the other hand, a user who has watched only a broadcast drama one year ago when “Actor A” appeared recalls “Actress C” who appeared in that drama as a related keyword. Thus, when the user's individual knowledge is different, the related keyword that the user recalls for “actor A” can be a different keyword. That is, when the search device presents only related keywords generated based on the latest content, a related keyword that cannot be recalled by some users is presented. As a result, there is a problem that the user cannot select a keyword and cannot narrow down the content.
  • Patent Document 2 a method of classifying all the contents stored in the content database according to a fixed time period.
  • the search device using the method of Patent Literature 2 can construct an association between keywords for each time interval.
  • this search device can present the related keywords generated based on the association of different time intervals to the user for each of a plurality of time intervals.
  • this search device has keywords “actress A” related to “actress B”, which is strongly related to content corresponding to the last year, and “actress C”, which is strongly related to content corresponding to the last year. Can be presented to the user at the same time.
  • the search device presents related keywords in a plurality of time intervals, so that the user can select related keywords that are suitable for his / her knowledge. That is, the user can effectively narrow down the content by repeatedly selecting related keywords.
  • the search device cannot present a relevant keyword that is relevant to the frequency with which the keyword configuration of each attribute changes greatly. For example, in the content of “news genre” where the keyword composition changes greatly, a keyword that is highly relevant to the keyword “topic” is “Parliament” ⁇ “Soccer” ⁇ “Typhoon” during a specific period. Suppose that it changed in order.
  • the conventional search device determines a fixed time such that the specific period is included in one time interval in accordance with the content of the “drama genre” that is less frequently changed in keyword configuration.
  • a keyword having the highest degree of relevance to “topic” is presented as a related keyword from among “National Diet”, “Soccer” and “Typhoon”. That is, there may be a case where “National Diet” or “Soccer” is presented instead of “Typhoon” which is a related keyword most suitable for current topics with respect to “Topic”.
  • the search device determines a fixed time so as to match content with a high frequency of keyword structure change, the search device presents the same related keyword in a plurality of time intervals. For example, when a conventional search device determines a fixed time in accordance with the content of “news genre”, which frequently changes the keyword composition, the search device uses “drama genre”, which does not change the keyword composition significantly. In the content, the same related keyword is presented in a plurality of time intervals. Since the search device has a limited number of keywords that can be presented to the user at a time, presenting a plurality of the same keywords leads to a narrowing of the range of options for the user. As a result, there is a high possibility that an extra search step will occur when the user selects a keyword. That is, with the conventional search device, the user cannot efficiently search for content.
  • the present invention solves the above-described problems, and provides a content search apparatus that can efficiently present related keywords suitable for current affairs to the user.
  • a content search device uses a related keyword related to a keyword indicating the content of the content, from a content database in which the content is stored for each content attribute indicating the content classification, A content search device for searching for a predetermined content, wherein a plurality of keywords indicating the content of content that is included in the related section and belongs to the classification indicated by the content attribute for each related section that represents a predetermined time section
  • a dictionary database storing the degree of association between the content database, a plurality of first keywords indicating the contents of the first content stored in the content database, and a plurality of second keywords indicating the contents of the second content stored in the content database.
  • a related interval determined so that the first content and the second content are included in the same time interval is calculated for each content attribute.
  • the degree of relevance between keywords calculated for each content attribute and the related section are stored in the dictionary database.
  • Dictionary update means for updating the stored relevance level, and output information for outputting a related keyword related to the keyword input by the user for each related section according to the relevance level stored in the dictionary database
  • Output generating means for generating.
  • the content search device uses the dictionary database based on the related section calculated for each content attribute. By updating, it is possible to efficiently present related keywords that are suitable for current affairs to the user.
  • the content search device updates the dictionary database so that the relevant section has a shorter time than other attributes, so it matches the current situation It is possible to present the keyword thus made to the user.
  • the content search device updates the dictionary database so that the related section has a longer time than other attributes. It is possible to present the keywords efficiently without presenting the keywords.
  • the content search device uses a dictionary based on the related section calculated according to the change in the content keyword configuration. By updating the database, it is possible to efficiently present related keywords that match current affairs to the user.
  • the content search device updates the dictionary database so that the related section has a shorter time than the other, so that the keyword suitable for current affairs is selected by the user. Can be presented.
  • the content search apparatus updates the dictionary database so that the related section has a longer time than the other, so the same keyword is not presented in a plurality of related sections. In other words, keywords can be presented efficiently.
  • the related section calculating means may calculate a related section using the content included in the latest related section stored in the dictionary database as the second content.
  • the related section calculation unit may determine whether a difference between a predetermined number of keywords having a high appearance frequency among the first keywords and a predetermined number of keywords having a high appearance frequency among the second keywords has a predetermined reference value.
  • a related section may be calculated based on whether or not it is satisfied.
  • the degree of difference is determined regardless of the difference in the number of keywords included in the new time interval and the related interval calculated when the previous content was updated. Can be calculated.
  • the related interval calculation means as the second content, content included in the time interval of a predetermined length of time intervals corresponding to the content newly added to the content database last time, It is good also as calculating a related section.
  • the content search device can update the latest content stored in the content database regardless of the related interval calculated when the previous content was updated. It is possible to calculate the degree of difference in the keyword configuration between the content and the newly added content. Therefore, the content search apparatus can present a keyword more suitable for current events.
  • the content search apparatus further acquires attribute content acquisition means for acquiring a content attribute related to the keyword input by the user, and the keyword input by the user and the attribute acquisition means by referring to the dictionary database.
  • Related keyword acquisition means for acquiring a related keyword corresponding to the set content attribute for each related section, wherein the output generation means outputs the related keyword acquired by the related keyword acquisition means It is good also as generating information.
  • the content search apparatus can present related keywords suitable for the user's input.
  • the related keyword acquisition unit generates a related keyword for each of the plurality of content attributes when the plurality of content attributes are acquired by the attribute acquisition unit, and the output generation unit includes the plurality of content attributes. Output information for outputting the related keyword generated for each content attribute for each content attribute and each related section may be generated.
  • FIG. 1 is a block diagram showing a functional configuration of a content search apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating an example of a content database.
  • FIG. 3 is a conceptual diagram of a related word dictionary.
  • FIG. 4 is a diagram illustrating an example of a related word dictionary.
  • FIG. 5 is a flowchart showing the flow of processing of the content search apparatus.
  • FIG. 6 is a flowchart showing a flow of processing (step S106 shown in FIG. 5) related to related section calculation by the related section calculation unit.
  • FIG. 7 is a flowchart showing a flow of processing (step S204 shown in FIG. 6) regarding the calculation of the change rate by the related section calculation unit.
  • FIG. 8 is a diagram illustrating an example of the initial search screen.
  • FIG. 9 is a diagram illustrating an example of a search screen.
  • FIG. 10 is a diagram illustrating an example of a search screen.
  • FIG. 11A, FIG. 11B, and FIG. 11C are diagrams for explaining a related interval calculation method.
  • FIG. 12A and FIG. 12B are diagrams for explaining the related interval calculation method.
  • FIG. 13 is an example of a related keyword presentation screen for a plurality of attributes.
  • FIG. 14A is an example of a related keyword presentation screen output by the content search apparatus according to the related art.
  • FIG. 14B is an example of a related keyword presentation screen output by the content search apparatus according to the embodiment of the present invention.
  • FIG. 15 is a conceptual diagram of processing for generating content attributes by the content database update unit according to the first modification of the present invention.
  • FIG. 15 is a conceptual diagram of processing for generating content attributes by the content database update unit according to the first modification of the present invention.
  • FIG. 16 is a diagram for explaining processing for generating content attributes by the content database update unit according to Modification 1 of the present invention.
  • FIG. 17 is a flowchart showing a flow of processing (step S106 shown in FIG. 5) relating to the related section calculation by the related section calculating unit according to the second modification of the present invention.
  • FIG. 18 is a diagram showing an example of a document matrix in the second modification of the present invention.
  • FIG. 19 is a diagram for explaining a process of acquiring a document matrix in the second modification of the present invention.
  • FIG. 1 is a configuration diagram showing a content search apparatus 100 according to an embodiment of the present invention.
  • the content search apparatus 100 includes a content database 101, a dictionary database 102, an input unit 103, an input selection unit 104, a content database update unit 105, a related section calculation unit 106, a dictionary update unit 107, and an attribute acquisition unit. 108, a related keyword acquisition unit 109, an output generation unit 110, and an output unit 111.
  • the content database 101 is a database that stores content such as moving images, images, music, and texts to be searched, and content-attached information that indicates the content of the content.
  • the content ancillary information refers to information indicating content details such as keywords and content attributes.
  • the content attribute means category information for classifying content. For example, in the case of content related to a television program, “genre” described in EPG (Electronic Program Guide) is the content attribute.
  • Fig. 2 shows an example of content ancillary information stored in the content database.
  • the content database 101 stores content ancillary information including a content ID 20, a content attribute 21, a title 22, a broadcast date 23, a keyword 24, and a summary 25 as shown in FIG.
  • the broadcast date 23 is an example of time information indicating information related to the time of content.
  • the time information is information indicating the time related to the content. Note that the time information does not need to be a broadcast date, and may be the date and time when the content is registered in the content database 101.
  • the keyword 24 indicates a word (keyword) indicating the content.
  • the keyword 24 stores a keyword attached to the EPG in advance.
  • the keyword 24 may store a keyword extracted by executing morphological analysis on the title 22 or the outline 25.
  • the dictionary database 102 is a database that stores the degree of association between keywords stored in the content database 101.
  • the dictionary database 102 is content that includes a time indicated by time information for each content attribute for classifying content and for each related section representing a predetermined time section.
  • a related word dictionary 102a describing the degree of association between a plurality of keywords corresponding to content belonging to the classification indicated by the content attribute is stored.
  • the related word dictionary 102a can store the degree of relevance between keywords using related sections having different lengths of time within content attributes and between content attributes.
  • the related section refers to a time section for calculating the degree of association between keywords.
  • FIG. 3 shows a conceptual diagram of the related word dictionary 102a in the case where the content database 101 includes contents having four content attributes of “news”, “sports”, “variety”, and “hobbies / education”.
  • the related word dictionary 102a is classified into four content attributes.
  • section dictionaries having different lengths of related sections, such as section dictionary 31 (N1) and section dictionary 32 (N2), are stored.
  • each related section has a different length of time for each content attribute (“news”, “sports”, “variety”, and “hobby / education”).
  • FIG. 4 shows an example of the related word dictionary 102a stored in the dictionary database 102.
  • the related word dictionary 102 a includes a content attribute 41, a related section 42, a keyword 43, a related keyword 44, and a relevance degree 45.
  • the content attribute 41 is “news”
  • the relevance level 45 of the related keyword 44 “autumn” related to the keyword 43 “news” in which the related section 42 is “2007/9/10 to 2007/9/12” is “0.94”.
  • the related keyword acquiring unit 109 can acquire the related keyword for the keyword selected by the user.
  • the input unit 103 shown in FIG. 1 receives information related to user operation input and content database update, and notifies the input selection unit 104 of the received information.
  • the input selection unit 104 selects whether the information received from the input unit 103 is information indicating “keyword selection”, “content selection”, or “content database update”. The selection method will be described later.
  • the content database update unit 105 updates the content stored in the content database 101 and the content attached information when the input selection unit 104 selects the information received from the input unit 103 as “content database update”.
  • the content database update unit 105 copies all acquisition target data distributed by the content server to the content database 101. That is, all the data held before the update is once deleted and overwritten newly.
  • the present invention when used in a television broadcast viewing reservation application, only data after the update date and time is stored in the content database 101 on the device side due to the database characteristics of the television broadcast (no data before the broadcast date).
  • storage-type content such as VOD (Video on Demand)
  • VOD Video on Demand
  • the related section calculation unit 106 calculates a new related section for each content attribute by referring to the content database 101 and the dictionary database 102 when the content database update unit 105 updates the content database 101. Specifically, the related interval calculation unit 106, for each content attribute, a plurality of keywords (first keywords) indicating the contents of the content (first content) newly stored in the content database 101, and the content database 101 already. The degree of difference is calculated from a plurality of keywords (second keywords) indicating the contents of the content (second content) stored in. Then, the related interval calculation unit 106 calculates a new related interval based on whether or not the calculated degree of difference between the first keyword and the second keyword satisfies a predetermined reference value. That is, the related interval calculation unit 106 calculates a new related interval so that the first content and the second content are included in the same time interval as the degree of difference between the first keyword and the second keyword is smaller. A detailed calculation method of the related section will be described later.
  • the dictionary update unit 107 calculates the degree of association between keywords in the content included in the new related section calculated by the related section calculation unit 106. Then, the dictionary updating unit 107 registers the calculated degree of association of the new related section in the related word dictionary 102a together with the keyword and the related keyword. Note that the degree of association between keywords is calculated based on the co-occurrence of words (the degree to which two words appear in the same content). Accordingly, the value of the degree of association increases as the combination of keywords appearing more frequently in the same content.
  • Non-Patent Document 1 Metal Space generation method for associative search based on relevance between words appearing in a document” (Hidenori Honma et al., 16th Data Engineering Workshop (DEWS2005). ), 6A-o2, The Institute of Electronics, Information and Communication Engineers, 2005), and the like are calculated.
  • the attribute acquisition unit 108 acquires the content attribute of the keyword selected by the user in the input unit 103 when the input selection unit 104 selects the information received from the input unit 103 as “keyword selection”. A content attribute determination method will be described later.
  • the related keyword acquisition unit 109 refers to the related word dictionary 102 a to acquire the content attribute acquired by the attribute acquisition unit 108 and the related keyword and the degree of association corresponding to the keyword selected by the user using the input unit 103.
  • the output generation unit 110 sets the related keyword acquired by the related keyword acquisition unit 109 to the related level for each related section. In response, output information for display is generated. For example, the output generation unit 110 generates output information for displaying in order from related keywords having a high degree of relevance. For example, the output generation unit 110 may generate output information for displaying a related keyword having a higher degree of relevance with a larger character. Further, when the input selection unit 104 selects the information received from the input unit 103 as “content selection”, the output generation unit 110 displays content such as a program corresponding to the information input by the user through the input unit 103. Generate output information for display.
  • the output unit 111 outputs the output information generated by the output generation unit 110 to an output medium.
  • the output medium for example, a monitor such as a television is used.
  • FIG. 5 is a flowchart showing the overall processing flow executed by the content search apparatus 100 of FIG.
  • the input unit 103 receives an operation input from the user and notifies the input selection unit 104 of the received information (step S101).
  • the input sorting unit 104 sorts whether the information notified from the input unit 103 is information indicating which process is “keyword selection”, “content selection”, or “content database update” (step S102). ).
  • the attribute acquisition unit 108 selects the keyword and the keyword selected by the user in the input unit 103.
  • the keyword content attribute is acquired (step S108).
  • the related keyword acquisition unit 109 acquires a related keyword based on the acquired content attribute and the related word dictionary 102a (step S109).
  • generation part 110 produces
  • the output unit 111 outputs the output information generated by the output generation unit 110 to the output medium (step S111), and ends the process.
  • the input selection unit 104 displays the information received from the input unit 103 as “ It is determined whether or not it is selected as “database update” (step S104).
  • step S104 when the input selection unit 104 selects the information received from the input unit 103 as “database update” (Yes in step S104), the content database update unit 105 updates the content database 101 (step S105). ). Subsequently, the related section calculation unit 106 calculates a related section set in the related word dictionary 102a (step S106). The detailed processing flow of step S106 will be described later. Then, based on the calculated related section, the dictionary update unit 107 updates the related word dictionary 102a (step S107) and ends the process.
  • step S104 when the input selection unit 104 does not select the information received from the input unit 103 as “database update” (No in step S104), that is, when it is selected as “content selection”, output generation is performed.
  • the unit 110 generates output information for displaying a program corresponding to information input by the user through the input unit 103 (step S110).
  • the output unit 111 outputs the output information generated by the output generation unit 110 to the output medium (step S111), and ends the process.
  • FIG. 6 is a flowchart showing a flow of processing (step S106 shown in FIG. 5) related to related section calculation by the related section calculation unit 106.
  • the related section calculation unit 106 acquires the related section updated last time in the related word dictionary 102a (hereinafter referred to as the last updated section) for each content attribute (step S201).
  • the related section calculation unit 106 creates a keyword list, which is a list of keywords of the acquired previous update section, for each content attribute (step S202).
  • the keyword in the previous update section corresponds to a plurality of second keywords indicating the content of the second content stored in the content database 101.
  • the related section calculation unit 106 acquires a keyword list that is a list of keywords of content newly added to the content database 101 for each content attribute (step S203).
  • the newly added content keyword corresponds to a plurality of first keywords indicating the contents of the first content stored in the content database 101.
  • the related interval calculation unit 106 compares the keyword list created in step S202 with the keyword list created in step S203, and calculates the change rate of the keyword configuration (step S204).
  • the change rate of the keyword configuration is an example of the degree of difference.
  • the related interval calculation unit 106 calculates a time interval corresponding to the content newly added to the content database 101 as a new related interval. (Step S206). That is, the related interval calculation unit 106 calculates a time interval corresponding to the first content as a new related interval.
  • the time interval corresponding to the content indicates a time interval including the time indicated by the time information of the content. For example, when content broadcast on September 10th and 11th, 2007 is newly added to the content database 101, the time interval corresponding to the content is September 10th to 11th, 2007.
  • the related interval calculation unit 106 adds the previous update interval and the time interval corresponding to the content newly added to the content database 101.
  • the combined time interval is calculated as a new related interval (step S207). That is, the related interval calculation unit 106 calculates a time interval including a time interval corresponding to the first content and a time interval corresponding to the second content as a new related interval. In this way, after the related section is calculated by the related section calculation unit 106, the process of step S107 shown in FIG. 5 is executed.
  • FIG. 7 is a flowchart showing a flow of processing (step S204 shown in FIG. 6) relating to the change rate calculation by the related interval calculation unit 106.
  • the related section calculation unit 106 acquires keywords (new keyword candidates) for which the following processing (steps S302 to S308) has not yet been executed from the keyword list of the additional content created in step S203 (step S301). ). Furthermore, the related interval calculation unit 106 acquires keywords (comparison keywords) for which the following processing (steps S303 to S305) has not yet been executed from the keyword list of the previous update interval created in step S202 (step S302). ).
  • the related section calculation unit 106 determines whether or not the new keyword candidate and the comparison keyword acquired in step S301 and step S302 partially match (step S303). Note that partial matching means that 80 or more characters in a keyword of 4 or more characters match.
  • step S303 when the new keyword candidate and the comparison keyword partially match (Yes in step S303), the related section calculation unit 106 determines that the new keyword candidate is not a new keyword (step S308). On the other hand, when the new keyword candidate and the comparison keyword do not partially match (No in step S303), the related section calculation unit 106 determines whether or not the new keyword candidate and the comparison keyword match synonyms (step S304). . Synonym matching means that a synonym of a new keyword candidate matches a comparison keyword.
  • the related section calculation unit 106 determines that the new keyword candidate is not a new keyword (step S308).
  • the new keyword candidate and the comparison keyword do not match the synonyms (No in step S304)
  • the related section calculation unit 106 determines whether the new keyword candidate and the comparison keyword match with each other (step S305).
  • the notation fluctuation match means that a keyword obtained by replacing a new keyword candidate by using hiragana, kana, kanji or romaji matches the comparison keyword.
  • step S305 if the new keyword candidate and the comparison keyword are inconsistently matched (Yes in step S305), the related section calculation unit 106 determines that the new keyword candidate is not a new keyword (step S308). On the other hand, when the new keyword candidate and the comparison keyword do not match in writing (No in step S305), the related interval calculation unit 106 determines whether or not all keywords included in the keyword list in the previous update interval have been acquired. (Step S306).
  • step S306 when all the keywords included in the keyword list in the previous update section have not been acquired (No in step S306), the process is repeated from the acquisition of the keyword in step S302 again.
  • the related section calculation unit 106 determines that the new keyword candidate is a new keyword (step S307).
  • the related section calculation unit 106 determines whether or not all keywords included in the keyword list of the additional content have been acquired (step S309).
  • the process is repeated from the keyword acquisition in step S301 again.
  • the related section calculation unit 106 determines the number of keywords determined to be new keywords in step S307 as the previous time. The rate of change is calculated by dividing by the number of keywords included in the keyword list of the update section (step S310).
  • step S107 shown in FIG. 5 is executed.
  • FIGS. FIG. 8 to FIG. 10 are diagrams showing transition of screens output by content search when a user wants to watch a program related to a news program from among TV programs that can be viewed.
  • the content search device 100 When starting the search, the content search device 100 presents the initial search screen shown in FIG. 8 to the user.
  • the initial search keyword presented in the initial search screen is a keyword indicating a genre such as “sports” or “documentary”, for example.
  • the user selects “news” from the initial search keywords.
  • FIG. 9 shows a search screen presented by the content search device 100 after the user selects an initial search keyword.
  • a content list 70 and a related keyword list 71 related to the selected keyword (news) are presented.
  • related keyword list 71 related keywords are presented for each related section in descending order of relevance.
  • the user selects content from the content list 70 when there is content to be viewed on the search screen.
  • the user selects a keyword related to the content to be viewed from the related keyword list 71.
  • the content search device 100 displays the selected content and ends the search process.
  • the content search apparatus 100 presents a screen on which the content list and the related keyword are displayed again based on the selected keyword. For example, in the search screen shown in FIG. 9, when the user selects the Diet 72 from the related keyword list 71, as shown in FIG. Keywords to be presented for each related section.
  • the user searches for the content he / she wants to see while repeatedly selecting related keywords presented by the system.
  • step S101 in FIG. 5 the input unit 103 receives information input to the system by the user. Specifically, keywords such as “news” selected by the user on the initial search screen of FIG. 8 and “National Diet” selected on the search screen of FIG. 9 are input information. The content selected by the user from the content list 70 shown in FIG. 9 is also input information. Furthermore, although not shown, when the user selects content database update, the selection is also input information.
  • the content search apparatus 100 updates the content database 101 when there is a user input.
  • the content search apparatus 100 can update the content database 101 at an arbitrary time. May be updated.
  • the content search device 100 may update the content database 101. In such a case, input of new content to the content database 101 becomes input information.
  • step S102 of FIG. 5 the input sorting unit 104 sorts the input information received from step S101 into one of “keyword selection”, “content selection”, and “content database update”. Specifically, “keyword selection” is selected, for example, when the user selects any keyword from the related keyword list 71 on the search screen of FIG. 9. In addition, “content selection” is selected when the user selects any content from the content list 70 on the search screen illustrated in FIG. 9, for example. “Content database update” is selected when the user selects to update the content database, for example, although not shown.
  • step S103 of FIG. 5 the input selection unit 104 determines whether the selection in step S102 is “keyword selection”. If the input selection unit 104 determines that the information received from the input unit 103 is “keyword selection”, the input selection unit 104 passes the corresponding selection keyword to the attribute acquisition unit 108. Then, the process proceeds to step S108. On the other hand, if the input selection unit 104 does not determine that the information received from the input unit 103 is “keyword selection”, the process proceeds to step S104. Specifically, for example, when the user selects the keyword “news” on the initial search screen of FIG. 8 or when the user selects the keyword “national assembly” on the search screen of FIG. Are both selected as “keyword selection”. Then, the input selection unit 104 passes the keyword “news” or “national legislation” to the attribute acquisition unit 108. Then, the process proceeds to step S108.
  • the input selection unit 104 determines whether or not the selection in step S102 is “content database update”. If the input selection unit 104 determines that the information received from the input unit 103 is “content database update”, the process proceeds to step S105. On the other hand, if the input selection unit 104 determines that the information received from the input unit 103 is not “content database update”, that is, the input selection unit 104 determines that the information received from the input unit 103 is “content selection” in step S102. The input selecting unit 104 acquires the content ID corresponding to the content selected by the user from the content database 101. Then, the input selection unit 104 passes the acquired content ID to the output generation unit 110. Thereafter, the process proceeds to step S109.
  • the input selection unit 104 acquires a content ID corresponding to the selected program from the content database 101 and outputs the acquired content ID. It passes to the generation unit 110. Thereafter, the process proceeds to step S110.
  • the input selection unit 104 passes update data to the content database update unit 105. Then, the process proceeds to step S105.
  • step S105 the content database update unit 105 adds the update data acquired by the process in step S104 to the content database 101.
  • the related section calculation unit 106 calculates the related section based on the update data newly added to the content database 101 by the content database update unit 105 in step S105.
  • step S106 will be described in detail below.
  • the related interval calculation unit 106 acquires the previously updated related interval included in the related word dictionary 102a for each content attribute such as “news” and “sports”. Specifically, the related section calculation unit 106 acquires the latest related section 42 for each content attribute from the data stored in the related word dictionary 102a illustrated in FIG. As shown in FIG. 11A, the related section acquired here is the last update section 1001 (tn-2 to tn-1).
  • the related section calculation unit 106 creates a keyword list of contents included in the related section acquired in step S201 for each content attribute. Specifically, for example, the related section calculation unit 106 may acquire the keyword 43 corresponding to the previous update section 1001 for each content attribute with reference to the related word dictionary 102a illustrated in FIG.
  • step S203 in FIG. 6 the related interval calculation unit 106 creates a keyword list corresponding to the update data acquired in step S104 in FIG. 5 for each content attribute.
  • the keyword list in the previous update section and the keyword list corresponding to the newly updated content are created for each content attribute by the processing in steps S201 to S203 in FIG.
  • the related interval calculation unit 106 compares the keyword list created in step S202 with the keyword list created in step S203, and calculates the change rate of the keyword configuration.
  • the change rate of the keyword configuration is an example of the degree of difference.
  • the number of keywords that are not included in the keyword list related to the previous update section 1001 is used as a numerator, and the keywords included in the keyword list related to the previous update section 1001 This is a value calculated using the number as the denominator.
  • the number of new keywords not included in the keyword list of the previous update section 1001 is 40 in the keyword list obtained from the content newly updated this time created in step S203.
  • the change rate of the keyword configuration is 0.2.
  • the number of new keywords is calculated based on the processing shown in FIG.
  • step S205 in FIG. 6 the related interval calculation unit 106 determines whether or not the change rate of the keyword configuration acquired in step S204 exceeds a predetermined threshold value. If it is determined in step S205 in FIG. 6 that the rate of change is equal to or greater than the predetermined threshold, in step S206 in FIG. 6, the related interval calculation unit 106 newly adds only the time interval corresponding to the newly added content. Calculated as a related interval.
  • step S206 in FIG. 6 the related interval calculation unit 106 determines that the previously updated interval and the content that is newly updated this time. A time interval obtained by adding the corresponding time intervals is calculated as a new related interval.
  • the related interval calculation unit 106 determines that the change rate of the keyword configuration is equal to or greater than the threshold value.
  • the new related section 1003 (tn ⁇ 1 to tn) identical to the additional section 1002 is calculated as a new related section, and when the rate of change falls below the threshold, ),
  • a new related section 1004 (tn ⁇ 2 to tn) obtained by adding the previous update section 1001 and the additional section 1002 is calculated as a new related section.
  • the content search apparatus 100 in order to present a keyword with current affairs, it is preferable that the content search apparatus 100 generates a related keyword using the related word dictionary 102a in which the related section is changed according to a change in the keyword configuration.
  • the related interval calculation unit 106 can calculate the related interval based on the change rate of the keyword configuration for each content attribute, the content search apparatus 100 presents a keyword with current affairs. Is possible.
  • the related section calculation unit 106 relates the related word dictionary 102a corresponding to the content newly added to the content database 101. A section can be calculated.
  • the number of keywords included in the two keyword lists to be compared is not particularly defined.
  • the change rate is set only for a predetermined number of keywords having a high appearance frequency. It may be calculated.
  • the related interval calculation unit 106 includes the top n appearance frequency keywords in the keyword list created in step S202, and the top appearance frequency n keywords in the keyword list created in step S203. To calculate the change rate of the keyword composition. For example, among the 100 most frequently occurring keywords in the keyword list created in step S203, the number of new keywords not included in the 100 most frequently occurring keywords in the keyword list in the previous update section is 40. In the case of the individual, the change rate of the keyword configuration is 0.4.
  • the related interval calculation unit 106 has acquired the latest related interval of the related word dictionary 102a as the previous update interval, but corresponds to the content updated last time in the content database 101.
  • a time interval of a predetermined length included in the time interval may be set as the previous update interval.
  • the related interval calculation unit 106 acquires keyword comparison intervals 1103 (tn ⁇ 2 to tn ⁇ 1) shown in FIG. 12B.
  • the section calculation unit 106 acquires a time section corresponding to the minimum time unit from the previous content update section closer to the additional section 1102.
  • Comparison of change rate in minimum time unit can set related section corresponding to minute change of keyword relevance.
  • the content search device can always present a new related keyword to the user.
  • step S107 of FIG. 5 the dictionary update unit 107 updates the related word dictionary based on the related section calculated in step S105.
  • the dictionary creation method is as described in FIG.
  • step S108 of FIG. 5 the attribute acquisition unit 108 determines the content attribute of the keyword acquired in step S103. Then, the attribute acquisition unit 108 passes the content attribute determined as a keyword to the related keyword acquisition unit 109. Thereafter, the process proceeds to step S109.
  • content attribute determination when the keyword presented on the initial search screen in FIG. 8 is a keyword shared with the content attribute, the attribute acquisition unit 108 selects the keyword selected by the user on the initial search screen as the content attribute. What is necessary is just to determine.
  • the content attribute of the related keyword selected by the user on the search screen shown in FIG. 9 is determined as “news”. This is a search for narrowing down the content attribute with the content attribute “sports” selected first, and is effective in the case of a narrow search.
  • the related keyword acquisition part 109 refers to the dictionary database 102, and acquires the related keyword corresponding to the keyword acquired in step S103 and the keyword attribute acquired in step S108. Then, the related keyword acquisition unit 109 passes the acquired related keyword to the output generation unit 110. Thereafter, the process proceeds to step S110. Specifically, for example, when the user selects “news” on the initial search screen of FIG. 8 and subsequently selects “National Diet” on the search screen of FIG. 9, the attribute acquisition unit 108 sets the keyword attribute to “news”. Is determined. Then, the related keyword acquisition unit 109 refers to the related word dictionary 102a illustrated in FIG.
  • the related keyword acquisition unit 109 acquires the keywords “primary speech”, “politics”, and “pension” in the related section from September 10 to 12, 2007.
  • step S110 of FIG. 5 when the related keyword is acquired in step S109, the output generation unit 110 outputs a search screen as shown in FIG. 9, for example, using the acquired related keyword and the content database 101. Generate output information for On the other hand, when the content ID is acquired in step S104, the output generation unit 110 generates output information for displaying the content using the acquired content ID and the content database 101.
  • step S111 of FIG. 5 the output unit 111 outputs the output information generated in step S110 to a monitor or the like.
  • the content search apparatus 100 can refer to the related word dictionary 102a having different related sections for each content attribute, and therefore adapts to current events that differ for each content attribute.
  • the related keyword can be presented to the user.
  • the attribute acquisition unit 108 may acquire content attributes using a method different from the method described above.
  • the attribute acquisition unit 108 may acquire a plurality of content attributes having a high keyword appearance frequency among the content attributes having the acquired keyword. For example, when the keyword “National Diet” is present in two content attributes “News” and “Variety”, the ranking of the appearance frequency of the keyword “National Diet” in each content attribute is equal to or higher than a predetermined threshold.
  • two content attributes may be acquired as keyword attributes.
  • An example of the screen output in this case is shown in FIG. As illustrated in FIG. 13, the output unit 111 outputs a related keyword for the keyword “National Diet” to each content attribute of “News” and “Variety”.
  • the user can select a related keyword for each content attribute. Therefore, the content search apparatus 100 can avoid the presentation of related keywords that the user does not intend (for example, the user wants a variety of related keywords, but the related keywords of news are presented). As a result, the content search device 100 can reduce the search man-hours for the search by the user.
  • FIG. 14 shows an output example when the related keywords output by the content search apparatus of the present embodiment and the related keywords output using the fixed section described in Patent Document 2 are arranged and output.
  • FIG. 14A is an example of a related keyword presentation screen output by the content search device according to the prior art. As shown in the figure, each related keyword is generated for each of the time sections 121, 122, and 123 obtained by dividing the data from August 13 to September 12, 2007 into 10 days.
  • FIG. 14B is an example of a related keyword presentation screen output by the content search apparatus 100 according to the present embodiment. As shown in the figure, each related keyword is generated in time intervals 124, 125, and 126 calculated based on the change rate of the keyword configuration for each attribute.
  • the time interval for creating a related keyword is short with respect to the frequency of data content change (for example, when the keyword configuration does not change for 20 days)
  • the time interval 121 and the time interval 122 in FIG. Like the “election”, the content search apparatus outputs the same keyword in a plurality of time intervals.
  • the output of a plurality of such identical keywords on the same screen leads to a narrower range of user choices. As a result, if the user wants to select another keyword, there is a high possibility that an extra search step will occur.
  • the content search device 100 determines a time interval in which a related keyword is generated in response to a change in keyword configuration for each content attribute. Therefore, the content search apparatus 100 can reduce the possibility of outputting a plurality of the same keyword in different time intervals. That is, as shown in a time interval 124 in FIG. 14B, a time interval in which the change in keyword configuration is small becomes one time interval 124. As a result, the keyword presented in the time interval 124 is different from the keyword presented in the time interval 125 adjacent to the time interval 124.
  • the time period for creating a related keyword is long with respect to the frequency of data content change (for example, when a change in keyword structure occurs every 5 days), the period before and after the period when the keyword structure changes is changed. Highly relevant keywords will be presented preferentially. Therefore, the content search apparatus cannot present a keyword that matches current affairs. That is, as shown in the time interval 123 of FIG. 14A, the keyword “America” having a higher degree of relevance before the keyword composition change is ranked higher than the keyword “prime address” adapted to the current situation after the keyword composition change. It will be presented. In this case as well, as described above, when the user wants to select another keyword, there is a high possibility that the number of search steps increases.
  • the content search device 100 changes the time interval for generating the related keyword for each content attribute according to the change rate of the keyword configuration. Therefore, the content search apparatus 100 can present related keywords that are suitable for current affairs. That is, as shown in the time interval 125 and the time interval 126 in FIG. 14B, the content search apparatus 100 can change the time interval around September 10, 2007 when the keyword configuration has changed greatly. In the time interval 126, it becomes possible to present the keyword “prime address” that is suitable for current events.
  • the content search device uses a related word dictionary for generating related keywords in accordance with the degree of difference in keyword configuration between newly added content and already stored content. Since it updates based on a related section, the related keyword suitable for current affairs can be shown to a user efficiently. As a result, when searching for content from a content database including content with a plurality of content attributes having different current affairs, the user can narrow down the content interactively by repeatedly selecting related keywords.
  • the content search device is different from the content search device 100 according to the first embodiment shown in FIG. 1 in that the content database update unit 105 generates the content attribute 21.
  • the content database update unit 105 generates “cluster label” as the content attribute 21 by clustering the content stored in the content database 101. Then, the content database update unit 105 registers the generated content attribute 21 in the content database 101. In this way, the content database update unit 105 performs clustering, so that the content search device has a similar program content such as a cluster (content set) of sports programs or a cluster of movie programs. Content can be classified into the same group. That is, the “cluster label” is information equivalent to the “genre” of the EPG, and is an example of the content attribute 21.
  • Non-Patent Document 2 Information Search and Language Processing
  • FIG. 15 is a conceptual diagram of processing in which the content database update unit 105 generates a cluster label as the content attribute 21.
  • the content database update unit 105 generates a plurality of clusters by performing clustering using keywords or the like included in the content ancillary information stored in the content database 101. Then, the content database update unit 105 generates a cluster label corresponding to the generated cluster. For example, the content database update unit 105 gives randomly generated cluster labels (CL1, CL2, CL3, and CL4) to the cluster. As a result, any cluster label is generated for all content IDs stored in the content database 101. Then, the content database update unit 105 registers the generated cluster label as the content attribute 21 in the content database 101.
  • the content database update unit 105 can automatically register the content attribute 21 corresponding to the “genre” of the EPG. Therefore, the content search apparatus according to this modification can output related keywords even in the content database 101 in which the content attributes are not registered in advance.
  • the content database update unit 105 generates a cluster label for update data stored in the content database 101 each time the database is updated.
  • the cluster labels (CL21, CL22, and CL23) for the update data and the cluster labels (CL11, CL12, and CL13) for the data before update that are already stored in the content database 101 are:
  • the cluster label “CL11” is assigned to the sport-type cluster before the update, but “CL22” is assigned to the sport-type cluster of the update data. That is, the same label is not assigned to clusters having the same content.
  • the content database update unit 105 first calculates the degree of similarity between each cluster of update data and each cluster of data before update. Subsequently, the content database update unit 105 creates a pair of clusters having high similarity. Then, the content database update unit 105 gives the cluster label before the update as the cluster label of the update data in the created pair.
  • the similarity is measured by a method described in, for example, a method using a cosine scale or inner product between clusters (Non-Patent Document 3, “Information Retrieval Algorithm”, Kitakenji et al., Kyoritsu Publishing, pp. 60-63, 2002). It may be calculated.
  • the content database update unit 105 assigns the same cluster label to clusters with similar contents before and after the update so that the cluster label “CL22” in the above example can be converted into “CL11”. be able to.
  • the content search device is different from the content search device 100 according to the first embodiment in the details of the process executed by the related section calculation unit 106.
  • the related section calculation unit 106 is a document of the content before update and the additional content newly added to the content database 101 already stored in the content database 101 in step S106 shown in FIG.
  • the related interval is calculated using the spatial similarity.
  • FIG. 17 is a flowchart showing a flow of processing (step S106 shown in FIG. 5) related to related section calculation by the related section calculation unit 106.
  • step S106 shown in FIG. 5 the same steps as those in FIG. 6 are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the related interval calculation unit 106 acquires the previous update interval for each content attribute (step S201).
  • the related interval calculation unit 106 creates a document matrix of the acquired content of the previous update interval for each content attribute (step S1701). That is, the related section calculation unit 106 creates a document matrix for each content attribute using a plurality of second keywords indicating the contents of the second content already stored in the content database.
  • the created document matrix is referred to as a document matrix group A.
  • the document matrix is a matrix that represents keyword frequency information (appearance frequency, tf-idf, etc.) in each content, as shown in FIG.
  • the related section calculation unit 106 creates a document matrix of content newly added to the content database 101 for each content attribute (step S1702). That is, the related interval calculation unit 106 creates a document matrix for each content attribute using a plurality of first keywords indicating the contents of the first content newly stored in the content database.
  • the created document matrix is referred to as a document matrix group B.
  • the related section calculation unit 106 acquires document matrices having the same content attribute from the document matrix groups A and B (step S1703).
  • the document matrices acquired from each of the document matrix groups A and B are referred to as document matrices A1 and B1.
  • FIG. 19 shows an example of the document matrices A1 and B1 acquired in step S1703.
  • the document matrix groups A and B include document matrices having content attributes of “sports” and “movie”, respectively.
  • the document matrices A1 and B1 corresponding to the content attribute “sports” are acquired by selecting the document matrix having the content attribute “sports” from the document matrix groups A and B, respectively.
  • the related interval calculation unit 106 calculates the similarity of each document matrix using the document matrices A1 and B1 (step S1704).
  • the related interval calculation unit 106 calculates, for example, the cosine distance of each document vector of the matrix B1 with respect to the document matrix A1, and the ratio of documents whose cosine distance is equal to or greater than the threshold with respect to the total number of documents in the document matrix B1. Is calculated as the similarity.
  • the related interval calculation unit 106 If the calculated similarity is smaller than the predetermined threshold (Yes in step S1705), the related interval calculation unit 106 newly sets a time interval corresponding to the content (first content) newly added to the content database 101. It calculates as a related section (step S206). On the other hand, if the calculated similarity is equal to or greater than the predetermined threshold (No in step S1705), the related interval calculation unit 106 adds the time interval corresponding to the content newly added to the content database 101 and the previous update interval. The combined time interval is calculated as a new related interval (step S207). That is, the related interval calculation unit 106 calculates a time interval obtained by adding the time interval corresponding to the first content and the time interval corresponding to the second content as a new related interval.
  • step S1706 determines whether or not all content attributes stored in the content database 101 have been selected in step S1703. If all the content attributes have not been selected (No in step S1706), the process returns to step S1703. On the other hand, when all the content attributes are selected (Yes in step S1706), the process in step S107 shown in FIG. 5 is executed.
  • the related section calculation unit 106 can calculate a related section according to the similarity in content units. Thereby, even when the related section is calculated in the content database 101 in which the number of keywords greatly differs among the contents, the influence of the content having a large number of keywords can be reduced in calculating the related section. It is possible to prevent erroneous calculation of related sections.
  • the related section calculation unit 106 may calculate the related section in step S106 based on whether or not the content title dissimilarity between the pre-update content and the additional content satisfies a predetermined reference value. Specifically, the related interval calculation unit 106 calculates a matching rate between the title of the content in the previous update interval and the title of the newly added content. When the matching rate is equal to or higher than the threshold, the related interval calculation unit 106 adds a time interval obtained by adding the previous update interval and the time interval corresponding to the content newly added to the content database 101 to the new related interval. Calculate as interval.
  • the related interval calculation unit 106 calculates a time interval corresponding to the content newly added to the content database 101 as a new related interval.
  • the related section calculation unit 106 can greatly reduce the processing time for calculating the related section. it can.
  • the content search device has been described based on the embodiment and its modifications.
  • the present invention is not limited to the above embodiment and its modifications. Unless it deviates from the meaning of the present invention, various modifications conceived by those skilled in the art have been applied to the above-described embodiment and its modifications, and forms constructed by combining different embodiments and components in the modifications. Are included within the scope of the present invention.
  • the content database is provided in the content search device, but the content database may be provided in another device different from the content search device.
  • the content search device and other devices are connected via a network or the like.
  • the content search device of the above embodiment searches for a desired TV program from a content database in which TV programs are stored.
  • viewing content such as movies and music, text content such as books and papers, etc.
  • Content may be searched from a content database in which is stored. That is, the content searched by the content search apparatus according to the present invention may be content having character information.
  • the present invention can be realized not only as a content search apparatus as described above, but also as a content search method that uses the operation of characteristic components included in the content search apparatus as a step. It can also be realized as a program for causing a computer to execute the characteristic steps included in. Such a program can be distributed via a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) or a communication network such as the Internet.
  • the present invention is used as a content search device for searching for a content that a user wants to use from a large amount of content, for example, as a device for searching a program that a user wants to watch from a database in which a large number of TV programs are stored Is possible.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 時事性に適合した関連キーワードを効率的にユーザに提示することができるコンテンツ検索装置を提供する。  関連キーワードを用いて、コンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置(100)であって、コンテンツデータベース(101)に記憶される第1コンテンツの内容を示す複数の第1キーワードと、コンテンツデータベース(101)に記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出されるコンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、第1コンテンツと第2コンテンツとが同一の時間区間に含まれるように定められる関連区間をコンテンツ属性ごとに算出する関連区間算出部(106)と、コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間とを用いて辞書データベース(102)に記憶されている関連度を更新する辞書更新部(107)とを備える。

Description

コンテンツ検索装置及びコンテンツ検索方法
 本発明は、大量に記憶されたコンテンツの中から、ユーザが利用したいコンテンツを検索するためのコンテンツ検索装置に関する。
 サーバーなどに記憶された大量のコンテンツから所望のコンテンツを検索する方法として、検索装置側から複数の関連キーワードを提示する方法が複数報告されている。ここで、関連キーワードとは、ユーザが特定した単語(キーワード)に関連がある単語(キーワード)のことをいう。また、一般的に、互いに関連するキーワード間の関連の度合いを表す関連度は、キーワード間の共起数、出現頻度等に基づいて算出される。
 このような検索装置は、コンテンツが記憶されたコンテンツデータベースのデータ更新と同時に、関連キーワードを提示するためのキーワード間の関連付けを更新する(例えば、特許文献1参照)。したがって、この検索装置は、ユーザに対して、コンテンツデータベースに記憶された最新のコンテンツに基づいた関連キーワードを提示する。
 しかし、ユーザが特定のキーワードから想起する関連キーワードは、ユーザによってそれぞれ異なる。例えば、「俳優A」が出演した最近放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優B」を関連キーワードとして想起する。一方、「俳優A」が出演した1年前に放送のドラマだけを視聴したユーザは、そのドラマに出演していた「女優C」を関連キーワードとして想起する。このように、ユーザ個人の知識が異なる場合、ユーザが「俳優A」に対して想起する関連キーワードは、異なるキーワードとなりえる。すなわち、検索装置が、最新のコンテンツに基づいて生成した関連キーワードだけを提示した場合、ユーザによっては、想起できない関連キーワードが提示されることになる。その結果、ユーザがキーワードの選択を行うことができず、コンテンツを絞り込むことができないという問題がある。
 そこで、従来、このような問題を解決するために、コンテンツデータベースに記憶された全てのコンテンツを固定時間の時間区間により分類する方法が提案されている(例えば、特許文献2参照)。これにより、特許文献2の方法を利用した検索装置は、時間区間ごとにキーワード間の関連付けを構築することができる。その結果、この検索装置は、ユーザに対して、異なる時間区間の関連付けに基づいて生成された関連キーワードを、複数の時間区間ごとに提示することが可能となる。例えば、この検索装置は、「俳優A」に関連するキーワードとして、今年1年間に対応するコンテンツにおいて関連の強い「女優B」と、昨年1年間に対応するコンテンツにおいて関連の強い「女優C」とを、同時にユーザに提示することができる。このように、検索装置が複数の時間区間における関連キーワードを提示することにより、ユーザは自分の知識に適合した関連キーワードを選択することが可能となる。すなわち、ユーザは、関連キーワードの選択を繰り返すことによるコンテンツの絞り込みを、効果的に行うことが可能となる。
特開2007-188225号公報 特開2002-183175号公報
 しかしながら、特許文献2の方法を利用した従来の検索装置では、固定時間の時間区間を利用して、コンテンツデータベースに記憶された全てのコンテンツを分類するため、各コンテンツのキーワード構成の変化に応じた関連キーワードを提示することができないという問題がある。
 一般的に、コンテンツデータベースに属性(ジャンル)の異なる複数のコンテンツが記憶されている場合、コンテンツのキーワード構成が大きく変化する頻度は、属性によって大きく異なる。例えば、テレビ番組の場合、ニュース番組は、比較的短い間隔においてキーワード構成が大きく変化するが、ドラマ番組は四半期に一度しかキーワード構成が大きく変化しない。
 このように、コンテンツデータベースの中にキーワード構成が大きく変化する頻度の異なる属性のコンテンツが含まれる場合、従来の検索装置が、キーワード構成が大きく変化する頻度の低いコンテンツに適合するように固定時間を決定すると、検索装置は、各属性のキーワード構成が大きく変化する頻度に適合した時事性のある関連キーワードを提示することができない。例えば、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツにおいて、「話題」というキーワードに対して関連度の高いキーワードが、特定の期間に「国会」→「サッカー」→「台風」の順に変化したとする。この場合に、従来の検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツに合わせて、上記の特定の期間が1つの時間区間に含まれるような固定時間を決定する。その結果、「国会」、「サッカー」及び「台風」の中から、「話題」に対して最も関連度の高いキーワードが、関連キーワードとして提示されてしまう。すなわち、「話題」に対して最も時事性に適した関連キーワードである「台風」ではなく、「国会」又は「サッカー」が提示される場合がありえる。
 一方、従来の検索装置が、キーワード構成が大きく変化する頻度の高いコンテンツに適合するように固定時間を決定すると、検索装置は、複数の時間区間において同一の関連キーワードを提示してしまう。例えば、従来の検索装置が、キーワード構成が大きく変化する頻度の高い「ニュースジャンル」のコンテンツに合わせて固定時間を決定した場合、検索装置は、キーワード構成が大きく変化する頻度の低い「ドラマジャンル」のコンテンツにおいて、複数の時間区間に同一の関連キーワードを提示する。検索装置が、ユーザに一度に提示できるキーワードの数には限りがあるので、同一のキーワードを複数提示することは、ユーザの選択肢の幅を狭めることにつながる。その結果、ユーザがキーワードを選択する際に、余分な検索ステップを生じさせる可能性が高くなる。すなわち、従来の検索装置では、ユーザは効率的にコンテンツを検索することができない。
 そこで、本発明は、上記課題を解決するものであって、時事性に適合した関連キーワードを効率的にユーザに提示することができるコンテンツ検索装置を提供する。
 上記目的を達成するために、本発明に係るコンテンツ検索装置は、コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と、を備えることを特徴とする。
 これにより、キーワード構成が変化する頻度が異なる属性のコンテンツが混在して記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツ属性ごとに算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
 具体的には、キーワード構成が大きく変化する頻度が高い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、キーワード構成が大きく変化する頻度が低い属性のコンテンツの場合、コンテンツ検索装置は、他の属性よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。
 さらに、キーワード構成が非周期的に変化する属性のコンテンツが記憶されるコンテンツデータベースからコンテンツを検索する場合に、コンテンツ検索装置は、コンテンツキーワード構成の変化に応じて算出した関連区間に基づいて、辞書データベースを更新することにより、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
 具体的には、短い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも短い時間の関連区間となるように辞書データベースを更新するので、時事性に適合したキーワードをユーザに提示することが可能となる。一方、長い周期でキーワード構成が変化しているときは、コンテンツ検索装置は、他よりも長い時間の関連区間となるように辞書データベースを更新するので、複数の関連区間に同一のキーワードを提示しないように、つまり、効率的にキーワードを提示することが可能となる。
 また、前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出することを特徴としてもよい。
 これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回更新時に算出された関連区間とのキーワード構成の相違度に基づいて新たな関連区間が決定されるので、時事性に適合した関連キーワードを効率的にユーザに提示することが可能となる。
 また、前記関連区間算出手段は、前記第1キーワードのうち出現頻度が高い所定の数のキーワードと、前記第2キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出することを特徴としてもよい。
 これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、新たな時間区間と前回コンテンツが更新された時に算出された関連区間とに含まれるキーワード数の差異に関わらず、相違度を算出することができる。
 また、前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出することを特徴としてもよい。
 これにより、新たな時間区間のコンテンツがコンテンツデータベースに追加される場合に、前回コンテンツが更新された時に算出された関連区間に関係なく、コンテンツ検索装置は、コンテンツデータベースに記憶されている最新のコンテンツと新たに追加されるコンテンツとのキーワード構成の相違度を算出することができる。したがって、コンテンツ検索装置は、より時事性に適したキーワードを提示することが可能となる。
 また、前記コンテンツ検索装置は、さらに、ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成することを特徴としてもよい。
 これにより、ユーザが入力したキーワードからコンテンツ属性を取得することができるので、コンテンツ検索装置は、ユーザの入力に適した関連キーワードを提示することが可能となる。
 また、前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成することを特徴としてもよい。
 これにより、複数のコンテンツ属性の関連キーワードをユーザに同時に提示することが可能となるので、コンテンツ検索装置は、ユーザが求める関連キーワードを提示できる可能性を高めることができる。
 本発明によると、キーワード構成が大きく変化する頻度が異なるコンテンツ属性のコンテンツが記憶されるコンテンツデータベースから所望のコンテンツを検索する際に、時事性に適合した関連キーワードを効率的に提示することが可能となる。
図1は、本発明の実施の形態に係るコンテンツ検索装置の機能構成を示すブロック図である。 図2は、コンテンツデータベースの一例を示す図である。 図3は、関連語辞書の概念図である。 図4は、関連語辞書の一例を示す図である。 図5は、コンテンツ検索装置の処理の流れを示すフローチャートである。 図6は、関連区間算出部による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。 図7は、関連区間算出部による変化率の算出に関する処理(図6に示したステップS204)の流れを示すフローチャートである。 図8は、初期検索画面の一例を示す図である。 図9は、検索画面の一例を示す図である。 図10は、検索画面の一例を示す図である。 図11(a)、図11(b)及び図11(c)は、関連区間算出方法を説明するための図である。 図12(a)及び図12(b)は、関連区間算出方法を説明するための図である。 図13は、複数属性における関連キーワードの提示画面の一例である。 図14(a)は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例である。図14(b)は、本発明の実施の形態に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例である。 図15は、本発明の変形例1に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理の概念図である。 図16は、本発明の変形例1に係るコンテンツデータベース更新部によるコンテンツ属性を生成する処理を説明するための図である。 図17は、本発明の変形例2に係る関連区間算出部による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。 図18は、本発明の変形例2における文書行列の一例を示す図である。 図19は、本発明の変形例2における文書行列を取得する処理を説明するための図である。
符号の説明
20 コンテンツID
21 コンテンツ属性
22 タイトル
23 放送日
24 キーワード
25 概要
31、32 区間辞書
41 コンテンツ属性
42 関連区間
43 キーワード
44 関連キーワード
45 関連度
70 コンテンツリスト
71 関連キーワードリスト
100 コンテンツ検索装置
101 コンテンツデータベース
102 辞書データベース
102a 関連語辞書
103 入力部
104 入力選別部
105 コンテンツデータベース更新部
106 関連区間算出部
107 辞書更新部
108 属性取得部
109 関連キーワード取得部
110 出力生成部
111 出力部
121、122、123、124、125、126 時間区間
1001 前回更新区間
1002、1102 追加区間
1003、1004 新関連区間
1101 前回コンテンツ更新区間
1103 キーワード比較区間
 以下、本発明の実施の形態におけるコンテンツ検索装置について、図面を用いて詳細に説明する。
 (実施の形態)
 図1は、本発明の実施の形態に係るコンテンツ検索装置100を示す構成図である。図1に示すように、コンテンツ検索装置100は、コンテンツデータベース101、辞書データベース102、入力部103、入力選別部104、コンテンツデータベース更新部105、関連区間算出部106、辞書更新部107、属性取得部108、関連キーワード取得部109、出力生成部110、及び出力部111を備える。
 以下、図1に示した、コンテンツ検索装置100の各構成の詳細について順に説明する。
 コンテンツデータベース101は、検索対象となる動画、画像、音楽、テキスト等のコンテンツと、そのコンテンツの内容を示すコンテンツ付属情報とを記憶するデータベースである。ここで、コンテンツ付属情報とは、キーワード、コンテンツ属性等のコンテンツの内容を示す情報をいう。なお、コンテンツ属性とは、コンテンツを分類するためのカテゴリー情報のことをいう。例えば、テレビ番組に関するコンテンツの場合、EPG(Electronic Program Guide)に記載されている「ジャンル」が、コンテンツ属性となる。
 図2にコンテンツデータベースに記憶されたコンテンツ付属情報の一例を示す。コンテンツデータベース101は、動画等のコンテンツに加え、図2に示すようなコンテンツID20、コンテンツ属性21、タイトル22、放送日23、キーワード24、概要25を含むコンテンツ付属情報を記憶する。放送日23は、コンテンツの時間に関する情報を示す時間情報の一例である。ここで時間情報とは、コンテンツに関する時を示す情報である。なお、時間情報は、放送日である必要はなく、コンテンツがコンテンツデータベース101に登録された日時等であってもよい。キーワード24は、コンテンツの内容を示す単語(キーワード)を示す。例えば、キーワード24には、EPGに予め付属しているキーワードが記憶される。また、キーワード24には、タイトル22又は概要25に対して形態素解析などを実行することにより抽出されるキーワードが記憶されてもよい。
 辞書データベース102は、コンテンツデータベース101に記憶されているキーワード間の関連度等を記憶したデータベースである。具体的には、辞書データベース102は、コンテンツを分類するためのコンテンツ属性ごと、及び、所定の時間区間を表す関連区間ごとに、時間情報により示される時がその関連区間に含まれるコンテンツであってコンテンツ属性により示される分類に属するコンテンツに対応する複数のキーワード間の関連度を記述した関連語辞書102aを記憶する。この関連語辞書102aは、コンテンツ属性内及びコンテンツ属性間において、時間の長さが異なる関連区間を用いて、キーワード間の関連度を記憶することができる。なお、関連区間とは、キーワード間の関連度を算出するための時間区間のことをいう。
 図3に、コンテンツデータベース101に「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」の4つのコンテンツ属性のコンテンツが存在する場合の関連語辞書102aの概念図を示す。図3に示すように、関連語辞書102aは、4つのコンテンツ属性に分類されている。そして、各コンテンツ属性内には、区間辞書31(N1)、区間辞書32(N2)等のように、関連区間の時間の長さが異なる区間辞書が記憶されている。また、各関連区間は、各コンテンツ属性(「ニュース」、「スポーツ」、「バラエティ」及び「趣味・教養」)ごとに、時間の長さが異なる。
 図4に、辞書データベース102に記憶される関連語辞書102aの一例を示す。図4に示すように、関連語辞書102aには、コンテンツ属性41、関連区間42、キーワード43、関連キーワード44、関連度45が含まれる。例えば、コンテンツ属性41が「ニュース」の場合、関連区間42が「2007/9/10~2007/9/12」のキーワード43「ニュース」に関連のある関連キーワード44「秋」の関連度45は「0.94」である。図4に示すような関連語辞書102aを参照することによって、関連キーワード取得部109は、ユーザが選択したキーワードに対する関連キーワードを取得することができる。
 図1に示した入力部103は、ユーザの操作入力及びコンテンツデータベースの更新に関する情報を受け取り、受け取った情報を入力選別部104に通知する。
 入力選別部104は、入力部103から受け取った情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する。選別方法に関しては後述する。
 コンテンツデータベース更新部105は、入力選別部104が、入力部103から受け取った情報を、「コンテンツデータベース更新」と選別した場合に、コンテンツデータベース101に記憶されたコンテンツ及びコンテンツ付属情報を更新する。
 なお、コンテンツデータベース更新部105は、コンテンツサーバーが配信する全ての取得対象データをコンテンツデータベース101に複製する。すなわち、更新以前に保持しているデータは一旦全て削除し、新たに上書きを行う。
 例えばテレビ放送の視聴予約用途において本発明を用いる場合は、テレビ放送のデータベース特性(放送日以前のデータ無し)により、更新日時以降のデータだけが機器側のコンテンツデータベース101に蓄積される。一方でVOD(Video on Demand)のような蓄積型コンテンツの場合は、取得対象となるコンテンツサーバーからコンテンツが削除された際に、機器側のコンテンツデータベース101からもコンテンツが削除されることになる。
 関連区間算出部106は、コンテンツデータベース更新部105がコンテンツデータベース101を更新した場合に、コンテンツデータベース101および辞書データベース102を参照することにより、コンテンツ属性ごとに新たな関連区間を算出する。具体的には、関連区間算出部106は、コンテンツ属性ごとに、新たにコンテンツデータベース101に記憶されるコンテンツ(第1コンテンツ)の内容を示す複数のキーワード(第1キーワード)と、すでにコンテンツデータベース101に記憶されたコンテンツ(第2コンテンツ)の内容を示す複数のキーワード(第2キーワード)と、の相違度を算出する。そして、関連区間算出部106は、算出された第1キーワードと第2キーワードとの相違度が所定基準値を満たすか否かに基づいて、新たな関連区間を算出する。つまり、関連区間算出部106は、第1キーワードと第2キーワードとの相違度が小さいほど、第1コンテンツと第2コンテンツとが同一の時間区間に含まれるように新たな関連区間を算出する。なお、関連区間の詳細な算出方法は後述する。
 辞書更新部107は、関連区間算出部106が算出した新たな関連区間に含まれるコンテンツにおいて、キーワード間の関連度を算出する。そして、辞書更新部107は、算出された新たな関連区間の関連度を、キーワード及び関連キーワードとともに関連語辞書102aに登録する。なお、キーワード間の関連度は、単語の共起度(2つの単語が互いに同一コンテンツに出現する度合い)に基づいて算出される。したがって、同一コンテンツの中において、同時に現れる回数の多いキーワードの組合せほど、関連度の値が大きくなる。例えば、辞書更新部107は、非特許文献1「ドキュメント中に出現する単語間の関連性に基づく連想検索のためのメタデータ空間生成方式」(本間秀典ら、第16回データ工学ワークショップ(DEWS2005)、6A-o2、電子情報通信学会、2005)に記載の方法等を利用して、キーワード間の関連度を算出する。
 属性取得部108は、入力選別部104が、入力部103から受け取った情報を「キーワード選択」と選別した場合に、ユーザが入力部103において選択したキーワードのコンテンツ属性を取得する。コンテンツ属性の判定方法は後述する。
 関連キーワード取得部109は、関連語辞書102aを参照することにより、属性取得部108が取得したコンテンツ属性、及びユーザが入力部103において選択したキーワードに対応する関連キーワード及び関連度を取得する。
 出力生成部110は、入力選別部104が、入力部103から受け取った情報を「キーワード選択」と選別した場合には、関連キーワード取得部109により取得された関連キーワードを関連区間ごとに関連度に応じて表示するための出力情報を生成する。例えば、出力生成部110は、関連度が高い関連キーワードから順に表示するための出力情報を生成する。また、例えば、出力生成部110は、関連度が高い関連キーワードほど大きな文字で表示するための出力情報を生成してもよい。また、出力生成部110は、入力選別部104が、入力部103から受け取った情報を「コンテンツ選択」と選別した場合には、ユーザが入力部103において入力した情報に対応する番組等のコンテンツを表示するための出力情報を生成する。
 出力部111は、出力生成部110が生成した出力情報を出力媒体へ出力する。出力媒体には、例えばテレビなどのモニタを用いる。
 次に、以上のように構成されたコンテンツ検索装置100の動作について説明する。
 図5は、図1のコンテンツ検索装置100が実行する全体的な処理の流れを示すフローチャートである。
 まず、入力部103は、ユーザからの操作入力を受け取り、受け取った情報を入力選別部104に通知する(ステップS101)。次に、入力選別部104は、入力部103から通知された情報が、「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれの処理を示す情報であるかを選別する(ステップS102)。
 ここで、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると選別した場合(ステップS103のYes)、属性取得部108は、ユーザが入力部103において選択したキーワード及びキーワードのコンテンツ属性を取得する(ステップS108)。続いて、関連キーワード取得部109は、取得したコンテンツ属性と関連語辞書102aとに基づいて、関連キーワードを取得する(ステップS109)。そして、出力生成部110は、取得した関連キーワードを出力するための出力情報を生成する(ステップS110)。最後に、出力部111は、出力生成部110が生成した出力情報を出力媒体に出力し(ステップS111)、処理を終了する。
 一方、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると選別しなかった場合(ステップS103のNo)、入力選別部104は、入力部103から受け取った情報を「データベース更新」であると選別したか否かを判別する(ステップS104)。
 ここで、入力選別部104が、入力部103から受け取った情報を「データベース更新」であると選別した場合(ステップS104のYes)、コンテンツデータベース更新部105は、コンテンツデータベース101を更新する(ステップS105)。続いて、関連区間算出部106は、関連語辞書102aに設定される関連区間を算出する(ステップS106)。なお、ステップS106の詳細な処理フローは後述する。そして、算出された関連区間に基づいて、辞書更新部107は、関連語辞書102aを更新し(ステップS107)、処理を終了する。
 一方、入力選別部104が、入力部103から受け取った情報を「データベース更新」であると選別しなかった場合(ステップS104のNo)、すなわち、「コンテンツ選択」であると選別した場合、出力生成部110は、ユーザが入力部103において入力した情報に該当する番組を表示するための出力情報を生成する(ステップS110)。そして、出力部111は、出力生成部110が生成した出力情報を出力媒体に出力し(ステップS111)、処理を終了する。
 図6は、関連区間算出部106による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。
 まず、関連区間算出部106は、関連語辞書102aにおいて前回更新された関連区間(以下、前回更新区間という)をコンテンツ属性ごとに取得する(ステップS201)。次に、関連区間算出部106は、取得した前回更新区間のキーワードの一覧であるキーワードリストをコンテンツ属性ごとに作成する(ステップS202)。なお、前回更新区間のキーワードが、コンテンツデータベース101に記憶された第2コンテンツの内容を示す複数の第2キーワードに対応する。続いて、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツのキーワードの一覧であるキーワードリストをコンテンツ属性ごとに取得する(ステップS203)。なお、新たに追加されるコンテンツのキーワードが、コンテンツデータベース101に記憶される第1コンテンツの内容を示す複数の第1キーワードに対応する。
 次に、関連区間算出部106は、ステップS202において作成されたキーワードリストと、ステップS203において作成されたキーワードリストとを比較して、キーワード構成の変化率を算出する(ステップS204)。なお、キーワード構成の変化率は、相違度の一例である。
 ここで、算出した変化率が所定の閾値を超える場合(ステップS205のYes)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する(ステップS206)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間を新たな関連区間として算出する。なお、コンテンツに対応する時間区間とは、当該コンテンツの時間情報が示す時が含まれる時間区間を示す。例えば、2007年9月10日及び11日に放送されるコンテンツがコンテンツデータベース101に新たに追加される場合、コンテンツに対応する時間区間は、2007年9月10日~11日である。
 一方、算出した変化率が所定の閾値以下である場合(ステップS205のNo)、関連区間算出部106は、前回更新区間とコンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する(ステップS207)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間と第2コンテンツに対応する時間区間とを含む時間区間を新たな関連区間として算出する。このように関連区間算出部106により関連区間が算出された後、図5に示すステップS107の処理が実行される。
 図7は、関連区間算出部106による変化率の算出に関する処理(図6に示したステップS204)の流れを示すフローチャートである。
 まず、関連区間算出部106は、ステップS203において作成された追加コンテンツのキーワードリストから、まだ、以下の処理(ステップS302~S308)が実行されていないキーワード(新規キーワード候補)を取得する(ステップS301)。さらに、関連区間算出部106は、ステップS202において作成された前回更新区間のキーワードリストから、まだ、以下の処理(ステップS303~S305)が実行されていないキーワード(比較キーワード)を取得する(ステップS302)。
 次に、関連区間算出部106は、ステップS301及びステップS302において取得した新規キーワード候補と比較キーワードとが、部分一致するか否かを判定する(ステップS303)。なお、部分一致とは、4文字以上のキーワードにおいて、8割以上の文字数の文字が一致することをいう。
 ここで、新規キーワード候補と比較キーワードとが部分一致する場合(ステップS303のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが部分一致しない場合(ステップS303のNo)、関連区間算出部106は、新規キーワード候補と比較キーワードとが、類義語一致するか否かを判定する(ステップS304)。なお、類義語一致とは、新規キーワード候補の類義語と比較キーワードとが一致することをいう。
 ここで、新規キーワード候補と比較キーワードとが類義語一致する場合(ステップS304のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが類義語一致しない場合(ステップS304のNo)、関連区間算出部106は、新規キーワード候補と比較キーワードとが、表記ゆれ一致するか否かを判定する(ステップS305)。なお、表記ゆれ一致とは、新規キーワード候補を、ひらがな、かたかな、漢字又はローマ字を用いて置換したキーワードが、比較キーワードと一致することをいう。
 ここで、新規キーワード候補と比較キーワードとが表記ゆれ一致する場合(ステップS305のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードではないと判断する(ステップS308)。一方、新規キーワード候補と比較キーワードとが表記ゆれ一致しない場合(ステップS305のNo)、関連区間算出部106は、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する(ステップS306)。
 ここで、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得していない場合(ステップS306のNo)、再度ステップS302のキーワードの取得から処理が繰り返される。一方、前回更新区間のキーワードリストに含まれるすべてのキーワードを取得している場合(ステップS306のYes)、関連区間算出部106は、新規キーワード候補を新規キーワードであると判断する(ステップS307)。
 次に、関連区間算出部106は、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得したか否かを判定する(ステップS309)。ここで、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得していない場合(ステップS309のNo)、再度ステップS301のキーワードの取得から処理が繰り返される。一方、追加コンテンツのキーワードリストに含まれるすべてのキーワードを取得している場合(ステップS309のYes)、関連区間算出部106は、ステップS307において新規キーワードであると判断されたキーワードの数を、前回更新区間のキーワードリストに含まれるキーワードの数を用いて除することにより、変化率を算出する(ステップS310)。
 このように関連区間算出部106により関連区間が算出された後、図5に示すステップS107の処理が実行される。
 次に、図8~図10を用いてコンテンツ検索装置100が出力する画面について説明する。図8~図10は、ユーザが、視聴可能なテレビ番組の中からニュース番組に関連する番組を視聴したい場合の、コンテンツ検索が出力する画面の遷移を示す図である。
 検索開始の際、コンテンツ検索装置100は、ユーザに対して図8に示す初期検索画面を提示する。この初期検索画面の中に提示される初期検索キーワードは、例えば、「スポーツ」、「ドキュメンタリー」等のジャンルを示すキーワードである。ユーザは、提示されたキーワードの中からニュース番組が見たいと思った場合、初期検索キーワードの中から「ニュース」を選択する。
 図9は、ユーザが初期検索キーワードを選択した後に、コンテンツ検索装置100が提示する検索画面である。この検索画面には、選択したキーワード(ニュース)に関するコンテンツリスト70及び関連キーワードリスト71が、それぞれ提示される。なお、関連キーワードリスト71には、関連キーワードが、関連区間ごとに、関連度の高い順に提示される。
 ユーザは、この検索画面中に見たいコンテンツがある場合、コンテンツリスト70の中からコンテンツを選択する。一方、ユーザは、この検索画面中に見たいコンテンツがない場合、関連キーワードリスト71の中から見たいコンテンツに関連するキーワードを選択する。
 図9に示す検索画面において、ユーザがコンテンツリスト70の中からコンテンツを選択した場合、コンテンツ検索装置100は、選択したコンテンツを表示し、検索処理を終了する。一方、ユーザが関連キーワードリスト71の中から任意の関連キーワードを選択した場合、コンテンツ検索装置100は、選択されたキーワードに基づいて、再度コンテンツリストと関連キーワードとが表示された画面を提示する。例えば、図9に示す検索画面において、ユーザが関連キーワードリスト71の中から国会72を選択した場合、図10に示すように、コンテンツ検索装置100は、「国会」に関するコンテンツと「国会」に関連するキーワードとを関連区間ごとに提示する。
 以上のように、ユーザはシステムが提示する関連キーワードの選択を繰り返しながら、自分が見たいコンテンツを検索する。
 次に、図5及び図6に示したコンテンツ検索装置100の処理について、図8~図10に示した画面を用いて、さらに具体的に説明する。
 図5のステップS101において、入力部103は、ユーザによるシステムへの入力情報を受け取る。具体的には、ユーザが、図8の初期検索画面において選択した「ニュース」、図9の検索画面において選択した「国会」等のキーワードが入力情報となる。また、ユーザが、図9に示したコンテンツリスト70から選択したコンテンツも入力情報となる。さらにまた、図示はしていないが、ユーザが、コンテンツデータベース更新を選択した場合は、その選択も入力情報となる。
 なお、本実施の形態においては、ユーザの入力があった場合に、コンテンツ検索装置100が、コンテンツデータベース101を更新するとしているが、任意の時間になれば、コンテンツ検索装置100が、コンテンツデータベース101を更新するようにしてもよい。また、コンテンツ検索装置100と異なる他の装置が、コンテンツ検索装置にコンテンツデータベース101の更新を要求すれば、コンテンツ検索装置100が、コンテンツデータベース101を更新するようにしてもよい。このような場合、コンテンツデータベース101への新たなコンテンツの入力が、入力情報となる。
 図5のステップS102において、入力選別部104は、ステップS101から受け取った入力情報を「キーワード選択」、「コンテンツ選択」及び「コンテンツデータベース更新」のいずれかに選別する。具体的には、「キーワード選択」は、例えば、図9の検索画面において、ユーザが関連キーワードリスト71の中から、いずれかのキーワードを選択した場合に選別される。また、「コンテンツ選択」は、例えば、図9に示した検索画面において、ユーザがコンテンツリスト70の中から、いずれかのコンテンツを選択した場合に選別される。また、「コンテンツデータベース更新」は、例えば、図示していないが、ユーザがコンテンツデータベースの更新を選択した場合に選別される。
 図5のステップS103において、入力選別部104は、ステップS102における選別が「キーワード選択」であるか否かを判別する。ここで、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると判別した場合、入力選別部104は、該当する選択キーワードを属性取得部108へ渡す。そして、処理はステップS108へ進む。一方、入力選別部104が、入力部103から受け取った情報を「キーワード選択」であると判別しなかった場合、処理はステップS104へ進む。具体的には、例えば、ユーザが図8の初期検索画面において「ニュース」のキーワードを選択した場合、又は、ユーザが図9の検索画面において「国会」のキーワードを選択した場合、入力選別部104は、いずれも「キーワード選択」と選別する。そして、入力選別部104は、「ニュース」又は「国会」のキーワードを属性取得部108へ渡す。そして、処理はステップS108に進む。
 図5のステップS104において、入力選別部104は、ステップS102における選別が「コンテンツデータベース更新」であるか否かを判別する。ここで、入力選別部104が、入力部103から受け取った情報を「コンテンツデータベース更新」と判別した場合、処理はステップS105へ進む。一方、入力選別部104が、入力部103から受け取った情報を「コンテンツデータベース更新」でないと判別した場合、すなわち、入力選別部104がステップS102において、入力部103から受け取った情報を「コンテンツ選択」であると選別していた場合には、入力選別部104は、ユーザが選択したコンテンツに対応するコンテンツIDを、コンテンツデータベース101から取得する。そして、入力選別部104は取得したコンテンツIDを出力生成部110へ渡す。その後、処理はステップS109へ進む。例えば、図10の検索画面において、ユーザが「サンデードキュメンタリー」という番組を選択した場合、入力選別部104は、選択した番組に対応するコンテンツIDをコンテンツデータベース101から取得し、取得したコンテンツIDを出力生成部110へ渡す。その後、処理はステップS110へ進む。一方、ユーザが番組を選択していない場合、すなわちコンテンツデータベース更新を選択した場合、入力選別部104は更新データをコンテンツデータベース更新部105へ渡す。そして、処理はステップS105へ進む。
 図5のステップS105において、コンテンツデータベース更新部105は、ステップS104の処理により取得された更新データをコンテンツデータベース101に追加する。
 図5のステップS106において、関連区間算出部106は、ステップS105において、コンテンツデータベース更新部105がコンテンツデータベース101に新たに追加した更新データに基づいて関連区間を算出する。
 ここで、ステップS106における処理を、以下に詳述する。
 図6のステップS201において、関連区間算出部106は、関連語辞書102aに含まれる前回更新された関連区間を、「ニュース」及び「スポーツ」などのコンテンツ属性ごとに取得する。具体的には、関連区間算出部106は、図4に示した関連語辞書102aに記憶されたデータの中から、コンテンツ属性ごとに最新の関連区間42を取得する。なお、図11(a)に示すように、ここで取得する関連区間を前回更新区間1001(tn-2~tn-1)とする。
 次に、図6のステップS202において、関連区間算出部106は、ステップS201において取得された関連区間に含まれるコンテンツのキーワードリストを、コンテンツ属性ごとに作成する。具体的には、例えば、関連区間算出部106は、図4に示した関連語辞書102aを参照して、前回更新区間1001に対応するキーワード43を、コンテンツ属性ごとに取得すればよい。
 次に、図6のステップS203において、関連区間算出部106は、図5のステップS104において取得された更新データに対応するキーワードリストを、コンテンツ属性ごとに作成する。
 以上のように、図6のステップS201~S203の処理によって、コンテンツ属性ごとに、前回更新区間におけるキーワードリストと、今回新たに更新されるコンテンツに対応するキーワードリストとが作成される。
 次に、図6のステップS204において、関連区間算出部106は、ステップS202において作成されたキーワードリストと、ステップS203において作成されたキーワードリストとを比較し、キーワード構成の変化率を算出する。ここで、キーワード構成の変化率とは、相違度の一例である。具体的には、今回新たに更新されるコンテンツのキーワードのうち、前回更新区間1001に係るキーワードリストに含まれていないキーワードの数を分子とし、前回更新区間1001に係るキーワードリストに含まれるキーワードの数を分母として、算出される値である。例えば、ステップS203において作成された今回新たに更新されるコンテンツから得られるキーワードリストのうち、前回更新区間1001のキーワードリストに含まれていない新しいキーワードの数が40個であり、前回更新区間1001のキーワードリストに含まれるキーワードの数が200個である場合、キーワード構成の変化率は0.2となる。なお、新しいキーワードの数は、図7に示した処理に基づいて算出される。
 次に、図6のステップS205において、関連区間算出部106は、ステップS204において取得されたキーワード構成の変化率が所定の閾値を超えるか否かを判定する。図6のステップS205において変化率が所定の閾値以上であると判定された場合は、図6のステップS206において、関連区間算出部106は、新たに追加されたコンテンツに対応する時間区間のみを新たな関連区間として算出する。
 一方、図6のステップS205において変化率が所定の閾値を下回ると判定された場合は、図6のステップS206において、関連区間算出部106は、前回更新した区間と今回新たに更新されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。
 具体的には、今回新たに更新されるコンテンツに対応する時間区間を追加区間1002(tn-1~tn)とした場合、関連区間算出部106は、キーワード構成の変化率が閾値以上のときは、図11(b)に示すように、追加区間1002と同一の新関連区間1003(tn-1~tn)を新たな関連区間として算出し、変化率が閾値を下回るときは、図11(c)に示すように、前回更新区間1001と追加区間1002とを足し合せた新関連区間1004(tn-2~tn)を新たな関連区間として算出する。
 なお、一般的にキーワード構成の変化率が大きくなる頻度は、コンテンツ属性によって大きく異なる。例えば「ニュース」などの時事性の高いコンテンツは日々新しい話題が提供されるため、キーワード構成の変化率が大きくなる時間間隔は短くなる。一方、「バラエティ」や「スポーツ」などのコンテンツは、「ニュース」と比較してキーワード構成の変化率が大きくなる時間間隔は長くなる。これは、スポーツコンテンツがシーズンごとに大きく変化する点、バラエティコンテンツが3ヶ月に一度番組改編される点等に起因する。キーワード構成が変化すると、キーワード間の関連度も変化する。したがって、時事性のあるキーワードを提示するためには、コンテンツ検索装置100は、キーワード構成の変化に応じて関連区間を変更した関連語辞書102aを用いて、関連キーワードを生成することが望ましい。上述のように、関連区間算出部106は、コンテンツ属性ごとのキーワード構成の変化率に基づいて、関連区間を算出することができるので、コンテンツ検索装置100は、時事性のあるキーワードを提示することが可能となる。
 以上の図6に示したステップS201~S207の処理を行うことにより、図5のステップS106において、関連区間算出部106は、コンテンツデータベース101に新たに追加するコンテンツに対応する関連語辞書102aの関連区間を算出することができる。
 なお、上記の図6のステップS204の説明において、2つの比較するキーワードリストに含まれるキーワードの数について特に規定していなかったが、出現頻度の高い所定の数のキーワードのみを対象として変化率を算出してもよい。具体的には、関連区間算出部106は、ステップS202において作成されたキーワードリストの中において出現頻度上位n個のキーワードと、ステップS203において作成されたキーワードリストのうち出現頻度上位n個のキーワードとを比較し、キーワード構成の変化率を算出する。例えば、ステップS203において作成されるキーワードリストの中において出現頻度上位100個のキーワードのうち、前回更新区間のキーワードリストの中において出現頻度上位100個のキーワードに含まれていない新しいキーワードの数が40個である場合、キーワード構成の変化率は0.4となる。
 また、上記の図6のステップS201において、関連区間算出部106は、関連語辞書102aの最新の関連区間を前回更新区間として取得していたが、コンテンツデータベース101において前回更新されたコンテンツに対応する時間区間に含まれる、所定の長さの時間区間を前回更新区間としてもよい。具体的には、図12(a)に示すような場合、関連区間算出部106は、図12(b)に示すキーワード比較区間1103(tn-2~tn-1)を取得する。つまり、コンテンツデータベース101において前回更新されたコンテンツに対応する時間区間である前回コンテンツ更新区間1101(tn-3~tn-1)が最小時間単位の2倍の長さの時間区間である場合、関連区間算出部106は、前回コンテンツ更新区間のうち、追加区間1102に近い方から最小時間単位分の時間区間を取得する。
 最小時間単位での変化率の比較は、キーワード関連度の微細な変化に対応した関連区間を設定することができる。これにより、例えばコンテンツの内容が変化する頻度が全体的に高いブログ(blog)等のコンテンツの検索において、コンテンツ検索装置は、ユーザに常に新しい関連キーワードを提示することが可能となる。
 続いて、図5のステップS107において、辞書更新部107は、ステップS105において算出された関連区間に基づいて、関連語辞書を更新する。辞書作成方法は、図1において説明した通りである。
 図5のステップS108において、属性取得部108は、ステップS103において取得されたキーワードのコンテンツ属性を判定する。そして、属性取得部108は、キーワードと判定したコンテンツ属性とを関連キーワード取得部109へ渡す。その後、処理はステップS109へ進む。コンテンツ属性の判定の具体例としては、図8の初期検索画面において提示するキーワードがコンテンツ属性と共通するキーワードである場合、属性取得部108は、ユーザが初期検索画面において選択したキーワードを、コンテンツ属性として判定すればよい。また、図8に示した初期検索画面において「ニュース」を選択した場合、図9に示した検索画面において、ユーザが選択する関連キーワードのコンテンツ属性は「ニュース」と判定する。これは、最初に選択した「スポーツ」というコンテンツ属性のコンテンツを絞り込むという検索になり、絞込検索の場合に有効である。
 図5のステップS109において、関連キーワード取得部109は、辞書データベース102を参照することにより、ステップS103において取得されたキーワードと、ステップS108において取得されたキーワード属性とに対応する関連キーワードを取得する。そして、関連キーワード取得部109は、取得した関連キーワードを出力生成部110へ渡す。その後、処理はステップS110へ進む。具体的には、例えばユーザが図8の初期検索画面において「ニュース」を選択し、続いて図9の検索画面において「国会」を選択した場合、属性取得部108は、キーワード属性を「ニュース」と判定する。そして、関連キーワード取得部109は、図4に示した関連語辞書102aを参照することにより、コンテンツ属性「ニュース」とキーワード「国会」とに対応する関連キーワードの中から、関連度45の値が高いキーワードを取得する。例えば、関連キーワード取得部109は、2007年9月10日から12日までの関連区間において、「首相演説」、「政治」及び「年金」のキーワードを取得する。
 図5のステップS110において、出力生成部110は、ステップS109において関連キーワードが取得された場合は、取得した関連キーワードとコンテンツデータベース101とを用いて、例えば図9に示すような検索画面を出力するための出力情報を生成する。一方、ステップS104においてコンテンツIDが取得された場合は、出力生成部110は、取得されたコンテンツIDとコンテンツデータベース101とを用いてコンテンツを表示するための出力情報を生成する。
 図5のステップS111において、出力部111は、ステップS110において生成された出力情報をモニタ等に出力する。
 以上のステップS101~ステップS111の処理を実行することにより、コンテンツ検索装置100は、コンテンツ属性ごとに関連区間が異なる関連語辞書102aを参照することができるので、コンテンツ属性ごとに異なる時事性に適合した関連キーワードをユーザに提示することができる。
 なお、図5のステップS108において、属性取得部108は、上記において説明した方法とは異なる方法を用いてコンテンツ属性を取得してもよい。例えば、属性取得部108は、取得したキーワードが存在するコンテンツ属性のうち、キーワードの出現頻度が高いコンテンツ属性を複数取得してもよい。例えば、「国会」というキーワードが「ニュース」及び「バラエティ」の2つのコンテンツ属性に存在している場合、各コンテンツ属性の中において、「国会」というキーワードの出現頻度の順位が所定の閾値以上であるときには、2つのコンテンツ属性をキーワード属性として取得してもよい。この場合に出力される画面の一例を図13に示す。図13に示すように、出力部111は、「国会」というキーワードに対する関連キーワードを、「ニュース」及び「バラエティ」の各コンテンツ属性に対してそれぞれ出力する。したがって、ユーザはコンテンツ属性ごとに関連キーワードを選択することができる。そのため、コンテンツ検索装置100は、ユーザが意図しない関連キーワードの提示(例えば、ユーザがバラエティの関連キーワードを欲していたが、ニュースの関連キーワードが提示されること等)を回避することができる。その結果、コンテンツ検索装置100は、ユーザによる検索の戻り工数を削減することが可能になる。
 図14に本実施の形態のコンテンツ検索装置によって出力される関連キーワード、及び特許文献2に記載の従来技術による固定区間を用いて出力される関連キーワードを並べて出力した場合の出力例を示す。
 図14(a)は、従来技術に係るコンテンツ検索装置によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、2007年8月13日~9月12日までのデータを10日間に区切った時間区間121、122、123ごとに生成されている。
 図14(b)は、本実施の形態に係るコンテンツ検索装置100によって出力される関連キーワードの提示画面の一例である。図に示すように、各関連キーワードは、属性ごとのキーワード構成の変化率に基づいて算出された時間区間124、125、126において生成されている。
 データの内容変化の頻度に対して関連キーワードを作成する時間区間が短い場合(例えば、キーワード構成が20日間変化しない場合)には、図14(a)の時間区間121及び時間区間122に示される「選挙」等のように、コンテンツ検索装置は、複数の時間区間において同じキーワードを出力することになる。このような同一のキーワードが同一画面に複数出力されることは、ユーザの選択肢の幅が狭まることにつながる。その結果、ユーザが他のキーワードを選択したい場合に、余分な検索ステップを生じさせる可能性が高くなる。
 一方、本実施の形態に係るコンテンツ検索装置100は、コンテンツ属性ごとのキーワード構成の変化に対応して関連キーワードを生成する時間区間を決定する。したがって、コンテンツ検索装置100は、同一のキーワードを異なる時間区間に複数出力する可能性を低くすることができる。すなわち、図14(b)の時間区間124に示すように、キーワード構成の変化が小さい時間区間は、1つの時間区間124となる。その結果、時間区間124において提示されるキーワードと、時間区間124と隣接する時間区間125において提示されるキーワードとは異なるキーワードとなる。
 また、データの内容変化の頻度に対して関連キーワードを作成する時間区間が長い場合(例えば、キーワード構成の変化が5日間ごとに生じる場合)には、キーワード構成が変化する期間の前後に渡って関連度の高いキーワードが優先的に提示されてしまう。したがって、コンテンツ検索装置は、時事性に適合したキーワードを提示することができない。すなわち、図14(a)の時間区間123に示すように、キーワード構成変化後の時事性に適合したキーワード「首相演説」よりも、キーワード構成変化前に関連度の高いキーワード「アメリカ」が上位に提示されてしまう。この場合も上記と同様に、ユーザが他のキーワードを選択したい場合に、検索ステップ数が増加する可能性が高くなる。
 これに対し、本実施の形態に係るコンテンツ検索装置100は、キーワード構成の変化率に応じて、コンテンツ属性ごとに、関連キーワードを生成する時間区間を変更する。そのため、コンテンツ検索装置100は、時事性に適合した関連キーワードを提示することが可能になる。すなわち、図14(b)の時間区間125及び時間区間126に示すように、コンテンツ検索装置100は、キーワード構成が大きく変化した2007年9月10日を境に時間区間を変更できるため、最新の時間区間126において、時事性に適合したキーワード「首相演説」を提示することが可能となる。
 以上のように、本実施の形態のコンテンツ検索装置は、関連キーワードを生成するための関連語辞書を、新たに追加されるコンテンツと既に記憶されているコンテンツとのキーワード構成の相違度に応じた関連区間に基づいて更新するので、時事性に適合した関連キーワードを効率的にユーザに提示することができる。これにより、ユーザは、時事性の異なる複数のコンテンツ属性のコンテンツが含まれるコンテンツデータベースからコンテンツを検索する場合に、関連キーワードの選択を繰り返すことにより、対話的にコンテンツを絞り込むことが可能になる。
 (変形例1)
 次に、上記実施の形態の変形例1について図面を用いて説明する。
 本変形例に係るコンテンツ検索装置は、コンテンツデータベース更新部105がコンテンツ属性21を生成する点が、図1に示す実施の形態1に係るコンテンツ検索装置100と異なる。
 以下、本変形例に係るコンテンツデータベース更新部105によるコンテンツ属性21の生成に関する処理について説明する。
 本変形例に係るコンテンツデータベース更新部105は、コンテンツデータベース101に記憶されているコンテンツをクラスタリングすることにより、「クラスタラベル」をコンテンツ属性21として生成する。そして、コンテンツデータベース更新部105は、生成したコンテンツ属性21をコンテンツデータベース101に登録する。このようにコンテンツデータベース更新部105がクラスタリングすることにより、コンテンツ検索装置は、例えばスポーツ系の番組が集まったクラスタ(コンテンツ集合)又は映画系の番組が集まったクラスタなどのように、番組内容が近いコンテンツ同士を同じグループに分類することができる。すなわち、「クラスタラベル」はEPGの「ジャンル」と同等の情報であり、コンテンツ属性21の一例となる。なお、コンテンツデータベース更新部105が実行するクラスタリングの具体的な方法については、例えば非特許文献2「情報検索と言語処理」(徳永健伸、東京大学出版会、pp.60-65、1999))に記載の再配置法を用いればよい。
 図15は、コンテンツデータベース更新部105がクラスタラベルをコンテンツ属性21として生成する処理の概念図を示す。図15に示すように、コンテンツデータベース更新部105は、コンテンツデータベース101に記憶されているコンテンツ付属情報に含まれるキーワード等を用いてクラスタリングを行うことにより、クラスタを複数生成する。そして、コンテンツデータベース更新部105は、生成されたクラスタに対応するクラスタラベルを生成する。例えば、コンテンツデータベース更新部105は、ランダムに生成したクラスタラベル(CL1、CL2、CL3及びCL4)をクラスタに付与する。これにより、コンテンツデータベース101に記憶されている全てのコンテンツIDに対して、何れかのクラスタラベルが生成されることになる。そして、コンテンツデータベース更新部105は、生成されたクラスタラベルをコンテンツデータベース101にコンテンツ属性21として登録する。
 以上の処理によって、コンテンツデータベース更新部105は、EPGの「ジャンル」に相当するコンテンツ属性21を自動的に登録することができる。そのため、本変形例に係るコンテンツ検索装置は、予めコンテンツ属性が登録されていないコンテンツデータベース101であっても、関連キーワードを出力することが可能になる。
 なお、コンテンツデータベース更新部105は、クラスタラベルをデータベース更新の度に新たにコンテンツデータベース101に記憶される更新データに対して生成する。この際、図16に示すように、更新データに対するクラスタラベル(CL21、CL22及びCL23)と、すでにコンテンツデータベース101に記憶されている更新前のデータに対するクラスタラベル(CL11、CL12及びCL13)とでは、同じ内容のクラスタに対して異なるクラスタラベルが付与されてしまう可能性がある。例えば、更新前のスポーツ系のクラスタにはクラスタラベル「CL11」が付与されているが、更新データのスポーツ系のクラスタには「CL22」が付与されている。すなわち、同じ内容のクラスタに対して同じラベルが付与されていない。このような場合は、コンテンツデータベース更新部105は、まず初めに更新データの各クラスタと、更新前のデータの各クラスタとの類似度を算出する。続いて、コンテンツデータベース更新部105は、類似度の高いクラスタ同士のペアを作成する。そして、コンテンツデータベース更新部105は、作成したペアにおいて、更新前のクラスタラベルを更新データのクラスタラベルとして付与する。なお、類似度については、例えば各クラスタ間のコサイン尺度又は内積を用いる方法(非特許文献3「情報検索アルゴリズム」、北研二 他、共立出版、pp.60-63、2002)に記載の方法により算出されればよい。これにより、例えば上述の例のクラスタラベル「CL22」を「CL11」へ変換することができるように、コンテンツデータベース更新部105は、更新前後で内容の近いクラスタに対して同一のクラスタラベルを付与することができる。
 (変形例2)
 次に、上記実施の形態の変形例2について図面を用いて説明する。
 本変形例に係るコンテンツ検索装置は、関連区間算出部106により実行される処理の内容が実施の形態1に係るコンテンツ検索装置100と異なる。コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース101において関連区間が算出される場合、算出される関連区間は、キーワード数の大きなコンテンツに大きく影響されてしまう。そこで、本変形例に係る関連区間算出部106は、図5に示すステップS106において、コンテンツデータベース101にすでに記憶されている更新前のコンテンツとコンテンツデータベース101に新たに追加される追加コンテンツとの文書空間の類似度を用いて関連区間を算出する。
 以下、本変形例に係る関連区間算出部106による関連区間の算出に関する処理について説明する。
 図17は、関連区間算出部106による関連区間算出に関する処理(図5に示したステップS106)の流れを示すフローチャートである。図17において図6と同じステップについては同じ符号を付し、詳細な説明を省略する。
 まず、関連区間算出部106は、前回更新区間をコンテンツ属性ごとに取得する(ステップS201)。
 次に、関連区間算出部106は、取得した前回更新区間のコンテンツの文書行列をコンテンツ属性別に作成する(ステップS1701)。すなわち、関連区間算出部106は、コンテンツデータベースにすでに記憶された第2コンテンツの内容を示す複数の第2キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Aという。ここで文書行列とは、図18に示すように、各コンテンツにおけるキーワードの頻度情報(出現頻度、tf-idf等)を表す行列である。
 次に、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツの文書行列をコンテンツ属性別に作成する(ステップS1702)。すなわち、関連区間算出部106は、コンテンツデータベースに新たに記憶される第1コンテンツの内容を示す複数の第1キーワードを用いて、コンテンツ属性ごとに文書行列を作成する。以下、作成した文書行列を文書行列群Bという。
 次に、関連区間算出部106は、文書行列群A及びBの中から、同じコンテンツ属性の文書行列をそれぞれ取得する(ステップS1703)。以下、文書行列群A及びBの各々の中から取得した各文書行列を文書行列A1及びB1という。図19にステップS1703において取得された文書行列A1、B1の一例を示す。図に示すように、文書行列群A及びBには、それぞれ「スポーツ」及び「映画」のコンテンツ属性の文書行列が含まれる。そこでステップS1703において、コンテンツ属性が「スポーツ」の文書行列を文書行列群A及びBの中からそれぞれ選択することにより、コンテンツ属性「スポーツ」に対応する文書行列A1及びB1が取得される。
 次に、関連区間算出部106は、文書行列A1及びB1を用いて各文書行列の類似度を算出する(ステップS1704)。関連区間算出部106は、例えば、文書行列A1に対して行列B1の各文書ベクトルのコサイン距離を算出し、文書行列B1の全ての文書数に対してコサイン距離が閾値以上の文書が含まれる割合を類似度として算出する。
 ここで、算出した類似度が所定の閾値より小さい場合(ステップS1705のYes)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツ(第1コンテンツ)に対応する時間区間を新たな関連区間として算出する(ステップS206)。一方、算出した類似度が所定の閾値以上である場合(ステップS1705のNo)、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間と前回更新区間とを足し合わせた時間区間を、新たな関連区間として算出する(ステップS207)。すなわち、関連区間算出部106は、第1コンテンツに対応する時間区間と第2コンテンツに対応する時間区間とを足し合わせた時間区間を新たな関連区間として算出する。
 次に、関連区間算出部106は、ステップS1703においてコンテンツデータベース101に記憶されている全てのコンテンツ属性が選択されたか否かを判定する(ステップS1706)。ここで、全てのコンテンツ属性が選択されていない場合は(ステップS1706のNo)、ステップS1703の処理に戻る。一方、全てのコンテンツ属性が選択されている場合は(ステップS1706のYes)、図5に示すステップS107の処理が実行される。
 以上のステップS201、ステップS206、ステップS207及びステップS1701~S1706の処理が行われることにより、関連区間算出部106は、コンテンツ単位の類似度に応じた関連区間を算出することができる。これにより、コンテンツ間でキーワードの数が大きく異なるようなコンテンツデータベース101において関連区間が算出される場合であっても、関連区間の算出において、キーワード数の大きなコンテンツの影響を低減することができるため、関連区間の誤算出を防止することができる。
 なお、関連区間算出部106は、ステップS106において、更新前のコンテンツと追加コンテンツとのコンテンツタイトルの相違度が所定の基準値を満たすか否かに基づいて関連区間を算出しても良い。具体的には、関連区間算出部106は、前回更新区間のコンテンツのタイトルと新たに追加されるコンテンツのタイトルとの一致率を算出する。そして、一致率が閾値以上の場合には、関連区間算出部106は、前回更新区間とコンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間とを足し合わせた時間区間を、新たな関連区間として算出する。一方で、一致率が閾値より小さい場合には、関連区間算出部106は、コンテンツデータベース101に新たに追加されるコンテンツに対応する時間区間を新たな関連区間として算出する。これにより、同一タイトルの場合にコンテンツの内容が類似しているようなコンテンツが記憶されたコンテンツデータベース101において、関連区間算出部106は、関連区間を算出するための処理時間を大きく低減することができる。
 以上、本発明に係るコンテンツ検索装置について、実施の形態及びその変形例に基づいて説明したが、本発明は上記実施の形態及びその変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記実施の形態及びその変形例に施したもの、及び、異なる実施の形態及びその変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
 例えば、上記実施の形態では、コンテンツ検索装置にコンテンツデータベースが備えられていたが、コンテンツ検索装置とは異なる他の装置にコンテンツデータベースが備えられていてもよい。その場合、コンテンツ検索装置と他の装置とは、ネットワーク等を介して接続される。
 また、上記実施の形態のコンテンツ検索装置は、テレビ番組が記憶されているコンテンツデータベースから、所望のテレビ番組を検索していたが、映画、音楽等の視聴コンテンツ、本、論文等のテキストコンテンツ等が記憶されているコンテンツデータベースからコンテンツを検索してもよい。すなわち、本発明に係るコンテンツ検索装置が検索するコンテンツは、文字情報を有するコンテンツであればよい。
 なお、本発明は、上記のようなコンテンツ検索装置として実現することができるだけでなく、コンテンツ検索装置に含まれる特徴的な構成部の動作をステップとするコンテンツ検索方法として実現したり、コンテンツ検索方法に含まれる特徴的なステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD-ROM(Compact Disc-Read Only Memory)等の記録媒体やインターネット等の通信ネットワークを介して流通させることができる。
 本発明は、大量のコンテンツの中からユーザが利用したいコンテンツを検索するためのコンテンツ検索装置等として、例えば、テレビ番組が大量に記憶されたデータベースからユーザが見たい番組を検索する装置として、利用可能である。

Claims (10)

  1.  コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索するコンテンツ検索装置であって、
     所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースと、
     前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出手段と、
     前記関連区間算出手段により算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新手段と、
     前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成手段と
     を備えることを特徴とするコンテンツ検索装置。
  2.  前記関連区間算出手段は、前記相違度が所定基準値を超える場合には、前記第1コンテンツに対応する時間区間により定められる関連区間を算出し、前記相違度が所定基準値以下である場合には、前記辞書データベースに記憶された最新の関連区間と前記第1コンテンツに対応する時間区間とを足し合わせた時間区間により定められる関連区間を算出する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  3.  前記関連区間算出手段は、前記辞書データベースに記憶される最新の関連区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出する
     ことを特徴とする請求項2に記載のコンテンツ検索装置。
  4.  前記関連区間算出手段は、前記第1キーワードのうち出現頻度が高い所定の数のキーワードと、前記第2キーワードのうち出現頻度が高い所定の数のキーワードとの相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
     ことを特徴とする請求項3に記載のコンテンツ検索装置。
  5.  前記関連区間算出手段は、前記コンテンツデータベースに前回新たに加えられたコンテンツに対応する時間区間のうち、予め定められた長さの時間の時間区間に含まれるコンテンツを前記第2コンテンツとして、関連区間を算出する
     ことを特徴とする請求項2に記載のコンテンツ検索装置。
  6.  前記コンテンツ検索装置は、さらに、
     ユーザが入力したキーワードに関連するコンテンツ属性を取得する属性取得手段と、
     前記辞書データベースを参照することにより、前記ユーザが入力したキーワードと前記属性取得手段により取得されたコンテンツ属性とに対応する関連キーワードを、関連区間ごとに取得する関連キーワード取得手段とを備え、
     前記出力生成手段は、前記関連キーワード取得手段により取得された関連キーワードを出力するための前記出力情報を生成する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  7.  前記関連キーワード取得手段は、前記属性取得手段により複数のコンテンツ属性が取得された場合は、前記複数のコンテンツ属性の各々に対して関連キーワードを生成し、
     前記出力生成手段は、前記複数のコンテンツ属性の各々に対して生成された関連キーワードを、コンテンツ属性ごと、関連区間ごとに出力するための出力情報を生成する
     ことを特徴とする請求項6に記載のコンテンツ検索装置。
  8.  関連区間算出手段は、前記第1キーワードのうち前記第2キーワードと重複しないキーワードの数を、第2キーワードの数により除した値である相違度が所定基準値を満たすか否かに基づき、関連区間を算出する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  9.  コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツをコンピュータが検索するコンテンツ検索方法であって、
     前記コンピュータは、
     所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
     前記コンテンツ検索方法は、
     前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を、前記コンピュータが前記コンテンツ属性ごとに算出する関連区間算出ステップと、
     前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を前記コンピュータが更新する辞書更新ステップと、
     前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を前記コンピュータが生成する出力生成ステップと
     を含むことを特徴とするコンテンツ検索方法。
  10.  コンテンツの内容を示すキーワードに関連する関連キーワードを用いて、コンテンツの分類を示すコンテンツ属性ごとにコンテンツが記憶されたコンテンツデータベースから、所定コンテンツを検索する、コンピュータ実行可能なプログラムであって、
     前記コンピュータは、
     所定の時間区間を表す関連区間ごとに、前記関連区間に含まれるコンテンツであって前記コンテンツ属性により示される分類に属するコンテンツの内容を示す複数のキーワード間の関連度が記憶される辞書データベースを備え、
     前記プログラムは、
     前記コンテンツデータベースに記憶される第1コンテンツの内容を示す複数の第1キーワードと、前記コンテンツデータベースに記憶された第2コンテンツの内容を示す複数の第2キーワードとにより算出される前記コンテンツ属性ごとの相違度が所定基準値を満たすか否かに基づき、前記第1コンテンツと前記第2コンテンツとが同一の時間区間に含まれるように定められる関連区間を前記コンテンツ属性ごとに算出する関連区間算出ステップと、
     前記関連区間算出ステップにより算出された関連区間に含まれるコンテンツにおいて、前記コンテンツ属性ごとに算出されるキーワード間の関連度と、前記関連区間と、を用いて前記辞書データベースに記憶されている関連度を更新する辞書更新ステップと、
     前記辞書データベースに記憶されている関連度に応じて、ユーザが入力したキーワードに関連する関連キーワードを前記関連区間ごとに出力するための出力情報を生成する出力生成ステップと
     をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2009/000926 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法 WO2009113266A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US12/672,085 US8073851B2 (en) 2008-03-10 2009-03-02 Content searching device and content searching method
JP2009528429A JP4388137B2 (ja) 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法
CN2009801012516A CN101889281B (zh) 2008-03-10 2009-03-02 内容检索装置及内容检索方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008059914 2008-03-10
JP2008-059914 2008-03-10

Publications (1)

Publication Number Publication Date
WO2009113266A1 true WO2009113266A1 (ja) 2009-09-17

Family

ID=41064940

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/000926 WO2009113266A1 (ja) 2008-03-10 2009-03-02 コンテンツ検索装置及びコンテンツ検索方法

Country Status (4)

Country Link
US (1) US8073851B2 (ja)
JP (1) JP4388137B2 (ja)
CN (1) CN101889281B (ja)
WO (1) WO2009113266A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916268A (zh) * 2010-08-04 2010-12-15 哈尔滨工业大学深圳研究生院 汉语词组库的建立及更新方法
US20120163772A1 (en) * 2009-10-22 2012-06-28 Shinji Nabeshima Reproducing device, reproducing method, program and recording medium
JP2020119254A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 テキストデータ収集装置及び方法
KR20200098381A (ko) * 2019-02-11 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768930B2 (en) * 2009-10-10 2014-07-01 Oracle International Corporation Product classification in procurement systems
US8385723B2 (en) * 2010-06-18 2013-02-26 Microsoft Corporation Recording of sports related television programming
KR101196935B1 (ko) 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
KR101196989B1 (ko) * 2010-07-06 2012-11-02 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8719207B2 (en) 2010-07-27 2014-05-06 Oracle International Corporation Method and system for providing decision making based on sense and respond
US9348941B2 (en) * 2011-06-16 2016-05-24 Microsoft Technology Licensing, Llc Specification of database table relationships for calculation
US20130066632A1 (en) * 2011-09-14 2013-03-14 At&T Intellectual Property I, L.P. System and method for enriching text-to-speech synthesis with automatic dialog act tags
CN103744897A (zh) * 2013-12-24 2014-04-23 华为技术有限公司 故障信息的关联搜索方法、系统和网络管理系统
CN104331434A (zh) * 2014-10-22 2015-02-04 乐视网信息技术(北京)股份有限公司 一种生成搜索提示词服务的方法及其装置
CN105912645B (zh) * 2016-04-08 2019-03-05 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
CN110574102B (zh) * 2017-05-11 2023-05-16 株式会社村田制作所 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法
WO2020128936A2 (en) * 2018-12-20 2020-06-25 Germishuys Dennis Mark Association determination
JP7642335B2 (ja) * 2020-09-11 2025-03-10 株式会社東芝 情報処理装置、方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307569A (ja) * 1992-05-01 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時間変動する情報に対応する情報の蓄積及び検索方法
JPH07192009A (ja) * 1992-03-23 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 情報の蓄積、検索および除去処理方法
JPH11175530A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法および装置ならび情報潮流提示プログラムを記録した記録媒体
JP2000242652A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4034374B2 (ja) 1997-02-18 2008-01-16 株式会社ニューズウオッチ 情報検索システムおよび情報検索方法
JP2001216311A (ja) 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002183175A (ja) 2000-12-08 2002-06-28 Hitachi Ltd テキストマイニング方法
GB0307148D0 (en) * 2003-03-27 2003-04-30 British Telecomm Data retrieval system
JP2004318723A (ja) 2003-04-18 2004-11-11 Nippon Telegr & Teleph Corp <Ntt> 関連情報提供スケジュール作成方法および装置
US20050120391A1 (en) * 2003-12-02 2005-06-02 Quadrock Communications, Inc. System and method for generation of interactive TV content
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
JP2007188225A (ja) 2006-01-12 2007-07-26 Yafoo Japan Corp 要約文抽出システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07192009A (ja) * 1992-03-23 1995-07-28 Nippon Telegr & Teleph Corp <Ntt> 情報の蓄積、検索および除去処理方法
JPH05307569A (ja) * 1992-05-01 1993-11-19 Nippon Telegr & Teleph Corp <Ntt> 時間変動する情報に対応する情報の蓄積及び検索方法
JPH11175530A (ja) * 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 情報潮流提示方法および装置ならび情報潮流提示プログラムを記録した記録媒体
JP2000242652A (ja) * 1999-02-18 2000-09-08 Nippon Telegr & Teleph Corp <Ntt> 情報潮流検索方法、装置、および情報潮流検索プログラムを記録した記録媒体
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120163772A1 (en) * 2009-10-22 2012-06-28 Shinji Nabeshima Reproducing device, reproducing method, program and recording medium
US8538235B2 (en) * 2009-10-22 2013-09-17 Panasonic Corporation Reproducing device, reproducing method, program and recording medium
CN101916268A (zh) * 2010-08-04 2010-12-15 哈尔滨工业大学深圳研究生院 汉语词组库的建立及更新方法
JP2020119254A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 テキストデータ収集装置及び方法
JP7085499B2 (ja) 2019-01-23 2022-06-16 株式会社日立製作所 テキストデータ収集装置及び方法
JP2022116312A (ja) * 2019-01-23 2022-08-09 株式会社日立製作所 テキストデータ収集装置及び方法
JP7425827B2 (ja) 2019-01-23 2024-01-31 株式会社日立製作所 テキストデータ収集装置及び方法
KR20200098381A (ko) * 2019-02-11 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체
KR102345401B1 (ko) * 2019-02-11 2021-12-30 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 콘텐츠를 검색하는 방법, 장치, 기기 및 저장 매체

Also Published As

Publication number Publication date
CN101889281B (zh) 2012-10-17
JP4388137B2 (ja) 2009-12-24
US8073851B2 (en) 2011-12-06
CN101889281A (zh) 2010-11-17
JPWO2009113266A1 (ja) 2011-07-21
US20100293169A1 (en) 2010-11-18

Similar Documents

Publication Publication Date Title
JP4388137B2 (ja) コンテンツ検索装置及びコンテンツ検索方法
US20250231951A1 (en) Contextualizing knowledge panels
US8005826B1 (en) Identifying media content in queries
US9654834B2 (en) Computing similarity between media programs
KR100921078B1 (ko) 정보 처리 장치 및 방법
KR101061234B1 (ko) 정보처리 장치와 방법, 및 기록 매체
US20060167859A1 (en) System and method for personalized searching of television content using a reduced keypad
US20090077056A1 (en) Customization of search results
US8452760B2 (en) Relevancy presentation apparatus, method, and program
US20120036139A1 (en) Content recommendation device, method of recommending content, and computer program product
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP2010067175A (ja) ハイブリッド型コンテンツ推薦サーバ、推薦システムおよび推薦方法
CN103069825B (zh) 用于电视搜索助手的系统和方法
US20070074254A1 (en) Locating content in a television environment
CN103984740A (zh) 基于组合标签的检索页显示的方法和系统
US20180067935A1 (en) Systems and methods for digital media content search and recommendation
CN104854588A (zh) 用于搜索标记的主要为非文本的项目的系统和方法
US8838616B2 (en) Server device for creating list of general words to be excluded from search result
JP2012065054A (ja) 電子番組表生成システム、放送局、テレビ受信機、サーバ及び電子番組表生成方法
KR102072723B1 (ko) 콘텐츠 추천어 제공 방법 및 그 콘텐츠 제공 장치
JP5545883B2 (ja) 推薦データ成形方法、推薦データ成形装置および推薦データ成形プログラム
JP5415369B2 (ja) 番組検索装置および番組検索プログラム
Feng et al. A novel user behavioral aggregation method based on synonym groups in online video systems
Kumar Mining user interests from web history
Li et al. Personalized event-based news video retrieval with dynamic user-log

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980101251.6

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2009528429

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09720267

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 12672085

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09720267

Country of ref document: EP

Kind code of ref document: A1