WO2019198950A1 - Apparatus for providing content information and method therefor - Google Patents
Apparatus for providing content information and method therefor Download PDFInfo
- Publication number
- WO2019198950A1 WO2019198950A1 PCT/KR2019/003498 KR2019003498W WO2019198950A1 WO 2019198950 A1 WO2019198950 A1 WO 2019198950A1 KR 2019003498 W KR2019003498 W KR 2019003498W WO 2019198950 A1 WO2019198950 A1 WO 2019198950A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- content
- information
- management information
- contents
- occurrence matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4667—Processing of monitored end-user data, e.g. trend analysis based on the log file of viewer selections
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
Definitions
- the present invention relates to a content information providing apparatus and a method thereof, and more particularly, to a technology for providing content information of similar content when viewing content provided through the Internet.
- search technology for selecting and providing content desired by a user is being developed.
- similar content is provided by providing the user with content information of similar content related to the content desired by the user.
- the service to induce the viewing of is also provided.
- similar content information is extracted and provided based on similar property information of contents, or contents viewed simultaneously are determined to have high similarity, and thus content with high simultaneous viewing frequency is provided as similar content information.
- similar content is provided based on the simultaneous viewing frequency, there is a problem in that it is difficult to provide similar content information on the newly registered content because there is no information on the simultaneous viewing frequency of the newly registered content.
- Embodiments of the present invention provide a content information providing apparatus and method for providing similar content information as recommended content to a user.
- An apparatus for providing content information generates management information of the viewed contents by using a co-occurrence matrix based on the simultaneous viewing frequency of the viewed contents, and based on the management information, the similarity of the viewed contents.
- a first processor providing content information;
- a second processor for updating the simultaneous generation matrix based on the simultaneous viewing frequency of the viewed content based on the similar characteristic information when there is no management information of the viewed content.
- the first processor calculates a correlation between the watched contents based on the co-occurrence matrix, classifies the watched contents on a vector space based on the correlation, and manages the management information. May include generating.
- the management information may include location information of the viewed contents on a vector space.
- the co-occurrence matrix may include a simultaneous viewing frequency of two contents forming a data pair.
- the second processor calculates a similarity probability value between the contents that are not included.
- the second processor may include calculating a hyperparameter based on a frequency of simultaneous occurrence of content having the highest similarity probability value.
- the second processor may include calculating, as the hyperparameter, the largest number of total simultaneous occurrence frequencies or simultaneous occurrence frequencies of content having the highest similarity probability value.
- the second processor may add the content in which the management information does not exist in the row and column of the co-occurrence matrix as an item, calculate the similarity probability value and the hyperparameter of the watched content, respectively, and manage the management. And calculating the co-occurrence frequency of content for which there is no information to update the co-occurrence matrix.
- the second processor may include calculating a correlation between the entire contents including the content in which the management information does not exist based on the updated co-occurrence matrix.
- the second processor calculates a correlation between the entire contents based on a co-occurrence matrix that does not include the content in which the management information does not exist, and the management information exists based on the similarity probability value. And calculating correlation between content not to be viewed and content viewed in the co-occurrence matrix.
- the first processor may include generating management information of content in which the management information does not exist based on a correlation calculated by the second processor, and providing the similar content information. have.
- a method of providing content information generates management information of the viewed contents using a co-occurrence matrix based on the simultaneous viewing frequency of the viewed contents, and generates the viewed information based on the management information.
- the method may further include providing similar content information of content in which the management information does not exist based on the updated co-occurrence matrix.
- the providing of the similar content information may include calculating a correlation between the viewed contents based on the co-occurrence matrix, and classifying the viewed contents on a vector space based on the correlation. Generating management information.
- the updating of the co-occurrence matrix may include: managing the watched content and the management using similar property information of content in which the management information does not exist using an algorithm learned based on similar property information.
- the method may include calculating a similarity probability value between contents in which information does not exist.
- updating the co-occurrence matrix may include calculating a hyperparameter based on a co-occurrence frequency of content having the highest similarity probability value.
- the updating of the co-occurrence matrix may include calculating, as the hyperparameters, the total sum of all co-occurrence frequencies of the content having the highest similarity probability value or the co-occurrence frequency as the hyperparameter, Computing each of the hyperparameters may be calculated as the frequency of the simultaneous occurrence of the content that does not exist the management information to update the co-occurrence matrix.
- the providing of the similar content information may include calculating a correlation between the entire contents including the content without the management information based on the updated co-occurrence matrix.
- the providing of the similar content information may include: calculating a correlation between all contents based on a co-occurrence matrix that does not include content in which the management information does not exist, and based on the similarity probability value.
- the method may include calculating a correlation between content for which no management information exists and watched contents included in the co-occurrence matrix.
- the providing of the similar content information may include determining the content of the content in which the management information does not exist based on a correlation between the content in which the management information does not exist and the viewed content included in the co-occurrence matrix. Generating management information and providing the similar content information.
- similar content information may be provided to a user as recommended content.
- the accuracy of similar content information provided as recommended content to a user may be improved.
- FIG. 1 is a block diagram illustrating a configuration of an apparatus for providing content information according to an embodiment of the present invention.
- FIG. 2 is a diagram illustrating an example of a data pair of simultaneously viewed contents for generating a co-occurrence matrix according to an embodiment of the present invention.
- FIG. 3 is an exemplary diagram for generating a co-occurrence matrix using the data pair of FIG. 2.
- 4A and 4B are diagrams for describing an example of learning a relative position of a co-occurrence matrix-based contents in a vector space according to an embodiment of the present invention.
- FIG. 5 is a diagram illustrating a method of learning similarity of contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention.
- FIG. 6 is a diagram illustrating a method of calculating similarity probability values of existing contents for new contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention.
- FIG. 7 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a maximum frequency-based hyperparameter according to an embodiment of the present invention.
- FIG. 8 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a total frequency-based hyperparameter according to an embodiment of the present invention.
- FIG. 9 is an exemplary view illustrating a method of calculating a correlation PMI according to an embodiment of the present invention.
- FIG. 10 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a correlation (PMI) according to an embodiment of the present invention.
- FIG. 11 is a flowchart illustrating a method of generating and managing a co-occurrence matrix for content according to an embodiment of the present invention.
- FIG. 12 is a flowchart illustrating a content providing method according to an embodiment of the present invention.
- FIG. 13 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information for new content according to an embodiment of the present invention.
- FIG. 14 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information for new content according to another embodiment of the present invention.
- FIG. 15 illustrates a computing system in accordance with an embodiment of the present invention.
- FIG. 1 is a block diagram illustrating a configuration of an apparatus for providing content information according to an embodiment of the present invention.
- the content information providing apparatus 100 includes a first processor 110 and a second processor 120.
- the first processor 110 and the second processor 120 may be implemented as a learned network.
- the first processor 110 and the second processor 120 are shown in separate configurations, but are not limited thereto.
- the first processor 110 and the second processor 120 may be integrated. It may also operate as a processor.
- the learned neural network of the first processor 110 generates a co-occurrence matrix based on the learned algorithm (eg, the first algorithm) and based on the co-occurrence matrix.
- Management information of contents may be generated.
- the learned algorithm may be defined as an algorithm for generating similar contents to have similar management information values.
- contents that are similar to each other may have management information located adjacent to a vector space, and may mean the same or similar contents in content, subject, material, appearance, category, summary, and the like of the content. .
- the learned neural network of the second processor 120 updates the co-occurrence matrix by calculating similarity probability values between the contents based on the similar characteristic information of the contents based on the learned algorithm (eg, the second algorithm).
- the similarity probability value means the degree of similarity between contents
- the calculation of the similarity probability value may be implemented by a general similarity related algorithm, and the learning network of the second processor 120 may be learned by such an algorithm.
- the 'similar property information' may include the same or similar property information in content, theme, location, appearance, category, summary, and the like of the content. For example, if the content is a movie, it may include a main actor, release year, movie title, production cost and the like.
- the first processor 110 may generate management information of the viewed contents using a simultaneous generation matrix based on the simultaneous viewing frequency of the viewed contents, and provide similar content information of the viewed contents based on the management information. In this case, the first processor 110 may generate management information of the contents at predetermined intervals or may generate the management information every predetermined time after the new content is registered.
- the first processor 110 generates a co-occurrence matrix using the simultaneous viewing frequency of the contents simultaneously viewed, calculates a pointwise mutual information (PMI) of the contents using the value of the co-occurrence matrix, and correlates the contents. Based on the diagram, contents may be classified to have a relative position in an N-dimensional vector space. A method of generating the co-occurrence matrix will be described in more detail later with reference to FIGS. 2 and 3.
- the rows and columns of the co-occurrence matrix may include identification information (eg, content name) of the contents and a frequency at which two contents forming a data pair are simultaneously viewed.
- identification information eg, content name
- the condition to be viewed at the same time may include the case where the viewing of the content 2 is started while the content 1 is being viewed.
- the content 2 when the content 2 is viewed within a predetermined time after the content 1 is completed viewing, it may be regarded as simultaneous viewing.
- the first processor 110 calculates a correlation between the contents using the value of the co-occurrence matrix, and classifies the contents on the N-dimensional vector space based on the correlation.
- each of the contents may be arranged in positions adjacent to each other as the frequency of occurrence or correlation is high in the N-dimensional vector space, and the first processor 110 may determine that the similarities of the contents in the adjacent positions are high. Can be. That is, the first processor 110 may classify the contents in the adjacent position as the similar contents and generate management information (vector information) which is relative position information on the vector space for each contents.
- the second processor 120 may update the co-occurrence matrix based on the simultaneous viewing frequency of the watched content in which the management information does not exist based on the similar characteristic information of the content. .
- the second processor 120 may calculate a similarity probability value between the watched content and the new content by using similar property information of the content (new content) in which the management information does not exist using an algorithm learned based on the similar property information.
- the new content may include content that is newly registered and is not included in the co-occurrence matrix, so that management information is not generated. That is, when the characteristic information of the new content is input to the second processor 120, the second processor 120 may generate new content and existing content (content already viewed and management information existing or simultaneously generated based on the neural network on which learning has been completed). The similarity probability value between the contents included in the matrix) is calculated.
- the second processor 120 may update the co-occurrence matrix by calculating a hyper-parameter based on the co-occurrence frequency of the content having the highest similarity probability value.
- the second processor 120 may calculate the total sum of all simultaneous occurrence frequencies of the content having the highest similarity probability value as a hyper parameter.
- the second processor 120 may calculate, as a hyper parameter, the largest number of simultaneous occurrence frequencies of content having the highest similarity probability value.
- the second processor 120 adds new content to the rows and columns of the co-occurrence matrix as items, calculates similarity probability values and hyperparameters of the watched contents, respectively, and calculates the co-occurrence matrix by updating the co-occurrence matrix.
- 'operation' may include a multiplication operation.
- the second processor 120 may calculate a correlation between the entire contents based on the updated co-occurrence matrix based on the hyperparameter and the similarity probability value. In this case, a correlation between the new content and the existing content may also be calculated.
- the second processor 120 does not calculate a hyperparameter, but calculates a correlation between the entire contents using a similarity probability value between the new content and the existing content and a co-occurrence matrix that does not include the new content. Can be.
- the first processor 110 When the second processor 120 calculates a correlation between the new content and the existing content, the first processor 110 generates the new content based on the correlation between the new content and the existing content calculated by the second processor 120.
- the management information for the content may be generated, and similar content information may be generated and provided by a learned algorithm.
- the content information providing apparatus 100 of the present invention having such a configuration provides similar content information based on the simultaneous viewing frequency, but does not have the simultaneous viewing frequency information, that is, the existing content for the new content that does not generate the simultaneous matrix. Based on a neural network trained based on similar property information of contents, a similarity probability value for each of the existing contents is calculated and randomly calculated the simultaneous viewing frequency of the new content based on the similarity probability value. Similar content information may be provided based on the simultaneous viewing frequency.
- FIG. 2 is a diagram illustrating an example of a data pair of simultaneously viewed contents for generating a co-occurrence matrix according to an embodiment of the present invention.
- 3 is an exemplary diagram for generating a co-occurrence matrix using the data pair of FIG. 2.
- FIGS. 2 and 3 contents are described as examples for convenience of description, but the contents may include various multimedia data for the purpose of shopping and advertisement.
- the process of generating the co-occurrence matrix of FIGS. 2 and 3 may be implemented by the first processor 110.
- the content information providing apparatus 100 may include movie 1, movie 2, and movie 1. And movie 3 are each generated as data pairs.
- the content information providing apparatus 100 includes four data pairs (movie 2 and movie 1, movie 2 and movie 3, movie). 2 and movie 4) are generated.
- the content information providing apparatus 100 generates a co-occurrence matrix based on the data pairs generated in FIG. 2. That is, the movie 1 and the movie 2 are simultaneously watched twice, the frequency is recorded at 2, and the movie 2 and the movie 3 are also watched twice at the same time, and the frequency is recorded at 2. As such, the content information providing apparatus 100 generates a value of the co-occurrence matrix based on the number of simultaneous viewing.
- 4A and 4B are diagrams for describing an example of learning a relative position (management information) in a vector space of co-occurrence matrix-based contents according to an embodiment of the present invention.
- the first processor 110 is implemented as a one hot vector, and the one hot vector refers to a vector in which only one value is '1' and the rest is '0' in the entire array.
- the first processor 110 weights W such that 'movie 1' is input to the input layer and 'movie 2' is output from the output layer. Learn the value of the number of embedding dimensions (N)). When the learning is completed, the relative positions in the vector space of the words (movie 1 and movie 2) are learned to the weight values.
- the value of movie 2 is set to '1' as a similar content for movie 1, but the value of '1' may be replaced with a correlation (PMI (movie 1 ';' movie 2 ')) as shown in FIG. 4B.
- PMI movingie 1 ';' movie 2 '
- FIG. 4B a correlation
- FIG. 5 is a diagram illustrating a method of learning similarity of contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention
- FIG. 6 is a co-occurrence according to an embodiment of the present invention.
- 5 and 6 disclose an example of calculating similarity or similarity probability values through the learned characteristic network based on the similar characteristic information by the second processor 120.
- the neural network is composed of N layers composed of a plurality of units, and the calculated value Y calculated through the layers calculates the similarity or similarity probability value through a softmax function. can do.
- the second processor 120 when similar property information of content is input to a neural network, the second processor 120 outputs a calculated value Y and performs a softmax function to output a similarity degree.
- the similar characteristic information may include a director, a lead actor, a release year, a movie title, a production cost, etc. of the movie 2, and the similar characteristic information of the movie 2 and the movie 3 may coincide.
- FIG. 7 is an exemplary diagram of updating a co-occurrence matrix for new content for which management information does not exist by calculating a maximum frequency-based hyperparameter according to an embodiment of the present invention.
- FIG. 7 illustrates an example of generating a value of a co-occurrence matrix for a new content 'movie 9' by calculating a hyper parameter.
- the second processor 120 may calculate the maximum frequency of the content having the highest similarity probability value as the hyper parameter among the contents constituting the co-occurrence matrix, and multiply the hyper parameter by the similarity probability value of each content to calculate the frequency for the new content. have.
- the maximum frequency of movie 3 is calculated as a hyper parameter. That is, the simultaneous viewing frequency of movie 3 with movie 1 is 2, the simultaneous viewing frequency of movie 3 and movie 2 is 2, the simultaneous viewing frequency of movie 3 and movie 4 is 2, and the simultaneous viewing frequency of movie 3 and movie 5 is 1 Therefore, the content information providing apparatus 100 calculates the maximum frequency '2' as a hyper parameter. Subsequently, the second processor 120 may calculate a frequency for 'movie 9' by multiplying the hyperparameter '2' by the similarity probability value of each content.
- the second processor 120 may record only the frequency of the movie 3 having the largest value as '1' and the remaining contents as '0'.
- the second processor 120 may record values obtained by multiplying the hyperparameter and the similarity probability value for each content corresponding to the new content having no management information. In this case, the number recorded may be discarded or rounded down to a decimal point to record only an integer.
- 8 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a total frequency-based hyperparameter according to an embodiment of the present invention. 8 illustrates an example of generating a value of a co-occurrence matrix for the new content "movie 9" by calculating a hyper parameter.
- the second processor 120 adds the frequency of the content having the highest likelihood probability value among the contents constituting the co-occurrence matrix, calculates the sum as a hyperparameter, multiplies the hyperparameter with the similarity probability value of each content, and generates a frequency for the new content. Can be calculated.
- the second processor 120 calculates a hyper parameter '7', which is the sum of the frequencies.
- the second processor 120 may calculate the frequency for the movie 9 by multiplying the hyperparameter '7' by the similarity probability value of each content.
- the second processor 120 may record only the frequency of the movie 3 having the largest value as '1' and the remaining contents as '0'. In this case, the second processor 120 may record all of the content obtained by multiplying the hyperparameter and the similarity probability value for each content, but may discard only the decimal point and record only the integer.
- FIG. 9 illustrates an example of calculating Pointwise Mutual Information (PMI) between contents according to an embodiment of the present invention
- PMI Pointwise Mutual Information
- FIG. 10 simultaneously includes information on new content according to an embodiment of the present invention. It is a figure which shows an example of an generation matrix.
- the first processor 110 calculates a correlation between the contents of the co-occurrence matrix to generate management information between the contents
- the second processor 120 correlates the contents of the co-occurrence matrix updated based on the hyperparameter.
- the degree of correlation may be calculated between the contents of the existing co-occurrence matrix before the update or the update, and the correlation between the new content and the existing contents may be calculated based on the similarity probability value of the new content. The method is described in detail through the following equations.
- p (x) is the probability that x content is watched
- p (y) is the probability that y content is watched
- p (x, y) is the probability that x content and y content are watched simultaneously.
- Equation 1 may be expressed as Equation 2.
- x i is the sum of the values of the rows of the content with the highest similarity probability value
- x j is the sum of the values of the columns of the content with the highest similarity probability value
- D is the sum of the frequencies of the co-occurrence matrix (see FIG. 9).
- the first processor 110 and the second processor 120 may calculate a correlation between existing contents of the co-occurrence matrix through Equation 2. However, in order to calculate the correlation between the new content and the existing content, the second processor 110 assumes a similarity probability value as shown in Equation 3 below.
- Equation 4 When the equation is represented by substituting the similarity probability value of Equation 3 into Equation 2, Equation 4 below.
- the second processor 110 may calculate the correlation PMI of the new content by using the similarity probability value as shown in Equation 4.
- the equation 2 is applied to calculate the equation.
- the second processor 120 inputs and learns the original hot vector as shown in FIG. 4B based on the correlation between the contents. That is, the second processor 120 optimizes the weight so that the movie 3 is output when the movie 2 is input to the neural network and the movie 3 is set as the output. Then, when the learning is completed, the second processor 120 learns the relative position in the vector space of the movie 2 and the movie 3 by using the weight values. That is, the correlation between the probability of watching each movie may be learned through the weight value. That is, the correlation between the movies 1 to 8 of FIG. 10 may be calculated through Equation 5.
- Equation 2 described above is applied to the correlation between Movies 1 to 8
- Equation 4 is applied to the calculation of the correlation between the new content (Movie 9) and the existing content (Movies 1 to 8).
- Table 1 shows an example of calculating correlation between movie 9 and existing contents (movies 1 to 8) by applying x j and D values of FIG. 9 to Equation 4, and table 2 displays final calculated results.
- Table 1 shows an example of calculating correlation between movie 9 and existing contents (movies 1 to 8) by applying x j and D values of FIG. 9 to Equation 4, and table 2 displays final calculated results.
- Table 1 shows an example of calculating correlation between movie 9 and existing contents (movies 1 to 8) by applying x j and D values of FIG. 9 to Equation 4, and table 2 displays final calculated results.
- Table 1 shows an example of calculating correlation between movie 9 and existing contents (movies 1 to 8) by applying x j and D values of FIG. 9 to Equation 4, and table 2 displays final calculated results.
- the second processor 120 may calculate all the correlations between the movies 1 to 9 and display them as shown in FIG. 10, and the first processor 110 manages the respective contents based on the calculated correlations between the entire contents.
- the movie 9 When the movie 9 is watched by generating the information, the movie 3 may be recommended as similar content information.
- FIG. 11 is a flowchart illustrating a method of generating and managing a co-occurrence matrix for content according to an embodiment of the present invention.
- the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 11.
- the operations described as being performed by the apparatus are controlled by the first processor 110.
- the content information providing apparatus 100 calculates a correlation PMI between contents based on the updated co-occurrence matrix (S140). Subsequently, the content information providing apparatus 100 classifies the contents on the vector space using the correlation to generate management information (vector information) (S150). In this case, the vector information is position information in a vector space, and the positions of contents having high similarity are adjacent to each other. In addition, the content information providing apparatus 100 may calculate the correlation between the contents through Equation 2 described above.
- the content information providing apparatus 100 provides similar content information of the viewed content based on the generated management information (S160).
- the content information providing apparatus 100 checks whether there is concurrent matrix information on the viewed content (S220).
- the content information providing apparatus 100 provides similar content information of the viewed content on the basis of the simultaneous generation matrix (S230).
- the content information providing apparatus 100 updates the co-occurrence matrix by using the neural network learned based on the similar characteristic information. Thereafter, the apparatus 100 for providing content information provides similar content information based on the updated co-occurrence matrix (S240). That is, the management information of each content is generated using the updated co-occurrence matrix, and similar content information is provided based on the management information.
- FIG. 12 illustrates an example in which the content information providing apparatus 100 updates a co-occurrence matrix based on similar property information when there is no management information of the viewed content, but the present invention is not limited thereto.
- the information providing apparatus 100 may be implemented to periodically update the co-occurrence matrix based on the similar characteristic information.
- FIG. 13 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information with respect to new content according to an embodiment of the present invention.
- S310 to S340 are controlled by the second processor 120 and the process of S350 is controlled by the first processor 110 among the operations described as being performed by the apparatus. have.
- the content information providing apparatus 100 calculates each similarity probability value for contents that are items of a co-occurrence matrix. That is, the content information providing apparatus 100 calculates a similarity probability value using a neural network that has been previously learned based on similar characteristic information of new content (S310). In this case, referring to FIG. 6, the content information providing apparatus 100 may calculate similarity probability values of respective contents by inputting similar characteristic information of the new movie 9 into the neural network (second processor 120) that has already been learned. Can be.
- the content information providing apparatus 100 calculates a hyper parameter based on the simultaneous viewing frequency of the contents which are the concurrent occurrence matrix items (S320).
- the hyperparameter may be calculated from the sum or the maximum frequency of the frequencies of the content having the highest similarity probability value.
- the hyper parameter may be calculated as the sum value or the maximum value of the row.
- the content information providing apparatus 100 updates the co-occurrence matrix for the new content with a value obtained by multiplying the similarity probability value and the hyperparameter (S330).
- the content information providing apparatus 100 may store a value obtained by multiplying a hyperparameter with a similarity probability value of each of the contents (movies 1 to 8) for the new content, movie 9, as the frequency for the movie 9 item in the co-occurrence matrix. have.
- the content information providing apparatus 100 calculates a correlation PMI of all contents (new content and existing content) based on the updated co-occurrence matrix (S340).
- the content information providing apparatus 100 may calculate a correlation between the entire contents (movies 1 to 9) through Equation 2.
- the content information providing apparatus 100 inputs a correlation degree (PMI) between the new content and the existing content to the first processor 110 to generate management information of the new content and generate similar content information based on the management information.
- PMI correlation degree
- the first processor 110 may generate a weight value obtained by inputting a correlation to the neural network as shown in FIG. 4B as management information of contents.
- FIG. 13 discloses an example in which similar content information is provided by calculating a correlation between all contents (including new content) after updating a co-occurrence matrix for new content based on a hyper parameter.
- FIG. 14 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information with respect to new content according to another embodiment of the present invention.
- FIG. 12 is new content without management information of process S240 of FIG. 12.
- the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 14.
- S410 to S420 among the operations described as being performed by the apparatus may be understood to be controlled by the second processor 120 and the process of S430 may be controlled by the first processor 110. have.
- the content information providing apparatus 100 calculates each similarity probability value for contents that are items of a co-occurrence matrix. That is, the content information providing apparatus 100 calculates a similarity probability value using a neural network that has been previously learned based on similar characteristic information of new content (S410). In this case, referring to FIG. 6, the content information providing apparatus 100 may calculate similarity probability values of respective contents by inputting similar characteristic information of movie 9, which is new content, to a neural network (second processor 120) that has already been learned. Can be.
- the content information providing apparatus 100 calculates a correlation between the entire contents based on the similarity probability value and the co-occurrence matrix that does not include the new contents (S420). That is, the content information providing apparatus 100 calculates a correlation between movies 1 to 8 by applying Equation 2 based on a co-occurrence matrix that does not include new content, and between the new content (movie 9) and existing contents.
- the correlation between the new content (movie 9) and the existing content may be calculated by applying Equation 4 based on the similarity probability value and the concurrent matrix including no new content.
- Correlation PMI (Movie 1, Movie 2) to PMI (Movie 7, Movie 8) is calculated through Equation 2 with respect to Movies 1 through 8 in FIG. 10, and Correlation PMI through Equation 4 with respect to Movie 9. (Movie 9, Movie 1) to PMI (Movie 8, Movie 9) are calculated.
- the content information providing apparatus 100 inputs a correlation degree (PMI) between the new content and the existing content to the first processor 110 to generate management information of the new content and generate similar content information based on the management information.
- PMI correlation degree
- the first processor 110 may generate a weight value obtained by inputting a correlation to the neural network as shown in FIG. 4B as management information of contents.
- the apparatus 100 for providing content information of the present invention generates a co-occurrence matrix, generates management information of respective contents based on the generated co-occurrence matrix, and provides similar content information based on the management information.
- the content information providing apparatus 100 updates the co-occurrence matrix for the new content by using the learned neural network based on the similar characteristic information of the new content without the management information.
- FIG. 15 illustrates a computing system in accordance with an embodiment of the present invention.
- the computing system 1000 may include at least one processor 1100, a memory 1300, a user interface input device 1400, a user interface output device 1500, and storage connected through a bus 1200. 1600, and network interface 1700.
- the processor 1100 may be a central processing unit (CPU) or a semiconductor device that executes processing for instructions stored in the memory 1300 and / or the storage 1600.
- the memory 1300 and the storage 1600 may include various types of volatile or nonvolatile storage media.
- the memory 1300 may include a read only memory (ROM) and a random access memory (RAM).
- the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, software module, or a combination of the two executed by the processor 1100.
- the software module resides in a storage medium (ie, memory 1300 and / or storage 1600), such as RAM memory, flash memory, ROM memory, EPROM memory, EEPROM memory, registers, hard disk, removable disk, CD-ROM. You may.
- An exemplary storage medium is coupled to the processor 1100, which can read information from and write information to the storage medium.
- the storage medium may be integral to the processor 1100.
- the processor and the storage medium may reside in an application specific integrated circuit (ASIC).
- ASIC application specific integrated circuit
- the ASIC may reside in a user terminal.
- the processor and the storage medium may reside as discrete components in a user terminal.
- similar content information may be provided to the user as recommended content, and the accuracy of the similar content information provided as the recommended content to the user may be improved. Can be improved.
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 컨텐츠 정보 제공 장치 및 그 방법에 관한 것으로, 보다 상세하게는 인터넷을 통해 제공되는 컨텐츠 시청 시 유사 컨텐츠의 컨텐츠 정보를 제공하는 기술에 관한 것이다.The present invention relates to a content information providing apparatus and a method thereof, and more particularly, to a technology for providing content information of similar content when viewing content provided through the Internet.
인터넷의 발달과 함께 기업뿐만 아니라 개인들도 컨텐츠들을 편리하게 생성하여 제공할 수 있는 환경이 조성됨에 따라, 다양한 종류와 많은 양의 컨텐츠들이 인터넷 서비스를 통해 사용자들에게 제공되고 있다.With the development of the Internet, an environment is created in which not only companies but also individuals can conveniently create and provide contents, and various types and large amounts of contents are provided to users through Internet services.
이러한 방대한 양의 컨텐츠들 중 사용자가 원하는 컨텐츠를 선택하여 제공받기 위한 검색 기술이 발달하고 있으며, 이러한 검색 기술뿐만 아니라, 사용자가 검색을 원하는 컨텐츠와 관련된 유사 컨텐츠의 컨텐츠 정보를 사용자에게 제공함으로써 유사 컨텐츠의 시청을 유도하는 서비스도 제공되고 있다. Among these vast amounts of contents, a search technology for selecting and providing content desired by a user is being developed. In addition to the search technology, similar content is provided by providing the user with content information of similar content related to the content desired by the user. The service to induce the viewing of is also provided.
기존에는 컨텐츠들의 유사 특성 정보를 기반으로 유사 컨텐츠 정보를 추출하여 제공하거나, 동시에 시청되는 컨텐츠들을 유사도가 높은 것으로 판단하여 동시 시청 빈도수가 높은 컨텐츠를 유사 컨텐츠 정보로서 제공하였다. 그러나 동시 시청 빈도수를 기반으로 유사 컨텐츠를 제공하는 경우 신규 등록된 컨텐츠의 동시 시청 빈도수에 대한 정보가 없어 신규 등록된 컨텐츠에 대한 유사 컨텐츠 정보를 제공하기 어려운 문제점이 있다.Conventionally, similar content information is extracted and provided based on similar property information of contents, or contents viewed simultaneously are determined to have high similarity, and thus content with high simultaneous viewing frequency is provided as similar content information. However, when similar content is provided based on the simultaneous viewing frequency, there is a problem in that it is difficult to provide similar content information on the newly registered content because there is no information on the simultaneous viewing frequency of the newly registered content.
본 발명의 실시예들은 사용자에게 추천 컨텐츠로서 유사 컨텐츠 정보를 제공할 수 있는 컨텐츠 정보 제공 장치 및 그 방법을 제공하고자 한다.Embodiments of the present invention provide a content information providing apparatus and method for providing similar content information as recommended content to a user.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.Technical problems of the present invention are not limited to the technical problems mentioned above, and other technical problems not mentioned will be clearly understood by those skilled in the art from the following descriptions.
본 발명의 실시예에 따른 컨텐츠 정보 제공 장치는 시청된 컨텐츠들의 동시 시청 빈도수 기반의 동시 발생 매트릭스를 이용하여 상기 시청된 컨텐츠들의 관리 정보를 생성하고, 상기 관리 정보를 기반으로 상기 시청된 컨텐츠들의 유사 컨텐츠 정보를 제공하는 제 1 프로세서; 및 시청된 컨텐츠의 관리 정보가 존재하지 않는 경우, 유사 특성 정보를 기반으로 상기 시청된 컨텐츠의 동시 시청 빈도수 기반의 동시 발생 매트릭스를 업데이트하는 제 2 프로세서를 포함할 수 있다.An apparatus for providing content information according to an embodiment of the present invention generates management information of the viewed contents by using a co-occurrence matrix based on the simultaneous viewing frequency of the viewed contents, and based on the management information, the similarity of the viewed contents. A first processor providing content information; And a second processor for updating the simultaneous generation matrix based on the simultaneous viewing frequency of the viewed content based on the similar characteristic information when there is no management information of the viewed content.
일 실시예에서, 상기 제 1 프로세서는, 상기 동시 발생 매트릭스를 기반으로 상기 시청된 컨텐츠들 간의 상관도를 산출하여, 상기 상관도를 기반으로 상기 시청된 컨텐츠들을 벡터 공간 상에 분류하여 관리 정보를 생성하는 것을 포함할 수 있다.In an embodiment, the first processor calculates a correlation between the watched contents based on the co-occurrence matrix, classifies the watched contents on a vector space based on the correlation, and manages the management information. May include generating.
일 실시예에서, 상기 관리 정보는, 벡터 공간 상에서의 상기 시청된 컨텐츠들의 위치 정보를 포함하는 것을 포함할 수 있다.In one embodiment, the management information may include location information of the viewed contents on a vector space.
일 실시예에서, 상기 동시 발생 매트릭스는, 데이터 쌍을 이루는 두 개의 컨텐츠의 동시 시청 빈도수를 포함하는 것을 포함할 수 있다.In one embodiment, the co-occurrence matrix may include a simultaneous viewing frequency of two contents forming a data pair.
일 실시예에서, 상기 제 2 프로세서는, 유사 특성 정보를 기반으로 학습된 알고리즘을 이용하여 상기 관리 정보가 존재하지 않는 컨텐츠의 유사 특성 정보를 이용하여 상기 시청된 컨텐츠들과 상기 관리 정보가 존재하지 않는 컨텐츠 간의 유사도 확률값을 산출하는 것을 포함할 수 있다.In one embodiment, the second processor, the similar content information of the content that does not exist the management information by using an algorithm learned based on the similar property information does not exist the watched content and the management information. Calculating a similarity probability value between the contents that are not included.
일 실시예에서, 상기 제 2 프로세서는, 상기 유사도 확률값이 가장 높은 컨텐츠의 동시 발생 빈도수를 기반으로 하이퍼 파라미터를 산출하는 것을 포함할 수 있다.In an embodiment, the second processor may include calculating a hyperparameter based on a frequency of simultaneous occurrence of content having the highest similarity probability value.
일 실시예에서, 상기 제 2 프로세서는, 상기 유사도 확률값이 가장 높은 컨텐츠의 전체 동시 발생 빈도수의 총 합 또는 동시 발생 빈도수 중 가장 큰 수를 상기 하이퍼 파라미터로서 산출하는 것을 포함할 수 있다.In an embodiment, the second processor may include calculating, as the hyperparameter, the largest number of total simultaneous occurrence frequencies or simultaneous occurrence frequencies of content having the highest similarity probability value.
일 실시예에서, 상기 제 2 프로세서는, 상기 동시 발생 매트릭스의 행과 열에 상기 관리 정보가 존재하지 않는 컨텐츠를 항목으로 추가하고, 상기 시청된 컨텐츠들의 유사도 확률값과 상기 하이퍼 파라미터를 각각 연산하여 상기 관리 정보가 존재하지 않는 컨텐츠의 동시 발생 빈도수로서 산출하여 상기 동시 발생 매트릭스를 업데이트하는 것을 포함할 수 있다.In an embodiment, the second processor may add the content in which the management information does not exist in the row and column of the co-occurrence matrix as an item, calculate the similarity probability value and the hyperparameter of the watched content, respectively, and manage the management. And calculating the co-occurrence frequency of content for which there is no information to update the co-occurrence matrix.
일 실시예에서, 상기 제 2 프로세서는, 상기 업데이트된 동시 발생 매트릭스를 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠를 포함한 전체 컨텐츠들간의 상관도를 산출하는 것을 포함할 수 있다.In an embodiment, the second processor may include calculating a correlation between the entire contents including the content in which the management information does not exist based on the updated co-occurrence matrix.
일 실시예에서, 상기 제 2 프로세서는, 상기 관리 정보가 존재하지 않는 컨텐츠를 포함하지 않는 동시 발생 매트릭스를 기반으로 전체 컨텐츠들간의 상관도를 산출하고, 상기 유사도 확률값을 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠와 상기 동시 발생 매트릭스에 포함된 시청된 컨텐츠들 간의 상관도를 산출하는 것을 포함할 수 있다.In an embodiment, the second processor calculates a correlation between the entire contents based on a co-occurrence matrix that does not include the content in which the management information does not exist, and the management information exists based on the similarity probability value. And calculating correlation between content not to be viewed and content viewed in the co-occurrence matrix.
일 실시예에서, 상기 제 1 프로세서는, 상기 제 2 프로세서에 의해 산출된 상관도를 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠의 관리 정보를 생성하고, 상기 유사 컨텐츠 정보를 제공하는 것을 포함할 수 있다.In an embodiment, the first processor may include generating management information of content in which the management information does not exist based on a correlation calculated by the second processor, and providing the similar content information. have.
본 발명의 실시예에 따른 컨텐츠 정보 제공 방법은 시청된 컨텐츠들의 동시 시청 빈도수를 기반의 동시 발생 매트릭스를 이용하여 상기 시청된 컨텐츠들의 관리 정보를 생성하고, 상기 관리 정보를 기반으로 상기 시청된 컨텐츠들의 유사 컨텐츠 정보를 제공하는 단계; 및 시청된 컨텐츠의 관리 정보가 존재하지 않는 경우, 유사 특성 정보를 기반으로 상기 시청된 컨텐츠의 동시 시청 빈도수 기반의 동시 발생 매트릭스를 업데이트하는 단계;를 포함할 수 있다.According to an embodiment of the present invention, a method of providing content information generates management information of the viewed contents using a co-occurrence matrix based on the simultaneous viewing frequency of the viewed contents, and generates the viewed information based on the management information. Providing similar content information; And updating the simultaneous generation matrix based on the simultaneous viewing frequency of the viewed content based on the similar characteristic information when there is no management information of the viewed content.
일 실시예에서, 상기 업데이트 된 동시 발생 매트릭스를 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠의 유사 컨텐츠 정보를 제공하는 단계;를 더 포함할 수 있다.In an embodiment, the method may further include providing similar content information of content in which the management information does not exist based on the updated co-occurrence matrix.
일 실시예에서, 상기 유사 컨텐츠 정보를 제공하는 단계는 상기 동시 발생 매트릭스를 기반으로 상기 시청된 컨텐츠들 간의 상관도를 산출하여, 상기 상관도를 기반으로 상기 시청된 컨텐츠들을 벡터 공간 상에 분류하여 관리 정보를 생성하는 것을 포함할 수 있다.In an embodiment, the providing of the similar content information may include calculating a correlation between the viewed contents based on the co-occurrence matrix, and classifying the viewed contents on a vector space based on the correlation. Generating management information.
일 실시예에서, 상기 동시 발생 매트릭스를 업데이트하는 단계는, 유사 특성 정보를 기반으로 학습된 알고리즘을 이용하여 상기 관리 정보가 존재하지 않는 컨텐츠의 유사 특성 정보를 이용하여 상기 시청된 컨텐츠들과 상기 관리정보가 존재하지 않는 컨텐츠 간의 유사도 확률값을 산출하는 것을 포함할 수 있다.The updating of the co-occurrence matrix may include: managing the watched content and the management using similar property information of content in which the management information does not exist using an algorithm learned based on similar property information. The method may include calculating a similarity probability value between contents in which information does not exist.
일 실시예에서, 상기 동시 발생 매트릭스를 업데이트하는 단계는, 상기 유사도 확률값이 가장 높은 컨텐츠의 동시 발생 빈도수를 기반으로 하이퍼 파라미터를 산출하는 것을 포함할 수 있다.In an embodiment, updating the co-occurrence matrix may include calculating a hyperparameter based on a co-occurrence frequency of content having the highest similarity probability value.
일 실시예에서, 상기 동시 발생 매트릭스를 업데이트하는 단계는, 상기 유사도 확률값이 가장 높은 컨텐츠의 전체 동시 발생 빈도수의 총 합 또는 동시 발생 빈도수 중 가장 큰 수를 상기 하이퍼 파라미터로서 산출하고 상기 유사도 확률값과 상기 하이퍼 파라미터를 각각 연산하여 상기 관리 정보가 존재하지 않는 컨텐츠의 동시 발생 빈도수로서 산출하여 상기 동시 발생 매트릭스를 업데이트하는 것을 포함할 수 있다.In an embodiment, the updating of the co-occurrence matrix may include calculating, as the hyperparameters, the total sum of all co-occurrence frequencies of the content having the highest similarity probability value or the co-occurrence frequency as the hyperparameter, Computing each of the hyperparameters may be calculated as the frequency of the simultaneous occurrence of the content that does not exist the management information to update the co-occurrence matrix.
일 실시예에서, 상기 유사 컨텐츠 정보를 제공하는 단계는, 상기 업데이트된 동시 발생 매트릭스를 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠를 포함한 전체 컨텐츠들 간의 상관도를 산출하는 것을 포함할 수 있다.In an embodiment of the present disclosure, the providing of the similar content information may include calculating a correlation between the entire contents including the content without the management information based on the updated co-occurrence matrix.
일 실시예에서, 상기 유사 컨텐츠 정보를 제공하는 단계는, 상기 관리 정보가 존재하지 않는 컨텐츠를 포함하지 않는 동시 발생 매트릭스를 기반으로 전체 컨텐츠들 간의 상관도를 산출하고, 상기 유사도 확률값을 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠와 상기 동시 발생 매트릭스에 포함된 시청된 컨텐츠들 간의 상관도를 산출하는 것을 포함할 수 있다.In one embodiment, the providing of the similar content information may include: calculating a correlation between all contents based on a co-occurrence matrix that does not include content in which the management information does not exist, and based on the similarity probability value. The method may include calculating a correlation between content for which no management information exists and watched contents included in the co-occurrence matrix.
일 실시예에서, 상기 유사 컨텐츠 정보를 제공하는 단계는, 상기 관리 정보가 존재하지 않는 컨텐츠와 상기 동시 발생 매트릭스에 포함된 시청된 컨텐츠들 간의 상관도를 기반으로 상기 관리 정보가 존재하지 않는 컨텐츠의 관리 정보를 생성하고, 상기 유사 컨텐츠 정보를 제공하는 것을 포함할 수 있다.In an embodiment, the providing of the similar content information may include determining the content of the content in which the management information does not exist based on a correlation between the content in which the management information does not exist and the viewed content included in the co-occurrence matrix. Generating management information and providing the similar content information.
본 발명의 실시예들에 따른 컨텐츠 정보 제공 장치 및 그 방법에 따르면 사용자에게 추천 컨텐츠로서 유사 컨텐츠 정보를 제공할 수 있다.According to an apparatus and method for providing content information according to embodiments of the present invention, similar content information may be provided to a user as recommended content.
본 발명의 실시예들에 따른 컨텐츠 정보 제공 장치 및 그 방법에 따르면 사용자에게 추천 컨텐츠로서 제공되는 유사 컨텐츠 정보의 정확도를 향상시킬 수 있다. According to an apparatus and method for providing content information according to embodiments of the present invention, the accuracy of similar content information provided as recommended content to a user may be improved.
이 외에, 본 문서를 통해 직접적 또는 간접적으로 파악되는 다양한 효과들이 제공될 수 있다.In addition, various effects may be provided that are directly or indirectly identified through this document.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 정보 제공 장치의 구성을 나타내는 블록도이다.1 is a block diagram illustrating a configuration of an apparatus for providing content information according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 생성을 위한 동시에 시청되는 컨텐츠들의 데이터 쌍의 예시를 나타내는 도면이다.2 is a diagram illustrating an example of a data pair of simultaneously viewed contents for generating a co-occurrence matrix according to an embodiment of the present invention.
도 3은 도 2의 데이터쌍을 이용하여 동시 발생 매트릭스를 생성하는 예시도이다.3 is an exemplary diagram for generating a co-occurrence matrix using the data pair of FIG. 2.
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반 컨텐츠들의 벡터 공간 상에서의 상대적 위치를 학습하는 예를 설명하기 위한 도면이다.4A and 4B are diagrams for describing an example of learning a relative position of a co-occurrence matrix-based contents in a vector space according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반으로 학습된 뉴럴 네트워크를 이용하여 컨텐츠들의 유사도를 학습하는 방법을 설명하기 위한 도면이다.FIG. 5 is a diagram illustrating a method of learning similarity of contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반으로 학습된 뉴럴 네트워크를 이용하여 신규 컨텐츠에 대한 기존 컨텐츠들의 유사도 확률값 산출 방법을 설명하기 위한 도면이다.FIG. 6 is a diagram illustrating a method of calculating similarity probability values of existing contents for new contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 최대 빈도수 기반 하이퍼 파라미터를 산출하여 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 예시도이다.7 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a maximum frequency-based hyperparameter according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따른 총 빈도수 기반 하이퍼 파라미터를 산출하여 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 예시도이다.8 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a total frequency-based hyperparameter according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 상관도(PMI)를 산출하는 방법을 나타내는 예시도이다. 9 is an exemplary view illustrating a method of calculating a correlation PMI according to an embodiment of the present invention.
도 10은 본 발명의 일 실시예에 따른 상관도(PMI)를 산출하여 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 예시도이다. 10 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a correlation (PMI) according to an embodiment of the present invention.
도 11은 본 발명의 일 실시예에 따른 컨텐츠에 대한 동시 발생 매트릭스를 생성 및 관리하는 방법을 설명하기 위한 순서도이다.11 is a flowchart illustrating a method of generating and managing a co-occurrence matrix for content according to an embodiment of the present invention.
도 12는 본 발명의 일 실시예에 따른 컨텐츠 제공 방법을 설명하기 위한 순서도이다.12 is a flowchart illustrating a content providing method according to an embodiment of the present invention.
도 13은 본 발명의 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기 위한 순서도이다.FIG. 13 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information for new content according to an embodiment of the present invention.
도 14는 본 발명의 다른 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기 위한 순서도이다.14 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information for new content according to another embodiment of the present invention.
도 15는 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 도시한다.15 illustrates a computing system in accordance with an embodiment of the present invention.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.Hereinafter, some embodiments of the present invention will be described in detail through exemplary drawings. In adding reference numerals to the components of each drawing, it should be noted that the same reference numerals are assigned to the same components as much as possible even though they are shown in different drawings. In addition, in describing the embodiments of the present invention, if it is determined that the detailed description of the related well-known configuration or function interferes with the understanding of the embodiments of the present invention, the detailed description thereof will be omitted.
본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In describing the components of the embodiment of the present invention, terms such as first, second, A, B, (a), and (b) may be used. These terms are only for distinguishing the components from other components, and the nature, order or order of the components are not limited by the terms. In addition, unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. Do not.
이하, 도 1 내지 도 15를 참조하여, 본 발명의 실시예들을 구체적으로 설명하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to FIGS. 1 to 15.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 정보 제공 장치의 구성을 나타내는 블록도이다.1 is a block diagram illustrating a configuration of an apparatus for providing content information according to an embodiment of the present invention.
도 1을 참조하면, 컨텐츠 정보 제공 장치(100)는 제 1 프로세서(110) 및 제 2 프로세서(120)를 포함한다. 제 1 프로세서(110) 및 제 2 프로세서(120)는 학습된 네트워크로서 구현될 수 있다. 한편, 도 1에서는 제 1 프로세서(110) 및 제 2 프로세서(120)가 별개의 구성으로 도시되어 있으나, 이에 한정되는 것은 아니며, 제 1 프로세서(110) 및 제 2 프로세서(120)는 통합된 하나의 프로세서로서 동작할 수도 있다.Referring to FIG. 1, the content information providing apparatus 100 includes a first processor 110 and a second processor 120. The first processor 110 and the second processor 120 may be implemented as a learned network. In FIG. 1, the first processor 110 and the second processor 120 are shown in separate configurations, but are not limited thereto. The first processor 110 and the second processor 120 may be integrated. It may also operate as a processor.
제 1 프로세서(110)의 학습된 뉴럴 네트워크(neural network)는 학습된 알고리즘(ex. 제 1 알고리즘)에 기반하여 동시 발생(Co-occurrence, 공동 발생) 매트릭스를 생성하고, 동시 발생 매트릭스를 기반으로 컨텐츠들의 관리 정보를 생성할 수 있다. 여기서, 학습된 알고리즘은 유사성이 있는 컨텐츠들을 유사한 관리 정보 값을 갖도록 생성하는 알고리즘으로 정의될 수 있다. 예를 들어, 서로 유사성이 있는 컨텐츠들은 벡터 공간 상에 인접하여 위치되는 관리 정보를 가질 수 있고, 컨텐츠의 내용, 주제, 소재, 외형, 카테고리, 요약 등에 있어 서로 동일하거나 유사한 컨텐츠를 의미할 수 있다. The learned neural network of the first processor 110 generates a co-occurrence matrix based on the learned algorithm (eg, the first algorithm) and based on the co-occurrence matrix. Management information of contents may be generated. Here, the learned algorithm may be defined as an algorithm for generating similar contents to have similar management information values. For example, contents that are similar to each other may have management information located adjacent to a vector space, and may mean the same or similar contents in content, subject, material, appearance, category, summary, and the like of the content. .
제 2 프로세서(120)의 학습된 뉴럴 네트워크는 학습된 알고리즘(ex. 제 2 알고리즘)에 기반하여 컨텐츠의 유사 특성 정보를 기반으로 컨텐츠들간의 유사도 확률값을 산출하여 동시 발생 매트릭스를 업데이트한다. 여기서 '유사도 확률값'은 컨텐츠들 간의 유사함의 정도를 의미하며, 유사도 확률값의 계산은 통상의 유사도 관련 알고리즘에 의해 구현될 수 있고, 제 2 프로세서(120)의 학습 네트워크는 이러한 알고리즘에 의해 학습될 수 있다. 또한, '유사 특성 정보'는 컨텐츠의 내용, 주제, 소재, 외형, 카테고리, 요약 등에 있어 서로 동일하거나 유사한 특성 정보를 포함할 수 있다. 예를 들어, 컨텐츠가 영화인 경우, 주연배우, 출시 연도, 영화 제목, 제작비용 등을 포함할 수 있다.The learned neural network of the second processor 120 updates the co-occurrence matrix by calculating similarity probability values between the contents based on the similar characteristic information of the contents based on the learned algorithm (eg, the second algorithm). Here, the similarity probability value means the degree of similarity between contents, and the calculation of the similarity probability value may be implemented by a general similarity related algorithm, and the learning network of the second processor 120 may be learned by such an algorithm. have. In addition, the 'similar property information' may include the same or similar property information in content, theme, location, appearance, category, summary, and the like of the content. For example, if the content is a movie, it may include a main actor, release year, movie title, production cost and the like.
제 1 프로세서(110)는 시청된 컨텐츠들의 동시 시청 빈도수 기반의 동시 발생 매트릭스를 이용하여 시청된 컨텐츠들의 관리 정보를 생성하고, 관리 정보를 기반으로 시청된 컨텐츠들의 유사 컨텐츠 정보를 제공할 수 있다. 이때, 제 1 프로세서(110)는 미리 정한 주기마다 컨텐츠들의 관리 정보를 생성하거나, 신규 컨텐츠가 등록된 후 일정 시간마다 관리 정보를 생성할 수 있다.The first processor 110 may generate management information of the viewed contents using a simultaneous generation matrix based on the simultaneous viewing frequency of the viewed contents, and provide similar content information of the viewed contents based on the management information. In this case, the first processor 110 may generate management information of the contents at predetermined intervals or may generate the management information every predetermined time after the new content is registered.
제 1 프로세서(110)는 동시에 시청되는 컨텐츠들의 동시 시청 빈도수를 이용하여 동시 발생 매트릭스를 생성하고, 동시 발생 매트릭스의 값을 이용하여 컨텐츠들을 상관도(PMI; Pointwise Mutual Information)를 산출하고 컨텐츠들의 상관도를 기반으로 컨텐츠들을 N차원의 벡터 공간 상에서 상대적 위치를 가지도록 분류할 수 있다. 동시 발생 매트릭스의 생성 방법에 대해 추후 도 2 및 도 3을 통해 더욱 구체적으로 설명하기로 한다.The first processor 110 generates a co-occurrence matrix using the simultaneous viewing frequency of the contents simultaneously viewed, calculates a pointwise mutual information (PMI) of the contents using the value of the co-occurrence matrix, and correlates the contents. Based on the diagram, contents may be classified to have a relative position in an N-dimensional vector space. A method of generating the co-occurrence matrix will be described in more detail later with reference to FIGS. 2 and 3.
여기서 동시 발생 매트릭스의 행과 열은 컨텐츠들의 식별정보(ex. 컨텐츠 명칭) 및 데이터 쌍을 이루는 두 개의 컨텐츠가 동시에 시청되는 빈도수를 값으로 포함할 수 있다. 이때, 동시에 시청되는 조건은 컨텐츠 1이 시청되는 동안 컨텐츠 2의 시청이 시작되는 경우를 포함할 수 있다. 또한, 컨텐츠 1이 시청완료 된 후 일정 시간 내에 컨텐츠 2가 시청되는 경우 동시 시청으로 간주할 수도 있다. Here, the rows and columns of the co-occurrence matrix may include identification information (eg, content name) of the contents and a frequency at which two contents forming a data pair are simultaneously viewed. At this time, the condition to be viewed at the same time may include the case where the viewing of the
제 1 프로세서(110)는 동시 발생 매트릭스의 값을 이용하여 컨텐츠들 간의 상관도를 산출하고, 상관도를 기반으로 N 차원 벡터 공간 상에 컨텐츠들을 분류한다. 이때, 각 컨텐츠들은 N차원의 벡터 공간 상에서 동시 발생 빈도수가 높거나 상관도가 높을수록 서로 인접한 위치에 배치될 수 있고, 제 1 프로세서(110)는 인접한 위치에 있는 컨텐츠들의 유사도가 높은 것으로 판단할 수 있다. 즉 제 1 프로세서(110)는 인접한 위치에 있는 컨텐츠들을 유사 컨텐츠로 분류하고, 각 컨텐츠들마다 벡터 공간 상에서의 상대적 위치 정보인 관리 정보(벡터 정보)를 생성할 수 있다. The first processor 110 calculates a correlation between the contents using the value of the co-occurrence matrix, and classifies the contents on the N-dimensional vector space based on the correlation. In this case, each of the contents may be arranged in positions adjacent to each other as the frequency of occurrence or correlation is high in the N-dimensional vector space, and the first processor 110 may determine that the similarities of the contents in the adjacent positions are high. Can be. That is, the first processor 110 may classify the contents in the adjacent position as the similar contents and generate management information (vector information) which is relative position information on the vector space for each contents.
제 2 프로세서(120)는 시청된 컨텐츠의 관리 정보가 존재하지 않는 경우, 컨텐츠의 유사 특성 정보를 기반으로 관리 정보가 존재하지 않는 시청된 컨텐츠의 동시 시청 빈도수 기반의 동시 발생 매트릭스를 업데이트할 수 있다. When there is no management information of the watched content, the second processor 120 may update the co-occurrence matrix based on the simultaneous viewing frequency of the watched content in which the management information does not exist based on the similar characteristic information of the content. .
제 2 프로세서(120)는 유사 특성 정보를 기반으로 학습된 알고리즘을 이용하여 관리 정보가 존재하지 않는 컨텐츠(신규 컨텐츠)의 유사 특성 정보를 이용하여 시청된 컨텐츠들과 신규 컨텐츠 간의 유사도 확률값을 산출할 수 있다. 예를 들어, 신규 컨텐츠는 신규 등록되어 동시 발생 매트릭스에 포함되어 있지 않아 관리 정보가 생성되지 않은 컨텐츠를 포함할 수 있다. 즉 신규 컨텐츠의 특성 정보가 제 2 프로세서(120)에 입력되면, 제 2 프로세서(120)는 학습이 완료된 뉴럴 네트워크를 기반으로 신규 컨텐츠와 기존 컨텐츠(이미 시청되어 관리 정보가 존재하는 컨텐츠 또는 동시 발생 매트릭스에 포함되어 있는 컨텐츠)간의 유사도 확률값을 산출한다.The second processor 120 may calculate a similarity probability value between the watched content and the new content by using similar property information of the content (new content) in which the management information does not exist using an algorithm learned based on the similar property information. Can be. For example, the new content may include content that is newly registered and is not included in the co-occurrence matrix, so that management information is not generated. That is, when the characteristic information of the new content is input to the second processor 120, the second processor 120 may generate new content and existing content (content already viewed and management information existing or simultaneously generated based on the neural network on which learning has been completed). The similarity probability value between the contents included in the matrix) is calculated.
제 2 프로세서(120)는 유사도 확률값이 가장 높은 컨텐츠의 동시 발생 빈도수를 기반으로 하이퍼 파라미터(hyper-parameter)를 산출하여 동시 발생 매트릭스를 업데이트할 수 있다. 제 2 프로세서(120)는 유사도 확률값이 가장 높은 컨텐츠의 전체 동시 발생 빈도수의 총 합을 하이퍼 파라미터로서 산출할 수 있다. 또한, 제 2 프로세서(120)는 유사도 확률값이 가장 높은 컨텐츠의 동시 발생 빈도수 중 가장 큰 수를 하이퍼 파라미터로서 산출할 수 있다.The second processor 120 may update the co-occurrence matrix by calculating a hyper-parameter based on the co-occurrence frequency of the content having the highest similarity probability value. The second processor 120 may calculate the total sum of all simultaneous occurrence frequencies of the content having the highest similarity probability value as a hyper parameter. In addition, the second processor 120 may calculate, as a hyper parameter, the largest number of simultaneous occurrence frequencies of content having the highest similarity probability value.
제 2 프로세서(120)는 동시 발생 매트릭스의 행과 열에 신규 컨텐츠를 항목으로 추가하고, 시청된 컨텐츠들의 유사도 확률값과 하이퍼 파라미터를 각각 연산하여 신규 컨텐츠의 동시 발생 빈도수로서 산출하여 동시 발생 매트릭스를 업데이트할 수 있다. 여기서, '연산'은 곱셈 연산을 포함할 수 있다.The second processor 120 adds new content to the rows and columns of the co-occurrence matrix as items, calculates similarity probability values and hyperparameters of the watched contents, respectively, and calculates the co-occurrence matrix by updating the co-occurrence matrix. Can be. Here, 'operation' may include a multiplication operation.
제 2 프로세서(120)는 하이퍼 파라미터와 유사도 확률값을 기반으로 업데이트된 동시 발생 매트릭스를 기반으로 전체 컨텐츠간의 상관도를 산출할 수 있다. 이때, 신규 컨텐츠와 기존 컨텐츠간의 상관도도 산출될 수 있다. The second processor 120 may calculate a correlation between the entire contents based on the updated co-occurrence matrix based on the hyperparameter and the similarity probability value. In this case, a correlation between the new content and the existing content may also be calculated.
다른 실시예로서, 제 2 프로세서(120)는 하이퍼 파라미터를 산출하지 않고, 신규 컨텐츠와 기존 컨텐츠들 간의 유사도 확률값과 신규 컨텐츠가 포함되지 않은 동시 발생 매트릭스를 이용하여 전체 컨텐츠들 간의 상관도를 산출할 수 있다. In another embodiment, the second processor 120 does not calculate a hyperparameter, but calculates a correlation between the entire contents using a similarity probability value between the new content and the existing content and a co-occurrence matrix that does not include the new content. Can be.
제 2 프로세서(120)가 신규 컨텐츠와 기존 컨텐츠들간의 상관도를 산출하면, 제 1 프로세서(110)는 제 2 프로세서(120)에 의해 산출된 신규 컨텐츠와 기존 컨텐츠들간의 상관도를 기반으로 신규 컨텐츠에 대한 관리 정보를 생성하고, 학습된 알고리즘에 의해 유사 컨텐츠 정보를 생성하여 제공할 수 있다. When the second processor 120 calculates a correlation between the new content and the existing content, the first processor 110 generates the new content based on the correlation between the new content and the existing content calculated by the second processor 120. The management information for the content may be generated, and similar content information may be generated and provided by a learned algorithm.
이와 같은 구성을 가지는 본 발명의 컨텐츠 정보 제공 장치(100)는 동시 시청 빈도수를 기반으로 유사 컨텐츠 정보를 제공하되, 동시 시청 빈도수 정보를 가지고 있지 않은 즉 동시 발생 매트릭스가 생성되지 않은 신규 컨텐츠의 경우 기존 컨텐츠들의 유사 특성 정보를 기반으로 학습되어 있는 뉴럴 네트워크 기반으로 기존 컨텐츠들 각각의 신규 컨텐츠에 대한 유사도 확률값을 산출하여 유사도 확률값을 기반으로 신규 컨텐츠의 동시 시청 빈도수를 임의로 산출함으로써 임의로 산출된 신규 컨텐츠의 동시 시청 빈도수를 기반으로 유사 컨텐츠 정보를 제공할 수 있다.The content information providing apparatus 100 of the present invention having such a configuration provides similar content information based on the simultaneous viewing frequency, but does not have the simultaneous viewing frequency information, that is, the existing content for the new content that does not generate the simultaneous matrix. Based on a neural network trained based on similar property information of contents, a similarity probability value for each of the existing contents is calculated and randomly calculated the simultaneous viewing frequency of the new content based on the similarity probability value. Similar content information may be provided based on the simultaneous viewing frequency.
이하, 도 2 및 도 3을 참조하여 동시 발생 매트릭스를 생성하는 방법을 설명하기로 한다. Hereinafter, a method of generating a co-occurrence matrix will be described with reference to FIGS. 2 and 3.
도 2는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 생성을 위한 동시에 시청되는 컨텐츠들의 데이터 쌍의 예시를 나타내는 도면이다. 도 3은 도 2의 데이터 쌍을 이용하여 동시 발생 매트릭스를 생성하는 예시도이다. 2 is a diagram illustrating an example of a data pair of simultaneously viewed contents for generating a co-occurrence matrix according to an embodiment of the present invention. 3 is an exemplary diagram for generating a co-occurrence matrix using the data pair of FIG. 2.
도 2 및 도 3에서는 설명의 편의상 컨텐츠들을 뫟된춶로 예를 들어 설명하나, 컨텐츠는 쇼핑, 광고 등을 목적으로 하는 다양한 멀티미디어 데이터를 포함할 수 있다. 도 2 및 도 3의 동시 발생 매트릭스를 생성하는 과정은 제 1 프로세서(110)에 의해 구현될 수 있다.In FIGS. 2 and 3, contents are described as examples for convenience of description, but the contents may include various multimedia data for the purpose of shopping and advertisement. The process of generating the co-occurrence matrix of FIGS. 2 and 3 may be implemented by the first processor 110.
도 2를 참조하면, 영화1 내지 영화9가 시청되는데, 영화1이 시청되는 동안 영화2 및 영화3이 각각 순차적으로 시청된 경우, 컨텐츠 정보 제공 장치(100)는 영화1과 영화2, 영화 1과 영화3을 각각 데이터 쌍으로 생성한다. Referring to FIG. 2, when
또한, 영화 2가 시청되는 동안 영화1, 영화3, 영화4가 순차적으로 동시 시청되는 경우, 컨텐츠 정보 제공 장치(100)는 4개의 데이터 쌍(영화2와 영화1, 영화2와 영화3, 영화2와 영화4)이 생성된다. In addition, when
도 3을 참조하면, 컨텐츠 정보 제공 장치(100)는 도 2에서 생성된 데이터쌍을 기반으로 동시 발생 매트릭스를 생성한다. 즉 영화1과 영화2는 2번 동시 시청되어, 빈도수가 2로 기록되고, 영화2와 영화3도 2번 동시에 시청되어 빈도수가 2로 기록된다. 이처럼 컨텐츠 정보 제공 장치(100)는 동시 시청된 횟수를 기반으로 동시 발생 매트릭스의 값을 생성한다.Referring to FIG. 3, the content information providing apparatus 100 generates a co-occurrence matrix based on the data pairs generated in FIG. 2. That is, the
도 4a 및 도 4b는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반 컨텐츠들의 벡터 공간 상에서의 상대적 위치(관리 정보)를 학습시키는 예를 설명하기 위한 도면이다.4A and 4B are diagrams for describing an example of learning a relative position (management information) in a vector space of co-occurrence matrix-based contents according to an embodiment of the present invention.
도 4a를 참조하면, 제 1 프로세서(110)는 원 핫 벡터로서 구현되며, 원 핫 벡터는 전체 배열에서 하나의 값만 ‘1’ 로 존재하고 나머지는 ‘0’으로 되어 있는 벡터를 의미한다. Referring to FIG. 4A, the first processor 110 is implemented as a one hot vector, and the one hot vector refers to a vector in which only one value is '1' and the rest is '0' in the entire array.
제 1 프로세서(110)는 데이터 쌍인 두 개의 단어(영화1, 영화2)가 입력 및 출력될 때, ‘영화1’이 입력 레이어에 입력되고 ‘영화2’가 출력 레이어로부터 출력되도록 가중치(W: 임배딩 차원의 개수(N)만큼 존재) 값을 학습 시킨다. 이러한 학습이 끝나게 되면 가중치 값들에 해당 단어들(영화1, 영화2)의 벡터 공간내의 상대적 위치가 학습되게 된다.When two words (
도 4a에서는 영화 1에 대한 유사 컨텐츠로서 영화 2의 값이 ‘1’로 설정되었으나 ‘1’값은 도 4b와 같이 상관도(PMI(영화1’; ‘영화2’)) 로 대체될 수 도 있다. 즉 영화 1과 상관도가 높은 컨텐츠인 영화 2에 대한 가중치값들에 대해 학습시킬 수 있다. 상관도의 산출은 이하 도 9를 참조하여 더욱 구체적으로 설명하기로 한다. In FIG. 4A, the value of
도 5는 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반으로 학습된 뉴럴 네트워크를 이용하여 컨텐츠들의 유사도를 학습시키는 방법을 설명하기 위한 도면이고, 도 6은 본 발명의 일 실시예에 따른 동시 발생 매트릭스 기반으로 학습된 뉴럴 네트워크를 이용하여 신규 컨텐츠에 대한 기존 컨텐츠들의 유사도 확률값 산출 방법을 설명하기 위한 도면이다. 5 is a diagram illustrating a method of learning similarity of contents using a neural network trained based on a co-occurrence matrix according to an embodiment of the present invention, and FIG. 6 is a co-occurrence according to an embodiment of the present invention. A diagram for describing a method of calculating similarity probability values of existing contents for new contents using a neural network trained on a matrix basis.
도 5 및 도 6은 제 2 프로세서(120)에 의한 유사 특성 정보 기반 학습된 네트워크를 통해 유사도 또는 유사도 확률값을 산출하는 예를 개시한다. 도 5 및 도 6에서와 같이, 뉴럴 네트워크는 복수개의 유닛들로 구성된 N개의 레이어로 구성되며, 레이어를 통해 연산된 산출값(Y)은 소프트 맥스(softmax) 함수를 거쳐 유사도 또는 유사도 확률값을 산출할 수 있다.5 and 6 disclose an example of calculating similarity or similarity probability values through the learned characteristic network based on the similar characteristic information by the second processor 120. 5 and 6, the neural network is composed of N layers composed of a plurality of units, and the calculated value Y calculated through the layers calculates the similarity or similarity probability value through a softmax function. can do.
도 5를 참조하면, 제 2 프로세서(120)는 컨텐츠의 유사 특성 정보가 뉴럴 네트워크에 입력되면, 산출값(Y)을 출력하고 소프트맥스(softmax) 함수를 수행하여 유사도를 출력한다. Referring to FIG. 5, when similar property information of content is input to a neural network, the second processor 120 outputs a calculated value Y and performs a softmax function to output a similarity degree.
도 5를 참조하면, 컨텐츠들(영화 1 내지 영화 8)의 관리 정보를 기반으로 학습된 뉴럴 네트워크에 영화 2의 유사 특성 정보가 입력되면 관리 정보 기반으로 영화 2와 인접한 위치에 있는 영화 3이 ‘1’값으로 출력되도록 가중치(w)와 변수(b)를 최적화 한다. 이때, 유사 특성 정보는 영화 2의 감독, 주연배우, 출시 연도, 영화 제목, 제작비용 등을 포함할 수 있고 영화 2와 영화 3의 유사 특성 정보가 일치할 수 있다. Referring to FIG. 5, when similar characteristic information of
도 6을 참조하면 이렇게 최적화된 가중치(w)와 변수(b)를 가지도록 학습된 뉴럴 네트워크에 관리 정보가 존재하지 않는 신규 컨텐츠인 영화 9의 유사 특성 정보가 입력되면, 제 2 프로세서(120)는 최적화된 가중치(w)와 변수(b)를 이용하여 유사도 확률값을 산출한다. 영화 3의 유사도 확률값이 가장 높은 것을 알 수 있다. Referring to FIG. 6, when similar characteristic information of Movie 9, which is new content in which no management information exists, is input to a neural network trained to have the optimized weight w and the variable b, the second processor 120 is input. Calculates the similarity probability using the optimized weight w and the variable b. It can be seen that the similarity probability value of Movie 3 is the highest.
도 7은 본 발명의 일 실시예에 따른 최대 빈도수 기반 하이퍼 파라미터를 산출하여 관리 정보가 존재하지 않는 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 예시도이다. 도 7에서는 하이퍼 파라미터를 산출하여 신규 컨텐츠인 '영화9'에 대한 동시 발생 매트릭스의 값을 생성하는 예를 도시한다.7 is an exemplary diagram of updating a co-occurrence matrix for new content for which management information does not exist by calculating a maximum frequency-based hyperparameter according to an embodiment of the present invention. FIG. 7 illustrates an example of generating a value of a co-occurrence matrix for a new content 'movie 9' by calculating a hyper parameter.
제 2 프로세서(120)는 동시 발생 매트릭스를 구성하는 컨텐츠 중 유사도 확률값이 가장 높은 컨텐츠의 최대 빈도수를 하이퍼 파라미터로 산출하고, 하이퍼 파라미터를 각 컨텐츠의 유사도 확률값과 곱하여 신규 컨텐츠에 대한 빈도수를 산출할 수 있다.The second processor 120 may calculate the maximum frequency of the content having the highest similarity probability value as the hyper parameter among the contents constituting the co-occurrence matrix, and multiply the hyper parameter by the similarity probability value of each content to calculate the frequency for the new content. have.
도 7에서는 ‘영화3’의 유사도 확률값이 0.5로 가장 크므로, 영화 3의 최대 빈도수를 하이퍼 파라미터로서 산출한다. 즉, 영화3의 영화1과의 동시 시청 빈도수가 2, 영화 3과 영화 2의 동시 시청 빈도수가 2, 영화3과 영화 4의 동시 시청 빈도수가 2, 영화3과 영화 5의 동시 시청 빈도수가 1이므로, 컨텐츠 정보 제공 장치(100)는 최대 빈도수인 ‘2’를 하이퍼 파라미터로 산출한다. 이어, 제 2 프로세서(120)는 하이퍼 파라미터 ‘2’와 각 컨텐츠의 유사도 확률값을 곱하여 ‘영화9’에 대한 빈도수를 산출할 수 있다. In FIG. 7, since the similarity probability value of 'movie 3' is 0.5, the maximum frequency of movie 3 is calculated as a hyper parameter. That is, the simultaneous viewing frequency of movie 3 with
이때, 영화 9와 영화 1의 빈도수는 0.4, 영화9와 영화 2의 빈도수는 0.4, 영화9와 영화3의 빈도수는 1.0, 영화9와 영화4의 빈도수는 0.4, 영화9와 영화5의 빈도수는 0.2이므로, 제 2 프로세서(120)는 가장 큰 값을 가지는 영화 3에 대한 빈도수만 ‘1’로 기록하고 나머지 컨텐츠들은 ‘0’으로 기록할 수 있다. 이때, 제 2 프로세서(120)는 하이퍼 파라미터와 유사도 확률값을 곱한 값들을 관리 정보가 존재하지 않는 신규 컨텐츠와 대응되는 컨텐츠마다 기록할 수 있다. 이때, 기록되는 숫자는 소수점 이하를 버리거나 반올림하여 정수만 기록할 수도 있다.In this case, the frequency of movie 9 and
도 8은 본 발명의 일 실시예에 따른 총 빈도수 기반 하이퍼 파라미터를 산출하여 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 예시도이다. 도 8에서는 하이퍼 파라미터를 산출하여 신규 컨텐츠인 ‘영화9’에 대한 동시 발생 매트릭스의 값을 생성하는 예를 도시한다.8 is an exemplary diagram of updating a co-occurrence matrix for new content by calculating a total frequency-based hyperparameter according to an embodiment of the present invention. 8 illustrates an example of generating a value of a co-occurrence matrix for the new content "movie 9" by calculating a hyper parameter.
제 2 프로세서(120)는 동시 발생 매트릭스를 구성하는 컨텐츠 중 유사 확률값이 가장 높은 컨텐츠의 빈도수를 합산하여 합산값을 하이퍼 파라미터로 산출하고, 하이퍼 파라미터를 각 컨텐츠의 유사도 확률값과 곱하여 신규 컨텐츠에 대한 빈도수를 산출할 수 있다. The second processor 120 adds the frequency of the content having the highest likelihood probability value among the contents constituting the co-occurrence matrix, calculates the sum as a hyperparameter, multiplies the hyperparameter with the similarity probability value of each content, and generates a frequency for the new content. Can be calculated.
도 8에서는 ‘영화3’의 유사도 확률값이 0.5로 가장 크므로, 영화 3의 빈도수의 합을 하이퍼 파라미터로서 산출한다. 즉, 영화3의 영화1과의 동시 시청 빈도수가 2, 영화 3과 영화 2의 동시 시청 빈도수가 2, 영화3과 영화 4의 동시 시청 빈도수가 2, 영화3과 영화 5의 동시 시청 빈도수가 1이므로 제 2 프로세서(120)는 빈도수의 합인 ‘7’를 하이퍼 파라미터로 산출한다. In FIG. 8, since the similarity probability value of 'movie 3' is the largest as 0.5, the sum of the frequency of movie 3 is calculated as a hyper parameter. That is, the simultaneous viewing frequency of movie 3 with
이어, 제 2 프로세서(120)는 하이퍼파라미터 ‘7’과 각 컨텐츠의 유사도 확률값을 곱하여 ‘영화9’에 대한 빈도수를 산출할 수 있다. Subsequently, the second processor 120 may calculate the frequency for the movie 9 by multiplying the hyperparameter '7' by the similarity probability value of each content.
이때, 영화 9와 영화 1의 빈도수는 1.4, 영화9와 영화 2의 빈도수는 1.4, 영화9와 영화3의 빈도수는 3.5, 영화9와 영화4의 빈도수는 1.4, 영화9와 영화5의 빈도수는 0.7이므로, 제 2 프로세서(120)는 가장 큰 값을 가지는 영화 3에 대한 빈도수만 ‘1’로 기록하고 나머지 컨텐츠들은 ‘0’으로 기록할 수 있다. 이때, 제 2 프로세서(120)는 하이퍼 파라미터와 유사도 확률값을 곱한 값들을 컨텐츠별로 모두 기록하되, 소수점 이하를 버리고 정수만 기록할 수도 있다.In this case, the frequency of movie 9 and
도 9는 본 발명의 일 실시예에 따른 컨텐츠들간의 상관도(PMI:Pointwise Mutual Information)를 산출하는 예시도이고, 도 10은 본 발명의 일 실시예에 따른 신규 컨텐츠에 대한 정보를 포함하는 동시 발생 매트릭스의 예시를 나타내는 도면이다.FIG. 9 illustrates an example of calculating Pointwise Mutual Information (PMI) between contents according to an embodiment of the present invention, and FIG. 10 simultaneously includes information on new content according to an embodiment of the present invention. It is a figure which shows an example of an generation matrix.
제 1 프로세서(110)는 동시 발생 매트릭스의 컨텐츠들간의 상관도를 산출하여 각 컨텐츠들간의 관리 정보를 생성하고, 제 2 프로세서(120)는 하이퍼 파라미터 기반으로 업데이트된 동시 발생 매트릭스의 컨텐츠들 간의 상관도를 산출하거나, 업데이트되기 전의 기존 동시 발생 매트릭스의 컨텐츠들 간의 상관도를 산출하고, 신규 컨텐츠의 유사도 확률값을 기반으로 신규 컨텐츠와 기존 컨텐츠들 간의 상관도를 산출할 수 있으며, 상관도를 산출하는 방법은 아래 수학식들을 통해 구체적으로 설명한다.The first processor 110 calculates a correlation between the contents of the co-occurrence matrix to generate management information between the contents, and the second processor 120 correlates the contents of the co-occurrence matrix updated based on the hyperparameter. The degree of correlation may be calculated between the contents of the existing co-occurrence matrix before the update or the update, and the correlation between the new content and the existing contents may be calculated based on the similarity probability value of the new content. The method is described in detail through the following equations.
컨텐츠 x, y의 상관도는 아래 수학식 1과 같이 정의 될 수 있다.Correlation between the contents x and y may be defined as in
p(x)는 x컨텐츠가 시청될 확률, p(y)는 y 컨텐츠가 시청될 확률, p(x,y)는 x 컨텐츠, y컨텐츠가 동시에 시청될 확률이다.p (x) is the probability that x content is watched, p (y) is the probability that y content is watched, p (x, y) is the probability that x content and y content are watched simultaneously.
수학식 1을 수학식 2와 같이 나타낼 수 있다.
xi는 유사도 확률값이 가장 큰 컨텐츠의 행의 값의 총합, xj 는 유사도 확률값이 가장 큰 컨텐츠의 열의 값의 총합, D는 동시 발생 매트릭스의 빈도수들의 총 합을 의미한다(도 9 참조).x i is the sum of the values of the rows of the content with the highest similarity probability value, x j is the sum of the values of the columns of the content with the highest similarity probability value, and D is the sum of the frequencies of the co-occurrence matrix (see FIG. 9).
제 1 프로세서(110) 및 제 2 프로세서(120)는 수학식 2를 통해 동시 발생 매트릭스의 기존 컨텐츠들 간의 상관도를 산출할 수 있다. 다만 신규 컨텐츠와 기존 컨텐츠들간의 상관도의 산출을 위해, 제 2 프로세서(110)는 아래 수학식 3과 같이, 유사도 확률값을 가정한다. The first processor 110 and the second processor 120 may calculate a correlation between existing contents of the co-occurrence matrix through
수학식 2에 수학식 3의 유사도 확률값을 대입하여 수식을 나타내면 아래 수학식 4와 같다. When the equation is represented by substituting the similarity probability value of Equation 3 into
제 2 프로세서(110)는 수학식 4와 같이 유사도 확률값을 이용하여 신규 컨텐츠의 상관도(PMI)를 산출할 수 있다. The second processor 110 may calculate the correlation PMI of the new content by using the similarity probability value as shown in Equation 4.
예를 들어, 기존 컨텐츠들인 영화2와 영화3의 상관도를 산출하고자 하는 경우 수학식 2를 적용하여 산출하면 아래 수학식 5와 같다. For example, in order to calculate the correlation between the existing contents of the
제 2 프로세서(120)는 각 컨텐츠간의 상관도를 기반으로 도 4b와 같이 원 핫벡터에 입력하여 학습시킨다. 즉, 제 2 프로세서(120)는 뉴럴 네트워크에 영화 2를 입력으로 하고 영화 3을 출력으로 설정한 후 영화 2가 입력되었을 때, 영화 3이 출력되도록 가중치를 최적화한다. 이어 학습이 완료되면 제 2 프로세서(120)는 가중치 값들을 이용하여 영화 2와 영화 3의 벡터 공간 상에서의 상대적 위치를 학습시킨다. 즉 가중치 값을 통해 각 영화가 시청될 확률 간의 상관도가 학습될 수 있다. 즉 수학식 5를 통해 도 10의 영화 1 내지 영화 8 간의 상관도를 산출할 수 있다.The second processor 120 inputs and learns the original hot vector as shown in FIG. 4B based on the correlation between the contents. That is, the second processor 120 optimizes the weight so that the movie 3 is output when the
한편, 신규 컨텐츠와 기존 컨텐츠간의 상관도를 산출하는 경우 수학식 4를 적용한다. 도 10를 참조하면 영화 1 내지 영화 8 간의 상관도는 상술한 수학식 2를 적용하고 신규 컨텐츠(영화 9)와 기존 컨텐츠(영화 1 내지 8)의 상관도의 산출은 수학식 4를 적용한다. On the other hand, when calculating the correlation between the new content and the existing content Equation 4 is applied. Referring to FIG. 10,
아래 표 1은 수학식 4에 도 9의 xj와 D값을 적용하여 영화9와 기존 컨텐츠(영화 1 내지 8)에 대한 상관도를 산출한 예시를 나타내고, 표 2는 최종 산출된 결과를 표시한 예시 테이블이다. Table 1 below shows an example of calculating correlation between movie 9 and existing contents (
상기 표 2에서 영화 9는 영화 3과의 상관도가 가장 높음을 알 수 있다. In Table 2, it can be seen that movie 9 has the highest correlation with movie 3.
제 2 프로세서(120)는 영화 1 내지 영화 9 들 간의 상관도를 모두 산출하여 도 10과 같이 나타낼 수 있으며, 제 1 프로세서(110)는 산출된 전체 컨텐츠들간의 상관도를 기반으로 각 컨텐츠들의 관리 정보를 생성함으로써 영화9’가 시청되면 ‘영화3’을 유사 컨텐츠 정보로서 추천할 수 있다. The second processor 120 may calculate all the correlations between the
도 11은 본 발명의 일 실시예에 따른 컨텐츠에 대한 동시 발생 매트릭스를 생성 및 관리하는 방법을 설명하기 위한 순서도이다. 이하에서는 도 1의 컨텐츠 정보 제공 장치(100)가 도 11의 프로세스를 수행하는 것을 가정한다. 또한, 도 11의 설명에서, 장치에 의해 수행되는 것으로 기술된 동작은 제 1 프로세서(110)에 의해 제어되는 것으로 이해될 수 있다.11 is a flowchart illustrating a method of generating and managing a co-occurrence matrix for content according to an embodiment of the present invention. Hereinafter, it is assumed that the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 11. In addition, in the description of FIG. 11, it can be understood that the operations described as being performed by the apparatus are controlled by the first processor 110.
도 11을 참조하면, 컨텐츠 시청이 시작되면(S110), 컨텐츠 정보 제공 장치(100)는 시청중인 컨텐츠와 동시 시청되는 적어도 하나 이상의 컨텐츠가 존재하는 경우(S120), 동시 시청된 컨텐츠에 대한 동시 시청 빈도수를 동시 발생 매트릭스에 업데이트한다(S130).Referring to FIG. 11, when content viewing starts (S110), when there is at least one or more contents simultaneously viewed with the content being viewed (S120), the content viewing apparatus 100 simultaneously views the simultaneously viewed contents. The frequency is updated in the co-occurrence matrix (S130).
컨텐츠 정보 제공 장치(100)는 업데이트 된 동시 발생 매트릭스를 기반으로 각 컨텐츠들 간의 상관도(PMI)를 계산한다(S140). 이어, 컨텐츠 정보 제공 장치(100)는 상관도를 이용하여 컨텐츠들을 벡터 공간상에 분류하여 관리 정보(벡터 정보)를 생성한다(S150). 이때 벡터 정보는 벡터 공간 상의 위치 정보로서, 유사도가 높은 컨텐츠들의 위치가 인접하게 된다. 또한, 컨텐츠 정보 제공 장치(100)는 상술한 수학식 2를 통해 각 컨텐츠들 간의 상관도의 산출을 수행할 수 있다.The content information providing apparatus 100 calculates a correlation PMI between contents based on the updated co-occurrence matrix (S140). Subsequently, the content information providing apparatus 100 classifies the contents on the vector space using the correlation to generate management information (vector information) (S150). In this case, the vector information is position information in a vector space, and the positions of contents having high similarity are adjacent to each other. In addition, the content information providing apparatus 100 may calculate the correlation between the contents through
컨텐츠 정보 제공 장치(100)는 생성된 관리 정보를 기반으로 시청된 컨텐츠의 유사 컨텐츠 정보를 제공한다(S160).The content information providing apparatus 100 provides similar content information of the viewed content based on the generated management information (S160).
이하, 도 12를 참조하여 본 발명의 일 실시예에 따른 컨텐츠 제공 방법을 구체적으로 설명하기로 한다. 이하에서는 도 1의 컨텐츠 정보 제공 장치(100)가 도 12의 프로세스를 수행하는 것을 가정한다.Hereinafter, a content providing method according to an exemplary embodiment of the present invention will be described in detail with reference to FIG. 12. Hereinafter, it is assumed that the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 12.
컨텐츠 정보 제공 장치(100)는 컨텐츠 시청 시(S210), 시청된 컨텐츠에 대한 동시 발생 매트릭스 정보가 존재하는 지를 체크한다(S220).When the content is viewed (S210), the content information providing apparatus 100 checks whether there is concurrent matrix information on the viewed content (S220).
시청된 컨텐츠에 대한 동시 발생 매트릭스 정보가 존재하는 경우, 컨텐츠 정보 제공 장치(100)는 동시 발생 매트릭스 기반으로 시청된 컨텐츠의 유사 컨텐츠 정보를 제공한다(S230).If there is simultaneous generation matrix information on the viewed content, the content information providing apparatus 100 provides similar content information of the viewed content on the basis of the simultaneous generation matrix (S230).
반면, 시청된 컨텐츠에 대한 동시 발생 매트릭스 정보가 존재하지 않는 경우, 컨텐츠 정보 제공 장치(100)는 유사 특성 정보를 기반으로 학습된 뉴럴 네트워크를 이용하여 동시 발생 매트릭스를 업데이트한다. 그 후 컨텐츠 정보 제공 장치(100)는 업데이트 된 동시 발생 매트릭스를 기반으로 유사 컨텐츠 정보를 제공한다(S240). 즉, 업데이트된 동시 발생 매트릭스를 이용하여 각 컨텐츠들의 관리 정보를 생성하고, 관리 정보를 기반으로 유사 컨텐츠 정보를 제공한다.On the other hand, if there is no co-occurrence matrix information for the viewed content, the content information providing apparatus 100 updates the co-occurrence matrix by using the neural network learned based on the similar characteristic information. Thereafter, the apparatus 100 for providing content information provides similar content information based on the updated co-occurrence matrix (S240). That is, the management information of each content is generated using the updated co-occurrence matrix, and similar content information is provided based on the management information.
도 12에서는 시청된 컨텐츠의 관리 정보가 존재하지 않는 경우 컨텐츠 정보 제공 장치(100)는 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 예를 개시하고 있으나, 이에 한정되지 않으며 신규 컨텐츠가 등록되면 컨텐츠 정보 제공 장치(100)는 주기적으로 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 되도록 구현될 수 있다.12 illustrates an example in which the content information providing apparatus 100 updates a co-occurrence matrix based on similar property information when there is no management information of the viewed content, but the present invention is not limited thereto. The information providing apparatus 100 may be implemented to periodically update the co-occurrence matrix based on the similar characteristic information.
이하, 도 13을 참조하여 본 발명의 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기로 한다. 도 13은 본 발명의 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기 위한 순서도로서, 도 12의 과정 S240의 관리 정보가 존재하지 않는 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 방법을 구체적으로 나타낸다. 이하에서는 도 1의 컨텐츠 정보 제공 장치(100)가 도 13의 프로세스를 수행하는 것을 가정한다. 또한, 도 13의 설명에서, 장치에 의해 수행되는 것으로 기술된 동작 중 S310 내지 S340은 제 2 프로세서(120)에 의해 제어되며 S350의 과정은 제 1 프로세서(110)에 의해 제어되는 것으로 이해될 수 있다.Hereinafter, a method of updating a co-occurrence matrix based on similar property information for new content according to an embodiment of the present invention will be described with reference to FIG. 13. FIG. 13 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information with respect to new content according to an embodiment of the present invention. FIG. A method of updating the co-occurrence matrix for Hereinafter, it is assumed that the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 13. In addition, in the description of FIG. 13, it can be understood that S310 to S340 are controlled by the second processor 120 and the process of S350 is controlled by the first processor 110 among the operations described as being performed by the apparatus. have.
컨텐츠 정보 제공 장치(100)는 동시 발생 매트릭스의 항목인 컨텐츠들에 대한 각 유사도 확률값을 산출한다. 즉 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠의 유사 특성 정보를 기반으로 미리 학습된 뉴럴 네트워크를 이용하여 유사도 확률값을 산출한다(S310). 이때, 도 6을 참조하면 컨텐츠 정보 제공 장치(100)는 이미 학습되어 있는 뉴럴 네트워크(제 2 프로세서(120))에 신규 컨텐츠인 영화 9의 유사 특성 정보를 입력함으로써 각 컨텐츠들의 유사도 확률값을 산출할 수 있다.The content information providing apparatus 100 calculates each similarity probability value for contents that are items of a co-occurrence matrix. That is, the content information providing apparatus 100 calculates a similarity probability value using a neural network that has been previously learned based on similar characteristic information of new content (S310). In this case, referring to FIG. 6, the content information providing apparatus 100 may calculate similarity probability values of respective contents by inputting similar characteristic information of the new movie 9 into the neural network (second processor 120) that has already been learned. Can be.
컨텐츠 정보 제공 장치(100)는 동시 발생 매트릭스 항목인 컨텐츠들의 동시 시청 빈도수를 기반으로 하이퍼 파라미터를 산출한다(S320). 이때, 하이퍼 파라미터는 유사도 확률값이 가장 높은 컨텐츠의 빈도수의 총합 또는 최대 빈도수로부터 산출될 수 있다. 이때, 하이퍼 파라미터는 도 7 및 도 8과 같이, 행의 합산값 또는 최대값으로서 산출될 수 있다. The content information providing apparatus 100 calculates a hyper parameter based on the simultaneous viewing frequency of the contents which are the concurrent occurrence matrix items (S320). In this case, the hyperparameter may be calculated from the sum or the maximum frequency of the frequencies of the content having the highest similarity probability value. In this case, as shown in FIGS. 7 and 8, the hyper parameter may be calculated as the sum value or the maximum value of the row.
컨텐츠 정보 제공 장치(100)는 유사도 확률값과 하이퍼 파라미터를 곱하여 얻은 값으로 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트한다(S330). 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠인 영화 9에 대한 각 컨텐츠들(영화 1 내지 영화8)의 유사도 확률값에 하이퍼 파라미터를 각각 곱하여 얻은 값을 동시 발생 매트릭스 내의 영화 9 항목에 대한 빈도수로서 저장할 수 있다.The content information providing apparatus 100 updates the co-occurrence matrix for the new content with a value obtained by multiplying the similarity probability value and the hyperparameter (S330). The content information providing apparatus 100 may store a value obtained by multiplying a hyperparameter with a similarity probability value of each of the contents (
컨텐츠 정보 제공 장치(100)는 업데이트 된 동시 발생 매트릭스를 기반으로 전체 컨텐츠들(신규 컨텐츠, 기존 컨텐츠)의 상관도(PMI)를 산출한다(S340). 도 7 또는 도 8과 같이 하이퍼 파라미터를 통해 동시 발생 매트릭스가 업데이트 되면, 컨텐츠 정보 제공 장치(100)는 수학식 2를 통해 전체 컨텐츠들(영화 1 내지 영화 9) 간의 상관도를 산출할 수 있다. The content information providing apparatus 100 calculates a correlation PMI of all contents (new content and existing content) based on the updated co-occurrence matrix (S340). When the co-occurrence matrix is updated through the hyperparameter as shown in FIG. 7 or FIG. 8, the content information providing apparatus 100 may calculate a correlation between the entire contents (
그 후, 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠와 기존 컨텐츠간의 상관도(PMI)를 제 1 프로세서(110)에 입력하여 신규 컨텐츠의 관리정보를 생성하고, 관리정보를 기반으로 유사 컨텐츠 정보를 제공한다(S350). 제 1 프로세서(110)는 도 4b와 같은 뉴럴 네트워크에 상관도를 입력하여 획득되는 가중치 값을 컨텐츠들의 관리 정보로 생성할 수 있다.Thereafter, the content information providing apparatus 100 inputs a correlation degree (PMI) between the new content and the existing content to the first processor 110 to generate management information of the new content and generate similar content information based on the management information. Provided (S350). The first processor 110 may generate a weight value obtained by inputting a correlation to the neural network as shown in FIG. 4B as management information of contents.
이와 같이, 도 13에서는 하이퍼 파라미터를 기반으로 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트 한 후, 전체 컨텐츠들(신규 컨텐츠 포함)간의 상관도를 산출하여 유사 컨텐츠 정보를 제공하는 예를 개시한다. As described above, FIG. 13 discloses an example in which similar content information is provided by calculating a correlation between all contents (including new content) after updating a co-occurrence matrix for new content based on a hyper parameter.
이하, 도 14를 참조하여 본 발명의 다른 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기로 한다. 도 14는 본 발명의 다른 일 실시예에 따른 신규 컨텐츠에 대해 유사 특성 정보를 기반으로 동시 발생 매트릭스를 업데이트 하는 방법을 설명하기 위한 순서도로서, 도 12의 과정 S240의 관리 정보가 존재하지 않는 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트하는 방법을 구체적으로 나타내는 다른 실시예에 해당한다.Hereinafter, a method of updating a co-occurrence matrix based on similar property information for new content according to another embodiment of the present invention will be described with reference to FIG. 14. FIG. 14 is a flowchart illustrating a method of updating a co-occurrence matrix based on similar property information with respect to new content according to another embodiment of the present invention. FIG. 12 is new content without management information of process S240 of FIG. 12. Corresponding to another embodiment specifically illustrating a method of updating a co-occurrence matrix for.
이하에서는 도 1의 컨텐츠 정보 제공 장치(100)가 도 14의 프로세스를 수행하는 것을 가정한다. 또한, 도 14의 설명에서, 장치에 의해 수행되는 것으로 기술된 동작 중 S410 내지 S420은 제 2 프로세서(120)에 의해 제어되며 S430의 과정은 제 1 프로세서(110)에 의해 제어되는 것으로 이해될 수 있다.Hereinafter, it is assumed that the content information providing apparatus 100 of FIG. 1 performs the process of FIG. 14. In addition, in the description of FIG. 14, S410 to S420 among the operations described as being performed by the apparatus may be understood to be controlled by the second processor 120 and the process of S430 may be controlled by the first processor 110. have.
컨텐츠 정보 제공 장치(100)는 동시 발생 매트릭스의 항목인 컨텐츠들에 대한 각 유사도 확률값을 산출한다. 즉 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠의 유사 특성 정보를 기반으로 미리 학습된 뉴럴 네트워크를 이용하여 유사도 확률값을 산출한다(S410). 이때, 도 6을 참조하면 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠인 영화 9의 유사 특성 정보를 이미 학습되어 있는 뉴럴 네트워크(제 2 프로세서(120))에 입력함으로써 각 컨텐츠들의 유사도 확률값을 산출할 수 있다.The content information providing apparatus 100 calculates each similarity probability value for contents that are items of a co-occurrence matrix. That is, the content information providing apparatus 100 calculates a similarity probability value using a neural network that has been previously learned based on similar characteristic information of new content (S410). In this case, referring to FIG. 6, the content information providing apparatus 100 may calculate similarity probability values of respective contents by inputting similar characteristic information of movie 9, which is new content, to a neural network (second processor 120) that has already been learned. Can be.
이어 컨텐츠 정보 제공 장치(100)는 유사도 확률값과 신규 컨텐츠가 포함되지 않은 동시 발생 매트릭스를 기반으로 전체 컨텐츠들 간의 상관도를 산출한다(S420). 즉 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠가 포함되지 않은 동시 발생 매트릭스를 기반으로 수학식 2를 적용하여 영화 1 내지 영화 8 간의 상관도를 산출하고, 신규 컨텐츠(영화9)와 기존 컨텐츠들 간의 유사도 확률값과 신규 컨텐츠가 포함되지 않은 동시발생 매트릭스를 기반으로 수학식 4를 적용하여 신규 컨텐츠(영화9)와 기존 컨텐츠 간의 상관도를 산출할 수 있다.Subsequently, the content information providing apparatus 100 calculates a correlation between the entire contents based on the similarity probability value and the co-occurrence matrix that does not include the new contents (S420). That is, the content information providing apparatus 100 calculates a correlation between
이에 도 10의 영화 1 내지 영화 8에 대해서 수학식 2를 통해 상관도 PMI(영화1, 영화2) 내지 PMI(영화7, 영화8)를 산출하고 영화 9에 대해서는 수학식 4를 통해 상관도 PMI(영화9, 영화1) 내지 PMI(영화8, 영화9)를 산출한다.Correlation PMI (
그 후, 컨텐츠 정보 제공 장치(100)는 신규 컨텐츠와 기존 컨텐츠간의 상관도(PMI)를 제 1 프로세서(110)에 입력하여 신규 컨텐츠의 관리정보를 생성하고, 관리정보를 기반으로 유사 컨텐츠 정보를 제공한다(S430). 제 1 프로세서(110)는 도 4b와 같은 뉴럴 네트워크에 상관도를 입력하여 획득되는 가중치 값을 컨텐츠들의 관리 정보로 생성할 수 있다.Thereafter, the content information providing apparatus 100 inputs a correlation degree (PMI) between the new content and the existing content to the first processor 110 to generate management information of the new content and generate similar content information based on the management information. Provided (S430). The first processor 110 may generate a weight value obtained by inputting a correlation to the neural network as shown in FIG. 4B as management information of contents.
이와 같이 본 발명의 컨텐츠 정보 제공 장치(100)는 동시 발생 매트릭스를 생성하고, 생성된 동시 발생 매트릭스를 기반으로 각 컨텐츠들의 관리 정보를 생성하고 관리 정보를 기반으로 유사 컨텐츠 정보를 제공한다. 또한, 컨텐츠 정보 제공 장치(100)는 관리 정보가 존재하지 않는 신규 컨텐츠의 유사 특성 정보를 기반으로 학습된 뉴럴 네트워크를 이용하여 신규 컨텐츠에 대한 동시 발생 매트릭스를 업데이트한다. As described above, the apparatus 100 for providing content information of the present invention generates a co-occurrence matrix, generates management information of respective contents based on the generated co-occurrence matrix, and provides similar content information based on the management information. In addition, the content information providing apparatus 100 updates the co-occurrence matrix for the new content by using the learned neural network based on the similar characteristic information of the new content without the management information.
도 15는 본 발명의 일 실시예에 따른 컴퓨팅 시스템을 도시한다.15 illustrates a computing system in accordance with an embodiment of the present invention.
도 15를 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다. Referring to FIG. 15, the
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다. The
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. Thus, the steps of a method or algorithm described in connection with the embodiments disclosed herein may be embodied directly in hardware, software module, or a combination of the two executed by the
예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.An exemplary storage medium is coupled to the
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. The above description is merely illustrative of the technical idea of the present invention, and those skilled in the art to which the present invention pertains may make various modifications and changes without departing from the essential characteristics of the present invention.
따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.Therefore, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention but to describe the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments. The protection scope of the present invention should be interpreted by the following claims, and all technical ideas within the equivalent scope should be interpreted as being included in the scope of the present invention.
이상에서 살펴본 바와 같이, 본 발명의 실시예들에 따른 컨텐츠 정보 제공 장치 및 그 방법에 따르면 사용자에게 추천 컨텐츠로서 유사 컨텐츠 정보를 제공할 수 있고, 사용자에게 추천 컨텐츠로서 제공되는 유사 컨텐츠 정보의 정확도를 향상시킬 수 있다. As described above, according to the apparatus and method for providing content information according to embodiments of the present invention, similar content information may be provided to the user as recommended content, and the accuracy of the similar content information provided as the recommended content to the user may be improved. Can be improved.
아울러 본 발명의 바람직한 실시예는 예시의 목적을 위한 것으로, 당업자라면 첨부된 특허청구범위의 기술적 사상과 범위를 통해 다양한 수정, 변경, 대체 및 부가가 가능할 것이며, 이러한 수정 변경 등은 이하의 특허청구범위에 속하는 것으로 보아야 할 것이다.In addition, a preferred embodiment of the present invention is for the purpose of illustration, those skilled in the art will be able to various modifications, changes, replacements and additions through the spirit and scope of the appended claims, such modifications and changes are claimed in the following claims It should be seen as belonging to a range.
Claims (20)
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR10-2018-0043085 | 2018-04-13 | ||
| KR1020180043085A KR20190119743A (en) | 2018-04-13 | 2018-04-13 | Apparatus for providing contents information and method thereof |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019198950A1 true WO2019198950A1 (en) | 2019-10-17 |
Family
ID=68162931
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/KR2019/003498 Ceased WO2019198950A1 (en) | 2018-04-13 | 2019-03-26 | Apparatus for providing content information and method therefor |
Country Status (2)
| Country | Link |
|---|---|
| KR (1) | KR20190119743A (en) |
| WO (1) | WO2019198950A1 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102180271B1 (en) * | 2020-03-30 | 2020-11-18 | 비에이비 주식회사 | System and method for recommending competition through collaborative filtering based on user activity history |
| KR102257550B1 (en) * | 2020-04-07 | 2021-05-27 | 주식회사 엘지유플러스 | Method and Apparatus for Content Selection for Trailer Compilation in a Video on Demand Guide Channel |
| WO2021261124A1 (en) * | 2020-06-22 | 2021-12-30 | ソニーグループ株式会社 | Fragrance information processing system, fragrance information processing device, and fragrance information processing method |
| KR102643159B1 (en) * | 2022-01-19 | 2024-03-04 | 채현민 | A matching method that finds empty space in lcl containers in real time during container import and export |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20050053345A (en) * | 2003-12-02 | 2005-06-08 | 소니 가부시끼 가이샤 | Information processing device and method for the same, and computer program |
| KR20080043140A (en) * | 2006-11-13 | 2008-05-16 | 에스케이커뮤니케이션즈 주식회사 | Collaborative filtering system and method |
| KR20090101770A (en) * | 2008-03-24 | 2009-09-29 | 에스케이커뮤니케이션즈 주식회사 | Method and system for classifing content using collaborative filtering |
| KR20100052896A (en) * | 2008-11-11 | 2010-05-20 | 한국과학기술원 | Mehod and system for recommending intelligent contents according to user |
-
2018
- 2018-04-13 KR KR1020180043085A patent/KR20190119743A/en not_active Ceased
-
2019
- 2019-03-26 WO PCT/KR2019/003498 patent/WO2019198950A1/en not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20050053345A (en) * | 2003-12-02 | 2005-06-08 | 소니 가부시끼 가이샤 | Information processing device and method for the same, and computer program |
| KR20080043140A (en) * | 2006-11-13 | 2008-05-16 | 에스케이커뮤니케이션즈 주식회사 | Collaborative filtering system and method |
| KR20090101770A (en) * | 2008-03-24 | 2009-09-29 | 에스케이커뮤니케이션즈 주식회사 | Method and system for classifing content using collaborative filtering |
| KR20100052896A (en) * | 2008-11-11 | 2010-05-20 | 한국과학기술원 | Mehod and system for recommending intelligent contents according to user |
Non-Patent Citations (1)
| Title |
|---|
| HAN, SUNGHEE ET AL.: "Personalized TV Program Recommendation in VOD Service Platform U sing Collaborative Filtering", JOURNAL OF BROADCAST ENGINEERING, vol. 18, no. 1, 1 January 2013 (2013-01-01), pages 88 - 97, XP055642684, ISSN: 1226-7953, DOI: 10.5909/JBE.2013.18.1.88 * |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20190119743A (en) | 2019-10-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019198950A1 (en) | Apparatus for providing content information and method therefor | |
| WO2020258657A1 (en) | Abnormality detection method and apparatus, computer device and storage medium | |
| WO2020107762A1 (en) | Ctr estimation method and device, and computer readable storage medium | |
| WO2013081282A1 (en) | System and method for recommending application by using keyword | |
| WO2012050252A1 (en) | System and method for automatically generating a mass classifier using a dynamic combination of classifiers | |
| WO2022060066A1 (en) | Electronic device, content search system, and content search method | |
| WO2017142143A1 (en) | Method and apparatus for providing summary information of a video | |
| WO2010137814A2 (en) | Method of providing by-viewpoint patent map and system thereof | |
| WO2017107367A1 (en) | Method for user identifier processing, terminal and nonvolatile computer readable storage medium thereof | |
| WO2022071635A1 (en) | Recommending information to present to users without server-side collection of user data for those users | |
| WO2017115994A1 (en) | Method and device for providing notes by using artificial intelligence-based correlation calculation | |
| WO2015129983A1 (en) | Device and method for recommending movie on basis of distributed mining of fuzzy association rules | |
| WO2025053439A1 (en) | Electronic device for multi-modal time axis fusion artificial intelligence model and method for operating same | |
| WO2020186777A1 (en) | Image retrieval method, apparatus and device, and computer-readable storage medium | |
| WO2020190103A1 (en) | Method and system for providing personalized multimodal objects in real time | |
| WO2024096146A1 (en) | User recommendation method using production data and use data, and apparatus therefor | |
| WO2013008978A1 (en) | Object identification result searching system and method | |
| WO2022244997A1 (en) | Method and apparatus for processing data | |
| WO2023113157A1 (en) | Method for tracking variation of criminal slang, and apparatus and computer program performing same | |
| WO2019098732A1 (en) | Method and system for management and operation over image in a computing system | |
| WO2021177617A1 (en) | Electronic apparatus and method for controlling thereof | |
| WO2018139777A1 (en) | Numerical information management device using data structure | |
| WO2019151620A1 (en) | Content information providing device and method therefor | |
| WO2018191889A1 (en) | Photo processing method and apparatus, and computer device | |
| WO2022234878A1 (en) | Transition strategy search method and operating device, using user state vectors |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19784796 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 19784796 Country of ref document: EP Kind code of ref document: A1 |