[go: up one dir, main page]

KR20030003397A - Method of content catrgory for data analysis - Google Patents

Method of content catrgory for data analysis Download PDF

Info

Publication number
KR20030003397A
KR20030003397A KR1020010039134A KR20010039134A KR20030003397A KR 20030003397 A KR20030003397 A KR 20030003397A KR 1020010039134 A KR1020010039134 A KR 1020010039134A KR 20010039134 A KR20010039134 A KR 20010039134A KR 20030003397 A KR20030003397 A KR 20030003397A
Authority
KR
South Korea
Prior art keywords
content
bits
level
classification
content classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020010039134A
Other languages
Korean (ko)
Other versions
KR100837815B1 (en
Inventor
진은숙
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020010039134A priority Critical patent/KR100837815B1/en
Publication of KR20030003397A publication Critical patent/KR20030003397A/en
Application granted granted Critical
Publication of KR100837815B1 publication Critical patent/KR100837815B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야1. TECHNICAL FIELD OF THE INVENTION

본 발명은 데이터 분석을 위한 컨텐츠 분류 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.The present invention relates to a content classification method for data analysis and a computer readable recording medium having recorded thereon a program for realizing the method.

2. 발명이 해결하려고 하는 기술적 과제2. The technical problem to be solved by the invention

본 발명은, 데이터 웨어하우징, 데이터 마이닝, 사용자 성향 분석, 고객관계관리(CRM) 등의 대규모 데이터 분석에 효율적으로 사용할 수 있는 컨텐츠 분류 코드를 지정 및 저장하기 위한 컨텐츠 분류 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.The present invention provides a content classification method for designating and storing a content classification code that can be efficiently used for large-scale data analysis such as data warehousing, data mining, user disposition analysis, and customer relationship management (CRM). To provide a computer-readable recording medium for recording the program.

3. 발명의 해결방법의 요지3. Summary of Solution to Invention

본 발명은, 컨텐츠 분류 시스템에 적용되는 데이터 분석을 위한 컨텐츠 분류 방법에 있어서, 컨텐츠 분류 특성에 따라, 컨텐츠를 수평형으로 분류하고, 분류한 각 컨텐츠 부류가 완전히 분류될때까지 수직형으로 분류하는 제 1 단계; 상기 컨텐츠 분류에 필요한 전체 비트수를 계산하기 위하여, 레벨 그래프의 각 수평 레벨에 대해 필요한 비트수와 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하는 제 2 단계; 및 상기 필요한 전체 비트수가 계산되면 해당 비트에 대한 각 분류 항목의 코드를 지정하여 최상위 수평식 레벨부터 비트를 할당하는 제 3 단계를 포함함.According to an aspect of the present invention, there is provided a content classification method for data analysis applied to a content classification system, wherein the content is classified into a horizontal type according to a content classification characteristic, and the content is classified into a vertical type until each classified content class is completely classified. Stage 1; A second step of calculating the total number of bits required for the content classification by adding the required number of bits for each horizontal level of the level graph and the number of bits required in each horizontal node constituting the level; And a third step of allocating the bits from the highest horizontal level by designating a code of each classification item for the corresponding bits when the total number of bits required is calculated.

4. 발명의 중요한 용도4. Important uses of the invention

본 발명은 컨텐츠 분류 시스템 등에 이용됨.The present invention is used for a content classification system.

Description

데이터 분석을 위한 컨텐츠 분류 방법{Method of content catrgory for data analysis}Methods of content categorization for data analysis

본 발명은 컨텐트 분류 시스템에서의 데이터 분석을 위한 컨텐츠 분류 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히 온라인 쇼핑, 고객관계관리 시스템, 데이터 마이닝, 데이터 웨어하우징, 인터넷 방송, 디지털 라이브러리, VOD(Video On Demand) 시스템과 같이 대규모 컨텐츠를 저장하고 검색, 운용 및 분석해야 하는 시스템에서 컨텐츠를 코드화하여 분류하고 이를 최소한의 저장 장치 용량으로 저장하기 위한 컨텐츠 분류 코드를 지정 및 저장하는 컨텐츠 분류 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.The present invention relates to a content classification method for data analysis in a content classification system and a computer-readable recording medium recording a program for realizing the method, in particular, online shopping, customer relationship management system, data mining, data ware. Content classification code to code and classify content and store it with minimal storage capacity in systems that need to store, search, operate, and analyze large-scale content such as housings, Internet broadcasts, digital libraries, and video on demand systems And a computer readable recording medium having recorded thereon a program for realizing the method.

종래 대부분의 경우 컨텐츠를 분류하는 방법은 컨텐츠를 대분류로 구분한 후, 각 항목에 대해 다시 세부적으로 분류하여 정수형이나 문자형으로 분류 코드를 지정하는 것이었다. 이러한 방법을 사용하는 경우 분류 코드 지정 방식간에 일관성이 없고 여러 컨텐츠 간의 연관성을 표시하기 힘들기 때문에 사용자 성향 분석과 같은 컨텐츠 이용 분석시 많은 어려움이 있고 컨텐츠의 수가 방대해질 수록 필요한 저장 장치의 용량이 증가하게 되는 문제점이 있었다.In most cases, a method of classifying content is to classify the content into large categories, and then classify the items in detail and specify the classification codes in integer or character types. In this method, there is a lot of difficulty in analyzing content usage such as user disposition analysis because it is inconsistent among the classification code designation methods and it is difficult to show the association between various contents. As the number of contents increases, the storage capacity required increases. There was a problem.

본 발명은, 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 데이터 웨어하우징, 데이터 마이닝, 사용자 성향 분석, 고객관계관리(CRM) 등의 대규모 데이터 분석에 효율적으로 사용할 수 있는 컨텐츠 분류 코드를 지정 및 저장하기 위한 컨텐츠 분류 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.The present invention has been proposed to solve the above problems, and designates a content classification code that can be efficiently used for large-scale data analysis such as data warehousing, data mining, user disposition analysis, and customer relationship management (CRM). And a computer-readable recording medium recording a content classification method for storing and a program for realizing the method.

도 1 은 본 발명이 적용되는 하드웨어 시스템의 구성예시도.1 is an exemplary configuration diagram of a hardware system to which the present invention is applied.

도 2 는 본 발명이 적용되는 비트 단위의 컨텐츠 분류 코드 지정 방식의 예시도.2 is an exemplary diagram of a content classification code designation method in units of bits to which the present invention is applied;

도 3 은 본 발명에 따른 데이터 분석을 위한 컨텐츠 분류 방법에 대한 일실시예 설명도.3 is a diagram illustrating an embodiment of a content classification method for data analysis according to the present invention;

도 4 는 본 발명에 따른 컨텐츠 분류 방법에서 필요한 비트 수 계산을 위한 레벨 그래프.4 is a level graph for calculating the number of bits required in the content classification method according to the present invention.

도 5 는 본 발명에 따른 컨텐츠 분류 방법에서 컨텐츠 분류 및 저장을 위한 비트 구성 설계의 예시도.5 is an exemplary diagram of a bit configuration design for content classification and storage in a content classification method according to the present invention;

도 6 은 본 발명에 따른 데이터 분석을 위한 컨텐츠 분류 방법에 대한 일실시예 흐름도.6 is a flowchart illustrating a content classification method for data analysis according to the present invention.

* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings

11 : 중앙처리장치12 : 주기억장치11: central processing unit 12: main memory unit

13 : 보조기억장치14 : 입력장치13: auxiliary memory device 14: input device

15 : 출력장치15: output device

상기 목적을 달성하기 위한 본 발명은, 컨텐츠 분류 시스템에 적용되는 데이터 분석을 위한 컨텐츠 분류 방법에 있어서, 컨텐츠 분류 특성에 따라, 컨텐츠를 수평형으로 분류하고, 분류한 각 컨텐츠 부류가 완전히 분류될때까지 수직형으로 분류하는 제 1 단계; 상기 컨텐츠 분류에 필요한 전체 비트수를 계산하기 위하여, 레벨 그래프의 각 수평 레벨에 대해 필요한 비트수와 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하는 제 2 단계; 및 상기 필요한 전체 비트수가 계산되면 해당 비트에 대한 각 분류 항목의 코드를 지정하여 최상위 수평식 레벨부터 비트를 할당하는 제 3 단계를 포함하여 이루어진 것을 특징으로 한다.The present invention for achieving the above object, in the content classification method for data analysis applied to the content classification system, according to the content classification characteristics, the content is classified horizontally, until each classified content class is completely classified A first step of classifying as vertical; A second step of calculating the total number of bits required for the content classification by adding the required number of bits for each horizontal level of the level graph and the number of bits required in each horizontal node constituting the level; And a third step of allocating the bits from the highest horizontal level by designating a code of each classification item for the corresponding bit when the total number of necessary bits is calculated.

또한, 본 발명은, 프로세서를 구비한 컨텐츠 분류 시스템에, 컨텐츠 분류 특성에 따라, 컨텐츠를 수평형으로 분류하고, 분류한 각 컨텐츠 부류가 완전히 분류될때까지 수직형으로 분류하는 제 1 기능; 상기 컨텐츠 분류에 필요한 전체 비트수를 계산하기 위하여, 레벨 그래프의 각 수평 레벨에 대해 필요한 비트수와 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하는 제 2 기능; 및 상기 필요한 전체 비트수가 계산되면 해당 비트에 대한 각 분류 항목의 코드를 지정하여 최상위 수평식 레벨부터 비트를 할당하는 제 3 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.In addition, the present invention provides a content classification system having a processor, comprising: a first function of classifying content in a horizontal form according to content classification characteristics and classifying the content in a vertical form until each classified content class is completely classified; A second function of calculating the total number of bits required for the content classification by adding the required number of bits for each horizontal level of the level graph and the required number of bits in each horizontal node constituting the level; And a computer-readable recording medium having recorded thereon a program for realizing a third function of allocating bits from the highest horizontal level by designating a code of each category item for the corresponding bits when the total number of required bits is calculated.

본 발명은, 컨텐츠를 분류하는 기법을 정형화하여 멀티미디어 컨텐츠는 물론 각 기업의 사용자 정보, 상품 정보 등을 분류하는데 유용하게 사용될 수 있고, 결과적으로 적은 양의 저장장치를 이용하여 방대한 양의 데이터에 의미를 부여하여 효과적으로 저장할 수 있도록 한다. 또한, 비트 연산으로 빠른 데이터의 분석이 가능하므로 대규모 데이터 분석이 필요한 고객관계관리, 데이터 웨어하우스, 데이터 마이닝 등의 작업에 효율적으로 사용할 수 있는 특징이 있다.The present invention can be usefully used to classify contents and classify not only multimedia contents but also user information, product information, and the like of the contents, and as a result, a large amount of data is used to store a large amount of data. So that it can be stored effectively. In addition, the fast data can be analyzed by bit operation, so it can be efficiently used for tasks such as customer relationship management, data warehouse, and data mining that require large-scale data analysis.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.The above objects, features and advantages will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명이 적용되는 일반적인 하드웨어 시스템의 구성예시도이다.1 is an exemplary configuration diagram of a general hardware system to which the present invention is applied.

도 1에 도시된 바와 같이, 일반적인 하드웨어 시스템은, 중앙처리장치(11)와, 중앙처리장치(11)에 연결된 주기억장치(12)와, 주기억장치(12)에 연결된 보조기억장치(13)와, 중앙처리장치(11)에 연결된 입력장치(14) 및 출력장치(15)를 구비한다.As shown in FIG. 1, a general hardware system includes a central processing unit 11, a main memory device 12 connected to the central processing device 11, and an auxiliary memory device 13 connected to the main memory device 12. And an input device 14 and an output device 15 connected to the central processing unit 11.

여기서, 하드웨어 시스템은, 컴퓨터의 전체 동작을 제어하고 관리하는 중앙처리장치(11), 상기 중앙처리장치(11)에서 수행되는 프로그램을 저장하고 작업 수행중 이용되는 또는 작업 수행중에 발생되는 각종 데이터를 저장하는 주기억장치(12)와 보조기억장치(13) 및 사용자와의 데이터 입출력을 위한 입출력장치(14,15)를 포함한다.Here, the hardware system, the central processing unit 11 for controlling and managing the overall operation of the computer, the program stored in the central processing unit 11 and stores a variety of data used during or during operation And a main memory device 12, an auxiliary memory device 13, and input / output devices 14 and 15 for inputting and outputting data to and from a user.

그리고, 상기 보조기억장치(13)는 대량의 데이터를 저장하는 역할을 하며, 상기 입출력장치(14,15)는 일반적인 키보드, 디스플레이 장치 및 프린터 등을 포함한다.The auxiliary memory device 13 stores a large amount of data, and the input / output devices 14 and 15 include a general keyboard, a display device, and a printer.

상기와 같은 하드웨어 시스템의 주기억장치(12)에는 데이터 웨어하우징, 데이터 마이닝, 사용자 성향 분석, 고객관계관리(CRM) 등의 대규모 데이터 분석에 효율적으로 사용할 수 있는 컨텐츠 분류 코드를 지정하여 저장하기 위한 프로그램이 저장되어 있으며, 상기 중앙처리장치(11)의 제어에 따라 수행된다.In the main memory device 12 of the hardware system as described above, a program for designating and storing a content classification code that can be efficiently used for large-scale data analysis, such as data warehousing, data mining, user disposition analysis, and customer relationship management (CRM). Is stored and performed under the control of the CPU 11.

이제, 본 발명에서는 도 1과 같은 일정한 수의 비트 배열로 컨텐츠를 분류하하기 위하여, 간단한 VOD(Voice On Demand) 시스템을 예로 들어 컨텐츠 분류 방법에 대해 설명하기로 한다.In the present invention, a content classification method will be described using a simple Voice On Demand (VOD) system as an example in order to classify content into a predetermined number of bit arrays as shown in FIG. 1.

첫 번째, 컨텐츠 분류 특성에 따라 컨텐츠를 분류한다.First, content is classified according to content classification characteristics.

(1) 컨텐츠를 수평형으로 분류한다. 수평형 분류란 컨텐츠가 속한 최상위 부류, 제작 국가, 컨텐츠의 크기, 이용가격 등 모든 컨텐츠가 동시에 가지고 있는 특성을 의미한다.(1) The content is classified into a horizontal type. Horizontal classification refers to the characteristics that all the content has at the same time, such as the highest category, the country of origin, the size of the content, and the usage price.

예를 들면, VOD 시스템의 컨텐츠를 수평형으로 분류하면 "제작국가", "대분류"로 분류할 수 있다.For example, if the content of the VOD system is classified horizontally, it can be classified into "production country" and "big classification".

(2) 상기의 (1)에서 분류한 각 부류에 대해 수직형으로 분류한다. 수직형 분류란 동일한 종류의 컨텐츠를 세부적으로 다시 분류하는 것을 의미한다.(2) It is classified vertically for each class classified in (1) above. Vertical classification means reclassifying the same kind of content in detail.

예를 들면, "제작국가" 부류의 항목은 "한국", "미국", "일본", "중국", "프랑스"의 5 국가, "대분류" 부류의 항목은 "영화", "스포츠중계", "교육"이다.For example, the category "Production Country" is classified into five countries: "Korea", "United States", "Japan", "China", and "France", and the category "Classification" is "Movie" and "Sports". , "Education".

(3) 상기 (2)에서 나열한 각 항목이 더 이상 분류될 수 없는 항목이 아니라면 각 항목에 대해 더 이상 분류될 수 없을 때까지 상기 (1)부터 다시 수행한다.(3) If each item listed in (2) above is not an item that can no longer be categorized, the process is repeated again from (1) until it can no longer be classified for each item.

예) "제작국가"를 수직 분류한 "한국", "미국" 등의 항목은 더 이상 분류가 불필요하다. 그러나, "대분류"의 하위 항목인 "영화"에 대해서 (1)의 수평 분류를 다시 한다. 즉, 모든 "영화"가 공통적으로 가지고 있는 특성을 분류하면 "등급", "제작형식", "내용에 의한 분류" 등으로 수평 분류를 할 수 있고, "등급"은 다시 "18세이하 관람불가", "12세 이하 관람 불가" 등으로 다시 수직 분류된다. 또한, "제작형식"은 "일반촬영", "특수효과촬영", "만화영화", "3차원애니메이션" 등으로 수직 분류되며, "내용에 의한 분류"는 "로맨틱코미디", "액션", "공포", "SF" 등으로 수직 분류된다. 따라서, 도 3에서는 이러한 방식으로 컨텐츠를 분류한 작업을 그래프로 표현하여 설명한 것이다.For example, items such as "Korea" and "United States" that vertically categorize "production country" need not be classified any more. However, the horizontal classification of (1) is again performed for "movie" which is a sub item of "major classification". In other words, if you categorize the characteristics that all "movies" have in common, you can classify them horizontally into "grade", "production form", "classification by content", etc., and "grade" is not "under 18 years old". "," Can not be viewed under 12 years old "and the like. In addition, "production format" is vertically categorized into "general shooting", "special effect shooting", "cartoon movie", "three-dimensional animation", etc., "classification by content" is "romantic comedy", "action", Vertically classified as "fear", "SF", and the like. Therefore, in FIG. 3, the task of classifying the content in this manner is represented by a graph.

두 번째, 컨텐츠 분류에 필요한 비트 수를 계산한다.Second, calculate the number of bits needed for content classification.

상기의 방식과 같이 컨텐츠의 분류가 완료되면 해당 내용을 저장할 수 있는 비트 수를 계산한다. 여기서, 첫 번째 과정의 컨텐츠 분류 방식에서는 상위 레벨에서 하위 레벨로 내용을 세분화하는 하향식 설계 기법을 이용했으나, 비트 저장 설계는 반대로 하위에서 상위로 가능 상향식 설계 기법을 이용하기로 한다.When the content is classified as described above, the number of bits capable of storing the content is calculated. Here, in the content classification method of the first process, a top-down design technique for subdividing contents from a higher level to a lower level is used. However, a bit storage design is used from a lower-level to a higher-level bottom-up design technique.

즉, 컨텐츠 분류에 필요한 비트 수를 계산하기 위해서는 도 4와 같은 레벨 그래프를 그린다. 각 레벨은 하나의 수평식 분류와 그 하위 레벨의 수직식 분류로 구성된다.That is, to calculate the number of bits required for content classification, a level graph as shown in FIG. 4 is drawn. Each level consists of a horizontal classification and a lower level vertical classification.

수평식 분류는 모두 사각형으로, 수직식 분류는 OR 관계만 가질 수 있는 경우에는 원형으로, AND 관계를 가질 수 있는 경우에는 육각형으로 표현한다(예를 들면, 영화의 등급은 "연소자 관람가"이거나 "12세 이상 관람가"이거나 "18세 이상 관람가"이어야 함. 동시에 두 항목이 모두 가능하지 않으므로 이런 경우에는 OR 관계만 가능한다. 그러나, "영화"의 내용은 "액션"이면서 "SF"일 수 있으므로 이런 경우에는 AND 관계가 가능하다).Horizontal classifications are all rectangular, vertical classifications are circular if they can only have an OR relationship, and hexagons if they can have an AND relationship (for example, a movie's rating is "Audience" or " Must be at least 12 years old "or" Over 18 years old "At the same time, both items are not possible, so in this case only the OR relationship is possible. However, the contents of the" movie "can be" action "and" SF ". In this case, an AND relationship is possible).

따라서, 컨텐츠 분류에 필요한 전체 비트 수는 각 레벨에서 필요한 비트 수를 합한 것이고, 각 레벨에서 필요한 비트 수는 수평식 분류 레벨의 각 항목(그래프에서는 노드로 표현)이 필요로 하는 비트 수를 더한 것이다. 즉, 전체 비트 수는 도 4와 같은 레벨 그래프에서 사각형으로 표현되는 수평식 분류 항목에서 필요한 모든 비트 수를 합한 것과 같은 의미이다.Therefore, the total number of bits required for content classification is the sum of the number of bits required for each level, and the number of bits required for each level is the number of bits required for each item (represented by a node in the graph) of the horizontal classification level. . That is, the total number of bits is the same as the sum of all the number of bits required in the horizontal classification item represented by the rectangle in the level graph as shown in FIG.

한편, 각 수평식 분류 레벨의 각 항목이 필요로 하는 비트 수는 하위 수직식 분류 항목이 OR 관계만 가능한 경우(즉, 그래프에서 하부 원소가 원형으로 이루어진 경우)에는가 되고, 하위 수직식 분류 항목이 AND 관계가 가능한 경우(즉, 그래프에서 하부 원소가 육각형으로 이루어진 경우)에는 수직식 분류 항목의 수가 된다. 예를 들면, 제작국가의 5항목을 표현하기 위해서는 3비트가 필요하다().On the other hand, the number of bits required for each item of each horizontal classification level is determined when the lower vertical classification item is only capable of OR relationships (i.e., when the lower element of the graph is circular). If the lower vertical classification items have an AND relationship (that is, the lower element in the graph is hexagonal), the number of vertical classification items is obtained. For example, three bits are required to represent five items of the country of origin. ).

그러나, 현재는 5국가만이 필요하지만 추후 다른 국가의 컨텐츠도 포함될 수 있으므로 전세계 국가를 모두 표현하기 위해서 8 비트를 할당하면 최대 256 개 국가까지 표기가 가능하다. 예를 들면, 영화의 내용이 "로맨틱코미디", "액션", "공포", "SF"로 분류된다고 가정하면 4개의 비트가 필요하다. "액션"이면서 "공포영화"의 경우에는 0110으로 표현될 수 있으며, "SF"영화인 경우에는 0001로 표현된다.However, at present, only five countries are needed, but the content of other countries can be included later. Up to 256 countries can be marked by allocating 8 bits to represent all the countries of the world. For example, assuming that the contents of a movie are classified into "romantic comedy", "action", "fear", and "SF", four bits are required. In case of "action" and "horror film", it can be expressed as 0110, and in case of "SF" film, it is represented as 0001.

즉, 컨텐츠 분류 코드를 표현하기 위한 최소 비트 수는 상기와 같이 계산되지만 확장성을 고려한다면 추후에 추가될 수 있는 항목 수를 예측하여 충분한 비트 수를 지정한다. 예를 들면, 현재는 제작국가로 5국가만을 고려하였지만 만약 이에 포함되지 않는 국가의 컨텐츠도 시스템에 포함될 수 있으므로 3비트 대신 8비트를 지정하여 향후 확장성을 보장할 수 있다.That is, the minimum number of bits for representing the content classification code is calculated as described above, but considering the scalability, a sufficient number of bits is specified by predicting the number of items that can be added later. For example, although only five countries are considered as production countries, content of a country that is not included in the present country can be included in the system, so 8 bits can be designated instead of 3 bits to ensure future scalability.

세 번째, 비트 구조 및 코드 설계를 한다.Third, do bit structure and code design.

즉, 필요한 비트 수가 계산되면 해당 비트를 어떻게 사용할 것인지, 각 분류 항목을 어떻게 코드로 지정할 것인지를 결정한다. 상기 도 4의 예에서는 모두 13비트가 필요하다. 이를 적절히 구성하기 위해서는 다시 하향식 기법을 이용하여 최상위 수평식 레벨부터 비트를 할당한다. 도 5는 이러한 비트 구조를 그림으로 표현한 것이다.That is, when the required number of bits is calculated, it is determined how to use the corresponding bits and how to specify each classification item as a code. In the example of FIG. 4, all 13 bits are required. To properly configure this, bits are allocated from the highest horizontal level again using the top-down technique. 5 is a graphical representation of such a bit structure.

수직식 AND 항목의 경우 각 비트 별로 의미를 부여하고, 수직식 OR 항목의 경우 여러 비트가 모여 하나의 의미를 가지게 된다.In the case of the vertical AND item, meaning is given for each bit, and in the case of the vertical OR item, several bits are gathered to have one meaning.

상기한 바와 같은 구조를 갖는 본 발명의 데이터 분석을 위한 컨텐츠 분류 방법의 동작을 상세하게 설명하면 다음과 같다.Referring to the operation of the content classification method for data analysis of the present invention having the structure as described above in detail.

도 6 은 본 발명에 따른 데이터 분석을 위한 컨텐츠 분류 방법에 대한 일실시예 흐름도이다.6 is a flowchart illustrating a content classification method for data analysis according to the present invention.

도 6에 도시된 바와 같이, 먼저 본 발명에 따른 데이터 분석을 위한 컨텐츠를 분류하기 위하여, 컨텐츠를 수평으로 분류하고(601), 수평으로 분류한 각 부류에 대해 수직형으로 분류한다(602).As shown in FIG. 6, first, in order to classify the content for data analysis according to the present invention, the content is classified horizontally (601), and vertically classified into the horizontal classes for each class (602).

이어서, 수직으로 분류된 각 부류가 완전히 분류되었는지를 확인하여(603), 그렇지 않으면 컨텐츠를 수평으로 분류하는 과정(601)부터 반복 수행하고, 완전히 분류되었으면 레벨 그래프를 그린다(604).Subsequently, it is checked whether each class categorized vertically is completely classified (603), otherwise, the process is repeated from the process of classifying the content horizontally (601), and a level graph is drawn (604) if it is completely classified.

다음, 각 수평노드에 대해 그 하위 수직노드들이 AND 관계 또는 OR 관계인지를 판단하여(605), AND 관계이면 필요한 비트수는 수직식 분류 항목의 수와 동일하고(606), OR 관계이면로 정한다(607).Next, for each horizontal node, it is determined whether the lower vertical nodes are in an AND relationship or an OR relationship (605). If the AND relationship is required, the number of bits required is equal to the number of vertical classification items (606). Determine (607).

이후, 그래프의 각 수평 레벨에 대해 필요한 비트 수는 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하고(608), 필요한 전체 비트수는 각 레벨에서 필요한 비트수를 모두 합한 값으로 정한다(609).Then, the required number of bits for each horizontal level of the graph is calculated by adding up the required number of bits in each horizontal node constituting the level (608), and the total number of necessary bits is determined as the sum of all necessary bits in each level. (609).

마지막으로, 컨텐츠 분류 코드 저장을 위해, 계산된 비트수를 할당하고 각 비트마다 레벨 그래프를 이용하여 최상위 수평식 레벨부터 비트를 할당하도록 한다(610).Finally, in order to store the content classification code, the calculated number of bits is allocated and bits are allocated from the highest horizontal level using the level graph for each bit (610).

상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.The method of the present invention as described above may be implemented as a program and stored in a computer-readable recording medium (CD-ROM, RAM, ROM, floppy disk, hard disk, magneto-optical disk, etc.).

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the art without departing from the technical spirit of the present invention. It will be apparent to those of ordinary knowledge.

상기한 바와 같은 본 발명은, 컨텐츠를 비트 코드화하여 분류하고 저장함으로써, 다음과 같은 효과를 이룰 수 있다.As described above, the present invention can achieve the following effects by bit-coding, classifying, and storing contents.

첫째, 디스크 효율을 최소화할 수 있는 효과가 있다. 예를 들면, 모든 분류 정보를 정수형 코드로 지정하여 저장하는 경우 대분류 정보, 국가 정보, 3 단계의 소분류 정보를 저장하기 위해서는 32 X 5 비트가 필요하지만 본 발명의 기술을 이용하는 경우 32 비트 코드를 사용하면 32 비트만이 소요된다.First, there is an effect that can minimize the disk efficiency. For example, when all classification information is designated and stored as an integer code, 32 X 5 bits are required to store large classification information, country information, and three levels of small classification information. However, when using the technique of the present invention, 32 bit codes are used. It takes only 32 bits.

둘째, 필요한 비트 수를 여유있게 지정하면 분류 가짓수가 늘어나는 경우에도 처리가 가능해 확장성이 높아지는 효과가 있다. 예를 들면, 대분류 가짓수가 10개인 경우 4비트를 대분류 코드용으로 지정하면 16개의 대분류 가짓수를 지정할 수 있으므로 추가적으로 6개까지 대분류를 지정할 수 있다.Secondly, if the required number of bits is given a margin, it is possible to process even when the number of classifications increases, thereby increasing the scalability. For example, if 10 major classifications are assigned, 4 bits can be designated for the major classification code, so 16 major classifications can be specified, and up to six additional major classifications can be specified.

셋째, 일반적으로 정수 연산이나 문자열 연산보다는 비트 연산이 훨씬 더 빠르게 동작하므로 분류 코드를 이용하여 데이터를 분석하는 경우 다른 기법에 비해 월등히 빠른 성능을 보장할 수 있는 효과가 있다. 예를 들면, "2001년 5월 한 달동안 사용자가 이용한 컨텐츠 중 제작 국가가 한국인 경우의 비율은 얼마나 되는가"라는 질의를 처리하기 위해서는 단순히 사용자 로그 파일에서 컨텐츠 분류 코드 중 제작 국가 비트 배열을 한국을 의미하는 0010과 AND 연산을 하면 된다. 만약, 문자열로 이러한 정보를 표현했다면 수많은 문자열 비교 연산을 수행해야 한다.Third, in general, bit operations operate much faster than integer operations or string operations, so when analyzing data using classification codes, it is possible to guarantee much faster performance than other techniques. For example, to process the query "What percentage of the content the user used during the month of May 2001 was Korea," simply set the country of production bit in the content classification code in the user log file. You can do AND with 0010. If you represent this information as a string, you must perform a number of string comparisons.

마지막으로, 서로 다른 컨텐츠 간의 연관성을 표현할 수 있는 효과가 있다. 예를 들면, 국가 코드를 모든 컨텐츠에 대해 동일하게 4번째 비트에서 11번째 비트까지의 8 비트로 지정한다면 국가별 컨텐츠 분류가 가능해진다.Finally, there is an effect that can express the association between different content. For example, if the country code is designated as 8 bits from 4th to 11th bits for all contents, the content classification by country becomes possible.

Claims (4)

컨텐츠 분류 시스템에 적용되는 데이터 분석을 위한 컨텐츠 분류 방법에 있어서,In the content classification method for data analysis applied to the content classification system, 컨텐츠 분류 특성에 따라, 컨텐츠를 수평형으로 분류하고, 분류한 각 컨텐츠 부류가 완전히 분류될때까지 수직형으로 분류하는 제 1 단계;A first step of classifying the content horizontally according to the content classification characteristic and classifying the content vertically until each classified content class is completely classified; 상기 컨텐츠 분류에 필요한 전체 비트수를 계산하기 위하여, 레벨 그래프의 각 수평 레벨에 대해 필요한 비트수와 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하는 제 2 단계; 및A second step of calculating the total number of bits required for the content classification by adding the required number of bits for each horizontal level of the level graph and the number of bits required in each horizontal node constituting the level; And 상기 필요한 전체 비트수가 계산되면 해당 비트에 대한 각 분류 항목의 코드를 지정하여 최상위 수평식 레벨부터 비트를 할당하는 제 3 단계A third step of allocating bits from the highest horizontal level by designating a code of each classification item for the corresponding bits when the total number of required bits is calculated; 를 포함하는 데이터 분석을 위한 컨텐츠 분류 방법.Content classification method for data analysis comprising a. 제 1 항에 있어서,The method of claim 1, 상기 전체 비트수 계산 과정은,The total bit number calculation process, 각 레벨에서 필요한 비트수를 합한 것이고, 각 레벨에서 필요한 비트수는 수평식 분류 레벨의 각 항목이 필요로 하는 비트수를 더하여 계산하는 것을 특징으로 하는 데이터 분석을 위한 컨텐츠 분류 방법.The number of bits required at each level is added, and the number of bits required at each level is calculated by adding the number of bits required for each item of the horizontal classification level. 제 1 항 또는 제 2 항에 있어서,The method according to claim 1 or 2, 상기 각 수평 레벨에 대해 필요한 비트수는,The number of bits required for each horizontal level is 하위 수직식 분류 항목이 OR 관계인 경우에는이고, 하위 수직식 분류 항목이 AND 관계인 경우에는 수직식 분류 항목의 수 인것을 특징으로 하는 데이터 분석을 위한 컨텐츠 분류 방법.If the subordinate vertical items are OR relationships And the number of vertical classification items when the lower vertical classification items are in an AND relationship. 프로세서를 구비한 컨텐츠 분류 시스템에,In a content classification system having a processor, 컨텐츠 분류 특성에 따라, 컨텐츠를 수평형으로 분류하고, 분류한 각 컨텐츠 부류가 완전히 분류될때까지 수직형으로 분류하는 제 1 기능;A first function of classifying the content horizontally according to the content classification characteristic and vertically classifying the classified content categories until they are completely classified; 상기 컨텐츠 분류에 필요한 전체 비트수를 계산하기 위하여, 레벨 그래프의 각 수평 레벨에 대해 필요한 비트수와 해당 레벨을 구성하는 각 수평노드에서 필요한 비트수를 합하여 계산하는 제 2 기능; 및A second function of calculating the total number of bits required for the content classification by adding the required number of bits for each horizontal level of the level graph and the required number of bits in each horizontal node constituting the level; And 상기 필요한 전체 비트수가 계산되면 해당 비트에 대한 각 분류 항목의 코드를 지정하여 최상위 수평식 레벨부터 비트를 할당하는 제 3 기능A third function of assigning a bit from the highest horizontal level by designating a code of each classification item for the corresponding bit when the total number of required bits is calculated 을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for realizing this.
KR1020010039134A 2001-06-30 2001-06-30 How to Save Content Classification Codes Expired - Fee Related KR100837815B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020010039134A KR100837815B1 (en) 2001-06-30 2001-06-30 How to Save Content Classification Codes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020010039134A KR100837815B1 (en) 2001-06-30 2001-06-30 How to Save Content Classification Codes

Publications (2)

Publication Number Publication Date
KR20030003397A true KR20030003397A (en) 2003-01-10
KR100837815B1 KR100837815B1 (en) 2008-06-13

Family

ID=27712943

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010039134A Expired - Fee Related KR100837815B1 (en) 2001-06-30 2001-06-30 How to Save Content Classification Codes

Country Status (1)

Country Link
KR (1) KR100837815B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220108372A (en) * 2021-01-27 2022-08-03 문지현 Contents providing system based on emotion communication, and contents providing method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11544415B2 (en) 2019-12-17 2023-01-03 Citrix Systems, Inc. Context-aware obfuscation and unobfuscation of sensitive content
US11539709B2 (en) 2019-12-23 2022-12-27 Citrix Systems, Inc. Restricted access to sensitive content
US11582266B2 (en) 2020-02-03 2023-02-14 Citrix Systems, Inc. Method and system for protecting privacy of users in session recordings
US20210303718A1 (en) * 2020-03-31 2021-09-30 Citrix Systems, Inc. Context based data leak prevention of sensitive information
WO2022041163A1 (en) 2020-08-29 2022-03-03 Citrix Systems, Inc. Identity leak prevention

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR900008400B1 (en) * 1987-12-31 1990-11-20 삼성전자 주식회사 Pipeline-typed data classifying apparatus
JP3195402B2 (en) * 1992-03-26 2001-08-06 株式会社セガ Data alignment method and apparatus
KR100235173B1 (en) * 1997-10-28 1999-12-15 김재철 Accessories chain's manufacturing method
KR20010056528A (en) * 1999-12-15 2001-07-04 이계철 Data tiling method for retrieving and handling large volume of data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220108372A (en) * 2021-01-27 2022-08-03 문지현 Contents providing system based on emotion communication, and contents providing method

Also Published As

Publication number Publication date
KR100837815B1 (en) 2008-06-13

Similar Documents

Publication Publication Date Title
US9959015B2 (en) Systems and methods for monitoring and analyzing performance in a computer system with node pinning for concurrent comparison of nodes
US11880382B2 (en) Systems and methods for generating tables from print-ready digital source documents
US10523538B2 (en) User interface that provides a proactive monitoring tree with severity state sorting
US6624831B1 (en) System and process for generating a dynamically adjustable toolbar
US6486898B1 (en) Device and method for a lattice display
TWI451273B (en) Method, system, and computer readable medium for link spam detection using smooth classification function
US9754395B2 (en) Proactive monitoring tree providing distribution stream chart with branch overlay
US7962524B2 (en) Computer program, device, and method for sorting dataset records into groups according to frequent tree
US20010035882A1 (en) Method and system for clustering and grouping taskbar buttons
US20090265611A1 (en) Web page layout optimization using section importance
US9843472B1 (en) System, method, and computer program for identification of common root causes with sequential patterns
CN110135976A (en) User's portrait generation method, device, electronic equipment and computer-readable medium
WO2022142001A1 (en) Target object evaluation method based on multi-score card fusion, and related device therefor
CN108196796A (en) A kind of method, apparatus of data processing, electronic equipment, program and medium
CN117853824A (en) Big data-based 3D sand table projection analysis method
CN117546160A (en) Automated data hierarchy extraction and prediction using machine learning models
CN109885953B (en) Mapping method and device of model component
KR100837815B1 (en) How to Save Content Classification Codes
CA3144129A1 (en) User access data processing method, device and computer system
US7539934B2 (en) Computer-implemented method, system, and program product for developing a content annotation lexicon
US20070113185A1 (en) Intelligent network diagram layout
CN113342998B (en) Multimedia resource recommendation method and device, electronic equipment and storage medium
CN115564578B (en) Fraud recognition model generation method
JP2011164830A (en) Apparatus, method and program for visualizing graph
CN113297479A (en) User portrait generation method and device and electronic equipment

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R11-asn-PN2301

St.27 status event code: A-3-3-R10-R13-asn-PN2301

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

Fee payment year number: 1

St.27 status event code: A-2-2-U10-U11-oth-PR1002

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PN2301 Change of applicant

St.27 status event code: A-5-5-R10-R11-asn-PN2301

St.27 status event code: A-5-5-R10-R13-asn-PN2301

FPAY Annual fee payment

Payment date: 20110601

Year of fee payment: 4

PR1001 Payment of annual fee

Fee payment year number: 4

St.27 status event code: A-4-4-U10-U11-oth-PR1001

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Not in force date: 20120606

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

St.27 status event code: A-4-4-U10-U13-oth-PC1903

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PC1903 Unpaid annual fee

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20120606

St.27 status event code: N-4-6-H10-H13-oth-PC1903

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000