[go: up one dir, main page]

KR20180111126A - A method for big data processing for fusion technology extraction - Google Patents

A method for big data processing for fusion technology extraction Download PDF

Info

Publication number
KR20180111126A
KR20180111126A KR1020170041614A KR20170041614A KR20180111126A KR 20180111126 A KR20180111126 A KR 20180111126A KR 1020170041614 A KR1020170041614 A KR 1020170041614A KR 20170041614 A KR20170041614 A KR 20170041614A KR 20180111126 A KR20180111126 A KR 20180111126A
Authority
KR
South Korea
Prior art keywords
cluster
clusters
path
representative
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020170041614A
Other languages
Korean (ko)
Other versions
KR102066463B1 (en
Inventor
신한섭
최영록
Original Assignee
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산과학기술원 filed Critical 울산과학기술원
Priority to KR1020170041614A priority Critical patent/KR102066463B1/en
Publication of KR20180111126A publication Critical patent/KR20180111126A/en
Application granted granted Critical
Publication of KR102066463B1 publication Critical patent/KR102066463B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 관심기술과 관련된 주요 특징을 추출된 빅데이터를 이용하여 확장하기 위한 융합기술 추출을 위한 빅데이터 처리 방법에 관한 것으로, 둘 이상의 데이터들의 집합(Set)을 하나 이상의 신규 클러스터(Cluster)로 설정하는 신규 클러스터 설정 단계; 하나 이상의 기설정된 클러스터와 하나 이상의 상기 설정된 신규 클러스터를 비교하는 클러스터 비교 단계; 상기 비교결과에 기반하여 하나 이상의 클러스터의 각 대표 클러스터 경로(Path)를 결정하는 단계; 및 상기 결정된 하나 이상의 클러스터의 대표 클러스터 경로를 포함하는 대표 클러스터 경로 정보를 설정하는 단계를 포함한다.The present invention relates to a big data processing method for extracting a fusion technique for expanding key features related to a technology of interest using extracted big data, and more particularly, to a big data processing method for extracting fusion data from a set of two or more data into one or more new clusters Setting a new cluster; A cluster comparison step of comparing one or more preset clusters with one or more of the set new clusters; Determining each representative cluster path of one or more clusters based on the comparison result; And setting representative cluster path information including a representative cluster path of the determined one or more clusters.

Description

융합기술 추출을 위한 빅데이터 처리 방법{A METHOD FOR BIG DATA PROCESSING FOR FUSION TECHNOLOGY EXTRACTION}FIELD OF THE INVENTION [0001] The present invention relates to a method and apparatus for extracting fusion technology,

본 발명은 융합기술 추출을 위한 빅데이터 처리 방법에 관한 것으로, 보다 구체적으로 관심기술과 관련된 주요 특징을 추출된 빅데이터를 이용하여 확장하기 위한 융합기술 추출을 위한 빅데이터 처리 방법에 관한 것이다.The present invention relates to a big data processing method for extracting a fusion technique, and more particularly, to a big data processing method for extracting a fusion technique for extending major features related to a technology of interest using extracted big data.

데이터의 형태와 범위가 다양해지고 그 규모가 방대해지는 빅데이터의 등장으로 데이터 마이닝의 중요성은 부각되고 있다. 특히 웹에서 엄청나게 빠른 속도로 생성되는 웹 페이지(web page) 콘텐츠와 웹 로그(web log), 소셜네트워크서비스의 텍스트 정보와 영상과 같은 비정형 데이터(unstructured data)를 분석하기 위한 다양한 방법론이 등장해 데이터 마이닝의 포괄 범위는 확장되고 있다.The importance of data mining has been highlighted by the advent of big data, which has a wide variety of data types and ranges. In particular, various methodologies for analyzing unstructured data such as web page contents and web log, social network service text information and images generated at an incredibly fast speed on the web have appeared, The coverage of mining is expanding.

데이터 마이닝에서 주로 사용하고 있는 방법론인 로지스틱회귀분석(logistic regression), 주성분분석(pricipal ananlysis), 판별분석(discriminat analysis),군집분석(clustering analysis) 등은 통계학에서 사용되고 있는 분석방법론이다.Logistic regression, pricipal ananlysis, discriminat analysis, and clustering analysis are the methodologies that are used in data mining.

선행기술문헌은 쿼리 클러스터링 및 카테고리화를 기반으로 한 쿼리 랭킹(query ranking)에 관한 발명을 개시하고 있다. 선행기술문헌에서 검색 쿼리가 선택되고 하나 이상의 클러스터로 그룹화된다. 각 클러스터에 대해 대표 쿼리가 선택되고, 각 클러스터는 해당 대표 카테고리와 연관된다. 랭크는 클러스터의 클러스터 인기도 및 클러스터의 대표 카테고리의 카테고리 인기도에 기초하여 각 클러스터에 할당되며, 선택된 대표 쿼리는 각각의 클러스터의 랭크에 따라 순서대로 제시된다.The prior art document discloses an invention relating to query ranking based on query clustering and categorization. In the prior art literature, search queries are selected and grouped into one or more clusters. A representative query is selected for each cluster, and each cluster is associated with a corresponding representative category. The rank is assigned to each cluster based on the cluster popularity of the cluster and the category popularity of the representative category of the cluster, and the selected representative query is presented in order according to the rank of each cluster.

선행문헌에서는 각 클러스터에 대해 대표 쿼리가 선택되고, 각 클러스터가 해당 대표 카테고리와 연관되며, 키워드 쿼리 결과를 기존 클러스터와 유사도를 비교하여 업데이트하는 구성이 개시되어 있으나, 신규 클러스터를 생성하는 방법에 대해서는 개시하고 있지 않다.In the prior art, a representative query is selected for each cluster, each cluster is associated with the corresponding representative category, and the query result of the keyword is compared with the existing cluster to update the similarity. However, It does not disclose.

미국등록특허 US8145623 B1US registered patent US8145623 B1

본 발명은 상기한 문제점을 해결하기 위하여 발명된 것으로, 그 목적은 빅데이터로부터 추출된 기본 계층구조와 유사한 데이터를 이용하여 기본 계층구조를 업데이트하고, 빅데이터로부터 추출된 기본 계층구조와 상이한 데이터를 이용하여 신규 계층구조를 생성하여 업데이트함으로써, 관심기술과 관련된 주요 특징을 추출된 빅데이터를 이용하여 확장하는 것이다.SUMMARY OF THE INVENTION The present invention has been made to solve the above problems, and its object is to update a basic hierarchical structure using data similar to a basic hierarchical structure extracted from big data, to extract data different from a basic hierarchical structure extracted from big data To create and update a new hierarchical structure to expand key features related to the technology of interest using the extracted big data.

본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법은, 둘 이상의 데이터들의 집합(Set)을 하나 이상의 신규 클러스터(Cluster)로 설정하는 신규 클러스터 설정 단계; 하나 이상의 기설정된 클러스터와 하나 이상의 상기 설정된 신규 클러스터를 비교하는 클러스터 비교 단계; 상기 비교결과에 기반하여 하나 이상의 클러스터의 각 대표 클러스터 경로(Path)를 결정하는 단계; 및 상기 결정된 하나 이상의 클러스터의 대표 클러스터 경로를 포함하는 대표 클러스터 경로 정보를 설정하는 단계를 포함할 수 있다.A big data processing method for extracting a fusion technique according to an embodiment of the present invention includes: a new cluster setting step of setting a set of two or more data into one or more new clusters; A cluster comparison step of comparing one or more preset clusters with one or more of the set new clusters; Determining each representative cluster path of one or more clusters based on the comparison result; And setting representative cluster path information including a representative cluster path of the determined one or more clusters.

상기 신규 클러스터 설정 단계는, 기설정된 연결관계를 갖는 데이터들의 릴레이션(Relation)을 참조하여, 상기 둘 이상의 데이터들을 포함하는 경로들을 설정하는 단계를 포함할 수 있다.The new cluster setting step may include setting a path including the two or more data with reference to a relation of data having a predetermined connection relationship.

상기 설정된 경로들을 구성하는 복수의 링크(Link)들의 유사도에 따라 클러스터를 설정하는 단계를 포함할 수 있다.And setting a cluster according to a degree of similarity of a plurality of links constituting the set paths.

상기 유사도는, 상기 설정된 경로들에 공통으로 포함된 링크들의 유사한 정도일 수 있다.The degree of similarity may be a similar degree of links commonly included in the set paths.

상기 신규 클러스터 설정 단계는, 하나 이상의 신규 클러스터에서 대표 클러스터 경로를 설정하는 단계를 포함할 수 있다.The step of setting a new cluster may include setting a representative cluster path in one or more new clusters.

상기 신규 클러스터 설정 단계는, 상기 설정된 신규 클러스터가 복수개인 경우, 각 신규 클러스터의 대표 클러스터 경로를 설정하는 단계를 포함할 수 있다.The step of setting a new cluster may include a step of setting a representative cluster path of each new cluster when there are a plurality of the set new clusters.

상기 클러스터 비교 단계는, 상기 기설정된 클러스터들의 각 대표 클러스터 경로와 상기 설정된 신규 클러스터들의 각 대표 클러스터 경로가 유사한지 여부를 판단할 수 있다.The cluster comparison step may determine whether each representative cluster path of the preset clusters and each representative cluster path of the set new clusters are similar.

상기 유사한지 여부를 판단하는 단계는, 상기 기설정된 클러스터들의 각 대표 클러스터 경로의 표준편차와 상기 설정된 신규 클러스터들의 각 대표 클러스터 경로의 표준편차를 비교하는 단계를 포함할 수 있다.The step of determining similarity may include comparing a standard deviation of each representative cluster path of the preset clusters with a standard deviation of each representative cluster path of the set new clusters.

상기 클러스터 비교 단계에서, 적어도 하나의 기설정된 클러스터와 신규 클러스터의 쌍이 유사하다고 판단되는 경우, 상기 유사하다고 판단된 쌍을 이루는 신규 클러스터와 기설정된 클러스터가 동일한 계층구조를 갖는 클러스터인지 판단하는 단계를 더 포함할 수 있다.Wherein if it is determined that the pair of at least one predetermined cluster and the new cluster are similar in the cluster comparison step, determining whether the new cluster constituting the pair determined to be similar to the predetermined cluster is a cluster having the same hierarchical structure .

상기 유사하다고 판단된 쌍을 이루는 기설정된 클러스터와 신규 클러스터의 계층구조가 동일하지 않다고 판단된 경우, 상기 유사하다고 판단된 쌍을 이루는 기설정된 클러스터에 신규 클러스터를 연결하는 단계를 포함할 수 있다.And connecting a new cluster to a predetermined cluster constituting the pair judged to be similar if it is determined that the hierarchical structure of the predetermined cluster and the new cluster forming the pair determined to be similar are not the same.

상기 대표 클러스터 경로를 결정하는 단계는, 신규 클러스터를 연결한 하나 이상의 연결 클러스터의 각 대표 클러스터 경로를 결정하는 단계일 수 있다.The step of determining the representative cluster path may be a step of determining each representative cluster path of the one or more connected clusters to which the new cluster is connected.

상기 하나 이상의 연결 클러스터의 각 대표 클러스터 경로가 결정되면, 상기 하나 이상의 연결 클러스터의 각 대표 클러스터 경로 내의 하나의 객체를 상기 객체가 포함된 대표 클러스터 경로의 카테고리로 지정하는 단계를 포함할 수 있다.And designating one object in each representative cluster path of the one or more connected clusters as a category of a representative cluster path including the object if each representative cluster path of the one or more connected clusters is determined.

상기 클러스터 비교 단계는, 기설정된 클러스터 전부에 대하여 신규 클러스터들 중 적어도 하나 이상의 클러스터가 유사하지 않은 것으로 판단된 경우, 상기 신규 클러스터들 중 하나 이상의 클러스터가 포함된 집합을 생성하는 단계를 포함할 수 있다.The cluster comparison step may include generating a set including one or more clusters of the new clusters if it is determined that at least one of the new clusters is not similar to all the predetermined clusters .

상기 집합을 생성하는 단계에서, 상기 집합에 포함된 하나 이상의 클러스터는, 하나 이상의 기설정된 클러스터의 계층구조에 포함된 대상 객체에 대응되는 대응 객체를 포함하고, 상기 집합에 포함된 하나 이상의 클러스터에서 상기 대응 객체를 포함하는 경로는 상기 하나 이상의 기설정된 클러스터에서 상기 대상 객체를 포함하는 경로와 유사하지 않다고 판단되는 클러스터일 수 있다.Wherein the one or more clusters included in the set include a corresponding object corresponding to a target object included in a hierarchical structure of one or more predetermined clusters, The path including the corresponding object may be a cluster judged not similar to the path including the target object in the one or more predetermined cluster.

상기 집합에 포함된 하나 이상의 클러스터의 계층구조를 생성하는 단계; 및 상기 하나 이상의 클러스터의 계층구조의 집합을 생성하는 단계를 포함할 수 있다.Generating a hierarchy of one or more clusters included in the set; And generating a set of hierarchical structures of the one or more clusters.

상기 대표 클러스터 경로를 결정하는 단계는, 상기 집합에 포함된 하나 이상의 클러스터의 각 대표 클러스터 경로를 결정하는 단계일 수 있다.The step of determining the representative cluster path may be a step of determining each representative cluster path of the one or more clusters included in the cluster.

상기 집합에 포함된 하나 이상의 클러스터의 각 대표 클러스터 경로 내의 하나의 객체를 상기 객체가 포함된 경로의 카테고리로 지정하는 단계를 포함할 수 있다.And designating one object in each representative cluster path of one or more clusters included in the set as a category of a path including the object.

상기 대표 클러스터 경로 정보를 설정하는 단계는, 상기 대표 클러스터 경로를 결정하는 단계에서 결정된 하나 이상의 클러스터의 대표 클러스터 경로에 대한 정보를 상기 대표 클러스터 경로 정보에 추가하여 상기 대표 클러스터 경로 정보를 설정하는 단계일 수 있다.Wherein the step of setting the representative cluster path information comprises the step of setting the representative cluster path information by adding information on the representative cluster path of one or more clusters determined in the step of determining the representative cluster path to the representative cluster path information .

본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에 따르면, 기존의 계층구조와 유사한 빅데이터로부터 추출한 데이터를 통해 관심기술과 관련된 주요 특징을 확장하는 효과가 있다.According to the big data processing method for extracting the fusion technique according to an embodiment of the present invention, main features related to the technology of interest are expanded through data extracted from big data similar to the existing hierarchical structure.

또한, 기존의 계층구조를 구성하는 객체와는 유사하지만, 객체간의 연결관계는 기존의 계층구조와 상이한 빅데이터로부터 추출한 데이터를 통해 관심기술과 관련된 주요 특징을 확장하는 효과가 있다.In addition, it is similar to the objects constituting the existing hierarchical structure, but the connection relation between the objects has the effect of expanding the main features related to the interested technology through the data extracted from the big data which is different from the existing hierarchical structure.

본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1은 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법을 간략히 도시한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에서, 클러스터 내의 경로에 대한 일례를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에서, 클러스터들간의 연결과정을 나타낸 일 예를 도시한 도면이다.
The accompanying drawings, which are included to provide a further understanding of the invention and are incorporated in and constitute a part of the specification, illustrate embodiments of the invention and, together with the description, serve to explain the technical features of the invention.
FIG. 1 is a flowchart briefly showing a method of processing big data for extracting a fusion technique according to an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of a path in a cluster in a big data processing method for extracting a fusion technique according to an embodiment of the present invention.
3 is a diagram illustrating an example of a connection process between clusters in a big data processing method for extracting a fusion technique according to an embodiment of the present invention.

본 명세서에서 제1 및/또는 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 즉, 구성요소들을 상기 용어들에 의해 한정하고자 함이 아니다.The terms first and / or second in this specification are used only for the purpose of distinguishing one element from another. That is, the components are not intended to be limited by the terms.

본 명세서에서 '포함하다' 라는 표현으로 언급되는 구성요소, 특징, 및 단계는 해당 구성요소, 특징 및 단계가 존재함을 의미하며, 하나 이상의 다른 구성요소, 특징, 단계 및 이와 동등한 것을 배제하고자 함이 아니다.The components, features, and steps referred to in the specification as " comprising " in this specification are intended to mean that there are corresponding components, features, and steps, and do not preclude the presence of one or more other components, features, steps, and the like Is not.

본 명세서에서 단수형으로 특정되어 언급되지 아니하는 한, 복수의 형태를 포함한다. 즉, 본 명세서에서 언급된 구성요소 등은 하나 이상의 다른 구성요소 등의 존재나 추가를 의미할 수 있다.Includes plural forms as long as it is not specified and specified in the singular form herein. That is, the components and the like referred to in this specification may mean the presence or addition of one or more other components or the like.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함하여, 본 명세서에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자(통상의 기술자)에 의하여 일반적으로 이해되는 것과 동일한 의미이다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs to be.

즉, 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.That is, terms such as those defined in commonly used dictionaries should be construed as meaning consistent with meaning in the context of the related art, and unless otherwise expressly defined herein, interpreted in an ideal or overly formal sense It does not.

이하에서는, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에 대해 상세하게 설명한다. 여기서 이 방법의 각 단계를 수행하는 주체는 중앙처리장치, 프로세서이다.Hereinafter, a method of processing big data for extracting a fusion technique according to an embodiment of the present invention will be described in detail with reference to the accompanying drawings. Here, the subject of each step of the method is a central processing unit and a processor.

도 1은 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법을 간략히 도시한 순서도이다.FIG. 1 is a flowchart briefly showing a method of processing big data for extracting a fusion technique according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법은, 빅데이터를 분석하여 데이터 릴레이션(Relation)을 참조하여 데이터들간의 경로를 구성하는 단계(S101), 데이터들을 클러스터로 구성하는 단계(S103), 기설정된 클러스터와 신규 클러스터를 비교하는 단계(S105), 기설정된 클러스터와 다른 계층구조를 갖는 신규 클러스터의 데이터 집합(Set)을 결정하고, 기설정된 클러스터에 신규 클러스터를 연결하는 단계(S107 및 S109), 신규 클러스터들의 새로운 계층구조를 생성하는 단계(S111), 대표 클러스터 경로를 결정하고, 경로의 카테고리를 지정하는 단계(S113 및 S115) 및 대표 클러스터 경로 정보를 업데이트하는 단계(S117)을 포함할 수 있다.Referring to FIG. 1, a method of processing big data for extracting a fusion technique according to an embodiment of the present invention includes steps (S101) of constructing a path between data by analyzing big data and referring to a data relation, (S103); comparing the preset cluster with the new cluster (S105); determining a data set (Set) of the new cluster having a hierarchical structure different from the predetermined cluster; (S111) of creating a new hierarchical structure of new clusters, determining a representative cluster path, designating a category of a path (S113 and S115), and connecting representative cluster path information (Step S117).

S101 단계는, 빅데이터의 주요 키워드(Keyword)를 분석한다. 분석한 데이터를 기설정된 연결관계를 갖는 데이터들의 릴레이션(Relation)을 참조하여, 데이터들을 포함하는 하나 이상의 경로들을 설정하는 단계이다.In step S101, the main keyword of the big data is analyzed. Referring to the relation of the data having the predetermined connection relationship, and setting one or more paths including the data.

S103 단계는, S101 단계에서 구성된 데이터들간의 경로들을 비교하여 클러스터를 설정하는 단계로서, 각 경로를 구성하는 복수의 링크(Link)들의 유사도(링크 유사도)에 따라 클러스터를 설정하는 단계이다. 링크 유사도는 각 경로가 공통으로 포함하는 링크들의 유사한 정도를 지칭한다. 복수의 경로들 중에서 링크들을 공통으로 포함하는 유사한 경로들을 하나의 클러스터로 설정한다. 하나의 클러스터에 포함된 경로들이 공통으로 포함하고 있는 링크들(부분 경로)이 해당 클러스터의 대표 클러스터 경로로 구성된다. 즉, 설정된 경로들을 구성하는 복수의 링크(Link)들의 유사도에 따라 클러스터를 설정하고, 여기서 유사도는 설정된 경로들에 공통으로 포함된 링크들의 유사한 정도이다. 또한, 하나 이상의 신규 클러스터에서 대표 클러스터 경로를 설정한다.Step S103 is a step of setting clusters by comparing routes between the data configured in step S101 and setting clusters according to the similarities (link similarities) of a plurality of links constituting each path. Link similarity refers to a similar degree of links that each path commonly includes. And sets similar paths that include links in common among a plurality of paths into one cluster. The links (partial paths) commonly included in the paths included in one cluster are constituted by representative cluster paths of the corresponding clusters. That is, a cluster is set according to the similarity of a plurality of links constituting the set routes, and the similarity is a similar degree of links commonly included in the set routes. Also, a representative cluster path is set in one or more new clusters.

S105 단계는, 기설정된 클러스터들과 S101 및 S103 단계를 거쳐 설정된 클러스터인 신규 클러스터들을 비교하는 단계로서, 기설정된 클러스터들 각각의 대표 클러스터 경로와 신규 클러스터들 각각의 대표 클러스터 경로를 비교하여, 비교한 클러스터간의 유사도를 판단하는 단계이다. 각 링크는 통계값, 속성 등을 가지고 있으며, 각 경로는 포함하고 있는 링크의 값에 대한 표준편차를 갖는다. 기설정된 클러스터들의 각 대표 클러스터 경로와 신규 클러스터들의 각 대표 클러스터 경로의 유사도를 판단하는 방법은 각각의 대표 클러스터 경로들이 갖고 있는 표준편차의 유사한 정도를 비교하여 판단하는 것이다. 즉, 기설정된 클러스터들의 각 대표 클러스터 경로와 신규 클러스터들의 각 대표 클러스터 경로가 유사한지 여부를 판단하는 단계이다. 또한 기설정된 클러스터들의 각 대표 클러스터 경로의 표준편차와 신규 클러스터들의 각 대표 클러스터 경로의 표준편차를 비교하여 유사한지 여부를 판단한다.Step S105 is a step of comparing new clusters, which are clusters that have been set through the steps S101 and S103, with the representative cluster path of each of the predetermined clusters and the representative cluster path of each of the new clusters, And determining the degree of similarity between the clusters. Each link has statistical values, attributes, etc., and each path has a standard deviation of the value of the included link. A method for determining the similarity between each representative cluster path of the predetermined clusters and each representative cluster path of the new clusters is to compare the similarity of the standard deviations of the representative cluster paths. That is, it is determined whether each representative cluster path of the predetermined clusters is similar to each representative cluster path of the new clusters. Also, the standard deviation of each representative cluster path of the predetermined clusters is compared with the standard deviation of each representative cluster path of the new clusters to determine whether they are similar.

S107 단계는, S105 단계에서 비교된 기설정된 클러스터들과 신규 클러스터들 중 적어도 하나 이상의 클러스터들의 쌍이 유사한 것으로 판단되는 경우, 기설정된 클러스터와 서로 다른 계층구조를 갖는 신규 클러스터를 판단하기 위한 단계이다. S107 단계는, 유사한 것으로 판단된 클러스터들의 쌍을 이루는 신규 클러스터가 기설정된 클러스터와 동일할 수 있기 때문에, S105 단계를 통해 기설정된 클러스터와 대표 클러스터 경로의 유사도를 판단하였을 때 유사하지만, 동일하지는 않은 신규 클러스터들을 판단하기 위한 단계이다. In step S107, if it is determined that the pair of at least one of the predetermined clusters and the new clusters compared in step S105 is similar, it is a step for determining a new cluster having a different hierarchical structure from the predetermined cluster. In step S107, since a new cluster constituting a pair of clusters determined to be similar may be the same as the predetermined cluster, it is similar when judging the similarity between the preset cluster and the representative cluster path through step S105, Clusters. ≪ / RTI >

판단의 결과로 기설정된 클러스터와 신규 클러스터가 서로 다른 계층구조를 갖는다고 판단되면, 서로 다른 계층구조를 갖는 데이터(신규 클러스터에는 포함되어 있지만 기설정된 클러스터에는 포함되어 있지 않은 데이터)들의 집합(Set)을 설정한다. As a result of the determination, if it is determined that the predetermined cluster and the new cluster have different hierarchical structures, a set of data having different hierarchical structures (data included in the new cluster but not included in the predetermined cluster) .

즉, S107 단계는, 기설정된 클러스터와 신규 클러스터를 비교하여, 적어도 하나의 기설정된 클러스터와 신규 클러스터의 쌍이 유사하다고 판단되는 경우, 유사하다고 판단된 쌍을 이루는 신규 클러스터와 기설정된 클러스터가 동일한 계층구조를 갖는 클러스터인지를 판단하는 단계이다.That is, the step S107 compares the preset cluster with the new cluster. If it is determined that the pair of at least one preset cluster and the new cluster are similar, the new cluster and the predetermined cluster, Or the like.

S109 단계는, S107 단계에서 설정된 서로 다른 계층구조를 갖는 데이터들의 집합을 기존 데이터들의 집합에 연결하는 단계이다. 유사한 것으로 판단된 쌍을 이루는 신규 클러스터가 기설정된 클러스터에 포함되어 있지 않은 데이터를 포함하고 있는 경우 이 데이터를 기설정된 클러스터의 데이터 집합에 포함시키는 단계이다. 기설정된 클러스터에 신규 클러스터를 연결한 연결 클러스터가 생성된다. In operation S109, the set of data having different hierarchical structures set in operation S107 is linked to a set of existing data. If the new cluster that is judged to be similar includes data that is not included in the predetermined cluster, this step is to include this data in the data set of the predetermined cluster. A connection cluster is created by connecting a new cluster to a preset cluster.

즉, S109 단계는, 유사하다고 판단된 쌍을 이루는 기설정된 클러스터와 신규 클러스터의 계층구조가 동일하지 않다고 판단된 경우, 기설정된 클러스터에 신규 클러스터를 연결하는 단계이다.That is, in step S109, when it is determined that the hierarchical structure of the predetermined cluster and the new cluster forming the pair determined to be similar are not the same, the step of connecting the new cluster to the predetermined cluster.

S111 단계는, S105 단계의 비교 결과,하나 이상의 신규 클러스터가 모든 기설정된 클러스터들과 유사하지 않은 것으로 판단된 경우, 모든 기설정된 클러스터들과 유사하지 않은 것으로 판단된 하나 이상의 신규 클러스터의 새로운 계층 구조를 생성하기 위한 단계이다. S111 단계에서 계층구조를 생성함에 있어서 S101 단계의 데이터 릴레이션을 참조할 수 있다. S105 단계에서의 비교 결과가 유사하지 않은 것으로 판단된 신규 클러스터들은 각각의 계층구조를 생성하고 계층구조의 집합을 이룬다. 다만, 기설정된 클러스터와 유사하지 않다고 판단된 모든 신규 클러스터가 계층구조를 생성하는 것이 아니라, 신규 클러스터의 적어도 하나의 객체는 기설정된 클러스터들 중 하나 이상의 클러스터의 다수의 계층구조를 갖는 객체와 유사하여야 하며, 상기 신규 클러스터의 객체가 포함된 경로는 기설정된 클러스터에 포함된 경로와 유사하지 않아야 한다.If it is determined in step S105 that the one or more new clusters are not similar to all preset clusters, the step S111 may determine that the new hierarchical structure of one or more new clusters Respectively. In step S111, the data relation in step S101 may be referenced in creating the hierarchical structure. The new clusters, which are judged not to be similar to each other in step S105, generate respective hierarchical structures and form a hierarchical structure. However, rather than all the new clusters judged not to be similar to the predetermined cluster to create a hierarchical structure, at least one object of the new cluster should be similar to an object having a plurality of hierarchical structures of one or more clusters of predetermined clusters And the path including the object of the new cluster should not be similar to the path included in the predetermined cluster.

즉, S111 단계는, 기설정된 클러스터 전부에 대하여 신규 클러스터들 중 적어도 하나 이상의 클러스터가 유사하지 않은 것으로 판단된 경우, 유사하지 않다고 판단된 신규 클러스터들을 포함하는 집합을 생성하고 단계이다. 또한 집합에 포함된 클러스터들의 계층구조를 생성하고, 생성된 계층구조들의 집합을 생성하는 단계이다. 다만, 집합에 포함된 클러스터들은 하나 이상의 기설정된 클러스터의 계층구조에 포함된 대상 객체에 대응되는 대응 객체를 포함하여야 하고, 집합에 포함된 하나 이상의 클러스터에서 대응 객체를 포함하는 경로는 하나 이상의 기설정된 클러스터에서 대상 객체를 포함하는 경로와 유사하지 않다고 판단되어야 한다.That is, in step S111, when it is determined that at least one of the new clusters is not similar to all the predetermined clusters, a set including new clusters determined to be not similar is generated. It also creates a hierarchy of clusters contained in the set and generates a set of generated hierarchies. However, the clusters included in the set must include a corresponding object corresponding to the target object included in the hierarchical structure of one or more predetermined clusters, and the path including the corresponding object in the one or more clusters included in the set may include one or more predetermined It should be judged not to be similar to the path containing the target object in the cluster.

S111 단계에 대한 일 예를 들자면, S105 단계에서 유사하지 않은 것으로 판단된 기설정된 클러스터(A)와 신규 클러스터(B)가 있고, A와 B의 대표 클러스터 경로는 임의의 객체(C)를 공통으로 포함한다고 가정한다. 즉, B는 A의 적어도 하나의 대상 객체(C)에 대응하는 대응 객체(C)를 포함하고 있는 것이다. 이 경우, A에서 대상 객체 C를 포함하고 있는 경로와 B에서 대응 객체 C를 포함하고 있는 경로가 유사하지 않은 것으로 판단되면, B에 대한 새로운 계층구조가 생성된다.For example, in step S111, there are a predetermined cluster A and a new cluster B determined to be not similar in step S105, and the representative cluster path of A and B includes a common object C . That is, B includes a corresponding object C corresponding to at least one target object C of A. In this case, if it is determined that the path including the object C in A and the path including the corresponding object C in B are not similar, a new hierarchical structure for B is generated.

S113 단계는 S109 단계 또는 S111 단계를 거친 클러스터들에 의하여 단계가 수행될 수 있으므로, S109 단계를 거친 S113 단계(S113-S109) 와 S111 단계를 거친 S113 단계(S113-S111)로 구분하여 설명한다.Since the step S113 can be performed by the clusters that have undergone the step S109 or S111, the step S113 is followed by the step S113 (S113-S109) and the step S111 is followed by the step S113 (S113-S111).

S113-S109 단계는, S109 단계에서 기설정된 클러스터에 유사성을 만족하지만 서로 다른 계층구조를 갖는 신규 클러스터를 연결하였기 때문에, 기설정된 클러스터에 하나 이상의 신규 클러스터들이 연결된 연결 클러스터의 대표 클러스터 경로를 결정하는 단계이다. 즉, 신규 클러스터를 연결한 하나 이상의 연결 클러스터의 각 대표 클러스터 경로를 결정하는 단계이다.In step S113-S109, since the new clusters satisfying the similarity in the predetermined cluster but having different hierarchical structures are connected in step S109, the step of determining the representative cluster path of the connected cluster in which one or more new clusters are connected to the predetermined cluster to be. That is, it is a step of determining each representative cluster path of one or more connection clusters to which a new cluster is connected.

S113-S111 단계는, S111 단계에서 생성된 계층구조를 갖는 각 클러스터들의 대표 클러스터 경로를 결정하는 단계이다. 즉, S111 단계에서 생성된 집합에 포함된 하나 이상의 클러스터의 각 대표 클러스터 경로를 결정하는 단계이다.In operation S113-S111, the representative cluster path of each cluster having the hierarchical structure generated in operation S111 is determined. That is, it is a step of determining each representative cluster path of one or more clusters included in the set generated in step S111.

S115 단계는, S113(S113-S109 또는 S113-S111) 단계를 거친 클러스터들의 각 대표 클러스터 경로에 포함된 하나의 객체를 객체가 포함된 대표 클러스터 경로의 카테고리로 지정하는 단계이다. 여기서 카테고리로 지정되는 객체는 상기 객체가 속하는 클러스터의 대표 클러스터 경로를 대표하는 것이기 때문에 클러스터 내의 다른 객체들과 상호 유사성이 가장 높은 객체를 카테고리로 지정한다. 즉, S115 단계는 S113 단계를 거침으로써 대표 클러스터 경로가 결정된, 하나 이상의 클러스터의 각 대표 클러스터 경로 내의 객체들 중 상호 유사성이 가장 높은 하나의 객체를 대표 클러스터 경로의 카테고리로 지정하는 단계이다.The step S115 is a step of designating one object included in each representative cluster path of the clusters after the step S113 (S113-S109 or S113-S111) as a category of the representative cluster path including the object. Here, since the object designated as the category represents the representative cluster path of the cluster to which the object belongs, the object having the highest similarity with other objects in the cluster is designated as a category. That is, the step S115 is a step of designating one object having the highest mutual similarity among the objects in each representative cluster path of the one or more clusters in which the representative cluster path is determined by going through the step S113 as a category of the representative cluster path.

상호 유사성의 판단은 대표 클러스터 경로에 속하는 하나 이상의 객체들을 해당 클러스터 내의 다른 객체들과의 유사성 비교하여 클러스터 내의 다른 객체들과 가장 높은 유사성을 가진 객체를 판단하는 것이다. 즉, 한 클러스터의 대표 클러스터 경로에 속한 객체들간의 상대적인 비교를 통하여 가장 높은 상호 유사성을 가진 객체를 판단한다.The mutual similarity is determined by comparing one or more objects belonging to the representative cluster path with other objects in the cluster to determine the object having the highest similarity with other objects in the cluster. That is, the object having the highest mutual similarity is judged through a relative comparison between the objects belonging to the representative cluster path of one cluster.

S117 단계는, S101 내지 S115의 단계를 거치면서 각 클러스터들의 대표 클러스터 경로가 변경된 경우, 대표 클러스터 경로 정보를 업데이트하는 단계이다. 대표 클러스터 경로 정보를 업데이트함에 있어서 S105 단계를 참조할 수 있다. 변경되거나(S113-S109 단계를 통해), 새롭게 생성된(S113-S111 단계를 통해) 대표 클러스터 경로들의 정보를 기존의 대표 클러스터 경로들의 정보에 추가하여 설정하는 단계이다. 즉, S117 단계는 S113 단계를 거침으로써, 대표 클러스터 경로가 결정된 하나 이상의 클러스터의 대표 클러스터 경로에 대한 정보를 대표 클러스터 경로 정보에 추가하여 대표 클러스터 경로 정보를 설정하는 단계이다.The step S117 is a step of updating the representative cluster path information when the representative cluster path of each cluster is changed through the steps of S101 to S115. In updating the representative cluster path information, step S105 may be referred to. (Through steps S113-S119), information on the representative cluster paths newly created (through steps S113-S111) is added to the information of the existing representative cluster paths and set. That is, step S117 is a step of setting the representative cluster path information by adding information on the representative cluster path of at least one cluster in which the representative cluster path has been determined to the representative cluster path information through step S113.

도 2는 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에서, 클러스터 내의 경로에 대한 일례를 도시한 도면이다.FIG. 2 is a diagram illustrating an example of a path in a cluster in a big data processing method for extracting a fusion technique according to an embodiment of the present invention.

도 2는 클러스터(100), 클러스터(100)내에 존재하는 A 경로(101), B 경로(102), C 경로(103) 및 A 경로의 객체들(104A 내지 109A)을 포함한다.FIG. 2 includes a cluster 100, an A path 101, a B path 102, a C path 103, and an A path object 104A to 109A that are present in the cluster 100.

도 1 및 도 2를 참조하면,Referring to Figures 1 and 2,

S101 단계에서는, 기설정된 연결관계를 갖는 데이터들의 릴레이션을 참조하여 A 경로(101), B 경로(102) 및 C 경로(103)를 설정할 수 있다.In step S101, the A path 101, the B path 102, and the C path 103 can be set with reference to relations of data having a predetermined connection relationship.

S103 단계에서, A 경로(101), B 경로(102) 및 C 경로(103)은 공통되는 경로(106A->107A)를 포함하고 있다. 따라서 A 경로(101), B 경로(102) 및 C 경로(103)를 클러스터(100)로 설정할 수 있으며, 경로(106A->107A)가 클러스터(100)의 대표 클러스터 경로로 설정될 수 있다.In step S103, the A path 101, the B path 102, and the C path 103 include common paths 106A-> 107A. Accordingly, the A path 101, the B path 102, and the C path 103 can be set as the cluster 100, and the paths 106A-> 107A can be set as the representative cluster path of the cluster 100. [

S105 단계에서, 경로(106A->107A)는 클러스터(100)의 대표 클러스터 경로이므로 기설정된 클러스터의 대표 클러스터 경로와 비교의 대상이 될 수 있다.In step S105, since the path 106A-> 107A is the representative cluster path of the cluster 100, it can be compared with the representative cluster path of the predetermined cluster.

S105 단계의 결과로써, 클러스터(100)과 기설정된 클러스터가 유사다고 판단되면, S107 단계에서는, 클러스터(100)의 계층구조와 기설정된 클러스터의 계층구조를 비교하여 클러스터(100)과 기설정된 클러스터가 동일한지 여부를 판단할 수 있다. S107 단계의 결과로써, 클러스터(100)과 기설정된 클러스터가 동일하지 않다고 판단되면, S109 단계에서 기설정된 클러스터에 클러스터(100)를 연결하여 연결 클러스터를 생성할 수 있다. S113 단계에서는 연결 클러스터의 대표 클러스터 경로가 결정될 수 있으며, S115 단계에서는 상기 연결 클러스터의 대표 클러스터 경로 중 하나의 객체가 대표 클러스터 경로의 카테고리로 지정될 수 있다. S117 단계에서는 연결 클러스터의 대표 클러스터 경로 정보가 대표 클러스터 경로 정보에 추가될 수 있다.As a result of step S105, if it is determined that the cluster 100 is similar to the predetermined cluster, the hierarchical structure of the cluster 100 is compared with the hierarchical structure of the predetermined cluster in step S107, It can be determined whether or not they are the same. As a result of step S107, if it is determined that the cluster 100 and the predetermined cluster are not the same, the cluster 100 may be connected to the predetermined cluster in step S109 to create a connected cluster. In step S113, the representative cluster path of the connected cluster may be determined. In step S115, one of the representative cluster paths of the connected cluster may be designated as a category of the representative cluster path. In step S117, the representative cluster path information of the connected cluster may be added to the representative cluster path information.

S105 단계의 결과 클러스터(100)과 기설정된 클러스터가 비유사하다고 판단된 경우라면, S111 단계에서 클러스터(100)에 대한 계층구조가 생성될 수 있다. S113 단계에서는 클러스터(100)의 대표 클러스터 경로가 결정될 수 있다. S115 단계에서는 클러스터(100)의 대표 클러스터 경로에 속하는 두 객체(106A 및 107A)중 클러스터(100) 내의 객체들과 상호유사성이 더 높은 객체가 클러스터(100)의 대표 클러스터 경로(106A->107A)의 카테고리로 설정될 수 있다. S117 단계에서는 클러스터(100)의 대표 클러스터 경로(106A->107A)가 대표 클러스터 경로 정보에 추가될 수 있다.If it is determined in step S105 that the cluster 100 and the preset cluster are not similar, a hierarchical structure for the cluster 100 may be generated in step S111. In step S113, the representative cluster path of the cluster 100 may be determined. In step S115, an object having higher mutual similarity with the objects in the cluster 100 among the two objects 106A and 107A belonging to the representative cluster path of the cluster 100 is selected as the representative cluster path 106A-> 107A of the cluster 100, As shown in FIG. In step S117, the representative cluster path (106A- > 107A) of the cluster 100 may be added to the representative cluster path information.

도 3은 본 발명의 일 실시예에 따른 융합기술 추출을 위한 빅데이터 처리 방법에서, 클러스터들간의 연결과정을 나타낸 일 예를 도시한 도면이다.3 is a diagram illustrating an example of a connection process between clusters in a big data processing method for extracting a fusion technique according to an embodiment of the present invention.

도 3에 도시된, 클러스터 경로-A(209)는 DOC3(205) 및 DOC4(207)에 포함된 1, 2 및 3의 객체를 포함하는 경로이다. 다만 DOC2(203)의 한 클러스터도 1, 2 및 3의 객체를 포함하지만 클러스터 경로는 연결 순서를 갖기 때문에 클러스터 경로-A(209)의 연결 순서인 (1-2-3)과 DOC2(203)의 경로의 연결순서(1-3-2)는 서로 상이하기 때문에 DOC2(203)는 클러스터 경로-A를 포함하는 클러스터를 포함하고 있지 않다.Cluster path-A 209 shown in FIG. 3 is a path including objects 1, 2, and 3 included in DOC 3 205 and DOC 4 207. However, since one cluster of the DOC2 203 includes objects of 1, 2, and 3, the cluster paths have the connection order, and therefore the connection order of the cluster path-A 209 and the DOC2 203, The DOC2 203 does not include the cluster including the cluster path-A.

다만, DOC1(201), DOC2(203) 및 DOC3(205)은 모두 동일한 객체(4, 5 및 6)와 동일한 객체의 연결 순서(4-5-6)를 포함하고 있기 때문에 모두 클러스터 경로-B(211)를 포함하는 클러스터를 갖는다.However, since DOC1 201, DOC2 203 and DOC3 205 all contain the same object connection sequence (4-5-6) as objects 4, 5, and 6, 0.0 > 211 < / RTI >

클러스터 경로-A(209)는 1,2 및 3의 객체를 포함하고, 클러스터 경로-B(211)는 4, 5 및 6의 객체를 포함하고 있어 서로 상이하지만, DOC3(205)에서는 클러스터 경로-A(209) 및 클러스터 경로-B(211)를 모두 포함하고 있기 때문에, DOC3(205)의 1 내지 6 데이터 연결정보를 이용하여 클러스터 경로-A(209)와 클러스터 경로-B(211)를 연결할 수 있다. 도 1을 참조하면, S109 단계에서 기설정된 클러스터에 신규 클러스터를 연결하는 과정에서 이용될 수 있다.The cluster path-A 209 includes objects of 1, 2, and 3, and the cluster path-B 211 includes objects of 4, 5, and 6, A 209 and the cluster path-B 211, it is possible to connect the cluster path-A 209 and the cluster path-B 211 using the 1 to 6 data connection information of the DOC 3 205 . Referring to FIG. 1, in step S109, a new cluster may be connected to a predetermined cluster.

비록 본 명세서에서의 설명은 예시적인 몇 가지 양상으로 나타났지만, 다양한 수정이나 변경이 후술되는 특허청구범위에 의해 정의되는 범주로부터 이루어질 수 있으며, 본 발명의 기술적인 보호범위는 다음의 특허청구범위에 의하여 정해져야 할 것이다.Although the description herein has been made in some illustrative aspects, various modifications and variations can be made from the categories defined by the following claims, and the technical scope of the invention is defined in the following claims It should be decided by.

100 : 클러스터
101 : A 경로
102 : B 경로
103 : C 경로
104A 내지 109A : A 경로에 포함된 객체들
201 : DOC 1
203 : DOC 2
205 : DOC 3
207 : DOC 4
209 : 클러스터 경로-A
211 : 클러스터 경로-B
100: Cluster
101: Path A
102: Path B
103: C path
104A to 109A: Objects included in path A
201: DOC 1
203: DOC 2
205: DOC 3
207: DOC 4
209: Cluster path -A
211: Cluster path-B

Claims (18)

둘 이상의 데이터들의 집합(Set)을 하나 이상의 신규 클러스터(Cluster)로 설정하는 신규 클러스터 설정 단계;
하나 이상의 기설정된 클러스터와 하나 이상의 상기 설정된 신규 클러스터를 비교하는 클러스터 비교 단계;
상기 비교결과에 기반하여 하나 이상의 클러스터의 각 대표 클러스터 경로(Path)를 결정하는 단계; 및
상기 결정된 하나 이상의 클러스터의 대표 클러스터 경로를 포함하는 대표 클러스터 경로 정보를 설정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
Setting a set of two or more pieces of data as one or more new clusters;
A cluster comparison step of comparing one or more preset clusters with one or more of the set new clusters;
Determining each representative cluster path of one or more clusters based on the comparison result; And
And setting representative cluster path information including a representative cluster path of the determined one or more clusters.
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 신규 클러스터 설정 단계는,
기설정된 연결관계를 갖는 데이터들의 릴레이션(Relation)을 참조하여, 상기 둘 이상의 데이터들을 포함하는 경로들을 설정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
The new cluster setting step includes:
And setting a path including the two or more data with reference to a relation of data having a predetermined connection relationship.
Big Data Processing Method for Fusion Technology Extraction.
제2항에 있어서,
상기 설정된 경로들을 구성하는 복수의 링크(Link)들의 유사도에 따라 클러스터를 설정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
3. The method of claim 2,
And establishing a cluster according to a degree of similarity of a plurality of links constituting the set paths.
Big Data Processing Method for Fusion Technology Extraction.
제3항에 있어서,
상기 유사도는, 상기 설정된 경로들에 공통으로 포함된 링크들의 유사한 정도인,
융합기술 추출을 위한 빅데이터 처리 방법.
The method of claim 3,
Wherein the similarity degree is a degree of similarity of links commonly included in the set paths,
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 신규 클러스터 설정 단계는,
하나 이상의 신규 클러스터에서 대표 클러스터 경로를 설정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
The new cluster setting step includes:
And setting a representative cluster path in one or more new clusters.
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 신규 클러스터 설정 단계는,
상기 설정된 신규 클러스터가 복수개인 경우,
각 신규 클러스터의 대표 클러스터 경로를 설정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
The new cluster setting step includes:
When there are a plurality of the new clusters set,
And setting a representative cluster path of each new cluster.
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 클러스터 비교 단계는,
상기 기설정된 클러스터들의 각 대표 클러스터 경로와 상기 설정된 신규 클러스터들의 각 대표 클러스터 경로가 유사한지 여부를 판단하는 단계인,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
The cluster comparison step may include:
Determining whether each representative cluster path of the preset clusters is similar to each representative cluster path of the set new clusters,
Big Data Processing Method for Fusion Technology Extraction.
제7항에 있어서,
상기 유사한지 여부를 판단하는 단계는,
상기 기설정된 클러스터들의 각 대표 클러스터 경로의 표준편차와 상기 설정된 신규 클러스터들의 각 대표 클러스터 경로의 표준편차를 비교하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
8. The method of claim 7,
The step of determining whether or not the similarity is similar,
Comparing the standard deviation of each representative cluster path of the predetermined clusters with the standard deviation of each representative cluster path of the set new clusters,
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 클러스터 비교 단계에서,
적어도 하나의 기설정된 클러스터와 신규 클러스터의 쌍이 유사하다고 판단되는 경우,
상기 유사하다고 판단된 쌍을 이루는 신규 클러스터와 기설정된 클러스터가 동일한 계층구조를 갖는 클러스터인지 판단하는 단계를 더 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
In the cluster comparison step,
If it is determined that the pair of at least one predetermined cluster and the new cluster is similar,
Further comprising the step of determining whether a new cluster and a predetermined cluster constituting a pair determined to be similar are clusters having the same hierarchical structure,
Big Data Processing Method for Fusion Technology Extraction.
제9항에 있어서,
상기 유사하다고 판단된 쌍을 이루는 기설정된 클러스터와 신규 클러스터의 계층구조가 동일하지 않다고 판단된 경우,
상기 유사하다고 판단된 쌍을 이루는 기설정된 클러스터에 신규 클러스터를 연결하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
10. The method of claim 9,
If it is determined that the hierarchical structure of the predetermined cluster and the new cluster forming the pair determined to be similar are not the same,
And connecting a new cluster to a predetermined cluster constituting a pair determined to be similar,
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 대표 클러스터 경로를 결정하는 단계는,
신규 클러스터를 연결한 하나 이상의 연결 클러스터의 각 대표 클러스터 경로를 결정하는 단계인,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
Wherein determining the representative cluster path comprises:
Determining a representative cluster path of one or more connection clusters connecting the new clusters,
Big Data Processing Method for Fusion Technology Extraction.
제11항에 있어서,
상기 하나 이상의 연결 클러스터의 각 대표 클러스터 경로가 결정되면,
상기 하나 이상의 연결 클러스터의 각 대표 클러스터 경로 내의 하나의 객체를 상기 객체가 포함된 대표 클러스터 경로의 카테고리로 지정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
12. The method of claim 11,
If each representative cluster path of the one or more connected clusters is determined,
Designating one object in each representative cluster path of the one or more connected clusters as a category of a representative cluster path including the object;
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 클러스터 비교 단계는,
기설정된 클러스터 전부에 대하여 신규 클러스터들 중 적어도 하나 이상의 클러스터가 유사하지 않은 것으로 판단된 경우,
상기 신규 클러스터들 중 하나 이상의 클러스터가 포함된 집합을 생성하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
The method according to claim 1,
The cluster comparison step may include:
If it is determined that at least one of the new clusters is not similar to all the predetermined clusters,
Generating a set containing one or more clusters of the new clusters.
Big Data Processing Method for Fusion Technology Extraction.
제13항에 있어서,
상기 집합을 생성하는 단계에서,
상기 집합에 포함된 하나 이상의 클러스터는,
하나 이상의 기설정된 클러스터의 계층구조에 포함된 대상 객체에 대응되는 대응 객체를 포함하고,
상기 집합에 포함된 하나 이상의 클러스터에서 상기 대응 객체를 포함하는 경로는 상기 하나 이상의 기설정된 클러스터에서 상기 대상 객체를 포함하는 경로와 유사하지 않다고 판단되는 클러스터인,
융합기술 추출을 위한 빅데이터 처리 방법.
14. The method of claim 13,
In the step of generating the set,
The one or more clusters included in the set may include:
A corresponding object corresponding to a target object included in a hierarchical structure of at least one predetermined cluster,
Wherein the path including the corresponding object in one or more clusters included in the cluster is a cluster judged not similar to a path including the target object in the one or more predetermined cluster,
Big Data Processing Method for Fusion Technology Extraction.
제13항에 있어서,
상기 집합에 포함된 하나 이상의 클러스터의 계층구조를 생성하는 단계; 및
상기 하나 이상의 클러스터의 계층구조의 집합을 생성하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
14. The method of claim 13,
Generating a hierarchy of one or more clusters included in the set; And
And generating a set of hierarchical structures of said one or more clusters.
Big Data Processing Method for Fusion Technology Extraction.
제13항에 있어서,
상기 대표 클러스터 경로를 결정하는 단계는,
상기 집합에 포함된 하나 이상의 클러스터의 각 대표 클러스터 경로를 결정하는 단계인,
융합기술 추출을 위한 빅데이터 처리 방법.
14. The method of claim 13,
Wherein determining the representative cluster path comprises:
Determining each representative cluster path of one or more clusters included in the set,
Big Data Processing Method for Fusion Technology Extraction.
제16항에 있어서,
상기 집합에 포함된 하나 이상의 클러스터의 각 대표 클러스터 경로 내의 하나의 객체를 상기 객체가 포함된 대표 클러스터 경로의 카테고리로 지정하는 단계를 포함하는,
융합기술 추출을 위한 빅데이터 처리 방법.
17. The method of claim 16,
Designating one object in each representative cluster path of one or more clusters included in the set as a category of a representative cluster path including the object;
Big Data Processing Method for Fusion Technology Extraction.
제1항에 있어서,
상기 대표 클러스터 경로 정보를 설정하는 단계는,
상기 대표 클러스터 경로를 결정하는 단계에서 결정된 하나 이상의 클러스터의 대표 클러스터 경로에 대한 정보를 상기 대표 클러스터 경로 정보에 추가하여 상기 대표 클러스터 경로 정보를 설정하는 단계인,
융합기술 추출을 위한 빅데이터 처리 방법.

















The method according to claim 1,
Wherein the step of setting the representative cluster path information comprises:
And setting the representative cluster path information by adding information on a representative cluster path of one or more clusters determined in the step of determining the representative cluster path to the representative cluster path information,
Big Data Processing Method for Fusion Technology Extraction.

















KR1020170041614A 2017-03-31 2017-03-31 A method for big data processing for fusion technology extraction Expired - Fee Related KR102066463B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170041614A KR102066463B1 (en) 2017-03-31 2017-03-31 A method for big data processing for fusion technology extraction

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170041614A KR102066463B1 (en) 2017-03-31 2017-03-31 A method for big data processing for fusion technology extraction

Publications (2)

Publication Number Publication Date
KR20180111126A true KR20180111126A (en) 2018-10-11
KR102066463B1 KR102066463B1 (en) 2020-01-15

Family

ID=63865669

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170041614A Expired - Fee Related KR102066463B1 (en) 2017-03-31 2017-03-31 A method for big data processing for fusion technology extraction

Country Status (1)

Country Link
KR (1) KR102066463B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11727177B2 (en) 2020-11-03 2023-08-15 Taiwan Semiconductor Manufacturing Company, Ltd. Integrated circuit design method, system and computer program product

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090070010A (en) * 2007-12-26 2009-07-01 연세대학교 산학협력단 Specificity situation information extraction device and method
US8145623B1 (en) 2009-05-01 2012-03-27 Google Inc. Query ranking based on query clustering and categorization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090070010A (en) * 2007-12-26 2009-07-01 연세대학교 산학협력단 Specificity situation information extraction device and method
US8145623B1 (en) 2009-05-01 2012-03-27 Google Inc. Query ranking based on query clustering and categorization

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11727177B2 (en) 2020-11-03 2023-08-15 Taiwan Semiconductor Manufacturing Company, Ltd. Integrated circuit design method, system and computer program product
US12314644B2 (en) 2020-11-03 2025-05-27 Taiwan Semiconductor Manufacturing Company, Ltd. Integrated circuit design method, system and computer program product

Also Published As

Publication number Publication date
KR102066463B1 (en) 2020-01-15

Similar Documents

Publication Publication Date Title
US10331706B1 (en) Automatic discovery of new entities using graph reconciliation
US7818303B2 (en) Web graph compression through scalable pattern mining
Zhang et al. Ad hoc table retrieval using semantic similarity
US7861151B2 (en) Web site structure analysis
CN110390006B (en) Question-answer corpus generation method, device and computer readable storage medium
Buttler et al. A fully automated object extraction system for the World Wide Web
KR101707369B1 (en) Construction method and device for event repository
US20080077569A1 (en) Integrated Search Service System and Method
US8352496B2 (en) Entity name matching
Lou et al. Matchminer: Efficient spanning structure mining in large image collections
KR20060017765A (en) Concept network
JP2009104591A (en) Web document clustering method and system
EP1225517A3 (en) System and methods for computer based searching for relevant texts
Granskogen et al. Fake news detection: Network data from social media used to predict fakes
Sotiropoulos et al. Triangle-aware spectral sparsifiers and community detection
CN111339720B (en) Chip information generation method and device based on big data acquisition and computer equipment
CN113918807A (en) Data recommendation method and device, computing equipment and computer-readable storage medium
CN103500181A (en) Internet information analyzing method and device
KR20180111126A (en) A method for big data processing for fusion technology extraction
Hertling et al. Gollum: A gold standard for large scale multi source knowledge graph matching
Yuliana et al. DCADE: divide and conquer alignment with dynamic encoding for full page data extraction
Bjelland et al. Web link analysis: estimating document’s importance from its context
Nguyen-Van et al. Minimizing data transfers for regular reachability queries on distributed graphs
CN106547919B (en) A kind of distributed recommendation method of massive digital information
CN109408713B (en) A Software Requirements Retrieval System Based on User Feedback Information

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

AMND Amendment
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

AMND Amendment
E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

P22-X000 Classification modified

St.27 status event code: A-2-2-P10-P22-nap-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

R15-X000 Change to inventor requested

St.27 status event code: A-3-3-R10-R15-oth-X000

R16-X000 Change to inventor recorded

St.27 status event code: A-3-3-R10-R16-oth-X000

E90F Notification of reason for final refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

AMND Amendment
E13-X000 Pre-grant limitation requested

St.27 status event code: A-2-3-E10-E13-lim-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E601 Decision to refuse application
PE0601 Decision on rejection of patent

St.27 status event code: N-2-6-B10-B15-exm-PE0601

AMND Amendment
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PX0901 Re-examination

St.27 status event code: A-2-3-E10-E12-rex-PX0901

PX0701 Decision of registration after re-examination

St.27 status event code: A-3-4-F10-F13-rex-PX0701

X701 Decision to grant (after re-examination)
GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20250110

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20250110