[go: up one dir, main page]

KR102358357B1 - Estimating apparatus for market size, and control method thereof - Google Patents

Estimating apparatus for market size, and control method thereof Download PDF

Info

Publication number
KR102358357B1
KR102358357B1 KR1020190112446A KR20190112446A KR102358357B1 KR 102358357 B1 KR102358357 B1 KR 102358357B1 KR 1020190112446 A KR1020190112446 A KR 1020190112446A KR 20190112446 A KR20190112446 A KR 20190112446A KR 102358357 B1 KR102358357 B1 KR 102358357B1
Authority
KR
South Korea
Prior art keywords
product
similar
text mining
group
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR1020190112446A
Other languages
Korean (ko)
Other versions
KR20210030808A (en
Inventor
정예림
유형선
김지희
김한국
김은선
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020190112446A priority Critical patent/KR102358357B1/en
Publication of KR20210030808A publication Critical patent/KR20210030808A/en
Application granted granted Critical
Publication of KR102358357B1 publication Critical patent/KR102358357B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하기 위한 시장규모추정장치 및 그 동작 방법에 관한 것이다.The present invention relates to a market size estimating apparatus for estimating a market size for each detailed product group or similar product group including all products produced by a company, and an operating method thereof.

Description

시장규모추정장치 및 그 동작 방법{ESTIMATING APPARATUS FOR MARKET SIZE, AND CONTROL METHOD THEREOF}Apparatus for estimating market size and its operation method

본 발명은 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하기 위한 기술에 관한 것이다.The present invention relates to a technology for estimating the market size for each detailed product group or similar product group including all products produced by a company.

시장규모와 시장 성장률, 시장점유율과 같은 시장정보는 중소기업을 포함한 모든 기업의 사업 수행을 위해 가장 기초적이면서도 중요한 정보 중의 하나이다.Market information such as market size, market growth rate, and market share is one of the most basic and important information for business execution of all companies, including SMEs.

참여하고자 하는 시장의 규모와 형태는 사업의 성공 여부를 결정짓는 핵심적인 요소 중 하나이므로 기업들은 현재 영위 중인 사업이나 신규로 진출하고자 하는 사업에 대해 목표 시장의 규모가 얼마인지, 시장의 연평균 성장률은 얼마인지, 시장의 경쟁 현황이 독과점 상태는 아닌지 등 다양한 시장정보를 종합적으로 분석하여 사업 추진을 위한 여러 가지 의사결정을 내린다.Since the size and shape of the market to participate in is one of the key factors that determine the success of a business, companies need It makes various decisions for business promotion by comprehensively analyzing various market information such as how much it is and whether the market competition is in a monopoly state.

따라서 기업들에게 정확하고 신뢰성 있는 시장정보를 제공하는 것은 매우 중요하다고 할 수 있다.Therefore, it is very important to provide accurate and reliable market information to companies.

특히 기업들은 현재 자신들이 판매하고 있는 제품이나 개발 예정인 신제품 등 특정한 제품에 대한 구체적인 시장규모 및 수요정보를 필요로 하는 데, 이는 국내외 시장 진입 시 가장 일차적으로 동일 또는 유사한 제품 범주 내에서 다른 기업의 제품들과 경쟁하기 때문이다.In particular, companies need specific market size and demand information for specific products, such as products they are currently selling or new products to be developed. because they compete with

그러나 통계청이나 각종 분야별 협회에서 발표하고 있는 기존의 시장통계 또는 시장조사 전문기관에서 발간하는 시장보고서의 경우, 여러 제품군들이 합쳐진 산업 수준의 큰 범위에서 시장규모를 집계하여 제공하는 경우가 대부분이기 때문에 상세한 품목 또는 제품 단위의 시장규모를 파악하기란 쉽지 않다.However, in the case of existing market statistics published by the National Statistical Office or various field associations or market reports published by market research organizations, in most cases, the market size is aggregated and provided in a large range at the industry level in which several product groups are combined. It is not easy to understand the market size of each item or product unit.

일부 제품에 대해 상세한 제품군별 시장정보가 존재하기는 하지만 산업분야 별로 파편적이고 매우 제한적으로 존재하는 실정이며, 그 동안 전(全) 산업분야에 대해 제품 수준의 시장규모를 산출 및 제공하는 것은 어려움이 있었다. Although detailed market information by product group exists for some products, it is fragmentary and very limited by industry field, and it is difficult to calculate and provide product-level market size for all industrial fields. there was.

따라서 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정함으로써 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 시장정보 수요자들에게 보다 구체적이고 실질적인 도움을 주는 것이 요구된다.Therefore, by estimating the market size for each detailed product group or similar product group, including all products produced by the company, it is useful for individuals considering starting a business, startups, venture companies, small and medium-sized enterprises, large enterprises, etc. to various market information consumers. More specific and practical help is required.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명에서 도달하고자 하는 목적은, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하는데 있다.The present invention was created in view of the above circumstances, and an object of the present invention is to estimate the market size for each detailed product group or similar product group including all products produced by the company.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 시장규모추정장치는, 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집부; 상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성부; 및 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출부를 포함하는 것을 특징으로 한다.A market size estimation apparatus according to an embodiment of the present invention for achieving the above object, a collecting unit for collecting product information for each product produced by a company; a generator for generating product relationship information indicating a relationship between each product according to a text analysis result of the product information; and an extraction unit for classifying product groups in which a similar relationship is established between products based on the product relationship information and extracting the product groups into similar product groups.

구체적으로, 상기 시장규모추정장치는, 상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출부를 더 포함할 수 있다.Specifically, the market size estimating device extracts numerical data related to the amount of at least one of production, shipment, and transaction from product information of each product belonging to the similar product group, and collects the extracted numerical data. It may further include a calculator for calculating the market size of the similar product group.

구체적으로, 상기 생성부는, 상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석할 수 있다.Specifically, the generating unit extracts product identification data, which is text information related to the identification of each product, from the product information, and analyzes the product identification data according to a text mining technique corresponding to the text characteristics of the extracted product identification data. can

구체적으로, 상기 제품식별데이터는, 제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.Specifically, the text characteristic for selecting a text mining technique may be determined according to whether the product identification data includes at least one of a product name and a product attribute describing the product.

구체적으로, 상기 생성부는, 상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며, 상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용할 수 있다.Specifically, for the product name, text mining that numerically analyzes the similarity between product names by mapping words having similar meanings to geometrically close vectors, or through correlation analysis on the simultaneous appearance of syllables or words technique is applied, and a text mining technique for classifying groups having similar keywords by extracting keywords from unstructured texts for the product attributes may be applied.

구체적으로, 상기 추출부는, 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있다.Specifically, the extractor may determine at least one of the number of product groups in which the similarity relationship is established and the number of products belonging to the product group by adjusting a similarity reference value for establishing a similarity relationship between products.

구체적으로, 상기 산출부는, 상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출할 수 있다.Specifically, the calculation unit sets a weight for each product in the similar product group according to the degree of similarity with a specific product as a reference in the similar product group, and collects numerical data of each product to which the set weight is reflected from the result of collecting the similarity The market size of product groups can be calculated.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 시장규모추정장치의 동작 방법은, 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집단계; 상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성단계; 및 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, a method of operating a market size estimation apparatus according to an embodiment of the present invention includes: a collecting step of collecting product information for each product produced by a company; a generating step of generating product relationship information indicating a relationship between each product according to a text analysis result of the product information; and an extraction step of classifying a product group in which a similar relationship is established between products based on the product relationship information and extracting it as a similar product group.

보다 구체적으로, 상기 방법은, 상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출단계를 더 포함할 수 있다.More specifically, the method may include extracting numerical data related to the amount of at least one of production, shipment, and transaction from product information of each product belonging to the similar product group, and collecting the extracted numerical data. It may further include a calculation step of calculating the market size of the similar product group.

구체적으로, 상기 생성단계는, 상기 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 상기 제품식별데이터를 분석할 수 있다.Specifically, the generating step extracts product identification data, which is text information related to the identification of each product, from the product information, and analyzes the product identification data according to a text mining technique corresponding to the text characteristics of the extracted product identification data. can do.

구체적으로, 상기 제품식별데이터는, 제품명, 및 제품을 설명하는 제품속성 중 적어도 하나의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.Specifically, the text characteristic for selecting a text mining technique may be determined according to whether the product identification data includes at least one of a product name and a product attribute describing the product.

구체적으로, 상기 생성단계는, 상기 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용하며, 상기 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용할 수 있다.Specifically, in the generating step, for the product name, a text that numerically analyzes the similarity between product names by mapping words with similar meanings to geometrically close vectors, or through correlation analysis on the simultaneous appearance of syllables or words A mining technique is applied, and a text mining technique for classifying groups having similar keywords by extracting keywords from the unstructured text may be applied to the product attributes.

구체적으로, 상기 추출단계는, 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있다.Specifically, in the extracting step, at least one of the number of product groups in which the similarity relationship is established and the number of products belonging to the product group may be determined by adjusting a similarity reference value for establishing a similarity relationship between products.

구체적으로, 상기 산출단계는, 상기 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출할 수 있다.Specifically, in the calculating step, for each product in the similar product group, a weight according to the degree of similarity with a specific product as a reference in the similar product group is set, and the numerical data of each product to which the set weight is reflected is collected from the result of the calculation. The market size of similar product groups can be calculated.

이에, 본 발명의 시장규모추정장치 및 그 동작 방법에서는, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있는 효과가 있다. Accordingly, in the market size estimating apparatus and operating method of the present invention, since the market size is estimated for each detailed product group or similar product group including all products produced by the company, the market size aggregated and calculated in a wide range of the current industry level is calculated It has the effect of estimating the detailed market size at the product level by further segmentation.

또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있는 효과가 있다.In addition, from product data that is not assigned a predefined classification system or standard, it is possible to quickly and easily extract the products that are similar to or included in the specific product of interest to the user, and adjust the category of similar products to the desired level. It has the effect of estimating the market size of each product.

또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있는 효과가 있다.In addition, since it is possible to estimate the market size by product for all products produced by domestic companies across all industrial fields, individuals who are considering starting a business, startups, venture companies, small and medium-sized enterprises, and large enterprises It has the effect of providing broader and more specific customized information to market information consumers including various business entities.

도 1은 본 발명의 일 실시예에 따른 시장 규모 추정 환경을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 시장규모추정장치의 구성을 설명하기 위한 구성도.
도 3은 본 발명의 일 실시예에 따른 워드투벡터 학습 결과를 도시한 예시도.
도 4는 본 발명의 일 실시예에 따른 유사제품군의 추출 결과를 도시한 예시도.
도 5는 본 발명의 일 실시예에 따른 시장규모의 산출 결과를 도시한 예시도.
도 6은 본 발명의 일 실시예에 따른 시장규모추정장치의 동작 방법을 설명하기 위한 순서도.
1 is an exemplary diagram for explaining a market size estimation environment according to an embodiment of the present invention.
2 is a configuration diagram for explaining the configuration of a market size estimation apparatus according to an embodiment of the present invention.
3 is an exemplary diagram illustrating a word-to-vector learning result according to an embodiment of the present invention.
4 is an exemplary diagram illustrating an extraction result of a similar product group according to an embodiment of the present invention.
5 is an exemplary diagram illustrating a result of calculating a market size according to an embodiment of the present invention.
6 is a flowchart for explaining a method of operating a market size estimation apparatus according to an embodiment of the present invention.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예에 대하여 설명하기로 한다.Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 시장 규모 추정 환경을 개략적으로 보여주고 있다.1 schematically shows a market size estimation environment according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 시장 규모 추정 환경은, 연구개발분야에 대한 분석 결과를 가시화된 정보의 형태로 제공하는 시장규모추정장치(100)를 포함할 수 있다.As shown in FIG. 1 , the market size estimation environment according to an embodiment of the present invention may include a market size estimation device 100 that provides analysis results for the R&D field in the form of visualized information. .

시장규모추정장치(100)는 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군별 또는 유사한 제품군별 시장규모를 추정하기 위한 장치를 일컫는 것으로서, 예컨대, 유무선 통신망을 통해 접속 가능한 서버의 형태로 구현되거나, 또는 컴퓨터 시스템(예: 컴퓨터, 모바일 폰) 내 프로그램 형태로도 구현될 수 있다.The market size estimating device 100 refers to a device for estimating the market size for each detailed product group or similar product group including all products produced by the company. For example, it is implemented in the form of a server accessible through a wired/wireless communication network, Alternatively, it may be implemented in the form of a program in a computer system (eg, computer, mobile phone).

이러한 시장규모추정장치(100)가 서버의 형태로 구현되는 경우에는, 예컨대, 웹 서버, 데이터베이스 서버, 프록시 서버 등의 형태로 구현될 수 있으며, 네트워크 부하 분산 메커니즘, 내지 서비스 장치가 인터넷 또는 다른 네트워크 상에서 동작할 수 있도록 하는 다양한 소프트웨어 중 하나 이상이 설치될 수 있으며, 이를 통해 컴퓨터화된 시스템으로도 구현될 수 있다.When the market size estimation apparatus 100 is implemented in the form of a server, for example, it may be implemented in the form of a web server, a database server, a proxy server, etc. One or more of various software to be operated on the system may be installed, and through this, it may also be implemented as a computerized system.

한편, 배경 기술에서 잠시 언급한 바와 같이, 기업들은 국내외 시장 진입 시 가장 일차적으로 동일 또는 유사한 제품 범주 내에서 다른 기업의 제품들과 경쟁하기 때문에 현재 자신들이 판매하고 있는 제품이나 개발 예정인 신제품 등 특정한 제품에 대한 구체적인 시장규모 및 수요정보를 필요로 하고 있다.On the other hand, as mentioned briefly in the background art, when companies enter the domestic and foreign markets, they primarily compete with other companies' products within the same or similar product category. It requires specific market size and demand information for

그러나 기업들이 실질적으로 필요로 하는 제품 수준의 시장규모를 추정하는 것은 다음과 같은 이유로 그 동안 많은 어려움이 있었다.However, there have been many difficulties in estimating the market size of the product level that companies actually need for the following reasons.

시장규모는 일반적으로 기업의 제품 생산량(출하량) 또는 생산액(출하액)을 조사하여 집계함으로써 산출되는 반면 동일한 제품군에 대해서도 기업별로 사용하는 제품의 명칭이 매우 다양하고 통일된 용어로 되어있지 않다.The market size is generally calculated by examining and aggregating a company's product output (shipment volume) or production amount (shipment amount), whereas the names of products used by each company for the same product group are very diverse and do not have a uniform term.

따라서 제 각기 다른 명칭으로 존재하는 기업별 데이터를 동일 또는 유사한 제품군으로 분류하여 시장규모를 산출하기는 쉽지 않은 것이 현실이다.Therefore, the reality is that it is not easy to calculate the market size by classifying the data for each company that exists under different names into the same or similar product groups.

특히 한 국가의 전체 시장규모를 추정해야 할 경우 해당 국가에서 생산되는 모든 제품을 포괄해야 하는데, 자연어로 존재하는 대량의 기업별 제품 정보를 사전에 정의된 분류 기준이나 체계 없이 제품군 단위로 구분하여 시장규모를 산출하기는 매우 어려운 실정이다.In particular, when it is necessary to estimate the total market size of a country, it is necessary to cover all products produced in that country. It is very difficult to calculate the size.

이와 관련하여 통계청이나 각종 산업분야별 협회, 시장조사기관 등에서 발표하는 시장규모 통계를 살펴보면 대부분 품목분류코드나 생산물분류코드와 같이 사전에 정해진 특정한 분류체계를 기준으로 이용하고 있거나 산업범위를 기준으로 산출하여 제공되고 있다.In this regard, if you look at the market size statistics published by the National Statistical Office, associations for various industries, and market research institutes, most of them are using a specific classification system, such as an item classification code or a product classification code, as a standard or calculated based on the industrial scope. is being provided.

그러나 대부분의 분류체계는 상세하지 못하고 범위가 클 뿐만 아니라, 사전에 정의되고 자주 바뀌지 않는 분류체계의 특성상 새롭게 개발된 제품에 대해서는 적합한 분류체계가 존재하지 않는 등 정확한 분류가 어려운 경우가 많다.However, most classification systems are not detailed and have a large scope, and due to the characteristics of a classification system that is defined in advance and does not change frequently, it is often difficult to accurately classify a newly developed product such that there is no suitable classification system.

따라서 개별 제품 데이터가 사전에 정의된 분류체계 중 적합한 항목이 없는 경우 혹은 제품 데이터에 분류체계나 기준이 사전에 부여되지 않은 경우에는 집계가 어려운 한계점이 있다.Therefore, when there is no suitable item among the classification systems defined in advance for individual product data, or when no classification system or standard is assigned to the product data in advance, there is a limitation in that it is difficult to aggregate.

더욱이 동일하거나 유사한 제품의 범위를 어디까지로 볼 것인지에 대해서도 시장규모를 파악하고자 하는 주체마다 모두 기준이 다르기 때문에, 개별 제품 데이터로부터 사전에 부여된 기준이나 체계에 한정되지 않고 사용자가 생각하는 기준에 따라 제품군을 분류하고, 그 범위를 조절할 수 있으며, 보다 상세한 제품 수준에서 시장규모를 산출할 수 있는 방법이 요구된다.Moreover, since each entity that wants to understand the market size has different standards as to how far to view the scope of the same or similar products, it is not limited to the standards or systems given in advance from individual product data, but according to the standards the user thinks. A method that can classify product groups, control the scope, and calculate market size at a more detailed product level is required.

이에, 본 발명의 일 실시예에 따른 시장 규모 추정 환경에서는, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하고자 하는 것이며, 이하에서는 이를 실현하기 위한 시장규모추정장치의 구성에 대해 보다 구체적으로 설명하기로 한다.Accordingly, in the market size estimation environment according to an embodiment of the present invention, it is intended to estimate the market size for each detailed product group or similar product group including all products produced by the company. The configuration will be described in more detail.

도 2는 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 구성을 보여주고 있다.2 shows the configuration of the market size estimation apparatus 100 according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 제품정보를 수집하는 수집부(10), 제품관계정보를 생성하는 생성부(20), 및 유사제품군을 추출하는 추출부(30)를 포함하는 구성을 가질 수 있다.As shown in FIG. 2 , the apparatus 100 for estimating market size according to an embodiment of the present invention includes a collection unit 10 for collecting product information, a generation unit 20 for generating product relationship information, and a group of similar products. It may have a configuration including the extraction unit 30 for extracting.

또한, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성 외에, 시장규모를 산출하는 산출부(40)의 구성을 더 포함할 수 있다.In addition, the apparatus 100 for estimating market size according to an embodiment of the present invention may further include a configuration of the calculator 40 for calculating the market size in addition to the aforementioned configuration.

이상의 수집부(10), 생성부(20), 추출부(30), 및 산출부(40)를 포함하는 시장규모추정장치(100)의 전체 구성 내지는 적어도 일부는 하드웨어 모듈 형태 또는 소프트웨어 모듈 형태로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈이 조합된 형태로도 구현될 수 있다.The entire configuration or at least part of the market size estimation apparatus 100 including the above collection unit 10, generation unit 20, extraction unit 30, and calculation unit 40 is in the form of a hardware module or a software module. It may be implemented or may be implemented in a form in which a hardware module and a software module are combined.

여기서, 소프트웨어 모듈이란, 예컨대, 시장규모추정장치(100) 내에서 연산을 제어하는 프로세서에 의해 실행되는 명령어로 이해될 수 있으며, 이러한 명령어는 시장규모추정장치(100) 내 메모리에 탑재된 형태를 가질 수 있을 것이다.Here, the software module may be understood as, for example, an instruction executed by a processor that controls operations in the market size estimating apparatus 100, and these instructions are installed in a memory in the market size estimating apparatus 100. will be able to have

한편, 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성 이외에, 유무선 통신망 접속을 지원하기 위한 통신 기능을 담당하는 RF 모듈인 통신부(50)의 구성을 더 포함할 수 있다.Meanwhile, the apparatus 100 for estimating market size according to an embodiment of the present invention may further include, in addition to the above-described configuration, a configuration of the communication unit 50 which is an RF module in charge of a communication function for supporting a wired/wireless communication network connection. .

여기서, 통신부(15)는 예컨대, 안테나 시스템, RF 송수신기, 하나 이상의 증폭기, 튜너, 하나 이상의 발진기, 디지털 신호 처리기, 코덱(CODEC) 칩셋, 및 메모리 등을 포함하지만 이에 제한되지는 않으며, 이 기능을 수행하는 공지의 회로는 모두 포함할 수 있다.Here, the communication unit 15 includes, but is not limited to, for example, an antenna system, an RF transceiver, one or more amplifiers, a tuner, one or more oscillators, a digital signal processor, a codec (CODEC) chipset, and a memory, and the like. All known circuits to be performed may be included.

이상 본 발명의 일 실시예에 따른 시장규모추정장치(100)는 전술한 구성을 통해서, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정할 수 있는데, 이하에서는 이를 실현하기 위한 시장규모추정장치(100) 내 각 구성에 대해 보다 구체적으로 설명하기로 한다.As described above, the market size estimating apparatus 100 according to an embodiment of the present invention can estimate the market size for each detailed product group or similar product group including all products produced by the company through the above-described configuration, which is realized below. Each configuration in the market size estimation apparatus 100 for the purpose of this will be described in more detail.

수집부(10)는 기업의 생산 제품 각각에 대해 제품정보를 수집하는 기능을 수행한다.The collection unit 10 performs a function of collecting product information for each product produced by the company.

보다 구체적으로, 수집부(10)는 국내외 존재하는 다수의 데이터베이스로부터 기업의 생산 제품 각각에 대해 제품정보를 수집한다.More specifically, the collection unit 10 collects product information for each product produced by the company from a plurality of databases existing at home and abroad.

여기서, 데이터베이스는, 예컨대, 정부부처 및 공공기관의 공공데이터(통계청의 전국사업체조사, 경제총조사, 광업 및 제조업조사 마이크로데이터, 관세청의 무역액 데이터 등), 국내외에 공표된 시장통계 원시데이터, 민간의 기업신용평가 및 재무 데이터, 개별기업의 공시자료, IR 자료 등을 포함할 수 있다.Here, the database is, for example, public data of government departments and public institutions (National Statistical Office's national business survey, economic census, mining and manufacturing survey microdata, trade amount data of the Korea Customs Service, etc.), market statistics raw data published at home and abroad, private sector of corporate credit rating and financial data, disclosure data of individual companies, IR data, etc. may be included.

이러한 데이터베이스로부터 수집되는 제품정보에는 예컨대, 제품명 및 해당 제품의 생산액(생산량), 출하액(출하량), 및 매출액(매출량) 정보 등이 포함될 수 있다.The product information collected from such a database may include, for example, product name and production amount (production amount), shipment amount (shipment amount), and sales (sales amount) information of the corresponding product.

예를 들어, 통계청에서 조사 및 발표하는 경제총조사 마이크로데이터를 수집하는 경우, 조사 항목 중에서는 사업체 고유번호, 전체 매출액, 사업의 종류, 생산제품명칭, 전체 매출액 중 개별 사업의 매출액 비중, 산업분류부호(품목분류부호), 품목분류명, 제품명, 연간 제품 출하액, 수출액, 연초 재고액, 연말 재고액 등의 데이터를 수집할 수 있으며, 조사 대상 중에서는 전체 조사대상(한국표준산업분류 대분류 기준 T(자가소비), U(외국기관)를 제외한 모든 산업의 사업체(전국 약 340만개))에 대한 데이터를 수집할 수 있다.For example, in the case of collecting micro-data from the economic census surveyed and announced by the National Statistical Office, among the survey items, the business identification number, total sales, business type, product name, proportion of individual business sales in total sales, and industry classification You can collect data such as code (item classification code), item classification name, product name, annual product shipment amount, export amount, inventory amount at the beginning of the year, and inventory amount at the end of the year. ) and U (foreign organizations), data can be collected for businesses in all industries (about 3.4 million nationwide).

생성부(20)는 제품정보의 텍스트 분석한 제품관계정보를 생성하는 기능을 수행한다.The generation unit 20 performs a function of generating product relation information obtained by analyzing the text of product information.

보다 구체적으로, 생성부(20)는 제품정보의 수집이 완료되면, 텍스트 마이닝 기법을 이용한 제품정보의 텍스트 분석 결과에 따라 제품 간의 연관 관계를 나타내는 제품관계정보를 생성한다.More specifically, when the collection of product information is completed, the generating unit 20 generates product relationship information indicating a correlation between products according to a text analysis result of product information using a text mining technique.

여기서, 제품관계정보란, 텍스트 마이닝 기법에 따라 제품정보가 포함하는 텍스트(예: 제품명)에 대해 자연어 처리, 수치화, 벡터화 등을 수행하여 텍스트 간 연관 관계를 도출한 결과로서 이해될 수 있다.Here, the product relationship information may be understood as a result of deriving a relationship between texts by performing natural language processing, digitization, vectorization, etc. on the text (eg, product name) included in the product information according to a text mining technique.

이를 위해, 생성부(20)는 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하여, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법을 선택하여, 선택된 텍스트 마이닝 기법에 따라 제품식별데이터를 분석할 수 있다.To this end, the generator 20 extracts product identification data, which is text information related to the identification of each product, from the product information, selects a text mining technique corresponding to the text characteristics of the extracted product identification data, and selects the selected text mining technique The product identification data can be analyzed accordingly.

여기서, 제품식별데이터는 예컨대, 제품명, 및 제품을 설명하는 제품속성(설명자료) 중 적어도 하나를 포함할 수 있으며, 이러한 제품식별데이터는, 제품명 또는 제품속성의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.Here, the product identification data may include, for example, at least one of a product name and product attributes (explanatory data) that describe the product, and such product identification data may include a text mining technique according to whether the product name or product attribute is included. Text properties for can be determined.

이때, 생성부(20)는 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용할 수 있으며, 또한 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것이 가능하다.At this time, for the product name, the generator 20 maps words having similar meanings to geometrically close vectors or numerically analyzes the similarity between product names through correlation analysis on the simultaneous appearance of syllables or words. Techniques can be applied, and for product attributes, it is possible to extract keywords from unstructured text and apply text mining techniques to classify groups with similar keywords.

여기서, 본 발명의 일 실시예에 따라 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 기법으로는 예컨대, 워드투벡터(Word2Vec) 알고리즘이 적용될 수 있다.Here, as a text mining technique for mapping words having similar meanings to geometrically close vectors according to an embodiment of the present invention, for example, a Word2Vec algorithm may be applied.

워드투벡터(Word2Vec) 알고리즘은 분포 가설에 기반하여 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 워드 임베딩(Word Embedding) 방식으로, 워드투벡터 알고리즘을 적용하여 유사한 의미를 가지는 제품명끼리 가까운 벡터 공간에 위치하도록 벡터화하고, 제품명 간의 의미 관계를 파악할 수 있다.The Word2Vec algorithm is a word embedding method that maps words with similar meanings to geometrically close vectors based on the distribution hypothesis, and applies the word-to-vector algorithm to a close vector space between product names with similar meanings. It can be vectorized to be located in , and the semantic relationship between product names can be identified.

이러한 워드투벡터 알고리즘은 학습데이터의 양이 많을수록 추론의 정확도가 높아지는 특징이 있기 때문에, 학습데이터로서 상기 데이터 수신부에서 수집한 제품 관련 데이터, 한국어 어휘에 대해 사전에 학습된 데이터(pretrained model), 각종 산업·시장분석 보고서, 뉴스 기사, 위키피디아, 백과사전 등의 텍스트 데이터, 소셜 네트워크 서비스의 텍스트 데이터 등 대용량 데이터를 학습 데이터로 포함할 수 있다.Since this word-to-vector algorithm has a characteristic that the accuracy of inference increases as the amount of learning data increases, product-related data collected by the data receiver as learning data, data previously learned for Korean vocabulary (pretrained model), various Large amounts of data such as industry and market analysis reports, news articles, text data from Wikipedia and encyclopedias, and text data from social network services can be included as learning data.

한편, 이와 관련하여 도3에서는 본 발명의 일 실시예에 따른 워드투벡터 학습 결과에 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 적용한 것으로서, 차원을 축소하여 시각화한 결과를 예시적으로 확인할 수 있다.Meanwhile, in relation to this, in FIG. 3 , the t-Stochastic Neighbor Embedding (t-SNE) algorithm is applied to the word-to-vector learning result according to an embodiment of the present invention, and the result of visualization by reducing the dimension can be exemplarily confirmed. have.

이처럼, 본 발명의 일 실시예에서는 다차원 벡터 공간에 매핑한 제품명을 차원축소 알고리즘을 적용하여 2차원으로 축소시킴으로써 유사한 제품명끼리 클러스터링이 되었는지 시각적으로 확인하는 것이 가능하다.As such, in an embodiment of the present invention, it is possible to visually check whether similar product names are clustered by reducing the product names mapped to the multidimensional vector space to two dimensions by applying a dimension reduction algorithm.

또한, 본 발명의 일 실시예에서 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법으로는, 예컨대, 단어 간 유사도 분석이 적용될 수 있다.Also, in an embodiment of the present invention, as a text mining technique for numerically analyzing the similarity between product names through correlation analysis on the simultaneous appearance of syllables or words, for example, similarity analysis between words may be applied.

단어 간 유사도 분석의 경우, 제품명을 음절 단위로 쪼개어 하나의 문서로 만들고, 각 음절을 하나의 단어로 간주하여 문서-단어 행렬을 만들 수 있다.In the case of similarity analysis between words, a product name is divided into syllable units to form a single document, and each syllable is regarded as a single word to create a document-word matrix.

즉, 특정 음절이 등장했을 때 또 다른 특정 음절이 동시에 등장하는 지에 대한 연관관계를 피어슨 상관계수 등을 통해 계산함으로써 특정한 제품명(기준 제품명)과 유사한 제품명을 연관 관계가 높은 순서대로 추출할 수 있는 것이다.In other words, when a specific syllable appears, it is possible to extract product names similar to a specific product name (reference product name) in the order of the highest correlation by calculating the correlation of whether another specific syllable appears at the same time using the Pearson correlation coefficient. .

그리고, 본 발명의 일 실시예에 따라 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법으로는 예컨대, 토픽 모델링(Topic Modeling)이 적용될 수 있다.And, as a text mining technique for classifying groups having similar keywords by extracting keywords from unstructured texts according to an embodiment of the present invention, for example, topic modeling may be applied.

토픽 모델링은 비정형 텍스트에서 주제를 탐색하는 텍스트 마이닝 기법 중 하나로, 제품에 대한 문서로부터 키워드를 추출하고, 공통된 키워드를 가지는 문서를 유사한 제품 그룹으로 분류할 수 있다.Topic modeling is one of the text mining techniques for searching for a topic in unstructured text. It can extract keywords from documents about products and classify documents with common keywords into similar product groups.

결국, 생성부(20)는 제품정보 내 제품식별데이터의 텍스트 특성에 상응하도록 선택되는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 벡터화 등을 수행함으로써, 제품 간 연관 관계를 나타내는 제품관계정보를 생성할 수 있는 것이다.In the end, the generating unit 20 generates product relationship information indicating a relationship between products by performing natural language processing, digitization, vectorization, etc. according to a text mining technique selected to correspond to the text characteristics of product identification data in product information. it can be

이하에서는, 본 발명의 일 실시예에 따라 서로 다른 텍스트 마이닝 기법이 적용되는 예시적인 상황들을 살펴볼 수 있다.Hereinafter, exemplary situations in which different text mining techniques are applied according to an embodiment of the present invention can be viewed.

예를 들어, 제품정보에 일차적인 카테고리 분류 정보나 판매처/거래처 정보가 있는 경우, 또는 제품 속성에 대한 메타데이터가 존재하거나 제품 데이터셋에 일정한 기준에 따른 순서가 존재하는 경우에는 워드투벡터 알고리즘을 적용할 수 있으며, 또한 제품명에 유사한 단어가 많이 사용되었거나, 동일한 어근으로부터의 파생어나 합성어로 이루어진 경우 등 제품명간에 언어적인 특성이 두드러진 경우에는 제품명간 유사도 분석 알고리즘을 적용할 수 있다. For example, if there is primary category classification information or vendor/customer information in product information, or if there is metadata about product properties or an order according to a certain standard in the product data set, the word-to-vector algorithm is used. In addition, the similarity analysis algorithm between product names can be applied when linguistic characteristics are prominent between product names, such as when a lot of similar words are used in product names, or when they are derived from or compound words from the same root.

아울러, 제품명이 제품에 대한 정확한 의미나 개념을 충분히 표현하지 못하는 경우, 또는 제품에 대한 정의를 포함하여 제품의 내용을 보다 상세하게 설명하는 문서 형태의 데이터가 존재하는 경우에는 토픽 모델링 알고리즘을 적용할 수 있다.In addition, if the product name does not sufficiently express the exact meaning or concept of the product, or if there is data in the form of a document that describes the content of the product in more detail, including the product definition, the topic modeling algorithm can be applied. can

한편, 본 발명의 일 실시예에서는 모델의 성능 향상을 위해 다양한 텍스트 마이닝 알고리즘을 선택적으로 결합하거나, 개별 알고리즘의 성능 평가를 통해 특정 알고리즘에 가중치를 주어 결합한 혼성 모델(hybrid model)을 적용하는 것도 가능하다.On the other hand, in an embodiment of the present invention, it is also possible to selectively combine various text mining algorithms to improve model performance, or apply a hybrid model in which a specific algorithm is weighted and combined through performance evaluation of individual algorithms. do.

즉, 동일한 조건에서 단일 알고리즘의 실험 결과를 비교함으로써 성능이 좋은 알고리즘 순으로 더 높은 가중치를 부여하여 혼성 모델을 생성하거나, 하나의 알고리즘으로 얻은 결과를 또 다른 알고리즘에 다시 반영함으로써 반복적으로 모델링을 수행하는 방법 등을 활용할 수 있는 것이다.That is, by comparing the experimental results of a single algorithm under the same conditions, a hybrid model is created by giving higher weight to the algorithm with the best performance, or iteratively modeling is performed by reflecting the results obtained by one algorithm back to another algorithm. How to do it, etc. can be used.

여기서 모델의 성능 평가는 예컨대, 시장규모 정보가 이미 공표되어 존재하는 품목들에 대해, 공표된 수치와 일정한 조건 하에서 각 모델들의 시장규모 추정 결과값 사이의 손실함수(평균제곱오차, 교차엔트로피오차 등) 및 상관계수 등을 비교함으로써 평가할 수 있다.Here, the performance evaluation of the model is, for example, a loss function (mean square error, cross-entropy error, etc. ) and the correlation coefficient, etc. can be evaluated.

예를 들어, 통계청 경제총조사 마이크데이터에 워드투벡터 알고리즘을 적용하여 벡터 공간에 임베딩 하는 경우, 정제되지 않은 제품명(문장 또는 명사 및 서술어의 집합)에 대해서는 먼저 형태소 분석을 통해 명사만을 추출할 수 있다. 그 후 정제된 제품명을 제품 정보에 존재하는 상품 분류 또는 카테고리 정보 등을 활용하여 제품명에 일차적으로 분류 정보를 부여할 수 있을 것이다.For example, if the word-to-vector algorithm is applied to the microphone data of the National Statistical Office's economic census and embedded in the vector space, for an unrefined product name (sentence or a set of nouns and predicates), only nouns can be extracted through morphological analysis first. have. Thereafter, classification information may be primarily assigned to the product name by using the product classification or category information existing in the product information for the refined product name.

즉, 제품에 부여된 한국표준산업분류(KSIC)부호에 따라 동일한 산업분류/품목분류에 포함되는 제품명끼리 하나의 문서에 존재하도록 나열한 후, 워드투벡터 알고리즘을 적용하여 학습시킴으로써 유사한 의미를 가지는 제품명끼리 근접한 벡터 공간에 위치하도록 벡터화 할 수 있다.In other words, according to the Korean Standard Industrial Classification (KSIC) code assigned to a product, product names that are included in the same industrial classification/item classification are listed so that they exist in one document, and then a word-to-vector algorithm is applied to learn product names with similar meanings. It can be vectorized so that it is located in a vector space adjacent to each other.

이때, 동일한 분류에 포함되는 제품명들을 하나의 문서에 나열 시, 정렬 기준을 포함한 사전에 정의한 규칙 부여, 제품의 속성 정보를 활용한 순서 부여 등을 통해 워드투벡터 학습의 성능을 향상시킬 수 있을 것이며, 또한 워드투벡터 알고리즘 파라미터와 조건의 최적화 등을 통해 정확도/신뢰도를 포함한 모델의 전반적인 워드투벡터 학습의 성능을 향상을 기대해 볼 수 있다.At this time, when listing product names included in the same classification in one document, it is possible to improve the performance of word-to-vector learning by giving predefined rules including sorting criteria and order using product attribute information. , it can also be expected to improve the overall word-to-vector learning performance of the model, including the accuracy/reliability, through optimization of word-to-vector algorithm parameters and conditions.

추출부(30)는 유사제품군을 추출하는 기능을 수행한다.The extraction unit 30 performs a function of extracting a similar product group.

보다 구체적으로, 추출부(30)는 제품 간 연관 관계를 나타내는 제품관계정보의 생성이 완료되면, 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하게 된다.More specifically, when the generation of product relationship information indicating the relationship between products is completed, the extraction unit 30 classifies a product group in which a similar relationship between products is established based on the product relationship information and extracts it as a similar product group.

다시 말해, 추출부(30)는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 및 벡터화된 결과인 제품관계정보를 이용하여 제품 간의 유사도가 기준수치 이상인 유사제품군을 추출하고 있는 것이다.In other words, the extraction unit 30 extracts a group of similar products in which the degree of similarity between products is equal to or greater than a reference value by using product relationship information that is a result of natural language processing, digitization, and vectorization according to the text mining technique.

이때, 추출부(30)는 제품관계정보가 벡터화된 결과인 경우, 벡터화된 제품명을 기초로 제품명간 거리(유사도) 계산을 통해 특정한 제품명과의 거리가 미리 설정한 기준값 이내에 존재하는 제품명들을 유사제품군으로 추출할 수 있다.At this time, when the product relationship information is a vectorized result, the extraction unit 30 calculates the distance (similarity) between product names based on the vectorized product name, and selects product names whose distance from a specific product name is within a preset reference value to a similar product group. can be extracted with

여기서, 제품명간 거리는 코사인거리, 유클리드거리, 맨하탄거리 등의 방식으로 계산할 수 있으며, 유사도 판단의 기준이 되는 기준 제품명의 경우, 사용자가 입력한 불특정 제품명, 또는 추출 기준 제품명으로 사용할 데이터가 있을 경우에는 이를 활용할 수 있다.Here, the distance between product names can be calculated using methods such as cosine distance, Euclidean distance, and Manhattan distance. You can take advantage of this.

참고로, 이처럼 기준 제품명으로 사용할 데이터는 텍스트 마이닝 단계에서 분석 대상으로 병합하여 처리되어야 함은 물론이다.For reference, it goes without saying that the data to be used as the reference product name should be merged and processed as an analysis target in the text mining stage.

또한, 추출부(30)는 수치화/벡터화된 제품명을 기초로 기계학습 알고리즘을 이용하여 유사제품군을 추출할 수 있다.Also, the extraction unit 30 may extract a similar product group using a machine learning algorithm based on the digitized/vectorized product name.

이때, 추출부(30)는 예컨대, k-평균 클러스터링(k-means clustering), 계층적 클러스터링(Hierarchical clustering), 밀도 기반 클러스터링(DBSCAN; Density-based spatial clustering of applications with noise) 등을 이용하여 유사한 제품 간의 그룹을 군집화할 수 있다.At this time, the extractor 30 is similar using, for example, k-means clustering, hierarchical clustering, and density-based spatial clustering of applications with noise (DBSCAN). You can cluster groups between products.

예를 들어, 벡터화/좌표화된 제품명 데이터의 분포 형태가 구형이면서 유사한 형태를 보이는 경우(분산이 비슷할 경우) 또는 제품 데이터의 용량이 대용량일 경우에는 k-평균 클러스터링 알고리즘을 적용할 수 있으며, 각 제품 데이터의 좌표상 분포 밀도에 차이가 뚜렷한 경우, 다른 데이터들과 멀리 떨어져 있는 이상치가 특정 비율 이상으로 많이 존재하는 경우에는 밀도 기반 클러스터링 알고리즘을 적용할 수 있는 것이다.For example, if the vectorized/coordinated product name data has a spherical and similar shape (if the variance is similar) or if the product data has a large capacity, the k-means clustering algorithm can be applied. If there is a clear difference in the distribution density on the coordinates of the product data, or if there are many outliers far from other data at a certain ratio or more, the density-based clustering algorithm can be applied.

만약, 단어간 유사도 분석을 통해 제품명간 유사도를 측정한 경우라면 가장 하위 단계에서 유사도가 높은 제품명끼리 군집을 형성하고, 다시 유사도가 높은 군집 쌍끼리 그룹화 하여 하위 계층에서부터 상위 계층으로 순차적으로 군집화 하고자 할 경우에는 계층적 클러스터링 알고리즘을 적용할 수 있다.If the similarity between product names is measured through word-to-word similarity analysis, you want to form a cluster with product names with high similarity at the lowest stage, then group pairs of clusters with high similarity again to sequentially cluster from the lower layer to the upper layer. In this case, a hierarchical clustering algorithm can be applied.

여기서의 클러스터링 알고리즘은 사전 레이블(label) 없이 주어진 데이터들을 가장 잘 설명하는 클러스터를 찾아서 유사한 데이터를 하나의 그룹으로 군집화 하는 비지도(unsupervised) 방식의 기계학습 알고리즘일 수 있으며, 이 경우 군집된 제품명 중 가장 출현 빈도가 높은 제품명을 대표 제품명으로 선택하거나 사람이 직접 선택하는 등의 방법에 따라 해당 군집의 대표적 제품명을 선정할 수 있다.The clustering algorithm here may be an unsupervised machine learning algorithm that finds the cluster that best describes the given data without a prior label and clusters similar data into one group. The representative product name of the group may be selected according to a method such as selecting the product name with the highest frequency of appearance as the representative product name or selecting the product directly by a person.

반대로 제품명 분류에 사용할 사전 레이블(label)이 있는 경우라면, 최근접 이웃 알고리즘(k-NN; k-Nearest Neighbor), 로지스틱 회귀(logistic regression), 서포트 벡터 머신(SVM; Support Vector Machine), 랜덤 포레스트(Random forest) 등의 지도(supervised) 방식의 기계학습 알고리즘을 이용하여 사전 레이블에 따라 제품군을 분류할 수 있다. Conversely, if there is a prior label to be used for product name classification, nearest neighbor algorithm (k-NN; k-Nearest Neighbor), logistic regression, Support Vector Machine (SVM), random forest A supervised machine learning algorithm such as (Random forest) can be used to classify product groups according to prior labels.

한편, 추출부(30)는 이처럼 유사제품군 추출함에 있어서, 미리 설정한 유사도 기준수치를 조절함으로써 원하는 수준으로 유사 제품의 범위를 조절할 수 있다.Meanwhile, in extracting the group of similar products, the extraction unit 30 may adjust the range of similar products to a desired level by adjusting a preset similarity reference value.

다시 말해, 추출부(30)는 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하는 방식을 통해 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있는 것이다.In other words, the extraction unit 30 may determine at least one of the number of product groups in which a similar relationship is established and the number of products belonging to the product group through a method of adjusting a similarity reference value for establishing a similar relationship between products. .

예를 들어, 특정한 유사도 기준수치를 적용하여 추출된 제품명을 확인하고, 사용자가 이에 만족할 시 후속 단계를 진행하며, 만족하지 않을 시 유사도 기준수치를 증가 또는 감소시킴으로써 입력한 제품명에 대한 유사 제품명을 다시 추출할 수 있는 것이다.For example, the extracted product name is checked by applying a specific similarity standard value, and if the user is satisfied with this, the next step is carried out. that can be extracted.

만약, 기계학습 알고리즘을 적용한 경우에는 군집 개수를 직접 선택하여 조절하거나, 각 알고리즘 함수에서 찾아준 최적의 군집 개수를 적용하거나, 각 알고리즘별 모델의 성능 평가(정확도, 오류율, 민감도, 특이도, 정밀도, 재현율 등) 결과를 반영함으로써 유사 제품의 범주를 조절하는 것이 가능하다. If a machine learning algorithm is applied, select and adjust the number of clusters directly, apply the optimal number of clusters found by each algorithm function, or evaluate the performance of each algorithm model (accuracy, error rate, sensitivity, specificity, precision) , recall, etc.), it is possible to adjust the category of similar products by reflecting the results.

이와 관련하여, 도 4에는 제품명간 유사도 계산을 통해 유사제품군을 추출한 경우를 예시적으로 보여주고 있다.In this regard, FIG. 4 exemplarily shows a case in which similar product groups are extracted through similarity calculation between product names.

도 4 (a)에 도시된 바와 같이, 사용자가 입력한 제품명(target_word)이 ‘ABS수지’일 경우, 특정한 코사인 유사도 수치(0.85)를 기준으로 유사제품명(sim_word)을 추출한 결과, ‘ABS수지’, ‘ABS플라스틱’, ‘ABSresin’, ‘난연ABS수지’, ‘내열ABS수지’, ‘강화ABS수지’, ‘열가소성수지’, ‘열가소성플라스틱’ 등이 유사한 제품명으로 추출되며, 이들의 코사인 유사도 수치(cos_sim)와 추출된 제품에 대한 출하액 합산 결과를 확인할 수 있다(sum_sales).As shown in Fig. 4 (a), when the product name (target_word) input by the user is 'ABS resin', the similar product name (sim_word) is extracted based on a specific cosine similarity value (0.85). As a result, 'ABS resin' , 'ABS plastic', 'ABSresin', 'flame-retardant ABS resin', 'heat-resistant ABS resin', 'reinforced ABS resin', 'thermoplastic resin', 'thermoplastic plastic', etc. are extracted with similar product names, and their cosine similarity value You can check (cos_sim) and the result of the sum of shipments for the extracted product (sum_sales).

이에 대해, 유사 제품의 범주를 확대/축소하고 싶을 경우, 코사인 유사도 기준수치를 하향/상향시킬 수 있으며, 0.9로 조절 시 도 4 (b)에서와 같이 추출된 제품명(sim_word) 및 출하액 산출 결과(sum_sales)가 변경될 수 있다.On the other hand, if you want to expand/reduce the category of similar products, you can down/up the cosine similarity standard value, and when you adjust it to 0.9, the extracted product name (sim_word) and shipment amount calculation result ( sum_sales) can be changed.

산출부(40)는 유사제품군의 시장규모를 산출하는 기능을 수행한다.The calculation unit 40 performs a function of calculating the market size of the similar product group.

보다 구체적으로, 산출부(40)는 유사제품군이 추출되면, 유사제품군에 속하는 각 제품의 제품정보로부터 제품의 생산, 출하, 및 매출 중 적어도 하나의 금액과 관련된 수치데이터를 추출하고, 추출된 수치데이터를 취합하는 방식을 통해 유사제품군의 시장규모를 산출하게 된다.More specifically, when a similar product group is extracted, the calculation unit 40 extracts numerical data related to the amount of at least one of production, shipment, and sales of products from product information of each product belonging to the similar product group, and the extracted numerical values The market size of similar product groups is calculated through the method of collecting data.

즉, 산출부(40)는 유사제품군에 속하는 각 제품의 제품정보로부터 생산량(생산액), 출하량(출하액), 매출량(매출액)을 추출하여, 추출된 수치데이터를 합산함으로써, 생산규모, 출하규모, 또는 매출규모 등에 해당하는 시장규모를 산출할 수 있는 것이다.That is, the calculation unit 40 extracts the production amount (production amount), shipment amount (shipment amount), and sales amount (sales amount) from product information of each product belonging to the similar product group, and sums the extracted numerical data, so that production scale, shipment scale, Alternatively, it is possible to calculate the market size corresponding to the sales volume and the like.

한편, 본 발명의 일 실시예에 따르면, 일정한 유사도 수치를 기준으로 추출된 유사제품군과 동일한 제품군에 대한 시장규모 정보가 이미 공표되어 존재하는 경우, 산출된 시장규모 수치와 공표된 시장규모 수치를 비교하고, 수치 비교 결과 사전에 이상치로 정의한 기준 비율 이상으로 차이가 있을 경우, 공표된 시장규모 수치로 대체하는 작업을 수행할 수 있다.Meanwhile, according to an embodiment of the present invention, when market size information for the same product group and similar product group extracted based on a certain similarity value has already been published and exists, the calculated market size value and the published market size value are compared And, if there is a difference by more than the standard ratio defined as an outlier as a result of the numerical comparison, it can be replaced with the published market size figure.

또한 보다 정확한 시장규모의 추정을 위해 다양한 방식의 보정 작업을 추가로 수행할 수 있는데, 유사도 수치를 기준으로 유사도가 낮은 제품일수록 생산액/출하액/매출액에 가중치를 작게 부여하는 방식으로 보정 작업을 수행하여 시장규모를 산출할 수 있다.In addition, various methods of correction can be additionally performed for more accurate estimation of the market size. The market size can be calculated.

다시 말해, 산출부(40)는 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 보다 정확한 시장규모를 산출할 수 있는 것이다.In other words, the calculation unit 40 sets a weight for each product in the similar product group according to the degree of similarity with a specific product as a reference in the similar product group, and calculates numerical data of each product to which the set weight is reflected. It is possible to calculate the exact market size.

뿐만 아니라, 본 발명의 일 실시예에서는 시장정보의 일환으로서, 제품명에 연결된 기업에 대한 정보를 기초로 해당 제품 시장에 참여하고 있는 경쟁기업의 수 및 경쟁기업 정보를 산출할 수 있으며, 기업별 출하액을 토대로 해당 제품 시장의 기업별 시장점유율과 시장집중도, 그리고 연도별 데이터를 연계하여 시장규모 수치의 변화량을 계산함으로써 시장 성장률을 산출할 수 있으며, 나아가 동일한 제품군에 대해 무역액(수출/수입액)과의 연계를 통해 수요 기반의 내수 시장규모를 추정하고, 시계열 분석을 통해 미래 시장규모를 예측할 수 있다. In addition, in one embodiment of the present invention, as part of the market information, the number of competitors participating in the product market and information on the competitor companies can be calculated based on the information on the company linked to the product name, and the shipment amount by company Based on this, the market growth rate can be calculated by calculating the change in the market size figure by linking the market share and market concentration of each company in the product market, and the data by year. It is possible to estimate the demand-based domestic market size through linkage, and to predict the future market size through time series analysis.

이와 관련하여, 도 5에는 본 발명의 일 실시예에 따른 시장규모의 산출 결과를 예시적으로 보여주고 있다.In this regard, FIG. 5 exemplarily shows the calculation result of the market size according to an embodiment of the present invention.

도 5에 도시된 바와 같이, 입력한 제품명이‘강화플라스틱제 기계류 구성부품’일 경우, 특정한 유사도 기준수치를 적용하여 유사한 제품명을 추출한 결과, ‘강화플라스틱 기계 부품’, ‘강화 플라스틱 부품’, ‘냉장고용 강화플라스틱 부품’, ‘세탁기용 강화플라스틱 부품’, ‘에어컨용 강화플라스틱 부품’, ‘청소기용 강화플라스틱 부품’, ‘가습기용 강화플라스틱 부품’이 추출된 것을 확인할 수 있으며, 이들의 개별 출하액 정보를 연산하여 ‘강화플라스틱제 기계류 구성부품’에 대한 국내 기업의 출하규모를 추정할 수 있다. 또한 ‘강화플라스틱제 기계류 구성부품’제품을 출하하는 국내 기업의 수를 산출할 수 있으며, 연도별 데이터를 연계하여 일정 기간 동안의 ‘강화플라스틱제 기계류 구성부품’ 시장의 연평균 성장률을 산출할 수 있음을 확인할 수 있다.As shown in FIG. 5 , when the input product name is 'reinforced plastic machinery component parts', as a result of extracting similar product names by applying a specific similarity reference value, 'reinforced plastic machine parts', 'reinforced plastic parts', ' It can be seen that 'reinforced plastic parts for refrigerators', 'reinforced plastic parts for washing machines', 'reinforced plastic parts for air conditioners', 'reinforced plastic parts for vacuum cleaners', and 'reinforced plastic parts for humidifiers' were extracted, and their individual shipments By calculating the information, it is possible to estimate the shipment scale of domestic companies for 'reinforced plastic machinery components'. In addition, the number of domestic companies that ship 'reinforced plastic machinery components' products can be calculated, and the annual average growth rate of the 'reinforced plastic machinery components' market can be calculated by linking the data by year. can confirm.

이상에서 살펴본 바와 같이 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 구성에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있다. 또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있다. 또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있다.As described above, according to the configuration of the market size estimation apparatus 100 according to an embodiment of the present invention, since the market size is estimated for each detailed product group or similar product group including all products produced by the company, the current industrial level It is possible to estimate the detailed market size at the product level by further subdividing the aggregated and calculated market size into broad categories. In addition, from product data that is not assigned a predefined classification system or standard, it is possible to quickly and easily extract the products that are similar to or included in the specific product of interest to the user, and adjust the category of similar products to the desired level. The market size of each product can be estimated. In addition, since it is possible to estimate the market size by product for all products produced by domestic companies across all industrial fields, individuals who are considering starting a business, startups, venture companies, small and medium-sized enterprises, and large enterprises It is possible to provide broader and more specific customized information to market information consumers including various business entities.

이하에서는, 도 6을 참조하여 시장규모추정장치(100)의 동작 방법에 대한 설명을 이어 가기로 한다.Hereinafter, a description of the operation method of the market size estimation apparatus 100 will be continued with reference to FIG. 6 .

먼저, 수집부(10)는 국내외 존재하는 다수의 데이터베이스로부터 기업의 생산 제품 각각에 대해 제품정보를 수집한다(S10).First, the collection unit 10 collects product information for each product produced by the company from a plurality of databases existing at home and abroad (S10).

이때, 수집부(10)는 예컨대, 정부부처 및 공공기관의 공공데이터(통계청의 전국사업체조사, 경제총조사, 광업 및 제조업조사 마이크로데이터, 관세청의 무역액 데이터 등), 국내외에 공표된 시장통계 원시데이터, 민간의 기업신용평가 및 재무 데이터, 개별기업의 공시자료, IR 자료 등을 포함하는 데이터베이스로부터 예컨대, 제품명, 해당 제품의 생산액(생산량), 출하액(출하량), 매출액(매출량) 정보 등을 포함하는 제품정보를 수집할 수 있다.At this time, the collection unit 10, for example, public data of government ministries and public institutions (National Statistical Office National Business Survey, Economic Census, Mining and Manufacturing Survey Microdata, Trade Amount Data of the Korea Customs Service, etc.), raw market statistics published at home and abroad Data, private corporate credit rating and financial data, disclosure data of individual companies, IR data, etc. from a database including, for example, product name, production amount (production), shipment amount (shipment amount), sales (sales) information, etc. product information can be collected.

그리고 나서, 생성부(20)는 제품정보의 수집이 완료되면, 텍스트 마이닝 기법을 적용한 제품정보의 텍스트 분석 결과에 따라 제품 간의 연관 관계를 나타내는 제품관계정보를 생성한다(S20-S50).Then, when the collection of product information is completed, the generation unit 20 generates product relationship information indicating a correlation between products according to a text analysis result of product information to which a text mining technique is applied (S20-S50).

여기서, 제품관계정보란, 텍스트 마이닝 기법에 따라 제품정보가 포함하는 텍스트(예: 제품명)에 대해 자연어 처리, 수치화, 벡터화 등을 수행하여 텍스트 간 연관 관계를 도출한 결과로서 이해될 수 있다.Here, the product relationship information may be understood as a result of deriving a relationship between texts by performing natural language processing, digitization, vectorization, etc. on the text (eg, product name) included in the product information according to a text mining technique.

이를 위해, 생성부(20)는 제품정보로부터 각 제품의 식별과 관련된 텍스트 정보인 제품식별데이터를 추출하고, 추출된 제품식별데이터의 텍스트 특성에 상응하는 텍스트 마이닝 기법에 따라 제품식별데이터를 분석할 수 있다.To this end, the generator 20 extracts product identification data, which is text information related to the identification of each product, from the product information, and analyzes the product identification data according to a text mining technique corresponding to the text characteristics of the extracted product identification data. can

여기서, 제품식별데이터는 예컨대, 제품명, 및 제품을 설명하는 제품속성(제품 설명) 중 적어도 하나를 포함할 수 있으며, 이러한 제품식별데이터는, 제품명 또는 제품속성의 포함 여부에 따라 텍스트 마이닝 기법의 선택을 위한 텍스트 특성이 결정될 수 있다.Here, the product identification data may include, for example, at least one of a product name and product attributes (product description) describing the product, and such product identification data may include a text mining technique according to whether the product name or product attribute is included. Text properties for can be determined.

이때, 생성부(20)는 제품명에 대해, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하거나, 또는 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법을 적용할 수 있으며, 또한 제품속성에 대해서는 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법을 적용하는 것이 가능하다.At this time, for the product name, the generator 20 maps words having similar meanings to geometrically close vectors or numerically analyzes the similarity between product names through correlation analysis on the simultaneous appearance of syllables or words. Techniques can be applied, and for product attributes, it is possible to extract keywords from unstructured text and apply text mining techniques to classify groups with similar keywords.

여기서, 본 발명의 일 실시예에 따라 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 기법으로는 예컨대, 워드투벡터(Word2Vec) 알고리즘이 적용될 수 있다.Here, as a text mining technique for mapping words having similar meanings to geometrically close vectors according to an embodiment of the present invention, for example, a Word2Vec algorithm may be applied.

워드투벡터(Word2Vec) 알고리즘은 분포 가설에 기반하여 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 워드 임베딩(Word Embedding) 방식으로, 워드투벡터 알고리즘을 적용하여 유사한 의미를 가지는 제품명끼리 가까운 벡터 공간에 위치하도록 벡터화하고, 제품명 간의 의미 관계를 파악할 수 있다.The Word2Vec algorithm is a word embedding method that maps words with similar meanings to geometrically close vectors based on the distribution hypothesis, and applies the word-to-vector algorithm to a close vector space between product names with similar meanings. It can be vectorized to be located in , and the semantic relationship between product names can be identified.

이러한 워드투벡터 알고리즘은 학습데이터의 양이 많을수록 추론의 정확도가 높아지는 특징이 있기 때문에, 학습데이터로서 상기 데이터 수신부에서 수집한 제품 관련 데이터, 한국어 어휘에 대해 사전에 학습된 데이터(pretrained model), 각종 산업·시장분석 보고서, 뉴스 기사, 위키피디아, 백과사전 등의 텍스트 데이터, 소셜 네트워크 서비스의 텍스트 데이터 등 대용량 데이터를 학습 데이터로 포함할 수 있다.Since this word-to-vector algorithm has a characteristic that the accuracy of inference increases as the amount of learning data increases, product-related data collected by the data receiver as learning data, data previously learned for Korean vocabulary (pretrained model), various Large amounts of data such as industry and market analysis reports, news articles, text data from Wikipedia and encyclopedias, and text data from social network services can be included as learning data.

한편, 이와 관련하여 도2에서는 본 발명의 일 실시예에 따른 워드투벡터 학습 결과에 t-SNE(t-Stochastic Neighbor Embedding) 알고리즘을 적용한 것으로서, 차원을 축소하여 시각화한 결과를 예시적으로 확인할 수 있다.Meanwhile, in relation to this, in FIG. 2 , the t-Stochastic Neighbor Embedding (t-SNE) algorithm is applied to the word-to-vector learning result according to an embodiment of the present invention, and the result of visualization by reducing the dimension can be exemplarily confirmed. have.

이처럼, 본 발명의 일 실시예에서는 다차원 벡터 공간에 매핑한 제품명을 차원축소 알고리즘을 적용하여 2차원으로 축소시킴으로써 유사한 제품명끼리 클러스터링이 되었는지 시각적으로 확인하는 것이 가능하다.As such, in an embodiment of the present invention, it is possible to visually check whether similar product names are clustered by reducing the product names mapped to the multidimensional vector space to two dimensions by applying a dimension reduction algorithm.

또한, 본 발명의 일 실시예에서 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 기법으로는, 예컨대, 단어 간 유사도 분석이 적용될 수 있다.Also, in an embodiment of the present invention, as a text mining technique for numerically analyzing the similarity between product names through correlation analysis on the simultaneous appearance of syllables or words, for example, similarity analysis between words may be applied.

단어 간 유사도 분석의 경우, 제품명을 음절 단위로 쪼개어 하나의 문서로 만들고, 각 음절을 하나의 단어로 간주하여 문서-단어 행렬을 만들 수 있다.In the case of similarity analysis between words, a product name is divided into syllable units to form a single document, and each syllable is regarded as a single word to create a document-word matrix.

즉, 특정 음절이 등장했을 때 또 다른 특정 음절이 동시에 등장하는 지에 대한 연관관계를 피어슨 상관계수 등을 통해 계산함으로써 특정한 제품명(기준 제품명)과 유사한 제품명을 연관 관계가 높은 순서대로 추출할 수 있는 것이다.In other words, when a specific syllable appears, it is possible to extract product names similar to a specific product name (reference product name) in the order of the highest correlation by calculating the correlation of whether another specific syllable appears at the same time using the Pearson correlation coefficient. .

그리고, 본 발명의 일 실시예에 따라 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 기법으로는 예컨대, 토픽 모델링(Topic Modeling)이 적용될 수 있다.And, as a text mining technique for classifying groups having similar keywords by extracting keywords from unstructured texts according to an embodiment of the present invention, for example, topic modeling may be applied.

토픽 모델링은 비정형 텍스트에서 주제를 탐색하는 텍스트 마이닝 기법 중 하나로, 제품에 대한 문서로부터 키워드를 추출하고, 공통된 키워드를 가지는 문서를 유사한 제품 그룹으로 분류할 수 있다.Topic modeling is one of the text mining techniques for searching for a topic in unstructured text. It can extract keywords from documents about products and classify documents with common keywords into similar product groups.

결국, 생성부(20)는 제품정보 내 제품식별데이터의 텍스트 특성에 상응하도록 선택되는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 벡터화 등을 수행함으로써, 제품 간 연관 관계를 나타내는 제품관계정보를 생성할 수 있는 것이다.In the end, the generating unit 20 generates product relationship information indicating a relationship between products by performing natural language processing, digitization, vectorization, etc. according to a text mining technique selected to correspond to the text characteristics of product identification data in product information. it can be

나아가, 추출부(30)는 제품 간 연관 관계를 나타내는 제품관계정보의 생성이 완료되면, 상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출한다(S60).Furthermore, when the generation of product relationship information indicating the relationship between products is completed, the extraction unit 30 categorizes product groups in which a similar relationship between products is established based on the product relationship information and extracts it as a similar product group (S60).

다시 말해, 추출부(30)는 텍스트 마이닝 기법에 따라 자연어 처리, 수치화, 및 벡터화된 결과인 제품관계정보를 이용하여 제품 간의 유사도가 기준수치 이상인 유사제품군을 추출하고 있는 것이다.In other words, the extraction unit 30 extracts a group of similar products in which the degree of similarity between products is equal to or greater than a reference value by using product relationship information that is a result of natural language processing, digitization, and vectorization according to the text mining technique.

이때, 추출부(30)는 벡터화된 제품명을 기초로 제품명간 거리(유사도) 계산을 통해 특정한 제품명과의 거리가 미리 설정한 기준값 이내에 존재하는 제품명들을 유사제품군으로 추출할 수 있다.In this case, the extraction unit 30 may extract product names having a distance from a specific product name within a preset reference value as a similar product group by calculating a distance (similarity) between product names based on the vectorized product name.

여기서, 제품명간 거리는 코사인거리, 유클리드거리, 맨하탄거리 등의 방식으로 계산할 수 있으며, 유사도 판단의 기준이 되는 기준 제품명의 경우, 사용자가 입력한 불특정 제품명, 또는 추출 기준 제품명으로 사용할 데이터가 있을 경우에는 이를 활용할 수 있다.Here, the distance between product names can be calculated using methods such as cosine distance, Euclidean distance, and Manhattan distance. You can take advantage of this.

참고로, 이처럼 기준 제품명으로 사용할 데이터는 텍스트 마이닝 단계에서 분석 대상으로 병합하여 처리되어야 함은 물론이다.For reference, it goes without saying that the data to be used as the reference product name should be merged and processed as an analysis target in the text mining stage.

또한, 추출부(30)는 수치화/벡터화된 제품명을 기초로 기계학습 알고리즘을 이용하여 유사제품군을 추출할 수 있다.Also, the extraction unit 30 may extract a similar product group using a machine learning algorithm based on the digitized/vectorized product name.

이때, 추출부(30)는 예컨대, k-평균 클러스터링(k-means clustering), 계층적 클러스터링(Hierarchical clustering), 밀도 기반 클러스터링(DBSCAN; Density-based spatial clustering of applications with noise) 등을 이용하여 유사한 제품 간의 그룹을 군집화할 수 있다.At this time, the extractor 30 is similar using, for example, k-means clustering, hierarchical clustering, and density-based spatial clustering of applications with noise (DBSCAN). You can cluster groups between products.

예를 들어, 벡터화/좌표화된 제품명 데이터의 분포 형태가 구형이면서 유사한 형태를 보이는 경우(분산이 비슷할 경우) 또는 제품 데이터의 용량이 대용량일 경우에는 k-평균 클러스터링 알고리즘을 적용할 수 있으며, 각 제품 데이터의 좌표상 분포 밀도에 차이가 뚜렷한 경우, 다른 데이터들과 멀리 떨어져 있는 이상치가 특정 비율 이상으로 많이 존재하는 경우에는 밀도 기반 클러스터링 알고리즘을 적용할 수 있는 것이다.For example, if the vectorized/coordinated product name data has a spherical and similar shape (if the variance is similar) or if the product data has a large capacity, the k-means clustering algorithm can be applied. If there is a clear difference in the distribution density on the coordinates of the product data, or if there are many outliers far from other data at a certain ratio or more, the density-based clustering algorithm can be applied.

만약, 단어간 유사도 분석을 통해 제품명간 유사도를 측정한 경우라면 가장 하위 단계에서 유사도가 높은 제품명끼리 군집을 형성하고, 다시 유사도가 높은 군집쌍끼리 그룹화 하여 하위 계층에서부터 상위 계층으로 순차적으로 군집화 하고자 할 경우에는 계층적 클러스터링 알고리즘을 적용할 수 있다.If the similarity between product names is measured through word-to-word similarity analysis, you want to form a cluster with product names with high similarity at the lowest stage, and group pairs with high similarity again to sequentially cluster from the lower layer to the upper layer. In this case, a hierarchical clustering algorithm can be applied.

한편, 추출부(30)는 이처럼 유사제품군 추출함에 있어서, 미리 설정한 유사도 기준수치를 조절함으로써 원하는 수준으로 유사 제품의 범위를 조절할 수 있다(S70-S80).Meanwhile, in extracting the group of similar products, the extraction unit 30 may adjust the range of similar products to a desired level by adjusting a preset similarity reference value (S70-S80).

다시 말해, 추출부(30)는 제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하는 방식을 통해 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정할 수 있는 것이다.In other words, the extraction unit 30 may determine at least one of the number of product groups for which a similar relationship is established and the number of products belonging to the product group through a method of adjusting a similarity reference value for establishing a similarity relationship between products. .

예를 들어, 특정한 유사도 기준수치를 적용하여 추출된 제품명을 확인하고, 사용자가 이에 만족할 시 후속 단계를 진행하며, 만족하지 않을 시 유사도 기준수치를 증가 또는 감소시킴으로써 입력한 제품명에 대한 유사 제품명을 다시 추출할 수 있는 것이다.For example, the extracted product name is checked by applying a specific similarity standard value, and if the user is satisfied with this, the next step is carried out. that can be extracted.

만약, 기계학습 알고리즘을 적용한 경우에는 군집 개수를 직접 선택하여 조절하거나, 각 알고리즘 함수에서 찾아준 최적의 군집 개수를 적용하거나, 각 알고리즘별 모델의 성능 평가(정확도, 오류율, 민감도, 특이도, 정밀도, 재현율 등) 결과를 반영함으로써 유사 제품의 범주를 조절하는 것이 가능하다. If a machine learning algorithm is applied, select and adjust the number of clusters directly, apply the optimal number of clusters found by each algorithm function, or evaluate the performance of each algorithm model (accuracy, error rate, sensitivity, specificity, precision) , recall, etc.), it is possible to adjust the category of similar products by reflecting the results.

이후, 산출부(40)는 유사제품군이 추출되면, 유사제품군에 속하는 각 제품의 제품정보로부터 제품의 생산, 출하, 및 매출 중 적어도 하나의 금액과 관련된 수치데이터를 추출하고, 추출된 수치데이터를 취합하는 방식을 통해 유사제품군의 시장규모를 산출하게 된다(S90-S110).After that, when the similar product group is extracted, the calculator 40 extracts numerical data related to the amount of at least one of production, shipment, and sales from product information of each product belonging to the similar product group, and extracts the extracted numerical data The market size of similar product groups is calculated through the aggregation method (S90-S110).

즉, 산출부(40)는 유사제품군에 속하는 각 제품의 제품정보로부터 생산량(생산액), 출하량(출하액), 매출량(매출액)을 추출하여, 추출된 수치데이터를 합산함으로써, 생산규모, 출하규모, 또는 매출규모 등에 해당하는 시장규모를 산출할 수 있는 것이다.That is, the calculation unit 40 extracts the production amount (production amount), shipment amount (shipment amount), and sales amount (sales amount) from the product information of each product belonging to the similar product group, and sums the extracted numerical data, so that the production scale, shipment scale, Alternatively, it is possible to calculate the market size corresponding to the sales volume and the like.

한편, 본 발명의 일 실시예에 따르면, 유사제품군에 대한 시장규모 정보가 이미 공표되어 존재하는 경우, 일정한 유사도 수치를 기준으로 추출된 시장규모 수치와 공표된 시장규모 수치를 비교하여 사전에 이상치로 정의한 기준 비율 이상으로 차이가 있을 경우, 공표된 시장규모 수치로 대체하는 작업을 수행할 수 있다.On the other hand, according to an embodiment of the present invention, when market size information for a similar product group has already been published and exists, the market size value extracted based on a certain similarity value and the published market size value are compared to be an outlier in advance. If there is a difference by more than the defined standard ratio, it can be replaced with the published market size figure.

또한 보다 정확한 시장규모의 추정을 위해 다양한 방식의 보정 작업을 추가로 수행할 수 있는데, 유사도 수치를 기준으로 유사도가 낮은 제품일수록 생산액/출하액/매출액에 가중치를 작게 부여하는 방식으로 보정 작업을 수행하여 시장규모를 산출할 수 있다.In addition, various methods of correction can be additionally performed for more accurate estimation of the market size. The market size can be calculated.

다시 말해, 산출부(40)는 유사제품군 내 각 제품에 대해 상기 유사제품군에서 기준이 되는 특정 제품과의 유사도에 따른 가중치를 설정하여, 설정된 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 보다 정확한 시장규모를 산출할 수 있는 것이다.In other words, the calculation unit 40 sets a weight for each product in the similar product group according to the degree of similarity with a specific product as a reference in the similar product group, and calculates numerical data of each product to which the set weight is reflected. It is possible to calculate the exact market size.

뿐만 아니라, 본 발명의 일 실시예에서는 시장정보의 일환으로서, 제품명에 연결된 기업에 대한 정보를 기초로 해당 제품 시장에 참여하고 있는 경쟁기업의 수 및 경쟁기업 정보를 산출할 수 있으며, 기업별 출하액을 토대로 해당 제품 시장의 기업별 시장점유율과 시장집중도, 그리고 연도별 데이터를 연계하여 시장규모 수치의 변화량을 계산함으로써 시장 성장률을 산출할 수 있으며, 나아가 동일한 제품군에 대해 무역액(수출/수입액)과의 연계를 통해 수요 기반의 내수 시장규모를 추정하고, 시계열 분석을 통해 미래 시장규모를 예측할 수 있다. In addition, in one embodiment of the present invention, as part of the market information, the number of competitors participating in the product market and information on the competitor companies can be calculated based on the information on the company linked to the product name, and the shipment amount by company Based on this, the market growth rate can be calculated by calculating the change in the market size figure by linking the market share and market concentration of each company in the product market, and the data by year. It is possible to estimate the demand-based domestic market size through linkage, and to predict the future market size through time series analysis.

이상에서 살펴본 바와 같이, 본 발명의 일 실시예에 따른 시장규모추정장치(100)의 동작 방법에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 추정하므로, 현재 산업 수준의 넓은 범주로 집계 및 산출되는 시장규모를 보다 세분화하여 제품 수준의 상세한 시장규모를 추정할 수 있다. 또한 사전에 정의된 분류체계나 기준이 부여되지 않은 제품 데이터로부터도 사용자가 관심 있는 특정 제품과 유사하거나 포함 관계에 있는 제품들이 무엇인지 쉽고 빠르게 추출할 수 있으며, 유사 제품의 범주를 조절함으로써 원하는 수준의 제품별 시장규모를 추정할 수 있다. 또한 전(全) 산업분야에 걸쳐 국내 기업이 생산하는 모든 제품에 대한 제품별 시장규모 추정이 가능하기 때문에, 창업을 고려하고 있는 개인이나 사업 초기의 스타트업, 벤처기업, 중소·중견기업, 대기업 등 다양한 사업 주체를 포함한 시장정보 수요자들에게 보다 폭넓고 구체적인 맞춤형 정보를 제공할 수 있다.As described above, according to the operating method of the market size estimation apparatus 100 according to an embodiment of the present invention, since the market size is estimated for each detailed product group or similar product group including all products produced by the company, the current industry It is possible to estimate the detailed market size at the product level by further subdividing the aggregated and calculated market size into broad categories of levels. In addition, from product data that is not assigned a predefined classification system or standard, it is possible to quickly and easily extract the products that are similar to or included in the specific product of interest to the user, and adjust the category of similar products to the desired level. The market size of each product can be estimated. In addition, since it is possible to estimate the market size by product for all products produced by domestic companies across all industrial fields, individuals who are considering starting a business, startups, venture companies, small and medium-sized enterprises, and large enterprises It is possible to provide broader and more specific customized information to market information consumers including various business entities.

한편, 여기에 제시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.On the other hand, the steps of the method or algorithm described in relation to the embodiments presented herein may be directly implemented in hardware or may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.Although the present invention has been described in detail with reference to preferred embodiments so far, the present invention is not limited to the above-described embodiments, and without departing from the gist of the present invention as claimed in the following claims, the technical field to which the present invention pertains It will be said that the technical spirit of the present invention extends to a range where various modifications or modifications can be made by anyone with ordinary knowledge in the present invention.

본 발명에 따른 시장규모추정장치 및 그 동작 방법에 따르면, 기업에서 생산하는 모든 제품을 포괄하여 상세한 제품군 또는 유사한 제품군 별로 시장규모를 쉽고 빠르게 추정할 수 있다는 점에서, 기존 기술의 한계를 뛰어 넘음에 따라 관련 기술에 대한 이용만이 아닌 적용되는 장치의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to the apparatus for estimating market size according to the present invention and its operation method, in that it is possible to quickly and easily estimate the market size for each detailed product group or similar product group, including all products produced by the company, it is possible to overcome the limitations of the existing technology. Accordingly, it is an invention with industrial applicability because the possibility of marketing or business of the applied device, not just the use of the related technology, is sufficient and it can be clearly implemented in reality.

100: 시장규모추정장치
10: 수집부 20: 생성부
30: 추출부 40: 산출부
100: market size estimation device
10: collecting unit 20: generating unit
30: extraction unit 40: calculation unit

Claims (14)

기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집부;
상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성부;
상기 제품관계정보를 기초로 제품 간 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출부; 및
상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출부를 포함하며,
상기 생성부는,
상기 제품정보로부터 추출되는 제품식별데이터의 텍스트 특성인 제품명에 대해서, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 알고리즘, 및 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 알고리즘 중 적어도 하나를 선택하여 상기 제품식별데이터를 분석하고, 상기 제품식별데이터의 텍스트 특성인 제품속성에 대해서는, 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 알고리즘을 선택하여 상기 제품식별데이터를 분석하며, 상기 제품식별데이터 분석을 위해 서로 다른 2 이상의 텍스트 마이닝 알고리즘이 선택되는 경우, 각 텍스트 마이닝 알고리즘의 성능 평가 결과에 기초한 성능 우선순위에 따라 성능이 우수한 텍스트 마이닝 알고리즘에 보다 높은 가중치를 주어 결합한 혼성 모델을 적용하거나, 또는, 특정 텍스트 마이닝 알고리즘으로부터 얻은 결과가 상기 특정 텍스트 마이닝 알고리즘과는 다른 텍스트 마이닝 알고리즘에 입력되는 형태의 결합 모델을 적용하며,
상기 추출부는,
비지도 방식의 기계학습 알고리즘의 적용에 따라 사전 레이블(label) 되지 않은 제품정보로부터 상기 유사제품군을 추출하며, 추출된 유사제품군 각각에 대해 제품군 내 출현 빈도가 가장 높은 제품명 또는 사용자 지정에 따른 제품명을 대표 제품명으로 선정하며,
상기 산출부는,
상기 유사제품군에서 기준이 되는 특정 제품과의 유사도를 기준으로 상기 유사제품군 내 각 제품에 대해 상기 유사도가 낮은 제품일수록 보다 적은 가중치를 설정하여, 상기 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출하는 것을 특징으로 하는 시장규모추정장치.
a collection unit that collects product information for each product produced by the company;
a generator for generating product relationship information indicating a relationship between each product according to a text analysis result of the product information;
an extracting unit for classifying product groups in which a similar relationship between products is established based on the product relationship information and extracting them as a similar product group; and
Extracting numerical data related to the amount of at least one of production, shipment, and transaction from product information of each product belonging to the similar product group, and calculating the market size of the similar product group, which is a result of collecting the extracted numerical data comprising an output unit;
The generating unit,
For the product name, which is the text characteristic of product identification data extracted from the product information, a text mining algorithm that maps words with similar meanings to geometrically close vectors, and the degree of similarity between product names through correlation analysis on the simultaneous appearance of syllables or words Selecting at least one of the text mining algorithms to numerically analyze The product identification data is analyzed by selecting a text mining algorithm, and when two or more different text mining algorithms are selected for the product identification data analysis, the performance is improved according to the performance priority based on the performance evaluation result of each text mining algorithm. Applying a combined model by giving a higher weight to an excellent text mining algorithm, or applying a combined model in which the result obtained from a specific text mining algorithm is input to a text mining algorithm different from the specific text mining algorithm,
The extraction unit,
According to the application of unsupervised machine learning algorithm, the similar product group is extracted from the product information that is not previously labeled, and for each extracted similar product group, the product name with the highest frequency of appearance in the product group or the product name according to the user designation is selected. Selected as a representative product name,
The calculation unit,
Based on the similarity with a specific product as a standard in the similar product group, a smaller weight is set for each product in the similar product group as the similarity is lower, and numerical data of each product to which the weight is reflected is collected. A market size estimating device, characterized in that for calculating the market size of the similar product group.
삭제delete 삭제delete 삭제delete 삭제delete 제 1 항에 있어서,
상기 추출부는,
제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정하는 것을 특징으로 하는 시장규모추정장치.
The method of claim 1,
The extraction unit,
A market size estimating device, characterized in that by adjusting a similarity reference value for establishing a similarity relationship between products, at least one of the number of product groups in which a similar relationship is established and the number of products belonging to the product group are determined.
삭제delete 기업의 생산 제품 각각에 대해 제품정보를 수집하는 수집단계;
상기 제품정보의 텍스트 분석 결과에 따라 각 제품의 연관 관계를 나타내는 제품관계정보를 생성하는 생성단계;
상기 제품관계정보를 기초로 제품 간에 유사 관계가 성립되는 제품군을 분류하여 유사제품군으로 추출하는 추출단계; 및
상기 유사제품군에 속한 각 제품의 제품정보로부터 제품의 생산, 출하, 및 거래 중 적어도 하나의 금액과 관련한 수치데이터를 추출하여, 추출된 수치데이터를 취합한 결과인 상기 유사제품군의 시장규모를 산출하는 산출단계를 포함하며,
상기 생성단계는,
상기 제품정보로부터 추출되는 제품식별데이터의 텍스트 특성인 제품명에 대해서, 의미가 유사한 단어를 기하학적으로 가까운 벡터로 매핑하는 텍스트 마이닝 알고리즘, 및 음절 혹은 단어의 동시 등장에 대한 상관관계 분석을 통해 제품명 간 유사도를 수치적으로 분석하는 텍스트 마이닝 알고리즘 중 적어도 하나를 선택하여 상기 제품식별데이터를 분석하고, 상기 제품식별데이터의 텍스트 특성인 제품속성에 대해서는, 비정형 텍스트로부터 키워드를 추출하여 키워드가 유사한 그룹을 분류하는 텍스트 마이닝 알고리즘을 선택하여 상기 제품식별데이터를 분석하며, 상기 제품식별데이터 분석을 위해 서로 다른 2 이상의 텍스트 마이닝 알고리즘이 선택되는 경우, 각 텍스트 마이닝 알고리즘의 성능 평가 결과에 기초한 성능 우선순위에 따라 성능이 우수한 텍스트 마이닝 알고리즘에 보다 높은 가중치를 주어 결합한 혼성 모델을 적용하거나, 또는, 특정 텍스트 마이닝 알고리즘으로부터 얻은 결과가 상기 특정 텍스트 마이닝 알고리즘과는 다른 텍스트 마이닝 알고리즘에 입력되는 형태의 결합 모델을 적용하며,
상기 추출단계는,
비지도 방식의 기계학습 알고리즘의 적용에 따라 사전 레이블(label) 되지 않은 제품정보로부터 상기 유사제품군을 추출하며, 추출된 유사제품군 각각에 대해 제품군 내 출현 빈도가 가장 높은 제품명 또는 사용자 지정에 따른 제품명을 대표 제품명으로 선정하며,
상기 산출단계는,
상기 유사제품군에서 기준이 되는 특정 제품과의 유사도를 기준으로 상기 유사제품군 내 각 제품에 대해 상기 유사도가 낮은 제품일수록 보다 적은 가중치를 설정하여, 상기 가중치가 반영된 각 제품의 수치데이터를 취합한 결과로부터 상기 유사제품군의 시장규모를 산출하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
A collection step of collecting product information for each product produced by the company;
a generating step of generating product relationship information indicating a relationship between each product according to a text analysis result of the product information;
an extraction step of classifying a product group in which a similar relationship is established between products based on the product relationship information and extracting it as a similar product group; and
Extracting numerical data related to the amount of at least one of production, shipment, and transaction from product information of each product belonging to the similar product group, and calculating the market size of the similar product group, which is a result of collecting the extracted numerical data Including the calculation step,
The creation step is
For the product name, which is the text characteristic of product identification data extracted from the product information, a text mining algorithm that maps words with similar meanings to geometrically close vectors, and the degree of similarity between product names through correlation analysis on the simultaneous appearance of syllables or words Selecting at least one of the text mining algorithms to numerically analyze The product identification data is analyzed by selecting a text mining algorithm, and when two or more different text mining algorithms are selected for the product identification data analysis, the performance is improved according to the performance priority based on the performance evaluation result of each text mining algorithm. Applying a combined model by giving a higher weight to an excellent text mining algorithm, or applying a combined model in which the result obtained from a specific text mining algorithm is input to a text mining algorithm different from the specific text mining algorithm,
The extraction step is
According to the application of unsupervised machine learning algorithm, the similar product group is extracted from the product information that is not previously labeled, and for each extracted similar product group, the product name with the highest frequency of appearance in the product group or the product name according to the user designation is selected. Selected as a representative product name,
The calculation step is
Based on the similarity with a specific product as a standard in the similar product group, a smaller weight is set for each product in the similar product group as the similarity is lower, and numerical data of each product to which the weight is reflected is collected. A method of operating a market size estimating device, characterized in that the market size of the similar product group is calculated.
삭제delete 삭제delete 삭제delete 삭제delete 제 8 항에 있어서,
상기 추출단계는,
제품 간 유사 관계를 성립시키기 위한 유사도 기준수치를 조절하여 유사 관계가 성립되는 제품군의 개수, 및 제품군에 속하는 제품의 개수 중 적어도 하나를 결정하는 것을 특징으로 하는 시장규모추정장치의 동작 방법.
9. The method of claim 8,
The extraction step is
A method of operating a market size estimating apparatus, characterized in that at least one of the number of product groups in which a similar relationship is established and the number of products belonging to the product group are determined by adjusting a similarity reference value for establishing a similarity relationship between products.
삭제delete
KR1020190112446A 2019-09-10 2019-09-10 Estimating apparatus for market size, and control method thereof Active KR102358357B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190112446A KR102358357B1 (en) 2019-09-10 2019-09-10 Estimating apparatus for market size, and control method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190112446A KR102358357B1 (en) 2019-09-10 2019-09-10 Estimating apparatus for market size, and control method thereof

Publications (2)

Publication Number Publication Date
KR20210030808A KR20210030808A (en) 2021-03-18
KR102358357B1 true KR102358357B1 (en) 2022-02-04

Family

ID=75232331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190112446A Active KR102358357B1 (en) 2019-09-10 2019-09-10 Estimating apparatus for market size, and control method thereof

Country Status (1)

Country Link
KR (1) KR102358357B1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102725428B1 (en) * 2021-08-30 2024-11-04 엘아이지넥스원 주식회사 Data processing system based on unstructured data and data processing method based on unstructured data
KR102636122B1 (en) 2021-10-28 2024-02-14 콤비로 주식회사 Apparatus and method for market size prediction using deep learning
KR102862088B1 (en) * 2021-12-30 2025-09-19 국민대학교산학협력단 Semantic visualization method and apparatus of dynamic topic modeling
KR102727169B1 (en) 2022-07-01 2024-11-05 박양수 Apparatus and method for estimating market size using statistical model
KR102852166B1 (en) * 2023-05-15 2025-09-01 쿠팡 주식회사 Method and electronic device for processing product sale registration request

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292871A (en) * 2004-03-31 2005-10-20 Nomura Research Institute Ltd Technical literature marketability analysis system and marketability analysis program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100289065B1 (en) * 1997-10-14 2001-05-02 정선종 Method for processing natural query language for searching commodity information of electronic commerce
CN103425691B (en) * 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 A kind of searching method and system
KR101717538B1 (en) * 2015-09-03 2017-03-17 사단법인 한국신용정보원 Market Prediction Method
KR20180123826A (en) * 2017-05-10 2018-11-20 네모커머스(주) Correspondences generation system of goods classification between heterogeneous classification

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005292871A (en) * 2004-03-31 2005-10-20 Nomura Research Institute Ltd Technical literature marketability analysis system and marketability analysis program

Also Published As

Publication number Publication date
KR20210030808A (en) 2021-03-18

Similar Documents

Publication Publication Date Title
KR102358357B1 (en) Estimating apparatus for market size, and control method thereof
CN104424296B (en) Query word sorting technique and device
US9489627B2 (en) Hybrid clustering for data analytics
WO2019214245A1 (en) Information pushing method and apparatus, and terminal device and storage medium
US20220398857A1 (en) Document analysis architecture
US11379665B1 (en) Document analysis architecture
US11893065B2 (en) Document analysis architecture
CN104851025A (en) Case-reasoning-based personalized recommendation method for E-commerce website commodity
EP4165487A1 (en) Document analysis architecture
US11776291B1 (en) Document analysis architecture
CN113591947A (en) Power data clustering method and device based on power consumption behaviors and storage medium
Nguyen et al. A method for efficient clustering of spatial data in network space
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
US11893505B1 (en) Document analysis architecture
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
Akyol Clustering hotels and analyzing the importance of their features by machine learning techniques
Wu et al. A data-driven approach for extracting representative information from large datasets with mixed attributes
Ou et al. On data mining for direct marketing
Li et al. Exceptional events classification in warehousing based on an integrated clustering method for a dataset with mixed-valued attributes
CN116451103A (en) A tag-based method for recommending situational elements
Thompson Data mining methods and the rise of big data
Bochkaryov et al. Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty
CN118377854B (en) Innovative full-chain science and technology information service integration method and platform
CN118093769B (en) Product data management method and system based on ERP service
Yang et al. A Customer Demand Mining Algorithm Based on Online Comments and Machine Learning

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20190910

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20210119

Patent event code: PE09021S01D

PG1501 Laying open of application
E90F Notification of reason for final refusal
PE0902 Notice of grounds for rejection

Comment text: Final Notice of Reason for Refusal

Patent event date: 20210712

Patent event code: PE09021S02D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20220124

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20220127

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20220127

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20241223

Start annual number: 4

End annual number: 4