[go: up one dir, main page]

KR20170034206A - Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis - Google Patents

Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis Download PDF

Info

Publication number
KR20170034206A
KR20170034206A KR1020150132590A KR20150132590A KR20170034206A KR 20170034206 A KR20170034206 A KR 20170034206A KR 1020150132590 A KR1020150132590 A KR 1020150132590A KR 20150132590 A KR20150132590 A KR 20150132590A KR 20170034206 A KR20170034206 A KR 20170034206A
Authority
KR
South Korea
Prior art keywords
words
word
subject category
word dictionary
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020150132590A
Other languages
Korean (ko)
Other versions
KR101737887B1 (en
Inventor
손경아
조승우
차문수
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020150132590A priority Critical patent/KR101737887B1/en
Publication of KR20170034206A publication Critical patent/KR20170034206A/en
Application granted granted Critical
Publication of KR101737887B1 publication Critical patent/KR101737887B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06F17/30873
    • G06F17/2735
    • G06F17/277
    • G06F17/30705
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • G06Q50/30

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인터넷에서 생성되는 웹 페이지 또는 소셜 미디어 컨텐츠 등에 포함된 텍스트의 주제 카테고리를 자동으로 분류하는 방법과 그 장치에 관한 것이다.
이를 위하여 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부, 상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부, 및 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함할 수 있다.
The present invention relates to a method and apparatus for automatically classifying a subject category of text included in a web page or social media content created in the Internet.
To this end, the text subject category classification apparatus according to the present invention comprises: a data collection unit for receiving a plurality of documents classified in advance by theme category, selecting words in sentences contained in the document, The data collection unit receives the words collected by the subject category, calculates a weight for the input words, and includes a word dictionary that is present in the subject category among the input words based on the calculated weight A word dictionary generating unit for selecting a word for each of the subject categories and registering the selected word dictionary in each of the word dictionary and a classification target sentence, Words are selected, And a subject category classifier for generating a feature vector according to the weight of the selected words and determining the subject category of the classification target sentence based on the generated feature vector.

Description

크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치{Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis}Technical Field [0001] The present invention relates to a method and apparatus for automatically classifying subject categories of social media text based on cross-media analysis,

본 발명은 인터넷에서 생성되는 웹 페이지 또는 소셜 미디어 컨텐츠 등에 포함된 텍스트의 주제 카테고리를 자동으로 분류하는 방법과 그 장치에 관한 것이다.The present invention relates to a method and apparatus for automatically classifying a subject category of text included in a web page or social media content created in the Internet.

모바일 기기의 확산으로 인하여 인터넷 망에서 전송되는 웹 컨텐츠의 수가 급격히 증가하고 있다. 트위터나 페이스 북과 같은 소셜 네트워크 서비스의 사용자는 전 세계적으로 점진적으로 증가하고 있고, 그에 따라 각 사용자들이 보유하는 모바일 기기 또는 컴퓨터 장치에서 입력되어 인터넷 망에서 전송되는 텍스트, 영상 등의 데이터의 수 역시 급격히 증가하고 있다.Due to the proliferation of mobile devices, the number of web contents transmitted on the Internet has been rapidly increasing. The number of users of social network services such as Twitter and Facebook is gradually increasing globally so that the number of data such as texts and images transmitted from Internet devices input from mobile devices or computer devices owned by users It is increasing rapidly.

이와 같은 인터넷 상에서 존재하는 웹 데이터는 다수의 사람들의 상태 또는 관심사에 관한 정보를 포함하고 있다는 점에 있어서 유용한 정보를 담고 있다. 특히 소셜 네트워크 서비스에서 전송되는 웹 데이터의 경우 각 사용자가 생성하여 전송하는 데이터라는 점에 있어서 사용자의 상태나 정보를 파악하기에 유용하고, 또한 더 나아가 사용자들이 속한 집단의 상태와 그에 대한 정보를 파악하기에도 유용한 데이터라고 할 수 있다.Such web data on the Internet contains useful information in that it contains information on the status or interests of a large number of people. In particular, in the case of web data transmitted from a social network service, it is useful for grasping the status or information of the user in the point that the data is generated and transmitted by each user. Further, the status of the group and the information It is also useful data.

이에 따라 소셜 네트워크 상의 데이터를 분석하여 그로부터 정보를 추출하고자 하는 연구들이 이루어져왔다. 예를 들어 "Kwak H, Lee C, Park H, Moon S What is Twitter, a social network or a news media? In: Proceedings of the 19th international conference on World wide web, 2010. ACM, pp 591-600"는 트위터 데이터를 분석하여 사용자들이 언제 어디에서 어떠한 주제를 가지고 이야기하는지를 분석하는 방법을 개시하고 있다.Therefore, researches have been conducted to analyze data on social networks and extract information therefrom. For example, "Kwak H, Lee C, Park H, Moon S. What is Twitter, a social network or a news media? In: Proceedings of the 19th international conference on World wide web, 2010. ACM, pp 591-600" And analyzing Twitter data to analyze when and where users talk about what topic they are talking to.

그러나 이와 같은 기존의 연구들은 주로 특정 시간이나 장소에서 다루어지는 특정 키워드나 주제에 중점을 두고 있을 뿐, 소셜 미디어에서의 전반적인 주제 카테고리를 분석할 수 있는 수단을 제공하고 있지 못하다.However, these existing studies mainly focus on specific keywords or topics that are handled at specific times or places, and do not provide a means to analyze the overall subject category in social media.

(특허문헌 0001) 대한민국 등록특허공보 10-1480711(Patent Document 0001) Korean Patent Publication No. 10-1480711

본 발명이 해결하고자 하는 과제는, 소셜 미디어와 같이 인터넷에서 발생하는 문장들의 주제 카테고리를 기존의 문장 주제 분류 방법들보다 신뢰도 있게 분류하고, 또한 특정 미디어에서 발생한 문장의 주제 카테고리를 분류하기 위하여 해당 미디어와 다른 이종의 미디어의 문서 자료를 이용하여 생성한 주제 카테고리 별 단어 사전을 이용하는 텍스트 주제 카테고리 분류 장치, 시스템 및 방법을 제공하는 것이다.The present invention has been made to solve the above-mentioned problems, and it is an object of the present invention to provide a method and apparatus for classifying a subject category of sentences generated on the Internet more reliably than existing sentence topic classification methods such as social media, And a text subject category classification apparatus, system, and method using a word dictionary for each subject category generated by using document data of different kinds of media.

상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 텍스트 주제 카테고리 분류 장치는, 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부, 상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부, 및 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함할 수 있다.In order to solve the above problems, a text subject category classification apparatus according to one type of the present invention receives a plurality of documents classified in advance by theme category, selects words in a sentence included in the document, A data collecting unit for collecting words, a data collecting unit for receiving the words collected by the subject category, calculating a weight for the input words, calculating a weight for the input words based on the calculated weight, A word dictionary generating unit for selecting a word dictionary to be included in a word dictionary existing for each subject category by the subject category and registering the word dictionary in each of the word dictionary and a classification target sentence, The words included in each of the word dictionary are selected for each category And a subject category classifying unit for generating a feature vector according to the weight of the selected words for each of the subject categories and determining the subject category of the classification subject sentence based on the generated feature vector.

여기서 상기 데이터 수집부는 상기 문장에서 소정의 문자 개수 이하로 구성된 문자열 또는 특수 문자 또는 숫자 문자를 제거하고, 형태소 분석을 수행하여 상기 문장으로부터 상기 단어 사전 생성부에 입력할 단어들을 선정할 수 있다.Here, the data collecting unit may select a word to be input to the word dictionary generating unit from the sentence by performing a morphological analysis by removing a character string or a special character or numeric character composed of a predetermined number of characters or less from the sentence.

여기서 상기 데이터 수집부는 상기 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서로써, 상기 주제 카테고리 별로 미리 분류된 뉴스 기사 또는 신문 기사 또는 잡지 기사 문서들을 입력받는 것을 특징으로 할 수 있다.Here, the data collection unit may receive a news article, a newspaper article, or a magazine article document classified in advance by the subject category, as a plurality of the documents classified in advance by the subject category.

여기서 상기 단어 사전 생성부는, 상기 데이터 수집부에서 입력받은 단어들에 대하여, 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제1 단어 사전 생성부를 포함할 수 있다.Here, the word dictionary generation unit may calculate a TF-IDF weight based on the sentence including the input word and information on the subject category, with respect to the words input from the data collection unit, And a first word dictionary generation unit for selecting a word to be included in the word dictionary from among the input words based on the IDF weight.

여기서 상기 제1 단어 사전 생성부는 상기 입력받은 단어가 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 문장이 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 주제 카테고리의 수에 기초하여 상기 TF-IDF 가중치를 산출하는 것을 특징으로 할 수 있다.Here, the first word dictionary generating unit may generate the first word dictionary by adding the number of the input words appearing in the document, the number of the sentences including the input words to the document, and the number of the theme categories including the input word And the TF-IDF weight is calculated based on the TF-IDF weight.

여기서 상기 단어 사전 생성부는, 상기 데이터 수집부에서 입력받은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제2 단어 사전 생성부를 포함할 수 있다.Here, the word dictionary generation unit performs an LDA analysis on the words input from the data collection unit, calculates an LDA rank weight according to the analysis result, and calculates the weighted sum of the input words And a second word dictionary generation unit for selecting words to be included in the word dictionary.

여기서 상기 제2 단어 사전 생성부는, 상기 데이터 수집부에서 입력받은 단어들에 대하여 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치가 소정의 기준값보다 작은 단어들을 상기 입력받은 단어들에서 제거하고, 상기 제거 후 남은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 것을 특징으로 할 수 있다.Here, the second word dictionary generation unit may calculate a TF-IDF weight based on the sentence including the input word and information on the subject category, with respect to words input from the data collection unit, The LDA analysis is performed on the remaining words after the removal of the words, the LDA rank weight is calculated according to the analysis result, and the calculated TF-IDF weight is calculated And selects a word to be included in the word dictionary from the input words based on the LDA rank weight.

여기서 상기 단어 사전 생성부는, 상기 주제 카테고리 별 상기 단어 사전에 포함된 단어들 중에서 중복 단어를 제거하는 중복 단어 제거부를 더 포함할 수 있다.Here, the word dictionary generation unit may further include a duplicate word elimination unit for eliminating duplicated words among words included in the word dictionary for each subject category.

여기서 상기 중복 단어 제거부는 두 개 이상의 상기 단어 사전에 공통으로 포함되는 상기 중복 단어들 중, 상기 중복 단어의 상기 TF-IDF 가중치 또는 상기 단어 사전에서 상기 중복 단어가 발생한 빈도수를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거할 수 있다.Here, the redundant word removal unit may remove the redundant word based on the TF-IDF weight of the redundant word or the occurrence frequency of the redundant word in the word dictionary, among the redundant words commonly included in the two or more word dictionary. Select the subject category to be removed, and remove the duplicate word from the word dictionary of the selected subject category.

여기서 상기 주제 카테고리 분류부는, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 연산한 값을 상기 특징 벡터의 각 원소로 설정하여, 상기 특징 벡터를 생성하는 특징 벡터 추출부; 및 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 결정하는 분류부를 포함할 수 있다.Wherein the subject category classifier selects words included in each word dictionary of the subject category from words included in the classification subject sentence and calculates a value obtained by calculating each of the weight values of the selected words by the subject category A feature vector extractor configured to generate the feature vector by setting each element of the feature vector; And a classification unit that determines the subject category of the classification target sentence based on the generated feature vector.

여기서 상기 특징 벡터 추출부는 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 합산한 값을 상기 특징 벡터의 각 상기 원소로 설정하는 것을 특징으로 할 수 있다.Wherein the feature vector extractor sets a value obtained by summing each of the weight values of the selected words in each of the theme categories to each of the elements of the feature vector.

여기서 상기 분류부는 최대 가중치(Maximum Weight) 기법에 따라 상기 특징 벡터의 상기 원소들 중에서 최대의 값을 가지는 상기 원소에 대응하는 상기 주제 카테고리를 상기 분류 대상 문장의 상기 주제 카테고리로 결정하는 것을 특징으로 할 수 있다.Wherein the classification unit determines the subject category corresponding to the element having the largest value among the elements of the feature vector as the subject category of the classification target sentence according to a maximum weight technique .

여기서 상기 분류부는 서포트 벡터 머신(SVM)에 기반한 미리 학습된 분류기를 이용하여, 상기 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 분류하는 것을 특징으로 할 수 있다.Wherein the classifier classifies the subject category of the classification target sentence based on the feature vector using a pre-learned classifier based on a support vector machine (SVM).

여기서 상기 단어 사전 생성부는, 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들 중에서 상기 주제 카테고리와 비 관련된 단어를 선별하고, 상기 선별한 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함할 수 있다.Here, the word dictionary creation unit may include a non-related word elimination unit for selecting words not related to the subject category from words included in the word dictionary for each subject category, and removing the selected words from the word dictionary .

여기서 상기 비 관련 단어 제거부는, 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고, 상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고, 상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 것을 특징으로 할 수 있다.Wherein the non-related word elimination unit is configured to classify the words included in each of the word dictionaries into the number of the words in the subject category, the number of the documents in which the words are included in the subject category, Clustering into a plurality of subsets based on the frequency of occurrence of the words in the document, selecting at least one or more non-related clusters based on the frequency of the clustering subsets, And removing the words from the word dictionary.

여기서 상기 텍스트 주제 카테고리 분류 장치는, 상기 단어 사전 생성부에서 생성한 상기 단어사전을 저장하는 단어 사전 데이터베이스를 더 포함할 수 있다.The text subject category classification apparatus may further include a word dictionary database for storing the word dictionary generated by the word dictionary generation unit.

상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 텍스트 주제 카테고리 분류 시스템은, 서비스 서버를 포함할 수 있다.In order to solve the above problems, a text subject category classification system according to one type of the present invention may include a service server.

여기서 상기 서비스 서버는, 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부, 및 상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부를 포함할 수 있다.Here, the service server may include a data collection unit for receiving a plurality of documents classified in advance by theme category, selecting words in a sentence included in the document, and collecting words by the theme category, The method of claim 1, further comprising the steps of: receiving words collected for each subject category, calculating a weight for the input words, calculating a word to be included in a word dictionary existing in the subject category among the input words based on the calculated weight, And a word dictionary generation unit for registering the selected word dictionary in each of the word dictionary.

여기서 상기 서비스 서버는 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 더 포함할 수 있다.Wherein the service server receives a classification target sentence and selects words included in each of the word dictionary for each of the subject categories from among words included in the classification target sentence, And a subject category classifier for generating the feature vector according to the feature vector and determining the subject category of the classification target sentence based on the generated feature vector.

여기서 상기 텍스트 주제 카테고리 분류 시스템은, 상기 단어 사전 생성부에서 생성한 상기 단어 사전을 저장하는 단어 사전 데이터베이스; 및 단말기를 더 포함할 수 있다.Wherein the text subject category classification system comprises: a word dictionary database for storing the word dictionary generated by the word dictionary generation unit; And a terminal.

여기서 상기 단말기는, 분류 대상 문장을 입력받고, 상기 단어 사전 데이터베이스와 연결하여, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함할 수 있다.Wherein the terminal receives a classification target sentence and connects to the word dictionary database to select words included in each word dictionary for each subject category from words included in the classification subject sentence, And a subject category classifier for generating a feature vector according to the weight of the selected words and determining the subject category of the classification target sentence based on the generated feature vector.

상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 텍스트 주제 카테고리 분류 방법은, 서비스 서버가 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집 단계, 상기 서비스 서버가 상기 주제 카테고리 별로 수집된 단어들에 대하여 가중치를 산출하고, 상기 산출한 가중치를 기준으로 상기 수집된 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성 단계, 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류 단계를 포함할 수 있다.According to an aspect of the present invention, there is provided a method of classifying a text subject category according to one aspect of the present invention, the method comprising: receiving, by a service server, a plurality of documents classified in advance by theme categories; A data collection step of collecting words according to a subject category, a service server calculating a weight for words collected by the subject category, calculating a weighting value for each of the collected words based on the calculated weight, A word dictionary creation step of selecting words to be included in the dictionary in accordance with the subject category and registering the words in each of the word dictionary; receiving a classification target sentence; receiving, from among the words included in the classification target sentence, The selected words are selected, And a subject category classification step of generating a feature vector according to the weight of the selected words and determining the subject category of the classification target sentence based on the generated feature vector.

본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 특정 미디어의 문장의 주제 카테고리를 분류하기 위하여 해당 미디어와 다른 이종의 미디어 - 바람직하게는 신문, 뉴스, 잡지 미디어 - 의 문서 자료를 이용하여 생성한 주제 카테고리 별 단어 사전을 이용하는 구성을 제공함으로써, 분류 대상이 되는 미디어의 데이터를 수동적으로 분류하여 단어 사전을 생성하지 아니하고, 다른 미리 주제가 분류된 미디어를 이용하여 보다 효율적으로 단어 사전을 생성할 수 있는 효과가 있다.The apparatus and method for classifying a text subject category according to the present invention is a method and apparatus for classifying a subject category of a sentence of a specific medium by using a document created from different media and different types of media, preferably newspapers, news, It is possible to generate a word dictionary more efficiently by using media classified by other preliminary topics without manually generating the word dictionary by manually classifying the data of the media targeted for classification by providing a configuration using word dictionaries for each category .

특히 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 이종 미디어 간의 데이터의 이질성을 제거하기 위하여, 의미 상 어느 주제 카테고리에도 포함되지 않는 단어들을 클러스터링 분석 방법을 이용하여 단어 사전에서 제거하는 구성을 제공함으로써, 이종 미디어의 자료를 이용하여 단어 사전을 생성함으로써 발생하는 데이터의 이질성을 제거하고, 보다 신뢰도 있게 분류 대상 문장의 주제 카테고리를 분류할 수 있는 효과가 있다.In particular, the apparatus and method for classifying text subject categories according to the present invention provide a structure for eliminating heterogeneity of data between disparate media, that is, words that are not included in any subject category semantically by using a clustering analysis method , It is possible to remove the heterogeneity of data generated by generating the word dictionary using the data of the heterogeneous media, and to classify the subject category of the classified sentence more reliably.

또한 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 소셜 네트워크 서비스와 같이 인터넷에서 발생하는 문장들의 주제 카테고리를 기존의 문장 주제 분류 방법들보다 신뢰도 있게 분류하는 효과가 있다. 그리고 이와 같이 문장 별로 분류한 주제 카테고리 분석 결과를 이용하여 특정 사용자의 관심사 또는 성향에 대한 정보를 추출할 수 있고, 또는 특정 집단에서의 또는 특정 기간 동안의 사용자들의 관심사 또는 성향에 대한 정보를 추출할 수는 효과가 있다.In addition, the apparatus and method for classifying text subject categories according to the present invention have the effect of reliably classifying the subject categories of sentences generated on the Internet, such as social network services, over existing sentence topic classification methods. Then, information on the interest or inclination of a specific user can be extracted using the subject category analysis result classified by sentence, or information on interest or inclination of users in a specific group or during a specific period can be extracted Number is effective.

도 1은 본 발명의 일 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.
도 2는 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.
도 3은 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.
도 4는 단어 사전 생성부의 일 실시예에 따른 세부 블록도이다.
도 5는 본 발명의 또 다른 실시예에 따른 단어 사전 생성부의 세부 블록도이다.
도 6은 비 관련 단어 제거부의 동작을 설명하기 위한 참고도이다.
도 7은 주제 카테고리 분류부의 세부 블록도이다.
도 8은 본 발명에 따른 텍스트 주제 카테고리 분류 시스템의 블록도이다.
도 9는 본 발명의 또 다른 실시예의 경우의 텍스트 주제 카테고리 분류 시스템의 블록도이다.
도 10은 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 방법의 흐름도이다.
1 is a block diagram of a text subject category classification apparatus according to an embodiment of the present invention.
2 is a block diagram of a text subject category classification apparatus according to another embodiment of the present invention.
3 is a block diagram of a text subject category classification apparatus according to another embodiment of the present invention.
4 is a detailed block diagram according to an embodiment of the word dictionary generator.
5 is a detailed block diagram of a word dictionary generation unit according to another embodiment of the present invention.
6 is a reference diagram for explaining the operation of non-related word removal.
7 is a detailed block diagram of the subject category classification section.
8 is a block diagram of a text subject category classification system in accordance with the present invention.
9 is a block diagram of a text subject category classification system in the case of another embodiment of the present invention.
10 is a flowchart of a text subject category classification method according to another embodiment of the present invention.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the drawings, the same reference numerals are used to designate the same or similar components throughout the drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. In addition, the preferred embodiments of the present invention will be described below, but it is needless to say that the technical idea of the present invention is not limited thereto and can be variously modified by those skilled in the art.

모바일 기기의 확산으로 인하여 인터넷 망에서 전송되는 웹 컨텐츠의 수가 급격히 증가하고 있다. 트위터나 페이스 북과 같은 소셜 네트워크 서비스의 사용자는 전 세계적으로 점진적으로 증가하고 있고, 그에 따라 각 사용자들이 보유하는 모바일 기기 또는 컴퓨터 장치에서 입력되어 인터넷 망에서 전송되는 텍스트, 영상 등의 데이터의 수 역시 급격히 증가하고 있다.Due to the proliferation of mobile devices, the number of web contents transmitted on the Internet has been rapidly increasing. The number of users of social network services such as Twitter and Facebook is gradually increasing globally so that the number of data such as texts and images transmitted from Internet devices input from mobile devices or computer devices owned by users It is increasing rapidly.

이와 같은 인터넷 상에서 존재하는 웹 데이터는 다수의 사람들의 상태 또는 관심사에 관한 정보를 포함하고 있다는 점에 있어서 유용한 정보를 담고 있다. 특히 소셜 네트워크 서비스에서 전송되는 웹 데이터의 경우 각 사용자가 생성하여 전송하는 데이터라는 점에 있어서 사용자의 상태나 정보를 파악하기에 유용하고, 또한 더 나아가 사용자들이 속한 집단의 상태와 그에 대한 정보를 파악하기에도 유용한 데이터라고 할 수 있다.Such web data on the Internet contains useful information in that it contains information on the status or interests of a large number of people. In particular, in the case of web data transmitted from a social network service, it is useful for grasping the status or information of the user in the point that the data is generated and transmitted by each user. Further, the status of the group and the information It is also useful data.

이에 따라 소셜 네트워크 상의 데이터를 분석하여 그로부터 정보를 추출하고자 하는 연구들이 이루어져왔다. 예를 들어 "Kwak H, Lee C, Park H, Moon S What is Twitter, a social network or a news media? In: Proceedings of the 19th international conference on World wide web, 2010. ACM, pp 591-600"는 트위터 데이터를 분석하여 사용자들이 언제 어디에서 어떠한 주제를 가지고 이야기하는지를 분석하는 방법을 개시하고 있다.Therefore, researches have been conducted to analyze data on social networks and extract information therefrom. For example, "Kwak H, Lee C, Park H, Moon S. What is Twitter, a social network or a news media? In: Proceedings of the 19th international conference on World wide web, 2010. ACM, pp 591-600" And analyzing Twitter data to analyze when and where users talk about what topic they are talking to.

그러나 이와 같은 기존의 연구들은 주로 특정 시간이나 장소에서 다루어지는 특정 키워드나 주제에 중점을 두고 있을 뿐, 소셜 미디어에서의 전반적인 주제 카테고리를 분석할 수 있는 수단을 제공하고 있지 못하다.However, these existing studies mainly focus on specific keywords or topics that are handled at specific times or places, and do not provide a means to analyze the overall subject category in social media.

이에 본 발명에서는 웹 데이터에 포함된 문장 - 예를 들면 트위터와 같은 소셜 미디어 매체에서 생성되는 문장 - 들을 분석하여, 생성된 문장들이 미리 정해진 주제 카테고리 중 어느 카테고리에 속하는지를 판단하는 텍스트 주제 카테고리 분류 장치, 시스템, 방법을 제공한다. Accordingly, the present invention analyzes a sentence included in web data, for example, sentences generated on a social media medium such as a Twitter, and determines which category of the predetermined subject category the generated sentences belong to, , System, and method.

특히 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법에서는, 분류 대상 문장의 주제 카테고리를 분류하기 위하여 이용할 단어 사전을 생성함에 있어서, 신문이나 뉴스 또는 잡지 컨텐츠와 같이 주제 카테고리 별로 종류가 미리 분류되어 있는 문서를 단어 사전의 소스로 입력받아 이용하는 방법을 제공한다. In particular, in the apparatus and method for classifying a text subject category according to the present invention, in generating a word dictionary to be used for classifying a subject category of a classification target sentence, a document in which types are classified in advance by theme category such as newspaper, news, As a source of a word dictionary.

분류 대상 문장을 입력받아 해당 문장의 주제 카테고리를 분류하기 위하여는 문장에 포함된 단어들이 어느 주제 카테고리에 해당하는지를 분석할 필요가 있고, 이를 위하여 주제 카테고리 별 단어들을 저장하고 있는 단어 사전이 필요하다. 그런데 주제 카테고리 별 단어 사전에 포함될 단어들을 수동적으로 라벨링하여 단어 사전을 구축하는 것은 매우 시간과 노력이 많이 소요되는 작업이다. In order to classify the subject category of the sentence to receive the classification target sentence, it is necessary to analyze which subject category the words included in the sentence correspond to, and for this, a word dictionary storing the words of the subject category is required. However, constructing a word dictionary by manually labeling the words to be included in the word dictionary of each subject category is very time-consuming and labor-intensive.

이에 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 신문이나 뉴스 또는 잡지에 포함된 문서들은 주제 별로 전문가에 의하여 문서가 효과적으로 분류되어 있다는 점에 착안하여, 주제 카테고리 별 신문이나 뉴스 기사 문서 또는 잡지 문서를 이용하여 주제 카테고리 별 단어 사전을 생성하는 구성을 제공한다. 그리고 이와 같이 생성한 단어 사전을 이용하여 분류 대상 문장의 주제 카테고리를 분류하는 구성을 제공한다. 예를 들면 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 주제 카테고리 별 문서가 분류된 신문 또는 뉴스 기사를 입력받아 이를 분석하여 단어 사전을 생성하고, 이를 이용하여 소셜 미디어 또는 소셜 네트워크 서비스에서 생성되는 문장을 입력받아 해당 문장의 주제 카테고리를 분류할 수 있다. Accordingly, the apparatus and method for classifying a text subject category according to the present invention can be classified into a newspaper, a news article, or a magazine document by taking into consideration the fact that documents included in a newspaper, a news, To generate a word dictionary for each subject category. The present invention provides a configuration for classifying the subject category of the classification target sentence by using the word dictionary thus generated. For example, the apparatus and method for classifying a text subject category according to the present invention may be arranged such that a newspaper or a news article classified by a subject category is inputted and analyzed to generate a word dictionary, The subject category of the sentence can be classified by receiving the sentence.

이상과 같이 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 특정 미디어의 문장의 주제 카테고리를 분류하기 위하여 해당 미디어와 다른 이종의 미디어 - 상술한 예에서는 신문, 뉴스, 잡지 미디어 - 의 문서 자료를 이용하여 생성한 주제 카테고리 별 단어 사전을 이용하는 구성을 제공한다. 이와 같은 이종 미디어를 활용한 주제 카테고리 분류를 수행함으로써, 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 주제가 분류되지 않아 분류 대상이 되는 미디어의 데이터를 수동적으로 분류하여 단어 사전을 생성하지 아니하고, 다른 미리 주제가 분류된 미디어를 이용하여 보다 효율적으로 단어 사전을 생성할 수 있는 효과가 있다.As described above, in the apparatus and method for classifying text subject category according to the present invention, in order to classify a subject category of a sentence of a specific medium, different kinds of media other than the corresponding media, for example, document data of newspapers, A word dictionary for each subject category is generated. By performing the subject category classification using the heterogeneous media, the text subject category classification apparatus according to the present invention does not classify the subject, passively classifies the data of the media to be classified and does not generate the word dictionary, The word dictionary can be generated more efficiently by using the classified media.

또한 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 상술한 바와 같이 주제 카테고리 별로 분류된 문서에 포함된 단어들을 분석하되, TF-IDF 방법을 이용하여 생성한 단어 사전 또는 LDA 방법을 이용하여 생성한 단어 사전을 이용하는 구성을 제공한다. 그리고 여기서 주제 카테고리 별 단어 사전에 포함된 단어들을 정제하기 위하여, 여러 주제 카테고리에 반복적으로 등장하는 단어들은 제거하고, 특히 LDA 방법을 이용하여 단어 사전을 생성할 때 사전에 TF-IDF 값이 작은 단어들을 'Stop Word'로 분류하여 제거하는 구성을 제공한다.In addition, the apparatus and method for classifying text subject categories according to the present invention can analyze words included in a document classified by a subject category as described above, and generate words using a word dictionary or LDA method generated using the TF-IDF method Provides a configuration using a word dictionary. Here, in order to refine the words included in the word dictionary according to the subject category, it is necessary to remove words repeatedly appearing in various subject categories, and in particular, when a word dictionary is generated using the LDA method, a word having a small TF- And 'Stop Word'.

특히 본 발명은 이종 미디어 간의 데이터의 이질성을 제거하기 위하여, 상술한 과정에 따라 등록된 단어들 중에서 특정 주제 카테고리 별 단어 사전에서 포함되는 것으로 판단되었지만, 실제로는 그 의미 상 어느 주제 카테고리에도 포함되지 않는 단어들을 클러스터링 분석 방법을 이용하여 단어 사전에서 제거하는 구성을 제안한다. 이와 같이 비 관련 단어를 제거하는 구성을 통하여 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 그 방법은 이종 미디어의 자료를 이용하여 단어 사전을 생성함으로써 발생하는 데이터의 이질성을 제거하고, 보다 신뢰도 있게 분류 대상 문장의 주제 카테고리를 분류할 수 있는 효과가 있다.In particular, in order to remove heterogeneity of data between different media, the present invention is judged to be included in a word dictionary of a specific subject category among the registered words according to the above-mentioned process, but actually, We propose a method to remove words from word dictionary using clustering analysis method. According to the present invention, the text subject category classification apparatus and method according to the present invention can remove the heterogeneity of data generated by generating word dictionaries using data of different media, It has the effect of classifying the subject category of the sentence.

또한 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 위와 같은 과정을 통하여 생성한 주제 카테고리 별 단어 사전을 기초로 분류기를 이용하여 분류 대상 문장이 해당하는 주제 카테고리를 분류하는 구성을 제공한다. 보다 상세하게는 분류 대상 문장에 포함된 단어들을 각 주제 카테고리 별 단어 사전에서 찾고, 찾은 단어의 가중치를 단어 사전 별로 연산하여, 가장 높은 연산 값을 가지는 주제 카테고리를 해당 분류 대상 문장의 주제 카테고리로 결정할 수 있다.In addition, the apparatus and method for classifying a text subject category according to the present invention provide a structure for classifying a subject category corresponding to a classification target sentence using a classifier based on a word dictionary for each subject category generated through the above process. More specifically, the words included in the classification target sentence are searched in a word dictionary for each subject category, the weight of the found words is calculated for each word dictionary, and the subject category having the highest calculation value is determined as the subject category of the classification target sentence .

위와 같은 구성을 통하여 본 발명에 따른 텍스트 주제 카테고리 분류 장치 및 방법은 인터넷에서 발생하는 분류 대상 문장을 입력받고, 상기 단어 사전을 기반으로 하여 보다 효과적인 분류를 수행할 수 있는 특징 벡터를 추출하고 이를 기초로 해당 문장의 주제 카테고리를 신뢰도 있게 결정할 수 있는 효과가 있다. 그리고 문장 별로 결정한 주제 카테고리 분석 결과를 이용하여 특정 사용자의 관심사 또는 성향에 대한 정보를 추출할 수 있고, 또는 특정 집단에서의 또는 특정 기간 동안의 사용자들의 관심사 또는 성향에 대한 정보를 추출할 수는 효과가 있다.According to an embodiment of the present invention, a text subject category classification apparatus and method according to the present invention receives a classification subject sentence generated on the Internet, extracts a feature vector capable of performing more effective classification based on the word dictionary, The subject category of the sentence can be reliably determined. Then, it is possible to extract information on the interest or inclination of a specific user using the subject category analysis result determined for each sentence, or to extract information on the interest or inclination of the user in a specific group or during a specific period .

이하에서는 상술한 본 발명에 따른 텍스트 주제 카테고리 분류 장치와 그에 관한 방법 및 그에 관한 시스템에 대하여 보다 상세히 설명한다.Hereinafter, a text subject category classification apparatus, a method thereof, and a system therefor according to the present invention will be described in detail.

먼저 아래에서는 본 발명의 일 실시예에 따른 텍스트 주제 카테고리 분류 장치에 대하여 설명한다.First, a text subject category classification apparatus according to an embodiment of the present invention will be described below.

도 1은 본 발명의 일 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.1 is a block diagram of a text subject category classification apparatus according to an embodiment of the present invention.

상기 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 데이터 수집부(100), 단어 사전 생성부(200), 주제 카테고리 분류부(300)를 포함할 수 있다.The text subject category classification apparatus according to the present invention may include a data collection unit 100, a word dictionary generation unit 200, and a subject category classification unit 300.

여기서 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한 필요에 따라 각 구성요소들은 각각 하나의 독립적인 하드웨어로 구현되거나 각 하드웨어에 포함될 수도 있다. 또한 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 소프트웨어 프로그램으로 구현되어 프로세서 또는 신호 처리 모듈 위에서 동작할 수 있고, 또는 하드웨어의 형태로 구현되어 각종 프로세서, 칩(Chip), 반도체, 소자 등에 포함될 수 도 있다. 또한 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 컴퓨터, 각종 임베디드 시스템 또는 디바이스 상에서 하드웨어 또는 소프트웨어 모듈의 형태로 포함되어 동작할 수 있다. 바람직하게는 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 네트워크와 연결된 서버에서 구현되거나 서버에 포함될 수 있다. 여기서 본 발명에 따른 텍스트 주제 카테고리 분류 장치의 데이터 수집부(100), 단어 사전 생성부(200), 주제 카테고리 분류부(300)는 하나의 텍스트 주제 카테고리 분류 서비스 서버 상에서 모두 구현되거나 하나의 서버에 모두 포함될 수 있고, 필요에 따라서 일부 구성은 서로 다른 서버 상에서 구현되거나 복수개의 서버에 존재할 수도 있다. 또한 필요에 따라 일부 구성은 서버가 아닌 클라이언트 단말기 장치에서 구현되거나 클라이언트 단말기 장치에 포함될 수도 있다. 예를 들면 데이터 데이터 수집부(100), 단어 사전 생성부(200)는 서비스 서버에 포함될 수 있고, 주제 카테고리 분류부(300)는 클라이언트 단말기 장치에 포함될 수도 있다.Here, the text subject category classification apparatus according to the present invention may be embodied as a computer program having a program module that performs a part or all of the functions in combination with some or all of the constituent elements selectively combined in one or a plurality of hardware have. In addition, each component may be implemented as a single independent hardware or included in each hardware as needed. In addition, the text subject category classification apparatus according to the present invention may be implemented as a software program and operate on a processor or a signal processing module, or may be implemented in hardware form and included in various processors, chips, semiconductors, devices, . Further, the text subject category classification apparatus according to the present invention may be included in a form of hardware or software module on a computer, various embedded systems or devices. Preferably, the text subject category classification apparatus according to the present invention may be implemented in a server connected to a network or included in a server. Here, the data collection unit 100, the word dictionary generation unit 200, and the subject category classification unit 300 of the text subject category classification apparatus according to the present invention may be all implemented on one text subject category classification service server, And some configurations may be implemented on different servers or may exist on a plurality of servers as needed. In addition, some configurations may be implemented in the client terminal device, not the server, or included in the client terminal device, if necessary. For example, the data data collection unit 100 and the word dictionary generation unit 200 may be included in the service server, and the subject category classification unit 300 may be included in the client terminal device.

데이터 수집부(100)는 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집한다.The data collecting unit 100 receives a plurality of documents classified in advance by theme category, selects words in the sentence included in the document, and collects words by the subject category.

단어 사전 생성부(200)는 상기 데이터 수집부(100)에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록한다.The word dictionary generation unit 200 receives words collected by the subject category in the data collection unit 100, calculates weights for the input words, and outputs the input words A word dictionary to be included in the word dictionary existing for each subject category is selected for each subject category and registered in each word dictionary.

주제 카테고리 분류부(300)는 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단한다.The subject category classification unit 300 receives a classification target sentence and selects words included in each of the word dictionary in the subject category from among words included in the classification target sentence, Generates a feature vector according to the weight, and determines the subject category of the classification target sentence based on the generated feature vector.

도 2는 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.2 is a block diagram of a text subject category classification apparatus according to another embodiment of the present invention.

도 2와 같이 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 외부의 단어 사전 데이터베이스(50)와 연결하여 동작할 수 있다. 이때 텍스트 주제 카테고리 분류 장치는 단어 사전 생성부(200)에서 생성한 단어 사전을 단어 사전 데이터베이스(50)에 저장할 수 있다.As shown in FIG. 2, the text subject category classification apparatus according to the present invention can operate in connection with an external word dictionary database 50. At this time, the text subject category classifier may store the word dictionary generated by the word dictionary generator 200 in the word dictionary database 50. [

필요에 따라 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 장치는 상기 단어 사전 생성부(200)에서 생성한 상기 단어사전을 저장하는 단어 사전 데이터베이스(50)를 장치 안에 포함할 수도 있다.If necessary, the text subject category classification apparatus according to another embodiment of the present invention may include a word dictionary database 50 storing the word dictionary generated by the word dictionary generation unit 200 in the apparatus.

도 3은 이와 같은 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 장치의 블록도이다.FIG. 3 is a block diagram of a text subject category classification apparatus according to another embodiment of the present invention.

다음으로는 데이터 수집부(100)의 동작에 대하여 보다 상세히 설명한다.Next, the operation of the data collecting unit 100 will be described in more detail.

데이터 수집부(100)는 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집한다.The data collecting unit 100 receives a plurality of documents classified in advance by theme category, selects words in the sentence included in the document, and collects words by the subject category.

여기서 주제 카테고리는 문서의 주제를 분류하기 위하여 미리 분류되어 있는 복수개의 카테고리로, 예를 들면 '정치', '경제', '문화', '사회', '예술', '과학', '연예' 등으로 미리 분류된 주제 카테고리가 있을 수 있다. 여기서 주제 카테고리의 수와 종류는 사용자가 필요에 따라 설정할 수 있다. 여기서 문서는 적어도 하나 이상의 문장들의 집합을 의미하는 것으로 한 단락의 글이 될 수도 있고 복수개의 단락의 글이 될 수도 있다. 여기서 문서는 여러 개의 문장 단위로 나뉘어져 이하에서 상세히 설명할 바와 같이 분석되는데, 이는 특히 소셜 네트워크 서비스에서 통상적으로 사용되는 일정한 길이 이내의 문장 - 예를 들면 150자 이내의 문장 - 과 유사한 환경에서 문서를 분석하기 위함이다. 그리고 여기서 문장은 하나 이상의 단어들의 집합을 의미하는 것으로, 문법적으로 옳고 그름과는 상관이 없이 또는 문법적으로 완성된 문장인지 여부와는 상관이 없이 하나 이상의 단어들이 모여 성립되는 문자열을 지칭한다. 따라서 하나의 문장은 '나는 학교에 등교하였다'와 같은 완성된 문장이 될 수도 있지만, '나 학교 등교'와 같은 문법적으로 완성되지 않은 단어들의 집합인 문자열이 될 수 있고, 경우에 따라서 '나학교등교'와 같이 띄어쓰기가 올바르지 않은 문자열이 될 수도 있다. 여기서 단어는 각 언어에서 특정 의미를 가지는 것으로 정의되는 적어도 하나 이상의 문자들의 집합을 의미하고, 필요에 따라 사용자가 정의하는 특정 문자의 집합이 될 수도 있다. 예를 들면 '학교', '등교'와 같은 문자의 집합이 단어라고 할 수 있다.Here, the subject category is a plurality of categories classified in advance in order to classify the subject of the document, for example, 'politics', 'economy', 'culture', 'society', 'art', 'science' There may be pre-classified topic categories such as. The number and type of subject categories can be set by the user as needed. Here, the document means a set of at least one sentence, and may be a paragraph or a paragraph. Here, the document is divided into several sentences, which are analyzed as described in detail below, which is particularly useful in situations where the sentences within a certain length, typically used in social network services, It is for analysis. Here, a sentence refers to a set of one or more words, and refers to a string in which one or more words are gathered together irrespective of whether or not the sentence is syntactically complete, irrelevant to the grammatical right or wrong. Thus, one sentence may be a completed sentence such as 'I went to school', but it could be a string that is a set of grammatically incomplete words such as 'school attendance' and, in some cases, It may be an invalid character string such as 'school'. Here, the word means a set of at least one character defined as having a specific meaning in each language, and may be a set of specific characters defined by the user as needed. For example, a set of characters such as 'school' and 'school' may be words.

이때 데이터 수집부(100)는 상기 문장에서 소정의 문자 개수 이하로 구성된 문자열 또는 특수 문자 또는 숫자 문자를 제거하고, 형태소 분석을 수행하여 상기 문장으로부터 상기 단어 사전 생성부(200)에 입력할 단어들을 선정할 수 있다. 즉 단어 사전에 포함될 단어들을 선정하기에 앞서서 데이터 수집부(100)는 특정 주제 카테고리를 나타낸다고 볼 수 없는 문자들이라고 할 수 있는 특수 문자나 숫자 문자 등을 상기 문장에서 제거할 수 있다. 또한 소정의 개수 이하의 문자를 포함하는 문자열을 선정하여 상기 문장에서 제거할 수 있다. 예를 들면 데이터 수집부(100)는 두 개보다 작은 길이를 가지는 문자열을 상기 문장에서 제거할 수 있다. 여기서 데이터 수집부(100)는 문장이 포함하는 단어들을 추출하여 선정하기 위하여 기존의 다양한 방법의 형태소 분석 방법을 이용할 수 있음은 물론이다.At this time, the data collecting unit 100 removes a character string or a special character or a numeral character composed of a predetermined number of characters or less from the sentence, performs morphological analysis, and extracts words to be input to the word dictionary generating unit 200 from the sentence Can be selected. That is, the data collecting unit 100 may remove special characters, numeric characters, and the like, which are characters that can not be regarded as representing a specific subject category, before the words to be included in the word dictionary are selected. Also, a character string including a predetermined number or less of characters may be selected and removed from the sentence. For example, the data collecting unit 100 may remove a character string having a length less than two from the sentence. Here, the data collecting unit 100 can use a variety of conventional morpheme analysis methods for extracting and selecting words included in a sentence.

이때 데이터 수집부(100)는 상기 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서로써, 상기 주제 카테고리 별로 미리 분류된 뉴스 기사나 신문 기사나 또는 잡지 기사 문서들을 입력받을 수 있다.At this time, the data collecting unit 100 may receive a news article, a newspaper article, or a magazine article document classified in advance by the subject category, as a plurality of the documents classified in advance by the subject category.

상술한 바와 같이 주제 카테고리 별 단어 사전을 생성하기 위한 소스로 단어들을 수동적으로 라벨링하여 단어 사전에 등록하는 것은 매우 시간과 노력이 많이 소요되는 작업이다. 이에 본 발명에서는 신문이나 뉴스 또는 잡지에 포함된 문서들은 주제 별로 전문가에 의하여 문서가 효과적으로 분류되어 있다는 점에 착안하여, 데이터 수집부(100)에서 미리 주제 카테고리가 분류되어 있는 신문이나 뉴스 기사 문서 또는 잡지 문서를 입력받아 이용할 수 있다. 그리고 이처럼 특정 미디어의 문장의 주제 카테고리를 분류하기 위하여 해당 미디어와 다른 이종의 미디어의 문서 자료를 이용하여 주제 카테고리 별 단어 사전을 생성하고 이용함으로써, 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 분류 대상이 되는 미디어의 데이터를 수동적으로 분류하여 단어 사전을 생성하는 대신 미리 주제가 분류된 다른 미디어를 이용하여 보다 효율적으로 단어 사전을 생성할 수 있는 효과가 있다.As described above, manually labeling words as a source for generating a word dictionary for each subject category and registering them in the word dictionary is a very time-consuming and labor-intensive task. Accordingly, in the present invention, the documents included in the newspaper, the news, or the magazine are effectively classified by the experts according to the subject, so that the data collection unit 100 may classify the subject category, A magazine document can be input and used. In this way, in order to classify the subject category of the sentence of the specific media, the text subject category classification apparatus according to the present invention generates and uses a word dictionary for each subject category by using document data of different kinds of media from different media, It is possible to generate a word dictionary more efficiently by using other media classified in advance, instead of manually generating the word dictionary by manually classifying the data of the corresponding media.

다음으로는 단어 사전 생성부(200)의 동작에 대하여 보다 상세히 설명한다.Next, the operation of the word dictionary generation unit 200 will be described in more detail.

단어 사전 생성부(200)는 데이터 수집부(100)에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록한다.The word dictionary generation unit 200 receives words collected by the subject category in the data collection unit 100, calculates weights for the input words, and calculates the weighted words based on the calculated weights, A word dictionary to be included in the word dictionary existing in the subject category is selected for each subject category and registered in each of the word dictionary.

여기서 가중치는 특정 단어가 주제 카테고리와 연관된 정도를 나타내는 수치이다. 따라서 단어 사전 생성부(200)는 가중치 값의 크기 기준으로 단어들을 선정하여 각 주제 카테고리 별 단어 사전에 등록할 수 있다. 예를 들면 각 단어의 가중치를 미리 설정된 임계값과 비교하여 임계값 이상의 가중치를 가지는 단어들을 단어 사전에 등록할 수 있고, 또는 각 단어의 가중치에 따른 단어들 간의 순위를 산출하여 그 순위에 따라 단어들을 선정하여 단어 사전에 등록할 수도 있다.Here, the weight is a number indicating the degree to which a particular word is associated with the subject category. Therefore, the word dictionary generation unit 200 can select words based on the weight value size and register them in the word dictionary for each subject category. For example, the weight of each word may be compared with a predetermined threshold to register words having a weight equal to or greater than the threshold value in the word dictionary, or the ranking between words according to the weight of each word may be calculated, May be selected and registered in the word dictionary.

그리고 단어 사전 생성부(200)는 위와 같이 선정된 단어를 각 단어 사전에 등록할 때 해당 단어에 대하여 산출된 가중치도 함께 등록한다.Then, the word dictionary generator 200 also registers the calculated weight for the word when registering the selected word in each word dictionary.

이와 같은 단서 사전 생성부(200)의 동작에 따라 각 주제 카테고리 별로 단어 사전에 단어들이 선정되어 등록된다. 예를 들면 '정치' 주제 카테고리의 단어 사전에는 '정당', '선거', '투표'와 같은 단어들이 선정되어 등록될 수 있고, '예술' 주제 카테고리의 단어 사전에는 '영화', '음악', '미술'과 같은 단어들이 선정되어 등록될 수 있다.According to the operation of the clue dictionary generation unit 200, the words are selected and registered in the word dictionary in each subject category. For example, words such as 'political party', 'election' and 'vote' can be selected and registered in the word dictionary of the 'political' subject category, , 'Art' can be selected and registered.

도 4는 단어 사전 생성부(200)의 일 실시예에 따른 세부 블록도이다.FIG. 4 is a detailed block diagram according to an embodiment of the word dictionary generation unit 200. Referring to FIG.

여기서 단어 사전 생성부(200)는 제1 단어 사전 생성부(210)나 또는 제2 단어 사전 생성부(220)를 포함할 수 있다. 여기서 제1 단어 사전 생성부(210)는 TF-IDF(Term Frequency-Inverse Document Frequency) 알고리즘을 이용하여 단어 사전을 생성하고, 제2 단어 사전 생성부(220)는 LDA(Latent Dirichlet Allocation) 알고리즘을 이용하여 단어 사전을 생성한다. 단어 사전 생성부(200)는 필요에 따라 양 방식의 단어 사전 중 어느 하나를 선택하여 이용할 수 있다.Here, the word dictionary generation unit 200 may include a first word dictionary generation unit 210 or a second word dictionary generation unit 220. Here, the first word dictionary generation unit 210 generates a word dictionary using a TF-IDF algorithm, and the second word dictionary generation unit 220 generates an LDA (Latent Dirichlet Allocation) algorithm To generate a word dictionary. The word dictionary generation unit 200 can use any one of the word dictionary of both schemes as needed.

제1 단어 사전 생성부(210)는 데이터 수집부(100)에서 입력받은 단어들에 대하여, 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF(Term Frequency-Inverse Document Frequency) 가중치를 산출하고, 상기 산출한 TF-IDF 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정할 수 있다. 이때 제1 단어 사전 생성부(210)는 주제 카테고리 별로 상기 입력받은 단어들에 대하여 TF-IDF 가중치를 산출하고, 이를 기준으로 각 주제 카테고리에 대응하는 단어 사전에 등록될 단어들을 선정할 수 있다.The first word dictionary generation unit 210 generates a first word dictionary TF-IDF (Term Frequency-IDF) based on the sentence including the input word and information about the subject category, with respect to the words input from the data collection unit 100, Inverse Document Frequency (TF-IDF) weights may be calculated, and a word to be included in the word dictionary may be selected from the input words based on the calculated TF-IDF weight. At this time, the first word dictionary generation unit 210 may calculate TF-IDF weights for the input words in each subject category, and may select words to be registered in the word dictionary corresponding to each subject category.

여기서 TF-IDF 가중치는 "Joachims T, A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization, DTIC Document (1996)"에서 제안하는 TF-IDF 알고리즘에 따라 산출될 수 있다. 여기서 TF-IDF 가중치는 다른 문서 보다는 특정 문서와 더욱 연관성을 가지는 정도에 따라 특정 문서의 각 단어에 대하여 설정되는 가중치 값이 될 수 있다.The TF-IDF weight can be calculated according to the TF-IDF algorithm proposed in "Joachims T, A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization, DTIC Document (1996)". Here, the TF-IDF weight may be a weight value set for each word of a specific document according to the extent to which it is more related to a particular document than to other documents.

본 발명에서는 위 Joachims T가 제안하는 TF-IDF 알고리즘을 수정하여 본 발명과 같이 이종 미디어 분석을 이용한 텍스트 주제 카테고리 분류에 보다 적합하도록 수정된 TF-IDF 가중치를 산출하고, 이를 기준으로 각 주제 카테고리 단어 사전에 포함될 단어들을 선정한다. 다음은 본 발명에서 제안하는 수정된 TF-IDF 알고리즘에 따라 산출하는 TF-IDF 가중치이다.In the present invention, the modified TF-IDF algorithm proposed by Joachims T in the present invention is modified to calculate the modified TF-IDF weight to be more suitable for classification of text subject category using heterogeneous media analysis as in the present invention, Select words to be included in the dictionary. The following is a TF-IDF weight calculated according to the modified TF-IDF algorithm suggested by the present invention.

여기서 제1 단어 사전 생성부(210)는 해당 주제 카테고리에 대하여 더 높은 TF-IDF 가중치를 가지는 단어가 다른 주제 카테고리 보다 해당 주제 카테고리에 더 많이 나타나도록, 상기 TF-IDF 가중치를 산출하는 것이 바람직하다.Here, it is preferable that the first word dictionary generation unit 210 calculates the TF-IDF weight so that a word having a higher TF-IDF weight for the subject category appears more in the subject category than the other subject categories .

이를 위하여 제1 단어 사전 생성부(210)은 상기 입력받은 단어가 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 문장이 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 주제 카테고리의 수에 기초하여 상기 TF-IDF 가중치를 산출할 수 있다.For this, the first word dictionary generation unit 210 generates the first word dictionary generation unit 210 based on the number of the input words appearing in the document, the number of the sentences including the input words appearing in the document, The TF-IDF weight can be calculated based on the number of categories.

보다 구체적으로 단어 wi는 데이터 수집부(100)에서 각 문서 d 에 대하여 주제 카테고리 별로 수집된 단어로써, 문서 d에 포함된 i 번째 단어를 의미한다고 할 때, TF-IDF 가중치는 TF 가중치, SF 가중치, IDF 가중치에 따라 값이 설정될 수 있다. 그리고 여기서 TF 가중치는 단어 wi가 문서 d에 나타난 빈도수에 따른 값이고, SF 가중치는 단어 wi를 포함하는 문장이 문서 d에 나타난 빈도수에 따른 값이고, IDF 가중치는 단어 wi를 포함하는 주제 카테고리의 수의 비율에 따른 값이 될 수 있다.More specifically, when it is assumed that the word w i is the i-th word included in the document d as a word collected for each document d for each document d in the data collection unit 100, the TF-IDF weight is a TF weight, The value can be set according to the weight and the IDF weight. Here, the TF weight is a value according to the frequency of occurrence of the word w i in the document d, the SF weight is a value according to the frequency shown in the document d including the word w i , and the IDF weight is a subject including the word w i It can be a value according to the ratio of the number of categories.

여기서 제1 단어 사전 생성부(210)는 TF-IDF 가중치를 하기 수학식 1과 같이 산출하는 것이 바람직하다.Here, the first word dictionary generation unit 210 preferably calculates the TF-IDF weight according to Equation (1).

Figure pat00001
Figure pat00001

여기서 S(i)는 상기 TF-IDF 가중치이고, TF(wi, d)는 TF 가중치이고, SF(wi, d)는 SF 가중치이고, IDF(wi, d)는 IDF 가중치이다. 여기서 wi는 문서 d에 포함된 i 번째 단어이고, wordwi,d 는 단어 wi가 문서 d에 나타난 수이고, wordtotal,d 는 문서 d에 포함된 총 단어의 수이다. 여기서 sentencewi,d 는 단어 wi를 포함하는 문장이 문서 d에 나타난 수이고, sentencetotal,d 는 문서 d에 포함된 총 문장의 수이다. 또한 여기서 categorywi는 단어 wi를 포함하는 주제 카테고리의 수이고, categorytotal은 주제 카테고리의 총 수이다.Where S (i) is the TF-IDF weighting, and TF is a weight (w i, d) TF, SF (w i, d) is SF weight, and the (w i, d) IDF is IDF weight. Where w i is the ith word in document d, word w i , d is the number of words w i in document d, and word total, d is the total number of words in document d. Where sentence wi, d is the number of sentences containing the word w i in document d, sentence total, and d is the total number of sentences in document d. In addition, where wi is the category number of the category containing the word w i, category total is the total of the category.

그리고 여기서 FTF, FSF, FIDF는 각각 아래 수학식 2와 같은 함수가 될 수 있다.Here, F TF , F SF , and F IDF can be functions as shown in Equation (2) below.

Figure pat00002
Figure pat00002

여기서 a, b, c는 상기 가중치의 값을 조절하기 위하여 설정되는 파라미터이다. 예를 들면 a, b는 1로 설정될 수 있고, c는 0 내지 1 사이에서 설정될 수 있다.Where a, b, and c are parameters set to adjust the value of the weight. For example, a, b may be set to 1, and c may be set between 0 and 1.

제1 단어 사전 생성부(210)는 이상과 같이 산출한 TF-IDF 가중치를 기준으로 각 주제 카테고리 별로 단어들을 선정하고, 선정된 단어들들 각 주제 카테고리에 대응하는 단어 사전에 등록한다. 이때 단어 사전에 1차적으로 등록된 단어들에 대하여, 필요에 따라 아래에서 상세히 설명하는 바와 같이 중복 단어 제거부(230) 또는 비 관련 단어 제거부(240)를 이용하여 일부 단어들을 선별하여 제거할 수 있다. The first word dictionary generation unit 210 selects words in each subject category based on the TF-IDF weight calculated as described above, and registers the selected words in the word dictionary corresponding to each subject category. At this time, some words are selectively selected and removed using the redundant word removing unit 230 or the non-related word removing unit 240 as described below in detail, as necessary, for the words registered in the word dictionary .

다음으로 제2 단어 사전 생성부(220)는 상기 데이터 수집부(100)에서 입력받은 단어들에 대하여 LDA(Latent Dirichlet Allocation) 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정할 수 있다. 이때 제2 단어 사전 생성부(220)는 주제 카테고리 별로 상기 입력받은 단어들에 대하여 LDA 랭크 가중치를 산출하고, 이를 기준으로 각 주제 카테고리에 대응하는 단어 사전에 등록될 단어들을 선정할 수 있다.Next, the second word dictionary generation unit 220 performs an LDA (Latent Dirichlet Allocation) analysis on the words input from the data collection unit 100, calculates an LDA rank weight according to the analysis result, A word to be included in the word dictionary can be selected from the input words based on the calculated LDA rank weight. At this time, the second word dictionary generation unit 220 may calculate LDA rank weights for the input words in each subject category, and may select words to be registered in the word dictionary corresponding to each subject category based on the LDA rank weight.

여기서 제2 단어 사전 생성부(220)는 "Blei DM, Ng AY, Jordan MI, Latent dirichlet allocation. the Journal of machine Learning research 3:993-1022 (2003)"에서 제안하는 LDA 알고리즘에 따라 LDA 분석을 수행할 수 있다. 여기서 LDA 알고리즘은 특정 문서 내에서 보다 강한 연관성 또는 중요도를 가지는 단어를 구별할 수 있다. 이와 같이 LDA 분석을 수행하면 문서가 서로 다른 단어 분포를 가지는 토픽들의 합이라고 가정할 때, 각 문서를 구성하는 토픽들이 분류되며, 이때 각 토픽들은 해당 토픽을 대표하는 단어들을 포함한다.Here, the second word dictionary generation unit 220 performs an LDA analysis according to the LDA algorithm proposed in "Blei DM, Ng AY, Jordan MI, Latent dirichlet allocation. The Journal of machine learning research 3: 993-1022 Can be performed. Here, the LDA algorithm can distinguish words having a stronger association or importance within a particular document. When the LDA analysis is performed, assuming that the document is the sum of topics having different word distributions, the topics constituting each document are classified, and each topic includes words representing the topic.

제2 단어 사전 생성부(220)는 LDA 분석을 수행할 때 하나의 주제 카테고리의 단어 사전에 포함된 단어들이 하나의 문서에 포함된 단어들이라고 가정하고, 각 주제 카테고리 별 단어 사전에 포함된 단어들에 대하여 LDA 분석을 수행하여 복수개의 토픽으로 각 단어 사전을 분류한다. 그리고 제2 단어 사전 생성부(220)는 위와 같이 분류된 토픽들을 이용하여 다음과 같이 LDA 단어 가중치를 산출하고, 그에 따라 LDA 랭크 가중치를 산출한다.When the LDA analysis is performed, it is assumed that the words included in the word dictionary of one subject category are words included in one document, and the words included in the word dictionary of each subject category , And classifies each word dictionary into a plurality of topics. Then, the second word dictionary generation unit 220 calculates the LDA word weight using the above-described classified topics, and calculates the LDA rank weight according to the weight.

제2 단어 사전 생성부(220)는 다음 수학식 3과 같이 LDA 단어 가중치를 산출될 수 있다.The second word dictionary generation unit 220 may calculate the LDA word weight as shown in Equation (3).

Figure pat00003
Figure pat00003

여기서 Win은 i 번째 토픽에 대한 n 번째 단어의 가중치이고, 해당 토픽에서 n 번째 단어의 비율을 의미한다. 이때 위 Win은 해당 토픽에서 나타나는 해당 단어의 빈도의 합으로 각각 단어의 빈도를 나누어 준 값이 될 수 있다. 여기서 Pi는 토픽들 중에서의 i 번째 토픽의 비율을 의미한다. 그리고 Wn은 n 번째 단어의 LDA 단어 가중치를 의미한다.Where W in is the weight of the nth word for the i th topic and the ratio of the nth word in the topic. In this case, W in is the sum of the frequencies of the corresponding words appearing in the topic, and can be a value obtained by dividing the frequency of each word. Here, Pi represents the ratio of the i-th topic among the topics. And W n is the LDA word weight of the nth word.

다음으로 제2 단어 사전 생성부(220)는 위와 같이 산출한 LDA 단어 가중치를 이용하여 LDA 랭크 가중치를 산출한다. 이때 제2 단어 사전 생성부(220)는 LDA 단어 가중치에 따라 단어들을 정렬하고, 가장 높은 LDA 단어 가중치를 가지는 단어에 해당 문서가 포함하는 단어의 총 수를 설정하고, 가장 낮은 LDA 단어 가중치를 가지는 단어에 소정의 수 - 예를 들면 1 - 을 설정하고, 이와 같이 설정한 수를 해당 문서가 포함하는 단어의 총 수로 나누어 각 단어에 대한 LDA 랭크 가중치를 산출한다.Next, the second word dictionary generation unit 220 calculates LDA rank weights using the LDA word weights calculated as described above. At this time, the second word dictionary generation unit 220 arranges the words according to the LDA word weight, sets the total number of words included in the document to the word having the highest LDA word weight, The LDA rank weight for each word is calculated by setting a predetermined number of words, for example, 1 -, and dividing the set number by the total number of words included in the document.

제2 단어 사전 생성부(220)는 이상과 같이 산출한 LDA 랭크 가중치를 기준으로 각 주제 카테고리 별로 단어들을 선정하고, 선정된 단어들들 각 주제 카테고리에 대응하는 단어 사전에 등록한다. 이때 단어 사전에 1차적으로 등록된 단어들에 대하여, 필요에 따라 아래에서 상세히 설명하는 바와 같이 중복 단어 제거부(230) 또는 비 관련 단어 제거부(240)를 이용하여 일부 단어들을 선별하여 제거할 수 있다.The second word dictionary generation unit 220 selects words for each subject category on the basis of the LDA rank weight calculated as described above, and registers the selected words in the word dictionary corresponding to each subject category. At this time, some words are selectively selected and removed using the redundant word removing unit 230 or the non-related word removing unit 240 as described below in detail, as necessary, for the words registered in the word dictionary .

또한 제2 단어 사전 생성부(220)는 필요에 따라 상술한 LDA 분석을 수행하기에 앞서, 데이터 수집부(100)에서 입력받은 단어들에 대하여 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 위에서 상세히 설명한 바와 같이 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치가 소정의 기준값보다 작은 단어들을 상기 입력받은 단어들에서 제거하는 과정을 수행할 수 있다. 여기서 소정의 기준값은 필요에 따라 특정 값으로 설정될 수 있다.The second word dictionary generation unit 220 may be configured to perform the LDA analysis as described above with respect to the words received from the data collection unit 100, IDF weight, and removing the words having the calculated TF-IDF weight less than a predetermined reference value from the input words, as described in detail above, based on the information about the TF-IDF weight. Here, the predetermined reference value may be set to a specific value as needed.

이와 같이 TF-IDF 가중치에 따라 일부 단어들을 제거한 경우, 제2 단어 사전 생성부(220)는 상기 제거 후 남은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정할 수 있다.In the case where some words are removed according to the TF-IDF weight, the second word dictionary generator 220 performs an LDA analysis on the remaining words after the removal, calculates an LDA rank weight according to the analysis result, A word to be included in the word dictionary may be selected from the input words based on the calculated LDA rank weight.

이때 단어 사전 생성부(200)는 중복 단어를 제거하는 구성이나 또는 비 관련 단어를 제거하는 구성을 더 포함할 수 있다.At this time, the word dictionary generator 200 may further include a configuration for removing redundant words or a configuration for removing unrelated words.

도 5는 이와 같은 본 발명의 또 다른 실시예에 따른 단어 사전 생성부(200)의 세부 블록도이다.5 is a detailed block diagram of the word dictionary generation unit 200 according to another embodiment of the present invention.

여기서 단어 사전 생성부(200)는 중복 단어 제거부(230) 또는 비 관련 단어 제거부(240) 중 적어도 어느 하나 이상을 더 포함할 수 있다.Here, the word dictionary generating unit 200 may further include at least one of the redundant word removing unit 230 and the non-related word removing unit 240.

중복 단어 제거부(230)는 상기 주제 카테고리 별 상기 단어 사전에 포함된 단어들 중에서 중복 단어를 제거한다. 단어 사전 생성부(200)에서 데이터 수집부(100)에서 입력받은 단어들에 대하여 가중치를 산출하고 이를 기준으로 단어들을 선정하여 각 주제 카테고리 별 단어 사전에 등록하였을 때, 단어 사전들 간에 중복되는 단어들이 존재할 수 있고, 이와 같이 중복되는 단어들이 주제 카테고리 분류 성능을 열화시킬 수 있다. 이에 중복 단어 제거부(230)에서는 이와 같이 중복되는 단어들에 대하여 가장 관련성이 높은 주제 카테고리에 대응하는 단어 사전에만 해당 단어를 남겨놓고, 나머지 주제 카테고리의 단어 사전에서는 중복 단어들을 제거하는 것이 바람직하다.The redundant word remover 230 removes the redundant word among the words included in the word dictionary for each subject category. When the word dictionary generation unit 200 calculates weights for the words input from the data collection unit 100 and selects words based on the weights and registers them in the word dictionary for each subject category, May exist, and such overlapping words may degrade subject category classification performance. Therefore, it is preferable that the redundant word remover 230 leaves only the word dictionary corresponding to the subject category having the highest relevance to the redundant words, and the redundant words are removed from the word dictionary of the remaining subject category.

이를 위하여 중복 단어 제거부(230)는 두 개 이상의 상기 단어 사전에 공통으로 포함되는 상기 중복 단어들 중, 상기 중복 단어의 각 주제 카테고리에서의 상기 TF-IDF 가중치를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거할 수 있다. 여기서 중복 단어 제거부(230)는 중복 단어 중 TF-IDF 가중치가 가장 높은 주제 카테고리의 단어 사전에만 중복 단어를 남기고, 나머지 주제 카테고리의 단어 사전에서 중복 단어를 제거할 수 있다.For this, the redundant word remover 230 removes the redundant word based on the TF-IDF weight in the subject category of the redundant word among the redundant words commonly included in the two or more word dictionary Select the subject category, and remove the duplicate word from the word dictionary of the selected subject category. Here, the redundant word remover 230 may remove redundant words from the word dictionary of the remaining subject categories while leaving redundant words only in the word dictionary of the subject category with the highest TF-IDF weight among the redundant words.

또는 중복 단어 제거부(230)는 두 개 이상의 상기 단어 사전에 공통으로 포함되는 상기 중복 단어들 중, 상기 단어 사전에서 상기 중복 단어가 발생한 빈도수를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거할 수 있다. 여기서 중복 단어 제거부(230)는 중복 단어가 발생한 빈도수가 높은 주제 카테고리의 단어 사전에만 중복 단어를 남기고, 나머지 주제 카테고리의 단어 사전에서 중복 단어를 제거할 수 있다.Alternatively, the redundant word remover 230 may select the subject category to remove the redundant word based on the frequency of occurrence of the redundant word in the word dictionary, among the redundant words commonly included in the two or more word dictionary And remove the duplicate word from the word dictionary of the selected subject category. Here, the redundant word remover 230 may remove redundant words from the word dictionary of the remaining subject categories while leaving redundant words only in the word dictionary of the subject category having a high frequency of occurrence of redundant words.

바람직하게는 중복 단어 제거부(230)는 상술한 바와 같이 TF-IDF 가중치를 기준으로 중복 단어를 제거하되, 가장 높은 TF-IDF 가중치를 가지는 주제 카테고리가 두 개 이상 존재하는 경우, 상술한 바 중복 단어가 발생한 빈도수를 기준으로 중복 단어들을 제거하는 것이 바람직하다.Preferably, the redundant word remover 230 removes redundant words based on the TF-IDF weight as described above. When there are two or more subject categories having the highest TF-IDF weight, It is desirable to remove redundant words based on the frequency of occurrence of the word.

다음으로 비 관련 단어 제거부(240)는 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들 중에서 상기 주제 카테고리와 비 관련된 단어를 선별하고, 상기 선별한 단어들을 상기 단어 사전에서 제거한다.Next, the non-related word removal unit 240 selects a word that is not related to the subject category among the words included in the word dictionary for each subject category, and removes the selected words from the word dictionary.

여기서 비 관련 단어 제거부(240)는 먼저 각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수에 따른 TF 가중치 값을 기초로, 복수개의 부분 집합들로 클러스터링할 수 있다. 여기서 TF 가중치 값은 위 제1 단어 사전 생성부(110)에서 설명한 것과 동일한 방식으로 산출되는 값이 될 수 있고, 따라서 제1 단어 사전 생성부(110)에서 산출할 값을 이용할 수 있다.Here, the non-related word removal unit 240 first determines words contained in each of the word dictionaries based on the number of occurrences of the word in the subject category, the number of the document in which the word is included in the subject category, May be clustered into a plurality of subsets based on the TF weight value according to the frequency of occurrence of the word in the document. Here, the TF weight value may be a value calculated in the same manner as described in the first word dictionary generation unit 110, and thus the value calculated by the first word dictionary generation unit 110 may be used.

여기서 클러스터링을 위한 알고리즘으로는 EM(Expectation-Maximization) 클러스터링 알고리즘을 이용할 수 있다.Here, an EM (Expectation-Maximization) clustering algorithm can be used as an algorithm for clustering.

다음으로 비 관련 단어 제거부(240)는 상기 클러스터링 한 부분 집합들 중 상기 빈도수에 따른 TF 가중치 값을 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정할 수 있다.Next, the non-related word removal unit 240 may select at least one non-related cluster based on the TF weight value according to the frequency among the clustered subsets.

바람직하게는 비 관련 단어 제거부(240)는 TF 가중치 값이 소정의 기준 값보다 작은 단어들을 포함하는 클러스터를 상기 비 관련 클러스터로 선정할 수 있다. 이를 위하여 각 클러스터를 대표하는 TF 가중치 값의 대표 값을 클러스터 별로 산출할 수 있고, 이를 기준으로 클러스터들 중에서 비 관련 클러스터를 선정할 수 있다. 여기서 상기 기준 값은 필요에 따라 설정될 수 있는 값임은 물론이다.Preferably, the non-related word remover 240 may select a cluster including words having a TF weight value smaller than a predetermined reference value as the non-related cluster. For this purpose, representative values of TF weight values representing each cluster can be calculated for each cluster, and non-related clusters among the clusters can be selected based on the representative values. Here, the reference value may be a value that can be set as needed.

다음으로 비 관련 단어 제거부(240)는 상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거할 수 있다.Next, the non-related word removal unit 240 may remove words included in the non-related cluster from the word dictionary.

도 6은 비 관련 단어 제거부(240)의 동작을 설명하기 위한 참고도이다.6 is a reference diagram for explaining the operation of the non-related word removal unit 240. Referring to FIG.

도 6은 본 발명에 따른 비 관련 단어 제거부(240)가 '정치' 주제 카테고리에 대응하는 단어 사전에 포함된 단어들에 대하여, 상술한 방법에 따라 클러스터링을 한 결과를 나타내는 그래프이다. 도 6을 참조하면, 총 15개의 클러스터로 단어들이 분할되었고, 도 6에서 y 축인 문서 개수는 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수를 의미하고, x 축인 단어 개수는 상기 단어가 상기 주제 카테고리에서 나타난 수를 의미한다. 그리고 여기서 적색으로 표현되는 클러스터들은 TF 가중치 값이 소정의 기준 보다 높은 클러스터들이고, 청색으로 표현되는 클러스터들은 TF 가중치 값이 소정의 기준 보다 작은 클러스터들이다. 이때 비 관련 단어 제거부(240)는 도 6에서 TF 가중치 값이 소정의 기준 보다 작은 클러스터들을 비 관련 클러스터로 선정하고, 상기 선정한 비 관련 클러스터에 포함된 단어들을 비 관련 단어로써 '정치' 주제 카테고리에 대응하는 단어 사전에서 제거할 수 있다.FIG. 6 is a graph showing a result of clustering the words included in the word dictionary corresponding to the 'political' subject category according to the above-described method, according to the non-related word removing unit 240 according to the present invention. Referring to FIG. 6, words are divided into a total of 15 clusters. In FIG. 6, the number of documents in the y-axis indicates the number of the documents in which the word is included in the subject category, Means the number in the subject category. Here, the clusters represented by red are clusters whose TF weight values are higher than a predetermined criterion, and clusters represented by blue are clusters whose TF weight values are smaller than a predetermined criterion. In this case, the non-related word removal unit 240 selects the clusters having a TF weight value smaller than a predetermined criterion as the non-related clusters in FIG. 6, and the words included in the selected non- Can be removed from the word dictionary corresponding to the word dictionary.

이와 같이 비 관련 단어를 제거하는 구성을 통하여 본 발명에 따른 텍스트 주제 카테고리 분류 장치는 이종 미디어의 자료를 이용하여 단어 사전을 생성함으로써 발생하는 데이터의 이질성을 제거하고, 보다 신뢰도 있게 분류 대상 문장의 주제 카테고리를 분류할 수 있는 효과가 있다.In this way, the text subject category classification apparatus according to the present invention removes the heterogeneity of data generated by generating the word dictionary by using the data of the heterogeneous media, and more reliably removes the subject There is an effect of classifying categories.

다음으로는 주제 카테고리 분류부(300)의 동작에 대하여 보다 상세히 설명한다.Next, the operation of the subject category classification unit 300 will be described in more detail.

주제 카테고리 분류부(300)는 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단한다.The subject category classification unit 300 receives a classification target sentence and selects words included in each of the word dictionary in the subject category from among words included in the classification target sentence, Generates a feature vector according to the weight, and determines the subject category of the classification target sentence based on the generated feature vector.

여기서 분류 대상 문장은 인터넷에서 전송되는 데이터에 포함된 문장이 될 수 있고, 바람직하게는 소셜 미디어에서 생성되는 문장이 될 수 있다. 예를 들면 분류 대상 문장은 트위터나 페이스 북과 같은 소셜 네트워크 서비스에서 발생하는 문장이 될 수 있다. 이와 같은 소셜 네트워크 서비스에서 발생하는 문장은 다른 일반적인 글에 포함된 문장보다 길이가 짧고 그에 따라 포함하는 단어의 수가 적은 특성을 가지는 것이 보통이다. 따라서 기존의 긴 문장에 여러 단어들이 포함되는 경우에 주로 적용되었던 기존의 주제 분류 방식은 위와 같은 경우 적합하지 않다고 할 것이다.Here, the classified target sentence may be a sentence included in data transmitted from the Internet, and preferably a sentence generated in a social media. For example, a sentence to be classified can be a sentence occurring in a social network service such as Twitter or Facebook. The sentence in such a social network service is usually shorter in length than the sentences contained in other general texts, and thus has a characteristic that the number of words to be included is small. Therefore, it is said that the existing subject classification method, which is mainly applied when a plurality of words are included in the existing long sentence, is not suitable in the above case.

이에 본 발명에 따른 주제 카테고리 분류부(300)는 짧은 문장에 대하여도 보다 신뢰도 있게 주제 카테고리를 분류하기 위하여, 상술한 바와 같이 분류 대상 문장에 포함된 각 단어들을 각 주제 카테고리 별 단어 사전에서 찾고, 찾아진 단어들의 가중치에 따라 특징 벡터를 생성하여 이를 기초로 문장의 주제 카테고리를 판단하는 방법을 이용한다.Accordingly, in order to more reliably classify the subject category with respect to a short sentence, the subject category classifier 300 according to the present invention searches each word included in the classification target sentence in the word dictionary for each subject category as described above, A feature vector is generated according to the weight of the searched words, and a subject category of the sentence is determined based on the generated feature vector.

보다 구체적으로 주제 카테고리 분류부(300)는 특징 벡터 추출부(310), 분류부(320)를 포함할 수 있다.More specifically, the subject category classifier 300 may include a feature vector extractor 310 and a classifier 320.

도 7은 주제 카테고리 분류부(300)의 세부 블록도이다.7 is a detailed block diagram of the subject category classification unit 300. As shown in FIG.

특징 벡터 추출부(310)는 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 연산한 값을 상기 특징 벡터의 각 원소로 설정하여, 상기 특징 벡터를 생성할 수 있다.The characteristic vector extracting unit 310 selects words included in each of the word dictionary of the subject category among words included in the classification target sentence and calculates values of the weighted values of the selected words Can be set to each element of the feature vector to generate the feature vector.

여기서 특징 벡터는 주제 카테고리의 수에 따른 개수의 원소를 가지는 벡터가 될 수 있고, 각 원소의 값은 각 주제 카테고리의 단어 사전에 포함된 분류 대상 문장의 단어들의 가중치 값을 연산한 값이 될 수 있다.Here, the feature vector may be a vector having a number of elements corresponding to the number of subject categories, and the value of each element may be a value obtained by calculating a weight value of words of the classification target sentences included in the word dictionary of each subject category have.

이때 특징 벡터 추출부(310)는 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 합산한 값을 상기 특징 벡터의 각 상기 원소로 설정하는 것이 바람직하다.In this case, the feature vector extracting unit 310 may set a value obtained by summing each of the weights of the selected words in each of the theme categories to each of the elements of the feature vector.

예를 들면 주제 카테고리가 '문화', '경제', '세계', '정치', '과학', '사회', '스포츠'로 총 7개라고 할 때, 특징 벡터 추출부(130)는 각 주제 카테고리 별로 존재하는 단어 사전에서 분류 대상 문장의 단어들을 검색하고, 각 주제 카테고리 별 단어 사전에 포함된 단어들의 가중치를 주제 카테고리 별로 합산하여, 주제 카테고리 별 가중치의 합을 구할 수 있다. 예를 들어 '문화', '경제', '세계', '정치', '과학', '사회', '스포츠'의 각 주제 카테고리에 대하여 각 포함된 단어들의 가중치의 합이 '4', '6', '8', '3', '0', '2', '0'이라고 한다면, 특징 벡터 추출부(310)는 (4, 6, 8, 3, 0, 2, 0) 벡터와 같이 특징 벡터를 생성할 수 있다.For example, when the subject categories are seven, namely, "culture", "economy", "world", "politics", "science", " It is possible to search for words in the classification target sentence in a word dictionary existing for each subject category and add the weight of words included in the word dictionary for each subject category by subject category to obtain the sum of weights for each subject category. For example, for each subject category of 'culture', 'economy', 'world', 'politics', 'science', 'society', and 'sports', the sum of the weight of each included word is '4' (4, 6, 8, 3, 0, 2, 0) vector and a vector Likewise, feature vectors can be generated.

다음으로 분류부(320)는 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 결정할 수 있다.Next, the classifying unit 320 may determine the subject category of the classification target sentence based on the generated characteristic vector.

여기서 분류부(320)는 최대 가중치(Maximum Weight) 기법에 따라 상기 특징 벡터의 상기 원소들 중에서 최대의 값을 가지는 상기 원소에 대응하는 상기 주제 카테고리를 상기 분류 대상 문장의 상기 주제 카테고리로 결정할 수 있다. 즉 특징 벡터의 원소 값 중 최대 값을 가지는 원소에 대응하는 주제 카테고리를 분류 대상 문장의 주제 카테고리로 결정할 수 있다. 예를 들면 상술한 예와 같이 '문화', '경제', '세계', '정치', '과학', '사회', '스포츠'의 각 주제 카테고리에 대하여 분류 대상 문장으로부터 추출된 특징 벡터가 (4, 6, 8, 3, 0, 2, 0)일 때 가장 높은 원소 값 8에 대응하는 주제 카테고리인 '세계'가 분류 대상 문장의 주제 카테고리로 결정될 수 있다.The classification unit 320 may determine the subject category corresponding to the element having the largest value among the elements of the feature vector as the subject category of the classification target sentence according to a maximum weight technique . That is, the subject category corresponding to the element having the maximum value among the element values of the feature vector can be determined as the subject category of the classification target sentence. For example, a feature vector extracted from a classification target sentence for each subject category of 'culture', 'economy', 'world', 'politics', 'science', 'society' The subject category "world" corresponding to the highest element value 8 when the number of the elements is 4, 6, 8, 3, 0, 2, 0 can be determined as the subject category of the classification target sentence.

또는 분류부(320)는 서포트 벡터 머신(SVM)에 기반한 미리 학습된 분류기를 이용하여, 상기 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 분류할 수 있다.Alternatively, the classifier 320 may classify the subject category of the classification subject sentence based on the feature vector, using a pre-learned classifier based on a support vector machine (SVM).

여기서 서포트 벡터 머신에 기반한 분류기는 "Suykens JA, Vandewalle J, Least squares support vector machine classifiers. Neural processing letters 9 (3):293-300 (1999)"에서 제안하는 방법에 따라 설정되어 적용될 수 있다. 여기서 SVM에 기반한 분류기의 학습은 각 특징 벡터 별로 미리 주제 카테고리가 설정된 학습 데이터를 이용하여 수행될 수 있다.Here, the classifier based on the support vector machine can be set and applied according to the method proposed by " Suykens JA, Vandewalle J, Least squares support vector machine classifiers. Neural processing letters 9 (3): 293-300 (1999) ". Here, the learning of the classifier based on the SVM can be performed using training data in which the subject category is set for each feature vector in advance.

여기서 분류부(320)는 서포트 벡터 머신 기반 분류기를 학습함에 있어서, 문서 단위가 아닌 문장 단위로 학습 데이터의 단위를 분할하여 문장 단위로 학습을 수행하는 것이 바람직하다. 여기서 분류부(320)는 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서에 대하여 문서를 문장 단위로 분할하여 생성한 학습 데이터를 이용하여 상기 서포트 벡터 머신 기반 분류기의 파라미터를 학습하는 것이 바람직하다. 여기서 예를 들면 상기 주제 카테고리 별로 미리 분류된 뉴스 기사나 신문 기사나 또는 잡지 기사 문서들을 이용할 수 있다.Here, in learning the support vector machine-based classifier, the classifier 320 may divide the unit of the training data by a sentence unit rather than the document unit, and perform learning on a sentence-by-sentence basis. Here, it is preferable that the classifying unit 320 learns the parameters of the support vector machine-based classifier using training data generated by dividing a document into a plurality of the documents classified by subject category in units of sentences. Here, for example, a news article, a newspaper article, or a magazine article document classified in advance by the theme category can be used.

이하에서는 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 시스템에 대하여 설명한다.Hereinafter, a text subject category classification system according to another embodiment of the present invention will be described.

상기 본 발명에 따른 텍스트 주제 카테고리 분류 시스템은 서비스 서버(10)를 포함할 수 있다.The text subject category classification system according to the present invention may include a service server 10.

여기서 서비스 서버(10)는 데이터 수집부(100), 단어 사전 생성부(200)를 포함할 수 있고, 필요에 따라 주제 카테고리 분류부(300)를 더 포함할 수도 있다. 여기서 서비스 서버(10)는 위에서 상술한 본 발명에 따른 텍스트 주제 카테고리 분류 장치가 될 수 있다.Here, the service server 10 may include a data collection unit 100, a word dictionary generation unit 200, and may further include a subject category classification unit 300 as needed. Here, the service server 10 may be a text subject category classification apparatus according to the present invention described above.

데이터 수집부(100)는 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집할 수 있다.The data collecting unit 100 may receive a plurality of documents classified in advance by theme category, select words in the sentence included in the document, and collect words by the subject category.

단어 사전 생성부(200)는 상기 데이터 수집부(100)에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록할 수 있다.The word dictionary generation unit 200 receives words collected by the subject category in the data collection unit 100, calculates weights for the input words, and outputs the input words The words to be included in the word dictionary existing for each subject category can be selected for each subject category and registered in each word dictionary.

주제 카테고리 분류부(300)는 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단할 수 있다.The subject category classification unit 300 receives a classification target sentence and selects words included in each of the word dictionary in the subject category from among words included in the classification target sentence, A feature vector may be generated according to the weight, and the subject category of the classification target sentence may be determined based on the generated feature vector.

또는 상기 본 발명에 따른 텍스트 주제 카테고리 분류 시스템에서 서비스 서버(10)는 상술한 데이터 수집부(100), 단어 사전 생성부(200)를 포함하고, 별도의 단말기(20)가 상술한 주제 카테고리 분류부(300)를 포함할 수도 있다.In the text subject category classification system according to the present invention, the service server 10 includes the data collection unit 100 and the word dictionary generation unit 200 described above. When the separate terminal 20 has the above- (300). ≪ / RTI >

도 8은 이와 같이 단말기(20)가 별도로 존재하는 경우의 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 시스템의 블록도이다.FIG. 8 is a block diagram of a text subject category classification system according to another embodiment of the present invention in the case where the terminal 20 exists separately.

이때 서비스 서버(10)는 단어 사전 생성부(200)가 생성한 단어 사전을 외부의 단어 사전 데이터베이스(50)에 연결하여 저장할 수 있고, 단말기(20)는 단어 사전 데이터베이스(50)에 연결하여 단어 사전에 접근할 수 있다.At this time, the service server 10 can connect and store the word dictionary generated by the word dictionary generation unit 200 to the external word dictionary database 50, and the terminal 20 can connect to the word dictionary database 50, It is accessible in advance.

여기서 단말기(20)에 포함된 주제 카테고리 분류부(300)는 분류 대상 문장을 입력받고, 상기 단어 사전 데이터베이스(50)와 연결하여, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단할 수 있다.Here, the subject category classifier 300 included in the terminal 20 receives a classification target sentence, and connects the word dictionary database 50 to each of the words included in the classification target sentence, A word dictionary, words included in the word dictionary, a feature vector according to the weight of the selected words for each subject category, and the subject category of the classification subject sentence based on the generated feature vector .

또 다른 실시예에서 서비스 서버(10)는 단어 사전 데이터베이스(50)를 서버 장치 내부에 포함할 수도 있다.In another embodiment, the service server 10 may include a word dictionary database 50 within the server device.

도 9는 이와 같이 단어 사전 데이터베이스(50)를 서버 장치 내부에 포함하는 또 다른 실시예의 경우의 텍스트 주제 카테고리 분류 시스템의 블록도이다.FIG. 9 is a block diagram of a text subject category classification system in the case of another embodiment including the word dictionary database 50 in the server device.

여기서 상기 데이터 수집부(100), 단어 사전 생성부(200), 주제 카테고리 분류부(300)는 위에서 도 1 내지 도 7을 참조하면서 설명한 텍스트 주제 카테고리 분류 장치에서의 데이터 수집부(100) 및 단어 사전 생성부(200), 주제 카테고리 분류부(300)와 동일하게 동작할 수 있다. 각 구성 부분의 동작에 대하여는 중복되는 부분은 생략하고 간략히 서술하였다.The data collecting unit 100, the word dictionary generating unit 200, and the subject category classifying unit 300 are the same as the data collecting unit 100 and the word extracting unit 300 in the text subject category classifying apparatus described with reference to FIGS. 1 to 7, The dictionary generation unit 200, and the subject category classification unit 300. [ The operation of each constituent part is described briefly by omitting duplicated parts.

도 10은 본 발명의 또 다른 실시예에 따른 텍스트 주제 카테고리 분류 방법의 흐름도이다.10 is a flowchart of a text subject category classification method according to another embodiment of the present invention.

상기 본 발명에 따른 텍스트 주제 카테고리 분류 방법은 데이터 수집 단계(S100), 단어 사전 생성 단계(S200), 주제 카테고리 분류 단계(S300)를 포함할 수 있다. 상기 본 발명에 따른 텍스트 주제 카테고리 분류 방법은 위에서 도 1 내지 도 7을 참조하면서 설명한 텍스트 주제 카테고리 분류 장치와 동일하게 동작할 수 있다. 이에 중복되는 부분은 생략하고 간략히 서술한다.The text subject category classification method according to the present invention may include a data collection step S100, a word dictionary generation step S200, and a subject category classification step S300. The text subject category classification method according to the present invention can operate in the same manner as the text subject category classification apparatus described with reference to FIGS. 1 to 7 above. The overlapping portions will be omitted and briefly described.

데이터 수집 단계(S100)에서는 서비스 서버(10)가 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집할 수 있다.In the data collection step S100, the service server 10 receives a plurality of documents classified in advance by subject category, selects words in sentences included in the document, and collects words by the subject category.

단어 사전 생성 단계(S200)에서는 서비스 서버(10)가 상기 주제 카테고리 별로 수집된 단어들에 대하여 가중치를 산출하고, 상기 산출한 가중치를 기준으로 상기 수집된 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록할 수 있다.In the word dictionary creation step S200, the service server 10 calculates weights for the words collected for each of the subject categories, and for each of the collected words, based on the calculated weight, Can be selected for each subject category and registered in each of the word dictionary.

주제 카테고리 분류 단계(S300)에서는 분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단할 수 있다. 여기서 주제 카테고리 분류 단계(S300)의 동작은 필요에 따라 서비스 서버(10)에서 수행될 수도 있고, 단말기(20)에서 수행될 수도 있다.In the subject category classification step S300, a classification target sentence is input, words included in each of the word dictionary are selected for each of the subject categories from the words included in the classification target sentence, and the selected words A feature vector may be generated according to the weight, and the subject category of the classification target sentence may be determined based on the generated feature vector. Here, the operation of the subject category classification step (S300) may be performed in the service server 10 or in the terminal 20 as required.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. It is to be understood that the present invention is not limited to these embodiments, and all elements constituting the embodiment of the present invention described above are described as being combined or operated in one operation. That is, within the scope of the present invention, all of the components may be selectively coupled to one or more of them.

또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.In addition, although all of the components may be implemented as one independent hardware, some or all of the components may be selectively combined to perform a part or all of the functions in one or a plurality of hardware. As shown in FIG. In addition, such a computer program may be stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, etc., and read and executed by a computer to implement an embodiment of the present invention. As the recording medium of the computer program, a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like can be included.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Furthermore, all terms including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs, unless otherwise defined in the Detailed Description. Commonly used terms, such as predefined terms, should be interpreted to be consistent with the contextual meanings of the related art, and are not to be construed as ideal or overly formal, unless expressly defined to the contrary.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.It will be apparent to those skilled in the art that various modifications, substitutions and substitutions are possible, without departing from the scope and spirit of the invention as disclosed in the accompanying claims. will be. Therefore, the embodiments disclosed in the present invention and the accompanying drawings are intended to illustrate and not to limit the technical spirit of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments and the accompanying drawings . The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

10 : 텍스트 주제 카테고리 분류 장치
20 : 단말기
50 : 단어 사전 데이터베이스
100 : 데이터 수집부
200 : 단어 사전 생성부
210 : 제1 단어 사전 생성부
220 : 제2 단어 사전 생성부
230 : 중복 단어 제거부
240 : 비 관련 단어 제거부
300 : 주제 카테고리 분류부
310 : 특징 벡터 추출부
320 : 분류부
S100 : 데이터 수집 단계
S200 : 단어 사전 생성 단계
S300 : 주제 카테고리 분류 단계
10: Text subject category classification device
20:
50: Word dictionary database
100: Data collection unit
200: Word dictionary creation unit
210: First word dictionary generating unit
220: second word dictionary generation unit
230: Remove duplicate words
240: Non-related word removal
300: Subject category classification section
310: Feature vector extraction unit
320:
S100: Data collection phase
S200: Word dictionary creation step
S300: Subject category classification step

Claims (17)

주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부;
상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부; 및
분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
A data collecting unit that receives a plurality of documents classified in advance by theme category, selects words in sentences included in the document, and collects words by the subject category;
The data collection unit receives the words collected by the subject category, calculates a weight for the input words, and calculates a weight of the word dictionary based on the calculated weight, A word dictionary generation unit for selecting words to be included in each of the subject categories and registering the words in each of the word dictionary; And
A classification target sentence is received, words included in each word dictionary are selected for each of the subject categories from the words included in the classification target sentence, and a feature vector is generated according to the weight of the selected words for each subject category And a subject category classification unit for determining the subject category of the classification target sentence based on the generated feature vector.
제1항에 있어서,
상기 데이터 수집부는 상기 문장에서 소정의 문자 개수 이하로 구성된 문자열 또는 특수 문자 또는 숫자 문자를 제거하고, 형태소 분석을 수행하여 상기 문장으로부터 상기 단어 사전 생성부에 입력할 단어들을 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
The method according to claim 1,
Wherein the data collection unit removes a character string or a special character or numeric character composed of a predetermined number of characters or less from the sentence and performs morphological analysis to select words to be input to the word dictionary creation unit from the sentence, Text subject category sorting device.
제1항에 있어서,
상기 데이터 수집부는 상기 주제 카테고리 별로 미리 분류된 복수 개의 상기 문서로써, 상기 주제 카테고리 별로 미리 분류된 뉴스 기사 또는 신문 기사 또는 잡지 기사 문서들을 입력받는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
The method according to claim 1,
Wherein the data collection unit receives a news article, a newspaper article, or a magazine article document classified in advance by the subject category, as a plurality of the documents classified in advance by the subject category.
제1항에 있어서, 상기 단어 사전 생성부는,
상기 데이터 수집부에서 입력받은 단어들에 대하여, 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제1 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
2. The apparatus according to claim 1,
The TF-IDF weight calculating unit calculates a TF-IDF weight based on the sentence including the input word and the information about the subject category with respect to the words input from the data collecting unit, And a first word dictionary generation unit for selecting a word to be included in the word dictionary from the input words.
제4항에 있어서,
상기 제1 단어 사전 생성부는 상기 입력받은 단어가 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 문장이 상기 문서에서 나타난 수와, 상기 입력받은 단어를 포함하는 상기 주제 카테고리의 수에 기초하여 상기 TF-IDF 가중치를 산출하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
5. The method of claim 4,
Wherein the first word dictionary generation unit generates the first word dictionary based on the number of the input words appearing in the document, the number of the sentences including the inputted words appearing in the document, and the number of the theme categories including the input word And the TF-IDF weight is calculated by the TF-IDF weighting unit.
제1항에 있어서, 상기 단어 사전 생성부는,
상기 데이터 수집부에서 입력받은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 제2 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
2. The apparatus according to claim 1,
The LDA rank weight calculation unit calculates an LDA rank weight according to the analysis result, and selects a word to be included in the word dictionary from among the input words based on the calculated LDA rank weight, And a second word dictionary generation unit for selecting the second word dictionary generation unit.
제6항에 있어서, 상기 제2 단어 사전 생성부는,
상기 데이터 수집부에서 입력받은 단어들에 대하여 상기 입력받은 단어가 포함된 상기 문장과 상기 주제 카테고리에 관한 정보를 기초로 TF-IDF 가중치를 산출하고, 상기 산출한 TF-IDF 가중치가 소정의 기준값보다 작은 단어들을 상기 입력받은 단어들에서 제거하고,
상기 제거 후 남은 단어들에 대하여 LDA 분석을 수행하고, 그 분석 결과에 따라 LDA 랭크 가중치를 산출하고, 상기 산출한 LDA 랭크 가중치를 기준으로 상기 입력받은 단어들 중에서 상기 단어 사전에 포함될 단어를 선정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
7. The method according to claim 6,
Wherein the TF-IDF weight calculating unit calculates a TF-IDF weight based on the sentence including the input word and the information about the subject category with respect to the words input from the data collecting unit, Removing the small words from the input words,
An LDA analysis is performed on the remaining words after the removal, an LDA rank weight is calculated according to the analysis result, and a word to be included in the word dictionary is selected from the input words based on the calculated LDA rank weight Wherein the text subject category classification apparatus comprises:
제4항 또는 제6항 중 어느 하나의 항에 있어서, 상기 단어 사전 생성부는,
상기 주제 카테고리 별 상기 단어 사전에 포함된 단어들 중에서 중복 단어를 제거하는 중복 단어 제거부를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
The method according to any one of claims 4 to 6,
Further comprising a duplicate word removing unit for removing duplicate words from words included in the word dictionary for each subject category.
제8항에 있어서,
상기 중복 단어 제거부는 두 개 이상의 상기 단어 사전에 공통으로 포함되는 상기 중복 단어들 중, 상기 중복 단어의 상기 TF-IDF 가중치 또는 상기 단어 사전에서 상기 중복 단어가 발생한 빈도수를 기준으로 상기 중복 단어를 제거할 상기 주제 카테고리를 선택하고, 상기 선택한 주제 카테고리의 상기 단어 사전에서 상기 중복 단어를 제거하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
9. The method of claim 8,
Wherein the redundant word remover removes the redundant word based on the TF-IDF weight of the redundant word or the frequency of occurrence of the redundant word in the word dictionary, among the redundant words commonly included in the two or more word dictionary And to remove the duplicate word from the word dictionary of the selected subject category.
제1항에 있어서, 상기 주제 카테고리 분류부는,
상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 각 상기 가중치들을 연산한 값을 상기 특징 벡터의 각 원소로 설정하여, 상기 특징 벡터를 생성하는 특징 벡터 추출부; 및
상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 결정하는 분류부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
2. The apparatus according to claim 1,
The words included in each word dictionary of the subject category among the words included in the classification target sentence, and calculating values of the respective weights of the selected words by the subject category to each element of the feature vector A feature vector extracting unit configured to generate the feature vector; And
And a classifier for determining the subject category of the classification target sentence based on the generated characteristic vector.
제10항에 있어서,
상기 분류부는 최대 가중치(Maximum Weight) 기법에 따라 상기 특징 벡터의 상기 원소들 중에서 최대의 값을 가지는 상기 원소에 대응하는 상기 주제 카테고리를 상기 분류 대상 문장의 상기 주제 카테고리로 결정하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
11. The method of claim 10,
Wherein the classification unit determines the subject category corresponding to the element having the largest value among the elements of the feature vector as the subject category of the classification target sentence according to a maximum weight technique. Text subject category sorting device.
제10항에 있어서,
상기 분류부는 서포트 벡터 머신(SVM)에 기반한 미리 학습된 분류기를 이용하여, 상기 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 분류하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
11. The method of claim 10,
Wherein the classifier classifies the subject category of the classification subject sentence based on the feature vector using a pre-learned classifier based on a support vector machine (SVM).
제1항에 있어서, 상기 단어 사전 생성부는,
상기 주제 카테고리 별 각 상기 단어 사전에 포함된 단어들 중에서 상기 주제 카테고리와 비 관련된 단어를 선별하고, 상기 선별한 단어들을 상기 단어 사전에서 제거하는 비 관련 단어 제거부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
2. The apparatus according to claim 1,
And a non-related word elimination unit for selecting words not related to the subject category from words included in the word dictionary for each subject category and removing the selected words from the word dictionary. Category classification device.
제13항에 있어서,
상기 비 관련 단어 제거부는,
각 상기 단어 사전에 포함된 단어들을, 상기 단어가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서가 상기 주제 카테고리에서 나타난 수와, 상기 단어가 포함된 상기 문서에서 상기 단어가 나타난 빈도수를 기초로, 복수개의 부분 집합들로 클러스터링하고,
상기 클러스터링 한 부분 집합들 중 상기 빈도수를 기준으로 적어도 하나 이상의 비 관련 클러스터를 선정하고,
상기 비 관련 클러스터에 포함된 단어들을 상기 단어 사전에서 제거하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
14. The method of claim 13,
The non-related word elimination unit may include:
Wherein the number of occurrences of the word in the subject category, the number of the document in which the word is included in the subject category, the frequency of occurrence of the word in the document including the word, , Clustering into a plurality of subsets,
Selecting at least one unrelated cluster based on the frequency among the clustered subsets,
And removing words included in the non-related cluster from the word dictionary.
제1항에 있어서,
상기 단어 사전 생성부에서 생성한 상기 단어사전을 저장하는 단어 사전 데이터베이스를 더 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 장치.
The method according to claim 1,
And a word dictionary database for storing the word dictionary generated by the word dictionary generating unit.
서비스 서버를 포함하는 텍스트 주제 카테고리 분류 시스템에 있어서,
상기 서비스 서버는,
주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집부; 및
상기 데이터 수집부에서 상기 주제 카테고리 별로 수집된 단어들을 입력받고, 상기 입력받은 단어들에 대하여 가중치를 산출하며, 상기 산출한 가중치를 기준으로 상기 입력받은 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성부를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 시스템.
1. A text subject category classification system comprising a service server,
The service server,
A data collecting unit that receives a plurality of documents classified in advance by theme category, selects words in sentences included in the document, and collects words by the subject category; And
The data collection unit receives the words collected by the subject category, calculates a weight for the input words, and calculates a weight of the word dictionary based on the calculated weight, And a word dictionary generation unit that selects words to be included in each of the subject categories and registers the selected words in each of the word dictionaries.
서비스 서버가 주제 카테고리 별로 미리 분류된 복수 개의 문서를 입력받고, 상기 문서에 포함된 문장에서 단어들을 선정하여, 상기 주제 카테고리 별로 단어들을 수집하는 데이터 수집 단계;
상기 서비스 서버가 상기 주제 카테고리 별로 수집된 단어들에 대하여 가중치를 산출하고, 상기 산출한 가중치를 기준으로 상기 수집된 단어들 중 상기 주제 카테고리 별로 존재하는 단어 사전에 포함될 단어를 상기 주제 카테고리 별로 선정하여, 각 상기 단어 사전에 등록하는 단어 사전 생성 단계; 및
분류 대상 문장을 입력받고, 상기 분류 대상 문장에 포함된 단어들 중에서 상기 주제 카테고리 별로 각 상기 단어 사전에 포함된 단어들을 선정하고, 상기 주제 카테고리 별로 상기 선정된 단어들의 상기 가중치에 따라 특징 벡터를 생성하고, 상기 생성한 특징 벡터를 기초로 상기 분류 대상 문장의 상기 주제 카테고리를 판단하는 주제 카테고리 분류 단계를 포함하는 것을 특징으로 하는, 텍스트 주제 카테고리 분류 방법.
A data collection step of the service server receiving a plurality of documents classified in advance by theme category, selecting words in a sentence included in the document, and collecting words by the theme category;
The service server calculates a weight for words collected by the subject category and selects words to be included in the word dictionary existing in the subject category among the collected words on the basis of the calculated weight by the subject category A word dictionary creation step of registering in each of the word dictionary; And
A classification target sentence is received, words included in each word dictionary are selected for each of the subject categories from the words included in the classification target sentence, and a feature vector is generated according to the weight of the selected words for each subject category And judging the subject category of the classification target sentence based on the generated characteristic vector.
KR1020150132590A 2015-09-18 2015-09-18 Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis Active KR101737887B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150132590A KR101737887B1 (en) 2015-09-18 2015-09-18 Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150132590A KR101737887B1 (en) 2015-09-18 2015-09-18 Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis

Publications (2)

Publication Number Publication Date
KR20170034206A true KR20170034206A (en) 2017-03-28
KR101737887B1 KR101737887B1 (en) 2017-05-19

Family

ID=58495957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150132590A Active KR101737887B1 (en) 2015-09-18 2015-09-18 Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis

Country Status (1)

Country Link
KR (1) KR101737887B1 (en)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334610A (en) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 A kind of newsletter archive sorting technique, device and server
KR20180117458A (en) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 Method for automatic document classification using sentence classification and device thereof
WO2019107646A1 (en) * 2017-12-01 2019-06-06 상명대학교산학협력단 Apparatus for analyzing web content consumption behavior, and method therefor
CN110019782A (en) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 Method and apparatus for exporting text categories
CN110209806A (en) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 File classification method, document sorting apparatus and computer readable storage medium
KR102126911B1 (en) * 2018-12-27 2020-07-07 서울대학교산학협력단 Key player detection method in social media using KeyplayerRank
CN111611379A (en) * 2020-05-18 2020-09-01 深圳证券信息有限公司 Text information classification method, device, equipment and readable storage medium
KR20200109515A (en) 2019-03-13 2020-09-23 주식회사 키즈브라운파트너스 Education contents generating method using big data
KR20200112353A (en) * 2019-03-22 2020-10-05 주식회사 커넥트닷 Method of analyzing relationships of words or documents by subject and device implementing the same
CN111861596A (en) * 2019-04-04 2020-10-30 北京京东尚科信息技术有限公司 Text classification method and device
KR102217213B1 (en) * 2020-10-27 2021-02-18 장경애 Service providing apparatus and method for managing contents based on deep learning
KR20210056812A (en) 2019-11-11 2021-05-20 한림대학교 산학협력단 Apparatus, method and program for extracting research category of research literature using category feature lexicon each research category
CN112836051A (en) * 2021-02-19 2021-05-25 太极计算机股份有限公司 Online self-learning court electronic file text classification method
KR20210064620A (en) * 2019-11-26 2021-06-03 주식회사 와이즈넛 The informatization method for youtube video metadata for personal media production
WO2021153321A1 (en) * 2020-01-29 2021-08-05 株式会社インタラクティブソリューションズ Conversation analysis system
KR20210119041A (en) * 2020-03-24 2021-10-05 경북대학교 산학협력단 Device and Method for Cluster-based duplicate document removal
KR102363958B1 (en) * 2021-08-05 2022-02-16 재단법인차세대융합기술연구원 Method, apparatus and program for analyzing customer perception based on double clustering
KR102387665B1 (en) * 2021-01-20 2022-04-15 연세대학교 산학협력단 Disaster Information Screening System and Screen Metood to analyze disaster message information on social media using disaster weights
KR20220096748A (en) * 2020-12-31 2022-07-07 주식회사 포스코아이씨티 System for Classifying Unstructured Contents Automatically
WO2022150838A1 (en) * 2021-01-08 2022-07-14 Schlumberger Technology Corporation Exploration and production document content and metadata scanner
KR102472868B1 (en) * 2022-08-10 2022-12-01 주식회사 플리더스 Game information management server that can determine the genre and subject matter of a game based on review data collected from game testers and the operating method thereof
KR20230045263A (en) * 2021-09-28 2023-04-04 연세대학교 산학협력단 Question Answering System and Method to extract infrastructure damage information from disaster report using weights
KR20230053373A (en) * 2021-10-14 2023-04-21 비큐리오 주식회사 Deep neural network-based document analysis system and method, and computer program stored in recording media and media in which the program is stored
CN117708324A (en) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 Text topic classification method, device, chip and terminal

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480711B1 (en) 2008-09-29 2015-01-09 에스케이플래닛 주식회사 Topic detection device and subject detection method, storage medium, information providing system, service server and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101480711B1 (en) 2008-09-29 2015-01-09 에스케이플래닛 주식회사 Topic detection device and subject detection method, storage medium, information providing system, service server and method

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180117458A (en) * 2017-04-19 2018-10-29 아시아나아이디티 주식회사 Method for automatic document classification using sentence classification and device thereof
CN110019782A (en) * 2017-09-26 2019-07-16 北京京东尚科信息技术有限公司 Method and apparatus for exporting text categories
WO2019107646A1 (en) * 2017-12-01 2019-06-06 상명대학교산학협력단 Apparatus for analyzing web content consumption behavior, and method therefor
CN108334610A (en) * 2018-02-06 2018-07-27 北京神州泰岳软件股份有限公司 A kind of newsletter archive sorting technique, device and server
CN110209806B (en) * 2018-06-05 2023-09-12 腾讯科技(深圳)有限公司 Text classification method, text classification device and computer readable storage medium
CN110209806A (en) * 2018-06-05 2019-09-06 腾讯科技(深圳)有限公司 File classification method, document sorting apparatus and computer readable storage medium
KR102126911B1 (en) * 2018-12-27 2020-07-07 서울대학교산학협력단 Key player detection method in social media using KeyplayerRank
KR20200109515A (en) 2019-03-13 2020-09-23 주식회사 키즈브라운파트너스 Education contents generating method using big data
KR20200112353A (en) * 2019-03-22 2020-10-05 주식회사 커넥트닷 Method of analyzing relationships of words or documents by subject and device implementing the same
CN111861596B (en) * 2019-04-04 2024-04-12 北京京东振世信息技术有限公司 Text classification method and device
CN111861596A (en) * 2019-04-04 2020-10-30 北京京东尚科信息技术有限公司 Text classification method and device
KR20210056812A (en) 2019-11-11 2021-05-20 한림대학교 산학협력단 Apparatus, method and program for extracting research category of research literature using category feature lexicon each research category
KR20210064620A (en) * 2019-11-26 2021-06-03 주식회사 와이즈넛 The informatization method for youtube video metadata for personal media production
CN114080640A (en) * 2020-01-29 2022-02-22 互动解决方案公司 Dialogue Analysis System
WO2021153321A1 (en) * 2020-01-29 2021-08-05 株式会社インタラクティブソリューションズ Conversation analysis system
JP2021117475A (en) * 2020-01-29 2021-08-10 株式会社インタラクティブソリューションズ Conversation analysis system
US11881212B2 (en) 2020-01-29 2024-01-23 Interactive Solutions Corp. Conversation analysis system
CN114080640B (en) * 2020-01-29 2022-06-21 互动解决方案公司 Dialogue Analysis System
KR20210119041A (en) * 2020-03-24 2021-10-05 경북대학교 산학협력단 Device and Method for Cluster-based duplicate document removal
CN111611379A (en) * 2020-05-18 2020-09-01 深圳证券信息有限公司 Text information classification method, device, equipment and readable storage medium
KR102217213B1 (en) * 2020-10-27 2021-02-18 장경애 Service providing apparatus and method for managing contents based on deep learning
KR20220096748A (en) * 2020-12-31 2022-07-07 주식회사 포스코아이씨티 System for Classifying Unstructured Contents Automatically
WO2022150838A1 (en) * 2021-01-08 2022-07-14 Schlumberger Technology Corporation Exploration and production document content and metadata scanner
US12437570B2 (en) 2021-01-08 2025-10-07 Schlumberger Technology Corporation Exploration and production document content and metadata scanner
KR102387665B1 (en) * 2021-01-20 2022-04-15 연세대학교 산학협력단 Disaster Information Screening System and Screen Metood to analyze disaster message information on social media using disaster weights
CN112836051B (en) * 2021-02-19 2024-03-26 太极计算机股份有限公司 Online self-learning court electronic file text classification method
CN112836051A (en) * 2021-02-19 2021-05-25 太极计算机股份有限公司 Online self-learning court electronic file text classification method
KR102363958B1 (en) * 2021-08-05 2022-02-16 재단법인차세대융합기술연구원 Method, apparatus and program for analyzing customer perception based on double clustering
KR20230045263A (en) * 2021-09-28 2023-04-04 연세대학교 산학협력단 Question Answering System and Method to extract infrastructure damage information from disaster report using weights
KR20230053373A (en) * 2021-10-14 2023-04-21 비큐리오 주식회사 Deep neural network-based document analysis system and method, and computer program stored in recording media and media in which the program is stored
KR102472868B1 (en) * 2022-08-10 2022-12-01 주식회사 플리더스 Game information management server that can determine the genre and subject matter of a game based on review data collected from game testers and the operating method thereof
CN117708324A (en) * 2023-11-07 2024-03-15 山东睿芯半导体科技有限公司 Text topic classification method, device, chip and terminal

Also Published As

Publication number Publication date
KR101737887B1 (en) 2017-05-19

Similar Documents

Publication Publication Date Title
KR101737887B1 (en) Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis
US11514235B2 (en) Information extraction from open-ended schema-less tables
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
CN114880496B (en) Multimedia information topic analysis method, device, equipment and storage medium
CN103198057B (en) One kind adds tagged method and apparatus to document automatically
KR102376489B1 (en) Text document cluster and topic generation apparatus and method thereof
CN112417845B (en) Text evaluation method, device, electronic device and storage medium
Barnaghi et al. Text analysis and sentiment polarity on FIFA world cup 2014 tweets
CN110162597A (en) Article data processing method, device, computer-readable medium and electronic equipment
Jean-Louis et al. An assessment of online semantic annotators for the keyword extraction task
Razi et al. Multilingual detection of cyberbullying in mixed urdu, roman urdu, and english social media conversations
JP6420268B2 (en) Image evaluation learning device, image evaluation device, image search device, image evaluation learning method, image evaluation method, image search method, and program
Azizov et al. SAFARI: Cross-lingual bias and factuality detection in news media and news articles
Frick et al. Fraunhofer SIT at CheckThat!-2023: Enhancing the Detection of Multimodal and Multigenre Check-Worthiness Using Optical Character Recognition and Model Souping.
CN115062135A (en) Patent screening method and electronic equipment
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Oliveira et al. A concept-based ILP approach for multi-document summarization exploring centrality and position
Abd Rahim et al. Malcov: Covid-19 fake news dataset in the malay language
Kashid et al. Live News Classification Using Naive Bayes Classifier
Hussein et al. DamascusTeam at CheckThat! 2020: Check Worthiness on Twitter with Hybrid CNN and RNN Models.
Alia et al. LLM Based Bilingual Rumor Verification Using Evidence From Authorities
CN109978498B (en) Task information processing method and device
Frick et al. Fraunhofer sit at checkthat! 2023: Mixing single-modal classifiers to estimate the check-worthiness of multi-modal tweets
Galiotou et al. On the effect of stemming algorithms on extractive summarization: a case study
Smith et al. Classification of text to subject using LDA

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20150918

PA0201 Request for examination
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20161020

Patent event code: PE09021S01D

PG1501 Laying open of application
E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20170428

PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20170515

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20170515

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20200401

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20210401

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20220506

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20230221

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20240514

Start annual number: 8

End annual number: 8