[go: up one dir, main page]

KR20030039575A - Method and system for summarizing document - Google Patents

Method and system for summarizing document Download PDF

Info

Publication number
KR20030039575A
KR20030039575A KR1020010070540A KR20010070540A KR20030039575A KR 20030039575 A KR20030039575 A KR 20030039575A KR 1020010070540 A KR1020010070540 A KR 1020010070540A KR 20010070540 A KR20010070540 A KR 20010070540A KR 20030039575 A KR20030039575 A KR 20030039575A
Authority
KR
South Korea
Prior art keywords
document
paragraph
pattern
sentence
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020010070540A
Other languages
Korean (ko)
Other versions
KR100435442B1 (en
Inventor
박종수
피용진
김재경
김진상
이종혁
권오욱
Original Assignee
주식회사 포스코
학교법인 포항공과대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 포스코, 학교법인 포항공과대학교 filed Critical 주식회사 포스코
Priority to KR10-2001-0070540A priority Critical patent/KR100435442B1/en
Priority to JP2002322061A priority patent/JP3735336B2/en
Publication of KR20030039575A publication Critical patent/KR20030039575A/en
Application granted granted Critical
Publication of KR100435442B1 publication Critical patent/KR100435442B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로서, 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공하고자 하는데, 그 목적이 있는 것이다.The present invention relates to a method and system for automatically summarizing a document, which can be applied to summarize a specialized document such as a patent document, as well as a document summarization method which can improve summarization efficiency and readability by increasing summarization efficiency. We want to provide a system, which has a purpose.

본 발명은 문서를 자동으로 요약함에 있어서 문서의 구조적인 특징을 파악하여 일정한 규칙에 의해 구조화시킨 후, 문서의 구조화된 단락에서 자주 발생하는 패턴을 추출하고, 문서의 수사구조 정보와 문서레벨 단락 분할, 단어공기정보 등의 자연어 처리(NLP)기술을 이용하여 문서를 자동요약하는 방법 및 시스템를 그 요지로 한다.The present invention is to automatically summarize the document to identify the structural features of the document and structured by a predetermined rule, and then to extract patterns frequently occurring in the structured paragraph of the document, and to divide the rhetorical information and document level paragraphs of the document A method and system for automatically summarizing a document using natural language processing (NLP) technology such as word and air information are provided.

Description

문서 요약 방법 및 시스템 {Method And System For Summarizing Document}Document Summary Method and System {Method And System For Summarizing Document}

본 발명은 문서를 자동으로 요약하는 방법 및 시스템에 관한 것으로서, 보다 상세하게는 문서를 자동으로 요약함에 있어서 문서의 구조적인 특징을 파악하여 일정한 규칙에 의해 구조화시킨 후, 문서의 구조화된 단락에서 자주 발생하는 패턴을 추출하고, 문서의 수사구조 정보와 문서레벨 단락 분할, 단어공기정보 등의 자연어 처리(NLP)기술을 이용하여 문서를 자동요약하는 방법 및 시스템에 관한 것이다.The present invention relates to a method and system for automatically summarizing a document. More particularly, the present invention provides a method and system for automatically summarizing a document. The present invention relates to a method and system for automatically summarizing a document by extracting a pattern generated and using natural language processing (NLP) techniques such as document structure information, document level paragraph division, and word air information.

문서를 자동으로 요약하는 종래의 기술로는 대한민국 특허공개번호 제96-28890호 및 97-707499호를 들수 있다.Conventional techniques for automatically summarizing documents include Korean Patent Publication Nos. 96-28890 and 97-707499.

상기 대한민국 특허공개번호 제96-28890호에는 정보요약방법, 정보요약장치,가중화방법 및 문자방송수신장치가 제시되어 있는데, 여기서는 소정의 단위로 구획된 문자열 데이터가 다수 부여된 경우에, 그들 복수의 단위 사이에서 공통하는 화제를 나타내는데 효과적이고 중요한 키워드를 정보요약으로서 추출하고, 키워드마다 점수를 산출하여 정보를 요약하고 있다.Korean Patent Publication No. 96-28890 discloses an information summary method, an information summary device, a weighting method, and a character broadcast receiving device. In this case, when a plurality of character string data divided into predetermined units are given, a plurality of them are provided. The information is summarized by extracting effective and important keywords as information summaries and calculating scores for each keyword.

또한, 상기 대한민국 특허공개번호 제97-707499호에는 문서요약 방법 및 장치가 제시되어 있는데, 여기서는 기준수에 기초하여 중요한 정보부의 선택 및 불필요한 메시지부의 제거를 가능하게 함으로서 입력 메시지, 명령 세트 및 최대 메시지 길이를 제공하여, 문서메시지 내에 있지만 최대 메시지 길이의 제한된 범위내에 포함되는 중요한 모든 정보를 전달하는 메시지를 발생시키도록 하고 있다.In addition, Korean Patent Publication No. 97-707499 discloses a document summary method and apparatus, wherein input messages, command sets, and maximum messages are made possible by selecting an important information part and removing unnecessary message parts based on a reference number. The length is provided to generate a message that conveys all the important information in the document message but within the limited range of the maximum message length.

한편, 대한민국 특허공개번호 제2000-54268호에는 문서자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템이 제시되어 있는데, 여기서는 자동요약을 이용하여 주제어 데이터 베이스와 주제문장 데이터베이스를 구축한 후, 키 문서를 입력으로 받아 키 문서의 내용과 유사한 내용을 갖는 문서를 검색하는 것이다.Meanwhile, Korean Patent Publication No. 2000-54268 discloses a document classification retrieval method and a document classification retrieval system using automatic document summarization. Here, after constructing a keyword database and a topic sentence database using an automatic summary, It takes a document as input and searches for a document with content similar to that of the key document.

즉, 상기한 문서자동 요약을 이용한 문서 분류 검색 방법 및 문서분류 검색 시스템에서 이용된 자동 문서요약 시스템은 문서의 내용을 읽어 들여서 요약용의 해석 단위로 분류하는 파싱(Parsing) 단계와 문서의 최하위 요소인 단어를 기준으로 빈도 정보를 수집하여 주제어 정보를 구축하는 2단계로 구성되어 있다.In other words, the document classification retrieval method using the document automatic summarization and the automatic document summary system used in the document classification retrieval system have a parsing step of reading the content of the document and classifying it into an analysis unit for summary and the lowest element of the document. It consists of two stages of constructing the topic information by collecting frequency information based on the word.

그러나, 상기와 같은 종래의 방법들은 일반 문서 또는 메일(Mail) 시스템의 메시지를 대상으로 하거나 문서 분류 검색 방법 및 문서분류 검색 시스템에 이용하기 위한 부가적인 수단으로 문서요약을 이용하였기 때문에 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 없으며 중요한 키워드를 추출하거나 단어 빈도수 만을 이용하여 요약할 때, 요약효율을 높일 수 없음으로 인하여 요약성능의 저하와 가독율의 저하를 발생시키는 문제점이 있다.However, such conventional methods use the document summary as an additional means for targeting a general document or a message of a mail system or for use in a document classification retrieval method and a document classification retrieval system. It is not applicable to summarizing a specialized document, and when extracting an important keyword or summarizing using only word frequency, there is a problem of degrading summary performance and degrading readability because the summarization efficiency cannot be improved.

본 발명자는 상기한 종래기술의 제반 문제점을 해결하기 위하여 연구를 행하고, 그 결과에 근거하여 본 발명을 제안하게 된 것으로서, 본 발명은 특허문서와 같은 특성화된 문서를 요약하는데 적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공하고자 하는데, 그 목적이 있는 것이다.The present inventors have conducted research to solve the above-mentioned problems of the prior art, and based on the results, the present invention has been proposed, and the present invention can be applied not only to summarizing specialized documents such as patent documents, The purpose of the present invention is to provide a method and system for summarizing documents that can improve summary efficiency and readability.

도 1은 본 발명에 따라 문서를 요약하는 방법의 일례를 나타내는 흐름도1 is a flow diagram illustrating an example of a method of summarizing a document in accordance with the present invention.

도 2는 본 발명에 부합되는 문서요약시스템의 일례를 나타내는 구성도2 is a block diagram showing an example of a document summary system consistent with the present invention.

* 도면의 주요부분에 대한 부호의 설명 *Explanation of symbols on the main parts of the drawings

11 . . . 문서입력부 12 . . . 문서판단부 13 . . . 단락구분부 14 . . . 패턴추출부 15 . . . 문장추출부 16 . . . 문서 요약부11. . . Document input section 12. . . Document Determination Unit 13. . . Short circuit section 14. . . Pattern Extraction Unit 15. . . Sentence Extractor 16. . . Document summary section

이하, 본 발명에 대하여 설명한다.EMBODIMENT OF THE INVENTION Hereinafter, this invention is demonstrated.

본 발명은 문서를 요약하는 방법에 있어서,The present invention relates to a method for summarizing a document,

구조적 특징을 갖는 문서를 대상으로 패턴탐색을 행하여 패턴구조를 미리 정형화하는 단계;Performing pattern search on a document having a structural feature to preform a pattern structure;

상기와 같이 정형화된 패턴을 중요도에 따라 핵심단락과 부가단락으로 구분하는 단계;Dividing the stereotyped pattern into a core paragraph and an additional paragraph according to importance;

요약하고자 하는 문서를 입력하는 단계;Inputting a document to be summarized;

입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 단계;Determining whether the input document is atypical or atypical;

상기 입력된 문서가 비정형화된 것인 경우에는 문서의 내용을 패턴탐색하여미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 단계;If the input document is an unstructured pattern, searching the contents of the document and extracting a pattern identical or similar to a pre-formed pattern;

상기와 같이 추출된 패턴에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약하는 단계;Summarizing a document by removing a less important sentence using paragraph division, rhetorical structure information, and word air information from the extracted pattern as described above;

상기 입력된 문서가 정형화된 것인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단계;When the input document is a standardized document, classifying the document into a core paragraph and an additional paragraph according to the paragraph division criteria separated above;

상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단하는 단계;Determining the presence or absence of a pattern that is the same as or similar to the preformed pattern in the divided core paragraphs;

상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출하는 단계;Extracting a pattern when there is a pattern in the core paragraph;

상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계; 및From the extracted patterns and additional paragraphs, paragraph sentences, rhetorical structure information, and word air information are used to remove less important sentences, and to extract important sentences and important sentences from the extracted patterns and important sentences in additional paragraphs. Summarizing the document using; And

상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계를 포함하여 구성되는 문서요약방법에 관한 것이다.If there is no pattern identical or similar to the preformed pattern in the core paragraph, the sentence is extracted by removing less important sentences using paragraph division, rhetorical structure information, and word air information from the core paragraph and the additional paragraph. The present invention relates to a document summary method comprising the steps of summarizing a document using an important sentence in a core paragraph and an important sentence in an additional paragraph.

또한, 본 발명은 문서를 요약하는 시스템에 있어서,In addition, the present invention provides a system for summarizing a document,

요약하고자 하는 문서를 입력받는 문서입력부;A document input unit for receiving a document to be summarized;

상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:Document determination unit for determining whether the document input to the document input unit is atypical or standardized:

상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;If it is determined by the document determination unit that the input document is a standardized paragraph separation section for dividing the core paragraph and additional paragraphs according to a predetermined paragraph classification criteria after document structure;

상기 단락구분부에 의해 구분된 핵심단락 또는 상기 비정형화된 문서에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;A pattern extraction unit for extracting a pattern identical or similar to a preformed pattern in the core paragraph or the atypical document separated by the paragraph separator;

상기 패턴추출부에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하는 문장추출부; 및A sentence extracting unit extracting an important sentence by removing a less important sentence using paragraph division, rhetorical structure information, and word air information in a pattern extracted from the pattern extracting unit, a core paragraph and an additional paragraph without a pattern; And

상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템에 관한 것이다.If the sentence extracted by the sentence extractor is made of a pattern extracted from an unstructured document, the document is summarized based on the sentence extracted from the sentence extractor, and the sentence extracted from the sentence extractor is formatted. If the pattern is extracted from the core paragraph of the document, the document is summarized based on the pattern extracted from the sentence extraction unit and the important sentence extracted from the additional paragraph. If there is no pattern in the core paragraph of the standardized document, the core is summarized. The present invention relates to a document summary system including a document summary section that summarizes documents based on important sentences extracted from paragraphs and subparagraphs.

이하, 본 발명을 보다 상세히 설명한다.Hereinafter, the present invention will be described in more detail.

본 발명에 따라 문서를 요약하기 위해서는 도 1에 나타난 바와 같이, 우선,In order to summarize the document according to the present invention, as shown in FIG.

구조적 특징을 갖는 문서를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 하여야 한다(단계 110).Pattern search is performed on a document having structural characteristics to form a pattern structure (step 110).

여기서 문서란 일반문서, 기술문서 및 특허문서와 같은 특성화된 문서등을 포함한다.Documents include general documents, technical documents, and specialized documents such as patent documents.

상기 문서가 특성화된 문서중의 하나인 특허문서인 경우를 예를 들어 상기 단계 110에 대하여 상세히 설명하면 다음과 같다.In the case where the document is a patent document which is one of the specialized documents, the step 110 will be described in detail as follows.

즉, 본 발명에 따라 특허문서를 요약하기 위해서는 예를 들면, 출원서에 첨부된 명세서(이하, " 출원서"라고도 칭함)를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 하여야 한다That is, in order to summarize a patent document according to the present invention, for example, a pattern search should be performed on a specification attached to an application (hereinafter, also referred to as an "application") to form a pattern structure.

상기 출원서는 정형화되어 있는 문서로서 발명의 이용분야, 발명의 목적, 발명의 효과, 발명의 구성 및 종래기술 및 문제점등을 기재하도록 구성되어 있다.The application is a formal document and is configured to describe the field of use of the invention, the purpose of the invention, the effects of the invention, the constitution of the invention, and the prior art and problems.

상기 발명의 이용분야에 대한 하나의 패턴으로는 " 본 발명(고안)은 ∼ 하는 시스템(방법, 설비)에 관한 것이다"를 들수 있다.One pattern for the field of use of the invention is, "the present invention (design) relates to a system (method, equipment) to be described."

또한, 상기 발명의 목적에 대한 하나의 패턴으로는 " 본 발명(고안)은 ∼ 함에 그 목적이 있다(목적이다)"를 들수 있다.Moreover, as one pattern with respect to the objective of the said invention, "the present invention (design) has the objective in the case of (the purpose)").

또한, 상기 발명의 효과에 대한 하나의 패턴으로는 "본 발명(고안)에 의하면 ∼ 의 효과가 있다(효과이다)."를 들수 있다.Moreover, as one pattern about the effect of the said invention, "the effect of-is according to this invention (design)." Is mentioned.

즉, 본 발명에 따라 특허문서를 요약하기 위해서는 우선 상기와 같이 패턴화된 출원서를 대상으로 패턴탐색을 행하여 패턴구조의 정형화를 행한다.That is, in order to summarize the patent document according to the present invention, first, pattern search is performed on the patterned application as described above to form a pattern structure.

다음에, 상기와 같이 정형화된 패턴을 핵심단락과 부가단락으로 구분하고, 상대적으로 중요한 항목은 핵심단락에 할당되고, 상대적으로 그렇지 않은 항목은부가단락에 할당되도록 설정한다(단계 120).Next, the formalized pattern as described above is divided into a core paragraph and an additional paragraph, and a relatively important item is assigned to the core paragraph, and a relatively non-item is assigned to the additional paragraph (step 120).

예를 들어 특허문서의 경우에는 상기 핵심단락에는 이용분야, 목적, 효과가 할당되고, 부가단락에는 종래기술 및 문제점, 구성, 작용, 청구범위등이 할당되도록 설정하는 것이 바람직하다.For example, in the case of a patent document, it is preferable that the core paragraph is assigned such a field of use, purpose, and effect, and the additional paragraph is assigned such that the prior art and problems, composition, operation, claims, and the like are allocated.

다음에, 요약하고자 하는 문서를 입력한다(단계 130).Next, enter the document to be summarized (step 130).

요약하고자 하는 문서가 입력되면 입력된 문서가 먼저 비정형화된 것인지 아니면 정형화된 것인지를 판단한다(단계 140).When the document to be summarized is input, it is first determined whether the input document is unstructured or standardized (step 140).

상기 문서가 특허문서인 경우에는 예를 들면, 기술(예를 들면, 발명, 고안, 제안등)에 대하여 현장 작성자에 의해 작성된 비 정형화된 구조를 가진 신청서와 특허를 받기 위하여 요구되는 특허기재요건에 부합되게 작성된 정형화된 구조를 가진 문서, 예를 들면, 출원서(출원서에 첨부된 명세서)로 분류될 수 있다.In the case where the document is a patent document, for example, the application (e.g., invention, design, proposal, etc.) has an informal structure created by the field creator, and the patent specification requirements required to obtain the patent. Documents with a structured structure written in conformance can be classified, for example, as an application (the specification attached to the application).

상기 출원서는 특허출원전단계 또는 특허출원단계의 정형화된 구조를 가진 것은 물론 특허출원공개, 공고, 등록 및 등록후 단계의 정형화된 것을 포함한다.The application includes a formalized structure of the pre-patent application stage or the patent application stage, as well as the formalization of the patent application publication, publication, registration and post-registration stage.

상기 신청서는 특허요건으로 하고 있는 기재방식으로 기재되지 않은 문서로서 일반적으로 핵심단락의 누락과 분산, 낮은 가독성등을 갖는다.The application is a document that is not described in a patented manner and generally has a missing core, a missing paragraph, and low readability.

상기 입력된 문서가 비정형화된 것(신청서)인 경우에는 비정형화된 문서(신청서)를 패턴탐색하여 상기와 같이 설정된 패턴을 추출한다(단계 150).If the input document is an atypical document (application), the pattern is searched for an atypical document (application) to extract a pattern set as described above (step 150).

예를 들면, 특허문서인 경우에는 신청서의 기재내용중에서 상기한 발명의 이용분야에 대한 패턴, 발명의 목적에 대한 패턴 및 발명의 효과에 대한 패턴을 추출한다.For example, in the case of a patent document, a pattern for the field of use of the invention, a pattern for the purpose of the invention, and a pattern for the effect of the invention are extracted from the description of the application.

다음에, 상기와 같이 추출된 패턴을 바탕으로 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약한다(단계 160, 단계 200).Next, the document is summarized by removing less important sentences using paragraph division, rhetorical structure information, and word air information based on the extracted pattern as described above (step 160 and step 200).

한편, 상기 입력된 문서가 정형화된 것(출원서)인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분한다(단계 170).On the other hand, if the input document is a formalized (application), the document is divided into core and additional paragraphs according to the paragraph classification criteria classified above (step 170).

즉, 상기와 같이 설정되어 있는 핵심단락과 부가단락의 각각에 대한 할당 패턴기준에 따라 정형화된 문서(출원서)의 기재내용을 핵심단락과 부가단락으로 구분한다.That is, the contents of the document (application) formatted according to the allocation pattern criteria for each of the core paragraphs and the additional paragraphs set as described above are divided into the core paragraphs and the additional paragraphs.

예를 들어 문서가 특허문서인 경우에는 상기 출원서의 기재내용중 발명의 이용분야, 목적, 효과에 관한 기재에 대해서는 핵심단락으로, 그리고 종래기술 및 문제점, 구성, 작용, 청구범위등에 관한 기재에 대해서는 부가단락으로 구분하는 것이 바람직하다.For example, if the document is a patent document, the description of the field of application, purpose, and effect of the invention in the above-mentioned application shall be the core paragraph, and the description of the prior art and problems, composition, operation, claims, etc. It is preferable to divide by additional paragraph.

다음에, 상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단한다. (단계 180)Next, it is determined whether or not the same or similar pattern as the pre-formed pattern in the core paragraph divided as described above. (Step 180)

상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출한다(단계 190).If there is a pattern in the core paragraph, the pattern is extracted (step 190).

예를 들어, 특허문서의 경우에는 상기와 같이 구분된 핵심단락에서 이용분야, 목적, 효과에 관한 패턴들을 추출한다.For example, in the case of a patent document, patterns related to the field of use, purpose, and effect are extracted from the above-mentioned core paragraphs.

상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약한다(단계 160 및 단계 200).From the extracted patterns and additional paragraphs, paragraph sentences, rhetorical structure information, and word air information are used to remove less important sentences, and to extract important sentences and important sentences from the extracted patterns and important sentences in additional paragraphs. The documents are summarized (step 160 and step 200).

만약, 상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약한다(단계 160 및 단계 200).If the core paragraph does not have the same or similar pattern as the pre-formed pattern, the sentence is extracted by removing the less important sentence using paragraph division, rhetorical structure information, and word air information from the core paragraph and the additional paragraph. The document is summarized using the important sentences in the extracted core paragraph and the important sentences in the additional paragraph (steps 160 and 200).

이하, 상기와 같이 추출된 패턴, 패턴이 없는 핵심단락, 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 이들을 이용하여 문서를 요약하는 방법의 일례에 대하여 설명한다.Hereinafter, in the extracted pattern, the core paragraph without the pattern, and the additional paragraph, the less important sentences are removed by using paragraph division, rhetorical structure information, and word air information to extract important sentences, and the documents are summarized using these. An example of how to do this is described.

상기와 같이 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 덜 중요한 문장을 제거하여 문서를 요약하기 위해서는 문서를 이루는 단위(문장 혹은 단락)들간의 수사 구조적인 정보를 이용하거나 문장레벨의 단락분할, 그리고 단락레벨에서 정보검색 방법론을 도입한 단어공기정보(word co-occurrence)등을 이용하는 것이 바람직하다.In order to summarize the document by removing the less important sentences from the extracted pattern, the core paragraph without the pattern, and the additional paragraph, the rhetorical information between the units (sentences or paragraphs) that make up the document is used or paragraph level division is performed. And word co-occurrence using the information retrieval methodology at the paragraph level.

먼저, 수사 구조적인 정보를 이용하기 위하여 단락에서 등위접속사(그리고, 그러나, 혹은, 그런데...), 중위접속사(그래서, 이므로, 하기 위해..), 전환관계의 접속사(근데, 반면, 한편, 반대로, 반면에..)를 이용하여 상대적인 중요도에 따라 차별성을 부여하여 요약부분에 중요도 가중치를 가장 높게 부여하고, 병렬, 예시순으로 덜 중요한 문장을 제거해 나간다.First, in order to use the rhetorical information, in-paragraph conjunctions (and, but, or, by the way), infix conjunctions (and, therefore, in order to ...), transitional conjunctions (but, on the other hand, , On the other hand, on the other hand, ..) gives differentiation according to the relative importance to give the weight of importance to the summary part the highest, and removes the less important sentences in parallel and example order.

이때, 원하는 요약율에 따라 병렬과 예시문장은 선택적으로 수용될 수 있다.At this time, the parallel and exemplary sentences may be selectively accommodated according to the desired summary rate.

요약-결국, 결론, 결론적으로, 요약, 간단히, 간략히, 반드시,..Summary-in conclusion, conclusion, in conclusion, summary, briefly, briefly, necessarily,

병렬-그리고, 및 또, 또한, 또는, 혹, 혹은,...Parallel-and-and-and-or-or-or-or -...

예시-예를 들면, 이를테면, 예컨데, 말하자면, 예로, 실례,..Example-e.g., For example, say, eg, Excuse me,

또한, 문장레벨의 단락분할은 2단계의 문장 분할을 하게 되는데, 1단계의 문장분할은 전환관계의 토픽마커를 이용하고, 2단계의 문장분할은 문장간의 유사도를 이용하여 토픽별 문서 분할과 각각의 물리적인 세그먼트를 대상으로 인접문장간의 유사도를 계산하여 중요문장을 추출한다.In addition, paragraph division at the sentence level is divided into two stages. Segment division in the first stage uses the topic marker of the transition relationship, and sentence division in the second stage uses the similarity between the sentences to separate the document by topic. The important sentence is extracted by calculating the similarity between adjacent sentences in the physical segment of.

이때, 토픽마커라는 것은 "근데, 반면, 한편.." 이라는 단어들로서 문장분할에 중요한 핵심정보(cue information)가 될 수 있다.At this time, the topic marker is "but, on the other hand," as the words can be important information (cue information) in sentence division.

마지막으로, 단어공기 정보 접근법에 의해 핵심단어의 가중치를 재 조정함으로써 핵심문장을 추출한다.Finally, the key sentence is extracted by re-adjusting the weight of key words by the word-air information approach.

이하, 본 발명에 부합되는 문서요약시스템를 도 2를 통하여 상세히 설명한다.Hereinafter, a document summary system according to the present invention will be described in detail with reference to FIG.

도 2에 나타난 바와 같이, 본 발명의 문서요약시스템(10)는 문서입력부(11), 문서판단부(12), 단락구분부(13), 패턴추출부(14), 문장추출부(15), 및 문서요약부(16)를 포함하여 구성된다.As shown in FIG. 2, the document summary system 10 of the present invention includes a document input unit 11, a document determination unit 12, a paragraph separator 13, a pattern extraction unit 14, and a sentence extraction unit 15. , And document summary portion 16.

상기 문서입력부(11)는 문서를 입력받을 수 있도록 구성되고, 문서판단부(12)는 상기 문서입력부(11)에 입력된 문서가 비정형화된 것(신청서)인지 아니면 정형화된 것(예를들면, 출원서)인지를 판단하도록 구성된다.The document input unit 11 is configured to receive a document, the document determination unit 12 is a document input to the document input unit 11 is an unstructured (application) or a standardized (for example , Application).

또한, 상기 단락구분부(13)는 상기 문서판단부(12)에 의해 상기 입력된 문서가 정형화된 문서(예를들면, 출원서)인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하도록 구성된다.In addition, when it is determined that the input document is a standardized document (for example, an application) by the document determination unit 12, the paragraph separator 13 is configured according to a predetermined paragraph classification standard after document structure. It is structured to distinguish between core and additional paragraphs.

상기 패턴추출부(14)는 상기 단락구분부(13)에 의해 구분된 핵심단락 또는 상기 비정형화된 문서(예를 들면, 신청서)에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하도록 구성된다.The pattern extracting unit 14 is configured to extract a pattern identical or similar to a preformed pattern in the core paragraph or the unstructured document (for example, the application) separated by the paragraph separating unit 13.

상기 문장추출부(15)는 상기 패턴추출부(14)에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하도록 구성된다.The sentence extractor 15 removes less important sentences using paragraph division, rhetorical structure information, and word air information from the pattern extracted from the pattern extractor 14, the core and additional paragraphs without the pattern, and the important sentence. It is configured to extract.

상기 문서요약부(16)은 상기 문장추출부(15)에서 추출된 문장이 비정형화된 문서(예를 들면, 신청서)에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부(15)에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부(15)에서 추출된 문장이 정형화된 문서(예를들면, 출원서)의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부(15)에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서(예를들면, 출원서)의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하도록 구성된다.The document summary unit 16 is extracted from the sentence extraction unit 15 when the sentence extracted from the sentence extraction unit 15 is made with respect to a pattern extracted from an atypical document (for example, an application form). The sentence extracting unit 15 is summarized based on a sentence, and when the sentence extracted from the sentence extracting unit 15 is made with respect to a pattern extracted from a core paragraph of a standardized document (for example, an application). Summarize the document based on the pattern extracted from) and the important sentences extracted from the additional paragraphs, and if there are no patterns in the core paragraphs of the formalized document (eg application), then the important sentences extracted from the core and additional paragraphs Configured to summarize the document on the basis of.

상술한 바와 같이, 본 발명은 특허문서와 같은 특성화된 문서를 요약하는데적용할 수 있을 뿐만 아니라 요약효율을 높여 요약성능 및 가독율을 향상시킬 수 있는 문서 요약 방법 및 시스템를 제공할 수 있는 효과가 있는 것이다.As described above, the present invention is not only applicable to summarizing specialized documents such as patent documents, but also has an effect of providing a document summarization method and system that can improve summarization efficiency and readability by improving summarization efficiency. will be.

Claims (12)

문서를 요약하는 방법에 있어서,In the method of summarizing a document, 구조적 특징을 갖는 문서를 대상으로 패턴탐색을 행하여 패턴구조를 미리 정형화하는 단계;Performing pattern search on a document having a structural feature to preform a pattern structure; 상기와 같이 정형화된 패턴을 중요도에 따라 핵심단락과 부가단락으로 구분하는 단계;Dividing the stereotyped pattern into a core paragraph and an additional paragraph according to importance; 요약하고자 하는 문서를 입력하는 단계;Inputting a document to be summarized; 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 단계;Determining whether the input document is atypical or atypical; 상기 입력된 문서가 비정형화된 것인 경우에는 비정형화된 문서의 내용을 패턴탐색하여 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 단계;If the input document is atypical, searching for a pattern of the atypical document and extracting a pattern identical or similar to a preformed pattern; 상기와 같이 추출된 패턴에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 문서를 요약하는 단계;Summarizing a document by removing a less important sentence using paragraph division, rhetorical structure information, and word air information from the extracted pattern as described above; 상기 입력된 문서가 정형화된 것인 경우에는 문서구조화 후 상기에서 구분된 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단계;When the input document is a standardized document, classifying the document into a core paragraph and an additional paragraph according to the paragraph division criteria separated above; 상기와 같이 구분된 핵심단락에서 미리 정형화된 패턴과 동일 또는 유사한 패턴의 유무를 판단하는 단계;Determining the presence or absence of a pattern that is the same as or similar to the preformed pattern in the divided core paragraphs; 상기 핵심단락에 패턴이 있는 경우에는 패턴을 추출하는 단계;Extracting a pattern when there is a pattern in the core paragraph; 상기와 같이 추출된 패턴 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 패턴에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계; 및From the extracted patterns and additional paragraphs, paragraph sentences, rhetorical structure information, and word air information are used to remove less important sentences, and to extract important sentences and important sentences from the extracted patterns and important sentences in additional paragraphs. Summarizing the document using; And 상기 핵심단락에 미리 정형화된 패턴과 동일 또는 유사한 패턴이 없는 경우에는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하고, 추출된 핵심단락에서의 중요한 문장 및 부가단락에서의 중요한 문장을 이용하여 문서를 요약하는 단계를 포함하여 구성되는 문서요약방법If there is no pattern identical or similar to the preformed pattern in the core paragraph, the sentence is extracted by removing less important sentences using paragraph division, rhetorical structure information, and word air information from the core paragraph and the additional paragraph. A document summary method comprising the steps of summarizing a document by using an important sentence in a core paragraph and an important sentence in an additional paragraph. 제1항에 있어서, 단락분할은 2 단계의 문장 분할로 이루어지고, 1 단계의 문장분할은 전환관계의 토픽마커를 이용하고, 2 단계의 문장분할은 문장간의 유사도를 이용하여 토픽별 문서 분할과 각각의 물리적인 세그먼트를 대상으로 인접문장간의 유사도를 계산하여 중요문장을 추출하도록 구성되는 것을 특징으로 하는 문서요약방법The method of claim 1, wherein paragraph division comprises two stages of sentence division, one stage division of sentences uses a topic marker of a transition relationship, and two divisions of division uses a similarity of sentences between topics by using similarity between sentences. Document summary method, characterized in that to extract the important sentence by calculating the similarity between adjacent sentences for each physical segment 제1항 또는 제2항에 있어서, 상기 수사 구조적인 정보에 의한 문장추출은 단락에서 등위접속사, 중위접속사, 전환관계의 접속사를 이용하여 상대적인 중요도에 따라 차별성을 부여하여 요약부분에 중요도 가중치를 가장 높게 부여하고, 병렬, 예시순으로 덜 중요한 문장을 제거해 나가는 방식으로 이루어지는 것을 특징으로 하는 문서요약방법The sentence extraction according to claim 1 or 2, wherein the sentence extraction based on the rhetorical structural information is given a distinctiveness according to relative importance by using a rank connection, a middle connection, and a conversion relationship in a paragraph, so that the weight of importance is summarized in the summary. Document summarization method characterized in that it is made in such a way as to give a high, parallel, example order to remove less important sentences 제1항 또는 제2항에 있어서, 단어공기 정보에 의한 핵심문장의 추출은 핵심단어의 가중치를 재 조정함으로써 행해지는 것을 특징으로 하는 문서요약방법The document summary method according to claim 1 or 2, wherein the extraction of the key sentence by the word air information is performed by readjusting the weight of the key word. 제3항에 있어서, 단어공기 정보에 의한 핵심문장의 추출은 핵심단어의 가중치를 재 조정함으로써 행해지는 것을 특징으로 하는 문서요약방법The method according to claim 3, wherein the extraction of the key sentence by the word air information is performed by readjusting the weight of the key word. 제1항, 제2항 또는 제5항에 있어서, 상기 문서는 특허문서이고, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서가 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법6. The document according to claim 1, 2 or 5, wherein the document is a patent document, the atypical document is a document written not in accordance with the patent requirement, and the document is a document written in conformity with the patent requirement. Document summary method characterized in that 제3항에 있어서, 상기 문서가 특허문서이고, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서가 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법The document summary method according to claim 3, wherein the document is a patent document, the atypical document is a document written not in accordance with the patent specification requirement, and the document is a document written in conformity with the patent specification requirement. 제4항에 있어서, 상기 문서가 특허문서이고, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서가 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약방법The document summary method according to claim 4, wherein the document is a patent document, the atypical document is a document written not in accordance with the patent specification requirement, and the document is a document written in conformity with the patent requirement. 문서를 요약하는 시스템에 있어서,In a system for summarizing documents, 요약하고자 하는 문서를 입력받는 문서입력부;A document input unit for receiving a document to be summarized; 상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:Document determination unit for determining whether the document input to the document input unit is atypical or standardized: 상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;If it is determined by the document determination unit that the input document is a standardized paragraph separation section for dividing the core paragraph and additional paragraphs according to a predetermined paragraph classification criteria after document structure; 상기 단락구분부에 의해 구분된 핵심단락 또는 상기 비정형화된 문서에서 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;A pattern extraction unit for extracting a pattern identical or similar to a preformed pattern in the core paragraph or the atypical document separated by the paragraph separator; 상기 패턴추출부에서 추출된 패턴, 패턴이 없는 핵심단락 및 부가단락에서 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하여 중요한 문장을 추출하는 문장추출부; 및A sentence extracting unit extracting an important sentence by removing a less important sentence using paragraph division, rhetorical structure information, and word air information in a pattern extracted from the pattern extracting unit, a core paragraph and an additional paragraph without a pattern; And 상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서의 핵심단락에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 패턴 및 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하고, 정형화된 문서의 핵심단락에 패턴이 없는 경우에는 핵심단락과 부가단락에서 추출된 중요한 문장에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템If the sentence extracted by the sentence extractor is made of a pattern extracted from an unstructured document, the document is summarized based on the sentence extracted from the sentence extractor, and the sentence extracted from the sentence extractor is formatted. If the pattern is extracted from the core paragraph of the document, the document is summarized based on the pattern extracted from the sentence extraction unit and the important sentence extracted from the additional paragraph. If there is no pattern in the core paragraph of the standardized document, the core is summarized. A document summary system that includes a document summary that summarizes documents based on important sentences extracted from paragraphs and subparagraphs. 제9항에 있어서, 상기 문서가 특허문서이고, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서가 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약시스템10. The document summary system of claim 9, wherein the document is a patent document, the atypical document is a document written not in accordance with the patent specification requirements, and the document summary system is a document written in accordance with the patent specification requirements. 문서를 요약하는 시스템에 있어서,In a system for summarizing documents, 요약하고자 하는 문서를 입력받는 문서입력부;A document input unit for receiving a document to be summarized; 상기 문서입력부에 입력된 문서가 비정형화된 것인지 아니면 정형화된 것인지를 판단하는 문서판단부:Document determination unit for determining whether the document input to the document input unit is atypical or standardized: 상기 문서판단부에 의해 상기 입력된 문서가 정형화된 것인 것으로 판단되는 경우에는 문서구조화 후 미리 정해진 단락구분기준에 따라 핵심단락과 부가단락으로 구분하는 단락구분부;If it is determined by the document determination unit that the input document is a standardized paragraph separation section for dividing the core paragraph and additional paragraphs according to a predetermined paragraph classification criteria after document structure; 상기 단락구분부에 의해 구분된 단락이 핵심단락인지 부가단락인지를 판단하는 단락판단부;A short circuit determination unit for determining whether a short circuit divided by the short circuit division unit is a core short circuit or an additional short circuit; 상기 문서판단부에 의해 상기 입력된 문서가 비정형화된 것인 것으로 판단되는 경우 또는 상기 단락구분부에 의해 구분된 단락이 단락판단부에 의해 핵심단락인 것으로 판단되는 경우에는 미리 정형화된 패턴과 동일 또는 유사한 패턴을 추출하는 패턴추출부;When the input document is judged to be an informal form or the paragraph divided by the paragraph separator is determined to be the core paragraph by the paragraph determination unit, the same pattern as the preformed pattern is used. Or a pattern extraction unit for extracting a similar pattern; 상기 패턴추출부에서 패턴추출된 문서를 바탕으로 단락분할, 수사구조정보, 단어공기정보를 이용하여 덜 중요한 문장을 제거하는 문장추출부;A sentence extraction unit for removing less important sentences using paragraph division, rhetorical structure information, and word air information based on the pattern extracted document from the pattern extraction unit; 상기 단락구분부에 의해 구분된 단락이 단락판단부에 의해 부가단락인 것으로 판단되는 경우에는 단락분할, 수사구조정보, 단어공기정보를 이용하여 문장을 추출하는 문장추출부; 및A sentence extracting unit extracting a sentence using paragraph division, rhetorical structure information, and word air information when it is determined that the paragraph divided by the paragraph separator is an additional paragraph by the paragraph determination unit; And 상기 문장추출부에서 추출된 문장이 비정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 문장에 근거하여 문서를 요약하고, 그리고 상기 문장추출부에서 추출된 문장이 정형화된 문서에서 추출된 패턴에 대하여 이루어진 경우에는 상기 문장추출부에서 추출된 핵심단락과 상기 문장추출부에 의해 추출된 부가단락에 근거하여 문서를 요약하는 문서요약부를 포함하여 구성되는 문서요약시스템If the sentence extracted by the sentence extractor is made of a pattern extracted from an unstructured document, the document is summarized based on the sentence extracted from the sentence extractor, and the sentence extracted from the sentence extractor is formatted. In the case of the pattern extracted from the document, a document summary system including a document summary section for summarizing the document based on the core paragraph extracted from the sentence extraction unit and the additional paragraph extracted by the sentence extraction unit. 제11항에 있어서, 상기 문서가 특허문서이고, 비정형화된 문서는 특허기재요건에 부합되지 않게 작성된 문서이고, 그리고 정형화된 문서가 특허기재요건에 부합되게 작성된 문서인 것을 특징으로 하는 문서요약시스템12. The document summary system of claim 11, wherein the document is a patent document, the atypical document is a document written not in accordance with the patent specification requirements, and the document summary system is a document written in conformity with the patent specification requirements.
KR10-2001-0070540A 2001-11-13 2001-11-13 Method And System For Summarizing Document Expired - Fee Related KR100435442B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR10-2001-0070540A KR100435442B1 (en) 2001-11-13 2001-11-13 Method And System For Summarizing Document
JP2002322061A JP3735336B2 (en) 2001-11-13 2002-11-06 Document summarization method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0070540A KR100435442B1 (en) 2001-11-13 2001-11-13 Method And System For Summarizing Document

Publications (2)

Publication Number Publication Date
KR20030039575A true KR20030039575A (en) 2003-05-22
KR100435442B1 KR100435442B1 (en) 2004-06-10

Family

ID=29244679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0070540A Expired - Fee Related KR100435442B1 (en) 2001-11-13 2001-11-13 Method And System For Summarizing Document

Country Status (2)

Country Link
JP (1) JP3735336B2 (en)
KR (1) KR100435442B1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703193B1 (en) * 2006-04-27 2007-04-09 인하대학교 산학협력단 Document Summary Apparatus and Method Using Non-Negative Matrix Factorization
KR100795930B1 (en) * 2005-10-10 2008-01-21 엔에이치엔(주) Index-based Query Recommendation Method and System
KR100916645B1 (en) * 2008-04-25 2009-09-08 한국과학기술원 Sentence Summary Method Using Air Information, Main Grammar Elements, and Title Information
US7747429B2 (en) 2006-06-02 2010-06-29 Samsung Electronics Co., Ltd. Data summarization method and apparatus
CN110110195A (en) * 2019-05-07 2019-08-09 宜人恒业科技发展(北京)有限公司 A kind of impurity sweep-out method and device

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101656245B1 (en) 2015-09-09 2016-09-09 주식회사 위버플 Method and system for extracting sentences
KR101685445B1 (en) 2016-04-07 2016-12-13 주식회사 금강스틸산업 Gratings for drainage trench
KR101842274B1 (en) 2016-09-05 2018-03-27 주식회사 위버플 Method and system for extracting sentences
KR102034302B1 (en) 2018-03-20 2019-10-18 주식회사 딥서치 Method and system for extracting sentences
KR102128659B1 (en) 2018-10-16 2020-06-30 주식회사 포스코아이씨티 System and Method for Extracting Keyword and Generating Abstract
KR102125407B1 (en) 2019-10-14 2020-06-22 주식회사 딥서치 Method and system for extracting sentences
CN111563372B (en) * 2020-05-11 2021-04-13 世纪金榜集团股份有限公司 Typesetting document content self-duplication checking method based on teaching book publishing
CN113704457B (en) * 2021-07-23 2024-03-01 北京搜狗科技发展有限公司 Method and device for generating abstract and storage medium

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5050071A (en) * 1988-11-04 1991-09-17 Harris Edward S Text retrieval method for texts created by external application programs
JPH0776971B2 (en) * 1989-03-17 1995-08-16 工業技術院長 Document abstract creation device
JP3178483B2 (en) * 1992-06-09 2001-06-18 富士ゼロックス株式会社 Document processing device
JP3383049B2 (en) * 1993-09-13 2003-03-04 株式会社東芝 Document search device
JP2809341B2 (en) * 1994-11-18 1998-10-08 松下電器産業株式会社 Information summarizing method, information summarizing device, weighting method, and teletext receiving device.
JP3571408B2 (en) * 1995-03-31 2004-09-29 株式会社日立製作所 Document processing method and apparatus
US5691708A (en) * 1995-08-14 1997-11-25 Lotus Development Corporation Text abstraction method and apparatus
JPH10254900A (en) * 1997-03-14 1998-09-25 Omron Corp Automatic document summarizing device and its method
JPH10340265A (en) * 1997-03-27 1998-12-22 Maruzen Kk Abstract editing device
JPH10301956A (en) * 1997-04-30 1998-11-13 Ricoh Co Ltd Key sentence extraction method, abstract method, and document display method
JP3652086B2 (en) * 1997-10-22 2005-05-25 株式会社日立製作所 Speed reading support device
JP2000311167A (en) * 1999-04-28 2000-11-07 Sharp Corp Document processing apparatus and method, and storage medium used therefor
JP2001101207A (en) * 1999-09-30 2001-04-13 Oki Electric Ind Co Ltd Document summarizing device
KR100393176B1 (en) * 2000-05-29 2003-07-31 주식회사 엔아이비소프트 Internet information searching system and method by document auto summation
KR20000063488A (en) * 2000-07-18 2000-11-06 박은일 The semantic knowledge database automatic construction device on the on-line document, and the method, the record medium for that.

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100795930B1 (en) * 2005-10-10 2008-01-21 엔에이치엔(주) Index-based Query Recommendation Method and System
KR100703193B1 (en) * 2006-04-27 2007-04-09 인하대학교 산학협력단 Document Summary Apparatus and Method Using Non-Negative Matrix Factorization
US7747429B2 (en) 2006-06-02 2010-06-29 Samsung Electronics Co., Ltd. Data summarization method and apparatus
KR100916645B1 (en) * 2008-04-25 2009-09-08 한국과학기술원 Sentence Summary Method Using Air Information, Main Grammar Elements, and Title Information
CN110110195A (en) * 2019-05-07 2019-08-09 宜人恒业科技发展(北京)有限公司 A kind of impurity sweep-out method and device

Also Published As

Publication number Publication date
KR100435442B1 (en) 2004-06-10
JP3735336B2 (en) 2006-01-18
JP2003281165A (en) 2003-10-03

Similar Documents

Publication Publication Date Title
US8266169B2 (en) Complex queries for corpus indexing and search
US8447588B2 (en) Region-matching transducers for natural language processing
US5752051A (en) Language-independent method of generating index terms
US8510097B2 (en) Region-matching transducers for text-characterization
US7720847B2 (en) Apparatus and computerised method for determining constituent words of a compound word
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US8661012B1 (en) Ensuring that a synonym for a query phrase does not drop information present in the query phrase
US20090292698A1 (en) Method for extracting a compact representation of the topical content of an electronic text
US20050197829A1 (en) Word collection method and system for use in word-breaking
US20090012926A1 (en) Question answering device, question answering method, and question answering program
Ravin et al. Extracting names from natural-language text
US20030046263A1 (en) Method and system for mining a document containing dirty text
US20070100890A1 (en) System and method of providing autocomplete recommended word which interoperate with plurality of languages
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
KR100435442B1 (en) Method And System For Summarizing Document
US8170867B2 (en) System for extracting information from a natural language text
US20080243487A1 (en) Hybrid text segmentation using n-grams and lexical information
JP4737435B2 (en) LABELING SYSTEM, LABELING SERVICE SYSTEM, LABELING METHOD, AND LABELING PROGRAM
Chen et al. Knowledge extraction for identification of Chinese organization names
Cavaglia Measuring corpus homogeneity using a range of measures for inter-document distance.
KR100617317B1 (en) Method for re-analysis of compound noun to decide lexical entries and apparatus thereof
Li et al. Word embedding and topic modeling enhanced multiple features for content linking and argument/sentiment labeling in online forums
JPS61248160A (en) Document information registering system
da Costa Carvalho et al. Using statistical features to find phrasal terms in text collections
JP2000339342A (en) Document search method and document search device

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

R17-X000 Change to representative recorded

St.27 status event code: A-3-3-R10-R17-oth-X000

D13-X000 Search requested

St.27 status event code: A-1-2-D10-D13-srh-X000

D14-X000 Search report completed

St.27 status event code: A-1-2-D10-D14-srh-X000

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

T11-X000 Administrative time limit extension requested

St.27 status event code: U-3-3-T10-T11-oth-X000

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 5

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 6

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 7

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 8

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 9

FPAY Annual fee payment

Payment date: 20130524

Year of fee payment: 10

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 10

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 11

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 11

FPAY Annual fee payment

Payment date: 20150602

Year of fee payment: 12

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 12

FPAY Annual fee payment

Payment date: 20160527

Year of fee payment: 13

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 13

FPAY Annual fee payment

Payment date: 20170530

Year of fee payment: 14

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 14

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 15

P22-X000 Classification modified

St.27 status event code: A-4-4-P10-P22-nap-X000

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 16

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20200602

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20200602

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000

R18 Changes to party contact information recorded

Free format text: ST27 STATUS EVENT CODE: A-5-5-R10-R18-OTH-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

R18-X000 Changes to party contact information recorded

St.27 status event code: A-5-5-R10-R18-oth-X000