KR102673710B1

KR102673710B1 - 인공지능 기반의 포뮬레이션 데이터베이스를 구축하기 위한 전자 장치 및 그 동작 방법

Info

Publication number: KR102673710B1
Application number: KR1020240019940A
Authority: KR
Inventors: 최규담; 김두일; 이태준; 김청원; 김성진
Original assignee: 희래 주식회사
Priority date: 2023-08-23
Filing date: 2024-02-08
Publication date: 2024-06-10
Anticipated expiration: 2044-02-08
Also published as: KR102799924B1; KR20250031130A; KR20250029763A; KR20250029765A; KR102851868B1; KR20250029764A; KR102741367B1; US20250068603A1; KR102784194B1; WO2025042099A1; KR102741365B1; KR102823155B1; KR102741366B1

Abstract

본 개시에 의하면, 본 개시는 문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축하는 단계, 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성하는 단계, 포뮬레이션 비율에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 합성 포뮬레이션 데이터를 기초로 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측하는 단계, 및 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화하는 단계를 포함하는 인공지능 기반의 포뮬레이션 데이터베이스를 구축하기 위한 전자 장치 및 그 동작 방법을 제공한다.

Description

인공지능 기반의 포뮬레이션 데이터베이스를 구축하기 위한 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE AND OPERATING METHOD THEREOF FOR BUILDING FORMULATION DATABASE BASED ON ARTIFICIAL INTELLIGENCE}

본 개시의 실시예들은 인공지능 기반의 포뮬레이션 데이터베이스를 구축하기 위한 전자 장치 및 그 동작 방법에 관한 것이다.

최근 연구개발에 대한 투자가 확대되고 각종 기술이 급격하게 발전함에 따라 수많은 정보를 담고 있는 문서들이 매우 빠른 속도로 생산되고 있다. 예를 들어, 과학기술 분야의 연구 논문의 수, 의학 분야에서 환자의 케이스 스터디에 관한 문서의 수, 및 법률적 갈등이 증가함에 따라 관련된 법률문서나 특허출원의 수 등이 급격하게 증가하고 있다.

이러한 환경에서, 개인이 직접 수많은 문서들을 읽고 분석하는 데 어려움이 있다. 위와 같은 어려움을 해결하기 위해, 인공지능을 활용한 자연어 처리 기술(natural language processing)이 주목받고 있다. 인공지능을 활용한 자연어 처리 기술은 문서 내의 텍스트를 분석하여 사람들에게 유의미한 정보를 제공할 수 있다. 예를 들어, 인공지능을 활용한 자연어 처리 장치는 장문의 텍스트를 분석하여 핵심을 요약하거나, 또는 관심 정보를 검색하여 개인에게 추천할 수 있다. 사람들은 인공지능을 활용한 자연어 처리를 통해 필요한 문서와 문서 내의 정보를 수고로움 없이 제공받을 수 있다. 그리고 인공지능을 활용한 자연어 처리를 위해 텍스트가 전자문서 내에서 추출되는 것이 선행될 필요가 있다.

공개특허공보, 제10-2021-0105764호(2021.08.27)

그러나 이러한 종래의 전자 장치 및 그 동작 방법에는, 소스 데이터로부터 사용자가 필요한 데이터(예컨대, 포뮬레이션 데이터 및/또는 물성 데이터)를 정확하게 추출 및 가공하지 못한다는 문제점이 존재하였다.

본 개시의 실시예들은 상기와 같은 문제점을 포함하여 여러 문제점들을 해결하기 위한 것으로서, 소스 데이터로부터 사용자가 필요한 데이터를 정확하게 추출 및 가공할 수 있는 인공지능 기반의 포뮬레이션 데이터베이스를 구축하기 위한 전자 장치 및 그 동작 방법을 제공하고자 한다. 그러나 이러한 과제는 예시적인 것으로, 이에 의해 본 개시의 범위가 한정되는 것은 아니다.

본 개시의 일 관점에 따르면, 문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축하는 단계, 상기 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성하는 단계, 포뮬레이션 비율에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 상기 합성 포뮬레이션 데이터를 기초로 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측하는 단계 및 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화하는 단계를 포함하는 전자 장치의 하나 이상의 프로세서에 의해 수행되는 동작 방법이 제공된다.

본 실시예에 따르면, 상기 포뮬레이션 데이터베이스를 구축하는 단계는, 상기 문서에 포함된 텍스트로부터 포뮬레이션과 관련된 문단을 추출하는 단계 및 상기 문서에 포함된 테이블로부터 상기 포뮬레이션과 관련된 데이터를 추출하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 포뮬레이션과 관련된 문단을 추출하는 단계는, 상기 문서 내의 텍스트들을 추출하는 단계, 객체명 인식 모델을 이용하여 상기 추출된 텍스트들을 입력으로 입력 받은 문장 내에 상기 포뮬레이션과 관련된 클래스를 예측하는 단계 및 상기 포뮬레이션의 함량 및 물성 중 적어도 하나를 포함하는 정보를 포함하는 문장을 포함하는 문단을 저장하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 포뮬레이션과 관련된 데이터를 추출하는 단계는, 미리 훈련된 테이블 트랜스포머 모델을 이용하여 상기 문서에서 테이블들의 위치를 확인하는 단계, 상기 확인된 테이블들의 위치에 미리 설정된 크기의 윈도우를 설정하는 단계, 상기 윈도우 내에 포함된 테이블의 내용을 추출하는 단계, 테서랙트 OCR(Tesseract OCR) 모델을 이용하여 상기 추출된 내용들 중에서 상기 포뮬레이션 관련 키워드를 포함하는 내용을 포함하는 테이블을 선별하는 단계 및 상기 선별된 테이블을 저장하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 포뮬레이션과 관련된 데이터를 추출하는 단계는, 테이블 구조 인식 모델을 이용해, 선별된 표 이미지들을 HTML 형식으로 변환하는 단계 및 HTML 파서를 이용하여 테이블을 기존 데이터베이스의 형태에 맞게 변환하여 저장하는 단계를 더 포함할 수 있다.

본 실시예에 따르면, 상기 포뮬레이션과 관련된 데이터를 추출하는 단계는, HTML 문서 및 XML 문서 중 적어도 하나에 포함된 테이블 중 조성비 또는 물성이 있는 행(row)을 확인하는 단계, 테이블 헤드 내에 예시 번호와 조성비 정보 혹은 물성 정보를 정렬하는 단계, 조성비 데이터셋과 물성 데이터셋 중에 예시 번호가 일치하는 데이터를 추출하는 단계, 원재료 이름, 단위, 및 양을 포함하는 정보를 저장하는 단계, 물성 이름, 값, 단위, 방법, 및 조건을 포함하는 정보를 저장하는 단계 및 기존 데이터베이스에 조성비 정보 및 물성 정보를 자동으로 추가하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 합성 포뮬레이션 데이터를 생성하는 단계는, 테뷸러 데이터 생성기(Tabular data Generator)를 이용하여 원본 데이터로부터 실제 포뮬레이션 데이터와 유사한 합성 포뮬레이션 데이터를 생성하는 단계, 디스크리미네이터(Discriminator)를 이용하여 상기 원본 데이터와 상기 실제 포뮬레이션 데이터와 유사한 합성 포뮬레이션 데이터 간의 조건부 분포(conditional distribution)를 비교하여, 유사도를 출력하는 단계 및 상기 유사도를 기초로 상기 원본 데이터와 유사한 분포도를 갖는 합성 데이터를 샘플링하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 컴파운드의 물성을 예측하는 단계는, 전처리된 원본 데이터와 상기 합성 포뮬레이션 데이터를 포함하는 학습용 데이터를 수집하는 단계, 상기 포뮬레이션 물성 예측 모델이 예측할 물성 값을 선정한 후, 데이터의 표현 방식을 정의하는 단계, 지식 전이를 통해 학습이 완료된 물성 별 모델의 가중치를 저장하고, 학습되지 않은 데이터에 대해 성능 평가를 진행하는 단계 및 예측된 물성 별로 예측 결과를 평가하는 단계를 포함할 수 있다.

본 실시예에 따르면, 상기 포뮬레이션을 최적화하는 단계는, 액터 네트워크에서, 목표 물성에 대한 제1 데이터와 기존의 컴파운드 포뮬레이션에 대한 제2 데이터를 기초로 신규 컴파운드 포뮬레이션에 대한 제3 데이터를 생성하는 단계; 상호 작용하는 환경에서, 상기 제3 데이터의 상기 신규 컴파운드 포뮬레이션의 물성 값과 상기 목표 물성 간 유사도 기반의 보상 점수를 부여하는 단계 및 크리틱 네트워크에서, 상기 보상 점수를 기반으로 기존 포뮬레이션 대비 변경된 신규 포뮬레이션이 얼마나 목표 물성에 가깝게 개선되었는지에 대한 기댓값을 상기 액터 네트워크에 피드백하는 단계를 포함할 수 있다.

본 개시의 다른 관점에 따르면, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축하는 단계, 상기 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성하는 단계, 포뮬레이션 비율에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 상기 합성 포뮬레이션 데이터를 기초로 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측하는 단계 및 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화하는 단계를 실행할 수 있다.

전술한 것 외의 다른 측면, 특징, 이점은 이하의 발명을 실시하기 위한 구체적인 내용, 청구범위 및 도면으로부터 명확해질 것이다.

또한, 이러한 일반적이고 구체적인 측면이 시스템, 방법, 컴퓨터 프로그램, 또는 어떠한 시스템, 방법, 컴퓨터 프로그램의 조합을 사용하여 실시될 수 있다.

상기한 바와 같이 이루어진 본 개시의 예시적 실시예에 따르면, 사용자가 원하는 물성을 가지는 컴파운드를 설계하기 위한 인공지능 기반의 포뮬레이션 데이터베이스를 구축할 수 있는 전자 장치 및 그 동작 방법을 구현할 수 있다. 물론 이러한 효과에 의해 본 개시의 범위가 한정되는 것은 아니다.

도 1은 본 개시의 예시적 실시예에 따른 시스템을 개략적으로 도시하는 블록도이다.
도 2는 본 개시의 예시적 실시예에 따른 전자 장치를 개략적으로 도시하는 블록도이다.
도 3은 도 2의 전자 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4는 본 개시의 예시적 실시예에 따른 텍스트를 추출하는 프로세스를 설명하기 위한 도면이다.
도 5는 본 개시의 예시적 실시예에 따른 테이블을 추출하는 프로세스를 설명하기 위한 도면이다.
도 6은 본 개시의 예시적 실시예에 따른 테이블을 추출하는 프로세스의 일 예를 나타내는 도면이다.
도 7은 본 개시의 예시적 실시예에 따른 테이블의 구조를 인식하는 모델의 프로세스를 설명하기 위한 도면이다.
도 8은 본 개시의 예시적 실시예에 따른 파서(Parser)의 프로세스를 설명하기 위한 흐름도이다.
도 9는 본 개시의 예시적 실시예에 따른 테이블의 추출 형태를 비교한 일 예를 나타내는 도면이다.
도 10은 본 개시의 예시적 실시예에 따른 최종적으로 저장되는 조성 및 물성 테이블의 일 예를 나타내는 도면이다.
도 11은 본 개시의 예시적 실시예에 따른 특허 문서가 포함하는 표 형태의 종류의 예들을 나타내는 도면이다.
도 12는 본 개시의 예시적 실시예에 따른 합성 포뮬레이션 데이터를 생성하는 프로세스를 설명하기 위한 도면이다.
도 13은 본 개시의 예시적 실시예에 따른 물성 테이블의 데이터를 변환하는 일 예를 나타내는 도면이다.
도 14는 본 개시의 예시적 실시예에 따른 물성 테이블을 변환하는 일 예를 나타내는 도면이다.
도 15는 본 개시의 예시적 실시예에 따른 모델에 입력되는 데이터의 프레임의 일 예를 나타내는 도면이다.
도 16은 본 개시의 예시적 실시예에 따른 모델에 의해 생성된 합성 포뮬레이션 데이터의 분포도를 예시적으로 나타낸 도면이다.
도 17은 본 개시의 예시적 실시예에 따른 포뮬레이션 물성 예측 프로세스를 설명하기 위한 도면이다.
도 18은 본 개시의 예시적 실시예에 따른 포뮬레이션 물성 예측 모델에 의해 생성된 데이터의 예들을 나타낸 도면이다.
도 19는 본 개시의 예시적 실시예에 따른 포뮬레이션 최적화 프로세스를 설명하기 위한 도면이다.

본 개시는 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 개시의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

본 개시에서 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 따라서, 이하에서 언급되는 제1 구성요소는 본 개시의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

본 개시에서 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, “A 및/또는 B"와 “A 및 B 중 적어도 하나"는 A이거나, B이거나, A와 B인 경우를 포함한다.

본 개시에서 "포함하다" 또는 "가지다" 등의 표현은 본 개시에 기재된 특징 및/또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징 및/또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

본 개시에서 "예시적인"이라는 표현은 "예시 또는 예증으로서 사용된"의 의미로 사용된다. 본 개시에서 "예시적인" 것으로 설명된 임의의 실시예는 반드시 바람직한 것으로서 해석되거나 다른 실시예들보다 이점을 갖는 것으로 해석되어서는 안된다.

본 개시의 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 개시가 반드시 도시된 바에 한정되지 않는다.

어떤 실시예가 달리 구현 가능한 경우에 특정한 동작 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 단계가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.

본 개시의 실시예들은 기능 또는 기능을 수행하는 블록의 관점에서 설명될 수 있다. 본 개시의 '부' 또는 '모듈' 등으로 지칭되는 블록은 논리 게이트, 집적 회로, 마이크로 프로세서, 마이크로 컨트롤러, 메모리, 수동 전자 부품, 능동 전자 부품, 광학 컴포넌트, 하드와이어드 회로(hardwired circuits) 등과 같은 아날로그 또는 디지털 회로에 의해 물리적으로 구현되고, 선택적으로 펌웨어 및 소프트웨어에 의해 구동될 수 있다. 또한, 본 개시에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 엘리먼트를 의미하며, "부"는 어떤 역할들을 수행할 수 있다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 엘리먼트들, 객체지향 소프트웨어 엘리먼트들, 클래스 엘리먼트들 및 태스크 엘리먼트들과 같은 엘리먼트들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함할 수 있다. 엘리먼트들과 "부"들 안에서 제공되는 기능은 더 작은 수의 엘리먼트들 및 "부"들로 결합되거나 추가적인 엘리먼트들과 "부"들로 더 분리될 수 있다.

본 개시의 실시예는 적어도 하나의 하드웨어 디바이스 상에서 실행되는 적어도 하나의 소프트웨어 프로그램을 사용하여 구현될 수 있고 엘리먼트를 제어하기 위해 네트워크 관리 기능을 수행할 수 있다.

다른 정의가 없다면, 본 개시에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다.

이하, 첨부된 도면을 참조하여 본 개시의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 개시의 예시적 실시예에 따른 시스템(100)을 개략적으로 도시하는 블록도이다.

도 1을 참조하면, 시스템(100)은 사용자 단말(110), 전자 장치(120), 및 네트워크(130) 등을 포함할 수 있다. 도 1에서 도시되는 컴포넌트들(또는 엘리먼트들)은 예시적인 것으로서, 추가적인 컴포넌트들이 존재하거나 또는 도 1에서 도시되는 컴포넌트들 중 일부는 생략될 수 있다. 본 개시의 사용자 단말(110) 및 전자 장치(120)는 네트워크(130)를 통해, 본 개시의 예시적 실시예들에 따른 시스템을 위한 데이터를 상호 송수신할 수 있다.

사용자 단말(110)은 다양한 데이터를 전자 장치(120)에 전송할 수 있다. 사용자 단말(110)은 전자 장치(120)와 통신을 위한 메커니즘을 갖는 시스템에서의 임의의 형태의 엔티티(들)를 의미할 수 있다. 사용자 단말(110)은 통신이 가능한 장치로서 그 형태에는 제한이 없다. 예컨대, 본 개시에 따른 사용자 단말(110)은 컴퓨터, 서버 장치 및 휴대용 단말기 중 어느 하나 또는 둘 이상의 조합의 형태가 될 수 있다.

전자 장치(120)는 사용자 단말(110)과 통신할 수 있고, 프로그램 데이터의 프로그램을 실행할 수 있다. 본 명세서에서 '본 개시에 따른 장치'는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들을 모두 포함할 수 있다. 예컨대, 본 개시에 따른 전자 장치(120)는 컴퓨팅 장치로서, 컴퓨터, 서버 장치 및 휴대용 단말기 중 어느 하나 또는 둘 이상의 조합의 형태가 될 수 있다.

네트워크(130)는 유선 및 무선 등과 같은 그 통신 양태를 가리지 않고 구성될 수 있다. 예컨대, 네트워크(130)는 개인 통신망(PAN: Personal Area Network), 단거리 통신망(WAPN, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network) 등 다양한 통신망으로 구성될 수 있다.

도 2는 본 개시의 예시적 실시예에 따른 전자 장치(200)를 개략적으로 도시하는 블록도이다.

도 2를 참조하면, 전자 장치(120)는 통신부(210), 메모리(220), 및 프로세서(230) 등을 포함할 수 있다.

통신부(210)는 적어도 하나의 사용자 단말(110)과 통신을 수행할 수 있다.

메모리(220)는 본 개시의 전자 장치(120) 내의 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장할 수 있고, 메모리(220)에 저장된 데이터를 이용하여 전술한 동작을 수행하는 적어도 하나의 프로세서(230)로 구현될 수 있다. 여기에서, 메모리(220)와 프로세서(230)는 각각 별개의 칩으로 구현될 수 있다. 또한, 메모리(220)와 프로세서(230)는 단일 칩으로 구현될 수도 있다.

메모리(220)는 본 개시의 전자 장치(120)의 다양한 기능을 지원하는 데이터 및 프로세서(230)의 동작을 위한 프로그램을 저장할 수 있다. 메모리(220)는 입/출력되는 데이터들을 저장할 있고, 본 장치에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 본 장치의 동작을 위한 데이터들, 명령어들, 및 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예로, 상기 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 서버로부터 다운로드 될 수 있다.

메모리(220)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나 이에 제한되는 것은 아니다. 또한, 메모리(220)는 본 장치와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다.

프로세서(230)는, 메모리(220)에 저장된 상기 하나 이상의 인스트럭션을 실행할 수 있다. 프로세서(230)는, 문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축할 수 있고, 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성할 수 있고, 합성 포뮬레이션 데이터를 기초로 포뮬레이션 비율에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측할 수 있고, 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화할 수 있다.

본 개시에 따른 인공지능과 관련된 기능은 프로세서(230)와 메모리(220)를 통해 동작될 수 있다. 프로세서(230)는 하나 이상의 프로세서로 구성될 수 있다. 이때, 하나 이상의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU (Graphic Processing Unit), VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU(Neural Processing Unit)와 같은 인공지능 전용 프로세서를 포함할 수 있다. 하나 이상의 프로세서는, 메모리(220)에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 하나 이상의 프로세서가 인공지능 전용 프로세서인 경우, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들 (weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경 망 연산을 수행할 수 있다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN: Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

프로세서(230)는 뉴럴 네트워크를 생성하거나, 뉴럴 네트워크를 훈련(train, 또는 학습(learn)하거나, 수신되는 입력 데이터를 기초로 연산을 수행하고, 수행 결과를 기초로 정보 신호(information signal)를 생성하거나, 뉴럴 네트워크를 재훈련(retrain)할 수 있다. 뉴럴 네트워크의 모델들은 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network 등 다양한 종류의 모델들을 포함할 수 있으나 이에 제한되지는 않는다. 프로세서(230)는 뉴럴 네트워크의 모델들에 따른 연산을 수행하기 위한 하나 이상의 프로세서를 포함할 수 있다. 예를 들어 뉴럴 네트워크는 심층 뉴럴 네트워크 (Deep Neural Network)를 포함할 수 있다.

뉴럴 네트워크는 CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 퍼셉트론(perceptron), 다층 퍼셉트론(multilayer perceptron), FF(Feed Forward), RBF(Radial Basis Network), DFF(Deep Feed Forward), LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit), AE(Auto Encoder), VAE(Variational Auto Encoder), DAE(Denoising Auto Encoder), SAE(Sparse Auto Encoder), MC(Markov Chain), HN(Hopfield Network), BM(Boltzmann Machine), RBM(Restricted Boltzmann Machine), DBN(Depp Belief Network), DCN(Deep Convolutional Network), DN(Deconvolutional Network), DCIGN(Deep Convolutional Inverse Graphics Network), GAN(Generative Adversarial Network), LSM(Liquid State Machine), ELM(Extreme Learning Machine), ESN(Echo State Network), DRN(Deep Residual Network), DNC(Differentiable Neural Computer), NTM(Neural Turning Machine), CN(Capsule Network), KN(Kohonen Network) 및 AN(Attention Network)를 포함할 수 있으나 이에 한정되는 것이 아닌 임의의 뉴럴 네트워크를 포함할 수 있음은 통상의 기술자가 이해할 것이다.

본 개시의 예시적인 실시예에 따르면, 프로세서(230)는 GoogleNet, AlexNet, VGG Network 등과 같은 CNN(Convolution Neural Network), R-CNN(Region with Convolution Neural Network), RPN(Region Proposal Network), RNN(Recurrent Neural Network), S-DNN(Stacking-based deep Neural Network), S-SDNN(State-Space Dynamic Neural Network), Deconvolution Network, DBN(Deep Belief Network), RBM(Restrcted Boltzman Machine), Fully Convolutional Network, LSTM(Long Short-Term Memory) Network, Classification Network, Generative Modeling, eXplainable AI, Continual AI, Representation Learning, AI for Material Design, 자연어 처리를 위한 BERT, SP-BERT, MRC/QA, Text Analysis, Dialog System, GPT-3, GPT-4, 비전 처리를 위한 Visual Analytics, Visual Understanding, Video Synthesis, ResNet 데이터 지능을 위한 Anomaly Detection, Prediction, Time-Series Forecasting, Optimization, Recommendation, Data Creation 등 다양한 인공지능 구조 및 알고리즘을 이용할 수 있으며, 이에 제한되지 않는다.

도 3은 도 2의 전자 장치(200)의 동작 방법을 설명하기 위한 흐름도이다. 도 3의 동작 방법은 전자 장치(200)의 하나 이상의 프로세서(230)에 의해 수행될 수 있다. 도 3의 동작 방법 중 일부가 생략되거나 순서를 달리하는 것도 가능하다.

도 3을 참조하면, 본 개시의 예시적 실시예에 따른 동작 방법은, 문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축하는 단계(S100), 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성하는 단계(S200), 포뮬레이션 비율에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 합성 포뮬레이션 데이터를 기초로 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측하는 단계(S300) 및 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화하는 단계(S400)를 포함할 수 있다. S100 내지 S400 단계에 대한 상세한 설명은 후술한다.

도 4는 본 개시의 예시적 실시예에 따른 텍스트를 추출하는 프로세스를 설명하기 위한 도면이고, 도 5는 본 개시의 예시적 실시예에 따른 테이블을 추출하는 프로세스를 설명하기 위한 도면이며, 도 6은 본 개시의 예시적 실시예에 따른 테이블을 추출하는 프로세스의 일 예를 나타내는 도면이다.

도 3 내지 도 6을 참조하면, 포뮬레이션 데이터베이스는 소스 데이터로부터 포뮬레이션 및 물성 값들에 대한 데이터들을 확보하여 구축되는 데이터베이스일 수 있다. 여기서 소스 데이터는 포뮬레이션 및 물성 값을가 관련된 텍스트, 테이블, 이미지 중 적어도 하나를 포함하는 데이터일 수 있다. 일 실시예로, 소스 데이터는 특허문헌, 논문 등의 문서 데이터일 수 있으며, PDF 형태의 문서일 수 있으나 이에 제한되는 것은 아니다. 이하 소스 데이터가 문서 데이터인 경우를 예로 설명한다.

일 실시예로, 단계 S100에서 하나 이상의 프로세서(230)는 문서에 포함된 텍스트로부터 포뮬레이션과 관련된 문단을 추출하는 단계, 및 상기 문서에 포함된 테이블(또는 표)로부터 상기 포뮬레이션과 관련된 데이터를 추출하는 단계를 포함할 수 있다.

도 4를 참조하면, 예시적인 실시예에서, 상기 포뮬레이션과 관련된 문단을 추출하는 단계는, 상기 문서 내의 텍스트들을 추출하는 단계, 객체명 인식 모델을 이용하여 상기 추출된 텍스트들을 입력으로 입력 받은 문장 내에 상기 포뮬레이션과 관련된 클래스를 예측하는 단계 및 상기 포뮬레이션의 함량 및 물성 중 적어도 하나를 포함하는 정보를 포함하는 문장을 포함하는 문단을 저장하는 단계를 포함할 수 있다.

일 실시예로, 문서 내의 텍스트들을 추출하는 단계에서, 프로세서(230)는 텍스트를 추출하는 모델을 이용하여, PDF 형태의 문서(이하, "PDF 문서"로 지칭됨)에 포함된 텍스트들을 추출할 수 있다. 예시적인 실시예에서, 프로세서(230)는 생체 고분자 유기 화합물의 분자 모델링을 위한 소프트웨어와 관련된 파일을 생성(또는 변환)함으로써, PDF 문서에 포함된 텍스트들을 추출할 수 있다.

예시적인 실시예에서, 텍스트를 추출하는 모델은 파이썬(python) 등과 같은 프로그램이 인식 가능하도록 OCR(Optical Character Recognition) 기반의 모델(예, Nougat) 등으로 구현될 수 있다. 또한, 소프트웨어와 관련된 파일은 mmd 파일로 구현될 수 있다. 하지만, 본 개시에 전술된 실시예에 한정되는 것은 아니다.

일 실시예로, 포뮬레이션과 관련된 클래스를 예측하는 단계에서, 프로세서(230)는, 객체명 인식 모델을 이용하여, 추출된 텍스트에 대해 객체명 인식 모델에 입력된 문장 내에 포뮬레이션과 관련된 클래스(또는 엔티티(entity))를 예측할 수 있다. 프로세서(230)는 포뮬레이션의 함량 정보 또는 물성 정보가 포함된 문장이 있을 경우 해당 문단을 데이터베이스 등에 저장할 수 있다. 예컨대, 객체명 인식 모델은, MaterialsBERT로 구현될 수 있으나 이에 제한되는 것은 아니다.

도 5를 참조하면, 예시적인 실시예에서, 상기 포뮬레이션과 관련된 데이터를 추출하는 단계는, 미리 훈련된 테이블을 추출하는 모델을 이용하여 상기 문서에서 테이블들의 위치를 확인하는 단계, 상기 확인된 테이블들의 위치에 미리 설정된 크기의 윈도우를 설정하는 단계, 상기 윈도우 내에 포함된 테이블의 내용을 추출하는 단계, 테서랙트 OCR(Tesseract OCR) 모델을 이용하여 상기 추출된 내용들 중에서 상기 포뮬레이션 관련 키워드를 포함하는 내용을 포함하는 테이블을 선별하는 단계 및 상기 선별된 테이블을 저장하는 단계를 포함할 수 있다.

예시적인 실시예에서, 프로세서(230)는 고분자 소재 및 첨가제에 관한 문헌을 수집할 수 있고, 문헌에서 텍스트를 변환할 수 있다. 예컨대, 수집 방법은 자동 크롤링 방식으로 문헌을 수집하고, 수집된 문헌이 포함하는 텍스트를 XML, HTML, PDF 등의 형식을 갖춘 문서로 변환할 수 있다.

또한, 프로세서(230)는 문서에서 테이블들의 위치를 확인하는 단계에서, 미리 훈련된 트랜스포머(Pre-trained table-transformer) 모델을 이용하여 PDF 문서에서 테이블들의 위치를 확인한 후, PDF 문서에서 테이블만 따로 추출할 수 있다.

일 실시예로, 프로세서(230)는 테이블을 추출할 때 테이블 크기만큼 대응되는 윈도우(예컨대, 상자 형태의 관심 영역)를 지정하고 PDF 문서에서 윈도우의 위치에 있는 테이블의 내용을 추출할 수 있다.

한편, 테이블의 내용을 추출하는 과정에서 테이블의 엣지와 인접한 영역의 적어도 일부가 잘리는 경우가 발생할 수 있다. 이를 방지하기 위해, 프로세서(230)는 각 테이블의 내용을 모두 포함하는 전체 테이블을 추출할 수 있도록, 윈도우의 크기를 추가적으로 조정할 수 있다.

구체적인 예로, 프로세서(230)는 윈도우가 테이블의 엣지(예컨대, 테이블의 상측, 하측, 좌측, 하측 등과 같은 테이블의 가장자리)로부터 일정 간격만큼 이격되고, 사전에 설정된 여백을 포함하도록, 윈도우의 크기를 확장할 수 있다. 이때, 여백의 크기는 10mm 내지 15mm, 바람직하게는 11mm 내지 13mm, 보다 바람직하게는 11.5mm 내지 12.5mm일 수 있으나, 이에 제한되는 것은 아니고 설정에 따라 다양하게 변형될 수 있다.

예시적인 실시예에서, 상기 포뮬레이션과 관련된 데이터를 추출하는 단계는, 테이블 구조 인식 모델을 이용해, 선별된 표 이미지들을 HTML 형식으로 변환하는 단계 및 HTML 파서를 이용하여 테이블을 기존 데이터베이스의 형태에 맞게 변환하여 저장하는 단계를 더 포함할 수 있다. 예컨대, 프로세서(230)는 위치가 확인된 테이블을 파싱할 수 있고, 파싱한 테이블에서 합성 및 포뮬레이션과 관련된 테이블을 선별 및 추출할 수 있고, 추출된 테이블에 대한 이미지를 테이블 구조 인식 모델을 통해 HTML 형식으로 변환할 수 있고, HTML 파서(parser)를 통해 테이블에서 합성 및 포뮬레이션과 관련된 정보를 데이터베이스 형식으로 변환 및 정제할 수 있다.

도 5 및 도 6을 참조하면, 도 6의 상부에 도시된 테이블은, 상대적으로 작은 크기의 윈도우(예, 상자) 내에서 추출된 테이블로서 테이블의 첫 줄과 마지막 줄이 제외된 예시일 수 있고, 도 6의 하부에 도시된 테이블은 윈도우의 크기(예컨대, 상자 크기)가 조정된 후 추출된 테이블로서 테이블의 내용이 모두 포함된 전체 테이블이 추출된 예시일 수 있다. 구체적으로, 도 6을 참조하면, 처음 추출된 테이블(도 6의 상부에 도시된 테이블)은 첫 줄과 마지막 줄이 잘렸지만, 상자 크기 조정 후 전체 테이블(도 6의 하부에 도시된 테이블)이 추출된 예시를 나타낸다.

일 실시예로, 전체 테이블이 추출되면, 프로세서(230)는 테이블 내용 인식 모델을 이용하여 테이블의 내용들을 인식할 수 있다. 또한, 테이블 내용 인식 모델은 테서랙트 OCR 모델로 구현될 수 있으나, 본 개시가 실시예에 한정되는 것은 아니다. 예시적인 실시예에서, 프로세서(230)는 테서랙트 OCR 모델을 이용하여 테이블의 내용들을 인식하고, 포뮬레이션 관련 키워드의 포함 여부를 확인하여, 포뮬레이션과 관련된 표들만 선별할 수 있다. 프로세서(230)는 테이블 구조 인식 모델을 이용하여, 선별된 표 이미지들을 HTML 형식으로 변환할 수 있다. 그 후, 프로세서(230)는 HTML 파서(parser)를 이용하여 HTML 형식으로 변환된 테이블을 기존 데이터베이스의 형태에 맞게 변환하여 데이터베이스의 형식으로 변환된 테이블의 내용을 저장할 수 있다.

도 7은 본 개시의 예시적 실시예에 따른 테이블의 구조를 인식하는 모델의 프로세스를 설명하기 위한 도면이다.

도 7을 참조하면, 표 이미지는 미리 훈련된 모델의 입력될 수 있다. 예시적인 실시예에서, 미리 훈련된 모델은 CNN Backbone Network로 구현될 수 있으나 이에 제한되는 것은 아니다. 미리 훈련된 모델의 출력은 트랜스포머에 입력될 수 있다. 예컨대, CNN Backbone Network의 출력이 트랜스포머 인코더(transformer encoder)에 포지셔널 임베딩될 수 있다. 트랜스포머 인코더의 출력은 트랜스포머 디코더(transformer decoder)에 입력될 수 있다. 본 개시의 모델에 포함된 트랜스포머 디코더는 어탠션 모듈, 및 두 개의 독립적인 브랜치(branch)들로 구성될 수 있다.

일 실시예로, 제1 브랜치는 구조 예측을 위한 것이고, 제2 브랜치는 Bounding-Box(Bbox) 예측을 위한 것일 수 있다. 제1 및 제2 브랜치는 가중치를 공유하지 않으므로 각 브랜치가 예측하고자 하는 태스크(task)에 최적화되도록 학습 가능하다. 각 브랜치로 입력되기 전에 어탠션 모듈(attention module)을 공유하여 서로 연관성이 있는 두 태스크에 대해서 일부는 서로 협력할 수 있다. 각 브랜치는 어탠션 모듈, 애드 앤 놈(add & norm) 및 FFN(Feed Forward Network 또는 FFNN(Feed Forward Neural Network))을 포함할 수 있다. 트랜스포머 디코더의 출력은 HTML structure tag들 및 bounding boxes location을 포함할 수 있다. 본 개시의 모델은 각 셀들의 Bounding-Box(Bbox)의 영역에 대한 정확도를 향상시켜, 분할선이 없고, 공백을 많이 포함하고 있어 이미지 상에서 빈 영역이 많은 표에서도 데이터프레임으로 변환할 때 인식률을 향상시킬 수 있다.

도 8은 본 개시의 예시적 실시예에 따른 파서(Parser)의 프로세스를 설명하기 위한 흐름도이다.

도 8을 참조하면, 프로세서(230)는 테이블 중 조성비나 물성이 있는 행(row)을 확인한다(S1000). 프로세서(230)는 테이블 헤드 내 예시 번호와 조성비 정보 또는 물성 정보를 정렬한다(S1100). 프로세서(230)는 조성비와 물성 데이터셋 중에 예시 번호가 일치하는 것들만 추출한다(S1200). 프로세서(230)는 원재료 이름, 단위, 양 정보를 분류하여 저장한다(S1300). 또한, 프로세서(230)는 물성 이름, 값, 단위, 방법, 조건 정보를 분류하여 저장한다(S1400). 그 다음, 프로세서(230)는 기존 데이터베이스에 조성비 및 물성 정보를 자동으로 추가한다(S1500). 즉, 문서가 HTML 또는 XML일 경우, 본 개시의 파서는, HTML 문서 또는 XML 문서에서 다양한 테이블 형태를 파악함으로써, 표 형태에 영향을 받지 않고 정형 테이블로 조성비 및 물성 정보를 추출하고 정제할 수 있다.

도 9는 본 개시의 예시적 실시예에 따른 테이블의 추출 형태를 비교한 일 예를 나타내는 도면이다.

도 9를 참조하면, 예시적으로 본 개시의 파서가 Google patent 사이트에 적용된 경우, 사용자가 검색 단어를 "(ppo) and (tensile strength) and (formulation) and (compounding)"으로 지정하고, 소재 키워드를 "ppo"하고, 물성 키워드를 "flexural strength"으로 지정한다고 가정한다. 본 개시의 모델은 Google patent에서 검색 단어를 입력하여 나온 특허 문서들 중에 ppo 단어가 포함된 표가 없다면 해당 특허는 스킵(skip)할 수 있다. 예컨대, Google patent에서 검색된 특허 문서에 포함된 테이블이 도 9의 좌측에 도시된 바와 같은 것으로 가정한다. 만약 표에 소재 및/또는 물성 키워드가 포함되어 있다면 본 개시의 모델은 표를 그대로 추출할 수 있다. 추출된 조성 테이블 및 물성 테이블은 도 9의 우측에 도시된 바와 같이 조성 데이터셋 및 물성 데이터셋에 저장될 수 있다. 하지만, 본 개시에 도 9에 도시된 예시에 한정되는 것은 아니다.

도 10은 본 개시의 예시적 실시예에 따른 최종적으로 저장되는 조성 및 물성 테이블의 일 예를 나타내는 도면이다.

도 10을 참조하면, 문서에 있는 표 형태가 그대로 저장된 1차 조성 데이터셋 및/또는 물성 데이터셋은, 데이터베이스 자동 추가 모델에 입력될 수 있다. 데이터베이스 자동 추가 모델은 조성 표 및/또는 물성 표에서 예시 번호(Ex. 13 등)가 일치하는 조성 및/또는 물성 쌍만 선별하여 기존 데이터베이스에 추가할 수 있다. 이때, 단위, 물성 실험 방법, 물성 실험 조건 등 테이블 상에 표시된 추가적인 정보들도 분류되어 기존 데이터베이스에 자동으로 추가될 수 있다. 이에 따라, 도 10에 도시된 봐와 같은 조성 데이터베이스 및/또는 물성 데이터베이스가 구축될 수 있다. 하지만, 본 개시에 도 10에 도시된 예시에 한정되는 것은 아니다.

도 11은 본 개시의 예시적 실시예에 따른 특허 문서가 포함하는 표 형태의 종류의 예들을 나타내는 도면이다.

특허 문서에 포함된 테이블(또는 표) 데이터는 그 형태에 따라 복수의 케이스로 분류될 수 있다. 프로세서(230)는 특허 문서에 테이블 데이터에 대하여 사전 설정된 복수의 분류 중 어떤 분류에 해당하는지를 판단하고, 각각 차별적인 데이터 추출 방법을 적용하여 데이터 추출 과정의 정확도를 향상시킬 수 있다.

일 실시예로, 도 11에 도시된 바와 같이, 특허 문서에 포함된 테이블 데이터는 6가지로 케이스 분류가 될 수 있다. 또한, 테이블 데이터는 표 상단(Table head), 표 내용(Table content)를 포함할 수 있고, 표 내용(Table content)는 조성 데이터(Formulation table content) 및 물성 데이터(Property table content) 중 적어도 하나를 포함할 수 있다.

예시적 실시예에서, 테이블 데이터의 케이스는 도 11의 (a) 내지 (f)의 6가지 케이스를 포함할 수 있다. 구체적으로, 테이블 데이터의 케이스는 표 상단과 표 내용이 하나의 표 안에 포함되어 있는 경우(도 11의 (a) 참조), 표 상단과 표 내용의 적어도 일부가 서로 다른 표에 포함되어 있는 경우(도 11의 (b) 참조), 표 상단 및 표 내용(예컨대, 조성 데이터 및 물성 데이터)이 전부 하나의 표 안에 포함되어 있는 경우(도 11의 (c) 참조), 표 상단과 2개 이상의 표 내용(예컨대, 조성 데이터와 물성 데이터 쌍)이 전부 하나의 표 안에 포함되어 있는 경우(도 11의 (d) 참조), 표 상단과 하나 이상의 표 내용(예컨대, 조성 데이터와 물성 데이터 쌍)이 하나의 표 안에 포함되어 있되, 이어지는 표 상단과 하나 이상의 표 내용(예컨대, 조성 데이터와 물성 데이터 쌍)이 분리된 다른 표 안에 포함되어 있는 경우(도 11의 (e) 참조), 표 상단이 2개 이상의 표로 분리되어 서로 다른 표에 포함되어 있고, 표 내용(예컨대, 조성 데이터와 물성 데이터 쌍)이 또다른 표에 포함되어 있는 경우(도 11의 (f) 참조)를 포함할 수 있다.

다만, 상술한 예시로 제한되는 것은 아니고 케이스 분류 기준 및 개수는 다양하게 변형될 수 있다.

도 12는 본 개시의 예시적 실시예에 따른 합성 포뮬레이션 데이터를 생성하는 프로세스를 설명하기 위한 도면이고, 도 13은 본 개시의 예시적 실시예에 따른 물성 테이블의 데이터를 변환하는 일 예를 나타내는 도면이고, 도 14는 본 개시의 예시적 실시예에 따른 물성 테이블을 변환하는 일 예를 나타내는 도면이고, 도 15는 본 개시의 예시적 실시예에 따른 모델에 입력되는 데이터의 프레임의 일 예를 나타내는 도면이며, 도 16은 본 개시의 예시적 실시예에 따른 모델에 의해 생성된 합성 포뮬레이션 데이터의 분포도를 예시적으로 나타낸 도면이다.

도 12 내지 도 16을 참조하면, 합성 포뮬레이션 데이터 생성은, 공개된 실험 데이터의 수에 제한이 있어 물성 예측 모델의 학습을 위한 최소 데이터 획득이 어렵기 때문에, 해당 한계점을 극복하기 위한 것일 수 있다.

일 실시예로, 단계 S200에서, 프로세서(230)는 테뷸러 데이터 생성기(Tabular data Generator)를 이용하여 원본 데이터로부터 실제 포뮬레이션 데이터와 유사한 합성 포뮬레이션 데이터를 생성하는 단계, 디스크리미네이터(Discriminator)를 이용하여 상기 원본 데이터와 상기 실제 포뮬레이션 데이터와 유사한 합성 포뮬레이션 데이터 간의 조건부 분포(conditional distribution)를 비교하여, 유사도를 출력하는 단계 및 상기 유사도를 기초로 상기 원본 데이터와 유사한 분포도를 갖는 합성 데이터를 샘플링하는 단계를 포함할 수 있다.

도 12를 참조하면, 합성 포뮬레이션 데이터 생성 학습에서, mPPO 포뮬레이션 및 특성 값 데이터셋이 입력 데이터로서 마련될 수 있다. 입력 데이터가 테뷸러 데이터 생성기(Tabular data Generator)에 입력될 수 있다. 또한, 노이즈 벡터가 테뷸러 데이터 생성기에 입력될 수 있다.

일 실시예로, 테뷸러 데이터 생성기는 입력 데이터를 기초로 합성 데이터를 생성할 수 있다. 테뷸러 데이터 생성기는 원본데이터의 각 범주 내의 로그 빈도(log-frequency)에 따라 합성 데이터를 샘플링 하여 소수 범주에 속하는 데이터가 생성되지 않는 것을 방지할 수 있다. 예시적인 실시예에서, 실제 포뮬레이션 데이터와 유사한 합성 포뮬레이션 데이터가 생성될 수 있다. 예를 들면, 입력 데이터와 유사한 합성 데이터가 도 12에 도시된 바와 같이 생성될 수 있다.

일 실시예로, 합성 데이터는 디스크리미네이터(Discriminator)에 입력될 수 있다. 도 12를 참조하면, 디스크리미네이터는 실제 데이터와 합성 데이터의 유사도를 판별할 수 있다. 예시적인 실시예에서, 디스크리미네이터는 원본 데이터와 생성된 합성 데이터의 조건부 분포(conditional distribution)를 비교하여 유사도를 계산할 수 있다. 예컨대, 유사도는 0 내지 1 사이의 값을 가질 수 있으나 이에 제한되는 것은 아니다.

프로세서(230)는 산출된 유사도를 기반으로 원본 데이터 내의 범주 내에 속하는 데이터들과 합성 데이터가 유사하게 생성되었는지를 판별할 수 있다. 또한, 산출된 유사도는 테뷸러 데이터 생성기에 손실(loss)로서 피드백될 수 있으며, 학습 가중치가 복사 및 전이(transfer)될 수 있다.

일 실시예로, 도 12에 도시된 바와 같이, 모델이 DATA 1의 각 포뮬레이션 내 재료의 함유량 및 물성 별 데이터의 분포도를 학습한 이후, 프로세서(230)는 DATA 1-1, DATA 1-2, DATA 1-3과 같이 DATA 1과 유사한 분포도를 가지는 합성 데이터를 샘플링할 수 있다. 한편, 합성 포뮬레이션 데이터 증강에서, 기존의 입력 데이터 및 노이즈 벡터가 훈련된 생성기에 입력될 수 있다. 훈련된 생성기의 출력을 기초로 기존 데이터와 유사한 합성 데이터가 생성될 수 있으며, 기존 데이터와 합성 데이터를 포함하는 새로운 데이터셋이 구축됨으로써, 데이터가 증강될 수 있다.

도 13 내지 도 15를 참조하면, 합성 포뮬레이션 데이터의 생성에 앞서, 프로세서(230)는 모델의 학습에 용이하도록 전처리를 진행할 수 있다. 전처리 과정은, 단계 S100에서 구축한 데이터베이스에서 재료의 포뮬레이션 정보와 물성 정보가 각각 별개의 테이블로 구축되어 있어, 하나의 테이블 형태로 이용이 가능하도록 하기 위해 진행될 수 있다. 프로세서(230)는 재료의 종류 및 실험 물성이 동일한 데이터들을 선별한 후 해당 데이터들에 대하여 전처리를 진행할 수 있다.

일 실시예로, 단계 S200에서, 상기 합성 포뮬레이션 데이터를 생성하는 단계는, 포뮬레이션 데이터베이스에서 재료의 종류 및 실험 물성이 동일한 데이터들을 선별하는 단계 및 상기 선별된 데이터들에 대해 전처리는 수행하는 단계를 더 포함할 수 있다. 이때, 도 13에 도시된 바와 같이, 포뮬레이션 데이터베이스에 포함된 데이터들은 각 포뮬레이션 정보를 구분하기 위해 설정한 식별자(id)를 기준으로 각 재료의 종류가 열(column)이 되고 재료의 함량이 값(value)인 행(row)의 형태로 변환될 수 있다. 포뮬레이션 테이블과 마찬가지로, 물성 테이블 내의 데이터들도 도 14에 도시된 바와 같이 식별자(id)를 기준으로 각 시험 물성의 종류가 열(column)이 되고 물성 값이 값(value)인 행(row)의 형태로 변환될 수 있다. 이후 포뮬레이션 데이터베이스와 물성 데이터베이스에서 행(row)의 형태로 변환된 데이터들은 각 식별자(id)를 기준으로 합성(merge)해주어 최종적으로 도 14에 도시된 바와 같은 데이터프레임의 형태로 변환될 수 있다.

도 16을 참조하면, 정규화가 진행된 데이터는 합성 포뮬레이션 데이터 생성에 학습용 데이터로 이용된다. 이때, 합성 포뮬레이션 데이터 생성 모델은 입력 받은 데이터의 분포도를 학습하여 입력 받은 데이터와 유사한 분포도를 가지는 데이터를 생성할 수 있다. 또한, 도 16에 도시된 바와 같이, 합성 포뮬레이션 데이터 생성 모델이 입력 받은 데이터와 생성된 합성 데이터의 분포도를 나타낼 수 있다. 도 16의 예시는 컴파운드의 한 종류인 mPPO의 포뮬레이션 약 82개를 57개의 train set으로 분류한 후 1000개의 합성 데이터를 샘플링한 결과이며, 합성 포뮬레이션 데이터 생성 모델이 입력 받은 데이터의 분포도와 합성 포뮬레이션 데이터 생성 모델이 샘플링한 1000개의 합성 데이터의 분포도이다.

도 17은 본 개시의 예시적 실시예에 따른 포뮬레이션 물성 예측 프로세스를 설명하기 위한 도면이고, 도 18은 본 개시의 예시적 실시예에 따른 포뮬레이션 물성 예측 모델에 의해 생성된 데이터의 예들을 나타낸 도면이다.

도 17을 참조하면, 예시적인 실시예에서, 포뮬레이션 물성 예측 모델은, 포뮬레이션 재료들의 비율에 따라 물성의 변화가 관련이 있기 때문에, 포뮬레이션 비율에 따른 물성 변화를 추론할 수 있다. 포뮬레이션 물성 예측 모델은 각 물성에 대하여 개별로 학습을 진행할 수 있다. 학습이 완료된 포뮬레이션 물성 예측 모델은 컴파운드의 포뮬레이션 정보를 입력 받아 해당 컴파운드의 물성을 예측할 수 있다. 이때, 모델의 예측 성능 평가를 위한 지표는, 예를 들어 MAE, MAPE, f1-score 등이 이용될 수 있다.

일 실시예로, 단계 S300은, 전처리된 원본 데이터와 상기 합성 포뮬레이션 데이터를 포함하는 학습용 데이터를 수집하는 단계, 상기 포뮬레이션 물성 예측 모델이 예측할 물성 값을 선정한 후, 데이터의 표현 방식을 정의하는 단계, 지식 전이를 통해 학습이 완료된 물성 별 모델의 가중치를 저장하고, 학습되지 않은 데이터에 대해 성능 평가를 진행하는 단계, 및 예측된 물성 별로 예측 결과를 평가하는 단계를 포함할 수 있다.

학습용 데이터를 수집하는 단계에서 학습용 데이터 수집은 실험 물성과 재료의 종류가 비슷한 데이터들을 선별한 후 단계 S200의 합성 데이터 생성 모델의 입력을 위해 진행하였던 전처리 과정과 동일한 과정을 거친다. 이후, 전처리 과정을 거친 원본데이터와 단계 S200에서 생성한 합성 포뮬레이션 데이터를 병합해 줌으로써 모델의 학습용 데이터를 수집한다.

데이터의 표현 방식을 정의하는 단계에서 데이터 표현은 모델이 예측할 물성 값을 선정한 후 데이터의 표현 방식을 정의한다. 예를 들어, 굴곡강도와 같은 물성을 예측할 경우, 포뮬레이션을 구성하는 재료와 재료의 함량 정보들은 모델의 입력 값으로 분류된다. 이때, 모델의 입력 feature인 재료들의 함량을 embedding하여 중요 feature의 선정 및 지식전이가 용이하도록 한다.

지식 전이를 통해 학습이 완료된 물성 별 모델의 가중치를 저장하고, 학습되지 않은 데이터에 대해 성능 평가를 진행하는 단계에서 지식전이를 통해 학습이 완료된 각 물성 별 모델의 가중치를 저장하여 학습하지 않은 데이터에 대한 성능평가를 진행할 수 있도록 한다.

예측된 물성 별로 예측 결과를 평가하는 단계에 대한 예시적인 실시예에서, 예측된 물성 별로 예측 결과를 평가하는 단계는, 연속형 변수에 대응되는 제1 예측된 물성에 대해 제1 성능 평가 지표를 이용하여 상기 예측 결과를 평가하는 단계, 및 범주형 변수에 대응되는 제1 예측된 물성에 대해 상기 제1 성능 평가 지표와 다른 제2 성능 평가 지표를 이용하여 상기 예측 결과를 평가하는 단계를 포함할 수 있다. 예를 들어, 예측된 물성에 대하여 굴곡강도와 같은 연속형 변수일 경우 MAE 및 MAPE와 같은 지표를 이용하여 각 물성 별 예측 결과가 평가되고, 난연성과 같은 범주형 변수에 대하여서는 f1-score를 이용하여 각 물성 별 예측 결과가 평가된다.

물성 예측 모델의 실행 결과가 도 18에 도시된 바와 같이 예시적으로 나타날 수 있다. 해당 예시에서는 단계 S200에서 생성한 합성 데이터를 이용한 경우와 그렇지 않은 경우에 대한 것이다. 합성 데이터 생성 모델의 예시와 마찬가지로, mPPO의 포뮬레이션 데이터가 이용되었다. 총 82개의 데이터가 57개의 훈련 세트(train set)으로 분류된다. 도 18은 분류한 이후 57개의 데이터만을 물성 예측 모델의 학습을 진행한 경우와 1,000개의 합성 데이터를 샘플링한 후 총 1,057개의 데이터를 물성 예측 모델의 학습에 이용하여 25개의 시험 세트(test set)에 대하여 예측을 진행한 결과이다.

도 19는 본 개시의 예시적 실시예에 따른 포뮬레이션 최적화 프로세스를 설명하기 위한 도면이다.

도 19를 참조하면, 예시적인 실시예에서, 포뮬레이션 최적화 모델은 목표 물성치에 따른 포뮬레이션 최적화 가속화를 위한 리버스 엔지니어링(reverse engineering)을 가능하게 한다.

일 실시예로, 포뮬레이션 최적화의 프로세스는 도 19에 도시된 바와 같이 진행될 수 있다. 포뮬레이션 최적화 모델은 심층 강화학습 기반의 모델로 다양한 신규 컴파운드를 생성하는 액터 네트워크(Actor network)와, 생성된 신규 포뮬레이션 보상점수를 기반으로 이전에 생성한 신규 포뮬레이션이 얼마나 좋아졌는지 평가하는 크리틱 네트워크(Critic network)를 포함할 수 있다. 단계 S400은 기존 컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하기 위하여 액터-크리틱(Actor-Critic) 기반 강화학습 모델을 활용할 수 있다.

일 실시예로, 포뮬레이션을 최적화하기 위한 액터-크리틱 기반 강화학습 방법은, 다음과 같은 특징을 가질 수 있다.

첫째로, 액터 네트워크에서, 훈련된 생성기는 기존 컴파운드 포뮬레이션과 목표 물성을 입력으로 받아 신규 컴파운드 포뮬레이션을 다양하게 생성할 수 있다.

둘째로, 상호작용하는 환경(Environment)에서는, 액터 네트워크에서 생성한 신규 컴파운드 포뮬레이션의 물성 값을 측정하기 위하여 예시적인 실시예에 따른 물성 예측 모델이 사용될 수 있다. 예시적인 실시예에 따른 물성 예측 모델이, 신규 컴파운드 포뮬레이션을 입력 받아, 신규 컴파운드 포뮬레이션의 물성 값을 예측하고, 목표 물성과 유사도를 계산하며, 유사도 계산을 통해 유사도 기반의 보상점수를 부여할 수 있다. 유사도 점수는 0 내지 1 사이의 실수로 부여되며, 포뮬레이션 최적화 모델의 목표는 목표 물성에 가깝게 포뮬레이션을 최적화하는 것이기 때문에, 목표 물성과 유사도가 높을수록 1에 가까울 수 있다.

셋째로, 크리틱 네트워크에 유사도 기반의 보상 점수가 전달될 수 있다. 크리틱 네트워크에서는 기존 포뮬레이션 대비 변경된 신규 포뮬레이션이 얼마나 목표 물성에 가깝게 개선되었는지에 대한 기댓값을 추정하여 액터 네트워크에 피드백할 수 있다. 액터 네트워크는 기존 컴파운드 포뮬레이션과 목표 물성에 대한 정보를 입력 받아 신규 컴파운드 포뮬레이션을 생성하는 모듈일 수 있다. 액터는 주어진 상태에서 행동을 결정하는 역할을 하는데 정책(policy)으로 지칭될 수 있고, 본 개시에서는 액터 모델의 정책은 각 재료의 포뮬레이션의 함량값을 포지티브(+) 또는 네거티브(-), 또는 '변경없음'을 통하여 하여 조절될 수 있다. 액터 네트워크의 베이스라인 모델로 단계 S200에서 사전 학습된 합성 포뮬레이션 데이터 생성 모델의 가중치를 전이학습할 수 있다. 강화학습을 통하여 액터 네트워크는 목표 물성에 적합한 신규 컴파운드 포뮬레이션 데이터를 학습할 수 있도록 가중치가 미세조정(fine-tunning)될 수 있다.

일 실시예로, 단계 S400은, 액터 네트워크에서, 목표 물성에 대한 제1 데이터와 기존의 컴파운드 포뮬레이션에 대한 제2 데이터를 기초로 신규 컴파운드 포뮬레이션에 대한 제3 데이터를 생성하는 단계, 상호 작용하는 환경에서, 상기 제3 데이터의 상기 신규 컴파운드 포뮬레이션의 물성 값과 상기 목표 물성 간 유사도 기반의 보상 점수를 부여하는 단계 및 크리틱 네트워크에서, 상기 보상 점수를 기반으로 기존 포뮬레이션 대비 변경된 신규 포뮬레이션이 얼마나 목표 물성에 가깝게 개선되었는지에 대한 기댓값을 상기 액터 네트워크에 피드백하는 단계를 포함할 수 있다.

단계 S400에 대한 예시적인 실시예에서, 유사도 기반의 보상 점수를 부여하는 단계는, 상기 포뮬레이션 물성 예측 모델을 이용하여 상기 신규 컴파운드 포뮬레이션의 상기 물성 값을 예측하는 단계, 상기 예측된 물성 값과 상기 목표 물성 간의 유사도를 계산하는 단계, 및 상기 유사도에 대응되는 보상 점수를 계산하는 단계를 포함할 수 있다.

본 개시는 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 다른 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 개시의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

100: 시스템
110: 사용자 단말
120: 전자 장치
130: 네트워크

Claims

전자 장치의 하나 이상의 프로세서에 의해 수행되는 동작 방법에 있어서,
문서로부터 데이터를 추출하여, 포뮬레이션 데이터베이스를 구축하는 단계;
상기 포뮬레이션 데이터베이스를 기초로 합성 포뮬레이션 데이터를 생성하는 단계;
포뮬레이션의 조성에 따른 물성 변화를 추론하는 포뮬레이션 물성 예측 모델을 이용하여, 상기 합성 포뮬레이션 데이터를 기초로 컴파운드의 포뮬레이션 정보로부터 컴파운드의 물성을 예측하는 단계; 및
컴파운드 포뮬레이션에서 목표 물성에 적합한 신규 컴파운드 포뮬레이션을 생성하는 포뮬레이션 최적화 모델을 이용하여 포뮬레이션을 최적화하는 단계를 포함하고,
상기 포뮬레이션 데이터베이스를 구축하는 단계는,
상기 문서에 포함된 텍스트로부터 포뮬레이션과 관련된 문단을 추출하는 단계; 및
상기 문서에 포함된 테이블로부터 상기 포뮬레이션과 관련된 데이터를 추출하는 단계를 포함하고,
상기 포뮬레이션과 관련된 데이터를 추출하는 단계는,
HTML 문서 및 XML 문서 중 적어도 하나에 포함된 테이블 중 조성 정보 또는 물성 정보가 있는 행(row)을 확인하는 단계;
테이블 헤드 내에 실험례를 분류하기 위해 부여된 예시 번호와 조성 정보 및 상기 물성 정보 각각을 정렬하여, 조성 데이터셋 및 물성 데이터셋을 생성하는 단계;
상기 조성 데이터셋과 상기 물성 데이터셋 중에 상기 예시 번호가 일치하는 조성 정보 및 물성 정보 쌍을 추출하는 단계;
상기 조성 정보 및 상기 물성 정보 쌍으로부터 원재료의 이름, 단위 및 양을 포함하는 정보를 추출하는 단계;
상기 조성 정보 및 상기 물성 정보 쌍으로부터 물성의 이름, 값, 단위, 물성 실험 방법 및 물성 실험 조건을 포함하는 정보를 추출하는 단계; 및
기존 데이터베이스에 상기 원재료의 이름, 단위 및 양을 포함하는 정보와 상기 물성의 이름, 값, 단위, 물성 실험 방법 및 물성 실험 조건을 포함하는 정보를 자동으로 추가하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
삭제
제1 항에 있어서,
상기 포뮬레이션과 관련된 문단을 추출하는 단계는,
상기 문서 내의 텍스트들을 추출하는 단계;
객체명 인식 모델을 이용하여 상기 추출된 텍스트들에 대하여 상기 포뮬레이션과 관련된 클래스를 예측하는 단계; 및
상기 포뮬레이션의 조성 및 물성 중 적어도 하나를 포함하는 정보를 포함하는 문장을 포함하는 문단을 저장하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
제1 항에 있어서,
상기 포뮬레이션과 관련된 데이터를 추출하는 단계는,
미리 훈련된 테이블 트랜스포머 모델을 이용하여 상기 문서에서 테이블들의 위치를 확인하는 단계;
상기 확인된 테이블들의 위치에 미리 설정된 크기의 윈도우를 설정하는 단계;
상기 윈도우 내에 포함된 테이블의 내용을 추출하는 단계;
테서랙트 OCR(Tesseract OCR) 모델을 이용하여 상기 추출된 내용들 중에서 상기 포뮬레이션 관련 키워드를 포함하는 내용을 포함하는 테이블을 선별하는 단계; 및
상기 선별된 테이블을 저장하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
제4 항에 있어서,
상기 포뮬레이션과 관련된 데이터를 추출하는 단계는,
테이블 구조 인식 모델을 이용해, 선별된 표 이미지들을 HTML 형식으로 변환하는 단계; 및
HTML 파서를 이용하여 테이블을 기존 데이터베이스의 형태에 맞게 변환하여 저장하는 단계를 더 포함하는 것을 특징으로 하는, 동작 방법.
삭제
제1 항에 있어서,
상기 합성 포뮬레이션 데이터를 생성하는 단계는,
테뷸러 데이터 생성기(Tabular data Generator)를 이용하여 원본 데이터로부터 합성 포뮬레이션 데이터를 생성하는 단계;
디스크리미네이터(Discriminator)를 이용하여 상기 원본 데이터와 상기 합성 포뮬레이션 데이터 간의 조건부 분포(conditional distribution)를 비교하여, 유사도를 출력하는 단계; 및
상기 유사도를 기초로 합성 데이터를 샘플링하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
제1 항에 있어서,
상기 컴파운드의 물성을 예측하는 단계는,
원본 데이터와 상기 합성 포뮬레이션 데이터를 포함하는 학습용 데이터를 수집하는 단계;
지식 전이를 통해 학습이 완료된 물성 별 모델의 가중치를 저장하고, 학습되지 않은 데이터에 대해 성능 평가를 진행하는 단계; 및
예측된 물성 별로 예측 결과를 평가하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
제1 항에 있어서,
상기 포뮬레이션을 최적화하는 단계는,
액터 네트워크에서, 목표 물성에 대한 제1 데이터와 기존의 컴파운드 포뮬레이션에 대한 제2 데이터를 기초로 신규 컴파운드 포뮬레이션에 대한 제3 데이터를 생성하는 단계;
상기 제3 데이터의 상기 신규 컴파운드 포뮬레이션의 물성 값과 상기 목표 물성 간 유사도 기반의 보상 점수를 부여하는 단계; 및
크리틱 네트워크에서, 상기 보상 점수를 기반으로 기존 포뮬레이션 대비 변경된 신규 포뮬레이션이 얼마나 목표 물성에 가깝게 개선되었는지에 대한 기댓값을 상기 액터 네트워크에 피드백하는 단계를 포함하는 것을 특징으로 하는, 동작 방법.
하나 이상의 인스트럭션을 저장하는 메모리; 및
상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
청구항 1, 3 내지 5 및 7 내지 9 중 어느 하나의 방법을 수행하는, 전자 장치.