검색 상세

자연어 생성기반 뉴스 보도 패턴 일반화 및 뉴스 구성에 따른 분류 가능성 소규모 LSTM 생성 데이터를 통한 내용 및 표현 형식 기반 뉴스 유형화 원리 고찰

A Study on the Discovery of General News Reporting Pattern A Small Sample LSTM Experiment with Natural Language Generation

초록/요약

본 논문은 인공지능 자연어 생성 모델을 통해 보도된 기사들의 일반화된 보도 내용데이터를 만들고, 이를 활용하여 이후 지도학습기반 뉴스 클러스터링 방식을 제안하는 연구이다. 보다 구체적으로는 뉴스를 수집하고 문장 기반 패턴 분석 방법을 활용하여, 이미 작성된 기사에서 쓰이는 단어와 주요 문장의 패턴이 추론된 자연어 생성기사 문장을 만들어낸다. 생성된 문장은 보도된 기사의 기본적인 보도 내용 및 관행을 보여주는 보도된 내용들의 일반화된 특질을 보여주는 것으로 본다. 그 다음 생성된 문장과 수집된 데이터 문장간의 내용 특질 유사성을 레벤슈타인 거리와 ROUGE 지표로 비교하여 컴퓨터가 만들어낸 문장과 실제 기사 문장 간의 내용과 표현상의괴리를 측정함으로써, 보도된 뉴스를 빠르게 유형화하는 방법을 제안한다. 본 글에서는 이러한 방법이 적용되는 과정을 소규모 데이터로 감염병 백신 보도를 주제로시연하고, 해당 방법이 가지는 의의와 향후 연구 가능성을 논의한다.

more

초록/요약

This paper proposes using natural language generation model with LSTM neural network for clustering news reporting pattern. More specifically, it suggests to collect news articles and to utilize a sentence-based natural language generation that can infer the general patterns of news reporting and then to compare the similarity of content features between the generated sentences and the collected data sentences. Levenstein distance and ROUGE-L metric are used for the comparison. These two metrics are to measure the content and expression similarity etween the computer-generated sentences and the actual article sentences. In doing so, we propose a rapid news clustering method that can be used for supervised learning in the later analysis stage. In this article, we demonstrate the application of these methods using small-scale data on infectious disease vaccine coverage and discuss the potential benefits of this method.

more