검색 상세

법률 인공지능 연구 활성화를 위한 판례 데이터셋 자동 라벨링 및 BERT를 활용한 판례 유사성 분석

Enhancing Legal AI Research: Automatic Labeling for Legal Precedents Datasets and Evaluating Case Similarity Using BERT

초록/요약

본 연구의 목적은 법률 인공지능 연구 활성화에 필수적인 학습용 대법원 판례 데이터셋 구축을 위한 자동 라벨링 방안을 마련하고, 해당 데이터셋을 활용하여 효과적인 판례 유사도 분석 방법들을 검증하는 데에 있다. 특히, 문장의 의미적 인식을 높이기 위해 문장 간 맥락까지 학습할 수 있는 BERT를 활용하는 방법을 제안하고자 한다. 학습 데이터로는 해고무효확인소송 등 고용관계 종료와 관련된 판례 데이터(1962.2 ~ 2021.2)를 사용하였다. 학습용 판례 데이터셋 구축 방안의 성능 비교 실험을 위해 판결문의 특정 요소 간의 비교 분석과, 판결문에서 추출한 사실관계로 주제 분류 실험을 수행하였다. 특히, 판례 유사도 분석 실험은 빈도 기반의 자카드분석, 확률 기반의 Doc2Vec 및 BERT 모델을 활용하여 유사도 성능을 비교하였고, 평가 방법으로는 코사인 유사도(Cosine similarity)와 의미론적 분석을 수행하였다. 연구 결과로, 학습용 판례 데이터셋 구축 시 판결 결과 라벨링에는 당사자 및 주문 정보를 함께 활용하는 것이 효과적이고, 판례에서 추출한 사실관계 문장으로 효과적으로 주제를 분류할 수 있었음을 밝혔다. 또한 판례 유사도 분석 시 확률 기반의 Doc2Vec 보다는 BERT 로 분석한 결과가 의미론적 관점에서 보다 효과적임을 보였다. 특히, 본 연구에서는 판례 전문을 이용하여 판례 유사도 분석 방안을 연구했다는 점에서 기존 연구들과 차별성을 지닌다.

more

초록/요약

This study established an automatic labeling method for the construction of a legal precedents dataset for training, an essential component for advancing legal artificial intelligence research. Also, it validated a method for case similarity analysis using the dataset built. To recognize semantics of sentences, we employed BERT, a pre-training language model capable of learning the order of words in a sentence. For the experiment, a labor legal precedent data related to termination of employment relationships was used, such as wrongful termination lawsuits. The reserachers extracted elements of the judgment text, labeled the verdict results of the cases using BERT, and confirmed that the subject of a case could be automatically classified using the factual circumstances extracted from the judgment text. Our case similarity analysis experiment utilized 1) frequency-based Jaccard analysis, 2) probability-based Doc2Vec, and 3) the BERT-based model. The performance of each model was compared through quantitative evaluation methods, such as Cosine similarity, and qualitative evaluation methods, such as semantic analysis. This research verified that combining party and order information is an effective approach when labeling verdict results during the construction of a learning case dataset. The study also demonstrated that subject classification for the relevant case is possible using the factual circumstances extracted from the case. Additionally, in terms of case similarity analysis, the results of the BERT model proved more semantically appropriate than the probability-based Doc2Vec approach. Consequently, it was identified that the type of information necessary for dataset construction from judgment texts, proposed a method to include judgment results, factual circumstances, and case subject classification attributes in the learning case dataset, and demonstrated that sentence-based case searches, which can supplement the limitations of existing keyword-based similar case searches, are a feasible approach.

more