본 연구에서는 1920년부터 1939년까지의 한국어 신문 기사에서 한국학 관련기사를 분류하기 위한 두 가지 실험을 진행하였다. 첫 번째 실험에서는 1920년대, 1930년대, 1920년대-1930년대 자료를 학습한 분류 모델을 만들어 성능을평가하였는데 한자를 한글로 변환한 전처리 방식과 문자 기반의 n-gram 자질을사용했을 때 비교적 높은 성능을 보였다. 두 번째 실험에서는 시기별로 가장 높은 성능을 보이는 모델을 이용해 여러 하위 시기의 자료를 분류해 본 결과1920-1930년대 자료를 학습한 모델이 대부분의 시기에서 가장 높은 성능을 발휘하는 범용 모델임을 확인할 수 있었다
In this study, two experiments were conducted to classify articles related to Korean Studies from Korean newspaper articles from 1920 to 1939. In the first experiment, the performance of a classification model trained on 1920s, 1930s, and 1920s-1930s data was evaluated, and the findings showed that the use of pre-processing method converting Chinese characters to Hangul and the character n-gram led to relatively high performance. In the second experiment, the top-performing models from each period were employed to classify data from various sub-periods. The results confirm that the model trained on 1920s and 1930s data is the best performing general-purpose model for most sub-periods.