Lucy Park

Reflections on AI and life

한국어 어절 분리를 위한 Python one-liner

Mar 21, 2013 · 127 words · 1 minute read

띄어쓰기는 **어절**의 경계이다.¹
이러한 어절을 추출할 때 알파벳이 사용된 라틴계열 언어의 경우에는 Python 문서에도 나와있듯이 간단하게 re.split()이나 re.findall() 모듈을 이용할 수 있다.

>>> import re
>>> re.findall('\w+', 'The quick brown fox jumps over a lazy dog.')
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'a', 'lazy', 'dog']

한편, 한국어처럼 Unicode가 사용된 경우에는 위 방법을 이용할 수 없다. 대신 한국어 어절을 분리하고 싶을 때는 regex를 쓰면 편하다.²

>>> import regex
>>> regex.findall(ur'\p{Hangul}+', u'다람쥐 헌 쳇바퀴에 타고파.')
[u'\ub2e4\ub78c\uc950', u'\ud5cc', u'\uccc7\ubc14\ud034\uc5d0', u'\ud0c0\uace0\ud30c']

한국어, 영어, 한자어 등 여러 언어가 혼재된 경우에는 아래와 같이 어절을 분리할 수 있다.

>>> import regex
>>> regex.findall(ur'[\p{Hangul}|\p{Latin}|\p{Han}]+', u'동틀녘 sunlight이 作品!')
>>> [u'\ub3d9\ud2c0\ub158', u'sunlight\uc774', u'\u4f5c\u54c1']

조사, 합성어, 동사변형 등 때문에 띄어쓰기는 사전적 단어의 경계와 정확히 일치하지 않는다. ↩︎
pip install regex로 설치. (기본 라이브러리를 이용하려면 unicodedata.name를 응용해 쓸 수 있다.) ↩︎

Python text mining