띄어쓰기는 어절의 경계이다.
이러한 어절을 추출할 때 알파벳이 사용된 라틴계열 언어의 경우에는 Python 문서에도 나와있듯이 간단하게 re.split()
이나 re.findall()
모듈을 이용할 수 있다.
한편, 한국어처럼 Unicode가 사용된 경우에는 위 방법을 이용할 수 없다. 대신 한국어 어절을 분리하고 싶을 때는 regex
를 쓰면 편하다.
한국어, 영어, 한자어 등 여러 언어가 혼재된 경우에는 아래와 같이 어절을 분리할 수 있다.