Weka로 데이터 살펴보기
Weka 3.6은 University of Waikato라는 뉴질랜드의 대학에서 만들어진 Java 기반의 open source 소프트웨어이고, 다음과 같은 GUI 인터페이스를 가진다.
우선 이 중 가장 상단에 있는 ‘Explorer’을 살펴보자. 아래와 같은 화면이 뜨면, 왼쪽 상단의 ‘Open file’ 버튼을 선택하면 arff
확장명을 가진 파일을 선택할 수 있다. 여기서 확장명 arff
는 Attribute-Relation File Format의 약자로, Weka에서 input으로 사용하고 있는 파일 형식이다.
여기서는 Weka 3.6이 설치되어 있는 경로 (일반적으로는 C:\Program Files\Weka-3-6\
) 에서 ‘data’ 폴더를 열어보자. 안에 여러가지 데이터셋들이 있는데, 우리는 그 중에서 iris.arff
파일을 선택해보기로 한다. 파일을 열면 ‘Weka Explorer’ 창에 다음과 같이 선택한 데이터의 기초 통계량과 분포 등 갖가지 정보가 나타나게 된다.
- Current relation: 현재 relation의 기본정보를 나타낸다.
- Relation:
arff
파일에서@relation
에 표기된 항목이 출력된다. - Instances: 총 인스턴스 혹은 샘플, 혹은 레코드의 개수가 150개이다.
- Attributes: 총 변수의 개수가 5개이다.
- Relation:
- Attributes: 파일에 담긴 변수들의 목록이다. 체크박스에 체크를 하면 우측의 ‘Selected Attribute’란에 해당 변수에 대한 기초통계량이 표시된다.
- Selected attribute: 좌측에서 선택한 변수에 대한 기초통계량이 나타난다.
- Visualize all: 모든 변수에 대한 히스토그램이 그려진다. 이 때, 각기 다른 색은 target variable의 class에 따라 나뉘는데, 위의 그림에서는 파란색, 붉은색, 하늘색으로 각각의 class가 표시되었음을 확인해볼 수 있다.
Contents migrated from tistory on 2013-03-18.