Weka 3.6은 University of Waikato라는 뉴질랜드의 대학에서 만들어진 Java 기반의 open source 소프트웨어이고, 다음과 같은 GUI 인터페이스를 가진다.

우선 이 중 가장 상단에 있는 ‘Explorer’을 살펴보자. 아래와 같은 화면이 뜨면, 왼쪽 상단의 ‘Open file’ 버튼을 선택하면 arff 확장명을 가진 파일을 선택할 수 있다. 여기서 확장명 arffAttribute-Relation File Format의 약자로, Weka에서 input으로 사용하고 있는 파일 형식이다.

여기서는 Weka 3.6이 설치되어 있는 경로 (일반적으로는 C:\Program Files\Weka-3-6\) 에서 ‘data’ 폴더를 열어보자. 안에 여러가지 데이터셋들이 있는데, 우리는 그 중에서 iris.arff 파일을 선택해보기로 한다. 파일을 열면 ‘Weka Explorer’ 창에 다음과 같이 선택한 데이터의 기초 통계량과 분포 등 갖가지 정보가 나타나게 된다.

  1. Current relation: 현재 relation의 기본정보를 나타낸다.
    • Relation: arff 파일에서 @relation 에 표기된 항목이 출력된다.
    • Instances: 총 인스턴스 혹은 샘플, 혹은 레코드의 개수가 150개이다.
    • Attributes: 총 변수의 개수가 5개이다.
  2. Attributes: 파일에 담긴 변수들의 목록이다. 체크박스에 체크를 하면 우측의 ‘Selected Attribute’란에 해당 변수에 대한 기초통계량이 표시된다.
  3. Selected attribute: 좌측에서 선택한 변수에 대한 기초통계량이 나타난다.
  4. Visualize all: 모든 변수에 대한 히스토그램이 그려진다. 이 때, 각기 다른 색은 target variable의 class에 따라 나뉘는데, 위의 그림에서는 파란색, 붉은색, 하늘색으로 각각의 class가 표시되었음을 확인해볼 수 있다.

Contents migrated from tistory on 2013-03-18.