클러스터 구성

완전 분산 모드

완전 분산 모드는 타조 인스턴스를 Hadoop Distributed File System (HDFS) 위에서 동작하도록 해줍니다. 이 모드에서는, HDFS 데이터 노드들이 돌아가고 있는 여러 물리 노드들 위에서 여러 타조 워커(worker)들이 같이 동작하게 됩니다.

이 절에서는, 해당 모드로 클러스터를 구성하는 방법에 대해 설명합니다.

설정

tajo-site.xml 파일에 다음과 같이 설정합니다:

<property>
  <name>tajo.rootdir</name>
  <value>hdfs://hostname:port/tajo</value>
</property>

<property>
  <name>tajo.master.umbilical-rpc.address</name>
  <value>hostname:26001</value>
</property>

<property>
  <name>tajo.master.client-rpc.address</name>
  <value>hostname:26002</value>
</property>

<property>
  <name>tajo.resource-tracker.rpc.address</name>
  <value>hostname:26003</value>
</property>

<property>
  <name>tajo.catalog.client-rpc.address</name>
  <value>hostname:26005</value>
</property>

워커들(Workers)

conf/workers 파일에 모든 워커들의 호스트 명을 한 줄에 하나씩 명시합니다. 기본 값으로, 이 파일 내용에는 localhost 하나만 들어가 있습니다. 평소에 잘 쓰는 아무 텍스트 편집기를 이용해서, 쉽게 워커의 호스트명을 추가할 수 있습니다.

예:

$ cat > conf/workers
host1.domain.com
host2.domain.com
....

<ctrl + d>

HDFS에 기본 디렉토리 생성 및 접근 권한 설정

타조 설정에 대해 좀 더 자세한 내용을 원한다면, 설정 페이지를 참조합니다. 타조 실행에 앞서, 다음과 같이 HDFS에 타조 root 디렉토리 생성과 접근 권한을 설정합니다:

$ $HADOOP_HOME/bin/hadoop fs -mkdir       /tajo
$ $HADOOP_HOME/bin/hadoop fs -chmod g+w   /tajo

타조 클러스터 실행

그리고, start-tajo.sh 를 실행합니다:

$ $TAJO_HOME/bin/start-tajo.sh

Note

기본적으로, 각 워커에는 아주 적은 량의 자원이 할당되어 있습니다. 병렬 작업 수을 늘리는 방법이 궁금하다면, 워커(Worker) 설정 를 참고합니다.

Note

기본적으로, 타조 마스터는 127.0.0.1 주소에 대해 클라이언트 접속을 허용하도록 되어 있습니다. 타조 마스터로 원격에서 클라이언트 접속을 허용하도록 설정하려면, tajo-site.xml 파일 내용 중에 tajo.master.client-rpc.address 에 설정 값을 명시합니다. 접속 포트를 변경하는 방법은, 클러스터 서비스 설정 기본값 를 참고합니다.