카테고리 없음

Azure에서 Apache Zeppelin 구성 가이드

idea9329 2025. 2. 21. 09:43
반응형

 

Apache Zeppelin이란?

Apache Zeppelin은 웹 기반의 다목적 노트북으로, 데이터 탐색, 시각화, 공유를 위한 도구입니다. 다양한 인터프리터를 통해 Apache Spark, Apache Hive 등과 연동하여 실시간 데이터 분석 및 시각화를 수행할 수 있습니다.

Azure HDInsight에서 Apache Zeppelin 사용하기

Azure HDInsight는 Apache Hadoop, Spark, Hive 등 다양한 빅 데이터 프레임워크를 관리형 클라우드 서비스로 제공합니다. HDInsight의 Apache Spark  Interactive Query(Hive LLAP) 클러스터에는 Apache Zeppelin이 기본적으로 포함되어 있어, 별도의 설치 없이 바로 활용할 수 있습니다.

1. Apache Spark 클러스터에서 Zeppelin 사용

  1. 클러스터 생성: Azure 포털에서 Apache Spark 클러스터를 생성합니다.
  2. Zeppelin 노트북 접속:
    • 클러스터 개요 페이지에서 Zeppelin 노트북 링크를 클릭합니다.
    • 또는 브라우저에서 https://<클러스터이름>.azurehdinsight.net/zeppelin으로 직접 접속합니다.
  3. 노트북 생성 및 데이터 분석:
    • 새 노트를 생성하고, %livy2.spark 인터프리터를 사용하여 Spark 코드를 실행합니다.
    • 예를 들어, 샘플 데이터를 로드하고 임시 테이블을 생성하여 SQL 쿼리를 수행할 수 있습니다.

자세한 내용은 Azure HDInsight에서 Apache Spark 클러스터와 함께 Apache Zeppelin Notebook 사용을 참고하세요.

2. Interactive Query(Hive LLAP) 클러스터에서 Zeppelin 사용

  1. 클러스터 생성: Azure 포털에서 Interactive Query 클러스터를 생성합니다.
  2. Zeppelin 노트북 접속:
    • 클러스터 개요 페이지에서 Zeppelin 노트북 링크를 클릭합니다.
    • 또는 브라우저에서 https://<클러스터이름>.azurehdinsight.net/zeppelin으로 직접 접속합니다.
  3. 노트북 생성 및 Hive 쿼리 실행:
    • 새 노트를 생성하고, %jdbc(hive) 인터프리터를 사용하여 Hive 쿼리를 실행합니다.
    • 예를 들어, show tables 명령을 통해 Hive 테이블 목록을 확인할 수 있습니다.

자세한 내용은 빠른 시작: Apache Zeppelin을 사용하여 Azure HDInsight에서 Apache Hive 쿼리 실행을 참고하세요.

Zeppelin 노트북의 저장 및 관리

Zeppelin 노트북은 기본적으로 클러스터의 헤드 노드에 저장됩니다. 따라서 클러스터를 삭제하면 노트북도 함께 삭제되므로, 노트북을 보존하려면 내보내기 기능을 사용하여 JSON 파일로 저장해야 합니다. 이후 다른 클러스터에서 해당 JSON 파일을 가져오기하여 노트북을 복원할 수 있습니다.

외부 패키지 사용하기

Zeppelin 노트북에서 추가적인 기능을 위해 외부 패키지를 사용하려면, 인터프리터 설정에서 해당 패키지를 지정해야 합니다. 예를 들어, spark-csv 패키지를 사용하려면 livy2 인터프리터의 설정에서 livy.spark.jars.packages 속성에 com.databricks:spark-csv_2.10:1.4.0을 추가합니다.

자세한 설정 방법은 Azure HDInsight에서 Apache Spark 클러스터와 함께 Apache Zeppelin Notebook 사용의 "노트북에서 외부 패키지 사용 방법" 섹션을 참고하세요.

주의사항

  • 보안 설정: Enterprise Security Package(ESP) 클러스터에서는 Shiro를 사용하여 인터프리터에 대한 접근을 제어할 수 있습니다.
  • 지원 버전: HDInsight 4.0 이상 버전에서는 %sh 인터프리터가 지원되지 않습니다.

자세한 내용은 Azure HDInsight에서 Apache Spark 클러스터와 함께 Apache Zeppelin Notebook 사용을 참고하시기 바랍니다.

이 가이드를 통해 Azure HDInsight에서 Apache Zeppelin을 효과적으로 구성하고 활용하여 데이터 분석 및 시각화를 수행하시길 바랍니다.

반응형