카테고리 없음

🔍 BigQuery란?

idea9329 2025. 3. 31. 10:07
반응형

 

BigQuery는 구글 클라우드에서 제공하는 SQL 기반의 데이터 웨어하우스 서비스입니다.

  • 완전관리형 서버리스: 인프라나 클러스터 관리 없이 쿼리 실행만 하면 됨
  • 초고속 분석: 페타바이트(PB)급 데이터를 수초 내에 처리
  • 실시간 분석도 가능: 실시간 스트리밍 삽입도 지원
  • ML/AI 통합 가능: BigQuery ML로 머신러닝 모델도 학습/예측 가능

✅ BigQuery의 주요 특징

특징설명

서버리스 클러스터 설정 필요 없음. 사용자는 쿼리에만 집중
표준 SQL 지원 일반적인 SQL로 데이터 분석 가능
저장과 분석 분리 스토리지와 컴퓨팅 비용이 분리되어 효율적
자동 스케일링 수천 개의 서버가 쿼리 처리에 자동 분산됨
스트리밍 데이터 삽입 Kafka 또는 Pub/Sub와 연동 가능
보안 및 권한 제어 IAM, VPC Service Controls 등으로 보안 강화
Data Studio, Looker 연동 시각화 도구들과 원활하게 연결 가능

🛠️ BigQuery의 기본 구조

Project (프로젝트)
 └─ Dataset (데이터셋)
     └─ Table (테이블)
         └─ Row & Column (데이터)
  • Project: GCP의 기본 단위
  • Dataset: 테이블의 논리적 그룹 (DB 느낌)
  • Table: 실제 데이터가 저장되는 구조 (Table 안에 Schema 정의)

💡 사용 예시

-- 공개 데이터셋에서 COVID 데이터 조회
SELECT
  location,
  date,
  total_cases,
  new_cases
FROM
  `bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide`
WHERE
  location = 'South_Korea'
ORDER BY
  date DESC
LIMIT 10;

💰 요금제

항목설명

스토리지 요금 GB당 월 $0.02 (Active), $0.01 (Long-term)
쿼리 요금 읽은 데이터 1TB당 $5 (온디맨드 기준)
Flat-rate 요금제 월 단위로 컴퓨팅 리소스를 예약 구매

Tip: 쿼리 전에 Dry Run 기능으로 비용 예측 가능


🔗 BigQuery 사용 도구

  • 콘솔(GUI): https://console.cloud.google.com/bigquery
  • bq CLI: 터미널에서 쿼리 실행, 테이블 업로드 등
  • Python API: google-cloud-bigquery 패키지 사용
  • Looker Studio: 시각화 도구로 직접 쿼리 연결 가능

🧠 BigQuery 사용 팁

  1. 파티셔닝/클러스터링: 쿼리 성능을 획기적으로 개선하고 비용 절감
  2. 테이블 스냅샷: 특정 시점 복구 가능
  3. External Table: GCS, Cloud SQL, Spanner 등 외부 소스 직접 쿼리 가능
  4. BigLake 통합: 데이터 레이크와 웨어하우스를 통합하여 사용 가능

🔒 보안 관련 기능

  • IAM 기반 권한 설정
  • VPC Service Controls
  • 데이터 암호화 (기본 암호화 + 고객 관리 암호화 가능)
  • 감사 로그

📌 언제 사용하면 좋을까?

  • 대용량 로그 분석, 마케팅 데이터 분석, IoT 데이터 처리
  • 머신러닝을 포함한 복잡한 분석 파이프라인
  • 실시간 분석 필요 시 (Pub/Sub 연계 등)

📚 관련 학습 리소스

 

반응형