반응형
BigQuery는 구글 클라우드에서 제공하는 SQL 기반의 데이터 웨어하우스 서비스입니다.
- 완전관리형 서버리스: 인프라나 클러스터 관리 없이 쿼리 실행만 하면 됨
- 초고속 분석: 페타바이트(PB)급 데이터를 수초 내에 처리
- 실시간 분석도 가능: 실시간 스트리밍 삽입도 지원
- ML/AI 통합 가능: BigQuery ML로 머신러닝 모델도 학습/예측 가능
✅ BigQuery의 주요 특징
특징설명
서버리스 | 클러스터 설정 필요 없음. 사용자는 쿼리에만 집중 |
표준 SQL 지원 | 일반적인 SQL로 데이터 분석 가능 |
저장과 분석 분리 | 스토리지와 컴퓨팅 비용이 분리되어 효율적 |
자동 스케일링 | 수천 개의 서버가 쿼리 처리에 자동 분산됨 |
스트리밍 데이터 삽입 | Kafka 또는 Pub/Sub와 연동 가능 |
보안 및 권한 제어 | IAM, VPC Service Controls 등으로 보안 강화 |
Data Studio, Looker 연동 | 시각화 도구들과 원활하게 연결 가능 |
🛠️ BigQuery의 기본 구조
Project (프로젝트)
└─ Dataset (데이터셋)
└─ Table (테이블)
└─ Row & Column (데이터)
- Project: GCP의 기본 단위
- Dataset: 테이블의 논리적 그룹 (DB 느낌)
- Table: 실제 데이터가 저장되는 구조 (Table 안에 Schema 정의)
💡 사용 예시
-- 공개 데이터셋에서 COVID 데이터 조회
SELECT
location,
date,
total_cases,
new_cases
FROM
`bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide`
WHERE
location = 'South_Korea'
ORDER BY
date DESC
LIMIT 10;
💰 요금제
항목설명
스토리지 요금 | GB당 월 $0.02 (Active), $0.01 (Long-term) |
쿼리 요금 | 읽은 데이터 1TB당 $5 (온디맨드 기준) |
Flat-rate 요금제 | 월 단위로 컴퓨팅 리소스를 예약 구매 |
Tip: 쿼리 전에 Dry Run 기능으로 비용 예측 가능
🔗 BigQuery 사용 도구
- 콘솔(GUI): https://console.cloud.google.com/bigquery
- bq CLI: 터미널에서 쿼리 실행, 테이블 업로드 등
- Python API: google-cloud-bigquery 패키지 사용
- Looker Studio: 시각화 도구로 직접 쿼리 연결 가능
🧠 BigQuery 사용 팁
- 파티셔닝/클러스터링: 쿼리 성능을 획기적으로 개선하고 비용 절감
- 테이블 스냅샷: 특정 시점 복구 가능
- External Table: GCS, Cloud SQL, Spanner 등 외부 소스 직접 쿼리 가능
- BigLake 통합: 데이터 레이크와 웨어하우스를 통합하여 사용 가능
🔒 보안 관련 기능
- IAM 기반 권한 설정
- VPC Service Controls
- 데이터 암호화 (기본 암호화 + 고객 관리 암호화 가능)
- 감사 로그
📌 언제 사용하면 좋을까?
- 대용량 로그 분석, 마케팅 데이터 분석, IoT 데이터 처리
- 머신러닝을 포함한 복잡한 분석 파이프라인
- 실시간 분석 필요 시 (Pub/Sub 연계 등)
📚 관련 학습 리소스
반응형