본문 바로가기

Cloud-computing/GCP

[GCP]GCP Product cheat sheets - Database, Data Analytics

Database

Cloud Bigtable

  • scaleable, It is ideal for very large NoSQL
  • fully-managed NoSQL wide-column
  • It integrates well with ML. Dataproc, analytics
  • Real time, High-throughput Analysis, Time series
  • workloads
    • IoT(e.g. sensor), finance, adtech, Personalization, Monitoring, Geospatial datasets, Graphs
  • low-latency, High Speed

Cloud SQL

  • To minimum data loss
    • Run Cloud SQL in HA mode. It will provide high availabilty in case zonal outage
    • Take Rugular backup of data. It will help in creating a new instance faster
    • Create cross region read replica. It will ensure minimum data loss in case of disaster event

Cloud Spanner

  • It is for OLTP(Online Transaction Processing)
  • RDS
  • Peta 단위 대규모 저장
  • Global
  • 대규모 SQL 처리
  • Horizontal scalability
    • you can configure the autoscaling of Cloud Spanner nodes count based on the CPU utilization.

Cloud Datastore

  • Good for
    • Semi-structured application data / Hierachical data / Durable key-value data / Common workloads / User profiles / Product catalogs / Game state
  • NoSQL
  • It can’t supoort Petabyte scale of data
  • Auto Scale
  • 매일 무료 용량 제공
  • Not for storing images

Cloud Memorystore

  • Redis 및 Memcached의 관리형 버전을 제공하는 서비스

Cloud Firestore for Firebase

  • data structred
  • Mobile SDKs

Data Analytics

Cloud Data Fusion

  • 데이터 파이프라인을 신속하게 빌드 및 관리하기 위한 완전 관리형 클라우드 기반의 기업 데이터 통합 서비스입니다.
  • 비즈니스 사용자, 개발자, 데이터 과학자는 인프라에 신경 쓸 필요 없이 확장 가능한 데이터 통합 솔루션을 안정적으로 쉽게 빌드하여 데이터를 정리, 준비, 혼합, 전송, 변환할 수 있습니다

Pub/Sub

  • Highly available and highly scalable system that can support very high spped write operation
  • 메세지
  • Kafka
  • RabbitMQ
  • Real time data
  • It is not address log storage for data retention.

BigQuery

  • Big Query can analyze petabytes of data using ANSI SQL at blazing-fast speeds, with zero operational overhead.
  • When you create a table partitioned by ingestion time, BigQuery automatically loads data into daily, date-based partitions that reflect the data's ingestion or arrival time.
  • It is for OLAP(Online Analytical Processing)
  • BigQuery 데이터셋에서 쿼리를 실행하려면 사용자에게 BigQuery JobUser/user 역할이 필요합니다. 이 두 역할 모두 BigQuery 데이터 셋(dataset)에 대해 쿼리할 수 있는 권한을 부여합니다.
  • BigQuery dataViewer: 실제 기본 데이터를 확인하기 위해서 해당 데이터가 저장되어 있는 프로젝트에서 이 역할이 필요하다.
  • raw 데이터는 저장할 수 없다. 구조화된 데이터만 저장할 수 있다.
  • 분석
  • Data Warehouse
  • It doesn’t support high speed transaction

Dataflow

  • Dataflow is a Unified stream and batch data processing that's serverless, fast, and cost-effective.
  • Cloud Dataflow is suitable for both batch and streaming pipelines.
  • It will ensure exactly once processing
  • Stream/batch data processing
  • Extract, Transform, Load (ETL)
  • 다양한 데이터 처리 패턴을 실행하는 관리형 서비스
  • 배치 및 스트림 모드 데이터 변환/처리
  • 데이터 프로세싱
  • Apache Beam

DataProc

  • Hadoop
  • Spark

Dataprep

  • Dataprep to explore and transform raw data from disparate and large datasets into clean and structured data for further analysis and processing.
  • Dataprep can process data stored in Cloud Storage, BigQuery, or from your desktop, then export refined data to BigQuery or Cloud Storage for storage, analysis, visualization, or machine learning.
  • It is intelligent cloud data service to visually explore, and prepare data for analysis and machine learning
  • Visual data wrangling
  • 지능형 데이터 준비

Data studio

  • Data visualization

Cloud Composer

  • Managed workflow orchestration service
  • 워크플로우 조정
  • Data Pipeline