H2O Driverless AI

Automatic Machine Learning for Enterprise

H2O Driverless AI는 feature engineering, model validation, model tuning, model selection 및 model depolyment와 같은 가장 어려운 데이터 사이언스 및 머신러닝 워크 플로우를 자동화하는 AI Platform입니다. 전문 데이터 사이언티스트와 같이 정확한 예측도를 달성하는 것을 목표로 하지만 자동화 덕분에 훨씬 짧은 시간 내에 달성 할 수 있습니다. 또한 H2O Driverless AI는 자동 시각화(automatic visualizations) 및 기계 학습 해석 기능을 제공합니다. 특히 규제 산업에서 모델 투명성과 설명은 예측 성과만큼 중요합니다.


주요특징
  • Automatic visualization
  • Automatic feature engineering (auto hyper-parameter tuning)
  • Explainable AI (XAI)

Architecture

Automatic Visualization

  • 별도의 추가 코드 작성없이 Dataset을 다양한 형태의 그래프와 차트로 표현합니다.
  • 의미파악이 가능한 형태로 Data의 특이치와 Trend 정보를 제공합니다.
  • Data 유형별로 적합한 시각화 (13종) 자동 제공합니다.
ModelRepository Image
Clumpy Scatterplots
ModelRepository Image
Correlated Scatterplots

ModelRepository Image
Unusual Scatterplots
ModelRepository Image
Skewed Histograms

ModelRepository Image
Varying Boxplots
ModelRepository Image
Biplots

ModelRepository Image
Correlation Graph
ModelRepository Image
Radar Plot

ModelRepository Image
Correlated Scatter Plot
  • 전체 설명 변수에 대해서 피어슨(pearson) 상관계수가 높은 순서로 plot 구현
ModelRepository Image
Biplot Plot
  • 설명변수에 대한 주성분 분석 Biplot 자동 제공

ModelRepository Image
Rader Plot
  • 개별 관측치(예: 고객 ID)에 대한 변수값을 도식화
  • 파란색: 관측치가 누계되어 변수 값이 많은 분포함 지점
  • 붉은색: 다변량 기준 이상치

Automatic Feature Engineering

  • 주어진 Dataset에서 자동으로 변수를 변환하고 새로운 변수를 생성합니다.
  • 신규 생성된 변수에 대한 변수 중요도 차트를 제공합니다.
  • 시간과 성능 Metric을 고려한 Random Grid Search 방식에 의한 자동 Hyper Parameter Tuning 기능을 제공합니다.
ModelRepository Image
첫번째 iteration 수행 후 변수 중요도

ModelRepository Image
11번째 iteration 수행 후 변수 중요도 (파생변수 포함)

ModelRepository Image
Iteration별 hyper-parameter와 (파생) 변수 선택 현황 정보 정보

H2O driverless AI 에서 지원되는 Feature Engineering

Variable Transformation
  • Skewed 분포를 가진 종속, 설명변수 변환
    예: log(x), log(x+1), sqrt(x) 등
ModelRepository Image

Feature Encoding
  • 범주형 변수를 수치형 정보로 변환
    예: Labelled encoding, one hot vector encoding 등

Feature Interaction
  • 새로운 변수 생성 (예: x1 + x2)
ModelRepository Image

XAI

  • 모형 학습 결과 및 관련 의사결정나무, 변수 중요도 정보, 변수별 값에 따른 영향도 정보 제공
  • 결과비교: 전체 데이타셋 Vs. K 군집 데이타 비교 지원
  • 원변수(original variable) 와 파생변수(derived variable)에 대한 분석 결과 각각 제공
ModelRepository Image
Global (K-LIME) 차트
ModelRepository Image
변수중요도 차트

ModelRepository Image
Decision tree 모델
ModelRepository Image
Partial dependency 차트