SparklingSoDA 개념 및 비전 소개

AI DevOps for Analytics

SparklingSoDA는 기업의 의사결정 최적화를 위한 인공지능 기반의 셀프분석가용 DevOps 포탈입니다. 모델의 개발부터 전개, 시스템 운영까지 일원화된(Seamless) 서비스를 제공하고 부족한 분석용 기업데이터의 자동생산부터 스스로 진화하는 전략추천 기능 등 인공지능 분석, 개발부터 운영을 손쉽게 구축할 수 있도록 지원합니다.


SparklingSoDA v2.2 소개

SparklingSoDA v2.2은 AID3를 실현하기 위한 상용제품입니다. DevAI, AIOps, Service Repository와 별도 옵션제품인 DataDam으로 구성되어 있습니다.



DevAI

Machine Learning 분석


  • 다양한 AI 분석을 위한 알고리즘 기본 내장 : Deep learning, Random Forest, GBM 등
  • 고성능 분석을 위한 프로세스의 병렬처리 및 노드간 클러스터링 지원
  • 모델 학습시 CPU, GPU의 선택적 처리 연산 지원
  • Open S/W의 버전간 충돌을 방지하기 위한 분석환경 Isolation 지원
  • 기본(RStudio Server Pro 별매)

AIOps

모델의 배포 및 모니터링


  • 분석 모델의 운영환경 실시간 배포 체계 지원
  • 모델의 버전관리 및 성능 비교 관리 체계 제공
  • 모델의 후행 결과 확인을 위한 보고서 제공
  • 운영 서비스의 모니터링 UI 지원
  • 모델 통합운영 관리를 위한 단계별 로그 지원으로 관리 용이성 지원
  • 기본(Shiny Server Pro 별매)

Service Repository

참조모델 기본제공


  • AI 분석을 위한 다양한 분석 참조 모델 기본 내장
  • CPC(Customer-Product-Channel) 분석, AI 품질관리 두가지 모델유형을 제공하고 있으며 지속적으로 확장 예정
  • 기본

DataDam

BigData 저장 및 관리


  • 정형, 비정형 데이터의 저장
  • 실시간, 배치 기반의 서비스 지원을 위한 Lamda Architecture 지원
  • 데이터의 확장을 고려한 Scale-out/up 지원으로 최적의 성능보장
  • 병렬 분산 처리 및 저장구조로 AI 분석을 위한 최적의 구조 지원
  • Node 장애에 대한 이중화를 지원하는 무정지형 서비스
  • 선택적설치

SparklingSoDA v2.2 Architecture

SparklingSoDA v2.2은 AID3를 실현하기 위한 SparklingSoDA의 제품입니다. DevAI, AIOps, Service Repository와 별도 옵션제품인 DataDam으로 구성되어 있습니다.


SparklingSoDA v2.2 S/W Components

분석가는 분석툴만. 시스템운영자는 설치와 모니터링만 하시면 됩니다.

SparklingSoDA의 모듈은 모두 Encapsulation되어 있습니다. 하기 다양한 오픈소스와 당사가 제공하는 최적화 기능들은 모두 블랙박스안에 있으며 당사의 관리안에 있습니다. 분석가들은 설치후 분석에만 집중하고 시스템운영자는 리소스 등의 모니터링만 하시면 됩니다.


SparklingSoDA 분석 환경 (DevAI)

SparklingSoDA 운영 환경 (AIOps)

SparklingSoDA 빅데이터 플랫폼 (DataDam)

SparklingSoDA 도입 효과

바로 인공지능 기업으로 점프할 수 있습니다.

SparklingSoDA 성공적 도입후 기업 임직원이 다양한 의사결정을 내릴 때 임직원 스스로(‘셀프 서비스 BI’, 혹은 ‘시티즌 분석가’로 호칭)가 인공지능 기술을 활용하고 이를 통해 실시간기업(Real Time Enterprise)을 실현하고 스스로의 차별화, 경쟁력요소를 확보하고 신서비스 등을 개발할 수 있습니다. 또한 데이터 및 알고리즘의 판매 등의 새로운 시장에 대응가능해집니다.


DevAI 개요

AI분석을 위한 분석환경은 각 기업의 다양한 비즈니스 적용을 위한 구조를 제공해야 합니다. DevAI는 오픈소스의 생태계에서 제공하는 Machine Learning 알고리즘을 지원하여 넓고 깊이(wide & deep) 있는 분석을 지원합니다. 오픈소스의 단점이 될 수 있는 버전충돌 등을 방지하기 위하여 가상화 기반의 분석/운영 제공 및 기업용 서비스를 위한 제반 기능(Enterprise-Ready)을 제공함으로써 기업의 지속적인 AI 기반의 서비스를 제공할 수 있는 체계를 지원합니다.



DevAI 특장점

분석 처리 속도
  • Spark 기반의 Architecture로 In-Memory 분산처리를 지원합니다.
  • 전통적인 RDBMS보다 10 ~ 100배까지 분석 성능 효율을 지원합니다.
  • CPU, GPU 자원을 선택적으로 사용하여 알고리즘별 최적의 수행 속도를 보장합니다.

사용 용이성
  • 다양한 AI 분석을 위한 알고리즘 기본 내장으로 Deep learning, Random Forest, GBM 등을 제공합니다.
  • R분석을 위한 다양한 공통 함수 제공으로 초급분석가에게는 분석의 용이성과 고급분석가에는 빠른 AI 분석 환경을 제공합니다.
  • AI 분석을 위한 분석 참조 모델을 제공하여 업무에 맞는 다양한 분석 및 ad-hoc분석을 지원합니다.

버전간 독립성
  • Open S/W의 버전간 충돌을 방지하기 위한 모델의 분석환경 isolation을 지원합니다.
  • 기술환경의 변화에 따른 Open S/W의 신규 버전 지원에 대한 즉각적인 대응을 지원합니다.
  • 개발 환경과 운영환경의 통합 관리를 지원하여 Real Time DevOps를 지원합니다.
  • Docker기반 컨테이너 이미지 제작 배포를 지원합니다.

AIOps 개요

AIOps는 DevAI에서 협업환경하에서 분석/개발된 모델에 대하여 관리 및 실운영 서비스 할 수 있도록 환경을 제공합니다. 분석 모델에 대한 REST(HTTP), 실시간, Batch 형태로 서비스하고, 서비스 모니터링 기능을 지원합니다.



AIOps 특장점

Service Deployment
  • 운영계 환경에 맞는 모델 오브젝트를 생성 및 관리를 제공합니다.
  • 분석 모델의 튜닝을 위한 서비스 관리 체계를 제공합니다.
  • 예측모델 및 알고리즘의 성능 모니터링을 제공합니다.

람다 아키텍쳐 채택
  • 운영 환경에서 AI 모델의 분산 배치 처리를 위해 Spark기반의 운영 체계를 지원합니다.
  • 실시간 이벤트에 따른 분석한 모델의 빠른 수행결과를 지원합니다.
  • 배치를 통한 학습 Training시 스케줄 및 처리 이력 관리를 제공합니다.

모델 협업관리
  • 프로젝트별 데이터 접속권한 및 리소스 모니터링/할당 관리를 지원합니다.
  • 프로젝트의 모델 및 알고리즘을 오브젝트화 하여 관리합니다.
  • 개발된 모델 및 알고리즘은 권한에 의하여 공유 및 협업 체계를 지원합니다.

Service Repository 개요

스파클링소다는 Domain, Service별 AI Model을 제공하여 고객사의 모델개발 기간을 단축 시켜 드립니다. AI 모델은 단순한 독립/종속 변수의 관계 뿐만 아니라 다양한 Machine Learning 알고리즘 기반으로 분석된 소스까지 제공하여 보다 개발이 용이한 AI 기반 모델 개발을 제공합니다. SparklingSoDA v2.2은 CPC(Customer-Product-Channel) 분석, AI 품질관리 두가지 모델유형을 제공하고 있으며 지속적으로 확장할 예정입니다.



Service Repository 특장점

학습 용이성
  • 기 개발된 AI 분석 모델을 제공하여 고객사의 다른 업무 모형 개발이 용이합니다.
  • AI 모델의 R기반 소스를 제공하여 R 초보자도 직관적 이해를 제공합니다.
  • 다양한 Machine Learning 알고리즘 기반의 분석 모형 제공을 통한 활용 접근성이 용이합니다.

Visualization
  • Shiny기반의 UI 제공으로 분석 데이터의 탐색적 이해와 분석 결과에 직관적 이해를 강화합니다.
  • R의 다양한 Plot 패키지 연계로 데이터의 이해를 증대 시킵니다.

Service Repository 제공모델

CPC(Customer-Product-Channel) 분석 모듈은 경영에 기본적인 고객, 상품, 대고객 채널관련한 현황을 파악하여 주요 경영지표를 추정, 예측할 수 있는 모델들을 장착하고 있습니다. 또한 AI품질관리 모듈은 제조업의 품질관리를 위한 모델을 제공합니다. 공정설명, 이상치 검출, 공정변수 상관분석, 수율예측과 관련한 다양한 알고리즘을 적용하여 가장 유의한 모형을 수립합니다. 본 화면은 Shiny로 구성되어 있습니다.

CPC

SparklingSoDA에는 머신러닝 등 분석을 쉽게 하기 위해서 여러 참조 모델을 기본 탑재하고 있습니다.
CPC(Customer-Product-Channel) 분석 모듈은 경영에 기본적인 고객, 상품, 대고객 채널관련한 현황을 파악하여 주요 경영지표를 추정, 예측할 수 있는 모델들을 장착하고 있습니다.

경영예측
ModelRepository Image
[AI]경영예측
  • ARIMA(Autoregressive Integrated Moving Average)와 RNN(Recurrent Neural Network) 알고리즘을 적용하여 매출을 예측합니다.
  • 검정색은 실제 값, 파란색은 ARIMA 모형을 통한 예측 값, 갈색은 RNN 모형을 통한 예측 값 입니다.
  • 조건을 변경하여 모형을 개발 할 수 있습니다.(log변환, 차분, 데이터 기간 등)
ModelRepository Image
경영예측 > 상품별 예측
  • ARIMA(Autoregressive Integrated Moving Average)와 RNN(Recurrent Neural Network) 알고리즘을 적용하여 매출을 예측 합니다.
  • 검정색은 실제 값, 파란색은 ARIMA 모형을 통한 예측 값, 갈색은 RNN 모형을 통한 예측 값 입니다.
  • 조건을 변경하여 모형을 개발 할 수 있습니다.(log변환, 차분, 데이터 기간 등)

ModelRepository Image
판매현황
  • 회사에서 판매하고 있는 주요 제품에 대한 판매 현황 입니다.
  • 연도별, 월별, 상품별, 채널별로 구매 건수, 구매 금액, 구매 고객수 현황을 모니터링 합니다.
ModelRepository Image
채널접촉현황
  • 고객들이 상품 구매를 위해 접촉한 채널별 현황입니다.
  • 연도별, 월별, 채널별로 고객들이 접촉한 현황을 모니터링합니다.

ModelRepository Image
반품현황
  • 고객들이 구매한 상품을 반품한 현황 입니다.
  • 연도별, 월별, 반품 사유별로 고객들이 반품한 현황을 모니터링합니다.

고객전략분석
ModelRepository Image
[AI]이탈고객예측 >
Deep Neural Network
  • 이탈고객 예측을 위해 RF(Random Forest), GBM(Gradient Boosting Machine), DNN(Deep Neural Network) 알고리즘을 적용하여 모형을 개발 합니다.
  • 모형 개발 시, hidden layer, hidden node, Epoch를 조정하여 개발 할 수 있습니다.
  • Training data로 모형을 개발하고 Test data로 검증을 합니다.
  • 이탈 예측을 설명하는 변수들의 중요도 확인, 모형의 성과를 측정하는 AUC와 GINI 확인, Confusion Matrix를 통하여 오분류율을 확인 할 수 있습니다.
ModelRepository Image
[AI]이탈고객예측 >
Gradient Boosting Machine
  • 이탈고객 예측을 위해 RF(Random Forest), GBM(Gradient Boosting Machine), DNN(Deep Neural Network) 알고리즘을 적용하여 모형을 개발 합니다.
  • 모형 개발 시, 트리의 개수와 Depth를 조정하여 개발 할 수 있습니다.
  • Training data로 모형을 개발하고 Test data로 검증을 합니다.
  • 이탈 예측을 설명하는 변수들의 중요도 확인, 모형의 성과를 측정하는 AUC와 GINI 확인, Confusion Matrix를 통하여 오분류율을 확인 할 수 있습니다.

ModelRepository Image
[AI]이탈고객예측 > Random Forest
  • 이탈고객 예측을 위해 RF(Random Forest), GBM(Gradient Boosting Machine), DNN(Deep Neural Network) 알고리즘을 적용하여 모형을 개발 합니다.
  • 모형 개발 시, hidden layer, hidden node, Epoch를 조정하여 개발 할 수 있습니다.
  • Training data로 모형을 개발하고 Test data로 검증을 합니다.
  • 이탈 예측을 설명하는 변수들의 중요도 확인, 모형의 성과를 측정하는 AUC와 GINI 확인, Confusion Matrix를 통하여 오분류율을 확인 할 수 있습니다.
ModelRepository Image
고객세분화
  • RFM(Recency, Frequency, Monetary)분석을 통하여 고객 세분화를 합니다.
  • 유사한 고객 군으로 군집하여 고객등급을 구성하여 마케팅 전략을 도출 합니다.

상품전략 분석
  • 상품판매 현황 (상품별/연령별/성별/등급별/판매채널별 구매금액/건수)
  • 교차지수 graph
  • 상품연관성 분석 by AI
  • 추천상품 모델 by AI

판매채널분석
  • 고객접촉 현황 (콜센터 이용현황, 웹사이트 방문 현황, 채널이용 고객 특성화 분석)

AI 품질관리

SparklingSoDA에는 머신러닝 등 분석을 쉽게 하기 위해서 여러 참조 모델을 기본 탑재하고 있습니다.
AI품질관리 모듈은 제조업의 품질관리를 위한 모델을 제공합니다. 공정설명, 이상치 검출, 공정변수 상관분석, 수율예측과 관련한 다양한 알고리즘을 적용하여 가장 유의한 모형을 수립합니다. 본 화면은 Shiny로 구성되어 있습니다.

ModelRepository Image
공정설명
  • 제조업의 경우 실제 공정(Process)에서 발생하는 다양한 종류의 데이터를 관리해야 합니다.
  • 각종 측정장비에서 나오는 실시간(Real time) 정보와 DataBase에 축적된 많은 공정변수를 하나의 Dashboard상에서 관리하고 필요한 분석을 진행하게 됩니다.

ModelRepository Image
이상치 검출
  • 공정변수는 다양한 원인(측정장비 노후화, 이상공정 진행 등)으로 인해 집계 데이터상에 이상치가 포함됩니다.
  • 분석에 앞서 각 공정변수에 이상치(Outlier) 여부를 판단하기 위해 다양한 알고리즘을 적용합니다.
  • 이상치의 종류에 따라 분석에 포함할지 또는 제거(Filtering out)할지를 결정해야 합니다.

ModelRepository Image
공정변수 상관분석
  • 각 공정변수간 어떤 관련성이 있는지를 파악하기 위한 다양한 알고리즘이 제공됩니다.
  • 유의성 검증, 시각화(visualization), 모형접근(model-based)에 의해 유의한 영향 변수 선별작업을 진행합니다.

ModelRepository Image
수율 예측
  • 공정의 가장 마지막 결과인 수율(yield) 등의 반응변수 모형을 수립합니다.
  • 다양한 딥 러닝 알고리즘을 적용해서 가장 유의한 모형을 수립하고, 예측 및 공정 Control 작업을 진행합니다.

DataDam 개요

데이터 수집용 레이크(like Lake)와 달리 분석을 위한 분명한 목적(like Dam)을 가진 빅데이터 분석을 위한 데이터 수집, 저장, 처리 기능을 표준 Hadoop eco기반으로 제공하며 데이터의 확장에 따라 무정지형 Scale-out을 지원합니다. 별도의 빅데이터 레이크 구축없이 활용하거나 기존 빅데이터시스템과 연계 혹은 별도로 분석을 위한 빅데이터 저장소로 제안합니다.



DataDam 특장점

데이터 인터페이스
  • 기업의 기간계 데이터 수집시 다양한 압축 포멧 지원으로 데이터 용량 공간을 최적화 합니다.
  • 데이터 수집 시 Work flow기반으로 Job Process를 지원하여 운영 용이성을 지원합니다.
  • 정형 / 비정형 / 반정형 다양한 형태의 데이터 수집, 저장, 처리를 지원합니다.

최적의 성능 지원
  • 시스템 이중화를 제공하여 하드웨어 또는 소프트웨어의 장애를 대응합니다.
  • 데이터의 확장(증설) 시 시스템 중단없이 손쉬운 Scale-Out을 지원합니다.
  • Parquet포맷 지원으로 AI 분석 시 Spark과 최적의 분석 연계성을 지원합니다.

Apache Eco 수용
  • 100% 오픈 소스 기반의 빅데이터 플랫폼 구성으로 향후 기술의 확장성 용이성을 지원합니다.
  • 특정 업체에 종속되지 않는 Open 기반의 개방형 구조를 지원합니다.
  • 표준 SQL 지원과 다양한 시각화 기능 연계 지원으로 사용성 강화를 제공합니다.