2021년 급부상중인 데이터 매니지먼트 트렌드와 이를 주도하는 사업자는?

다른 모든 산업 영역과 마찬가지로, 2020년 데이터 산업에 있어서도 중요한 변화가 나타났습니다. 코로나 팬데믹으로 기업들이 원격 근무라는 새로운 표준(new normal)에 빠르게 적응해야 하는 가운데, 클라우드가 절대적으로 필요하게 된 것인데요. 기업 내 임직원들이 서로 다른 장소와 시스템에서 데이터에 액세스해야 하기 때문에, 데이터 거버넌스와 보안이 최우선 순위로 부상하는 등, 기업이 스스로 빠르게 변화해야 함을 체감하면서 데이터 관련한 투자가 증가했고, 이를 통해 시스템을 업그레이드하며 보다 완벽한 데이터 스택을 만들고자 하는 움직임이 활발했습니다.


2021년에도 역시 최신의 혁신과 변화를 따라잡기 위해 데이터 인프라가 진화할 것으로 예상되는 가운데, 데이터 매니지먼트 트렌드 중 하나로 데이터 웨어하우스와 데이터 레이크가 컨버징되는 트렌드가 중요하게 언급되고 있습니다.


그동안 데이터 설계자(data architects)들은 데이터 웨어하우스와 데이터 레이크, 두 가지 주요 시스템으로 분리하여 데이터 운영을 설계해 왔는데요. 지금까지는 대부분의 기업들에서 ‘분석 및 리포팅 유즈케이스에 활용되는 특수 데이터를 위한 데이터 웨어하우스’‘모든 데이터를 위한 데이터 레이크’라는 두 개의 시스템을 모두 사용해 온 데 비해, 최근 두 개의 시스템이 수렴(converge)하는 현상이 점차 나타나고 있는 것입니다. 이는 시간이 지남에 따라 조직 내에서 데이터가 단절되는 데이터 사일로(the silos of disconnected data) 이슈를 해결하고자 하는 흐름으로, Snowflake와 Databricks가 이러한 흐름을 주도하고 있는 대표 사업자입니다.


이때, Snowflake는 대표적인 데이터 웨어하우스 플레이어로, 저장과 컴퓨팅을 분리하여 데이터의 저장 비용을 크게 줄여주는 클라우드 네이티브한 데이터 웨어하우스 서비스를 제공하는 한편, 데이터 레이크의 영역이었던 반정형 데이터(semi-structured data)까지 지원하고자 나서고 있습니다. 


반면 Databricks와 같은 데이터 레이크 플레이어의 경우 데이터 레이크와 데이터 웨어하우스의 결합어인 '레이크 하우스'라는 새로운 비전을 내세우며, 이를 실현할 제품군을 출시하고 있습니다.


데이터 관리의 진화 단계(The Evolution of Data Management)

(출처: Databricks)

Note: *위 그림에서 ETL(Extraction, Transformation, Loading)은 데이터 웨어하우스(DW, Data Warehouse) 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터 웨어하우스에 적재하는 모든 과정을 의미함



데이터 웨어하우스와 데이터 레이크의 컨버전스 트렌드


- 1980년대 이후 시작된 "데이터 웨어하우스"의 시대


이같은 흐름을 이해하기 위해서는 우선 데이터 매니지먼트의 발전사에 대해 간략히 짚어볼 필요가 있는데요. 가장 먼저 봐야할 개념인 데이터 웨어하우스는 기업의 의사 결정 지원 및 비즈니스 인텔리전스(BI) 애플리케이션에 있어서 오랜 역사를 갖고 있습니다. 1980년대 후반에 시작된 이래로 데이터 웨어하우스 기술은 계속 발전했으며, MPP (Massive Parallel Processing) 아키텍처로 인해 더 큰 사이즈의 데이터를 처리할 수 있는 시스템으로 이어졌습니다.


문제는 데이터 웨어하우스가 정형 데이터에 적합한 데 비해, 다수의 현대 기업들은 시계열, 로그, 이미지, 도큐먼트 등의 비정형 및 반정형 데이터를 비롯하여, 다양성/속도/볼륨(variety/ velocity/ volume)이 높은 데이터를 처리해야만 하는 이슈에 직면해 있다는 것입니다. 이 때문에 데이터 웨어하우스는 데이터 사이언스나 머신러닝 등의 유즈 케이스에 적합하지 않을 뿐더러, 대량의 데이터셋을 저장하기에 비용 효율적이지 않다는 점이 한계로 지적되었습니다.


데이터 웨어하우스와 데이터 레이크의 비교

(출처: Amazon, Intersog)


 - 2010년 이후, "데이터 레이크"의 등장


이처럼 기업들이 다양한 소스원에서 많은 양의 데이터를 수집하기 시작하면서, 설계자(architects)들은 다양한 분석 제품과 워크로드에 대한 데이터를 수용할 수 있는 단일 시스템을 구상하기 시작했는데요. 그 결과 약 10년 전에 도입된 것이 바로 “다양한 포맷의 원시 데이터 저장소(repositories for raw data in a variety of formats)”인 데이터 레이크입니다. 여기서 데이터 레이크는 정형, 비정형 구분없이 모든 원시 데이터(raw data)를 저장할 수 있는 저장소와 같은 개념입니다.


그러나 이러한 데이터 레이크 역시 데이터의 저장에는 적합한 반면, 몇 가지 중요한 기능이 부족했는데, 예를 들면 트랜잭션을 지원하지 않고, 데이터 품질을 보장할 수 없었으며, 일관성/고립성(consistency/isolation) 부족 이슈로 인해 appends/reads/batch/streaming 작업을 혼합(mix)하는 것이 거의 불가능했습니다. 이러한 이유로 데이터 레이크의 강점이 실현되지 못하고, 오히려 데이터 웨어하우스의 많은 이점을 상실하게 된다는 점이 문제로 지적되었습니다.


이처럼 데이터 웨어하우스와 데이터 레이크 모두 각각의 한계가 있기 때문에, 가장 일반적인 접근 방식은 데이터 레이크, 여러 개의 데이터 웨어하우스, 스트리밍/시계열/그래프/이미지 데이터베이스와 같은 다른 전용 시스템 등 복수의 시스템(multiple systems)을 사용하는 것이 되었는데요. 하지만 이 마저도 복수의 시스템을 사용하면서 복잡성이 증가했으며, 데이터 전문가가 항상 서로 다른 시스템 간에 데이터를 이동하거나 복사해야 하기 때문에 지연(delay)이 발생할 수 밖에 없다는 치명적인 한계점이 있었습니다.

- 2020년 이후, 데이터 레이크와 데이터 웨어하우스의 장점 요소들을 결합한 "레이크 하우스(lakehouse)" 등장


이에 데이터 레이크의 한계를 해결하려는 새로운 시스템이 등장하기 시작했으며, 그 결과 주목받기 시작한 것이 바로 데이터 레이크와 데이터 웨어하우스의 장점 요소를 결합한 새로운 "레이크 하우스(lakehouse)" 입니다.


S&P Global은 레이크 하우스라는 용어가 데이터 및 분석의 영역에서 최근 몇 년 동안 주목되고 있다고 분석하고 있는데요. 2020년 초 Databricks라는 기업이, “데이터 웨어하우스의 데이터 구조 및 관리 기능”과 “데이터레이크에 사용되는 저 비용 스토리지”를 결합하는 자사의 접근 방식을 설명하고자 "레이크하우스(lakehouse)"라는 용어를 채택함에 따라 널리 퍼진 것으로 알려져 있습니다.


그러나 Databricks는 레이크 하우스라는 용어를 사용한 최초의 기업은 아닌데, AWS가 2019년 말 경에 Amazon Redshift Spectrum과 관련하여 레이크 하우스라는 용어를 사용했다고 합니다. Amazon Redshift Spectrum은 Amazon Redshift 데이터 웨어하우스 사용자가 Amazon S3 클라우드 서비스에 저장된 데이터에 쿼리를 적용할 수 있도록 하는 서비스를 의미합니다.

또한 Databricks나 AWS 외에 레이크 하우스라는 용어를 사용하지 않더라도, 레이크 하우스를 제공한다고 말할 수 있는 다수의 업체들이 있는데요. 예를 들어 Snowflake의 마케팅은 레이크 하우스라는 용어를 사용하지 않고, 오히려 “데이터 클라우드(data cloud)”라는 용어를 선호하는데, 이 역시 복수의 데이터 처리 및 분석 워크로드를 지원하는 기능을 설명하기 위한 것입니다.

이상으로 레이크 하우스는 요약하면, 데이터 웨어하우스의 데이터 구조 및 데이터 관리 기능을, 데이터 레이크의 저렴한 스토리지와 결합하도록 설계된 환경이라고 할 수 있습니다. 즉, 레이크 하우스는 클라우드 스토리지에 데이터를 유지하는 비용과 유연성이라는 이점을 누리게 함으로써, 데이터 레이크와 데이터 웨어하우스 간의 경계를 흐리는 것으로, 이를 대표하는 라이징 스타로 Snowflake와 Databricks가 주목받고 있습니다. 시장에서는 특히 지난해 가장 주목받은 테크 IPO 사례로서 Snowflake에 대한 관심이 높았으며, Databricks는 제 2의 Snowflake로 기대되고 있는 상황입니다.


Snowflake와 Databricks 간 비교

(출처: 로아인텔리전스)


“데이터 클라우드(data cloud)”를 내세운 Snowflake


우선 지난해 가장 주목받은 테크 IPO 중 하나이기도 했던 Snowflake의 경우, 앞서 언급된 대로 Data Cloud라는 이름으로 자사의 비전을 표현하고 있는데요. Snowflake가 상장 당시 공개했던 S-1의 설명에 의하면, Data Cloud는 "Snowflake의 고객, 파트너, 데이터 공급자들이 데이터 사일로(Data Silo) 문제를 극복하고, 안전하고 잘 관리된(governed) 방식으로 데이터셋의 가치를 추출할 수 있도록 하는 생태계"를 의미합니다 .


이때, 데이터 사일로란, 각 부서나 사업 단위, 브랜치 별로 데이터를 별도의 솔루션이나 애플리케이션에 저장하여 관리하면서 이들 조직간 데이터가 일치하지 않게 되는 현상으로, 이처럼 데이터가 사일로화 될 경우 데이터간 단절로 인해 데이터로부터 제대로 된 인사이트를 도출하는 것이 어려워집니다. 예를 들어, 마케팅 팀의 데이터와 서플라이체인 팀의 데이터, 파이낸스 팀의 데이터가 서로 사일로화 되어 있을 경우, 실제 상황과는 동떨어진 부적절한 마케팅 메세지가 도출될 가능성이 높은 것입니다.


Snowflake의 Data Cloud 생태계의 기술적 근간인 Cloud Data Platform은 이 같은 데이터 사일로 문제와 더불어, 기업들이 데이터 사일로 해결에 사용하던 전통적 데이터 웨어하우스의 문제까지 해결할 수 있도록 한다는 점을 강점으로 내세웁니다.

- 클라우드 네이티브한 아키텍처를 통해 EDW의 문제 해결


이때, Snowflake가 자사의 가장 큰 강점으로 강조하는 것은, 클라우드 네이티브한 아키텍처가 적용되었다는 점인데요. Barclays Research 역시 Snowflake가 엔터프라이즈 데이터 웨어하우스(EDW, Enterprise Data Warehouse)를 클라우드로 가져옴으로써 EDW 시장의 현대화를 선도한다고 평가합니다. 특히 데이터 웨어하우스를 구성하는 세 가지 레이어 중 스토리지와 컴퓨팅을 분할함으로써 여러 유저들에게 전용 리소스를 온디맨드로 할당하여 레이턴시 없이 여러 유저들이 데이터셋에 안정적으로 동시접속할 수 있도록 한 것이, 기존 EDW의 속도와 안정성 문제를 해결하는데 크게 기여했다는 평가입니다.


온프레미스에서 운용되는 전통 EDW(위)와 Snowflake Cloud Data Platform(아래) 비교

(출처: Barclays Research)


 - 정형데이터뿐 아니라 반정형 데이터까지 확장


이때, 최근 Snowflake가 2014년 무렵에 사용했던 Cloud Data Warehouse라는 용어 대신, Cloud Data Platform이라는 용어를 채택한 것은, 기존 데이터 웨어하우스의 약점으로 꼽혀 온 반정형 데이터 처리 문제까지 해결할 수 있음을 강조하기 위한 것으로 Snowflake는 이 점을 강조하기 위해 자사 S-1에서 기존의 레거시 DB와, 레거시 DB의 문제를 해결하기 위해 도입된 빅데이터 아키텍처가 가진 한계를 아래와 같이 제시합니다.


DB 아키텍처 VS. 빅데이터 아키텍처 비교 (출처: Snowflake의 S-1 문서, 로아인텔리전스 재정리)

이에 비해 자사 Cloud Data Platform의 경우, 클라우드 네이티브한 아키텍처의 채택으로 퍼블릭 클라우드가 가진 scalability와 퍼포먼스를 그대로 구현할 수 있으며, 스토리지와 컴퓨팅 레이어의 분리를 통해 복수의 유저와 유즈케이스가 동시적으로 컴퓨팅 리소스에 즉각적으로 액세스할 수 있도록 했다는 설명입니다.


아울러 최적화 기술을 이용해 사전에 데이터를 수동으로 조직화(organize)하는 과정 없이도 원하는 결과 도출에 필요한 데이터만을 효과적으로 액세스할 수 있도록 함으로써 price-performance를 높이는 한편, 플랫폼을 서비스 형태로 이용할 수 있도록 하는 등 기반 인프라를 관리하는데 필요한 비용과 시간, 리소스를 절감할 수 있도록 했다는 것이 Snowflake가 내세우는 핵심 강점이라고 할 수 있습니다.


- [적용 사례] Snowflake를 통해 전세계 파트너 간 데이터 공유를 효율화한 Pepsico 


Pepsico는 이러한 Snowflake의 대표 고객 중 하나로, Snowflake는 최근 웨비나를 통해 공개된 Pepsico Case Study를 통해 리테일 & CPG 영역에서 자사 플랫폼을 어떤 식으로 활용할 수 있는지를 상세히 공개했습니다.


이 웨비나에서 Snowflake는 자사 플랫폼을 통해 CPG 업체들이 자사 내부의 세일즈, 마케팅, CRM, 상품 카탈로그 데이터 등 1st Party 데이터 뿐 아니라, 파트너 및 리테일러들의 서플라이체인 및 로지스틱스 데이터, 카테고리 매니지먼트 인사이트, 기타 리테일 Raw data 등 2nd Party 데이터, 그리고 판매량 증대 및 적절한 전략 수립에 활용할 수 있는 기호 및 날씨, 매장 방문 트래픽, 온오프라인 구매, 컨수머 데모그래픽, 코로나 19 상황 등 3rd Party 데이터까지 Snowflake를 통해 심리스하고 안전하게 액세스 및 공유할 수 있다는 점을 강조했습니다.


CPG 비즈니스들의 Snowflake 이용 예시

(출처: Snowflake)


이때, 데이터를 공유하는 방법은 Data Exchange와 Snowflake Data Marketplace 두 가지로 나뉘는데, 전자의 경우 초청 기반으로 특정 그룹의 사용자들과 데이터 공유를 할 수 있는 기능으로 Data Exchange에 파트너 및 리테일러들을 초청함으로써 이들과 데이터를 Snowflake 계정을 통해 주고받을 수 있습니다.


반면 Snowflake Data Marketplace는 각종 3rd Party 데이터들을 디스커버하고 add-on으로 구매하여 이용할 수 있는 기능으로, 해당 데이터가 데이터 공급사의 Snowflake 계정으로부터 구매자의 Snowflake 계정으로 바로 쿼리를 진행할 수 있는 상태로 진행되기 때문에, 높은 실시간성과 편의성을 자랑합니다. 


이 중 후자는 Snowflake가 자사 비전으로 제시한 Data Cloud로서의 특징을 특히 잘 보여주는데, 사용자 수가 많아질수록 Snowflake Data Marketplace를 통해 Snowflake 내에서 다이렉트하게 액세스 가능한 데이터의 종류와 양이 증가하기 때문입니다.


Snowflake의 두 가지 데이터 공유 방식

(출처: Snowflake)


Pepsico는 광고 ROI(Return On Investment)를 측정하기 위해 인하우스로 개발한 ROI Engine을 Snowflake 인프라 상에서 운용하고 있다고 밝혔는데요. ROI Engine은 TV, 온라인 동영상, 소셜미디어, 디스플레이 및 서치, 이커머스, 지면, 빌보드를 비롯한 아웃도어 광고 등 각종 광고 매체 데이터와 판매량, 가격, 프로모션 등 세일즈 데이터, 날씨, 계절성, 거시경제지표, 유가 등 외부적 요인에 대한 데이터를 포함하여, 총 40개 이상의 소스로부터 인사이트를 창출하는데, 이를 모두 Snowflake 인프라를 이용해 효과적으로 관리하고 있다는 것입니다. Pepsico는 또한 Snowflake를 통함으로써 ROI Engine의 데이터를 원본 데이터의 이동이나 손상 없이도 자사 내부 이커머스 팀을 비롯해 외부 파트너들과 즉시 쿼리를 실행할 수 있는 상태로 안전하게 실시간으로 공유할 수 있다는 점 역시 강점으로 꼽았습니다.


아울러 Pepsico가 강조한 또 다른 지점은 Snowflake를 통해 전세계 다른 지역에 위치한 리전 및 서로 다른 벤더의 클라우드 플랫폼 간에도 데이터가 안전하게 공유될 수 있다는 점입니다. Pepsico를 비롯한 CRM 및 리테일 사업자들의 경우, 비즈니스가 글로벌하게 분포해 있는 경우가 많기 때문에 각종 데이터가 여러 리전에 나누어져 저장되어 있고, 또한 이 같은 규모의 사업자들은 복수의 퍼블릭 클라우드를 혼합하여 사용하는 경우가 많기 때문입니다. Pepsico는 서로 다른 퍼블릭 클라우드의 다른지역 리전간 데이터 공유를 지원하는 Snowflake의 플랫폼이 대단히 유니크하며 유용하다는 코멘트를 전했습니다.



"레이크 하우스(lakehouse)"를 개척하는 Databricks


한편, 자사를 "Data + AI company"로 설명하고 있는 Databricks의 소프트웨어는 기업들이 대량의 데이터를 신속하게 처리하고 분석 및 인공지능 모델 적용을 위해 데이터가 준비될 수 있도록 지원합니다.


특히 지난 2월 초 진행된 Databricks의 Series G 라운드 투자(10억 달러)가 무엇보다 주목되었는데, 이는 Amazon Web Services, Alphabet의 벤처 조직인 CapitalG, Salesforce Ventures, Microsoft 등 주요 클라우드 벤더들이 대거 참여했기 때문입니다. Microsoft의 경우는 이보다도 더 이른 시점인 2019년 2월 Series E라운드(2억 5,000만 달러)와 2019년 10월 Series F 라운드(4억 달러)에도 참여한 바 있었습니다.


이처럼 Databricks는 IPO 바로 전 라운드에서 클라우드 Top 3의 투자를 모두 받은 전례 없는 기업으로 크게 주목을 받았는데요. 이는 Databricks라는 기업에 대해, 기업의 데이터 관리를 지원하는 클라우드 소프트웨어인 Snowflake가 보여준 성장과 유사한 기회가 있음을 이들 사업자가 인지했기 때문입니다. 특히 글로벌 1위 클라우드 사업자인 Amazon은 후기 단계 스타트업 투자에 소극적인 경향을 보여왔다는 점을 감안하면 더욱 주목되는 투자 행보입니다.


Databricks CEO인 Ali Ghodsi는 Series G 라운드 자금 유치의 원동력은 클라우드 기업들과의 파트너쉽이라고 언급했으며, 이들 클라우드 기업들과 Databricks는 공생 관계(symbiotic relationship)에 있다고 표현했습니다. 그는 또한 클라우드에 있는 대부분의 데이터가 기본적으로 데이터 레이크에 있을 것으로 판단하고 있으며, 자사는 더 많은 것들을 구동하기 위한 솔루션을 구축해 가는 가운데 이번에 확보한 투자금 10억 달러 중 8억 달러를 M&A 기회를 탐색할 예정이라고 밝혔습니다.


Databricks는 특히, 기업들이 다양한 종류의 데이터를 대량으로 저장하는 Hadoop 기술의 대안인 Apache Spark 버전을 실행하는 것을 지원했기 때문에 더욱 두각을 나타냈습니다. 예를 들면 Salesforce 소유의 Tableau와 같은 데이터 시각화 소프트웨어에서 탐색(exploration)을 위해 데이터를 정리(clean up)하는 데에 도움이 될 수 있다는 것인데요. 이처럼 Databricks 소프트웨어는 기업들이 configuring 및 updating에 대해 걱정할 필요 없이, 이러한 종류의 소프트웨어를 실행하는 간단한 방법을 제공하고 있으며, 또한 기업들이 인공지능 모델을 배포하는 데에 더 많은 도움을 주고자 하고 있습니다.

- 데이터 레이크 바로 위에, 데이터 웨어하우스의 높은 안정성/성능 이점을 제공하는 전략 추구


Databricks를 이해하기 위해서는, 먼저 데이터 관리 영역에서 해결하고자 하는 이슈가 무엇인지, 그리고 이를 어떻게 해결했는지 살펴 볼 필요가 있습니다. Databricks의 설명에 의하면, 데이터 분석가, 데이터 과학자, 인공지능 전문가들은 업무에 사용할 수 있는 “고품질의 신뢰할 수 있는 최신의(high-quality, reliable and up-to-date) 데이터”가 근본적으로 부족하다는 사실에 실망하는 경우가 많다고 하는데요. 이러한 좌절감 중 일부는 Fortune 500대 기업에서 흔히 볼 수 있는 “2계층 데이터 아키텍처(two-tier data architecture)”의 단점 때문이라고 합니다.


이러한 아키텍처는 데이터 분석가에게 거의 불가능한 선택 옵션을 제공하는데, 데이터 레이크에서 실시간성이 높지만(timely) 신뢰할 수 없는 데이터를 사용하거나, 데이터 웨어하우스에서 고품질의 데이터이지만 오래된(stale) 데이터를 사용해야 하기 때문입니다. 뿐만 아니라 데이터 웨어하우징 솔루션이 가진 폐쇄된 포맷으로 인해, 고품질 데이터 소스에서 오픈소스 데이터 분석 프레임워크를 사용하기 매우 어렵습니다.


Databricks는 "레이크 하우스(lakehouse)" 아키텍처는, 데이터 레이크 바로 위에 데이터 웨어하우스 계층이 가진 높은 안정성, 성능 이점을 제공하며, 궁극적으로 웨어하우스 계층을 제거함으로써 복잡성, 비용, 운영 오버헤드를 줄여준다고 설명합니다. 동시에 레이크 하우스는 실시간 스트리밍과 배치 처리의 효율적이고 쉽고 안정적인 병합(merging)을 지원하여 항상 최신의 데이터가 분석에 활용되도록 보장한다는 점을 내세웁니다.


레이크 하우스의 비전

(출처: Databricks Slideshare)


레이크 하우스 개념의 핵심 요소 중 하나는, 구조화된 트랜잭션 계층(structured transactional layer) 인데, Databricks 는 2019 년 4 월 Delta Lake 출시와 함께 자사의 Unified Analytics Platform에 트랜잭션 기능을 추가했습니다. Unified Analytics Platform 은 AWS나 Microsoft Azure 클라우드 스토리지에 있는 데이터에 대해, Spark 기반의 데이터 처리를 제공하는 것을 의미합니다. (최근 Databricks가 대규모 데이터셋을 저장 분석하기 위한 자사의 소프트웨어가 Google Cloud에서도 제공될 것이라고 밝힘에 따라, Databricks 고객들은 자신의 빅데이터 애플리케이션을 종전의 Microsoft Azure, Amazon 의 AWS 뿐 아니라 , Google Cloud 에서도 실행할 수 있게 되었습니다.)


Databricks는 또한 2020년 7월 , 쿼리 가속화를 위한 보완적인 고성능 쿼리 엔진인 Delta Engine을 제공하면서 레이크 하우스 포트폴리오를 강화하기도 했는데요. 이후 2020년 11월에는 SQL Analytics를 출시해 , 데이터 분석가가 데이터 레이크에서 직접 표준 SQL 쿼리를 보다 쉽게 실행할 수 있게 했습니다 . 이를 통해 기업들은 Tableau나 Microsoft Power BI 등 비즈니스 인텔리전스 도구를 이러한 데이터 저장소에 쉽게 연결할 수 있게 된 것으로, 여러 면에서 SQL Analytics는 Databricks가 구축해 온 레이크 하우스 의 개념을 실현하는 제품으로 이해할 수 있습니다.

- [적용 사례] 전세계 3만 곳의 매장에 옴니채널 경험을 제공한 Starbucks


이처럼 Databricks는 데이터 웨어하우스의 구조화된 분석 이점을, 저비용의 클라우드 기반 데이터 레이크에 저장되어 있는 데이터로 가져오려는 전략을 통해 엔터프라이즈 데이터 아키텍처를 간소화할 수 있도록 돕고 있는 중인데요. 이를 통해 광고/마케팅 기술, 에너지/유틸리티, 엔터프라이즈/소프트웨어, 금융 서비스, 게임, 헬스케어, 미디어/엔터테인먼트, 연방정부, 리테일/소비재 및 생명과학 등 다양한 산업에 걸쳐 내 6,000곳 이상의 고객사를 확보한 것으로 알려졌습니다.

이 중 리테일 영역의 경우, 매장 내(in-store)에서 모바일 채널에 이르기까지 옴니채널 소비자 트렌드가 가속화됨에 따라 이전에 10년에 걸쳐 달성 되었던 이커머스 판매량 증가가 단 10주 만에도 일어나고 있는 중인데요. 이로 인해 리테일러는 빠르게 변화하는 소비자 행동에 신속히 대응하고, 새로운 데이터와 분석적인 접근을 통해 보다 탄력적인 공급망을 구축해야 하는 과제에 놓이게 되었습니다. 즉, 이제는 생존과 성장을 위해 리테일러는 종전의 데이터 사일로를 없애고, 정형/반정형/비정형 등 모든 형태의 데이터에서 실행가능한 통찰력을 도출해야 하는 상황인 것입니다.


Databricks는 이러한 리테일러의 당면 과제 앞에, 데이터 수집에서부터 데이터 쿼리에 이르기까지 빅데이터 및 분석을 위한 Unified Data Analytics Platform을 제공하며 Starbucks, H&M, CVS Pharmacy 등을 고객사로 확보하였는데요.이 중 대표 고객사 중 한 곳인 Starbucks는 지난 2020년 6월 개최된 Spark + AI Summit 2020 컨퍼런스 세션에서 Starbucks의 데이터 분석 및 엔지니어링 이사인 Vish Subramanian가 데이터 기반의 의사결정을 지원하기 위해 자사가 Databricks의 Delta Lake와 Spark를 어떻게 활용했는지를 설명했습니다.


리테일 산업 내, 비즈니스 인텔리전스(BI)와 머신러닝(ML)을 위한 데이터 레이크의 제공가치

(출처: Databricks)


Starbucks는 Databricks를 활용해 전사적으로(enterprise-wide) 활용할 수 있는 통합 데이터 및 분석 인프라를 한 곳에 구축함으로써, 페타바이트 규모의 빠른 데이터 파이프라인을 구축했다고 밝혔는데요. 이를 통해 재고 관리를 개선하고 새로운 제품 및 서비스 혁신을 실현할 수 있는 머신러닝 모델을 신속하게 구축할 수 있었다는 설명입니다. 또한, Microsoft Azure 및 Databricks Delta Lake를 기반으로 하는, BrewKit이라는 자체 데이터 분석 플랫폼을 구축한 상태로, Delta Lake를 통해 과거 데이터와 라이브 데이터 집계(live data aggregations)를 함께 구축하는 데에 도움을 받았으며, 이를 통해 이제 매장 파트너들에게 히스토리 및 현재 시간을 기반으로 한 실시간 통찰력을 제공할 수 있게 되었다고 합니다.


이는 전세계 30,000개 이상의 매장에서 수십억 개의 트랜잭션 데이터 포인트가 생성되는 Starbucks에 있어 매우 중요한 성과로, Starbucks는 Databricks를 통해 데이터 매니지먼트를 혁신함으로써 전략적 관점이 데이터 수집(data ingestion)을 일상화(commoditize)하는 것으로 변화하게 되었으며, 팀 및 구성원들이 데이터를 A지점에서 B지점으로 이동시키는 방법에 집중하기보다는, 가치 창출이라는 비즈니스 본연의 문제에 집중할 수 있게 되었다고 밝혔습니다. 

함께보면 좋은 기사