조직의 데이터 리터러시를 높이는 방법

People

2024.07.18

안녕하세요, 오늘은 특별히 인터뷰에 어벤저스를 세 분이나 모시게 되었습니다. 각자 자기소개를 부탁드려요!

Furiosa : 안녕하세요. 숨고의 Data Scientist로 일하고 있는 Furiosa입니다. 보통 편하게 '데싸' 또는 DS라고 부르고요. 주로 회사의 핵심가치를 개선시킬 수 있는 방법을 찾기 위해 장기적인 시각에서 데이터를 바라보고 분석하는 일들을 하고 있습니다.

Nova : 안녕하세요. Business Data Analyst Nova입니다. 저도 직무 이름이 길어서 보통 BDA라고 부릅니다. 숨고 데이터 챕터에는 Furiosa같은 DS가 2명, 저와 같은 BDA가 3명이 근무하고 있어요. DS가 긴 호흡으로 데이터를 바라본다면 저와 같은 BDA들은 보다 짧은 단위에서 비즈니스 임팩트를 높이는 일을 하고 있습니다.

Daisy : 안녕하세요. 저는 Daisy입니다. Furiosa와 Nova와 달리 저는 테크팀의 플랫폼 챕터 소속이고요. 이전 회사에서는 저도 DA로 일을 하다가 숨고에 와서 Data Engineer로 커리어 전환을 했어요. 숨고의 모든 사람들이 데이터 기반으로 업무를 할 수 있도록 안정적인 데이터 파이프라인을 구축하고 있습니다.

세 분 모두 데이터 기반 직무를 갖고 계시네요. 숨고가 데이터 드리븐(Data-driven)을 핵심 가치로 두는 만큼 중요한 역할을 맡고 계실 것 같은데, 기억에 남는 프로젝트가 있으신가요?

Furiosa : 요즘 제가 집중하는 프로젝트는 다이내믹 프라이싱(Dynamic Pricing, 유동적 가격 책정 방식)입니다. 아시다시피 숨고에는 정말 많은 서비스가 있고, 서비스마다 견적을 보낼 때 드는 비용*이 다릅니다. 왜냐면 서비스의 종류에 따라 고객-고수를 매칭하는 가치가 다르기 때문인데요. 만약 천만원대 인테리어 서비스와 5만원 내외의 원데이 클래스를 비교해보면, 전자를 매칭 시켜주면서 발생되는 고객과 고수의 편익이 조금 더 크지 않을까요? 각 서비스별 가격 차이는 이러한 것으로 생각할 수 있습니다.

*숨고에서는 고수가 고객에게 견적서를 보냄으로써 고수-고객 간 매칭이 시작된다.

서비스 초기에는 이런 가격 정책을 정하는 방법이 룰 기반, 즉 정해진 규칙이 있었고, 일부 기간에서만 실시간으로 가격이 변경되는 구조였어요. 하지만 서비스의 개수가 늘어나면서 이걸 하나하나 실험을 거치며 가격을 일일히 정할 수는 없게 되었습니다. 비즈니스가 커지면 서비스의 안정성이 중요해지는 만큼 실험적인 정책보다는 안정적인 접근이 우선이기 때문에, 가격을 움직이려면 고객과 고수, 그리고 숨고에 어떤 변화가 발생할지 예측하는 모델링이 필요하다고 생각합니다. 지금 열심히 프로젝트를 하는 중이니, 조만간 의미 있는 성과를 보여드릴 수 있을 것 같아요.

Daisy : 저는 데이터 웨어하우스(Data Warehouse, 이하 DW)에 대해 말씀드리고 싶어요. 플랫폼 챕터는 숨고에서 가장 최근 만들어진 챕터이고, 백엔드 엔지니어 두 분, 데브옵스 엔지니어가 두 분, 그리고 저를 포함한 데이터 엔지니어가 두 명인데요. 이렇게 다양한 엔지니어가 하나의 챕터에 모인 이유는 숨고 멤버들에게 안정화된 업무 시스템을 제공하기 위함입니다.

숨고에 DW가 구축된 건 그리 오래되지 않았어요. 제가 숨고에 조인했을 때 막바지 작업을 하고 계셨습니다. DW 구축하는 방법을 찾고 실현까지 하는데 엄청 고생하셨다고 들었어요. (웃음) 데이터 챕터와 마찬가지로 플랫폼 챕터에서도 앞으로는 안정적인 운영, 정교한 데이터 파이프라인에 중점을 두게 될 것 같아요. Airflow 스케줄 작업이 실패했을 때는 알아차릴 수 있도록 모니터링 구조를 변경한 일이나, CI/CD 파이프라인 단계를 추가한 것도 안정성을 높이기 위함이에요.

플랫폼 챕터가 생긴 이후로는 확실히 안정적으로 운영된다는 생각이 들어요. 숨고의 서비스가 계속 성장하고 있고, 유저도 계속 늘어나서 처리해야 할 데이터는 더욱 많아지고, 데이터 관리의 중요성도 높아졌을 거 같은데요. 혹시 어떤 준비를 해오셨을까요?

Daisy : 숨고는 고수와 고객이 만나면서 끊임없이 인터랙션이 일어나요. 서비스를 운영하는 기간이 길어짐에 따라 그만큼 방대한양의 데이터가 쌓이고 있죠. 예를 들어 이용자들의 프로필 정보나 채팅 내역, 요청서 정보 같은 것들이 실시간으로 쌓이게 되죠.

그런데 이런 서비스 운영과정에서 쌓인 DB는 트랜잭션 처리를 위해 최적화되었기 때문에 바로 분석에 이용하기는 어려워요. 분석을 하려면 통계나 연산 처리가 가능해야 하거든요. 그래서 저희가 선택한 방식은 운영 데이터를 빅쿼리(Big Query)에 잘 가져다 두는 거예요. 어떻게 안정적으로 잘 가져다 두는지 고민하는 게 제 역할이고요.

이 데이터를 실시간(Stream Processing)으로 옮겨둘 수도 있고, 일괄 처리(Batch Processing)를 해서 옮겨둘 수도 있는데 숨고는 이 두 가지의 방법을 적절하게 사용하고 있어요. 현재 저는 배치 프로세싱으로 작업을 더 많이 하고 있지만, 앞으로는 실시간 데이터 파이프라인도 점점 고도화하는 작업이 진행될 것 같아요.

위에서도 잠깐 말씀드렸지만 데이터 파이프라인의 관리적인 측면도 점점 중요해지고 있어요. 사실 예전에 CI/CD 파이프라인을 구축하기 전에는 코드 컨벤션을 지키지 않고, 서버에서 직접 수정을 한 적도 있어요. 이런 방식이 지속되면 협업 과정에서 신뢰가 깨질 수도 있거든요. 지금은 코드 컨벤션은 물론이고 코드 리뷰나 테스트 서버 내 테스트까지 완전하게 마쳤을 때에만 제품을 배포하고 있습니다.

단순히 인풋과 아웃풋만 확인하고 만족하는 것이 아니라, 인풋에서 아웃풋까지의 파이프라인을 촘촘하게 관리하려고 노력하고 있어요.

데이터가 흐르는 조직을 위해 어떤 노력을 하고 계시는지 조금은 이해가 되었습니다. 데이터 분야는 시장에서 관심이 높은 분야인만큼 기술도 고도화되고 제도도 달라지는 것 같은데요. 개인정보 비식별화가 자리잡고, 마이데이터에 대한 의식도 높아지는 상황에서 데이터 전문가로서 앞으로 앱 비즈니스가 어떻게 변화하리라고 생각하시나요?

Nova : 구글이 GA(Google Analytics)를 활용해서 많은 기업들에게 정보를 제공해왔고, 마케팅 하는 조직 치고 GA를 보지 않는 곳이 없잖아요. 시장이 비즈니스가 될 만큼 충분히 커졌고, 그러다보면 비용도 높아지는 것이 수순이겠죠. 또 사용자는 사용자대로 마이데이터에 대한 의식이 높아졌어요. 누구도 함부로 내 정보를 주지 않고, 규제도 점점 심해질 거고요.

결국 앱 비즈니스는 고객 로열티를 키우는 방향으로 가야 한다고 생각합니다. 고객 정보를 가져오는 비용을 줄이는 유일한 방법인 거죠. 숨고도 하반기에는 좀 더 고도화된 커뮤니티 기능을 런칭할 예정인데요. 더 많은 고객이 숨고라는 서비스에 애착을 가지실 수 있도록 노력할 계획이에요.

Furiosa : 이런 얘기를 할 때 인공지능 얘기를 안 할 수 없을 것 같은데요. 알파고의 등장으로 인공지능이 최대 화두가 되면서, 많은 회사들에서 인공지능을 이용한 제품들을 출시하는 상황입니다. 숨고도 마찬가지로 AI 모델을 도입하기 위해 준비를 하고 있어요. 지금은 인공지능을 위한 데이터를 가공하고 특성을 추출하는 단계라고 생각하시면 될 것 같습니다. 심플한 모델에서 시작해 좀 더 고도화된 모델으로 발전하고 추후에 AI, ML 모델들을 도입하는 방향으로 진행될 예정입니다.

말씀을 들으니 숨고의 미래가 기대가 되네요. 숨고에서는 데이터 관련 직무를 담당하는 사람이 아니더라도 모든 포지션에서 데이터 기반 의사결정을 하고 있는데요. 데이터 드리븐 조직문화에 대한 세 분의 생각이 궁금합니다.

Daisy : 객관적으로 봐도 숨고 멤버들의 데이터 리터러시는 높은 수준입니다. 데이터 챕터에서 여러 차례 전 직원들에게 SQL 교육을 해주셨고, Tableau라든가 Amplitude 같은 툴로 대시보드도 많이 만들어져 있고요. 머지 않은 시점에 좀 더 사용자 친화적인 데이터 마트를 고도화해서 보여드릴 것 같습니다.

사용자에게 필요한 데이터들이 이미 잘 정돈되어 있기 때문에, 복잡한 쿼리를 짜느라 고민하는 대신 데이터를 직관적으로 보고 이것을 통해 본질적인 고민을 하는 시간을 드리려고 해요.

Nova : 맞아요. 흔히 데이터 드리븐 조직문화를 갖추기 위해서는 조직원들이 SQL 같은 데이터 분석 기술을 가지고 있어야 한다고 생각하시는 경우가 많아요. 하지만 데이터 분석 기술보다 더 중요한 것은 데이터를 실무에 활용하는 방법을 아는 것입니다.

SQL을 활용하지 못하더라도 대시보드를 보고 유의미한 인사이트를 뽑아낼 수 있는 분이나, 데이터 분석 결과가 액션플랜으로 이어지도록 구성을 하실 수 있는 분은 높은 수준의 데이터 리터러시를 갖춘 분이라고 생각합니다.

Daisy : Nova가 정말 중요한 말씀을 해주셨는데 결국 커뮤니케이션을 어떻게 하는가가 중요해요. 쿼리를 짜는 것만이 데이터 드리븐이 아니라는 말씀을 드리고 싶어요. 데이터를 어떻게 드리븐 할 것이냐에 대해 분명한 목표를 가지고 커뮤니케이션을 해야 한다고 생각해요.

Furiosa : 데이터를 다루는 직무에게 쿼리를 짜는 력은 어떻게 보면 필요조건이라고 생각합니다. 하지만 거기서 한 발 더 나아가서 차이를 만드는 것은 결국 크리에이티브한 영역이에요. 쿼리를 잘 짜는 사람과 그렇지 않은 사람의 차이는 기능적인 구현의 차이가 아니라, 어떤 생각으로 접근했는가가 핵심이거든요.

논리적 사고나 창의적 사고, 비판적 사고와 같은 능력이 필요한 이유이기도 합니다. 결과물을 보고 a를 보는 사람과 b를 보는 사람은 다르게 생각한다 이런 느낌이 아니라, 쿼리를 짤 때 부터 a와 b를 보는 사람은 다르게 생각을 하는거죠.

Nova : 오늘 딱 Furiosa가 말씀하시는 상황이 있었는데요. 저희 팀의 다른 Data Scientist와 Furiosa가 각자 요청서 대비 견적서 수를 의미하는 QR이라는 지표를 확인하는 쿼리를 짜셨어요.

그런데 두 분의 값이 다르게 나왔어요. 처음에는 실수인가 생각을 하다가 그 이유를 살펴보니, Furiosa는 요청서가 생성된 시간을 기준으로 QR을 계산하고, 다른 멤버는 고수와 고객이 매칭된 시간을 기준으로 QR을 짰던 거죠. Furiosa는 프로덕트 관점에서 보는 QR을 계산하신 거고, 다른 멤버는 사용자 입장에서 QR을 계산하셨던 거예요.

오류라고 생각할 뻔 했던 데이터에서도 이렇게 인사이트를 뽑을 수 있다는 게 무척 흥미로운 일이었습니다. 물론 최초의 커뮤니케이션에서 이런 조건들을 명확히 해야겠다는 인사이트도 덤으로 얻을 수 있었고요.

Daisy : 요즘은 어느 회사나 직무에 관계 없이 데이터 리터러시를 중요하게 생각잖아요. 그런데 SQL을 다룰 줄 안다는 것과 데이터 리터러시를 갖추었다는 것이 동의어는 아니예요. 바꿔 말하면 SQL 역량이 특출나지 않더라도 데이터 리터러시는 출중할 수 있어요.

그러기 위해서 BDA 분들과 긴밀한 협업이 필요하다고 생각합니다. Furiosa가 말씀하신 것처럼 각자 특화되어 생각할 수 있는 영역이 있어요. 처음에는 각자 이해하는 영역이 다르니까 데이터 드리븐을 위해 협업하는 작업이 어려울 수 있을 거에요. 하지만 서로의 영역에 대해 얘기하고 맞추는 커뮤니케이션을 하다보면 두 번째, 세 번째 협업에서는 데이터를 이해하는 속도는 빨라지고 좋은 결과도 얻을 수 있는 것 같습니다.

앞으로도 숨고는 데이터 직무 채용이 계속 있을 것이라 들었는데요. 숨고 조인을 고려하는 분들을 위해서 혹시 여러분은 어떤 이유로 숨고에 오셨는지, 또 어떤 분이 오셨으면 좋겠는지 의견이 궁금합니다.

Nova : 저는 이전에 컨설팅 회사에서 데이터 분석 업무를 했어요. 그러다 보니 여러 고객사를 대응해야 했고, 고객사의 요청이 있어야만 분석을 할 수 있는 환경이었어요. 분석 이외의 문서 업무들도 많고, 워라밸도 좋지 못하다보니 체력적인 면에서도 지치더라고요.

숨고에 와서 가장 놀랐던 건 일하는 방식이었어요. 의사소통이 정말 수평적이고, 투명하고, 자율성도 높고요! 근무하는 시간이나 근무 장소를 선택하는 것도 저에게 결정권이 있으니까 좀 더 효율적으로 일을 할 수 있는 환경인 게 마음에 듭니다.

직무만 보더라도 인하우스에서 분석을 하다 보니까 정말 이제 분석만 몰입해서 할 수 있는 환경이고, 같은 문제를 함께 분석을 하는 동료들이 있어서 서로 의견도 많이 주고받을 수 있는 점이 마음에 들어요. 특히 저희 BDA들은 분석을 시작하기 전에 분석의 방향성을 같이 논의를 하고 시작을 하는 경우가 많거든요. 그러다보면 시행착오를 덜 겪으면서 효과적으로 분석을 할 수 있어서 더 좋은 결과물을 내기 좋은 환경이라는 것을 자신있게 말씀드리고 싶어요.

Furiosa : 저는 금융사에서 트레이딩 업무를 했습니다. 환경적으로 아쉬운 부분은 없었고 동료들도 아주 좋은 사람들이었어요. 많이 배우면서 성장하는 중요한 시기였죠. 하지만 트레이딩이라는 것 자체가 저한테는 잘 안 맞았던 것 같아요. 트레이딩 자체를 즐기고 수익을 냄으로써 성취감을 얻는 사람들도 있지만 저는 그런 쪽이 아니었거든요.

어느 순간 빠르게 변화하는 수익률이라는 숫자가 두려워지기 시작했고, 거기에 함몰되어 제가 성장하지 못하는 느낌이 들었어요. 개인적인 일들도 겹치면서 매너리즘에 빠지게 되었는데, 도전할 수 있는 새로운 환경을 찾다가 숨고를 만나게 되었습니다.

숨고가 특히 마음에 들었던 이유는 데이터 챕터가 2.0으로 변화하는 시기라는 점이었어요. 인터뷰 때 만나 본 멤버들이 으쌰으쌰하는 분위기인 것도 좋아서 이런 곳이라면 배울 것이 많겠다, 그런 마음으로 조인하게 됐어요. 입사하고 제일 만족하는 것도 그런 부분이에요. 일하는 건 어찌 됐든 힘든 일이잖아요. 인사이트를 서로 주려고 노력을 하고 있고, 문제를 풀어보려고 서로 적극적으로 대화하려고 하는 모습들을 볼 수 있어서, 그런 점들이 저는 제일 좋습니다.

데이터라는 게 기본적으로 숫자로 이루어져있어서 되게 객관적인 것처럼 보이지만, 데이터를 어떻게 가공하는가에 따라서 의미는 완전히 달라질 수가 있거든요. 그래서 저는 직업윤리가 중요하다는 생각이 들어요. 자칫 잘못하면 매니퓰레이션(manipulation)이 되기가 쉽거든요. 저희의 생각에 동의하시는 분이 계시다면 주저 마시고 숨고에 조인하셨으면 좋겠습니다!