프로덕트 매니저 28

비전공자가 자동화 리포팅 개발하기

회사에서 BA(Business Analyst)로 매일하는 업무 중 하나가 일별 지표에 대한 보고다. 아침마다 대시보드를 확인해서 지표를 점검하고, 슬랙에 업로드하기 위한 메시지를 생성한다. 반복되는 작업이기 때문에 별 것 아닌 것 같지만, 세부적으로 점검하는 지표도 적지 않기 때문에 하나하나 지표를 바꾼다는 것이 여간 귀찮은 작업이 아니다. 따라서 결심했다. 이 부분을 자동화해보자. 할말은 많지만 지금 회사에서는 연혁이 오래된 회사라 이런 부분을 기대하기 어려웠다. 따라서 파이썬 공부한 것을 활용해서 우선 직접 개발해보는 것을 시도했다. 우선은 가장 기본적인 것부터 시작했다. 파이썬을 활용해서 슬랙으로 메시지를 보내는 작업이다. 개발자들의 문화 중 존경하는 것이 바로 지식을 나누는 문화다. 궁금한 점이 ..

[clickhouse] neighbor 활용하여 이전행/다음행 가져오기

이탈 분석을 하다보면, 사용자들이 이탈 직전에 어떤 액션을 했는지, 또는 어떤 퍼널에서 이탈했는지 확인이 필요하다. 다만, 하나의 테이블에 유저의 모든 액션이 순서대로 집계된 경우 특정 사용자의 직전 액션만 모으는 것이 난해하다. 이렇게 저장되는 경우, 우리가 뽑아내고 싶은 내용은 kazuha는 1달무료이용까지만 이용하고 회원탈퇴를 했다는 점, 그리고 sakura는 정기결제1개월까지 이용하고 회원탈퇴를 했다는 점이다. 아마 아래와 같이 데이터를 뽑아야 할 것이다. 이런 경우, SQL에서는 이전의 행(Row)을 가져올 수 있는 lag, lead라는 함수를 제공한다. 그리고 우리처럼 Clickhouse를 사용하는 경우에는 neighbor을 활용할 수 있다. 우선 neighbor에 대한 기능을 소개해본다. n..

아마존의 드론 배송, 그게 돈이 됩니까

아마존 프라임 에어(Amazon Prime Air) 드론 배송이 시작됐다. 아마존이 텍사스주 College Station과 캘리포니아주 Lockeford를 발표한 이후 10년만이다. 영화 속에서나 상상하던, 드론으로 수배송을 하는 세상이 현실로 다가왔다는 점은 놀랍다. 맥킨지에서 발간한 글을 보면, 드론 배송 실현을 위한 3가지 요건으로 규제, 대중의 수용, 그리고 비용을 꼽았다. 정부에서 규제하는 수준에 따라 배송가능한 상품이 달라지며, 또 내 머리 위를 둥둥 떠다니는 화물을 사람들이 얼마나 용인해 줄 수 있는가에 따라 결정된다는 것이다. 마지막으로 비용 조건이 맞지 않는다면, 기업이 지속적으로 활용하기엔 무리가 있다고 말한다. 다만, 물류를 했던 사람으로 궁금한 점은 이것의 비용에 대한 문제다. 드론..

예측치를 산출하는 이유, 그리고 분석에 대한 관점 (feat. 뉴욕주민)

예측치를 산출하는 이유 지난주에 BA로 2023년 예측치를 산출하는 작업했다. 2023년도 예측치를 산출하면서 살짝 현타가 왔다. 주식을 하는 사람들에게 익숙하겠지만, 워렌버핏, 피터린치 같은 전설적인 투자자가 항상 하는 이야기가 있다. 거시경제에 대해 예측하려고 하는 것은 엄청난 시간 낭비라고. 나 역시 이런 의견에 동의한다. 그렇다면 이런 예측을 하는 이유가 있을까? 크게 현실적인 목표 설정과 자원 분배의 측면에서 예측치 산출 작업이 의의를 가진다. 우선 대부분의 사업 및 제품조직은 아무런 목표없이 움직이지 않는다. OKR의 KR을 설정하든, KPI를 잡아놓든 대부분의 팀은 측정가능한 목표를 설정하고, 이를 달성하기 위해 움직인다. 이때 현실가능한 목표를 세우는 것이 중요하다. 예를 들어, 겨울철 아..

sum over, 일별 진척율 대비 YoY 구하기 (1) (sum over의 개념 등)

휴가 중 문의를 받았다. 2022년 12월의 일별 누적거래액 차트를 만들고 싶어요. 아 물론 2021년 12월 1일부터 동기간 YoY를 비교하는 형태가 가능하면 좋을 것 같아요. 문과로 태어난 나의 정체성을 유지하고 싶었지만, 엔지니어의 기운이 스며든 것인지 기존에 시도하지 않았던 요청이 오면 게임하는 것만큼 흥미로운 것 같다. 요청 내용을 처리해보자. 일별 진척율을 왜 보고 있을까 우선 이런 것을 왜 구하는지 먼저 살펴보자. 비즈니스 분석팀은 매번 월말 기준 예측치를 산출한다. 이번달 예측치는 140점으로 예상 YoY는 40%가 나올 것 같아요. 이후 분석팀은 비즈니스 지표를 모니터링하게 된다. 물론 찐 엔지니어 성격의 데이터 분석팀은 이를 하지 않는 것 같다. 우리처럼 전략기획팀 한 스푼 묻은 데이터..

회귀 모델을 통한 사업 지표 예측하기 (1) (회귀모델의 개념/성능평가)

목차 1. 회귀 모델 Regression Model 2. 회귀 모델의 성능 평가 회귀 모델 Regression Model - 2023년의 거래액은 어떻게 예측할 수 있을까? - 2023년의 회원가입은 어느 정도 수준으로 나타날 수 있을까? 특정 사용자가 이탈할 것인가, 잔류할 것인가를 판단할 때는 분류 모델Classification Model을 활용했다. 하지만 내년도 실적 전망치를 예측하는 경우에는 이런 분류 모델을 활용할 수 없다. 왜냐하면, 결과값이 연속형 데이터이기 때문이다. 이런 경우에는 회귀 모델 Regression Model을 사용하게 된다. 회귀는 회귀 분석의 그 회귀다. 어떤 자료에 대해 그 값에 영향을 주는 요소를 고려하여 구한 평균으로, 연속형 데이터의 형태로 값을 예측할 때 사용하는..

[SQL/Clickhouse] LIMIT n BY, 그룹별/조건별로 필요한 수만큼 추출하기

조건에 따른 상위랭커를 뽑아보려면 처음에 SQL을 배우면 가장 먼저 배우는 것 중 하나가 LIMIT문이다. 그래서 처음에 RANK와 같은 순위 함수를 모르더라도, '거래액 순으로 상위 10개를 뽑아주세요'라는 요청을 받으면 어렵지 않게 출력할 수 있을 것이다. 다만, 가끔 전체가 아닌 그룹별로 뽑아야하는 경우가 발생할 수 있다. "우리 고객사들을 카테고리별로 거래액 상위 10개 몰을 추출해주세요." 이런 경우, 초보인 경우는 WHERE에다가 카테고리 이름을 하나씩 쓰면서, 발품을 파는 경우가 많다. (어떻게 확신하듯 작성하냐면, 내가 맨 처음에 그랬던 것 같다.) 그렇다면 어떻게 해야할까? 나중에 쿼리를 공부하면서 알게 된 방법은 크게 2가지가 있다. 하나는 RANK를 활용하는 것이고, 또 하나는 LIM..

SQL을 활용한 코호트 분석Cohort Analysis

SQL을 활용한 Cohort 분석 방법에 대해 정리한 글입니다. Cohort 분석이란? Cohort 분석은 흔히 '동질집단분석'으로 알려져 있습니다. 특정 기간에 같은 특성이나 경험을 공유하는 그룹을 나누어 분석하는 행동 분석 방법의 하나입니다. 쿠팡에서 발표한 Cohort 자료를 예로 들어보겠습니다. 2019년에 가입한 고객들의 거래액은 가입한 2019년과 비교할 때 2020년에 2.19배로 증가했습니다. 2019년에 100만원어치 구매를 한 고객들이 2020년에 219만원어치 구매를 했다고 볼 수 있습니다. 쿠팡에 대한 신뢰도가 높아지면서 객단가가 높은 상품을 구매했거나, 또는 다른 채널에서 구매하던 상품도 쿠팡을 통해서 구매하는 등 긍정적인 변화가 있음을 알 수 있습니다. 또한 거래액이 2배, 3배..