전체 글 75

2023년 5월 회고.

5월을 돌아보면서 1. 오래 다니기도 연습이 필요하다 회사의 사정이 어려워지면서, 점점 더 많은 문제가 드러난다. 특히나 커뮤니케이션의 방식 등을 보고있자면, 속이 터질 것 같은 순간이 많다. 오늘만해도 한 미팅에서 실제 작업물에 대한 활용도나 효용을 높이기 위한 토론이 아닌, 이 결과물이 CTO께서 의도하는 방향이 맞을까만 놓고 1시간 이상 토론했다. 회사 상황이 어려워지니, 더 많은 사람들이 C레벨의 눈치를 본다. 정말 당장이라도 퇴사하고, 다른 직장을 구하고 싶은 마음이 솟구쳤다. 그 밖에도 인원이 감소하니까, 가장 업무논의를 많이 해야할 팀장님은 TF팀이나 다른 부서팀장 겸직 등으로 팀 정기미팅은 언제나 일정이 늦어지고 하다보니, 생각이 많아졌던 것은 사실이다. 특히나 보통 조직에서 많이한다는 1..

잡상들/회고 2023.06.01

[미디어/엔터] 시즌제 드라마가 자주 보이는 이유

최근 흥미로운 리포트를 하나 읽게 되었다. 스튜디오드래곤과 같은 콘텐츠 제작 기업들의 주가가 크게 떨어진 상태라, 관심을 갖고 공부하고 있다. 그 중 교보증권에서 발간한 의 내용이 흥미로워서 간단하게 정리해봤다. OTT의 등장 시즌제 드라마가 흥행할 수 있었던 배경은 글로벌 OTT의 등장이 결정적 역할 시즌제 드라마를 가져갈 수 없던 이유는 연속성의 문제 출연진과 제작진이 교체하고, 세계관에 균열이 발생하는 등 연속성이 결여됨 연속성이 결여되는 것은 문제고, 문제점은 1) 사전 제작율과 2) 광고수익 대비 드라마 제작비를 지적 사전 제작율이 낮은 이유는 성적표를 받고, 이후 후속 진행을 결정하게 되는 것이 원인 드라마 방영이 시작되면, 이미 관련 종사자들은 다른 일들을 시작한 뒤일 가능성이 높다보니까, ..

[SQL/Clickhouse] 시계열 데이터 지수index로 변환하기

오늘은 물가지수, 주가지수와 같은 지수로 변환하는 법이다. 아이디어는 간단하다. 시계열 순으로 가장 최초의 값을 가져오고, 그 값을 모든 행에 나눠서 지수로 표현하는 방법이다. 거래액 등 단위 자체가 다른 2개의 지표에 대해서, 시작점을 100으로 놓고 어떤게 더 성장했는지 비교할 때 유용하다. 예를 들면, 통계청에서 발표한 이커머스 거래 현황과 작고 소중한 우리 회사 거래액을 비교한다고 가정해보자. 시장지배력이 높은 기업이라도 아마 단위 자체가 다를 가능성이 높다. 이럴 때 시장의 성장에 비해 우리의 성장이 잘 이뤄지고 있는지 등을 볼 때, 지수로 변환해서 확인하면 유용하다. 우선 코드는 아래와 같다. SELECT stat_date, round(company_gmv/sum(company_gmv_r1)o..

2023년 4월 회고.

Work -1. Airflow를 활용한 자동화 개선 Slack으로 아침마다 지표보내는 작업에 대한 자동화를 마무리했다. 이제 수기로 작업하는 내용은 모두 사라졌다. 최근 PAP블로그에 올라온, '데이터 분석가가 처음 회사에 들어와서 해야 할 일들 7가지'라는 글을 읽었다. 이 중 데이터 분석가가 해야하는 일 중 자동화에 대한 부분에서 많은 공감을 했다. 분석가의 역할 중 하나가 내부 구성원들의 의사결정에 필요한 유의미한 정보를 전달하는 것이라 생각한다면, 어떻게 주기적으로 효율적으로 이 정보를 공급할 수 있을지가 중요하다. 3월에 수익, 비용 분석을 위해서 데이터파이프라인 작업을 하면서 영감을 얻었다. 해당 작업은 거래액 데이터가 있는 Database과 비용 내역이 집계되는 Database가 다르기 때문..

잡상들/회고 2023.04.30

첫 브랜디드 콘텐츠를 발행하면서

1. 2023년에 세웠던 목표 중 하나는 비즈니스 분석 역량을 키우고, 이를 바탕으로 콘텐츠를 만들어서, 나의 개인 채널을 성장시키는 것이었다. 근본적인 분석 역량, 문서 작성 및 커뮤니케이션 역량을 키우는 것도 있었지만, 향후 이런 채널과 콘텐츠 제작 역량을 바탕으로 부수입을 만들거나, 개인 비즈니스에 활용하고 싶다는 생각도 있었다. 2. 부수입의 원천은 크게 2가지였다. 하나는 광고, 하나는 구독이었다. 일을 하다보면 해외 자료를 리서치하는 일이 잦은데, 가끔 조금 읽을만하다 싶으면, 바로 반 정도 남겨놓고 돈내고 구독해서 보라는 안내가 뜨는 경우가 많았다. 그 가격이 국내에서 제공하는 아웃스탠딩, 커넥터스 등 내가 애용하는 채널과 비교할 때 비싼 축에 속했기에, '양질의 정보는 어떻게 가치를 평가할..

잡상들 2023.04.26

가격은 어떻게 결정되는가 (feat. 월가아재)

Youtube 채널 중 '월가 아재의 과학적 투자'에서 가격 정책을 연구하는 경제학자 서보영 교수님과의 인터뷰 영상이 흥미로워서 요약해봤다. 해당 채널이나 영상 시청을 강력하게 추천한다. :) 경험적인 연구empirical work - 데이터를 통해서 데이터로부터 알 수 있는 경제적인 로직. 데이터를 활용해서 결과를 내는 방식 - 데이터가 많아지고, 데이터의 저장/프로세스 처리 비용이 낮아짐 최적의 가격 수요 곡선을 계측해서 가격을 최적화 하는 역할을 한다. 기업이 내가 얼마나 가격을 매겨야 이윤을 극대화 할 수 있는지 알 수 있음 정부는 이런 세금을 매기거나, 규제를 풀 때 효과가 정부가 의도하는 방향대로 나올 것인지 등 수요 곡선을 잘 알고 있다는 것이 매우 도움이 될 수 있음 가격 책정, 프라이싱(..

Uber의 Data Science Team의 비전

아래 내용은 아티클 중 일부를 발췌/번역했습니다. Uber는 각 직원들이 특정 기술적 전문성 없이도 더 나은 결정을 내리고, 결과를 예측할 수 있도록 자신들을 강화하길 원합니다. 최근 이벤트에서 Uber의 데이터 과학 책임자 Franziska Bell은 세계 최대 규모의 교통 네트워크 회사가 모든 직원들이 데이터 과학자처럼 자신들의 직무를 수행할 수 있도록 바란다고 말했습니다. Bell에 따르면 이렇게 하면 회사는 손쉽게 이용 가능한 모든 데이터 세트에서 깊은 인사이트를 얻어 직원과 고객 모두에게 우수한 경험을 제공할 수 있게 될 것입니다. Uber는 서로 다른 부서의 팀이 풍부한 데이터 포인트를 통해 지속적으로 상호 작용하는 플랫폼화를 통해 이를 달성하고자 합니다. Uber는 또한 엔지니어링, 제품 및..

2023년 3월 회고.

What I did 본격적인 수익성 분석을 시작했다. 우리 회사의 비즈니스 모델은 SAAS보다는 마켓플레이스 형태라고 볼 수 있다. 주요 거래 형태에 거래액 기반의 결제 수수료에서 나오고 있다. 이 과정에서 사용하고 있는 PG사나 마켓에 따라서 거래액 대비 수수료가 달라지기 때문에, 이를 취합해서 대시보드로 제공하거나 분석하는 작업을 했다. 여기에 주로 나가는 서버 비용등을 차감하는 형태로 수익성 개선을 위한 방안을 마련하는 작업을 추가로 진행하고 있다. 또한 2월에 산출한 LTV 산출과 관련된 부분을 접목해서, 사용하는 비용 대비 미래의 수익성 등을 접목해서 확인할 수 있는 방법을 고도화 할 예정이다. 이 과정에서 Pricing에 대한 관심을 가지게 되었다. 그 배경은 Shopify는 구독료 등을 받으..

잡상들/회고 2023.03.26

[시계열분석] Prophet 모델 Trend Changepoint(변곡점)의 활용

들어가면서 시계열 분석에서 중요한 것 중 하나가 변곡점(changepoints)이다. 시간의 흐름에 따라 나타나는 패턴이라는 것이 매번 동일한 수준으로 발생하지 않는다. 어떤 순간을 기점으로 상승세나 하락세의 흐름이 변화하기도 한다. 주식을 예로 든다면, 일시적인 조정을 하락세로 판단하고 보유한 주식을 전량 처분하거나, 순간적인 반등인데 상승세로의 전환으로 판단하고 풀베팅을 때린다면 문제가 될 것이다. 따라서 시계열 분석에서 의미있는 변곡점을 파악하는 것은 중요한 과제다. Prophet 모델은 변곡점 분석을 위한 기능을 제공한다. Trend Changepoint는 시계열 데이터에서 추세 변화가 일어날 수 있는 지점을 나타낸다. 다행히 Prophet 모델은 이런 변곡점을 자동으로 감지하고, 이를 반영하여 ..

[시계열분석] Prophet 모델에 독립변수 추가하기

들어가면서 우리가 어떤 변수에 대한 예측치를 정할 때, 그 예측치의 추세에 영향을 주는 것들이 있다. 예를 들면, 첫 구매 프로모션 혜택을 받게 될 고객을 예측한다고 가정해보자. 이런 경우, 첫 구매 수치는 아무래도 회원가입 추세를 따라가게 될 가능성이 크다. 이런 것처럼 어떤 변수를 예측할 때, 다른 원인이 되는 독립변수를 분석에 결합한다면 조금 더 정확한 추세를 분석할 수 있을 것이다. Prophet에서도 모델에도 add_regressor이라는 기능을 제공하고 있다. # Prophet에 사용할 데이터프레임 생성 prophet_df = first_df[['first_promote_day', 'first_cnt', 'join_total']].rename(columns={'first_promote_day'..