분류 전체보기 75

[시계열분석] Prophet 모델에 한국 공휴일 추가하기

들어가면서 내가 처음 입사했을 때, 회사에서는 매월 주요 지표를 예측하는 과정은 기존에 엑셀의 회귀분석 기능을 활용했다. 나도 작년까지는 이런 회귀분석과 Cohort 추이 분석을 토대로 필요한 예측치를 산출하고는 했다. 다만, 시계열 분석을 공부하는 과정에서 이런 방식이 가지는 한계를 느낄 수 있었다. 그래서 시계열 공부를 시작했고, 그 과정에서 메타에서 제작한 prophet 모델을 알고 이를 실무에 도입하고 있다. prophet 모델이 Excel에서 제공하는 회귀분석 기능과 비교해서 가지는 장점은 다음과 같다. 계절성 및 휴일 패턴을 고려: Prophet 모델은 시계열 데이터에서 계절성 및 휴일 패턴을 고려하여 예측할 수 있습니다. 이는 Excel의 회귀분석에서는 별도로 처리해야 하므로 복잡하고 번거로..

2023년 2월 회고.

아직 2월이 끝나기까지 2일 정도 남았다. 다만, 시외버스를 타고 할머니댁을 다녀오면서 너무 많은 에너지를 쓴 상태라, 씻고 자리에 앉으니 다른 일을 하기 어려운 상황이다. 그래서 추가적인 일을 하는 대신, 2023년 2월의 회고를 오늘 작성하게 됐다. ① 시계열 분석과 모델링을 공부하고 있다. 인터넷을 통해, Meta의 Prophet 모델 등 활용가능한 방법을 찾고 업무에 적용했다. 다만, 시계열과 예측에 대한 것은 데이터 분석에서 가장 활용도가 높은 영역이기에, 개념을 정리하는 과정이 필요하다고 생각했다. (이전에 물류기획으로 일할 때도 수요 예측 등 시계열 분석의 결과물을 만들 일이 많았다.) 그래서 교재를 구매해서 공부하기 시작했다. 처음에 시계열 맛보기를 할 때는, '이게 왜 통계학과 4학년 과..

잡상들/회고 2023.02.26

조승연의 탐구생활 중 '통계학'편을 보면서

보다가 혼자 감동받아서 남겨보는 조승연의 탐구생활, 리뷰 왕이 되려는 자를 위한 통치가들의 기술 중 가장 중요한 기술로 통계학을 꼽았다. 마지막의 엔딩멘트로 나온 메시지가 굉장히 인상깊어서 이 영상에 대한 기록을 남겨보게 되었다. 실제로 이런 예를 보여주는 것이 있어요. 초등학생도 삼국지나 문명같은 전략 게임을 굉장히 잘하지만, 그 친구를 나라를 다스리는 대통령 자리에 앉힌다고 잘하지는 못할 것이다. 게임에서는 내가 항구를 짓는데 5,000금을 내고 지으면 정확하게 5,000금에 정확하게 3턴 안에 지어진다. 또 수입이 10% 늘어난다고 명시되어있으면 정확하게 늘어난다. 말 그대로 게임 속의 세상은 모든 통계 완벽하게 정확한 세상이다. 통계가 완벽하게 정확한 세상에서는 초등학생도 나라를 다스릴 수 있다...

잡상들 2023.02.20

프로그래머스 SQL 코딩테스트 후기

(주의) 기출 문제 정보는 없습니다. 그냥 처음 보면서 느낀점들, 이후에 볼 때 주의할 사항들에 대해 적었습니다. 준비과정 우선 첫번째로 프로그래머스 내 제공해주는 기출문제를 풀어봤다. 기출문제를 풀었던 것은 문법간 차이를 미리 이해하기 위함이었다. 이전 회사는 Google Bigquery 기반의 SQL을 활용했고, 지금 회사는 Clickhouse 기반의 SQL을 활용했다. Bigquery에서 Clickhouse로 넘어올 때, 굵직한 문법은 비슷했지만 간혹 조금씩 차이가 있는 경우가 있었다. 그런 경험 때문에 시험 때 응시할 MYSQL이 지금 회사의 문법과 차이가 있을 것을 우려해서 프로그래머스에서 제공하는 문제를 미리 풀어봤다. 결과적으로 매우 잘한 일이었다. 프로그래머스에서 제공하는 연습문제를 풀자마..

잡상들 2023.02.18

쇼피파이(Shopify, SHOP)의 2022년 실적 요약 및 분석

Shopify의 재무실적과 관련된 자료는 현재 정리 중에 있습니다. 하단의 공감버튼 클릭 후 비밀댓글로 이메일 남겨주시면, 거래액 등 재무실적이 정리되는대로 전달드리겠습니다. 쇼피파이(Shopify, SHOP)가 실적을 발표했습니다. 쇼피파이의 주당순이익(EPS)은 $0.07이고 매출은 $1.73B으로 시장의 예상치를 상회했습니다. 쇼피파이는 아마존과 함께 이커머스의 미래를 보여주는 대표적인 기업이라 볼 수 있습니다. 특히 사업자를 위한 서비스 제공에 특화된 기업입니다. 이런 쇼피파이가 2022년 진행한 내용을 살펴보면서, 다가올 커머스의 미래에 대해 생각해보았습니다. 1. 2022 Business Highlights 1-1. 2022년 Shopify는 운영 단순화에 집중하여, 사업자들이 가장 중요한 제..

카테고리 없음 2023.02.17

2023년 1월 회고

업무, 공부, 그리고 일상과 관련하여 1월을 정리해본다. [ 업무 ] 리포팅 작업을 조금 더 매끄럽게 하기 위해 노력하고 있다. Confluence에서 제공하는 View Tracker이나 대시보드의 활용 정도를 보면서, 내용만큼이나 형식도 중요하다는 것을 느낀다. 데이터, 정확히는 수치로 된 내용을 읽는 것이 내가 독일어나 스페인어로 된 리포트를 읽는 것과 같은 느낌일 수 있다는 마음으로, 최대한 직관적이고 깔끔하게 전달하기 위해 고민하고 있다. 이번달에 인사평가를 진행했다. 입사한지 1년이 다 되어가는 시점이기 때문이다. 회사에서 정해준 양식에 맞춰서, 내가 한 일들을 열거했고, 스스로 생각하는 점수 등을 입력하는 방식으로 진행했다. 팀장님께서 점수를 되게 좋게 주셨다. 내가 보여드린 것에 비해 너무 ..

잡상들/회고 2023.02.04

비전공자가 자동화 리포팅 개발하기

회사에서 BA(Business Analyst)로 매일하는 업무 중 하나가 일별 지표에 대한 보고다. 아침마다 대시보드를 확인해서 지표를 점검하고, 슬랙에 업로드하기 위한 메시지를 생성한다. 반복되는 작업이기 때문에 별 것 아닌 것 같지만, 세부적으로 점검하는 지표도 적지 않기 때문에 하나하나 지표를 바꾼다는 것이 여간 귀찮은 작업이 아니다. 따라서 결심했다. 이 부분을 자동화해보자. 할말은 많지만 지금 회사에서는 연혁이 오래된 회사라 이런 부분을 기대하기 어려웠다. 따라서 파이썬 공부한 것을 활용해서 우선 직접 개발해보는 것을 시도했다. 우선은 가장 기본적인 것부터 시작했다. 파이썬을 활용해서 슬랙으로 메시지를 보내는 작업이다. 개발자들의 문화 중 존경하는 것이 바로 지식을 나누는 문화다. 궁금한 점이 ..

슬램덩크 2회차를 다녀와서 - 영화 취향에 대한

오늘 설 기념으로 친구와 함께 를 보고 왔다. 처음 보는 것은 아니고, 지난번에도 같은 친구와 같은 영화를 보고 왔다. 재미있는 점은 내가 최근에 영화관에서 본 영화들은 모두 2번 이상 봤다는 점이다. 물론, 아버지의 요청으로 갔던 쥬라기 월드만 1번 방문하고, 내 의지로 간 영화들은 모두 2번씩 봤다. 탑건, 아바타2, 그리고 슬램덩크까지. 성인이 되면 내 영화 취향같은 것들은 오히려 다채로워 질 것 같았다. 실제로 대학생 때까지는 마이너한 영화들도 많이 즐겨봤기 때문에 이수역에 아트나인 상영관이 있음에 감사하며 살았다. 아르바이트 끝나고 아트나인에서 영화 한 편을 예매해서 보고 나오는 것이 소소한 행복의 하나였던 시절이었다. 직장인이 되면 이런 영화에 대한 취향이 더 다채로워 질 것 같았는데, 오히려..

잡상들 2023.01.22

데이터 엔지니어링 공부를 시작해야겠다

Inflearn을 통해 수강하던 머신러닝 기초 강의 수강을 끝냈다. 전체 시간은 15시간이지만, 공부에 대한 몰입 부족 및 이해 부족 등으로 생각보다 시간이 소요됐다. 크게 분류 모형, 회귀 모형, 군집 모형을 기준으로 머신러닝을 돌려보는 방법에 대해서 배운 것 같다. 이걸 이제 회사 업무에 적용해보고 유의미한 것들은 리포팅이나 공개적으로 적용해봐야겠다. 머신러닝을 배우면서 왜 모든 데이터 작업에서 전처리 단계까지가 중요하다고 하는지 실감할 수 있었다. 우선 제대로 된 데이터를 확보하는 것도 중요하다. 아티클을 찾아보면 데이터 사이언티스트들이 우스갯소리로 "회사에서 데이터 분석을 하려고 시도하면, '사용할 수 없는 데이터만 존재'하거나 '데이터가 없을 것'이다"라고 말한다. 처음에 전문가들의 허세인가 생..

잡상들 2023.01.15

[clickhouse] neighbor 활용하여 이전행/다음행 가져오기

이탈 분석을 하다보면, 사용자들이 이탈 직전에 어떤 액션을 했는지, 또는 어떤 퍼널에서 이탈했는지 확인이 필요하다. 다만, 하나의 테이블에 유저의 모든 액션이 순서대로 집계된 경우 특정 사용자의 직전 액션만 모으는 것이 난해하다. 이렇게 저장되는 경우, 우리가 뽑아내고 싶은 내용은 kazuha는 1달무료이용까지만 이용하고 회원탈퇴를 했다는 점, 그리고 sakura는 정기결제1개월까지 이용하고 회원탈퇴를 했다는 점이다. 아마 아래와 같이 데이터를 뽑아야 할 것이다. 이런 경우, SQL에서는 이전의 행(Row)을 가져올 수 있는 lag, lead라는 함수를 제공한다. 그리고 우리처럼 Clickhouse를 사용하는 경우에는 neighbor을 활용할 수 있다. 우선 neighbor에 대한 기능을 소개해본다. n..