오늘은 데이터 분석과 시각화에 대해서 배웠습니다.
데이터를 시각화했을 때 새롭게 인사이트를 얻을 수 있다고 하여 미국의 크라우드 펀딩 서비스인 Kickstarter의 데이터를 바탕으로 크라우드 펀딩과 관련된 인사이트를 한 번 도출해볼 예정입니다.
Kaggle의 데이터를 바탕으로 크라우드 펀딩 관련 가설 설정하기
오늘의 데이터 분석은 무료로 데이터를 받아볼 수 있는 Kaggle에서 찾아서 활용했습니다.
해당 사이트에서 Kickstarter를 검색한 뒤, 펀딩 성공/실패 여부에 대한 데이터가 포함된 데이터들을 선택하였습니다.
우선 저는 크라우드 펀딩과 관련한 다음과 같은 가설을 설정해보았습니다.
[가설1] 펀딩 목표 금액이 낮을 수록 펀딩이 성공할 확률이 높을 것이다.
크라우드 펀딩과 관련된 다양한 자료들, 그리고 사용자 리뷰를 살펴보다가 '목표 펀딩 금액은 최대한 낮게 설정해야 한다'는 꿀팁을 보았거든요. 실제 크라우드 펀딩이 훨씬 활성화되어 있는 'Kickstarter'의 데이터를 바탕으로 다음과 같은 메이커의 꿀팁이 진짜인지 확인해보고 싶었습니다.
우선, 가설이 성공과 실패여부만 고려하였기 때문에 앞서 받은 자료들 중 펀딩 성공과 실패 케이스만 액셀에서 정제해보았습니다. successful과 failed 외에도 live, suspended, canceled의 케이스도 있더라구요. 그리고 잘못 들어간 데이터들도 모두 제외한 뒤에 성공과 실패 케이스의 데이터를 분리하였습니다. 둘의 그래프를 별도로 만들어서 비교해볼 예정이거든요.
그리고 펀딩 성공의 경우가 실패의 경우들보다 목표 금액이 낮을 것으로 예상했었잖아요? 우선 성공한 케이스의 목표 펀딩 금액을 오름차순으로 정렬해준 뒤, 가장 높은 금액을 기준으로 10개의 영역으로 나눴습니다. 목표 금액 별 성공한 펀딩 프로젝트는 얼마나 분포되어 있는지 확인해보려고 했거든요.
그랬더니 다음과 같은 분포로 나왔습니다. 아무래도 가장 적은 '목표 금액' 영역에 펀딩 프로젝트들이 밀집되어 있다보니 시각적으로 차이점이 드러나지 않더라구요. 그리고 가설 검증에 있어서도 적은 '목표 금액'이 유의미하지도 않으므로 해당 영역에 소속된 펀딩 프로젝트는 제외하고 다시 차트를 만들어 보았습니다.
아, 참고로 실패한 펀딩 수가 성공한 케이스보다 약 1.5배 모수가 많았습니다. 자세한 데이터는 위와 같아요.
모집단의 차이를 고려했을 때에도 확실히 성공한 펀딩프로젝트보다 실패한 펀딩프로젝트 중에 목표 금액이 높은 경우가 많았습니다. 따라서 앞서 설정한 가설은 어느 정도 상관관계가 있다는 것을 확인할 수 있었습니다.
다음으로는 펀딩 기한과 펀딩 성공여부와의 관계성에 대해서 궁금해졌습니다. 긴 기간 동안 펀딩을 하는 것보다 짧은 기간 하는 것에 서포터들의 관심도 집중시키고, 참여도도 높일 수 있지 않을까 싶었거든요.
[가설2] 펀딩 기한이 짧을 수록 펀딩에 성공할 확률이 높다.
그래서 이와 같은 가설을 설정해보고 다시 한 번 데이터를 정제해보았습니다. 앞선 가설을 검증하는 과정과 거의 동일하게 'Duration' 부분을 정제해보았어요.
펀딩 기간이 짧다고 프로젝트의 펀딩이 달성하는 것은 아니라는 점을 알 수 있었어요. 펀딩 기간이 긴 프로젝트들도 충분히 성공한 케이스들이 많았기 때문이죠. 다만, 성공한 펀딩들이 실패한 펀딩들보다는 상대적으로 그 기간이 짧은 경우가 많다는 상관관계를 발견할 수는 있었습니다. 즉, 펀딩 프로젝트 자체를 완벽하게 준비하되, 펀딩 기간을 조금 컴팩트하게 가져간다면 성공 확률을 조금은 높일 수 있을 것으로 보입니다.
마지막으로, 와디즈에서는 서포터와 메이커 간의 상호작용이 펀딩에 영향을 줄 것이라 판단하고 있었습니다. 소통을 바탕으로 만들어진 유대감은 서포터들을 팬으로 만든다는 점이었죠. 그래서 서포터들의 상호작용이라고 볼 수 있는 comment(댓글)와 사용자들이 Backer(서포터)로 전환되는 부분이 실제로 상관관계가 있을지 궁금해졌습니다.
[가설3] Comment가 많은 펀딩 프로젝트에서는 Backer(서포터) 또한 많을 것이다.
그래서 상관분석을 해보았습니다. 상관계수는 1로, 1에 가까울수록 두 데이터 간의 관계가 있고, 0에 가까울수록 관계가 없다고 합니다. 펀딩이 성공한 케이스의 경우에는 0.7으로 상관관계가 어느 정도 있어 보입니다. 실패한 펀딩의 경우에는 이 상관지수가 낮아지기는 했지만 절반보다는 많은 수치가 나왔네요.
이렇게 숫자만으로는 정확히 어떤 상관관계가 있는지 파악하기 어렵잖아요, 그래서 그래프를 그려보았습니다. 다만 전체 데이터를 사용할 경우 일부 수치들이 급격하게 커지는 바람에 상대적으로 작은 수치들이 눈에 잘 안들어오더라고요. 그래서 (성공한 케이스의 경우에) backers가 500 이하인 경우와 그 이상인 경우로 나누어 그래프를 만들어보았어요. 90%이상의 데이터가 500이하의 Backer가 펀딩한 프로젝트였어서 해당 그래프를 살펴보는게 더 정확할 것 같습니다.
확실히 Backer가 500이상인 경우에는 수치가 급격하게 증가해버려서 그래프로 확인이 어려워지는 것 같습니다.
아무튼 그래프가 우상향을 그리고 있음을 확인할 수 있었습니다. 이러한 그래프를 통해 comment가 많을 수록 backers(서포터)가 증가한다는 상관 관계를 갖고 있음을 알 수 있었습니다.
따라서, 상관분석을 했을 때도 상관지수가 꽤 1에 가까운 수치가 나왔고 그래프 상으로도 우상향으로 그려지는 모습을 보아 해당 가설은 어느 정도 상관관계가 있다고 보여집니다.
데이터를 가공해본 경험이 없어서 해당 부분을 만지는게 상당히 어려웠지만, 이렇게 많은 데이터를 바탕으로 인사이트를 도출해본 경험은 꽤 재미있었습니다. 그동안 생각해왔던 가설들, 정보들이 꽤 근거가 있었다는 점을 데이터를 바탕으로 확인할 수 있었고요! 기회가 된다면 데이터를 더 잘 가공하고 분석할 수 있는 방법을 배울 수 있으면 좋겠네요.
■ 데이터 출처
https://www.kaggle.com/datasets/parienza/kickstarter
https://www.kaggle.com/datasets/kemical/kickstarter-projects?resource=download
'도담한 Product Manager 성장기 > 내맘대로 분석 모음' 카테고리의 다른 글
모바일 웹 vs 웹 앱 vs 하이브리드 앱 vs 네이티브 앱 [W7D2_코드스테이츠 PMB 12기] (0) | 2022.06.24 |
---|---|
'샤넬 공식 웹사이트' 프론트엔드 탐색하기[W7D1_코드스테이츠 PMB 12기] (0) | 2022.06.23 |
'콜렉티브', 린 분석해보기 [W6D3_코드스테이츠 PMB 12기] (0) | 2022.06.19 |
블랙키위의 핵심 기능 정의와 관련 지표를 GA를 추적해본다면 [W6D2_코드스테이츠 PMB 12기] (0) | 2022.06.16 |
'당근마켓 관심목록 추가' 가능의 Behind에는 어떤 일이 일어나고 있을까 [W6D1_코드스테이츠 PMB 12기] (0) | 2022.06.15 |
댓글