[육아용품] 쿠팡에서 파는 육아용품 카테고리 수집

[육아용품] 쿠팡에서 파는 육아용품 현황 분석[육아용품] - 쿠팡에서 파는 육아용품 데이터 수집왜 쿠팡에서 육아용품을 분석하는가?쿠팡은 대한민국 이커머스 시장에서 약 37.7%의 점유율을 차

lifehack-code.tistory.com

 

개요

데이터 수집이 부족하여 카테고리 정보를 다시 수집하였고, 수집한 카테고리 정보를 바탕으로 데이터 정제 방향을 탐색하기 위해 기본 현황을 분석하였다.

 

 

컬럼별 현황 분석

각 컬럼(seperate_name, category1, category2)의 현황을 파악하여 향후 분석에 필요한 방향을 정립하고자 하였다. 대시보드를 통해서도 확인할 수 있지만, 신속한 분석을 위해 SQL을 활용하여 주요 현황을 확인했다.

 

seperate_name 현황

seperate_name 필드는 해당 물건이 "출산/유아동" 탭에서 판매되는지, 일반 탭에서 판매되는 육아용품인지 나타낸다. 결과는 다음과 같다:

  • "출산/유아동" 탭에서 판매되는 육아용품: 625개
  • 일반 탭에서 판매되는 육아용품: 436개
  • URL 접속 불가 품목: 4개

일반 탭에서 판매되는 육아용품 비율이 높은 점이 주목할 만하다.

SELECT
	seperate_name AS '탭구분',
	COUNT(*) AS '개수(개)',
	ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
	total_products_category
GROUP BY 1
ORDER BY 2 DESC;
탭구분 개수(개) 비율(%)
출산/유아동 625 58.7
일반탭 436 40.9
url접속안됨 4 0.4

 

category1 현황

category1 필드를 분석한 결과, 총 88개의 카테고리가 추출되었다. 주요 카테고리와 비율이 높은 항목은 다음과 같다:

  • 출산준비물/선물
  • 기저귀
  • 욕실용품/스킨케어
  • 위생/건강/세제

비율이 1% 미만인 카테고리는 제외하였다. 특히, 출산준비물/선물 카테고리가 164개로 높은 비율을 차지했지만, 실제로 쿠팡 육아용품 탭에는 존재하지 않는 프로모션용 카테고리이다. 이를 고려하여 category2 필드를 추가로 수집하였으며, 향후 데이터 정제 시 category1이 "출산준비물/선물"인 경우, category2를 기준으로 군집화를 다시 진행해야 한다.

SELECT
	category1 AS 'category1',
	COUNT(*) AS '개수(개)',
	ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
	total_products_category
GROUP BY 1
ORDER BY 2 DESC;
category1 개수(개) 비율(%)
출산준비물/선물 164 15.4
기저귀 99 9.3
욕실용품/스킨케어 76 7.1
위생/건강/세제 69 6.5
임부/태교용품 47 4.4
유아동패션 45 4.2
분유 40 3.8
수유용품 39 3.7
비타민/미네랄 37 3.5
완구/교구 32 3
여아 26 2.4
과자/쿠키 24 2.3
이유용품/유아식기 20 1.9
분유/어린이식품 19 1.8
과일/야채음료 18 1.7
어린이 건강식품 15 1.4
생수/차 15 1.4
어린이 유산균/오메가 등 13 1.2
매트/안전용품 13 1.2
채색도구 13 1.2
어린이음료 12 1.1
산양분유 11 1
유아동수저 11 1
의류 11 1



category2 현황

category2는 실질적으로 물품의 직접적인 이름을 나타내는 필드로 볼 수 있으며, category1에서 "출산준비물/선물"을 걸러내기 위해 수집한 데이터이다. 총 168개의 카테고리가 수집되었으며, 비율이 1% 미만인 카테고리는 제외했다. category2 필드를 활용해 추가적인 군집화를 계획하고 있다.

SELECT
	category2 AS 'category2',
	COUNT(*) AS '개수(개)',
	ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
	total_products_category
GROUP BY 1
ORDER BY 2 DESC;
category2 개수(개) 비율(%)
위생/건강용품 129 12.1
일회용기저귀 89 8.4
일반분유 50 4.7
유아구강용품 45 4.2
비타민C 37 3.5
유아스킨케어 28 2.6
유아워시/샴푸 26 2.4
잡화 26 2.4
남아 26 2.4
임신/배란테스트기 20 1.9
분유수유용품 18 1.7
과일/야채혼합주스 18 1.7
젖꼭지 17 1.6
비타민/미네랄 15 1.4
보리차/티 15 1.4
여아 15 1.4
쌀과자/떡뻥 15 1.4
건강용품 14 1.3
목욕용품 14 1.3
STEAM/학습완구 12 1.1
과즙/음료 12 1.1

 

 

결론 및 향후 작업

새로운 테이블을 생성하고 이를 바탕으로 대시보드를 구축할 계획이다. 테이블의 주요 컬럼은 idx, product_idx, category로 구성되며, category 필드는 다음과 같은 데이터를 포함한다:

  • category1이 "출산준비물/선물"인 경우, 해당 product_idx의 category2 데이터
  • category1이 "출산준비물/선물"이 아닌 경우, 해당 product_idx의 category1 데이터

이를 통해 더욱 정교한 데이터 군집화와 분석이 가능해질 것이다.

 

+ Recent posts