[육아용품] 쿠팡에서 파는 육아용품 카테고리 수집
[육아용품] 쿠팡에서 파는 육아용품 현황 분석[육아용품] - 쿠팡에서 파는 육아용품 데이터 수집왜 쿠팡에서 육아용품을 분석하는가?쿠팡은 대한민국 이커머스 시장에서 약 37.7%의 점유율을 차
lifehack-code.tistory.com
개요
데이터 수집이 부족하여 카테고리 정보를 다시 수집하였고, 수집한 카테고리 정보를 바탕으로 데이터 정제 방향을 탐색하기 위해 기본 현황을 분석하였다.
컬럼별 현황 분석
각 컬럼(seperate_name, category1, category2)의 현황을 파악하여 향후 분석에 필요한 방향을 정립하고자 하였다. 대시보드를 통해서도 확인할 수 있지만, 신속한 분석을 위해 SQL을 활용하여 주요 현황을 확인했다.
seperate_name 현황
seperate_name 필드는 해당 물건이 "출산/유아동" 탭에서 판매되는지, 일반 탭에서 판매되는 육아용품인지 나타낸다. 결과는 다음과 같다:
- "출산/유아동" 탭에서 판매되는 육아용품: 625개
- 일반 탭에서 판매되는 육아용품: 436개
- URL 접속 불가 품목: 4개
일반 탭에서 판매되는 육아용품 비율이 높은 점이 주목할 만하다.
SELECT
seperate_name AS '탭구분',
COUNT(*) AS '개수(개)',
ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
total_products_category
GROUP BY 1
ORDER BY 2 DESC;
탭구분 | 개수(개) | 비율(%) |
출산/유아동 | 625 | 58.7 |
일반탭 | 436 | 40.9 |
url접속안됨 | 4 | 0.4 |
category1 현황
category1 필드를 분석한 결과, 총 88개의 카테고리가 추출되었다. 주요 카테고리와 비율이 높은 항목은 다음과 같다:
- 출산준비물/선물
- 기저귀
- 욕실용품/스킨케어
- 위생/건강/세제
비율이 1% 미만인 카테고리는 제외하였다. 특히, 출산준비물/선물 카테고리가 164개로 높은 비율을 차지했지만, 실제로 쿠팡 육아용품 탭에는 존재하지 않는 프로모션용 카테고리이다. 이를 고려하여 category2 필드를 추가로 수집하였으며, 향후 데이터 정제 시 category1이 "출산준비물/선물"인 경우, category2를 기준으로 군집화를 다시 진행해야 한다.
SELECT
category1 AS 'category1',
COUNT(*) AS '개수(개)',
ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
total_products_category
GROUP BY 1
ORDER BY 2 DESC;
category1 | 개수(개) | 비율(%) |
출산준비물/선물 | 164 | 15.4 |
기저귀 | 99 | 9.3 |
욕실용품/스킨케어 | 76 | 7.1 |
위생/건강/세제 | 69 | 6.5 |
임부/태교용품 | 47 | 4.4 |
유아동패션 | 45 | 4.2 |
분유 | 40 | 3.8 |
수유용품 | 39 | 3.7 |
비타민/미네랄 | 37 | 3.5 |
완구/교구 | 32 | 3 |
여아 | 26 | 2.4 |
과자/쿠키 | 24 | 2.3 |
이유용품/유아식기 | 20 | 1.9 |
분유/어린이식품 | 19 | 1.8 |
과일/야채음료 | 18 | 1.7 |
어린이 건강식품 | 15 | 1.4 |
생수/차 | 15 | 1.4 |
어린이 유산균/오메가 등 | 13 | 1.2 |
매트/안전용품 | 13 | 1.2 |
채색도구 | 13 | 1.2 |
어린이음료 | 12 | 1.1 |
산양분유 | 11 | 1 |
유아동수저 | 11 | 1 |
의류 | 11 | 1 |
category2 현황
category2는 실질적으로 물품의 직접적인 이름을 나타내는 필드로 볼 수 있으며, category1에서 "출산준비물/선물"을 걸러내기 위해 수집한 데이터이다. 총 168개의 카테고리가 수집되었으며, 비율이 1% 미만인 카테고리는 제외했다. category2 필드를 활용해 추가적인 군집화를 계획하고 있다.
SELECT
category2 AS 'category2',
COUNT(*) AS '개수(개)',
ROUND(COUNT(*)*100 / (SUM(COUNT(*)) OVER()), 1) AS '비율(%)'
FROM
total_products_category
GROUP BY 1
ORDER BY 2 DESC;
category2 | 개수(개) | 비율(%) |
위생/건강용품 | 129 | 12.1 |
일회용기저귀 | 89 | 8.4 |
일반분유 | 50 | 4.7 |
유아구강용품 | 45 | 4.2 |
비타민C | 37 | 3.5 |
유아스킨케어 | 28 | 2.6 |
유아워시/샴푸 | 26 | 2.4 |
잡화 | 26 | 2.4 |
남아 | 26 | 2.4 |
임신/배란테스트기 | 20 | 1.9 |
분유수유용품 | 18 | 1.7 |
과일/야채혼합주스 | 18 | 1.7 |
젖꼭지 | 17 | 1.6 |
비타민/미네랄 | 15 | 1.4 |
보리차/티 | 15 | 1.4 |
여아 | 15 | 1.4 |
쌀과자/떡뻥 | 15 | 1.4 |
건강용품 | 14 | 1.3 |
목욕용품 | 14 | 1.3 |
STEAM/학습완구 | 12 | 1.1 |
과즙/음료 | 12 | 1.1 |
결론 및 향후 작업
새로운 테이블을 생성하고 이를 바탕으로 대시보드를 구축할 계획이다. 테이블의 주요 컬럼은 idx, product_idx, category로 구성되며, category 필드는 다음과 같은 데이터를 포함한다:
- category1이 "출산준비물/선물"인 경우, 해당 product_idx의 category2 데이터
- category1이 "출산준비물/선물"이 아닌 경우, 해당 product_idx의 category1 데이터
이를 통해 더욱 정교한 데이터 군집화와 분석이 가능해질 것이다.
'불편한것 해결과정' 카테고리의 다른 글
[이사] 데이터 수집 및 정제 (1) | 2024.11.25 |
---|---|
[육아용품] 쿠팡 육아용품 카테고리 데이터 정제 & 분석 (7) | 2024.11.03 |
[육아용품] 쿠팡에서 파는 육아용품 카테고리 수집 (7) | 2024.11.01 |
[육아용품] ChatGPT 사용 군집화 시도 실패 (6) | 2024.11.01 |
[육아용품] 쿠팡에서 파는 육아용품 현황 분석 (6) | 2024.10.28 |