[육아용품] - 쿠팡에서 파는 육아용품 현황 분석
[육아용품] - 쿠팡에서 파는 육아용품 데이터 수집왜 쿠팡에서 육아용품을 분석하는가?쿠팡은 대한민국 이커머스 시장에서 약 37.7%의 점유율을 차지하는 가장 큰 플랫폼으로, 국내 온라인 쇼핑
lifehack-code.tistory.com
AI를 활용한 육아용품 데이터 군집화 도전기
앞 포스팅에서 수집한 육아용품 데이터의 현황을 확인했다. 이후 데이터 군집화를 통해 어떤 카테고리가 많이 팔리는지 파악하고자 했다. 수집된 물품 수가 1,065개로 많은 편은 아니어서, 코드로 조건문을 일일이 작성하는 대신 ChatGPT(이하 AI)를 활용해 군집화를 시도했다.
결론
결국 실패했다. 기대했던 만큼의 결과를 얻지 못했다. 분석에 더 나은 성능을 보인다는 Gemini 모델을 사용해도 효과는 없었다. AI에게 100번도 넘게 시도하며 어르고 달랬지만 만족스러운 결과를 얻을 수 없었다. 시도한 내용을 전부 기록하기 어려워 주요한 내용들만 정리했다. 이 정도까지 했으면 정말 왠만한 건 다 해봤다고 생각해주길 바란다.
AI를 사용해보며 느낀 점
정확한 이유는 알 수 없지만, AI의 한계에 대해 몇 가지 인사이트를 얻었다. 향후 비슷한 업무에서 참고할 수 있도록 공유한다.
- 군집화는 한계가 있다.
- 지속적으로 명령할수록 이전 결과와 혼합되어 정확도가 떨어진다.
- 동일한 프롬프트로 결과를 생성해도, 파일로 저장되는 결과와 화면에서 출력되는 결과가 다른 경우가 있다.
- 분석에는 Gemini 모델이 편리하다. 즉시 스프레드시트 저장, 그래프 생성 등을 진행해준다.
- 작업을 조금씩 나누어 지시해야 더 정확하게 수행하는 경향이 있다.
결국 카테고리는 다시 스크래핑하기로 결정했다!
AI에게 명령한 순서와 결과
1차 시도 (실패)
- 프롬프트: product_name을 기반으로 초기 카테고리를 생성해. 특정 키워드("비타민", "물티슈" 등)를 사용해 "건강보조식품", "위생용품", "식품"과 같은 대분류로 분류해.
- 결과: product_name에 포함된 키워드를 통해 제품을 지정된 카테고리로 분류했다. 예를 들어, "비타민"이 포함된 제품은 "건강보조식품"으로, "물티슈"가 포함된 제품은 "위생용품"으로 분류되었다. 하지만 500개의 물품이 "기타"로 분류되며 정확도가 낮았다.
2차 시도 (실패)
- 프롬프트: 지정된 카테고리에 맞지 않는 항목들은 "기타"로 분류해서 별도 파일로 생성해.
- 결과: 기준에 맞지 않아 "기타"로 분류된 제품들을 별도 파일에 저장하여 추가 패턴 분석이 가능하도록 했다. 그러나 일부 품목이 여전히 잘못 분류되었다.
3차 시도 (실패)
- 프롬프트: 잘 분류된 파일을 학습 파일로 활용하여 product_name과 new_category 간 패턴을 파악하고, 이를 "기타" 항목의 분류에 반영할 수 있도록 해.
- 결과: 잘 분류된 파일을 통해 특정 키워드와 카테고리 간의 연관성을 파악했다. 예를 들어, "요거트"가 포함된 제품은 "식품"으로 분류되도록 했다. 그러나 여전히 일부 품목이 "기타"에 남아 있어 분류 기준이 완전하지 않았다.
4차 시도 (실패)
- 프롬프트: 업데이트된 기준을 "기타" 항목에 적용해서 최종적으로 재분류해.
- 결과: 재분류 기준을 적용했지만, "요거트"만 "식품"으로 바뀌고 나머지는 그대로 남았다. 재분류된 최종 파일을 생성했으나 원하는 수준의 결과를 얻지 못했다.
마무리
AI를 활용한 데이터 군집화 시도는 아쉽게도 실패로 끝났다. 하지만 여러 가지 시도를 통해 AI의 한계와 사용 시 고려해야 할 점들을 확인할 수 있었다.
'불편한것 해결과정' 카테고리의 다른 글
[육아용품] 쿠팡 육아용품 카테고리 데이터 정제 & 분석 (7) | 2024.11.03 |
---|---|
[육아용품] 수집한 카테고리 데이터를 통한 분석 인사이트 도출 (6) | 2024.11.02 |
[육아용품] 쿠팡에서 파는 육아용품 카테고리 수집 (7) | 2024.11.01 |
[육아용품] 쿠팡에서 파는 육아용품 현황 분석 (6) | 2024.10.28 |
[육아용품] 쿠팡에서 파는 육아용품 데이터 수집 (1) | 2024.10.22 |