[추천삼조] WrapUp Report

목차

Part 1. [추천삼조] RecSys 기초대회 프로젝트 Wrap Up

1-1. 프로젝트 개요

1-2. 프로젝트 팀 구성 및 역할

1-3. 프로젝트 수행 절차 및 방법

1-4. 프로젝트 수행 결과

1-5. 자체 평가 의견

Part 2. [개인] 개인 회고 작성 세부 가이드라인

Part 1. [추천삼조] RecSys 기초대회 프로젝트 Wrap Up

1-1. 프로젝트 개요

프로젝트 주제
- 일반적으로 책은 뉴스 기사나 짧은 동영상과는 다르게 모두 읽기 위해서는 꽤나 긴 물리적인 시간이 필요하다. 소비자는 한정된 정보로 콘텐츠를 유추하고 구매 결정을 해야 하기 때문에, 선택에 어려움이 있다. 이 대회는 이러한 소비자들의 책 구매 결정에 대해 도움을 주기 위한 개인화된 상품 추천 대회이다.
프로젝트 개요
- 주어진 데이터(User, Book, Ratings)를 활용하여 사용자에게 새롭게 추천한 책에 대해 평점을 예측하는 모델을 설계하고, 학습하여 가장 잘 예측한 팀이 우승하는 방식이다.
- 평가 지표는 RMSE(Root Mean Square Error)를 사용한다.
활용 장비 및 재료
- 서버: Tesla V100, 88GB RAM Server
- 개발 IDE: Jupyter Notebook, VS Code
- 협업 Tool: Notion, Slack, Zoom
프로젝트 구조 및 사용 데이터셋의 구조도(연관도)

[그림1] 프로젝트 구조도

[그림2] 데이터셋 구조도

1-2. 프로젝트 팀 구성 및 역할

팀원	역할
강수헌_T4003	- 데이터 EDA를 통한 insight 공유

유사도 기반 예측 test
데이터 전처리 | | 박경준_T4076 | - 다양한 모델 Test (FM, FFM, HOFM, DCN, LightGBM, MF, CF계열 유사도)
HyperParameter 탐색
K-FOLD 적용 | | 박용욱_T4088 | - XGBoost 모델 Test
DeepFM 모델 Test | | 오희정_T4129 | 데이터 분포를 확인하는 EDA와 베이스라인 코드 분석 | | 정소빈_T4196 | - 머신러닝 계열 모델 Test (SVD, LightGBM, CatBoost)
Text 데이터 활용을 위한 딥러닝 계열 모델 Test(DeepCoNN, Bert) |

1-3. 프로젝트 수행 절차 및 방법

프로젝트 사전 이해
- Task와 Data에 대한 이해
  - 파레토 법칙 : 전체 소비의 80%는 20%의 인기있는 아이템에서 발생함 → 이 데이터에서도 성립함
  - 항목 별 연관성에 대해 파악하기
- Domain에 대한 이해
  - 어떤 feature들을 카테고리화 해야할지 이해
  - 고전 명서는 인기가 많을까? 평가는 어떨까? → 평균 7.6점
- Baseline 실행 후 Issue 파악
  - cold, warm 아이템 혹은 유저에 대해 어떻게 처리할지에 대한 파악
프로젝트의 사전 기획
- 데이터 전처리 방향
  - 결측치 처리하기 : 평균값, 중앙값, 최빈값, 혹은 pseudo labeling 고려 가능
  - isbn정보 이용: 고유번호, 출판국가, 출판번호 정보가 담겨 이를 통해 결측치 처리 가능
- 학습 방향
  - 콜드 스타트 문제에 대해, 콜드와 웜을 분리한 데이터셋 만들어 학습 진행 고려
    - test 셋에서 처음 등장하는 유저의 수: 12231(47%)
      
      → 해당 유저의 rating은 item-based CF나 user-based CF 적용해보기
      
      → 콜드 유저 + 콜드 아이템 / 콜드 유저 + 웜 아이템 / 웜 유저 + 콜드 아이템 / 웜 유저 + 웜 아이템 으로 데이터 셋 분리
  - NCF, FM, FFM, WDN, DeepCoNN, GBM계열, Ensemble모델 학습시켜본 후 적합한 모델 탐색
프로젝트 로드맵

[그림3] 프로젝트 로드맵
프로젝트 수행 및 완료 과정

Train&Result

Train Result

FM

User_id, Age, Isbn, Author 이용
```
`--SEED 8746 --EPOCHS 3 --FM_EMBED_DIM 1 --LR 2e-3 --BATCH_SIZE 128 --WEIGHT_DECAY 1e-` | RMSE
  - CV : 2.171
  - LB : 2.16 |
```
| FFM User_id, Age, Isbn, Author 이용 --SEED 8746 --EPOCHS 2 --FFM_EMBED_DIM 1 --LR 2e-3 --BATCH_SIZE 128 --WEIGHT_DECAY 1e-4 | RMSE : 2.172 | | HOFM User_id, Age, Isbn, Author 이용 --SEED 8746 --EPOCHS 2 --ORDER 10 --HOFM_EMBED_DIM 1 --LR 2e-3 --BATCH_SIZE 128 --WEIGHT_DECAY 1e-4 | RMSE : 2.169 | | FM+FFM+HOFM User_id, Age, Isbn, Author 이용 모델 모두 결측치가 적어서 embedding 차원이 적을수록 유리함 - Activation Fn : ReLU - Optimizer : Adam | RMSE :2.159 | | DCN User_id, Age, Isbn, Author, Category 이용 --SEED 8746 --DCN_EMBED_DIM 8 --DCN_DROPOUT 0.2 --EPOCHS 10 --LR 2e-3 --BATCH_SIZE 128 --WEIGHT_DECAY 5e-3 - Activation Fn : ReLU - Optimizer : Adam | RMSE : 2.205 | | FM+FFM+HOFM+DCN(최종모델) 성능이 좋았던 4개의 모델을 앙상블해서 사용함. | RMSE : 2.151 |

[표1 모델 실험 및 결과]

Train	Result
FM
User_id, Age, Isbn, Author 이용

1-4. 프로젝트 수행 결과

탐색적 분석 및 전처리 (학습 데이터 소개)
- inital dataset : users.csv, books.csv, train_ratings.csv
- users.csv
  - location을 그대로 encoding 하게 되면 카디널리티가 높아지므로 city, state, country를 나눠서 진행했다.
  - city, state, country의 결측치를 서로 포함관계에 있는 것을 이용해 채워주었다.
    - city 결측치 변화 122 → 122
    - state 결측치 변화 3254 → 561
    - country 결측치 변화 2124 → 215
    [그림4] user.csv
    
    [그림5] preprocessed users.csv
- books.csv
모델 개요