[Data Science] ETRI 휴먼이해 인공지능 논문경진대회

https://dacon.io/competitions/official/236690/data

제 5회 ETRI 휴먼이해 인공지능 논문경진대회 - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

지금까지 내용을 기반으로 여러 가지 시도를 거쳤다.

ensemble 크기 키우기, pseudo label을 다른 방식으로 적용해보기, rank average 적용 등등..

그런데 전혀 진전이 없었음.

일단 내 로컬 컴에서는 Out-Of-Fold 방식으로 채점한다.

Train 데이터 450개를 5개의 Fold로 나누고, Valid로 번갈아 선택하는 방식임.

여기서는 분명 점수가 잘뽑힘

그런데 데이콘에다가 제출만 하면 점수가 떨어진다.

데이콘 서버는 비공개 라벨로 채점하니까 이게 문제인듯..

모델이 Train Fold에는 잘 맞지만, Test에는 잘 맞지 않는다는거임.

일단 Out-Of-Fold 방식을 사용하면 같은 피실험자의 인접 날짜가 Train과 Valid에 동시에 있을 수 있음.

그러니 Fold 1로 학습할 때의 7-14 학습 -> 7-16 학습 -> 7-15 은 보간할 수 있음.

이러니까 Valid 점수가 좋을 수 밖에 없음.

실제 Test 환경에서는 다르다.

Test일자는 Train에 전혀 없고, 그러니 저 보간 방식이 Test에서 그대로 적용될 수 없다.

그러니 alt-paradigm CV로 이 가설을 검증해봤다.

인접 일자 보간이 불가능한 Fold Split으로 학습한 후 OOF를 비교해보자.

3가지 Fold Split 방식을 만들어서 비교해봤다. 같은 데이터, 같은 피쳐, 같은 모델.. 다만 Fold Split 로직만 다르게 진행.

세 방식 모두 OOF가 점수가 높았음. 즉, Random K-Fold 방식에는 거품이 꼈다는 것..

기존 LB 는 Random K-Fold 방식이라 bias가 있음.

그러니 alt-paradigm으로 leakage를 차단하자.

final = (1-3α) × cardBest + α × TimeAware + α × NoSubjId + α × SubjStratCV

여기서 α를 다양하게 설정하고 실행해본다.

α를 5%로 설정하고 채점했을 때 0.5807

α를 10%로 설정하고 채점했을 때 0.5812

일단 확실히 성능 향상이 있었다. 비슷한 방식으로, 다른 관점의 paradigm으로도 점수를 최적화 할 수 있지 않을까?

이전에 적용한 paradigm은 Fold 구조를 바꾸는 작업이였고, 이번에 적용할 AVStrat은 각 Fold마다 Test 유사도 분포를 다르게 설정한다.

final = 0.95 × each5 + 0.05 × AVStratCV

적용 후 채점해보니 0.5806으로 미세하지만 성능이 더 좋아졌음.

여기서 좀 더 깎아보자.

alt-paradigm이 제대로 작동했다면 더 Strict한 Fold Strategy를 적용해도 괜찮지 않을까? 결국 문제는 Fold 였으니까..

여기서는 가설, 계산식과 결과만 간단하게 언급..

가설

6 paradigm으로 확장해보자.

계산식

final = 0.85 × cardBest + 0.025 × (TA + NS + SS + AV + GroupMonth + LabelStrat)
= cardBest 85% + 6 paradigm × 2.5% each

결과

0.5813

GroupMonth는 한 달을 그대로 가져가서 baseline 학습을 막는다.

Train과 Test는 같은 10명이고, 그 피실험자의 baseline 정보는 LB에도 실제로 도움되는데 이걸 막아버려서 오히려 성능이 떨어짐.

가설

아예 K-Fold를 쓰지 말고 다른 방식을 도입해보자.

계산식

모두 Train으로 학습하고 K-Fold Averaging을 적용하지 않는다.

결과

0.58073

LB 점수는 거의 변화가 없었다. 다양한 신호를 섞는다고 무조건 좋아지는건 아닌듯..

K-Fold Averaging 자체가 LB를 까먹는 원인이였다면 안쓰면 좋아져야 되지 않나? 그런데 변동이 없었다.

그러니 또 다른 방식을 생각해 봐야 함..

저작자표시 (새창열림)

'Computer Science > Data Science' 카테고리의 다른 글

[Data Science] Data Mining (1)	2026.06.18
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 5 (0)	2026.05.23
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 3 (1)	2026.05.09
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 2 (0)	2026.05.05
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 1 (0)	2026.05.04

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 4

'Computer Science > Data Science' 카테고리의 다른 글

댓글

이 글 공유하기

티스토리툴바

'Computer Science > Data Science' 카테고리의 다른 글

댓글

이 글 공유하기

다른 글

[Data Science] Data Mining

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 5

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 3

[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 2

티스토리툴바