Computer Science/Data Science
[Data Science] Data Mining
[Data Science] Data Mining
2026.06.18Association Rule MiningA를 구매한 사람은 B도 같이 구매하더라~ 같은 패턴을 찾는게 목표 itemset : 물건들의 집합 support : 아이템셋이 전체 거래 중 몇 비율에서 등장하는지 나이브하게 생각하면 모든 가능한 연관 규칙을 찾고 support값과 confidence값을 계산해도 된다.다만 이렇게 하면 규칙 수가 너무 많아져서 느림 -> Apriori 알고리즘 사용 최소 지지도인 minsup과 최소 신뢰도인 minconf를 지정하고 비교함 (각각 직접 설정하는 파라미터)support >= minsup , confidence >= minconf (흔한 패턴만 보겠다 + 믿을 만한 규칙만 보겠다) 어떤 itemset이 frequent 하다면 (support >= min..
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 5
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 5
2026.05.23로컬 OOF는 믿을 수가 없으니 데이콘 LB 자체를 채점기로 쓴다.제출은 하루에 세 번만 가능하니 이 제출을 검증기로 사용. 세번밖에 못 쓰니 아무거나 던지면 안된다. 가설을 세우기 전에 고려할 점 1. 현재 Best와 얼마나 다른지?비슷한거 섞어봤자 성능이 좋아지지 않는다. 현재 Best가 못 보는 부분을 다른 관점에 봐 줘야 의미가 있다.후보의 Test 예측과 현재 Best의 예측이 얼마나 비슷한지를 상관계수로 기록한다. 2. 혼자서도 얼마나 잘 맞히는지? Best랑 다르기만 하고 혼자서는 잘 못 맞추는 후보는 그냥 다른 노이즈일 뿐이다. 그러니 실제로 라벨을 잘 맞추는지도 확인해야 함.OOF 점수가 Baseline보다 얼마나 나은지를 평가한다. OOF를 믿을 수 없는건 최종 판정에서 못 믿는다는거..
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 4
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 4
2026.05.14https://dacon.io/competitions/official/236690/data 제 5회 ETRI 휴먼이해 인공지능 논문경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 지금까지 내용을 기반으로 여러 가지 시도를 거쳤다.ensemble 크기 키우기, pseudo label을 다른 방식으로 적용해보기, rank average 적용 등등..그런데 전혀 진전이 없었음. 일단 내 로컬 컴에서는 Out-Of-Fold 방식으로 채점한다.Train 데이터 450개를 5개의 Fold로 나누고, Valid로 번갈아 선택하는 방식임. 여기서는 분명 점수가 잘뽑힘 그런데 데이콘에다가 제출만 하면 점수가 떨어진다.데이콘 서버는 비공개 라벨로 채점하니..
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 3
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 3
2026.05.09https://dacon.io/competitions/official/236690/data 제 5회 ETRI 휴먼이해 인공지능 논문경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 이번에는 XGBoost를 적용해보자. LightGBM / CatBoost / XGBoost 모두 트리를 다루는 전략이 다름.지금까지는 LightGBM과 CatBoost모델을 피쳐만 바꾸는 방식으로 사용했는데, 이번에는 XGBoost를 사용함. 5-Fold 알고리즘은 똑같이 쓴다.알고리즘의 다양성을 키우면 노이즈를 더 줄일 수 있지 않을까.. 일단 성능은 XGBoost가 가장 좋긴 함. 그리고 제출했을 때 점수가 0.60807 으로 지금까지 결과물 중..
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 2
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 2
2026.05.05https://dacon.io/competitions/official/236690/data 제 5회 ETRI 휴먼이해 인공지능 논문경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 야간 걸음수만 보고 7개의 라벨을 맞추는건 힘들다. 그러니 단서를 풍부하게 줘야 함. 모델이 여러 피쳐와 피실험자 정보를 동시에 확인하도록 하기 위해 여러 피쳐를 한 테이블로 모으고 LightGBM 으로 7-Task를 학습시키자. 잠은 22:00 ~ 10:00 사이에 잔다. 그러니 이 시간대가 중요함.잠자는걸 어떻게 알 수 있을까? -> 심박수, 소음, 밝기, 폰 안봄 신호를 사용하자. 이 두 가지를 기준으로 새로운 피쳐를 만들었다.z-score도 함께..
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 1
[Data Science] ETRI 휴먼이해 인공지능 논문경진대회 - 1
2026.05.04https://dacon.io/competitions/official/236690/data 제 5회 ETRI 휴먼이해 인공지능 논문경진대회 - DACON분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.dacon.io 먼저 데이터를 까보자. 10명이 3달동안 핸드폰이랑 스마트워치를 차고 다닌 LifeLog를 기록하고, 그 다음날 아침 잠이 어땠는지 맞추는 데이터임.10명이 대충 3달동안 참여해서 대충 700개 Row가 수집됐고, 이 중 일부를 학습에 쓰고 일부를 라벨 가리고 검증에 사용함. 데이터를 쭉 읽어보면.. 언제 폰이 켜졌고 그 때 어떤 활동을 했고 그 때의 밝기는 어땠는지를 저장한다. 12:03 폰 켜짐 / 걷는중 / 화면안봄 / 주변조도 534lux12:23 워치 심..
[Data Science] Data Preprocessing & Feature Engineering
[Data Science] Data Preprocessing & Feature Engineering
2026.04.14실제 현장의 데이터는 깔끔하지 않다.고객의 직업 정보가 비어있을 수가 있고, 연봉이 입력되는 칸에 -10처럼 음수가 들어가는 등 데이터에 노이즈가 포함될 수 있다. 그러니 데이터를 통해 제대로 된 결과를 얻으려면 Accuracy, Completeness, Consistency, Timeliless를 갖추도록 전처리가 필요하다. Structure : 데이터의 형식을 의미한다. CSV / SQL / JSON / XML 등.. Granularity : 데이터 Row 하나가 뭘 의미하는지를 정의한다. 한 번의 구매? 한 명의 사용자? Scope : 내가 분석하려는 목적에 맞는 범위인지 확인한다.Temporality : 데이터가 언제 수집됐고, 주기성이 있는지 확인한다. (TimeZone 처리 포함)Faithfu..
[Data Science] Statistical Data Analysis
[Data Science] Statistical Data Analysis
2026.04.09Descriptive Statistics는 데이터를 의미 있는 방식으로 요약하거나 특성화하는 작업을 의미한다.연속적이고 대칭적이며 이상치 없이 잘 정의된 데이터(대충 정규분포 따르는..) 를 설명할 때 사용함. Distribution은 관측값이 가능한 값의 범위에 어떻게 퍼져있는지, 특정 값이나 범위가 관측되는 빈도를 통해 데이터를 설명한다. Mean, Median, Mode, Range, Variance, Standard Deviation 등 기초 통계량은 패스 IQR은 데이터의 중간 50%가 차지하는 범위로, 3사분위수에서 1사분위수를 뺀 값을 의미한다. (Q3 - Q1) Skewness는 분포의 비대칭 정도를 의미하고, Kurtosis는 분포가 얼마나 뾰족한지를 의미한다. (정규분포..
[Data Science] Data Acquisition and Visualization
[Data Science] Data Acquisition and Visualization
2026.03.28데이터를 수집할 때 내가 어떤 데이터를 얼마나 필요하고 어떻게 구하는지도 중요하지만 가장 중요한 건 관련된 법적 문제가 없는지 확인하는 것.. 소송 비용이 굉장히 크다. 현실 세계에서 데이터를 구하기 힘들어서 게임 속에서 데이터를 수집하더라도, 그 게임사와 저작권 문제가 얽힐 수 있다.사람이 점프하는 데이터를 구하기 힘들어서 마리오가 점프하는 데이터를 구했다고 하자. 이러면 닌텐도와 저작권 문제가 얽힐 수 있어 그 데이터를 바탕으로 논문을 작성하더라도 회사 법무팀에서 데이터셋 공개를 막을 수 있음. 데이터 수집 방법론으로는 CRISP-DM과 TDSP 가 있는데 그냥 그런게 있다 정도만 알기.. 데이터셋은 Primary Data와 Secondary Data / Cleaned Data와 Raw Data로 ..
[Data Science] Decision Tree & Regularization
[Data Science] Decision Tree & Regularization
2026.03.14Decision Tree는 데이터를 분류하기 위해 Y/N 으로 구성된 트리 구조로 이어붙인 모델. 아이디어는 굉장히 단순함.그런데 이걸 어떻게 학습시키는지가 문제.. Training ML 모델 중 제일 많이 사용되는 모델으로, 딥러닝 모델처럼 Training Data를 완벽하게 설명할 수 있도록 학습된다는 공통점이 있음.그러니 일단 오버피팅으로 만들고 Training과 Validate가 비슷해지도록 조작한다. 모델을 처음부터 적당히 학습시키려고 하면 어디에서 멈춰야 하는지에 대한 기준이 없음.그러니 일단 Training Set을 제대로 설명하는 복잡한 모델을 만들고, Validation Set 성능을 보면서 Complexity를 줄여나가는 식으로..딥러닝에서는 Early Stopping, Dro..
[Data Science] Regression & Classification
[Data Science] Regression & Classification
2026.03.07머신러닝에서 이미 공부한 내용이지만 간단하게 훑어보고 넘어가자. Regression 에서 Model은 그냥 함수로 생각하면 됨. Constant Model은 평균값을 뱉어내는 함수로 보면 된다.저기서 Theta는 Parameter로, 데이터를 통해 추정하는 값이다. 중력가속도 g도 사실 계산을 통해 얻은 값이니 Parameter라고 볼 수 있음. 수식에서 x y 값은 그냥 주어지는 값이니까 Parameter가 아니다. 저기서는 x y 값이 Constant. Theta에 hat이 붙어있으면 Estimated Parameter로 Best Fit한 Parameter라고 보면 됨. hat이 붙어있지 않으면 Model Parameter. 모델링 과정은 크게 4가지로 구분된다. 1. Choos..