Sub-dataset은 전체 데이터셋(full dataset)에서 특정 기준이나 목적에 따라 일부만을 추출하거나 분리해낸 데이터의 집합을 의미하는 명사입니다. 주로 데이터 과학, 머신러닝, 통계학 분야에서 사용되며, 모델의 학습 효율을 높이거나 특정 변수 간의 관계를 집중적으로 분석하기 위해 전체 데이터의 일부를 떼어낼 때 사용합니다. 유사한 표현으로는 subset이 있는데, subset은 수학적이나 일반적인 집합의 개념에서 더 넓게 쓰이는 반면, sub-dataset은 데이터 분석의 맥락에서 데이터의 구조를 유지한 채로 분리된 데이터 덩어리라는 점을 강조합니다. 격식 있는 기술 문서나 연구 논문에서 주로 사용되는 전문 용어이며, 일상적인 대화에서는 거의 쓰이지 않습니다. 데이터셋을 나눌 때는 보통 무작위 추출(random sampling)이나 특정 조건(filtering)을 적용하여 생성하며, 이렇게 만들어진 sub-dataset은 모델의 과적합을 방지하거나 계산 비용을 줄이는 데 매우 중요한 역할을 합니다.