Data-cleaning은 데이터 분석이나 머신러닝 모델 학습을 수행하기 전에 원시 데이터(raw data)에서 오류, 중복, 누락된 값, 혹은 잘못된 형식의 정보를 수정하거나 제거하여 데이터의 품질을 높이는 과정을 의미하는 명사입니다. IT 및 데이터 과학 분야에서 매우 빈번하게 사용되는 전문 용어로, 흔히 '데이터를 닦아낸다'는 비유적 표현을 통해 데이터의 불순물을 제거한다는 뉘앙스를 담고 있습니다. 데이터 분석 과정에서 가장 많은 시간을 할애해야 하는 필수적인 단계로, 단순히 데이터를 정리하는 것을 넘어 분석 결과의 정확성과 신뢰도를 결정짓는 핵심적인 작업입니다. 비슷한 용어로 data cleansing이나 data scrubbing이 있으며, 이들은 모두 같은 의미로 혼용됩니다. 비즈니스 환경에서는 데이터의 무결성을 확보하기 위한 필수적인 절차로 간주되며, 데이터 엔지니어링이나 데이터 분석 직무에서 매우 중요한 기술적 역량으로 평가받습니다.