[디지털데일리 조윤정기자] 바이낸스가 데이터 처리 과정의 비효율을 개선하고 시스템 안정성을 확보하기 위해 자체 개발한 '스몰파일닥터' 프레임워크를 도입했다고 16일 밝혔다.
대규모 데이터 웨어하우스에서 발생하는 스몰 파일은 메타데이터 처리 부담을 늘리고 읽기 증폭 및 지연 시간 악화를 초래한다. 바이낸스는 이를 해결하기 위해 수작업이 아닌 상시 운영 가능한 자동화 프레임워크를 구축했다.
이 시스템은 S3, HDFS 등 스토리지 메타데이터를 분석해 파일 수와 크기 분포를 파악한다. 파일 수가 과도하게 많거나 크기가 작은 디렉터리를 선별한 뒤 데이터 소비 패턴에 따라 최적화 우선순위를 정한다. 이후 대상 디렉터리의 실제 파일 크기를 목표치인 256MB와 비교해 병합 여부를 결정하며 효과가 미미한 반복 작업은 방지한다.
바이낸스는 클러스터 과부하를 막기 위해 파일 최적화 작업을 오프피크 시간대에 실시하고 동시 실행 수를 제한하고 있다. 모든 작업은 테이블과 파티션별 상태를 기록하는 거버넌스 로그로 관리된다. 이를 통해 작업이 중단되더라도 중복 처리 없이 해당 지점부터 재개할 수 있는 안정성을 갖췄다.
현재 바이낸스는 해당 프레임워크로 533개 테이블을 최적화해 5900만개에 달하던 스몰 파일을 290만개 수준으로 줄였다. 이를 통해 연간 약 9만달러(약 1억2600만원)~10만달러(약 1억4000만원) 규모의 컴퓨트 및 스토리지 비용을 절감하는 성과를 거뒀다.
향후 스케줄러와 통합해 파티션 생성 시 최적화가 완료된 후 데이터에 접근하도록 구조를 고도화할 방침이다.
바이낸스 관계자는 "스몰 파일 닥터는 데이터 규모와 서비스 복잡성이 증가하는 환경에서 바이낸스의 시스템 안정성을 유지하는 데 중요한 역할을 하고 있다”며 “지속적인 프레임워크 고도화를 통해 ‘보이지 않는 병목’을 유발하는 스몰 파일 문제를 근본적으로 해결하겠다”고 말했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
시스템 안정성 강화













