문자열 길이·바이트 카운터(개발)

문자열을 입력하면 글자 수와 UTF-8 바이트, EUC-KR(CP949) 바이트를 즉시 계산합니다. DB 컬럼 길이 설계, API 응답 크기 점검, 한글 바이트 수 확인에 활용하세요.

계산 기준 안내
· 글자 수: 자바스크립트 length 기준(서로게이트 쌍 포함) + 실제 문자(코드포인트) 개수
· UTF-8 바이트: 브라우저 TextEncoder로 정확 계산 (한글 3B, 영문 1B)
· EUC-KR 바이트: 한글·한자 등은 2B, ASCII는 1B로 추정(참고용)
계산 결과

인코딩별 바이트 기준표

문자 종류UTF-8EUC-KR
영문·숫자·기본기호 (ASCII)1바이트1바이트
라틴 확장·일부 기호2바이트1~2바이트
한글·한자·일본어3바이트2바이트
이모지·보충 영역4바이트미지원

문자열 바이트, 글자 수와 함께 정확하게

개발을 하다 보면 "이 문자열이 몇 바이트일까?"라는 질문을 자주 만납니다. 데이터베이스의 VARCHAR(n) 컬럼을 설계할 때, API 요청·응답의 페이로드 크기를 점검할 때, SMS·푸시 메시지의 길이 제한을 맞출 때 모두 글자 수가 아니라 바이트 수가 기준이 되기 때문입니다. 이 문자열 바이트 카운터는 입력한 텍스트의 글자 수와 함께 UTF-8 바이트, EUC-KR(CP949) 바이트를 동시에 계산해, 한글 바이트 계산과 utf8 바이트 계산을 한 화면에서 끝낼 수 있게 해줍니다.

글자 수와 바이트 수가 다른 이유

글자 수는 사람이 눈으로 세는 문자의 개수이고, 바이트 수는 컴퓨터가 그 문자를 저장할 때 실제로 쓰는 용량입니다. 영문 알파벳·숫자·기본 기호는 대부분 1글자가 1바이트지만, 한글은 인코딩에 따라 2바이트 또는 3바이트를 차지합니다. 예를 들어 "한글"이라는 두 글자는 UTF-8에서 6바이트(글자당 3바이트), EUC-KR에서 4바이트(글자당 2바이트)가 됩니다. 같은 글자 수라도 인코딩이 다르면 바이트 수가 달라지므로, 저장 공간이나 전송량을 다룰 때는 반드시 바이트 단위를 확인해야 합니다.

UTF-8 바이트 계산 규칙

UTF-8은 가변 길이 인코딩으로, 유니코드 코드포인트의 범위에 따라 1~4바이트를 사용합니다. ASCII 영역(U+0000~U+007F)은 1바이트, 라틴 확장이나 일부 기호(U+0080~U+07FF)는 2바이트, 한글을 포함한 대부분의 다국어 문자(U+0800~U+FFFF)는 3바이트, 이모지나 희귀 한자 같은 보충 영역(U+10000 이상)은 4바이트입니다. 이 도구는 브라우저에 내장된 TextEncoder API를 사용해 추정이 아니라 실제 인코딩 결과로 정확한 UTF-8 바이트 수를 계산합니다.

EUC-KR 바이트와 이모지 처리

EUC-KR(CP949)은 한국에서 오래 쓰여온 인코딩으로, ASCII 문자는 1바이트, 한글·한자·전각 기호 등은 2바이트로 표현합니다. 다만 이모지나 EUC-KR이 지원하지 않는 일부 문자는 표현 자체가 불가능하므로, 이 도구의 EUC-KR 결과는 ASCII 1바이트·그 외 2바이트 규칙에 기반한 참고용 추정치입니다. 또한 이모지처럼 큰 코드포인트 문자는 자바스크립트 문자열에서 서로게이트 쌍(코드 유닛 2개)으로 저장되므로, 단순 length로는 2로 세어집니다. 그래서 이 카운터는 length 기준 글자 수와 사용자가 인식하는 실제 문자(코드포인트) 개수를 함께 보여줍니다.

이 도구 활용법

모든 계산은 사용자의 브라우저에서 순수 자바스크립트로 처리됩니다. EUC-KR 결과는 표준 규칙에 따른 참고용 추정이며, 실제 저장 환경의 인코딩 설정에 따라 미세하게 달라질 수 있습니다.

자주 묻는 질문 (FAQ)

Q. 한글 한 글자는 몇 바이트인가요?

A. UTF-8에서는 보통 3바이트, EUC-KR(CP949)에서는 2바이트입니다. 영문·숫자는 두 인코딩 모두 1바이트입니다.

Q. UTF-8 바이트 수는 어떻게 계산하나요?

A. 코드포인트 범위에 따라 1~4바이트가 부여됩니다. 이 도구는 브라우저 TextEncoder로 실제 인코딩 결과를 측정해 정확한 값을 보여줍니다.

Q. 글자 수와 바이트 수는 왜 다른가요?

A. 글자 수는 문자 개수, 바이트 수는 저장 용량입니다. 한글·이모지는 1글자가 여러 바이트를 차지하므로 DB·API 크기는 바이트로 확인해야 합니다.

Q. 이모지는 길이가 어떻게 세어지나요?

A. 자바스크립트 length로는 2(서로게이트 쌍)로 세어지고, 실제 문자 개수는 1, UTF-8 바이트는 보통 4바이트입니다. 이 도구는 두 기준을 함께 표시합니다.