Question 1

CJK를 Unicode 그대로 두지 않고 로마자화하는 이유는?

Accepted Answer

브라우저는 Unicode URL을 무리 없이 처리하지만 그 이후의 경로는 항상 그렇지 않습니다. 서버 로그, Slack 스니펫, 이메일에 복사된 링크, 분석 대시보드, 모니터링 도구, 다수의 CLI가 비-ASCII 경로를 망가뜨리거나 퍼센트 인코딩 주문(`%EC%84%9C%EC%9A%B8`)으로 표시합니다. ASCII 슬러그는 모든 경로를 살아남습니다. 대가는 URL 바에서 스캔하기 약간 어려워진다는 것이고, 얻는 것은 로그와 대시보드의 가독성입니다. CJK URL을 남기는 팀도 있고 로마자화를 택하는 팀도 있습니다. 견딜 수 있는 쪽의 고통을 고르세요.

Question 2

`café`의 악센트는 제거되나요, 유지되나요?

Accepted Answer

제거됩니다. 이 도구는 Unicode NFKD 정규화를 실행해 `é`를 기저 글자 `e`와 결합용 어큐트 악센트(U+0301)로 분해한 뒤 결합 마크를 모두 삭제합니다. `naïve` → `naive`, `crème brûlée` → `creme-brulee`처럼 됩니다. 이것은 대부분의 CMS 슬러그 생성(WordPress·Hugo·Jekyll 등)과 같은 동작입니다. 악센트를 유지한 슬러그가 필요하면 URL을 Unicode 그대로 두어야 합니다. 순수 ASCII 규칙과 악센트 보존은 양립하지 않습니다.

Question 3

슬러그는 얼마나 길어야 좋나요?

Accepted Answer

의미 있는 단어 3~5개, 소프트 상한 60~75자를 목표로 하세요. Google의 SEO 문서에는 엄격한 상한이 없지만 "짧고 설명적이게"라고 적혀 있습니다. 검색 결과 스니펫에서는 URL이 약 60자 부근에서 시각적으로 잘립니다. 로그와 대시보드는 전체 경로를 표시할 수 있지만 200자 경로는 SNS 미리보기에서 스팸처럼 보이고 음성으로 공유하기도 어렵습니다. WordPress는 기본적으로 상한이 없고 Hugo·Jekyll·주요 정적 사이트 생성기도 긴 슬러그를 받지만 제목 자체를 짧게 두는 편이 권장됩니다.

Question 4

한자가 일본어 음 대신 핀인으로 나오는 이유는?

Accepted Answer

한자를 일본어 음으로 매핑하려면 사전 조회가 필요합니다. `日`은 `nichi`·`hi`·`jitsu` 또는 `nihon` 같은 숙어의 일부가 될 수 있고, 정답은 문맥에 의존합니다. 형태소 분석기(kuromoji·MeCab)를 내장하지 않으면 도구가 메가바이트급 사전 데이터를 들고 있어야 해서, Unicode CJK Unified Ideographs 블록에 기반한 글자 단위 로마자화(`日` → `ri` 같은 핀인 풍)로 폴백합니다. 일본어 비중이 높은 제목은 슬러그 필드에 손으로 로마지를 적거나, 사전을 가진 CMS 플러그인을 함께 쓰세요.

Question 5

아포스트로피 — `don't`가 `don-t`가 아니라 `dont`가 되는 이유는?

Accepted Answer

아포스트로피는 앞뒤 글자가 같은 단어에 속하므로 구분자를 끼우지 않고 제거됩니다. `don-t-think`은 읽기 어색하고 단어 인식을 깨뜨립니다. `dont-think`이 독자의 기대에 맞습니다. 대부분의 슬러그 라이브러리도 동일한 처리를 합니다. 스타일 가이드가 어떤 이유로 아포스트로피 분할을 요구한다면 출력을 한 번의 치환으로 후처리하세요.

Question 6

불용어(`the`·`a`·`is` 등) 제거가 가능한가요?

Accepted Answer

내장되어 있지 않습니다. 이 도구는 입력에 충실한 결과를 돌려주는 방침입니다. 불용어 제거는 "어느 것을 불용어로 볼지"가 주관적이고 언어에도 의존합니다. "10 ways to improve your SEO"를 "10-ways-improve-your-seo"로 줄이면 몇 글자와 가독성의 약간을 맞바꿉니다. 최근 SEO 통설에서는 짧은 불용어를 슬러그에 남기는 편이 좋다고 봅니다. 그래도 깎고 싶다면 출력에 sed 한 번을 돌리거나 손으로 편집하세요. 남겨 두어도 해가 없습니다.

URL 슬러그 생성기

사용법

예제

한국어 제목 → 로마자 ASCII 슬러그

일본어 혼합 제목 → 헤본식 슬러그

악센트가 든 라틴 제목, 길이 제한 적용

자주 묻는 질문

CJK를 Unicode 그대로 두지 않고 로마자화하는 이유는?

`café`의 악센트는 제거되나요, 유지되나요?

슬러그는 얼마나 길어야 좋나요?

한자가 일본어 음 대신 핀인으로 나오는 이유는?

아포스트로피 — `don't`가 `don-t`가 아니라 `dont`가 되는 이유는?

불용어(`the`·`a`·`is` 등) 제거가 가능한가요?

관련 개념

관련 글

퍼센트 인코딩: 예약 문자와 이중 인코딩 버그

URL 슬러그화: 유니코드, 발음구별부호, 충돌

관련 도구

영문주소 변환기 (한국)

글자수 카운터

케이스 변환기

Lorem Ipsum 생성기