Question 1

CJK を Unicode のまま使わずローマ字化するのはなぜですか？

Accepted Answer

ブラウザは Unicode URL を問題なく扱いますが、その先の経路は必ずしもそうではありません。サーバログ、Slack のスニペット、メールにコピペされたリンク、解析ダッシュボード、監視ツール、多くの CLI は非 ASCII パスを壊したり、パーセントエンコードの呪文(`%EC%84%9C%EC%9A%B8`)として表示したりします。ASCII スラッグはあらゆる経路を生き残ります。代償は URL バーでのスキャン性がやや落ちることで、得られるのはログとダッシュボードの可読性です。CJK URL を残すチームもあれば、ローマ字化を選ぶチームもあります。耐えられるほうの痛みを選んでください。

Question 2

`café` のアクセントは除去されますか、保持されますか？

Accepted Answer

除去されます。本ツールは Unicode の NFKD 正規化を実行し、`é` を基底文字 `e` と結合用アキュートアクセント(U+0301)に分解した後、結合マークをすべて削除します。`naïve` → `naive`、`crème brûlée` → `creme-brulee` のようになります。これは多くの CMS のスラッグ生成(WordPress・Hugo・Jekyll など)と同じ挙動です。アクセントを保持したスラッグが必要なら URL を Unicode のまま保つ必要があります。純粋な ASCII ルールとアクセント保持は両立しません。

Question 3

スラッグはどのくらいの長さが望ましいですか？

Accepted Answer

意味のある単語 3〜5 個、ソフト上限 60〜75 文字を目安にしてください。Google の SEO ドキュメントには厳密な上限はありませんが、「短く、説明的に」と書かれています。検索結果のスニペットでは URL がおよそ 60 文字あたりで視覚的に切り詰められます。ログやダッシュボードはフルパスを表示できますが、200 文字のパスは SNS プレビューでスパムっぽく見え、口頭で共有するのも困難です。WordPress は既定で上限なし、Hugo・Jekyll・主要な静的サイトジェネレータも長いスラッグを受け付けますが、タイトル自体を短くすることが推奨されています。

Question 4

漢字が日本語読みではなく拼音で出るのはなぜですか？

Accepted Answer

漢字を日本語読みに対応付けるには辞書照合が必要です。`日` は `nichi`・`hi`・`jitsu`、または `nihon` のような熟語の一部にもなり、正解は文脈に依存します。形態素解析器(kuromoji・MeCab など)を組み込まないと、ツールがメガバイト級の辞書データを抱える必要が出てくるため、Unicode CJK Unified Ideographs ブロックに基づく文字単位のローマ字化(`日` → `ri` のような拼音風)にフォールバックします。日本語比重の高いタイトルでは、スラッグ欄に手書きの romaji を入れるか、辞書を持つ CMS プラグインを併用してください。

Question 5

アポストロフィ — `don't` が `don-t` ではなく `dont` になるのはなぜですか？

Accepted Answer

アポストロフィは前後の文字が同じ単語に属するため、区切り文字を挟まず除去します。`don-t-think` は読みづらく、単語認識を壊します。`dont-think` のほうが読み手の期待に合致します。多くのスラッグライブラリも同じ処理です。スタイルガイドが何らかの理由でアポストロフィでの分割を求める場合は、出力をワン置換で後処理してください。

Question 6

ストップワード(`the`・`a`・`is` など)を除去できますか？

Accepted Answer

組み込みではありません。本ツールは入力に忠実な結果を返す方針です。ストップワード除去は「どれをストップワードとするか」が主観的で、言語にも依存します。「10 ways to improve your SEO」を「10-ways-improve-your-seo」に縮めると、わずかな文字数と引き換えに可読性をほんの少し落とします。最近の SEO の通説では短いストップワードはスラッグに残すべきとされています。それでも削りたい場合は出力に対して sed を一発走らせるか、手で編集してください。残したままでも害はありません。

URL スラッグジェネレーター

使い方

例

韓国語タイトル → ローマ字 ASCII スラッグ

日本語の混在タイトル → ヘボン式スラッグ

アクセント付きラテン語タイトル、長さ制限あり

よくある質問

CJK を Unicode のまま使わずローマ字化するのはなぜですか？

`café` のアクセントは除去されますか、保持されますか？

スラッグはどのくらいの長さが望ましいですか？

漢字が日本語読みではなく拼音で出るのはなぜですか？

アポストロフィ — `don't` が `don-t` ではなく `dont` になるのはなぜですか？

ストップワード(`the`・`a`・`is` など)を除去できますか？

関連する概念

関連記事

パーセントエンコーディング: 予約文字と二重エンコードのバグ

URL のスラッグ化: Unicode・発音区別符号・衝突

関連ツール

韓国住所 → 英語表記コンバーター

文字数カウンター

ケースコンバーター

Lorem Ipsum 生成