Logo Logo
Yükleniyor...

Metinden Unicode Çevirici

Metni Unicode’a Dönüştür

Metin (Giriş)
Hazır
İpucu: Emoji ve Türkçe karakterlerle test edin; UTF-16 ve Code Point formatları farklı davranabilir.
Unicode (Çıktı)
Çıktıyı direkt JSON/JS string içine koyacaksanız “\uXXXX” formatı en uyumludur.
Unicode Kodları (Giriş)
Hazır
Desteklenen örnekler: \u0041, \u{1F680}, U+0041, 0x41, A, A.
Metin (Çıktı)
Otomatik mod metin içindeki Unicode token’larını yakalar; katı mod yalnız token listesi bekler.

Metin–Unicode Dönüştürücü Hakkında

Bu araç, herhangi bir metni farklı Unicode gösterimlerine dönüştürür ve Unicode biçiminde yazılmış kodları tekrar okunabilir metne çevirir. Yazılım geliştirme, veri temizleme, log analizi, JSON/JS kaçış dizileri ve HTML entity işlemleri gibi alanlarda pratik bir “çevirmen” gibi çalışır.

Unicode, dünyadaki hemen her yazı sistemini ve sembolü tek bir standart altında tanımlayan bir kodlama evrenidir. Bu sayede “Ş”, “ğ”, “你”, “🚀” gibi karakterler güvenilir biçimde temsil edilebilir.

Text → Unicode tarafında metindeki karakterler okunur ve seçtiğiniz formata göre (\uXXXX, \u{X}, U+XXXX, &#xX;) çıktı üretilir. Unicode → Text tarafında ise bu token’lar yakalanır ve gerçek karakterlere dönüştürülür.

  • UTF-16 \uXXXX modu: En uyumlu moddur; emoji gibi karakterleri iki adet \uXXXX (surrogate) olarak verebilir.
  • \u{X} ve U+XXXX: Kod noktası (code point) bazlıdır; emoji gibi karakterleri tek parça gösterebilir.
  • HTML entity: Web sayfalarında güvenli gösterim için sık kullanılır.

Tek bir “doğru format” yok; hedef platforma göre seçmek gerekir. Bu modül, farklı ekosistemlerin beklentilerini tek ekranda toplar.

  • JS \uXXXX: JSON/JS string içinde güvenli, klasik ve yaygın.
  • JS \u{X}: Modern JS (ES6+) projelerinde daha okunaklı.
  • U+XXXX: Dokümantasyon, font/typography işleri ve teknik iletişim için ideal.
  • &#xX;: HTML içinde karakterleri bozmadan taşımak için ideal.

Otomatik mod, metin içinde geçen Unicode token’larını dönüştürür ve diğer kısımları olduğu gibi bırakır. Katı mod ise “token listesi” bekler; hatalı token yakalarsa durur ve uyarır (özellikle veri temizleme işlerinde daha güvenlidir).

  • \uD83D\uDE80 gibi surrogate çiftleri otomatik olarak tek karakter gibi görünür.
  • “Öneksiz HEX kabul et” seçeneği, sadece token listesi gibi görünen girdilerde devreye girer.
  • HTML entity ve U+ formatları karışık olsa bile otomatik mod genelde doğru sonucu üretir.

Unicode dünyası basit görünür ama pratikte birkaç klasik tuzak vardır. Bu modülün seçenekleri bu tuzakları görünür kılar.

  • Emoji ve nadir karakterler: 0xFFFF üstü code point’lerde UTF-16 ile code point formatı farklı sonuçlar verir.
  • Kaçış dizisi karışıklığı: \u0041 (A) ile U+0041 aynı şeydir ama kullanım yeri farklıdır.
  • Öneksiz “0041” gibi girdiler: Normal metin mi token mı belirsiz olabilir; bu yüzden varsayılan kapalıdır.
  • Kopyalama/taşıma: Bazı ortamlarda backslash kaçabilir; çıktı formatını hedefe göre seçin.

Neden bazen emoji iki tane \uXXXX olarak çıkıyor?
Çünkü JS \uXXXX formatı UTF-16 code unit mantığıyla çalışır. Emoji gibi karakterler UTF-16’da “surrogate pair” ile temsil edilir; bu normaldir ve çoğu yerde en uyumlu çözümdür.
JSON içinde en güvenli kullanım hangisi?
Genelde \uXXXX (UTF-16) formatı en sorunsuz olandır. Modern projelerde \u{X} de kullanılır ama hedef ortamınızın desteklediğinden emin olun.
U+XXXX ile \u{X} aynı şey mi?
İkisi de code point’i ifade eder; biri dokümantasyon gösterimi (U+), diğeri JS kaçış dizisidir (\u{...}).