Unicode | 練炭ブログ

DMonkey: Shift_JIS → UTF-8 → Shift_JIS の変換

2012年02月14日 02:19 - Irvine

HTML の文字参照を UTF-8 にデコードするルーチンを作っているんですが、ページの文字コードが Shift_JIS だと使えない（文字列をそのまま突っ込むと Shift_JIS と UTF-8 が混在する結果になってしまう）ので、あらかじめ UTF-8 に変換してからデコードして、その後 Shift_JIS に戻す手順ならどうだろう、という流れで変換によって文字が変わってしまうことがあるかの調査。

参考：シフトJIS / EUC-JPとUnicodeとの妥当な変換表 | Netsphere Laboratories

function p (s) {

  var t = format ("before: 0x%.4x %s", s.charCodeAt (0), s);

NEC 特殊文字や IBM 拡張文字は JIS X 0208 へ変換されてしまいます。

むしろその方が良いかも知れませんが、入力と出力が同じ Shift_JIS なのに Shift_JIS に存在する文字が変換されてしまうのは多少気持ち悪いかも。

Shfit_JIS のままデコードする（実体参照は Unicode から Shift_JIS に変換する）ルーチンを UTF-8 用とは別に用意してみようかと思います。

U+005C がブラウザでどう表示されるか → 保存ファイル名としてどう変換するのが適切か、という点について後で調査。

Shift_JIS, UTF-8, Unicode

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

練炭ブログ

萌え壁紙、Irvine、DMonkey、Proxomitron などの情報を扱ってます。

YouTube でタイトルに結合文字が使われている例

DMonkey: Shift_JIS → UTF-8 → Shift_JIS の変換

カテゴリー

最近の投稿

アーカイブ

特設ページ

管理人

管理用メニューとRSS

Promotional Products