人気のページ
- 1年以上放置してたWindows Updateが全然進まない件→解決 (108507)
- リモートデスクトップの反応が鈍く描画がカクつく問題を直す (46468)
- Firefoxの消えてしまった「以前のセッションを復元」を復元 (45150)
- バイトオーダーの変換(バイトスワップ) (37830)
- Windows 10の回復パーティションを新しく作る (36630)
- SambaマシンがWindowsの「ネットワーク」に表示されない時の対処方法 (15985)
- Windows 10 1903のRDPが固まる問題はWDDMドライバ無効で回避できるっぽい (14799)
- MacのUSB 3.0が遅くなる問題(USB 2.0で認識される) (12724)
- C#のstring.Trim()は全角スペースまで削って下さりやがる (10210)
- ebayで買い物したらi-Parcelで送られてきたでござるの巻 (9115)
新着記事
2021-01-24
- 雑多なメモ 作成
2021-01-20
最近の変更
2021-01-24
貴重な情報ありがとうございます。
まあまあ。
BOMつきUTF-8が糞仕様なことには同意します。でも、Unicodeの仕様書のどこかに「UTF-8にするならBOMはつけるな」とハッキリ書いてあったような気がするんです。つまり、そもそもBOMをつけること自体が、Shift_JISやWindows-125xとUTF-8とを識別するための苦肉の策、というのがボクの見解です。
以下、既にご存知だと思いますので「宗教講話」のつもりでお聞き流しください。
違います(キッパリ)。
実は漢字の統合については、元々の仕様では32bit空間の中に各国のISO-2022-Xシリーズをそっくりそのまま移植する予定だったけれど、中国が強硬に反対して今の形になった、ということだそうです。参考:Wikipedia「CJK統合漢字」https://ja.wikipedia.org/wiki/CJK%E7%B5%B1%E5%90%88%E6%BC%A2%E5%AD%97(当該部分に「要出典」タグがついていますけど)。
ちなみに、今はBMPに加えて漢字専用に確保されたU+2xxxxの領域がほぼ埋まって、そのあとはU+3xxxxも丸ごと漢字関係に使うことが既定路線になっています。
それに、CJK統合に関しては、欧米人がメインだとは思いますが漢文学・漢字学の専門家が多数参加していたはずです。日本でロシア文学を研究している人がいるように、向こうにも漢籍とか平家物語とかを研究している人たちがいるわけですね。「歯」とか「亀」とかの部首が立てられていない、という批判はありますが、これは、「確かに起源としては固有のものなんだろうけど、今となっては、非漢字圏の人が中国語・日本語を学ぶときに混乱のもとになる」ということで、向こうでは別のメジャーな部首の中に入れるのが定石なんだと思います。(a Chinese-English Dictionary が手元にないので未確認ですが。)
あと、統合してくれたおかげで、JIS X0208ベースで普通に書いた文章がそのまま中国でも読んでコピペできて、逆にGB 2312ベースで普通に書いた文章が日本でも普通にコピペできて、というありがたみのほうを重視すべきかと思います。今は異体字セレクタがU+Exxxx領域にありますし。
統合に関しては、ローマ字圏のほうが「ISO-8859-Xを別々に収録すること」への抵抗が強かったと想像します。
たとえば、紙データ・ビットマップデータにU+00E4の「ä」が書いてあったとしますよね。これはISO-8859の複数のセットで0xE4にマップされているわけですが(ISO-8859では同形の文字には、収録されていればどの枝番でも同じコードポイントが割り当てられています)、OCRにかけるときにはそのどれに割り当てるのよ、という問題が出てきます。
それにそもそもこの「¨」の記号、ゲルマン系で使うウムラウト(アではない別の音で発音することを示す記号)なのか、それともロマンス系で使うトレマ(前の母音と一緒にせずに単独のアとして発音することを示す記号)なのか、この文字単独では判然としませんし、LaTeXのソースとかでもウムラウトとトレマとは区別されませんので、原理的に区別不能なものは単一のコードポイントにしてしまえ、となるのは自然な流れだと思います。
…で、こちらは結局、HTMLのタグに chat とか chat とか書くわけですが、こちらのほうがボク的には糞仕様なように思います。
でわでわ。