Internet Pirate Guild

2014-06-22

UTF-8 with BOM v.s. without BOM

「UTF-8」和「帶BOM的UTF-8」的區別就是有沒有BOM。即文件開頭有沒有U+FEFF。

UTF-8不需要BOM,儘管Unicode標準允許在UTF-8中使用BOM。所以不含BOM的UTF-8才是標準形式,在UTF-8文件中放置BOM主要是微軟的壞習慣(順便提一下:把帶有BOM的小端序UTF-16稱作「Unicode」而又不詳細說明也是微軟的壞習慣)。

BOM(byte order mark)是為UTF-16和UTF-32準備的,用於標記字節序(byte order)。微軟在UTF-8中使用BOM是因為這樣可以把UTF-8和ASCII等編碼明確區分開,但這樣的文件在Windows之外的操作系統中會帶來問題。

UTF-8的網頁代碼不應使用BOM,否則常常會造成<head>嵌套錯誤(指<head>內的信息會被瀏覽器理解為在<body>內),這是因為整個HTML文檔的最開頭多了一個看不見的U+FEFF(就在「<!DOCTYPE」前面),它污染了HTML。

2014-06-19

回車和換行


“回車”(carriage return)和“換行”(line feed)這兩個概念的來歷和區別。

在計算機還沒有出現之前,有一種叫做電傳打字機(Teletype Model 33)的玩意,每秒鐘可以打10個字符。
但是它有一個問題,就是打完一行換行的時候,要用去0.2秒,正好可以打兩個字符。要是在這0.2秒裡面,又有新的字符傳過來,那麼這個字符將丟失。

於是,研製人員想了個辦法解決這個問題,就是在每行後面加兩個表示結束的字符。
一個叫做“回車”,告訴打字機把打印頭定位在左邊界;另一個叫做“換行”,告訴打字機把紙向下移一行。

這就是“換行”和“回車”的來歷,從它們的英語名字上也可以看出一二。

後來,計算機發明了,這兩個概念也就被般到了計算機上。那時,存儲器很貴,一些科學家認為在每行結尾加兩個字符太浪費了,加一個就可以。
於是,就出現了分歧。

Unix系統裡,每行結尾只有“<換行>”,即“\n”;Windows系統裡面,每行結尾是“<換行><回車>”,即“\n\r”;Mac系統裡,每行結尾是“<回車>”。
一個直接後果是,Unix/Mac系統下的文件在Windows裡打開的話,所有文字會變成一行;而Windows裡的文件在Unix/Mac下打開的話,在每行的結尾可能會多出一個^M符號。