本系統提供使用者利用字形相關資訊或直接用電腦編碼查詢到所要需的漢字,進而得到此字體的相關屬性以及相關異體字,首先使用者需先對漢字構形以及中文編碼有基本的認識,以下是簡略的介紹。
【部件與構字式】:漢字可以說是由許許多多的小部件所組成,部件就像是小小的建築積木,每一個漢字都是由數個部件堆砌而成;根據中央研究院文獻處理實驗室的統計,所有的基本部件總數為1316個,也就是說,每一個漢字都可以由這些基本部件來組成;當一個漢字用一組部件來表示的時候,這一組部件我們稱之為構字式。
【何謂編碼】: 若非從事電腦工作的人,一般大眾對於中文碼,或是編碼一類名詞都顯得相當陌生,行政院主計處電子處理資料中心及中文數位化技術推廣基金會於全字庫網站上對於「中文碼」的定義為-『依照一套固定的規則,針對指定的中文字集內的每一個字或符號,編訂相對應的代碼,以方便電腦資訊之處理與應用』。於是,講明白就是在電腦資訊處理上,我們必須針對每一個的漢字給定一組特定的編碼,就好比學校將每一個學生編訂一組學號,此謂編碼,每一個學生都有一組特定的學號來代表本身,就好比每一組中文編碼都代表著特定的漢字,如此應該不難理解。
稍微了解電腦資料處理的人都應該知道,在電腦開始使用的時候,所有的字都只用 1byte 來儲存, 1byte 包含 8bits,每個 bits 都只能表示 on/off, 也就是 1byte 只能表示 0000 0000 到 1111 1111 的編碼範圍, 只有 256 個編碼空間,這對中文而言,是不夠的。
我們知道中文字在目前常見的電腦上是由兩個位元組(two bytes) 所編碼組成的。 最常見的編碼方式有台灣地區所通行的 Big5 編碼,及大陸地區所使用的 GB 編碼。而且開頭的位元組幾乎都是大於 128 的數值,也就是所謂 non-ASCII 碼的範圍(ASCII 是指小於 128 的編碼)。
字集(Character Set)是一組符號或文字的組合, 而編碼(Encoding)則是將這一組符號或文字以適當的方式編入位元組中, 以便電腦能夠表示與儲存。 目前現有的字集如中文字集、英文字集、日文字集等, 而中文編碼則是選取部份或全部字集中的部分或全部字, 給予一個號碼,如Big5 包含部分中文字集、英文字集、部分日文字集等。
接下來就是萬碼奔騰,眾多中文編碼標準的問題, 目前台灣使用的中文編碼存在許多問題,第一是中文編碼有數種 Big5、CCCII、CNS11643、Big5E、Big5+、ISO 10646、CP950, 每個編碼所包含的中文字數不同,編碼方式也不相同, 而且大部分都沒有標準規格, 第二是常用的 Big5 編碼字數不足。
雖然常用的 Big5 已經使用 2bytes 來表示中文字,但是 2bytes = 16bits = 2^16 = 65536 個編碼空間, 以 Big5 的標準而言,為了要和 ASCII 能夠相容,只能使用兩萬多字, 現存的中文字最少在七萬以上,造成許多字在 Big5 的系統下, 無法使用。在加上中文標準繁多,卻又沒有最後的標準規格, 各家廠商所實做產品也就未必相容。 最明顯的例子就是日文平假片假名, 在這些中文編碼中並不是每個都包含, 當遇到所謂的「Big5日文」時,就會產生許多問題。
為了解決編碼字數不足的問題,我們可以使用國際標準ISO/IEC 10646-1: 1993廣用多八位元編碼字元集(unicode),此為一套用來表示、傳輸、交換、處理、儲存、輸入和表達等多用途的全球編碼標準。目前因為有Unicode Consortium組織的全力推廣與實作介紹,故得到全球各大廠商與資訊界的重視。這套編碼字元集,幾乎已包括了全球已定義好完整字集的各種語言文字,並且仍在持續擴充中。
其目標為收納全球所有的語言文字,目前已包含有數十個國家標準及整理完善的字元集,並持續擴充中。字集大且廣的優點是,全球所有的字碼使用、交換、傳輸等都完全一致,不需要因為不同國家使用不同的字碼集而設計不同的版本,或是靠轉碼或對照表互換,也不需要擔心字碼在不同系統或平台而無法顯示。但是也有缺點,即所有已使用電腦處理之資訊系統都必需改用此套廣用集;另外,Unicode組織在定義字碼的時候,決定以字形為基礎,將中日韓文使用到的漢字(簡稱CJK)統一在同一張碼表。也就是說,如果兩個字的字形(glyph)相同,即使這兩個字在不同國家的意義不一致,這兩個字就共用同一個字碼。例如「机」字,在中文,這個字是「機」字的簡寫;在日文,這個字卻是茶几的意思。然而,如果一個字在各國的字形各不相同,那麼,不論二者的差別有多細微,這兩個字形的Unicode字碼(codepoint)就不同。台灣使用的繁體字和中國通用的簡體字就常出現這個狀況,更遑論CJK文字混用的狀況了。例如「吳」、「說」、「悅」。吳字由於台灣、中國、日本的寫法略有差異,因此,共有三個不同的Unicode字碼;至於說、悅等字,台灣的兌字上端是正八,中國則慣用倒八,差異雖小,也都有各自的Unicode字碼。此外,一些偏旁簡化字(例如,「金」字邊的「銀」字),字形差異不大,對應的繁簡體的Unicode字碼卻也各不相同。
儘管有以上問題存在,但是,使用Unicode編碼的文章,具有同時兼容並蓄多國文字的好處。例如,常使用Windows 2000注音法的使用者,可能已經留意到在同音字的選項當中,不只簡體字已經在列,日本的漢字也在其中。因此,一般預期Unicode的應用將會越來越普及,實在不容忽視。