中文詞彙網路 CWN 2.0
CWN Logo

最新消息

CWN2.0 v.2022.08資料更新! 2022/08/01
釋義語言統計分析圖表已釋出 2022/06/25
CwnGraph 0.3.0 已釋出 2022/04/22
歡迎參與CWN詞意標記工作小組! 2022/02/01

直接下載 CWN 資料 CwnGraph Github

29,321
收錄詞條
29,433
詞意數量
12,620
同義詞集
59,993
詞意關係

關於 中文詞彙網路

CWN 簡介

中文詞彙網路(Chinse Wordnet,CWN),是一項試圖解決詞義(sense)以及詞彙語意關係(lexical semantic relations)的語言知識資源。中文詞網的核心元素是中文詞彙的同義詞集(synsets)以及連繫各詞集的語意關係;透過語意關係,將各個同義詞集連接起來,形成語意網絡。

中文詞彙網路累積了近二十年的研究成果,起初由中研院語言學研究所推動,於 2010 年完成。臺大語言所目前負責維護中文詞彙網路,並著力開發更廣泛且靈活的工具資源,例如:XML、SQLite格式、WordNet LMF資料格式等等。在數位人文的時代,附有標記的語料資料常是計算語言學與自然語言處理不可或缺的資源,更多語言的詞彙網路建立,也讓這項資源成為跨語言的研究素材。

中文詞彙網路收錄範圍為實詞(open class),亦即名詞、動詞、形容詞及副詞。第一次使用中文詞網,可以參考新手教學、快速上手/小工具。


架構

CWN裡的單詞之間主要關係是同義關係,例如「關和閉」、「車子和車」等同義詞。同義詞指的是表示相同概念,並且在許多情況下可以互換的無序單詞集合(同義詞集)。 CWN的1.2萬個同義詞集中的每一個都通過少量的「概念關係」連結到其他同義詞集。此外,同義詞集包含一個簡短定義(「釋義」),並且在大多數情況下,一個或多個簡短的句子說明了同義詞集中的單詞的用法。至於有多種不同含義的單詞形式,會以多種不同的同義詞集表示。因此,CWN中的每個形式含義對都是唯一的。


語意關係

同義詞集之間最頻繁編碼的關係是超從屬關係(也稱為上下位或ISA關係)。它將相對籠統的同義詞集(例如{植物})連結到相對具體的同義詞集(例如{花}和{杜鵑花})。因此,在CWN中,植物類別包括花,而花又包括杜鵑花。相對而言,花和杜鵑花等概念構成了植物類別。所有名詞層次最終都在根節點{事物}上。上下關係是遞移性的:如果杜鵑花是一種花,而花是一種植物,那麼杜鵑花是一種植物。 CWN區分類型(通用名詞)和實例(特定人員、國家/地區和地理實體)。因此,杜鵑花是花的一種,波蘭是國家的一個實例。實例和下位詞在其層次結構中始終是下位(子)節點。

另外一個語意關係是反義關係。成對的“直接”反義詞,例如乾-濕和老-少,反映了強烈的語義對比。這些極性形容詞中的每一個又與許多“在語義上相似”的形容詞相關:老與長、大、邁,少與小相關。語義上相似的形容詞是其另一極“形容詞”的“間接反義詞”。


跨詞性關係

CWN的大多數關係都將來自同一詞性(POS)的詞連結起來。因此,CWN實際上包含四個子網,每個子網分別用於名詞、動詞、形容詞和副詞,跨POS的關係很少。



相關人員



Member Position
謝舒凱 LOPE 實驗室 主持人
曾昱翔 LOPE 實驗室 博士後研究人員
江琼玉 LOPE 實驗室 研究人員
張淳涵 LOPE 實驗室 研究人員
古貿昌 LOPE 實驗室 博士生
王伯雅 LOPE 實驗室 博士生
陳韋伶 LOPE 實驗室 博士生
張鈺琳 LOPE 實驗室 碩士生
陳品而 LOPE 實驗室 碩士生
周昕妤 LOPE 實驗室 碩士生
莊詠甯
謝心默
許博翔
Member Position
黃居仁 中央研究院語言學研究所, 2000-2009
謝舒凱 國立台灣大學語言學研究所,2009-
研究發表

2020

Hsieh, Shu-Kai, Yu-Hsiang Tseng, Chiung-Yu Chiang, Richard Lian, Yong-fu Liao, Mao-Chang Ku, Ching-Fang Shih. (2020). From Sense to Action: A Word-Action Disambiguation Task in NLP. The 34th Pacific Asia Conferenceon Language, Information and Computation(PACLIC34). online. (Vietnam).

2019

Hsieh, S. K., Tseng, Y. H., Lee, C. Y., & Chiang, C. Y. (2019). Modeling the Idiomaticity of Chinese Quadra-syllabic Idiomatic Expressions. Paper presented in the 33rd Pacific Asia Conference on Language, Information and Computation. Hakodate, Japan.

Tseng, Y. H. & Hsieh, S. K. (2019). Augmenting Chinese WordNet semantic relations with contextualized embeddings. Paper presented in the 10th Global WordNet Conference. Wroclaw, Poland.

2018

Lee, Chih-Yao and Shu-Kai Hsieh. (2018). Sinitic Wordnet: Laying the Groundwork with Chinese Varieties Written in Traditional Characters. Global WordNet Conference.

Hsieh, S. K., Tseng, Y. H., Lee, C. Y., & Chiang, C. Y. (2018). Fluid Annotation: A Granularity-aware Annotation Tool for Chinese Word Fluidity. Paper presented in Eleventh International Conference on Language Resources and Evaluation. Miyazaki, Japan.

2017

謝舒凱,中文語料與詞彙知識地圖。陳浩然主編:語料庫與華語教學。高等教育出版社。

2016

Hsieh, Shu-Kai. (2016). Chinese Semantics. In: Sin-Wai Chan (ed). The Routledge Encyclopedia of the Chinese Language.

Chu-Ren Huang, Shu-Kai Hsieh and Ruying Chang. (2016). From Classical Poetry to Modern Ontology: Bridging the knowledge divide with a linked data approach. In: C.R.Huang(ed). Digital Humanities: Bridging the Divide. The Humanities in Asia Book Series. Springer.

Chen, Min-Hsin and Shu-Kai Hsieh. (2016). Degree Modification in Mandarin: A Case Study of Creative Degree Modifier 各種 [Gezhong]. In: Chinese Lexical Semantics, Volume 9332 of the series Lecture Notes in Computer Science. pp 255-261. Springer.

Huang, Tzu-Yun, H. C. Wu, C. C. Lee, S. M. Lee, G. W. Lee and Shu-Kai Hsieh. (2016). Crowdsourcing Experiment Designs for Chinese Word Sense Annotation. In: Proceedings of ROCLING XXIII: Conference on Computational Linguistics and Speech Processing.

Liu, Yu-Wen and Shu-Kai Hsieh. (2016). An Alternative Approach to Word Sense Disambiguation: Revisiting Sense Prototypicality in the Chinese Wordnet from Perspectives of Natural Language Acquisition. The 15th International Symposium on Chinese Languages and Linguistics (IsCLL-15).

2015

Huang, C. R. and Shu-Kai Hsieh. (2015). Chinese Lexical Semantics. In: William S-Y Wang and Chao Fen-Sun (eds). The Oxford Handbook of Chinese Linguistics. Oxford University Press. ISBN:978-0-19-985633-6.

Lee, Chi-Yao and Shu-Kai Hsieh. (2015). Linguistic Linked Data in Chinese. The 4th Workshop on Linked Data in Linguistics, ACL 2015.

2014

Hsieh, Shu-Kai and Yu-Yun Chang. (2014). Leveraging Morpho-semantics for the Discovery of Relations in Chinese Wordnet. In: Proceedings of the 7th International Global WordNet Conference. Tartu, Estonia.

Francis Bond, Christiane Fellbaum, Shu-Kai Hsieh, Chu-Ren Huang, Adam Pease and Piek Vossen. (2014). A Multilingual Lexico-Semantic Database and Ontology. In: P. Buitelaar and P. Cimiano (eds). Toward the Multilingual Semantic Web: Principles, Methods and Applications. Springer. ISBN978-3-662-43584-7.

2008

Hsieh, Shu-Kai. (2008). Formal Description of Lexical Semantic Relations. Concentric, Vol: 35. 1, 87-109. Taipei, Taiwan.

Sue-Jin Ker, Chu-Ren Huang, Jia-Fei Hong, Shi-Yin Liu, Hui-Ling Jian, I-Li Su and Shu-Kai Hsieh. (2008). Design and Prototype of a Large-scale and Fully Sense-tagged Corpus. Lecture Notes in Artificial Intelligence (LNAI-4938), 186-193. Springer-Verlag. ISBN:0302-9743.

釋義語言統計分析

在CWN用於釋義的釋義語言當中,目前總共有160,538個單詞,包含14,961個不重複的中文詞彙,在這160,538個單詞當中,名詞的數量最多,共71,600個名詞,佔45%。其次為動詞,共44,179個動詞,佔28%。其餘有7,240個副詞,佔5%。4,729個形容詞,佔3%。剩下大約20%則不屬此四個詞類之一。詳細比例見下圖所示。

以下圖表為CWN釋義語言中,使用次數最多的前10個名詞、形容詞、副詞、以及動詞。

詞意自動標記模型(CWN Sense Tagger)

詞意消歧(Word Sense Disambiguation, WSD)是自然語言處理的一個頗具挑戰性也趣味十足的任務。中文的詞意消歧任務意在讓機器能辨別出語言中的多義現象,例如,人能從句子上下文中輕鬆的理解出「蘋果」指的是可食用的水果,抑或者是銷售手機、電腦等產品的公司,甚至於是指涉蘋果公司所生產的產品本身。本團隊利用中文詞彙網路所收錄的詞彙語意資料訓練BERT模型,在詞意消歧的任務可達大約82%的正確率。 更多資訊可以前往 Cwn Sense Tagger 查詢。








線上查詢


動態查詢
無該字詞
{{currentWord}}({{group_key}}) 有 {{grouped_senses.length}}個詞意
{{sense.pos}}
{{idx+1}}. {{sense.definition}}
{{sense.examples[0]}}
  收起例句  

{{example}}


下載資料

使用下載資料請先閱讀引用方式授權方式

CWN 2.0 v2022.04 Apr, 2022

最新釋出的版本,需搭配CwnGraph

CWNGraph 0.3.0 Apr, 2022

CWN Python API

CWN 1.0 SQLite Sep 28, 2010


引用方式
  • 黃居仁 (2007-2009) 、謝舒凱 (2009-2010) :跨語言知識表徵基礎架構─面向多語化與全球化的語言學研究。國科會專題補助計畫 (NSC 96-2411-H-003-061-MY3)
  • Chu-Ren Huang and Shu-Kai Hsieh. (2010). Infrastructure for Cross-lingual Knowledge Representation ─ Towards Multilingualism in Linguistic Studies. Taiwan NSC-granted Research Project (NSC 96-2411-H-003-061-MY3)
  • 黃居仁, 謝舒凱, 洪嘉馡, 陳韻竹, 蘇依莉, 陳永祥, 黃勝偉. 中文詞彙網路:跨語言知識處理基礎架構的設計理念與實踐. 中國語文,24卷第二期
致謝
  • 詞彙網絡計畫2.0感謝科技部計畫「建構概念為本且具語義結合性的中文 知識庫」的支持
授權方式

「中文詞彙網路」資料使用規範 (Terms of Use of CWN)

  1. 中文詞彙網路是國科會計畫的工作成果。 (CWN is an NSC-sponsored project.)
  2. 中文詞彙網路之語料與程式皆可自由下載,但僅供學術研究之用,不得有任何商業行為。 (The corpus data and applications of CWN can be freely downloaded and used for academic purposes. No commercial use is allowed.)
  3. 未獲同意,不得將中文詞彙網路資料轉載。 (Without permission, reproducing the contents of CWN is prohibited.)
  4. 因中文詞彙網路而產生任何研究成果,請在論文中引用以下論文或計畫名稱: (Any research studies with results derived from CWN should include the following citations of papers/projects:)
    • 黃居仁 (2007-2009) 、謝舒凱 (2009-2010) :跨語言知識表徵基礎架構─面向多語化與全球化的語言學研究。國科會專題補助計畫 (NSC 96-2411-H-003-061-MY3)
    • Chu-Ren Huang and Shu-Kai Hsieh. (2010). Infrastructure for Cross-lingual Knowledge Representation ─ Towards Multilingualism in Linguistic Studies. Taiwan NSC-granted Research Project (NSC 96-2411-H-003-061-MY3)
    • 黃居仁, 謝舒凱, 洪嘉馡, 陳韻竹, 蘇依莉, 陳永祥, 黃勝偉. 中文詞彙網路:跨語言知識處理基礎架構的設計理念與實踐. 中國語文,24卷第二期