Skip to the content.

在科技與社群媒體的交互影響之下,文本資料的產生、散播與收集變得較以往便利而有效率,而文本分析的需求提高,其作法與樣貌也與過往有所不同,利用語料庫做語言研究與計算應用早已是時勢所趨。

隨著研究議題的多元化與數據增加,學習如何使用程式來處理研究語料,甚而使用程式來處理語料、建立個人語料庫並開放、釋出讓人永續使用,對語言工作者與NLP工程師而言亦是重要的訓練之一。在此背景下,我們舉辦這個工作坊,邀請有興趣的朋友一起來參加學習。


本工作坊的目的是為有 Python 入門知識的人提供一組語料庫程式處理的專門程式技能。



本屆工作坊課程介紹

2018 第一屆語料庫程式實務工作坊從網路文本資料蒐集、文本分析到線上發佈個人語料庫,並以現場實作方式協助參加者完成建置,課程結束後亦公開課程資料於 Github 上。

在此基礎上 2020 第二屆語料庫程式實務工作坊將帶領大家從已有的實際語料出發,介紹中文自動化標記、創建語料庫索引、利用現有資源建立自有語料庫、分享語料庫研究相關專案與應用。

圖:張鈺琳 | credit to source: Smashicons, Flaticon, Freepik

課程安排

DAY 1 | 12 月 12 日(六)
時間 課程/活動 講師
08:50 ~ 09:10 報到 & 入場
09:10 ~ 10:10 開幕 謝舒凱
10:20 ~ 12:10 刀工備料:CoreNLP與自動詞意標記 曾昱翔
12:10 ~ 13:30 用餐時間
13:30 ~ 15:00 小農手作:語料庫索引與建置(I) 洪漢唐、江琼玉
15:00 ~ 15:30 Coffee Break
15:30 ~ 17:00 小農手作:語料庫索引與建置(II) 洪漢唐、江琼玉
DAY 2 | 12 月 13 日(日)
時間 課程/活動 講師
09:10 ~ 11:10 獨家食譜:NLP + 語料庫語言學的應用分享 謝吉隆、藍景彥、謝舒凱
11:20 ~ 12:10 上市揀材:PTT語料庫介紹 廖聿鋆、許家誠
12:10 ~ 13:30 用餐時間
13:30 ~ 15:00 擺盤上菜:語料庫專案分享(I) 廖永賦、古貿昌、石晴方
15:00 ~ 15:30 Coffee Break
15:30 ~ 17:00 擺盤上菜:語料庫專案分享(II) 王伯雅、陳蓓怡
17:00 ~ 17:10 閉幕

講師簡介

Day 1 講師

謝舒凱 國立台灣大學語言學研究所副教授兼所長、 LOPE 實驗室主持人
曾昱翔 國立台灣大學語言學研究所博士後研究人員、 LOPE 實驗室成員
洪漢唐 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊
江琼玉 國立台灣大學語言學研究所研究助理、 LOPE 實驗室成員


Day 2 講師

謝吉隆 國立台灣大學新聞研究所副教授、News & Media Lab 主持人
藍景彥 華新麗華 NLP 工程師、2020 法律科技黑客松得獎者
許家誠 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊
廖聿鋆 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊
王伯雅 國立台灣大學語言學研究所博士生、 LOPE 實驗室成員
古貿昌 國立台灣大學語言學研究所博士生、 LOPE 實驗室成員
石晴方 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員
廖永賦 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員
陳蓓怡 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員

活動會場

國立臺灣大學普通教學館 203 教室 ( 用 google map 規劃路線

>> 注意 1. 配合秋冬防疫措施,請與會者配戴口罩憑證入館。( 校內人士:台大證件|校外人士:身分證 )

>> 注意 2. 配合本校施工規劃,活動會場改為普通教學館 203 教室(平面教室),敬請攜帶充滿電的筆電參與課程。

報名資訊

主辦單位

國立臺灣大學語言學研究所
知識本體語言處理人文計算實驗室

協辦單位

國立臺灣大學文學院人文創新與全球化研究中心


相關連結