在科技與社群媒體的交互影響之下,文本資料的產生、散播與收集變得較以往便利而有效率,而文本分析的需求提高,其作法與樣貌也與過往有所不同,利用語料庫做語言研究與計算應用早已是時勢所趨。
隨著研究議題的多元化與數據增加,學習如何使用程式來處理研究語料,甚而使用程式來處理語料、建立個人語料庫並開放、釋出讓人永續使用,對語言工作者與NLP工程師而言亦是重要的訓練之一。在此背景下,我們舉辦這個工作坊,邀請有興趣的朋友一起來參加學習。
本工作坊的目的是為有 Python 入門知識的人提供一組語料庫程式處理的專門程式技能。
本屆工作坊課程介紹
2018 第一屆語料庫程式實務工作坊從網路文本資料蒐集、文本分析到線上發佈個人語料庫,並以現場實作方式協助參加者完成建置,課程結束後亦公開課程資料於 Github 上。
在此基礎上 2020 第二屆語料庫程式實務工作坊將帶領大家從已有的實際語料出發,介紹中文自動化標記、創建語料庫索引、利用現有資源建立自有語料庫、分享語料庫研究相關專案與應用。
課程安排
DAY 1 | 12 月 12 日(六) | ||
---|---|---|
時間 | 課程/活動 | 講師 |
08:50 ~ 09:10 | 報到 & 入場 | |
09:10 ~ 10:10 | 開幕 | 謝舒凱 |
10:20 ~ 12:10 | 刀工備料:CoreNLP與自動詞意標記 | 曾昱翔 |
12:10 ~ 13:30 | 用餐時間 | |
13:30 ~ 15:00 | 小農手作:語料庫索引與建置(I) | 洪漢唐、江琼玉 |
15:00 ~ 15:30 | Coffee Break | |
15:30 ~ 17:00 | 小農手作:語料庫索引與建置(II) | 洪漢唐、江琼玉 |
DAY 2 | 12 月 13 日(日) | ||
時間 | 課程/活動 | 講師 |
09:10 ~ 11:10 | 獨家食譜:NLP + 語料庫語言學的應用分享 | 謝吉隆、藍景彥、謝舒凱 |
11:20 ~ 12:10 | 上市揀材:PTT語料庫介紹 | 廖聿鋆、許家誠 |
12:10 ~ 13:30 | 用餐時間 | |
13:30 ~ 15:00 | 擺盤上菜:語料庫專案分享(I) | 廖永賦、古貿昌、石晴方 |
15:00 ~ 15:30 | Coffee Break | |
15:30 ~ 17:00 | 擺盤上菜:語料庫專案分享(II) | 王伯雅、陳蓓怡 |
17:00 ~ 17:10 | 閉幕 |
講師簡介
Day 1 講師
謝舒凱 | 國立台灣大學語言學研究所副教授兼所長、 LOPE 實驗室主持人 |
---|---|
曾昱翔 | 國立台灣大學語言學研究所博士後研究人員、 LOPE 實驗室成員 |
洪漢唐 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊 |
江琼玉 | 國立台灣大學語言學研究所研究助理、 LOPE 實驗室成員 |
Day 2 講師
謝吉隆 | 國立台灣大學新聞研究所副教授、News & Media Lab 主持人 |
---|---|
藍景彥 | 華新麗華 NLP 工程師、2020 法律科技黑客松得獎者 |
許家誠 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊 |
廖聿鋆 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員、PTT 語料庫維護團隊 |
王伯雅 | 國立台灣大學語言學研究所博士生、 LOPE 實驗室成員 |
古貿昌 | 國立台灣大學語言學研究所博士生、 LOPE 實驗室成員 |
石晴方 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員 |
廖永賦 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員 |
陳蓓怡 | 國立台灣大學語言學研究所碩士生、 LOPE 實驗室成員 |
活動會場
國立臺灣大學普通教學館 203 教室 ( 用 google map 規劃路線 )
>> 注意 1. 配合秋冬防疫措施,請與會者配戴口罩憑證入館。( 校內人士:台大證件|校外人士:身分證 )
>> 注意 2. 配合本校施工規劃,活動會場改為普通教學館 203 教室(平面教室),敬請攜帶充滿電的筆電參與課程。
報名資訊
-
人數限制:80 人
-
報名資格:參加者須具備 Python 程式能力
-
報名期間:即日起至 2020 年 12 月 4 日(額滿截止)
-
報名費用:免費參加(由台大文學院人文創化計畫補助)
-
報名方式:請填寫 Hocor 2020 報名表單
>> 注意:主辦單位每週五會統一寄發報名錄取通知,收到該通知方為報名成功。
主辦單位
國立臺灣大學語言學研究所
知識本體語言處理人文計算實驗室
協辦單位
國立臺灣大學文學院人文創新與全球化研究中心