R 程式設計與資料科學導論
課程目標
資料科學家
的工作, 可以視為是一個探索、預測與解讀資料意義的互動歷程。而語言分析
的工作, 在了解文本資料的語意與情緒表現上是重要的關鍵。本課程結合 了目前統計程式設計與自然語言處理技術, 以較為簡潔容易入門的設計與實際操作導引, 希望可以讓毫無相關程式學習基礎的學生在本課程的帶領下, 達到以下的學習目標:
- 瞭解 R 語言的基本知識。
- 瞭解結構與非結構性資料的特性與預處理工作, 特別是針對中文文本中呈現的語言特性的處理方法。
- 了解中文的語言特性與文本解析 (text analytics) 的基本概念。
- 選擇適當的變數與特徵並加以合理調製, 對之進行描述統計與視覺探勘, 針對不同的問題點與數據類型, 找出適當的圖形表達與統計分析。
- 學習簡易的自然語言處理與機器學習預測模式, 並應用在自己關心的領域。
- 學習實作資料科學專案與溝通表達。
課綱
Week | Date | Topic | R Lab |
---|---|---|---|
1 | 02/25 | Orientation | Installation, Markdown, Github classroom |
2 | 03/04 | Introduction to Data Science and Text Analytics | R101 and Rstudio |
3 | 03/11 | Introduction to Data Science and Text Analytics | Base R (I) |
4 | 03/18 | Preparing / Obtaining Data | Base R (II): function; vector; looping |
5 | 03/25 | Data wrangling | Dataframe; dplyr |
6 | 04/01 | 春假 | |
7 | 04/08 | Exploratory data analysis and Graphics | ggplot2 |
8 | 04/15 | Exploratory data analysis and Graphics | statistics |
9 | 04/22 | 期中考 Mid-term exam | |
10 | 04/29 | Text mining | string processing |
11 | 05/06 | Text mining | corpus processing (quanteda and tidytext ) |
12 | 05/13 | Machine Learning/NLP Basics: Classification and Clustering | Sentiment analysis on the Social Media |
13 | 05/20 | Neural NLP | applying word embeddings and language models |
14 | 05/27 | Web applications | Web crawling |
15 | 06/03 | Web applications | Shiny Web application |
16 | 06/10 | Reporting and Presenting Data | group discussion |
17 | 06/17 | Term project competition/presentation | |
18 | 06/24 | Final term project and report due | 課程聯展 |
教練團
謝舒凱 <shukaihsieh@g.ntu.edu.tw>
廖永賦
古貿昌
王伯雅
石晴方
張鈺琳
課程投影片
-
Week.1 : slide
-
Week.3 : slide
-
Week.4 : slide
-
Week.5 : notes
-
Week.9-10 : slide
-
Week.12 (遠距) : slide
-
Week.15 (遠距): slide
助教講義、習題與作業
課程教材
在課程投影片中講解基本概念,如果有興趣了解進階內容,可參考以下線上教材