R 程式設計與資料科學導論

謝舒凱 | 台大語言學研究所

課程目標

資料科學家的工作, 可以視為是一個探索、預測與解讀資料意義的互動歷程。而語言分析的工作, 在了解文本資料的語意與情緒表現上是重要的關鍵。本課程結合 了目前統計程式設計與自然語言處理技術, 以較為簡潔容易入門的設計與實際操作導引, 希望可以讓毫無相關程式學習基礎的學生在本課程的帶領下, 達到以下的學習目標:

課綱

WeekDateTopicR Lab
102/25OrientationInstallation, Markdown, Github classroom
203/04Introduction to Data Science and Text AnalyticsR101 and Rstudio
303/11Introduction to Data Science and Text AnalyticsBase R (I)
403/18Preparing / Obtaining DataBase R (II): function; vector; looping
503/25Data wranglingDataframe; dplyr
604/01春假
704/08Exploratory data analysis and Graphicsggplot2
804/15Exploratory data analysis and Graphicsstatistics
904/22期中考 Mid-term exam
1004/29Text miningstring processing
1105/06Text miningcorpus processing (quanteda and tidytext)
1205/13Machine Learning/NLP Basics: Classification and ClusteringSentiment analysis on the Social Media
1305/20Neural NLPapplying word embeddings and language models
1405/27Web applicationsWeb crawling
1506/03Web applicationsShiny Web application
1606/10Reporting and Presenting Datagroup discussion
1706/17Term project competition/presentation
1806/24Final term project and report due課程聯展

教練團

謝舒凱 <shukaihsieh@g.ntu.edu.tw>
廖永賦
古貿昌 
王伯雅
石晴方
張鈺琳

課程投影片

助教講義、習題與作業

課程教材

在課程投影片中講解基本概念,如果有興趣了解進階內容,可參考以下線上教材

課程相關活動

小組作業觀摩

Capstone projects