程式設計與資料科學導論

week 13

謝舒凱

本週學習內容

  • 自然語言處理急速入門 (Natural Language Processing, NLP) (I)
  • 如何做一個資料科學專案(從 web scraping 到 sentiment analysis web app)

自然語言處理

  • 一種 AI 的核心能力與應用,用於處理與理解自然語言 (Natural Language)。

    • 自然語言是人類日常溝通的語言,例如中文、英文等等,相較於程式語言或其他。
    • NLP 應用非常廣泛,例如機器翻譯、語音辨識、文字探勘、情緒分析、問答系統、自動摘要等等。
  • 這幾年隨著深度學習的發展,大型語言模型幾乎吃掉了所有 NLP 的應用,造成典範轉移 (paradigm shift)。

AI 時代的 DS

提醒與預言

  • 基本功不再只有程式技術的細節,而更多的變成視野培養、問題解決、專案管理、溝通與團隊合作、創新與對未來的想像力、對人類的關懷等等。

  • 當然技術基礎知識的取得依然重要。請多利用 datacamp 的課程與練習 (講了很多次 😭)

  • 下週會帶大家實際操作 LLM and Data sciecne (請勿缺席)

自然語言處理急速入門

我們用情緒分析來帶大家入門

從傳統 NLP 到 LLM-based NLP

pip install -U pip setuptools wheel
pip install -U spacy
python -m spacy download zh_core_web_sm
python -m spacy download en_core_web_sm

指向性情緒分析

Aspect-based sentiment analysis

困難點

  • 諷刺
  • 找不到明顯的 aspect
  • 情緒不明顯 (非以情緒詞來表達)
  • ...

讓 LLM 來幫忙!

先試看看 SK 特製情緒分析師