程式設計與資料科學導論

week 7

謝舒凱

pic.by DALL-E 3

先分組

開始習慣在線上(git)與實體(classroom)的合作方式

本週學習內容

  • 到目前為止,我們快要學完 Python 的基礎語法了,接下來我們會學習一些進階的 Python 程式設計概念和技巧,進入資料科學的領域。

  • 這週的主題

    • data frame manipulation
    • text manipulation

Text analytics and text manipulation

  • 文本解析 (text analytics) 是指將文本轉換為結構化的數據,以便進行分析和機器學習,進而挖掘文本中的各種訊息 (text mining) 的一系列技術組合。

  • 例如:
    (1):要對顧客評論做情緒分析
    (2):要對於 email 做 ham/spam 的分類

Text analytics and text manipulation

  • 文本處理是 (text manipulation) 文本解析的重要一環。
    在使用 Python 的脈絡下,指的是內建的字符串方法 (built-in string method) 和正則表達式 (regular expression) 來處理文本。

基本概念先釐清

字符 (character), 字串 (string), 文本 (text) 的關係?

String manipulation

  • 文本基本上是由一個個字符 (character) (i.e. 字符串) 所組成,因此,文本處理的基本單位就是 string。
  • 處理動作不外乎:搜尋 (find)、替換 (replace)、分割 (split)、合併 (merge)、格式化 (formatting)、驗證 (validation) 等等。

String manipulation

  • string 也是 Python 中的一種資料類型,它是一個有序的字符序列,可以使用單引號或雙引號來定義。方便我們用來表徵文本資料。
s = "Hello, world! It's a beautiful day."

String manipulation

- 字串方法 (string methods) 
- 字串格式化 (string formatting)
- 正則表達式 (regular expression)

用 datacamp 自學法

  • 說到這裡,我們今天來試試如何用 校園免費版的 datacamp 的課程來加速自學。

  • 合併的講義在 cool 本週課程,請先下載。

  • 打開 datacamp,選擇課程:Regular Expressions in Python

  • 同時開啟新的,或用這個建立副本 colab

再回到網路應用

  • 有越來越多的Streamlit 教學 文件
  • 我們來練習一個產生文字雲的應用。
# 先建立一個本週課堂的資料夾
> mkdir w7
# 進入資料夾
> cd w7
  • 再來安裝相關套件
pip install streamlit # 成功安裝過就跳過
pip install wordcloud
  • 把本週 Replit的 app.py 檔案下載到這個資料夾下,然後在終端機中執行
streamlit run app.py
  • 成功的話,看看前面的教學文件,做一些調整看看,貼回 Replit 分享。(加分!)

Q: why double quote