程式設計與資料科學導論

week 11

謝舒凱

本週學習內容

  • 資料探索分析 (Exploratory Data Analysis) (II) : 資料視覺化 (Data Visualization)

視覺化 (可視化)

  • 視覺化是資料科學的重要工具,也是資料科學家的必備技能之一。
  • 不同數據類型,有不同的作圖 plotting 呈現。
  • 不同應用目的,決定視覺化 visualization 方式。

Statistic plot vs Visualization

  • 統計圖表 指的是專門用於展示統計數據的圖表,如條形圖、餅圖、箱線圖、直方圖等。用於揭示數據集中的趨勢、分布、中心傾向和變異性。

  • 視覺化 則是一個更廣泛的術語,包括統計圖表在內的所有類型的數據視覺展示形式。不僅限於統計分析,還包括數據探索、故事講述、展示複雜關係,甚至創建交互式數據應用。

python 統計作圖

  • 助教課中,已經提到如何用 matplotlib (及延伸的 seaborn) 作統計圖表。

現在更高階一點的想

distribution, composition, comparison, relationship,

(and `geospatial`, `temporal`, `hierarchical`, `network`, `text`, `uncertainty`, etc)

別的補充

trend and flow, 參見 Data Visualization Cheat Sheet

right

判斷流程圖 (參考即可)

decision trees to find the best visualization for your data and purpose

有美感的用圖說故事

  • 視覺化的高階目的,是要用圖說故事,有美感,又能讓觀眾從圖中看出數據(與人生)的意義。

  • 與敘事 (narrative) 有關,也與數據的結構有關。

文本探索分析

Text Exploration Analysis

  • 文本探索分析,一樣指的是透過統計與視覺化技術來理解文本數據的結構、特徵和模式。

文本訊息提取,提什麼?

  • 關鍵字 (keyword, keyphrase)

  • (抽象一點的) 主題 (topics) 與類別 (category; genre)

  • 情感 (sentiment)

  • 語意表徵 (semantic representation)

  • 命名實體與知識圖譜 (knowledge graph)

這些都是自然語言處理 (NLP) 的研究方向。

舉個例子

Dcard

文本視覺化 (Text Visualization)

如何理解文本數據中的模式、趨勢或關鍵概念?

  • 文字頻率分析(Frequency Analysis)與詞雲(Word Cloud)

  • 情感分析圖表: 條形圖或圓餅圖?

  • 文本語料庫(Corpus)的視覺化

語料庫語言學 corpus linguistics

  • 文本語料庫是一個大型的文本語言使用集合,通常附上不同語言層級的標記 (linguistic annotation),如詞性標記 (part-of-speech tagging)、句法標記 (syntactic parsing)、語義標記 (semantic tagging) 等。

  • 文本語料庫通常提供不同搜尋功能。如 concordance, collocation, n-gram, keyword, frequency, dispersion, 等,也包括視覺化工具,方便語言的探索研究。

語料庫語言學 corpus linguistics

  • 晚近更風行文本網路分析(Text Network Analysis),利用網路科學來分析文本。
    • construction
    • visualization
    • prediction

例子 WordSketchEngine

Collocation and Collocation Network

  • collocation (搭配) 是一種語言共現的現象,用於在文本中找到一組詞彙,這些詞彙經常一起出現,並且在一起出現的頻率高於預期的頻率。

  • Association measures: n-gram, delta P, etc.

比較不同文本/語料庫的視覺化工具

知識圖譜

(結合 NLP 技術)

從一段文本中提取關鍵實體(如人物、地點、組織)和它們之間的關係,然後創建一個基本的知識圖譜。

總結來說,統計圖表是數據可視化的一個子集,專注於展示和解釋統計數據。而數據可視化則是一個更廣泛的概念,涵蓋各種將數據轉換成視覺形式的方法,用於分析、解釋和展示數據。

- 文本訊息是一種非結構化數據,它的特點是沒有固定的結構,並且不容易被機器理解。

- 應用:新聞媒體趨勢分析。分析一段時間內新聞報道中出現頻率最高的詞彙,並通過條形圖或線圖展示這些詞彙的使用趨勢,幫助識別媒體關注的焦點變化。或,從Twitter上收集關於某個熱門話題的推文,創建一個詞雲來顯示最常出現的詞彙,從而快速理解公眾的普遍情緒或關注點。

- 應用:產品評價分析。分析顧客對於產品的評價文本,劃分為正面、中立和負面情緒,並用條形圖或餅圖展示不同情感類型的比例,幫助理解顧客對產品的整體態度。

- 應用:文本分類。將文本語料庫中的文本按照類別標籤進行分類,並用散點圖或熱力圖展示不同類別的文本在語料庫中的分布情況,幫助理解文本的結構和特徵。