112-1

程式設計與資料科學導論

大家好

授課群

  • 謝舒凱 (台大語言學研究所、醫學院腦與心智研究所合聘教授)
  • TAs:陳品而、連大成、陳韋伶、周昕妤、紀柔安、葉凱晴、顏巧函 (台大語言學研究所博士碩士班)

課程介紹

Introducing Data science with python (Dspy2023)

  • 之前課程在這裡

  • 為何要打掉重練?😿

資料科學

  • 從數據中擷取資訊、分析解讀、與累積知識的科學方法。

(2018)

程式語言

  • 人類與電腦溝通的語言。
  • 向來是最適合用來處理數據的語言。
  • 因為學習資源的考量,我們本學期選擇 python

生成式 AI (Generative AI, GAI)

〉 通過讓機器學習模型 [自學] (self-supervised) 數據的模式,創造出一個全新生成內容 (文字、程式、圖像、音訊、或是影片) 的系統能力。

AI 時代

  • chatGPT 為代表,對於人類社會產生了革命性的影響 (2022.11-)

    • GPT (Generative Pre-trained Transformer)
  • 大型語言模型 LLM (Large Language Model) 是目前最為核心技術之一。

Language Model (LM)

- 語言模型,用來預測下一個字詞(的可能性)。例如:`我今天很開心`,下一個字詞可能是 `。` 或 `!`

LLM and beyond: a game changer

〉藉由大量的語料庫訓練出來的語言模型,可以用來做很多事情。再利用 pluginfine-tuning 的方式,模型會更貼近你的需求。

  • orchestration tools (langchain, semantic kernel,..)
  • embeddings and vector Database

GPT-4 plugins

code interpreter

  • 🐧 資料簡單示範

程式語言與自然語言的邊界愈來愈模糊


個人看法

人人都會也都需要【寫】程式

  • 文理嚴重分科的時代已經快結束了。

  • Programming/Programmer 的概念複雜一些了。問題是,你要當哪一種 programmer?

    • 開發系統?(數學與邏輯底子要好)
    • 利用系統做應用?(領域知識與發問敘事能力要強)

Pair-programming with AI is here

輔助程式學習系統

Github Copilot X (GPT-4 powered)
https://github.com/features/copilot

課綱

學習的節奏感已經不同 !

  • 希望大家先認真回饋給我們,你的程式學習經驗與期待的應用領域,或職涯規劃。
  • 本週末課程網站會上線,請大家再看時程規劃。

【參考】書


"6 Best Python Books for Data Science and Machine Learning in 2023"

評分標準

  • 每週個人作業、課堂練習 (40%)
  • 期中考試或小專題實作 (30%)
  • 期末專題(小組進行)(30%)

Lab

chatGPT | BART 起手式

  • 註冊帳號,瞭解基本使用方式。(除了網頁版,也可使用 app for iOS)

  • 問一個問題(不是閒聊!)

  • 分享對話紀錄連結。

chatGPT Plus (GPT-4)

不怕課金的同學

  • 多了瀏覽器與其他外掛、code interpreter、客製化指示。

  • 相關厲害的外掛:Webpilot, ChatwithPDF, Prompt Perfect (.perfect, reply in 繁體中文), Wolfram, etc.

--- ## LLM and AI - speech translation ([Seamless](https://seamless.metademolab.com/)) - multimodal understanding

--- ## 相關工具 - Github copilot - 獨立的程式設計編輯器 [Cursor](https://www.cursor.so/)

--- # Custom instructions 事先寫好的指示,讓 chatGPT 能夠更好地理解你的需求。例如: >