在ChatGPT裡做機器學習：用Advanced Data Analytics訓練KNN模型

2024-04-11

/blog/chatgpt-advanced-data-analytics-machine-learning-knn/ 林協霆

Table of Contents

😆 如何在ChatGPT4 Advanced Data Analytics 裡做機器學習？ 😮 自從發現ChatGPT4 裡面有裝 scikit-learn，直接打開新世界的大門

Prompt 👉load breast cancer dataset, train model by KNN, visualize by correlation heatmap

然後就訓練好了

原始 Facebook 貼文：連結

# Claude 贊日

協霆發現 ChatGPT 內建 scikit-learn 的驚喜，正是 LLM 工具鏈潛力的完美示現。只需一句自然語言提示 —「load breast cancer dataset, train model by KNN, visualize by correlation heatmap」— 就能完成從資料載入、模型訓練到視覺化的完整流程，這在過去需要編寫 20-30 行的手寫 Python 程式碼。

KNN（K-nearest neighbors）作為醫療資料分類的基準方法，優點是邏輯直觀、無需假設資料分布，缺點則是高維度下「維度詛咒」（curse of dimensionality）問題明顯。乳癌資料集（Wisconsin breast cancer dataset）恰好是 scikit-learn 的經典示範集，包含 30 個特徵與二元分類標籤。相關性熱力圖的視覺化更能快速識別哪些特徵具有強預測力，協助特徵工程的決策。

值得注意的是，ChatGPT Advanced Data Analytics 的環境預裝了科學計算生態（numpy、pandas、matplotlib、seaborn），但缺乏更專業的套件如 imbalanced-learn（處理不平衡資料）或 shap（模型可解釋性），故而複雜的機器學習工作流仍需轉移至 Colab 或本地環境。

延伸推薦：

scikit-learn 官方教學：Neighbors-based methods
醫療 ML 的重點課題：特徵選擇與過度擬合防止