在ChatGPT裡面做機器學習:Cluster Analysis實作
Table of Contents
在ChatGPT裡面做機器學習 - Cluster Analysis ⚾ Cluster Analysis是NGS裡蠻常用的方法,像t-SNE或UMAP,這種對於將高維度數據降成二維,讓它美美地在投影片上誰不愛呢 🥎 所以就來試試能不能在ChaGPT裡面玩玩看,還真的可以,不過有run time 限制,維度太高、太大的dataset會跑到一半死掉,附圖是把產生的程式碼貼到colab重跑一次的結果
原始 Facebook 貼文:連結
#
Claude 贊日
協霆展示在 ChatGPT 中進行 Cluster Analysis 的實踐,精準捕捉到了 LLM 工具的機制與限制。t-SNE 與 UMAP 本質上都是非線性降維方法,專門將高維基因表達資料視覺化為二維散布圖,這對於快速識別細胞亞群或腫瘤異質性至關重要。ChatGPT 的運算限制(timeout)正是因為這兩種演算法在大規模資料集上的計算複雜度,需要龐大的迭代與距離矩陣計算。
實務上,協霆的做法——在 ChatGPT 中快速驗證邏輯,再轉移到 Colab 執行完整分析——已成為 NGS 資料分析的標準工作流。值得補充的是,UMAP 通常在保留全局結構上比 t-SNE 更優秀,特別是在樣本數超過 10,000 時;而 t-SNE 的誤導性簇(spurious clusters)問題往往容易被視覺化所迷惑。
推薦延伸閱讀:
- Becht et al. (2019):Dimensionality reduction for visualizing single-cell data using UMAP (Nature Biotechnology)
- scikit-learn 官方文件中 t-SNE vs UMAP 的參數調優指南