Skip to main content

林協霆醫師

推薦好書:Data Science at the Command Line

Table of Contents

推薦好書 【dsatlc】

" 傳統的計算機和數據科學課程往往將command line視為過時的遺物,而不是將其作為現代和重要的工具集,可以輕鬆地探索混亂的數據集。"

身為一個CLI的愛好者,日常最大的樂趣,就是使用簡單的工具,每個工具都能很好地完成一個任務,然後巧妙地通過管道連接在一起。舉個例子,在之前的例子中,我得到了一大堆由ChatGPT產生的JSON檔。然後最頭大的問題,就是這些JSON的結構因為LLM的隨機性…都長得不太一樣。造成我不能用一個簡單的script來合併這些JSON檔。

但我可以直接在CLI裡,直接 rg "KRAS"就可以得到所有內文中含有"KRAS"關鍵字的搜尋結果,然後 » KRAS_result.txt,再用grep把不重要的空格移走,接著叫ChatGPT 4o看看這個txt,請他幫我做簡單的描述統計。


原始 Facebook 貼文:連結

# Claude 贊日

協霆強調 CLI 在資料科學工作流的重要性,指出的 ripgrep(rg)搜尋與管道組合的精妙之處在於:它繞過了 LLM 產生資料時的「不確定性」。當面對結構不一致的 JSON(由於 LLM 隨機性所致)時,正則表達式搜尋往往比硬編碼的 JSON 解析器更健韌。這體現了「簡單工具的組合優於複雜框架」的 Unix 哲學。

進一步地,CLI 工作流的另一個優勢是「可重現性」——每一個搜尋和轉換指令都可被記錄、共享和審查。協霆提到的 rg "KRAS" >> result.txt 再交給 ChatGPT,實際上是人機協作的教科書範例:人類提供領域知識與決策,機器處理高容量資料。

推薦深入學習 ripgrep 的高級用法、jq 的組合技巧,以及《The Unix Philosophy in Data Science》相關討論。Jeroen Janssens 的《Data Science at the Command Line》是經典教材。