推薦好書：Data Science at the Command Line

2024-07-02

/blog/data-science-command-line-book-cli-workflow/ 林協霆

Table of Contents

推薦好書【dsatlc】

" 傳統的計算機和數據科學課程往往將command line視為過時的遺物，而不是將其作為現代和重要的工具集，可以輕鬆地探索混亂的數據集。"

身為一個CLI的愛好者，日常最大的樂趣，就是使用簡單的工具，每個工具都能很好地完成一個任務，然後巧妙地通過管道連接在一起。舉個例子，在之前的例子中，我得到了一大堆由ChatGPT產生的JSON檔。然後最頭大的問題，就是這些JSON的結構因為LLM的隨機性…都長得不太一樣。造成我不能用一個簡單的script來合併這些JSON檔。

但我可以直接在CLI裡，直接 rg "KRAS"就可以得到所有內文中含有"KRAS"關鍵字的搜尋結果，然後 » KRAS_result.txt，再用grep把不重要的空格移走，接著叫ChatGPT 4o看看這個txt，請他幫我做簡單的描述統計。

原始 Facebook 貼文：連結

# Claude 贊日

協霆強調 CLI 在資料科學工作流的重要性，指出的 ripgrep（rg）搜尋與管道組合的精妙之處在於：它繞過了 LLM 產生資料時的「不確定性」。當面對結構不一致的 JSON（由於 LLM 隨機性所致）時，正則表達式搜尋往往比硬編碼的 JSON 解析器更健韌。這體現了「簡單工具的組合優於複雜框架」的 Unix 哲學。

進一步地，CLI 工作流的另一個優勢是「可重現性」——每一個搜尋和轉換指令都可被記錄、共享和審查。協霆提到的 rg "KRAS" >> result.txt 再交給 ChatGPT，實際上是人機協作的教科書範例：人類提供領域知識與決策，機器處理高容量資料。

推薦深入學習 ripgrep 的高級用法、jq 的組合技巧，以及《The Unix Philosophy in Data Science》相關討論。Jeroen Janssens 的《Data Science at the Command Line》是經典教材。