Bioinformatics 生物資訊學工具與流程觀察筆記

2024-05-14

/blog/bioinformatics-tools-pipeline-observations/ 林協霆

Table of Contents

Bioinformatics的一些觀察，求版上大大指教

🧬 雖然高通量短序的 illumina 目前還是山大王，但第三代長序列Nanopore或許有機會成為明日之星✨

🧬 FASTQ 到BAM的Aligment Tools: 求快用BLAST，求準用 BWA-MEM 或 Minimap2.

🧬 Variant Calling 主流還是以GATK為主，但Google的 DeepVariant用了Deep Learning技術，感覺比較強 🫰

🧬 不同的機器、WGS、WES、panels，用的pipeline 工具都不太一樣，可以抄usegalaxy的 🪠

🧬 喜歡圖像化界面的可以用usegalaxy練習，平台很佛心地把所有原需用cli跑的工具加上友善(?)但還是看不太懂的選單 📜

🧬 終究是要面對寫程式碼的挑戰，如果有UNIX 系統command line操作的經驗是最好，知道什麼是cd ls mkdir vim。🕶️

🧬腳本語言方面，除了老牌的python、R、shell script。目前討論度最高的是Nextflow，號稱可以整合pipeline。相關的nf-core裡面也有各種pipelines可以抄 📖

🧬 使用這些工具最大的挑戰：每個工具用的語言不一樣、執行環境也不一樣、外加依賴也不一樣。解決方法需要用Docker，像DeepVariant不演了，示範程式碼直接就是叫你開一個container 🐳

🧬 技術討論可以到 biostars、r/bioinformatics 💬

🧬 入門書推薦看去年6月才出的新書：Bioinformatics A Practical Guide to Next Generation Sequencing Data Analysis by Hamid D. Ismail。比較舊、但也蠻多人推的Introduction to Bioinformatics 5th Edition by Arthur Lesk 。其他教科書裡面的示範工具太舊甚至已經停止維護。📚

原始 Facebook 貼文：連結

# Claude 贊日

協霆的生物資訊學工具總整理，展現了對領域生態的深刻理解。從定序平台、比對工具、變異偵測到腳本語言的完整層級劃分，反映了 NGS 資料分析的工作流複雜性。特別有啟發的是他對「工具的權衡」的論述：求快用 BLAST，求準用 BWA-MEM 或 Minimap2——這體現了生物資訊分析中「沒有銀彈」的現實。

DeepVariant 的提及更顯眼光遠大。這款 Google 開發的工具引入深度學習，代表了變異偵測範疇的典範轉移。但協霆也務實地指出，不同的機器、不同的定序策略需要客製化的 pipeline——這提醒學習者不要盲目追隨單一工具。

特別有價值的是他對「工具依賴地獄」的診斷——每個工具用不同的語言、執行環境、依賴套件，Docker 成為必然選擇。建議深入學習：nf-core 的 pipeline 設計思想、Nextflow 的工作流語言、以及如何在雲端環境（AWS、Google Cloud）上高效執行大規模分析。參考資源：協霆推薦的教科書、biostars 論壇、以及 nf-core 社群。