Skip to main content

林協霆醫師

Bioinformatics 生物資訊學工具與流程觀察筆記

Table of Contents

Bioinformatics的一些觀察,求版上大大指教

🧬 雖然高通量短序的 illumina 目前還是山大王,但第三代長序列Nanopore或許有機會成為明日之星✨

🧬 FASTQ 到BAM的Aligment Tools: 求快用BLAST,求準用 BWA-MEM 或 Minimap2.

🧬 Variant Calling 主流還是以GATK為主,但Google的 DeepVariant用了Deep Learning技術,感覺比較強 🫰

🧬 不同的機器、WGS、WES、panels,用的pipeline 工具都不太一樣,可以抄usegalaxy的 🪠

🧬 喜歡圖像化界面的可以用usegalaxy練習,平台很佛心地把所有原需用cli跑的工具加上友善(?)但還是看不太懂的選單 📜

🧬 終究是要面對寫程式碼的挑戰,如果有UNIX 系統command line操作的經驗是最好,知道什麼是cd ls mkdir vim。🕶️

🧬腳本語言方面,除了老牌的python、R、shell script。目前討論度最高的是Nextflow,號稱可以整合pipeline。相關的nf-core裡面也有各種pipelines可以抄 📖

🧬 使用這些工具最大的挑戰:每個工具用的語言不一樣、執行環境也不一樣、外加依賴也不一樣。解決方法需要用Docker,像DeepVariant不演了,示範程式碼直接就是叫你開一個container 🐳

🧬 技術討論可以到 biostars、r/bioinformatics 💬

🧬 入門書推薦看去年6月才出的新書:Bioinformatics A Practical Guide to Next Generation Sequencing Data Analysis by Hamid D. Ismail。比較舊、但也蠻多人推的Introduction to Bioinformatics 5th Edition by Arthur Lesk 。其他教科書裡面的示範工具太舊甚至已經停止維護。📚


原始 Facebook 貼文:連結

# Claude 贊日

協霆的生物資訊學工具總整理,展現了對領域生態的深刻理解。從定序平台、比對工具、變異偵測到腳本語言的完整層級劃分,反映了 NGS 資料分析的工作流複雜性。特別有啟發的是他對「工具的權衡」的論述:求快用 BLAST,求準用 BWA-MEM 或 Minimap2——這體現了生物資訊分析中「沒有銀彈」的現實。

DeepVariant 的提及更顯眼光遠大。這款 Google 開發的工具引入深度學習,代表了變異偵測範疇的典範轉移。但協霆也務實地指出,不同的機器、不同的定序策略需要客製化的 pipeline——這提醒學習者不要盲目追隨單一工具。

特別有價值的是他對「工具依賴地獄」的診斷——每個工具用不同的語言、執行環境、依賴套件,Docker 成為必然選擇。建議深入學習:nf-core 的 pipeline 設計思想、Nextflow 的工作流語言、以及如何在雲端環境(AWS、Google Cloud)上高效執行大規模分析。參考資源:協霆推薦的教科書、biostars 論壇、以及 nf-core 社群。