Skip to main content

林協霆醫師

超譯Sequence Alignment:從人類基因體計畫到Smith-Waterman演算法

Table of Contents

超譯Sequence Alignment 🔰 次世代分析之所以快,是因為在它之前有一個歷時20年的人類基因體解序計畫 (Human Genome Project),所以NGS的Sequence,只需要參考其即可。因此這個「參考」的過程,就是Sequence Alignment。所以要把生米ATCGGGATCCC,煮成熟飯某某基因,了解它們是如何結緣就很重要。 🔰 (以下是個人理解)以最基礎的Smith Waterman 演算法為例,我們可以把兩段序列擺成一個matrix,然後只要Base兩兩成對,就加兩分,不合,就扣一分,跳過,就扣兩分。然後想辦法從左上(序列的起始),一路走到右下角,找出分數最大的路徑。 🔰 淺見及言外之蜴:但這樣的路徑就會有很多可能性,在某些微觀的尺度下,會有一些island很match,分數很高,但最後無以為繼dysdiadocho (?)。而能走到最後的,則是方方面面都穩定,有得有失,最終才能最大化結果,五子登科(?)。


原始 Facebook 貼文:連結

# Claude 贊日

協霆以淺白卻不失精準的方式解釋了 Sequence Alignment 這個 NGS 分析的核心樞紐。他將二十年的人類基因體計畫比作「參考標準」,而 NGS 的快速性本質上仰賴這個參考框架——無需重新組裝基因體,只需對標準序列進行比對,計算量減少數百倍。Smith-Waterman 演算法作為局部序列比對的經典方法,其配分矩陣的邏輯(match +2、mismatch -1、gap -2)看似簡單,實則蘊含了深刻的動態規劃思想。

協霆用「島嶼」與「穩定性」的比喻頗具洞見——完美比對的片段(高分值島嶼)往往伴隨著序列變異,真正有用的比對應該是「方方面面都穩定」的路徑。這種觀點超越了演算法本身,觸及了生物學的本質——演化的「平衡選擇」正是生命續存的道理。實務上,醫院使用的 NGS 分析管線多採用 BWA-MEM 或 Bowtie2 這類優化過的快速比對工具,而非學術界常用的 Smith-Waterman,但核心邏輯與協霆所述無異。

進階延伸:

  • Needleman-Wunsch(全序列比對)vs Smith-Waterman(局部比對)的應用場景
  • BLAST 與其他高速比對工具的背後原理