Tải bản đầy đủ - 0 (trang)
CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN

Tải bản đầy đủ - 0trang

a. Quy trình

Các biến dị di truyền bao gồm đa hình đơn nucleotide viết tắt là SNP (single

nucleotide polymorphisms) là một biến thể của nucleotide xảy ra ở một vị trí nhất

định trong hệ gen và đa hình thêm hoặc mất nucleotide được gọi là InDel(Insertion/

Deletion). Những loại đa hình này ít nhiều có thể dẫn đến thay đổi các tính trạng của

sinh vật.

Quy trình thực hiện việc tìm kiếm các biến dị di truyền (SNP và InDel)

bao gồm 4 bước chính (Hình):

Bước 1: Tách chiết hệ gen của sinh vật.

Bước 2: Hệ gen của sinh vật được giải trình tự (theo một số phương pháp như:

Pyrosequencing, giải trình tự bằng gắn nối, hoặc giải trình tự bằng tổng hợp). Các

đoạn trình tự ngắn cần đước đánh giá chất lượng trước khi gióng hàng. Các đoạn trình

tự có chất lượng thấp cần loại bỏ.

Bước 3: Gióng hàng trình tự các đoạn ngắn (read) được tạo ra từ máy giải trình

tự thế hệ mới với một trình tự tham chiếu được chọn trên cơ sở dữ liệu bằng phần

mềm ứng dụng thuật tốn Burrows – Wheeler transform. Chất lượng gióng hàng của

phần mềm cần được đánh giá bởi phần trăm các đoạn trình tự ngắn gióng hàng với

trình tự tham chiếu.

Bước 4: File dữ liệu đầu ra của phần mềm gióng hàng được sử dụng cho việc

tìm kiếm các biến dị di truyền bằng một số phần mềm SAMtools và VarScan.



23



Hình 2.1 Quy trình xác định các biến dị di truyền.

Thuật tốn BWT được ứng dụng trong bài tốn gióng hàng trình tự là một

bước để xác định biến dị (đa hình) trên hệ gen.



2.1.2 Nội dung bài tốn gióng hàng trình tự (Sequence Alignment)

Bài tốn gióng hàng trình tự, hay là còn gọi là bài tốn sắp xếp thẳng hàng trình

tự (Sequence Alignment) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự

(sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một

chuỗi các thành phần (ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau

giữa các trình tự.

Sequence 1







G A A T T C A G T T A

|



Sequence 2







|



|



G G A T -



24



|



|



C -



G -



|

-



A



Hình 2.2 Ví dụ bài tốn gióng hàng 2 trình tự Sequence 1 – Sequence 2



25



Nội dung của bài toán so sánh cặp trình tự được trình bày như sau :

+ Cho 2 chuỗi trình tự sinh học S1,S2. Gióng cặp chuỗi này được thực hiện

bằng cách chèn thêm vào hai chuỗi S1 và S2 các dấu cách (“gap” kí hiệu là “-“) tại các

vị trí bất kỳ với số lượng không hạn chế để tạo ra 2 chuỗi S1’ và S2’ tương ứng, sau đó

đặt một chuỗi trên chuỗi kia sao cho mỗi kí tự của chuỗi này gióng thẳng với một kí tự

của chuỗi kia và cặp trình tự gióng khơng đồng thời là dấu cách.

+ Chuỗi sinh học ban đầu khơng có dấu cách và nếu loại bỏ dấu khỏi S1’ và S2’

ta sẽ có S1 và S2 ban đầu.

2.1.3 Ý nghĩa sinh học của bài toán gióng hàng trình tự

Gióng hàng trình tự nhằm nghiên cứu sự tiến hóa Hoặc để tìm kiếm, so sánh mức

độ tương đồng giữa các trình tự

Đánh giá mức độ sai khác giữa các trình tự do nhiều ngun nhân. Có thể ứng

dụng để:

 phát hiện các đột biến điểm hoặc mất đoạn Nucleotide.

 Xác định được các Intron, exon(khi so sánh một trình tự mRNA với trình

tự DNA).

 Xác định được các vùng bảo thủ trong các trình tự chẳng hạn như vùng

Promoter(kỹ thuật footprinting).

 Nghiên cứu và xây dựng cây phát sinh chủng loại(Phylogenetic).

 Là một phần không thể thiếu khi đăng ký trình tự vào ngân hàng EMBL.

 Là cơ sở xây dựng cây phát sinh chủng loại.

Trong sự tiến hóa, các điểm gióng hàng giống nhau chính là một phần của trình tự

sinh học tổ tiên. Còn các điểm gióng hàng khơng giống nhau chính là sự đột biến của

trình tự.

26



Các trường hợp xác định được khi gióng hàng trình tự là việc thêm/ bớt một

nucleotide (insertion/ deletion) hay còn gọi là SNP, việc thay thế một nucleotide

(mismatch) hay còn gọi là Indel và việc trùng khớp các nucleotide(match).

Ví dụ hai trình tự u = “ATCTGATG” và v = “TGCATAC”. Khi lấy u làm căn cứ,

thì v có: 4 điểm match, 1 điểm mismatch, 3 điểm insertion và 2 điểm deletion như mơ

tả dưới đây:



Hình 2.3 Các đột biến xác định khi gióng hàng 2 trình tự u – v



2.1.4 Phân loại bài tốn gióng hàng trình tự

Bài tốn gióng hàng trình tự được phân làm 2 loại : gióng hàng tồn cục và gióng

hàng cục bộ :

+ Phép so sánh trình tự theo hướng tồn cục: Phép tốn so sánh được áp dụng trên

tồn bộ chuỗi trình tự. Thường được sử dụng khi các trình tự so sánh có kích thước gần

tương đương và các trình tự này có độ tương đồng, giống nhau cao.



27



Ví dụ: So sánh tổng thể cả chuỗi (toàn cục)

LGSSKQTGKGS-RITD

|



|



| | |



|



|



LN- YK SAG KGAI R LG D

+Phép so sánh trình tự theo hướng cục bộ: Phép toán so sánh được sử dụng trên

một phần của chuỗi trình tự. Thường được sử dụng khi các trình tự có chiều dài lớn, độ

tương đồng giống nhau khơng cao, chỉ có một số ít các gen giống nhau trên 2 trình tự,

hoặc khi 2 trình tự có kích thước khác biệt lớn

Ví dụ: So sánh cục bộ một đoạn chuỗi(cục bộ)

A G AA C C T G C G A - R AT G

| | | |

TG - GA

Phương pháp giải bài tốn gióng hàng trình tự theo hướng cục bộ áp dụng cho

bài toán con : Short Read Alignment – là bài toán gióng hàng số lượng lớn các đoạn

trình tự (read) vào hệ gen tham chiếu (reference Sequence)



Hình 2.4 Ví dụ bài toán Short Read Alignment



28



Các phần tiếp theo của chương hai giới thiệu một số thuật toán cơ bản giải

quyết bài tốn gióng hàng trình tự và trọng tâm của chương sẽ giới thiệu thuật tốn

Burrows – Wheeler Tranform (BWT) có ưu điểm nổi trội cho dạng bài tốn gióng hàng

trình tự theo hướng cục bộ nói trên.

2.2 Một số thuật tốn cơ bản cho bài tốn gióng hàng trình tự

2.2.1 Thuật toán ma trận điểm

Thuật toán ma trận điểm nhằm giải quyết bài tốn gióng hàng trình tự khá đơn

giản và là thuật tốn áp dụng giải bài tốn gióng hàng trình tự tồn cục. Thuật tốn

được ra đời năm 1970 bởi Gibbs và G.A.McIntyre (Gibbs and McIntyre 1970) để so

sánh hai trình tự nucleotide và trình tự axit amin.

Bài tốn: Cho hai chuỗi S1 và S2. Từ đó tạo ra hai chuỗi S1’ và S2’ sao cho có

độ tương đồng cao nhất.

- Input:

Hai chuỗi S1, S2.

Ma trận F.

-Output:

Hai chuỗi S1’, S2’ có độ tương đồng cao nhất.

THUẬT TỐN:

Bước 1. Thiết lập bảng ơ vng và chép trình tự một chuỗi theo hàng và một chuỗi theo

cột dọc vng góc với nhau.

Bước 2. Đánh dấu vào tất cả các ô vuông tương ứng cùng với một nucleotide, dùng

thước kẻ nối tất cả các ô được đánh dấu liền kề nhau theo chiều đường chéo phía góc

trên bên trái kẻ xuống để xác định đoạn chuỗi tương đồng.

VÍ DỤ MINH HỌA:

Cần so sánh hai chuỗi sau:

S1 = “GAGTAGAAACCGGTAGTC”

S2 = “ACGTAGGTCCAGGTGTC”



29



Bước 1: Tạo ma trận với một chuỗi là hàng và một chuỗi là cột

G



A



G



T



A



G



A



A



A



C



A

C

G

T

A

G

G

T

C

C

A

G

G

T

G

T

C



Bước 2:



30



C



G



G



T



A



G



T



C



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN

Tải bản đầy đủ ngay(0 tr)

×
x