Thứ Bảy, 8 tháng 2, 2014

Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-rnaseH ở một số loài virus thực vật


v
Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau:
 Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ
liệu NCBI.
 Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí
gene hsp-70 và RT-RNaseH trong ORF hay nằm trong genome của chúng.
 CSDL có 325 trình tự đƣợc tích hợp với Web.
 Trang Web CSDL gene hsp-70 và RT-RNaseH gồm có 6 trang chính, đó là
HOME, SEARCH, TOOL, TAXONOMY, LINK, ABOUT PAGE. Ngoài ra,
từ những trang web chính này còn có thể kết nối đến những trang phụ khác để
cung cấp những tiện ích cho ngƣời dùng. Từ các trang web này, ngƣời sử
dụng có thể truy xuất thông tin, so sánh một trình tự quan tâm với các trình tự
trong cơ sở dữ liệu gene hsp-70 và RT-RNaseH, tìm kiếm trình tự, các đặc
tính của loài,…
















vi
MỤC LỤC
Nội dung Trang
Trang bìa i
Trang trong ii
Lời Cảm Tạ iii
Tóm Tắt Luận Văn iv
Mục Lục vi
Danh Sách Các Bảng ix
Danh Sách Các Hình x
Danh Sách Các Chử Viết Tắt xii
Phần 1. LỜI MỞ ĐẦU 1
Phần 2. TỔNG QUAN TÀI LIỆU 4
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU 4
2.1.1. Định nghĩa 4
2.1.2. Hệ quản trị CSDL 4
2.1.3. Các mô hình dữ liệu 5
2.1.3.1. Định nghĩa 5
2.1.3.2. So sánh các mô hình dữ liệu……………………………………… 5
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB 6
2.2.1. Perl 6
2.2.1.1. Tóm tắt lịch sử phát triển 6
2.2.1.2. Ứng dụng 7
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng 7
2.2.2. Giới thiệu về mạng Internet 8
2.2.2.1. Tóm lƣợc lịch sử phát triển 8
2.2.2.2. Một số khái niệm 9
2.2.3. Web 9
2.2.3.1. Tóm lƣợt lịch sử phát triển 9
2.2.3.2. Tích hợp CSDL với web dùng CGI 10
2.3. CƠ SỞ DỮ LIỆU SINH HỌC 11
2.3.1. NCBI 11

vii
2.3.1.1. Vài nét về NCBI 11
2.3.1.2. Một số cơ sở dữ liệu trong NCBI 11
2.3.1.3. Một số công cụ trong NCBI 12
2.3.2. EBI 13
2.3.2.1. Vài nét về EBI 13
2.3.2.2. Một số cơ sở dữ liệu trong EBI 13
2.3.2.3. Một số công cụ hỗ trợ phân tích trình tự sinh học 14
2.3.3. SIB 15
2.3.4. DDJB và PDBj 15
2.4. VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE 18
2.4.1. CAULIMOVIRIDAE 19
2.4.1.1. Khái quát 19
2.4.1.2. Cấu tạo 20
2.4.1.3. Đặc tính sinh học 20
2.4.1.4. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 20
2.4.2. CLOSTEROVIRIDAE 21
2.4.2.1. Khái quát 21
2.4.2.2. Cấu tạo 21
2.4.2.3. Cơ chế xâm nhiễm và sao mã trong tế bào ký chủ 22
2.5. Gene Hsp-70 và Reverse transcriptase-RNaseH 23
2.5.1. Gene Reverse transciptase-RNaseH 23
2.5.2.1. Vị trí gene RT-RNaseH nằm trong genome 23
2.5.2.2. Chức năng của protein 23
2.5.2. Gene hsp-70 24
2.5.1.1. Vị trí gene hsp-70 nằm trong genome 24
2.5.1.2. Chức năng 24
PHẦN 3. PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG 25
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng 25
3.1.1. Hệ điều hành 25
3.1.2. Các chƣơng trình phân tích trình tự 25
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW 25
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST 25

viii
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL 26
3.1.2.4. Apache web Server 27
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng 27
3.2. Phƣơng pháp 28
3.2.1. Thu nhận trình tự 28
3.2.2. Xác định gene và protein trong bộ gene virus 29
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH 32
3.2.3.1. Phân tích dữ liệu 32
3.2.3.2. Thiết kế CSDL dạng bảng 34
3.2.3.3. Lƣu trữ các thông tin vào CSDL 35
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web 37
Phần 4. KẾT QUẢ VÀ THẢO LUẬN 39
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae 39
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH 41
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH 42
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH 46
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH 47
4.4.2. Trang tìm kiếm 47
4.4.3. Trang công cụ 49
4.4.4. Trang cây phân loài 52
4.4.4.1. Trang Caulimoviridae 52
4.4.4.2. Trang Closteroviridae 54
4.4.5. Trang liên kết 54
4.4.6. Trang thông tin về bộ môn công nghệ sinh học 54
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ 55
4.1. KẾT LUẬN 55
4.2. ĐỀ NGHỊ 55
PHẦN 6. TÀI LIỆU THAM KHẢO 57
PHỤ LỤC 59




ix


DANH MỤC BẢNG
Trang
Bảng 2.1. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng 17
Bảng 2.2. Một số CSDL sinh học lớn và các địa chỉ web tƣơng ứng.(tiếp theo) 18
Bảng 3.1. Các đối tƣợng phụ dựa trên đối tƣợng chính Sinh vật (Organism) 33
Bảng 3.2. Các đối tƣợng phụ dựa trên đối tƣợng chính trình tự (Sequence) 34
Bảng 4.1 Tổng số trình tự trong CSDL gene hsp-70 và RT-RNaseH 43
Bảng 4.2 Số trình tự gene hsp-70 43
Bảng 4.3 Số trình tự gene RT-RNaseH 43

x
DANH MỤC HÌNH
Trang
Hình 1.1 Định nghĩa Bioinformatics theo NCBI 1
Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng 2
Hình 2.1 Tƣơng tác giữa Perl script-DBI-DBD-và RBDMS 8
Hình 2.2 Tƣơng quan giữa NCBI, NLM 11
Hình 2.3 Một số cơ sở dữ liệu trong NCBI 14
Hình 2.4 Ba cơ sở dữ liệu nucleotide (GenBank – EMB - DDB) và công cụ tìm kiếm
tƣơng ứng…………………………………………………………………………… 16
Hình 2.5. Sự hợp nhất của ba cơ sở dữ liệu MSD, PDBj, PDB 16
Hình 2.6 Tổ chức genome của virus CaMV 19
Hình 2.7 Một số loài trong họ Caulimoviridae 20
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA 21
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus 22
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus
(+)ssRNA 22
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic
virus 23
Hình 2.12. Protein reverse transcriptase 24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus 24
Hình 2.14 Protein HSP-70 24
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự 28
Hình 3.2 Sơ đồ xác định gene trong genome virus 29
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự 30
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus 31
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH 32
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus 37
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và
RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus 39

xi
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên
NCBI……… 40
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV……………… 41
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH 46
Hình 4.5 Trang HOME PAGE 47
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER 48
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER 48
Hình 4.8 Trang tìm kiếm trình tự tƣơng đồng bằng Alignment 50
Hình 4.9 Trang kết quả khi thực hiện Alignment giữa các trình tự………………… 51
Hình 4.10 Trang tìm kiếm trình tự tƣơng đồng bằng BLAST 51
Hình 4.11 Trang cây phân loài của hai họ Caulimoviridae và Closteroviridae 52
Hình 4.12 Trang web thể hiện nội dung các đặc tính của họ…………………………53

















xii
DANH SÁCH CÁC CHỮ VIẾT TẮT

CSDL Cơ sở dữ liệu.
RT-RNaseH Reverse transcriptase-RnaseH
hsp-70 Heat sock protein 70.
Perl Practical Extraction and Report Language
CGI Common Gateway Interface
DBI Database Interface
DBD Datadbase Driver
WWW World Wide Web
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI Center for Bioinformatic Information
BLAST Basic Local Alignment Search Tool
EBI European Bioinformatics Insiture
EMBL European Molecular Biology Laboratory
SIB Swiss Insitute of Bioiformatics
DDBJ DNA Data Bank Japan
PDBj Protein Database Japan
CaMV Caulimoflower mosaic virus












1

PHẦN 1
LỜI MỞ ĐẦU
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật
sinh học phân tử vào trong giải trình tự genome của sinh vật, ngày càng nhiều trình tự
đƣợc giải. Đòi hỏi có sự lƣu trữ, tổ chức, quản lý và khai thác tốt các thông tin về trình
tự thu đƣợc này ngày càng hiệu quả và nhanh chóng hơn. Vì vậy, cần có sự hỗ trợ đắc
lực của các nghành khoa học khác.Với khả năng xử lý, lƣu trữ, liên kết và truy xuất
một lƣợng thông tin lớn một cách nhanh chóng của máy tính đã giúp nó trở thành một
công cụ hữu ích cho việc ứng dụng vào trong lĩnh vực sinh học. Sự kết hợp giữa ngành
tin học và sinh học dẫn đến cho ra đời một công cụ mới, phục vụ cho việc nghiên cứu
trong sinh học đó là Tin - sinh học. Mặc dù Tin - sinh học là một lĩnh vực mới ra đời
nhƣng triển vọng của nó phục vụ cho nghiên cứu sinh học rất lớn.
KHÁI NIỆM VỀ TIN - SINH HỌC
Sự kết hợp, liên thông giữa các ngành khoa học giúp cho khoa học có những
bƣớc phát triển mới.Trong thời đại khoa học hiện nay, sự kết hợp giữa các ngành lại
với nhau là hết sức cần thiết. Không một ngành khoa học nào có thể phát triển mà
không cần sự hổ trợ của ngành khác.Với những bƣớc đột phá mạnh mẽ trong lĩnh vực
công nghệ thông tin và một số thành tựu mới trong nghiên cứu sinh học (giải mã toàn
bộ genome của ngƣời và một số loài khác) thì sự kết hợp này cho ra đời một lĩnh vực
nghiên cứu mới – Bioinformatics hay Tin - sinh học là một ví dụ điển hình cho sự liên
kết này.
Nhƣ vậy, bioinformatics là gì? Có nhiều định nghĩa khác nhau về thuật ngữ
này. Có thể định nghĩa một cách ngắn gọn thuật ngữ này nhƣ sau “Bioinformatics là sự
kết hợp giữa công nghệ sinh học và công nghệ thông tin với mục tiêu giúp hiểu biết và
khám phá những nguyên lý trong sinh học” (theo trang web NCBI). [7, 22]








Công nghệ sinh học
Bioinformatics:
giúp hiểu biết và
khám phá những
nguyên lý trong
sinh học
Hình 1.1 Định nghĩa Bioinformatics theo NCBI.
Công nghệ tin học
2

TOÁN HỌC
KHOA HỌC MÁY TÍNH
THỐNG KÊ
SINH HỌC
HÓA HỌC
VẬT LÝ

Bioinformatics

Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng
Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh
học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng
đƣợc.
Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn
thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp
của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh
học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì
thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh
học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu
về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung
thần kinh đƣợc dẫn truyền các tính hiệu qua các tế bào thần kinh. Kết hợp với những
tính toán vật lý, trí tuệ nhân tạo, những lý thuyết sinh học trên đƣợc áp dụng vào tin
học, để hình thành một mạng tính toán (Neuron network). Một ví dụ khác là thuật giải
di truyền (GA - Genetic Algorithm) giúp giải những bài toán gần đúng có tính chính
xác cao, dựa trên lý thuyết tiến hóa trong sinh học của Darwin. Nhƣ vậy, sơ đồ trên
cần đƣợc bổ sung nhƣ sau:














Không có nhận xét nào:

Đăng nhận xét