Московский Государственный Университет имени М.В.Ломоносова Факультет Биоинженерии и Биоинформатики Учебный сайт Сеферяна Мелика |
---|
Полезные ссылки |
Программы пакета BLAST для работы с нуклеотидными последовательностями.1. Поиск в геноме участков, кодирующих белки, похожие на заданный.Дан геном бактерии Xanthomonas campestris и аминокислотная последовательность белка RISA_ECOLI. Cоздаем индексные файлы пакета BLAST: formatdb -i xc_genome.fasta -p F -n xcДалее запускаем программу TBLASTN: blastall -p tblastn -d xc -i risa_ecoli.fasta -e 0.001 -o risa_xc.outна выходе имеем файл risa_xc.out Поиск гомологов белка RISA_ECOLI в геноме Xanthomonas campestris.
Score = 125 bits (313), Expect = 5e-30, Method: Compositional matrix adjust. Identities = 77/208 (37%), Positives = 110/208 (52%), Gaps = 3/208 (1%) Frame = +3 Query: 1 MFTGIVQGTAKLVSIDEKPN---FRTHVVELPDHMLDGLETGASVAHNGCCLTVTEINGN 57 MFTGI++G +L + + F LP + ++ G S+A NG CLTV + Sbjct: 3429 MFTGIIEGVGRLAARQPQGGDVRFTFATGSLP---FEAVQLGESIAVNGVCLTVIAFDAA 3599 Query: 58 HVSFDLMKETLRITNLGDLKVGDWVNVERAAKFSDEIGGHLMSGHIMTTAEVAKILTSEN 117 D ETL +T LG L+ G +N+ERA + +D +GGHL+SGH+ +V + + Sbjct: 3600 SFQADASTETLSLTTLGSLQEGAVLNLERAMRPTDRLGGHLVSGHVDGLGQVQSV-HGDA 3776 Query: 118 NRQIWFKVQDSQLMKYILYKGFIGIDGISLTVGEVTPTRFCVHLIPETLERTTLGKKKLG 177 Q W Q+++Y+ KG I +DG+SLTV EV F V LIP T+ T + +G Sbjct: 3777 RAQRWRFAAPPQVLRYVAKKGSICVDGVSLTVNEVDDAGFEVALIPHTVANTAFSETAVG 3956 Query: 178 ARVNIEIDPQTQAVVDTVERVLAARENA 205 A VN+EID V VER+L R A Sbjct: 3957 AAVNLEID----LVARYVERLLGTRGAA 40282. Нахождение записи EMBL по последовательности с помощью программы BLASTN С помощью программы seqret был получен файл с нуклеотидной последовательностью найденной в предыдущем задании. Далее с помощью программы BLASTN находим, что AC настоящего релиза EMBL - AE008922 а исходной последовательности в этой записи соответствуют позиции 837403..838002. Находим в поле FT информацию об этом участке последовательности. FT gene 837403..838005 FT /gene="ribE" FT /locus_tag="XCC0695" FT CDS 837403..838005 FT /codon_start=1 FT /transl_table=11 FT /gene="ribE" FT /locus_tag="XCC0695" FT /product="riboflavin synthase alpha chain" FT /note="identified by sequence similarity; putative; ORF FT located using Blastx/Glimmer/Genemark" FT /db_xref="HSSP:1I8D" FT /db_xref="InterPro:IPR001783" FT /db_xref="InterPro:IPR017938" FT /db_xref="UniProtKB/TrEMBL:Q8PCM9" FT /protein_id="AAM40011.1" FT /translation="MFTGIIEGVGRLAARQPQGGDVRFTFATGSLPFEAVQLGESIAVN FT GVCLTVIAFDAASFQADASTETLSLTTLGSLQEGAVLNLERAMRPTDRLGGHLVSGHVD FT GLGQVQSVHGDARAQRWRFAAPPQVLRYVAKKGSICVDGVSLTVNEVDDAGFEVALIPH FT TVANTAFSETAVGAAVNLEIDLVARYVERLLGTRGAA"Таким образом координаты CDS согласно аннотации 837403..838005. Продукту этого гена соответствует запись Q8PCM9 банка UniProt. 3. Поиск гомологов с помощью программы BLASTN. Файл risa_ecoli_nt.fasta содержит нуклеотидную последовательность гена, кодирующего белок RISA_ECOLI. Проведем поиск гомологов белка RISA_ECOLI в геноме Xanthomonas campestris по нуклеотидной последовательности с помощью программы BLASTN. Программа не нашла ни одного гомолога. Наименьшее Evalue 0.64. 4. Работа с программой getorf пакета EMBOSS Запись D89965 банка EMBL находится в файле d89965.entret. Найдем все рамки считывания в этом файле используя программу getorf: getorf -minsize 30 -find 1 -table 11 Finds and extracts open reading frames (ORFs) Input nucleotide sequence(s): d89965.fasta protein output sequence(s) [d89965.orf]:на выходе получим файл d89965.orf. Данная запись EMBL ссылается на запись SwissProt P0A7B8, которой соответствует 13-ая рамка. CDS записи соответствует 5-ая рамка. 5. Поиск некодирующих последовательностей программой BLASTN Файл trna_ecoli.fasta содержит последовательности всех тРНК, проаннотированных в полном геноме E.coli K12. Нужно определить, сколько гомологов каждой из тРНК программа BLASTN находит в геноме бактерии Xanthomonas campestris. Результаты находятся в файле trna.xls. 6. Поиск некодирующих последовательностей программой megablast Megablast: megablast -d xc -i trna_ecoli.fasta -o mega.out -m 8Discontigous megablast: megablast -m 8 -D 2 -t 16 -W 11 -N 1 -d xc -i trna_ecoli.fasta -o disc.outКоличество гомологов каждой тРНК, найденных этими программами можно посмотреть в файле trna.xls. 7. Анализ результатов Выбрана тРНК aspU E.Coli. и гомологичный ей участок в геноме Xanthomonas campestris, найденный программой BLASTN и не найденный программой megablast. С помощью программы needle получим выравнивание: # Length: 77 # Identity: 69/77 (89.6%) # Similarity: 69/77 (89.6%) # Gaps: 0/77 ( 0.0%) # Score: 313.0 # # #======================================= AE012195 1 ggagcggtagttcagctggttagaatgctggcctgtcacgccggaggtcg 50 |||||||||||||||..|||||||||.|..|||||||||||.||.||||| aspU 1 ggagcggtagttcagtcggttagaatacctgcctgtcacgcagggggtcg 50 AE012195 51 cgggttcgagtcccgtccgctccgcca 77 |||||||||||||||||||.||||||| aspU 51 cgggttcgagtcccgtccgttccgcca 77Аннотация в записи EMBL: FT gene 1135403..1135479 FT /locus_tag="XCC0980" FT tRNA 1135403..1135479 FT /locus_tag="XCC0980" FT /product="tRNA-Asp" FT /note="Found by tRNAscan" |