Главная | Семестры | Проекты | Заметки | О себе | Полезные ссылки |
Задание 1.
В этом задании необходимо определить закодированы ли похожие белки на MRGA_BACSU в геноме другого организма (G.thermodenitrificans), не пользуясь аннотацией генома. С помощью команды makeblastdb -in gt_genome.fasta -dbtype nucl создадим базу из файлов, с которыми будем работать. Для поиска используем команду: tblastn -query MRGA_BACSU.fasta -db gt_genome.fasta -out blast.out -evalue 0.001. Результаты приведены в таблице ниже:
Число находок с E-value < 0,001 | 1 |
E-value лучшей находки | 8e-42 |
Название последовательности с лучшей находкой | > CP000557 CP000557.1 Geobacillus thermodenitrificans NG80-2, complete genome. |
Координаты лучшей находки (от-до) | 2877483-2877073 |
Доля последовательности белка, вошедшая в выравнивание с лучшей находкой | 0.89 |
Задание 2.
Используем следующую команду: blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out blast2.out -evalue 0.01 -outfmt 7. Получим скрипт с помощью grep и Excel. Файл с результатами: trna.xlsx
Задание 3.
При запускании команды с измененными параметрами (измененение весовой матрицы) подберем значения -gapopen и -gapextend, предложено 3 варианта: 10 и 6, 8 и 6, 25 и 10. Используем следующие команды:
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out file1.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10
blastn -task blastn -query trna_bacsu.fasta -db gt_genome.fasta -out file2.out -evalue 0.01 -outfmt 7 -reward 5 -penalty -4 -gapopen 25 -gapextend 10 -word_size 4
Файл с результатами: trna.xlsx
Задание 4.
При изменении параметра расчета веса выравнивания количество найденных гомологов, в целом, немного увеличивается, а при изменении длины слова - увеличиваются несколько больше. Была найдена треониновая т-РНК - BSn5_t20966 tRNA-Thr в паре с участком CP000557 553263..553335, которая была в выдаче при изменении длины слова, но не присутствовала в остальных файлах. Возможно, это произошло потому, что при параметре с уменьшенной длиной слова находится гораздо большо хитов, т.к. маленькое слово уменьшает точность выравнивания.
Полученное выравнивание с помощью програмы needle:
#======================================= # # Aligned_sequences: 2 # 1: BSn5_t20996 # 2: CP000557.1 # Matrix: EDNAFULL # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 73 # Identity: 62/73 (84.9%) # Similarity: 62/73 (84.9%) # Gaps: 0/73 ( 0.0%) # Score: 266.0 # # #======================================= BSn5_t20996 1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg 50 |||||..||||||||||||||||||..|||||||||||.||||.|.|||. CP000557.1 1 gccggcttagctcaattggtagagcaactgacttgtaatcagtaggttgc 50 BSn5_t20996 51 gggttcaagtcctcttgccggca 73 |||||||||||||...||||||| CP000557.1 51 gggttcaagtcctgcagccggca 73
Выравнивание получилось очень хорошим, т.к. участок, найденный в G.thermodenitrificans соответствует Thr-тРНК, т.к. по данным в записи embl: CP000557 553263..553335 соответствует участку генома, отвечающему за Thr-тРНК.
Задание 5.
Время работы при стандарнтных параметрах: 0m0.376s
При изменении параметров матрицы расчета: 0m0.675s
При изменении длины слова: 0m0.791s
Что естественно, при стандартных параметрах программа работает быстрее, а при постепенном добавлении параметров, она затрачивает время чуть-чуть большее.