Программа getorf. Поиск гомологов некодирующих последовательностей. |
||
|
Задание 1. Работа с программой getorf пакета EMBOSS
>lcl|17571 swissprot|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV;
Length=176
Score = 200 bits (509), Expect = 6e-57, Method: Compositional matrix adjust.
Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)
Query 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87
Query 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125
Задания 2 и 3. Поиск гомологов некодирующих последовательностей программой BLASTN Программа Blastn была запущена 4 раза: 1)С параметрами, взятыми по умолчанию: blastn -query trna_bacsu.fasta -db sa -out em3_2.txt -evalue 0.01 -outfmt 7 -task blastn 2)С измененной весовой матрицей: blastn -query trna_bacsu.fasta -db sa -out em3_21.txt -evalue 0.01 -outfmt 7 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6 3)С измененной весовой матрицей при минимальном значении параметра -word_size blastn -query trna_bacsu.fasta -db sa -out em3_22.txt -evalue 0.01 -outfmt 7 -task blastn -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4 4)С параметрами выравнивания взятыми по умолчанию, но при минимальном значении параметра -word_size blastn -query trna_bacsu.fasta -db sa -out em3_23.txt -evalue 0.01 -outfmt 7 -task blastn -word_size 4 Полученные результаты представлены в файле trna.xls Задание 4. Анализ результатов При изменении значений параметров весовой матрицы -reward 2 и -penalty -3, установленных по умолчанию, на 5 и -4 соответственно, а также изменении размера штрафов за открытие и расширение гэпа, в большинстве случаев число найденных гомологов увеличилось(это связано с тем, что при поиске с меньшими значениями описанных выше параметров, программа находит больше совсем коротеньких совпадающих фрагментов, которые при значениях параметров по умолчанию воспринимаются как случайные); но в нескольких строчках все же можно заметить обратное (уменьшение числа находок). При установке минимального значения параметра -word_size 4 и -reward 5 и -penalty -4 число найденных гомологов почти во всех случаях сильно увеличилось, потому что, очевидно, длина образуемых blastом слов обратнопропорциональна количеству найденных последовательностей. В последнем случае заметно, что если задать программе минимальное значение длины слова, а остальные параметры выравнивания оставить по умолчанию, то все равно количество находок увеличится. Для выравнивания программой needle выбрана находка, которая находится программой BLAST при третьем наборе параметров и не находится при первом наборе (по умолчанию).
########################################
# Program: needle
# Rundate: Sat 5 Nov 2011 18:17:30
# Commandline: needle
# [-asequence] 996.fasta
# [-bsequence] small845.fasta
# [-outfile] ali.needle
# -auto
# Align_format: srspair
# Report_file: ali.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: BSn5_t20996
# 2: AL766845
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 73
# Identity: 58/73 (79.5%)
# Similarity: 58/73 (79.5%)
# Gaps: 0/73 ( 0.0%)
# Score: 230.0
#
#
#=======================================
BSn5_t20996 1 gccggtgtagctcaattggtagagcgcctgacttgtaagcagtggattgg 50
|||||..|||||||.||||||||||..||||.||||||.|||.||.|.|.
AL766845 1 gccggcttagctcagttggtagagcatctgatttgtaatcagagggtcgc 50
BSn5_t20996 51 gggttcaagtcctcttgccggca 73
|.|||||||||.|.|.|||||||
AL766845 51 gtgttcaagtcatgtagccggca 73
#---------------------------------------
#---------------------------------------
Очевидно, в выравнивании присутствуют несколько очень консервативных фрагментов, проценты идентичности и сходства высоки, гэпы совсем отсутствуют, что означает, что участки последовательностей гомологичны и такая находка не является случайной. Это можно объяснить достаточно консервативной структурой молекул РНК, к тому же, если посмотреть записи EMBL, относящиеся к генам, кодирующим эти две РНК, то можно заметить, что у обеих бактерий они треониновые. Так проаннотирован в EMBL выравниваемый участок из Streptococcus agalactiae: /product="transfert RNA-Thr"
|
||