Программа getorf. Поиск некодирующих последовательностей.

Главная

1. Работа с программой getorf пакета EMBOSS


Создала в своей директории файл с записью D89965 банка EMBL (D89965.entret ).
Запустила программу getorf для получения набора трансляций всех открытых рамок данной последовательности:
getorf -sequence D89965.entret -outseq D89965.out -find 1 -minsize 30
D89965.out :
>D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds.
MQFHPRLPAVLQVCAACDRYASLLPAQRRL
>D89965_2 [56 - 169] Rattus norvegicus mRNA for RSS, complete cds.
MISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP
>D89965_3 [245 - 316] Rattus norvegicus mRNA for RSS, complete cds.
MTLSLYRRRTFFTLPFITVLPNVA
>D89965_4 [332 - 379] Rattus norvegicus mRNA for RSS, complete cds.
MTTWPLRRTLTIVVTS
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
>D89965_6 [433 - 350] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MPRTFVRGLYSVFVTKGSARDNYSKRTP
>D89965_7 [341 - 297] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MWSSLVMVRPRWAIP
>D89965_8 [218 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLSSPVTVT
WCSQKTILLLSA
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS


Найенная рамка(5-я):
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA


соответствует приведённой в поле FT кодирующей последовательности (CDS)
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA


Данная запись EMBL ссылается на запись P0A7B8 в UniProtKB/Swiss-Prot (UniProtKB/Swiss-Prot:P0A7B8).
Где узнаем,что данная последовательность принадлежит E.coli, а не крысе
("PubMed:9013898 sequence is supposed to originate from rat but, based on sequence similarity, it seems that this is a case of bacterial contamination from E.coli.").
>swissprot|P0A7B8|HSLV_ECOLI ATP-dependent protease subunit HslV;
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL
FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
IAIGSGGPYAQAAARALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
Девятая найденная рамка частично соответствует последовательности белка:
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS


Видимо, экспериментальная ошибка.

2. Поиск гомологов некодирующих последовательностей программой BLASTN


Запустила программу blastn, указав в качестве последовательностей для поиска файл trna_bacsu.fasta : , в качестве банка – отформатированный при выполнении задания 6 геном бактерии Bacillus licheniformis.
Установила табличный формат выдачи (опция "-outfmt 7"). Порог на E-value установила равным 0,01. Не забыла параметр -task blastn .
blastn -query trna_bacsu.fasta -task blastn -db bl -out bltrna.txt -outfmt 7 -evalue 0.01
Выходной файл bltrna.txt.
Список из названий входных последовательностей:
grep -i '# Query' bltrna.txt | sed -e 's/# Query: //' -e "s/ .*//" > file2.txt

Число находок для каждой последовательности (file.scr).
Отчетный Excel-файл trna.xlsx.

3. Поиск гомологов при изменённых параметрах программы BLASTN


Повторила предыдущее задание ещё два раза с изменёнными параметрами программы.
В первый раз изменила весовую матрицу, то есть параметры -reward и -penalty. Установила -reward 5 и -penalty -4. При этом программа отказывалась работать, пока не поменяла также параметры -gapopen и -gapextend, и предложила возможные варианты:
blastn -query trna_bacsu.fasta -db 1 -evalue 0.01 -out 2v -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -task blastn -outfmt 6

(2.scr).
Во второй раз, оставив те же (изменённые по сравнению со значениями по умолчанию) значения параметров -reward, -penalty, -gapopen и -gapextend, поменяла также значение параметра -word_size на минимально возможное
blastn -query trna_bacsu.fasta -db 1 -evalue 0.01 -out 3v -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -task blastn -outfmt 6 -word_size 4

(3.scr).

4. Анализ результатов


Число найденных гомологов при изменении параметров расчёта веса выравнивания и изменении длины слова увеличивается.
Уменьшение значения длины слова приводит к тому, что находятся последовательности не гомологичные (аналогично для изменения значений gapopen и gapextend).
Выбрали участки тРНК BSn5_t20966 и участок генома Bacillus licheniformis 1300594-1300657.
Данный гомологичный участок был найден при -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4, но не был найден при тех же параметрах, только без изменений длины слова.
Полное выравнивания при помощи needle:


©Eliseeva Julia