Главная Семестры Проекты Обо мне

Программа getorf. Поиск некодирующих последовательностей

1.Работа с программой getorf пакета EMBOSS


Создала файл с записью D89965 банка EMBL, воспользовавшись командой entret. (d89965.entret)

Теперь, выполним команду для получения набора трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов от старт-кодона и заканчивающуюся стоп-кодоном, при использовании стандартного кода: getorf d89965.entret d89965.orf -find 1. (d89965.orf)

Нашлось 9 открытых рамок считывания.
Сравнивая рамки считывания, заметим что пятая только частично соответствует кодирующей последовательности.

Загрузим последовательность записи P0A7B8, так как на нее ссылается загруженная запись EMBL.

Далее нужно выяснить,какой из полученных открытых рамок соответствует эта последовательность.
Воспользуемся программой blastp: blastp -query P0A7B8.fasta -subject d89965.orf -out bp.out

Получив результатом файл bp.out, заметим, что полученный файл соответствует 9 открытой рамке считывания.

Также становится несовсем ясным данный факт, что запись D89965 банка EMBL содержит последовательность мРНК для серой крысы, а запись P0A7B8 банка Swiss-Prot, на которую она ссылается, содержит последовательность АТФ-зависимой субъединицы протеазы HslV кишечной палочки.

Возможно, что причиной такого события является то, что в работе по секвенированию была использована серая крыса, зараженная кишечной палочкой.


2.Поиск гомологов некодирующих последовательностей программой BLASTN


trna_bacsu.fasta
геном бактерии Streptococcus agalactiae

Воспользуемся программой blastn, указав в качестве последовательностей для поиска файле trna_bacsu.fasta, в качестве банка - геном бактерии Streptococcus agalactiae; при этом установим табличный формат выдачи и порог на E-value 0.01: blastn -query trna_bacsu.fasta -db sa -out trna_bacsu_sa_blastn.txt -evalue 0.01 -outfmt 6 -task blastn

Для подсчёта количества находок для каждой последовательности в файле trna_bacsu_sa_blastn.txt сначала необходимо составить список названий входных последовательностей. Выполним команду: grep ">" trna_bacsu.fasta > trnas.txt

Полученный в файле trnas.txt список названий последовательностей импортируем в Excel. С помощью функции CONCATENATE (сцепить) создадим строки для скрипта count_trnas_in_sa.scr следующего вида: grep -c 't2xxxx' trnas.txt >> trnas_in_sa_count.txt

Затем сделаем созданный файл со скриптом исполняемым и запустим его:
chmod +x count_trnas_in_sa.scr
./count_trnas_in_sa.scr
сам скрипт

В результате в файле trnas_in_sa_count.txt мы получим столбец со значениями числа находок для каждой последовательности. Импортируем полученные данные в Excel (см. столбец BLASTN default в файле trna.xlsx).


3.Поиск гомологов при изменённых параметрах программы BLASTN


Повторила предыдущее задание дважды:

1. Изменила весовую матрицу (установаила параметры -reward 5 и -penalty -4), программа не начинала работу, пока не изменила параметры -gapopen и -gapextend (из возможных вариантов выбрала -gapopen 8 и -gapextend 6).
blastn -query trna_bacsu.fasta -db sa -out trna_bacsu_sa_blastn_1.txt -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -task blastn
Получила файл: trna_bacsu_sa_blastn_1.txt

2. Оставила те же измененные значения параметров -reward, -penalty, -gapopen и -gapextend, поменяла значение параметра -word_size на минимально возможное (т.е. 4).
blastn -query trna_bacsu.fasta -db sa -out trna_bacsu_sa_blastn_2.txt -evalue 0.01 -outfmt 6 -reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4 -task blastn
Получила файл: trna_bacsu_sa_blastn_2.txt

Дополненый Excel-файл: trna(2).xlsx.


4.Анализ результатов


При изменении параметров -reward, -penalty, -gapopen и -gapextend сильного изменения в количестве находок я не увидела.
Наибольшее количество находок было замечено при установке параметра word_size на минимально возможное, то есть 4.
Также при этом было замечено, что программе понадобилось больше времени на обработку результатов, что и понятнo ведь ей пришлось прорабатывать больше потенциальных выравниваний.


Выбрала пару из тРНК B.subtilis и найденного в геноме бактерии Streptococcus agalactiae гомологичного участка, например, тРНК BSn5_t20892 и участок 28016 - 28076 из AL766843.

Эта пара находится только при изменении значений параметров вычисления веса выравнивания и -word_size.
Возможно, так произошло потому что самый длинный участок выравнивания этой пары, выданного blastn, имеет длину 8, а при значении -word_size равном 11, данный участок просто не был найден программой.

Вырезала указанный участок: seqret embl:al766843 -sask
Получила файл al.fasta.

Также вырезала >BSn5_t20892 tRNA-Asn в отдельный файл tRNA-Asn.fasta.

Выровнила обе последовательности программой needle: needle tRNA-Asn.fasta al.fasta t_al.needle -auto
Получила файл t_al.needle.

Вес выравнивания - 146, процент сходства - 59.5%, процент совпадений - 59.5%, длина выравнивания - 74 bp. Данное выравнивание совпадает с выравниванием, выданным программой blastn при поиске гомологов с изменёнными значениями параметров -reward, -penalty, -gapopen и -gapextend и -word_size.

В записи EMBL AL799843 найдём в поле FT участок последовательности генома Streptococcus agalactiae, содержащий найденный гомологичный участок:

Данный участок действительно является последовательностью тРНК, а точнее митионил-тРНК (tRNA-Met).


©Melnichuk Anastasia