Blast Продолжение

Файл с отчетом trna.xls

1. Работа с программой getorf пакета EMBOSS

Файл D89965 был получен командой

entret embl:D89965

Команда

getorf -minsize 30 -table 11 -find 1 -sequence d89965.entret

выходной файл d89965.orf - набор трансляций всех открытых рамок данной последовательности длиной более 30 нуклеотидов, считая открытой рамкой последовательность триплетов, начинающуюся со старт-кодона и заканчивающуюся стоп-кодоном, при использовании бактериального кода.

Параметры :
-find = принимает параметры от 0 до 6.
0 транслирует рамку между стоп кодонами.
1 транслирует рамку между старт и стоп кодоном.
2 ищет нуклеотидную рамку между стоп кодонами.
3 ищет нуклеотидную рамку между старт и стоп кодоном.
4 нуклеотидная рамка фланкирующая к старт кодону
5 нуклеотидная рамка фланкирующая к инициаторному стоп кодону
6 нуклеотидная рамка фланкирующая к завершающему стоп кодону

-table = принимает параметра от 0 до 23.Коды для разных групп организмов (11 - для бактерий)
-minsize = минимальная длина рамки(в нуклеотидах)

Из найденных открытых рамок приведённой в записи CDS соответствует 5 рамка, 13 рамка - приведенной в Swiss-Prot.

2.Поиск некодирующих последовательностей программой BLASTN.

Для того чтобы определить сколько гомологов каждой из тРНК E.coli находит программа BLASTN в геноме родственной бактерии (Pasteurella multocida) запускаем команду

blastall -p blastn -d pm -i trna_ecoli.fasta -o trna.txt -m 9

Теперь пишем скрипт для того чтобы не считать вручную сколько последовательностей соответствует каждому наименованию - scriptlx и получаем выходной файл blastn данные заносим в таблицу Excel.

Для того чтобы повторить поиск, но на этот раз указать порог на E-value, равный 0.001. Выполняем команду

blastall -p blastn -d pm -i trna_ecoli.fasta -o trnaev.txt -m 9 -e 0.001

и пишем еще один скрипт sript2lx данные из выходного файла которого так же заносятся в таблицу Excel.

3. Поиск некодирующих последовательностей программой megablast.

Для программы MegaBlast была прописана команда

megablast -d pm -i trna_ecoli.fasta -o megabl.txt -m 9

выходной файл megabl.txt и сделан скрипт megascrlx.scr полученный результат был занесен в соответствующий столбец отчета.

 

Для поиска в discontigous megablast была прописана следующая комманда:

megablast -d pm -i trna_ecoli.fasta -m 9 -D 2 -t 18 -W 11 -N 1 -o disconbl.txt

где -D задает тип выдачи (значение "2" задает стандартную выдачу blast), параметр -t задает длину слов из тРНК, которые будут искаться в геноме бактерии (может принимать значения "16", "18", "21"), параметр -W задает длину слов из генома бактерий, по которым ведется поиск последовательности (может принимать значения "11" и "12"), параметр -N задает тип разрывов в матрице (может принимать значения "0", "1" и "2") и сделан скрипт disconlx.scr результаты которого были занесены в отчет.

4. Анализ результатов.

Для анализа я выбрал последовательность ileY, которая была найдена BlastN, но не была найдена MegaBlast. Выравнивание этой послеовательности с помощью BlastN:


>AE006202; AE004439 Pasteurella multocida subsp. multocida str. Pm70, complete genome.
          Length = 2257487

 Score =  102 bits (112), Expect = 2e-20
 Identities = 56/56 (100%)
 Strand = Plus / Plus

                                                                       
Query: 1       tagctcagtcggtcagagcagtcgactcataatcgattggtcacaggttcaagtcc 56
               ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 1862914 tagctcagtcggtcagagcagtcgactcataatcgattggtcacaggttcaagtcc 1862969
Результаты сравнивания исхоной и найденной последовательностей полученной командой:

needle ileY_trna.fasta ileY_pm.fasta needlseq.needle -auto

#=======================================
#
# Aligned_sequences: 2
# 1: AE006202
# 2: ileY
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      50/77 (64.9%)
# Similarity:    50/77 (64.9%)
# Gaps:          22/77 (28.6%)
# Score: 220.0
# 
#
#=======================================

AE006202           1 -------tagctcagtcggtcagagcagtcgactcataatcgattggtca     43
                            ||||||||| |||.|||||||.|||||||||||||.||||||.
ileY               1 ggccctttagctcagt-ggttagagcaggcgactcataatcgcttggtcg     49

AE006202          44 caggttcaagtcc--------------     56
                     |.|||||||||||              
ileY              50 ctggttcaagtccagcaagggccacca     76


#---------------------------------------
#---------------------------------------

Из результатов видно что существует более 11 совпадающих нуклеотидов, но менее 28. А так как BlastN ищет по последовательностям длинной 11, а MegaBlast 28, один ее нашел а другой нет.