Главная

Назад

Работа с программой getorf пакета EMBOSS

Создан файл D89965.entret с записью банка EMBL.

Выполнена команда:

getorf -sequence d89965.entret -minsize 30 -table 11 -find 1 -outseq d89965.orf

Программа getorf ищет открытые рамки считывания последовательности

 -sequence d89965.entret              файл с последовательностью, поданной на вход
-minsize 30(задана по умолчанию 30) минимальная длина рамки -table 11 таблица кодов, выбран бактериальный код(11) -find 1 есть 2 определения открытой рамки:1) в открытую рамку не входит стоп-кодон
2) открытая рамка включает в себя старт- и стоп-кодон(выбран в данном случае) -outseq d89965.orf файл d89965.orf с результатом
В результате поиска с помощью BLASTP открытой рамки, приведенной в CDS, по полученному файлу с открытыми рамками считывания получаем выравнивание:
D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.     188   4e-53

>D89965_5 [19 - 432] Rattus norvegicus mRNA for RSS, complete cds.
          Length = 138

 Score =  188 bits (478), Expect = 4e-53,   Method: Compositional matrix adjust.
 Identities = 90/90 (100%), Positives = 90/90 (100%)

Query: 1   MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM 60
           MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
Sbjct: 49  MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM 108

Query: 61  AVTAYAYYSCHELTPWLRIQSTNPVQKYGA 90
           AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Sbjct: 109 AVTAYAYYSCHELTPWLRIQSTNPVQKYGA 138
Таким образом, пятая из найденных рамок соответствует приведенной в записи cds.

В Swiss_Prot АС записи d89965 EMBL есть P0A7B8.
Действуем аналогично и получаем для Swiss_Prot результат:

 
D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for R...   224   1e-63

>D89965_13 [375 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
           complete cds.
          Length = 125

 Score =  224 bits (572), Expect = 1e-63,   Method: Compositional matrix adjust.
 Identities = 113/125 (90%), Positives = 113/125 (90%)

Query: 1   MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIXXXXXXXXXXXXLFEL 60
           MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVI            LFEL
Sbjct: 1   MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIAGFAGGTADAFTLFEL 60

Query: 61  FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 120
           FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL
Sbjct: 61  FERKLEMHQGHLVKAAVELAKDWRTDRMLRKLEALLAVADETASLIITGNGDVVQPENDL 120

Query: 121 IAIGS 125
           IAIGS
Sbjct: 121 IAIGS 125
13 открытая рамка соответствует записи Swiss_Prot.

Поиск некодирующих последовательностей программой blastn

запустили команду:
  blastall -p blastn -d xc -i trna_ecoli.fasta -o trna_blastn -m 9
выходной файл trna_blastn
С помощью скрипта получили количество находок для данной последовательности в файле wordcount.txt.
Обработанные данные в файле trna.xls

Поиск некодирующих последовательностей программой megablast

Теперь будем искать некодирующие последовательности программой megablast.
Для этого следует выполнить команду:
megablast -d xc -i trna_ecoli.fasta -o trna_mega.out
выходной файл trna_mega.out с полученными данными о последовательностях.
Для запуска программы discontigous megablast.:
megablast -d xc -i trna_ecoli.fasta -D 2 -m 9 -t 16 -W 11 -N 0 -o dismegablast.out

-D тип выходного файла
-t длина последовательности, может принимать значение 16, 18, 21
-W длина последовательности, по которой идет поиск, в данном случае может принимать значения 11 и 12
-N тип выбранной матрицы: кодирующая или некодирующая
Результаты внесены в файл trna.xls.

Анализ результатов

С помощью программы NEEDLE построили выравнивание 2 последовательностей, выбранных следующим образом
последовательность asnT взята из генома кишечной палочки, а другая последовательность является гомологичным участком из генома бактерии Xanthomonas campestris, который blastn нашел, а megablast - нет.

Megablast используют для быстрого сравнения двух близких, малоотличающихся последовательностей, несовпадения в которых могли быть вызваны ошибками при секвенировании или подобного рода ошибками. Возможно, именно поэтому многое последовательности он не находит.

Выравнивание NEEDLE:

# Length: 76
# Identity:      18/76 (23.7%)
# Similarity:    18/76 (23.7%)
# Gaps:          57/76 (75.0%)
# Score: 86.0
#
#
#=======================================

asnT               1 tcctctgtagttcagtcggtagaacggcggactgttaatccgtatgtcac     50
                                                         ||||||||||||||
AE012325           1 ------------------------------------aatccgtatgtcac     14

asnT              51 tggttcgagtccagtcagaggagcca     76
                     |||||
AE012325          15 cggtt---------------------     19

Найденный гомологичный участок попадает в следующий проаннотированный в EMBL ген:

AC EMBL: CP00005

FT   gene            complement(2338254..2339318)
FT                   /locus_tag="XC_1937"
FT                   /note="XC1937"
FT   CDS             complement(2338254..2339318)
FT                   /codon_start=1
FT                   /transl_table=11
FT                   /locus_tag="XC_1937"
FT                   /product="methyl-accepting chemotaxis protein"
FT                   /db_xref="GOA:Q4UVC3"
FT                   /db_xref="InterPro:IPR003660"
FT                   /db_xref="UniProtKB/TrEMBL:Q4UVC3"
FT                   /protein_id="AAY49000.1"
FT                   /translation="MVALTVILAITEANRVKSETADAIERQSVSLQTLFSVTRAMMLDR
FT                   VNSSMRQLRKEANAQGAPSVGNDVRVADRNANDLLLGQKSQANVFDMLDDVTAIHEGTA
FT                   TLFSRTGDDFVRISTNVKKDDGSRAIGTVLDPTGQAAAKLRNGESFYGVVDILGNPYVT
FT                   GYEPIFAGNDKRVIGAWYVGYKADTQALENVVSSRRVLDSGFIAIFDSKNTLRFQSTTG
FT                   ATTDTATIERIVKESPDDWVVTKQEVPDWGFTLVSAYPKSDVNGVIVRQSLWIAGIGLL
FT                   VCALLLGLQWALIWNRVLRPIQHLTTVAEELSLGKWNHTIAEVNLKDEIGTLARAISRL
FT                   SNSVRLAMERLSKR"

Как можно видеть из приведенной аннотации, этот участок кодирует метил-акцепторный белок, ответственный за хемотаксис, что явно неверно, т.к. изначально был произведен поиск гомологов тРНК.


© Ксения Лежнина 2008