Программа getorf. Поиск гомологов некодирующих последовательностей.

На главную Назад


Работа с программой getorf пакета EMBOSS

Спомощью команды entret была получена соответствующая запись D89965.embl
Врезультате выполнения команды getorf -sequence D89965.embl -outset D89965.orf -minsize 30 -table 0 -find 1 был получен
набор трансляций открытых рамок считывания (D89965.orf)
Из полученных рамок, только пятая по счету рамка соответствует описанной в поле FT кодирующей последовательности:
FT   CDS             163..435
FT                   /product="RSS"
FT                   /note="Rat Stomach Serotonin receptor-related gene"
FT                   /db_xref="GOA:P0A7B8"
FT                   /db_xref="InterPro:IPR001353"
FT                   /db_xref="InterPro:IPR022281"
FT                   /db_xref="PDB:1E94"
FT                   /db_xref="PDB:1G4A"
FT                   /db_xref="PDB:1G4B"
FT                   /db_xref="PDB:1HQY"
FT                   /db_xref="PDB:1HT1"
FT                   /db_xref="PDB:1HT2"
FT                   /db_xref="PDB:1NED"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT                   /protein_id="BAA14040.1"
FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
XX


Спомощью команды entret sw:D89965 была получена запись из SwissProt на которую ссылается данная запись EMBL.
Спомощью blastp, было найдено, что последовательности из SwissProt соответствует 9 рамка (а не 5, как было найдено раннее).
Subject= D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.

Length=98


 Score =  204 bits (518),  Expect = 6e-57, Method: Composition-based stats.
 Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)

Query  7312  MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  7371
             MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct  1     MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR  60

Query  7372  MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  7409
             MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct  61    MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS  98

Поиск некодирующих последовательностей спомощью blastn


Спомощью BLASTN был проведен поиск гомологов тРНК из файла trna_ecoli.fasta в геноме бактерии Salmonella typhimurium,
сначала без ограничения по evalue, затем значение evalue было задано 0.001. Используя FAR и Exel были написаны скрипты, подсчитывающие, количество находок, для каждой тРНК (numbers_linux.scr и numbersevalue_linux.scr)
Затем, поиск гомологов проводился спомощью программ megablast и "discontigous" megablast, был также получен файл, содержащий находки.
Аналогично предыдущему заданию были составлены скрипты подсчитывая количество находок
( numbersmegablast_linux и numbersmegablastdis_linux )
По результатам была составлена таблица в которой приводятся количество находок для каждого случая использования BLAST и команды, использованные, для решения каждой задачи, а также скрипты.

Для рассмотрения была выбрана последовательность hisR и гомологичную ей AE008893 (число находок BLAST - 34, а megablast-1).
Вырежем последовательность из генома бактерии в отдельный файл спомощью команды seqret -sask (старт - 10060, конец - 10082, направление - прямое).
Получим последовательность ae008893.fasta также имеем последовательность hisR. Построим их выравнивание спомощью needle ( hisr.needle )
#=======================================
#
# Aligned_sequences: 2
# 1: hisR
# 2: AE008893
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity:      21/77 (27.3%)
# Similarity:    21/77 (27.3%)
# Gaps:          54/77 (70.1%)
# Score: 97.0
# 
#
#=======================================

hisR               1 ggtggctatagctcagttggtagagccctggattgtgattccagttgtcg     50
                        |||||||||||||.|||.|||||                        
AE008893           1 ---ggctatagctcagctgggagagc------------------------     23

hisR              51 tgggttcgaatcccattagccacccca     77
                                                
AE008893          23 ---------------------------     23


#---------------------------------------
#---------------------------------------


Выпавнивания оказались абсолютно разными, повидимому для megablast важно то, чтобы последовательности мало отличались друг от друга (в том числе и длинной)
Для blast эта схожесть по длинне необязательна.
©Базылев Сергей, 2007