Программа getorf. Поиск гомологов некодирующих последовательностей.
На главную
Назад
Работа с программой getorf пакета EMBOSS
Спомощью команды entret была получена соответствующая запись D89965.embl
Врезультате выполнения команды getorf -sequence D89965.embl -outset D89965.orf -minsize 30 -table 0 -find 1 был получен
набор трансляций открытых рамок считывания (D89965.orf)
Из полученных рамок, только пятая по счету рамка соответствует описанной в поле FT кодирующей последовательности:
FT CDS 163..435
FT /product="RSS"
FT /note="Rat Stomach Serotonin receptor-related gene"
FT /db_xref="GOA:P0A7B8"
FT /db_xref="InterPro:IPR001353"
FT /db_xref="InterPro:IPR022281"
FT /db_xref="PDB:1E94"
FT /db_xref="PDB:1G4A"
FT /db_xref="PDB:1G4B"
FT /db_xref="PDB:1HQY"
FT /db_xref="PDB:1HT1"
FT /db_xref="PDB:1HT2"
FT /db_xref="PDB:1NED"
FT /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT /protein_id="BAA14040.1"
FT /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"
XX
Спомощью команды entret sw:D89965 была получена запись из SwissProt на которую ссылается данная запись EMBL.
Спомощью blastp, было найдено, что последовательности из SwissProt соответствует 9 рамка (а не 5, как было найдено раннее).
Subject= D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS,
complete cds.
Length=98
Score = 204 bits (518), Expect = 6e-57, Method: Composition-based stats.
Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%)
Query 7312 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 7371
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60
Query 7372 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 7409
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS
Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
Поиск некодирующих последовательностей спомощью blastn
Спомощью BLASTN был проведен поиск гомологов тРНК из файла trna_ecoli.fasta в геноме бактерии Salmonella typhimurium,
сначала без ограничения по evalue, затем значение evalue было задано 0.001.
Используя FAR и Exel были написаны скрипты, подсчитывающие, количество находок, для каждой тРНК
(numbers_linux.scr и numbersevalue_linux.scr)
Затем, поиск гомологов проводился спомощью программ megablast и "discontigous" megablast, был также получен файл, содержащий находки.
Аналогично предыдущему заданию были составлены скрипты подсчитывая количество находок
( numbersmegablast_linux и
numbersmegablastdis_linux )
По результатам была составлена таблица в которой приводятся количество находок
для каждого случая использования BLAST и команды, использованные, для решения каждой задачи, а также скрипты.
Для рассмотрения была выбрана последовательность hisR и гомологичную ей AE008893 (число находок BLAST - 34, а megablast-1).
Вырежем последовательность из генома бактерии в отдельный файл спомощью команды seqret -sask (старт - 10060, конец - 10082, направление - прямое).
Получим последовательность ae008893.fasta также имеем последовательность hisR.
Построим их выравнивание спомощью needle ( hisr.needle )
#=======================================
#
# Aligned_sequences: 2
# 1: hisR
# 2: AE008893
# Matrix: EDNAFULL
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 77
# Identity: 21/77 (27.3%)
# Similarity: 21/77 (27.3%)
# Gaps: 54/77 (70.1%)
# Score: 97.0
#
#
#=======================================
hisR 1 ggtggctatagctcagttggtagagccctggattgtgattccagttgtcg 50
|||||||||||||.|||.|||||
AE008893 1 ---ggctatagctcagctgggagagc------------------------ 23
hisR 51 tgggttcgaatcccattagccacccca 77
AE008893 23 --------------------------- 23
#---------------------------------------
#---------------------------------------
Выпавнивания оказались абсолютно разными, повидимому для megablast важно то, чтобы последовательности мало отличались друг от друга (в том числе и длинной)
Для blast эта схожесть по длинне необязательна.
©Базылев Сергей, 2007