Программа getorf. Поиск гомологов некодирующих участков

Работа с программой getorf пакета EMBOSS

1.Синтакс команды для получения набора трансляций открытых рамок считывания с заданными параметрами:
getorf -sequence d89965.fasta -minsize 30 -find 1 -table 0 -outseq d89965.orf,где:
-sequence d89965.fasta файл с последовательностью
-minsize 30 минимальная длина рамки
-table 0 таблица генетических кодов (по уполчанию 0)
-find 1 открытая раамка считывания включает стоп-кодон
-outseq d89965.orf файл с результатом
Записи в поле FT соответствует рамка:
>D89965.1_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM

Выравнивание последовательности из записи Swiss-Prot на которую ссылается запись EMBL и открытой рамки считывния.
выравнивание
Запись из Swiss-prot выравнилась с orf: >D89965.1_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Мне кажется,что причиной того,что двух записях аннотированы разные геномы,является тот факт,что за ген кодирующий исследуемый белок, был принят фрагмет генома E.coli,поскольку кишечная палочка очень широко распространена,и она могла вызвать искажение рзультатов. Произошло это из-за того E.coli загрязняет кишечник крысы. 2.

Поиск гомологов некодирующих последовательностейпрограммой BLASTN

Файл с результатами и со скриптом
3.

Поиск гомологов при измененных параметрах программы BLASTN

Поиск гомологов при измененных параметрах программы BLASTN
1)blastn -query trna_bacsu.fasta -db my_seq -out trna2.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
Файл с гомологам,найденными при помощи blastn
2)blastn -query trna_bacsu.fasta -db my_seq -out trna3.fasta -evalue 0.01 -task blastn -outfmt 7 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
Файл с гомологами,найденными при помощи blastn
4.

Анализ результатов

Вывод:При ослаблении параметров число находок достаточно сильно увеличивается,хотя и наблюдалось уменьшение нескольких гомологов.Объяснить увеличение при уменьшении длины слова
можно тем,что,чем короче слова образуются при работе BLAST,тем эффективнее подбираютя последовательности.

В качестве выравнивания была выбрана пара BSn5_t20966 embl|AL591977|AL591977.
Файл с результатом выравнивания
Эта находка находилась при 2 и 3 выборе параметров Выравнивание показывает, что последовательности гомологичны. Высокая идентичность наблюдается в нескольких участках, что,
предположительно, связано с достаточно консервативной пространственной структурой тРНК.Главное отличие заключается в том,
что у Bacillus subtilis тРНК изолейциновая,а у Listeria monocytogenes аспаргиновая.Следствие-есть различия в структуре,в частности,
в строении стеблей.Также нельзя забывать про видовые особенности бактерий
Проаннотирован в EMBL так:46656..46728
/product="transfert RNA-Asn"
Далее я решил взять находку которая встретилась только для набора параметров 3,но не нашлась для параметров 1 и 2: BSn5_t20968 embl|AL591984|AL591984 67.12 73 23 1 2 73 211362 211434 6e-04 36.1 При измененных параметрах расчета веса и одновременной измененной длине слова в заданном геноме был найден гомологичный участок 211362-211434
в сегменте AL591984,а при поиске с другими параметрами он найден не был.Возможео,причиной этого является тот факт,что
что при уменьшенной длине слова,совпадающие участки встречаются чаще,чем при более длинной длине слова.(чтобы выбравниванию набрать достаточный положительный вес при стоящих по умолчанию -reward 2 и -penalty -3. Файл с выравниванием
Выравнивание показывает,что последовательности гомологичны,есть высокая идентичность в некоторых участках. Аннотация в EMBL tRNA 211362..211434 /product="tRNA-Val"