Программа getorf. Поиск некодирующих последовательностей.

1. Работа с программой getorf пакета EMBOSS.

a)Для получения файла d89965.orf использовалась команда:
getorf d89965.entret -minsize 30 -find 1 -table 0 -outseq d889965.orf
Задающая параметры :


b)В поле FT приведена последовательность:
FT   CDS             163..435
FT                   /product="RSS"
FT                   /note="Rat Stomach Serotonin receptor-related gene"
FT                   /db_xref="GOA:P0A7B8"
FT                   /db_xref="InterPro:IPR001353"
FT                   /db_xref="InterPro:IPR022281"
FT                   /db_xref="PDB:1E94"
FT                   /db_xref="PDB:1G4A"
FT                   /db_xref="PDB:1G4B"
FT                   /db_xref="PDB:1HQY"
FT                   /db_xref="PDB:1HT1"
FT                   /db_xref="PDB:1HT2"
FT                   /db_xref="PDB:1NED"
FT                   /db_xref="UniProtKB/Swiss-Prot:P0A7B8"
FT                   /protein_id="BAA14040.1"
FT                   /translation="MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY
FT                   GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA"

Ей соотвествует 5 рамка:
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA

Последовательности записи Swiss-Prot hslv_ecoli соответствует 9 рамка:
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS

Такое различие в результатах могло возникнуть из-за того, что для секвенирования была взята кишечная палочка, живущая в кишечнике крысы, а не сама крыса.

2. Поиск гомологов некодирующих последовательностей программой BLASTN.

Для определения количества гомологов каждой из тРНК в геноме родственной бактерии изпользовалась команда:
blastn -task blastn -query trna_bascu.fasta -db lm -evalue 0.01 -outfmt 6 -out trna1
Для получения файла с результатами использовался скрипт.

3. Поиск гомологов при изменённых параметрах программы BLASTN.

  1. Команда с измененной весовой матрицей:
    blastn -task blastn -query trna_bacsu.fasta -db lm -evalue 0.01 -outfmt 6 -out trna2 -reward 5 -penalty -4 -gapopen 10 -gapextend 6
  2. blastn -task blastn -query trna_bacsu.fasta -db lm -evalue 0.01 -outfmt 6 -out trna3 -reward 5 -penalty -4 -gapopen 10 -gapextend 6 -word_size 4
  3. blastn -task blastn -query trna_bacsu.fasta -db lm -evalue 0.01 -outfmt 6 -out trna4 -word_size 4
Таблица результатов, в котором также представлено время работы программы. Нетрудно заметить, что время работы увеличилось всреднем почти в 35 раз при изменении параметра -word_size.

4. Анализ результатов.

Сравнивая полученные результаты, нетрудно заметить, что наибольшее количество результатов извлено при задании параметров -reward -penalty -gapopen -gapextend -word_size. Меньше результатов дала команда, содержащая либо измененные параметры весовой матрицы (-reward -penalty - gapopen -gapextend) либо параметр -word_size. Наименьшее число гомологов было найдено при параметрах по умолчанию.
Для дальнейшей работы выбрана тРНК BSn5_t21020 участок 106675-106747 из AL591978, который можно найти только если измерить стандартные параметры весовой матрицы и параметр -word_size.
Вырежем гомологичный участок в отдельный файл командой :
seqret embl:al591978 -sask
и получим файл al591978.fasta. Еще получим файл с последовательностью >BSn5_t21020. Выполним выравнивание с помощью команды:
needle BSn5_21020.fasta al591978.fasta BSn5_21020_al591978.needle -auto
Получим файл с выравниванием. Имеющий параметры:

# Length: 82
# Identity:      55/82 (67.1%)
# Similarity:    55/82 (67.1%)
# Gaps:          14/82 (17.1%)
# Score: 162.0

Это выравнивание совпадает с выравниванием, построенным программой blastn с измененными параметрами весовой матрицы и -word_size.
В записи EMBL AL591978 участок 106675-106747 проаннторирован:
FT   tRNA            106675..106748
FT                   /product="transfert RNA-Arg"
FT                   /note="tRNAscan-SE vs 1.3 result - Cove score = 82.37"

То есть это действительно аригинин-тРНК .


© Anna Butusova,2012