Учебный сайт Кирилла Цуканова → Третий семестр

Поиск гомологов некодирующих последовательностей

Задание 1. Работа с getorf

Необходимые параметры для getorf: -minsize 30 — стоит по умолчанию; -table 0 — стоит по умолчанию; -find 1 — указываем (выдача трансляций участков между старт- и стоп-кодонами). Результат работы на записи embl:D89965:

>D89965_1 [66 - 155] Rattus norvegicus mRNA for RSS, complete cds.
MQFHPRLPAVLQVCAACDRYASLLPAQRRL
>D89965_2 [56 - 169] Rattus norvegicus mRNA for RSS, complete cds.
MISDAVSSATASSASSLRSMRSVRQSFASSTAALTRWP
>D89965_3 [245 - 316] Rattus norvegicus mRNA for RSS, complete cds.
MTLSLYRRRTFFTLPFITVLPNVA
>D89965_4 [332 - 379] Rattus norvegicus mRNA for RSS, complete cds.
MTTWPLRRTLTIVVTS
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
>D89965_6 [433 - 350] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MPRTFVRGLYSVFVTKGSARDNYSKRTP
>D89965_7 [341 - 297] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MWSSLVMVRPRWAIP
>D89965_8 [218 - 3] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MLLRCSNCLNVNWKCIRAIWSKPPLSWQKTGVPIACCANLKHCWQSRMKLHRLSSPVTVT
WCSQKTILLLSA
>D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds.
MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR
MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS

Найденная рамка считывания №5 соответствует CDS в поле FT оригинальной последовательности (за исключением стоп-кодона, который в записи EMBL включен в последовательность, а в выдаче getorf — нет).

Однако в записи из банка UniProt, на которую ссылается эта запись из EMBL, мы находим частичное соответствие девятой рамке считывания: она в точности соответствует аминокислотным остаткам 28—125 (всего их 176). А если поискать бластом вообще всю последовательность D89965, то окажется, что это вообще отрывок из генома кишечной палочки, и крысы тут совершенно ни при чем. Об этом упоминается и в записи UniProt: хотя изначально предполагалось, что эта последовательность из крысы, учитывая схожесть последовательностей, вероятно, это просто загрязнение от самой кишечной палочки, в которой, видимо, пытались экспрессировать нужный крысиный ген. Дальнейшее копание с помощью бласта показывает, что эта последовательность встречается во всевозможных штаммах кишечной палочки, но никогда — у крыс. Резюме: экспериментальная ошибка.

Задание 2. Поиск гомологов некодирующих последовательностей с помощью blastn

Запустим blastn с нужными параметрами на последовательностях тРНК; получим результат. Далее сначала вытащим список последовательностей:

grep -i '# Q' blastn_0.txt | sed -e 's/# Query: //' -e "s/ .*//" > list.txt

Потом для каждой найдем количество вхождений:

while read s; do grep -i $s blastn_0.txt | grep -v '# Query' | wc -l >> list0.txt; done < list.txt

Задание 3. Поиск гомологов при измененных параметрах blastn

Прогоним BLAST с разными параметрами. Процесс при работе по умолчанию занимает 0.4 секунды.

Получим аналогичным образом файлы list1, list2, list3, подклеим их к таблице: окончательный вариант.

Анализ результатов

При уменьшении значения параметра word_size программе приходится прорабатывать больше потенциальных выравниваний и процесс значительно замедляется.

Заметно, что параметры 5/–4/8/6 немного более свободные, чем те, что по умолчанию, а изменение word_size на минимальное значение ­(4) приводит к заметно большему количеству выравниваний.

Для сравнения выберем вторую последовательность (BSn5_t20966 tRNA-Ile). При наборе параметров № 2 (см. выше) находится 10 выравниваний, а при наборе № 3 (изменение word_size) — 11. Это выравнивание имеет такие параметры: покрытие оригинальной последовательности — 67.57 (неплохо, и для сравнения подойдет); длина выравнивания — 74, несовпадений 24, гэпов 0 (ага, значит, почти точно это настоящее выравнивание), позиции выравнивания в оригинальной последовательности 4..77, а в геноме — 2168909..2168836 (), e-value = 6e-04.

Теперь вырежем оригинальную и гомологичную последовательности в отдельные файлы и построим выравнивание с помощью needle (чтобы избежать гэпов, которые в данном случае нежелательны и которых BLAST не находил, я поставил параметр gapopen 40, поскольку отдельного параметра nogap или подобного не нашел):

BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtggttcgagtccactcaggcccacca 77
                        ||.|||||||||.|||.||||||....||||..|||||....||||||..||||||.||....|.||..|.|||
CP000557           1 ---ccagtagctcagttggatagagcagcggccttctaagccgtcggtcgggagttcgaatctctcctgggacgcca 74

(Для сравнения выравнивание со всеми параметрами по умолчанию, погоды не делает, по-моему.)

Основные участки, которые соответствуют стеблям тРНК, показывают (на глаз) хорошую степень сходства. Попробуем что-нибудь более точное, чем прикидка, хотя бы mfold:

В соответствии с этим теперь раскрасим выравнивание по стеблям и посмотрим, что получится (в mfold антикодоновый стебель вместе с антикодоном немножко съехал, но править это я не буду, мы же только прикидываем):

BSn5_t20966        1 gggcctgtagctcagctggttagagcgcacgcctgataagcgtgaggtcggtggttcgagtccactcaggcccacca 77
                        ||.|||||||||.|||.||||||....||||..|||||....||||||..||||||.||....|.||..|.|||
CP000557           1 ---ccagtagctcagttggatagagcagcggccttctaagccgtcggtcgggagttcgaatctctcctgggacgcca 74

Итак, это действительно тРНК. Осталось проверить, проаннотирована ли она соответствующим образом в геноме другой бактерии. Проаннотирована! Это tRNA-Arg. Интересно, что остатки, соответствующие антикодонам, как раз не совпадают (выделены жирным).

Осталось сделать вывод, почему это выравнивание находится при параметре word_size = 4, но не по умолчанию. Чтобы не гадать на кофейной гуще, попробуем постепенно увеличивать этот параметр и посмотрим, когда выравнивание пропадет. Опыт показывает, что выравнивание находится при word_size = 9, но не находится при значении 10. Если взглянуть на выравнивание, видно, что наибольший полностью совпадающий участок имеет длину как раз 9. Описание этого параметра в справке на сайте NCBI подтверждает вывод: этот параметр определяет минимальную длину "затравки" для выравнивания.