Последовательность команд:
entret embl:d89965 d89965.entret tfm getorf > getorf_hepl.txt getorf -sequence d89965.entret -outseq d89965.orf -minsize 30 -find 1 -methionine entret sw:P0A7B8 hslv_ecoli.entret
Полученные файлы:
d89965.entret
getorf_help.txt
d89965.orf
hslv_ecoli.entret
Комментарии к некоторым опциям getorf.
Последовательность действий:
Запись embl D89965 является описанием мРНК, выделенной из желудка самца Rattus norvegicus (эукариотический организм - Норвежская Крыса). Поле FT содержит информацию о транслируемой последовательности (белок, родственный серотониновому рецептору):
UniProtKB/Swiss-Prot:P0A7B8 MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Запускаю по файлу записи getorf с параметрами, чтобы
длина рамки была более 30 нуклеотидов (-minsize 30), открытая рамка -
последовательность триплетов со старт и
до стоп-кодона (-find 1),
используя стартный кодон (-methionine).
Пятая последовательность в выдаче соответствует
транслированной последовательности из файла:
>D89965_5 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds. MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHY GIAQRGLTITSDDHMAVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Извлекаю запись sw:P0A7B8 - является описанием
белка теплового шока HslV (субъединица HslV АТФ-зависимой протеазы) Escherichia coli strain K12
(прокариотический организм).
Его последовательность:
MTTIVSVRRNGHVVIAGDGQATLGNTVMKGNVKKVRRLYNDKVIA GFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDRMLR KLEALLAVADETASLIITGNGDVVQPENDLIAIGSGGPYAQAAA RALLENTELSAREIAEKALDIAGDICIYTNHFHTIEELSYKA
Запускаю blastp по полученной выдаче getorf c запросом последовательностью P0A7B8. Получаю такой результат:
> D89965_9 [294 - 1] (REVERSE SENSE) Rattus norvegicus mRNA for RSS, complete cds. Length=98 Score = 200 bits (509), Expect = 1e-56, Method: Compositional matrix adjust. Identities = 98/98 (100%), Positives = 98/98 (100%), Gaps = 0/98 (0%) Query 28 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 87 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR Sbjct 1 MKGNVKKVRRLYNDKVIAGFAGGTADAFTLFELFERKLEMHQGHLVKAAVELAKDWRTDR 60 Query 88 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 125 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS Sbjct 61 MLRKLEALLAVADETASLIITGNGDVVQPENDLIAIGS 98
То есть, девятая открытая рамка в выдаче
совпадает с фрагментом последвоательности белка HslV_ECOLI.
Выводы.
Суммарная картина получается довольно необычная:
одна из открытых рамок матричной РНК крысы
соответствует фрагменту белка прокариота E.coli.
Внимательно читаю комментарии к записям и референсные статьи.
Авторы, получившие данную мРНК из желудка, подробно исследовали её в организме крысы, даже сделали
Нозерн-блоттинг всех тканей и нашли распространение RSS мРНК повсеместным
(см.
"Molecular cloning of a novel gene involved in serotonin receptor-mediated signal
transduction in rat stomach"
). О последовательности транслируемого белка авторы заключили по самой длинной открытой
рамке считывания. По ней же судили о возможных функциях белка.
Всё же, точное совпадение одной из рамок мРНК крысы и фрагмента бактериального белка настораживают.
HslV_ecoli кодирует белок теплового шока(БТШ), входящий в состав протеосом.
Схожесть последовательностей с какими-нибудь БТШ низших эукариот (доказано сущестование у них похожей
протеосомы) кажется возможной, но не до полного совпадения последовательностей.
Нахожу в комментариях к описанию HslV_ecoli, что в исследовании с крысами предполагается
бактериальное загрязнение E.coli.
Делаю выводы о цене ошибки в научном мире. Огромный труд, применение биоинженерных и биоинформатических инстументов, написание статьи -
фактически оказывается исследованием концентрации фрагмента нуклеиновой кислоты кишечной палочки
в тканях зараженных крыс...
Задача: определить, сколько гомологов каждой тРНК,
проаннотированной в полном геноме Bacillus subtilis BSn5,
находит программа blasn в геноме Geobacillus thermodenitrificans.
Ход работы.
Запустила blastn с запросом trna_bacsu.fasta по банку генома Geobacillus thermodenitrificans (см. предыдущее занятие):
blastn -query trna_bacsu.fasta -db gt -out result.txt -outfmt 7 -evalue 0.01 -task blastn
Полученный файл: result.txt
Команда, которая проводит поиск количество совпадений для тРНК с названием BSn5_t20894 tRNA-Gln по result.txt:
grep 'BSn5_t20894' result.txt | grep 'BSn5_t20894 tRNA-Gln' -c -v
Конвеерный счетчик нужен для того, чтобы считать только совпадение названий в таблице, но не в шапке. Результат - 2 находки (а не 3, если подсчитать все совпадения 'BSn5_t20894').
Создаю колонку из названий входных последовательностей и импортирую в Exel:
grep ">" trna_bacsu.fasta
Для получения скрипта провожу несколько действий. Результат предыдущего этапа редактирую в FAR так, чтобы экспортировать в Exel и получить колонку с полными и короткимии названиями последовательностей. Создаю колонку с верхней ячейкой:
=СЦЕПИТЬ("grep '"; B2; "' result.txt | grep '"; A2; "' -v -c >> count.txt")
где B2 - короткое название последовательности, A2 - полное название последовательности. Распространяю формулу на все строки в колонке. Результат в первой ячейке:
grep 'BSn5_t20894' result.txt | grep 'BSn5_t20894 tRNA-Gln' -v -c >> count.txt
Копирую полученную колонку в отдельный файл "wordcount.sh". Выполняю команду "chmod +x wordcount.sh"
и запускаю команду: "./wordcount.sh".
Копирую столбец полученных значений в Exel,
форматирую до требуемой таблицы.
Результат:
result.xls
Задача: повторить предыдущее задание ещё
два раза с измененными параметрами blastn.
Таким образом, в таблице Exel появятся два новых столбца.
Первый - для blastn c измененной весовой матрицей:
-reward 5 -penalty -4 -gapopen 8 -gapextend 6 #новые параметры для упомянутой команде к blastn
Второй - для измененной весовой матрицы и минимального размера слова (4)
-reward 5 -penalty -4 -gapopen 8 -gapextend 6 -word_size 4
Для интереса провожу ту же работу для стандартных установок и минимальной длины слова:
-word_size 4
Получаю такую
таблицу Exel.
Все полученные blastn файлы:
reward | penalty | gapopen | gapextend | word_size | File |
1 | -3 | 5 | 2 | 11 | result.txt |
5 | -4 | 8 | 6 | 11 | result1.txt |
5 | -4 | 8 | 6 | 4 | result2.txt |
1 | -3 | 5 | 2 | 4 | result3.txt |
Небольшая работа по сравнению времени работы blastn: создать скрипт timecout.sh, который будет выводит время работы каждой команды в виде:
real %e user %U sys %S
где %e - затраченное реальное время,
%U - процессорное время в пользовательстком режиме,
%S - процессорное время в режиме ядра.
Формирую таблицу:
reward | penalty | gapopen | gapextend | word_size | time: real | time: user | time: sys |
1 | -3 | 5 | 2 | 11 | 0.444s | 0.224s | 0.196s |
5 | -4 | 8 | 6 | 11 | 0.485s | 0.292s | 0.192s |
5 | -4 | 8 | 6 | 4 | 8.490s | 8.265s | 0.204s |
1 | -3 | 5 | 2 | 4 | 6.386s | 6.232s | 0.152s |
Изменение только весовой матрицы незначительно замедляет работу;
уменьшение только
длины слова замедляет сильно;
изменение и весовой матрицы, и длины слова дает максимальное время.
(!Выводы об изменении количества находок в зависимости от параметров blastn описаны в п.3!)
Задача: исследовать какую-нибудь пару, находящуюся при одних параметрах
и не находящуюся при других параметрах blastn.
Ссылки:
Полный геном Geobacillus thermodenitrificans (GEOTN)
Файл с тРНК Bacillus subtilis BSn5
№ | Совпадение для BLASTN default | Совпадение для измененной весовой матрицы | Для измененной весовой матрицы и длины слова | тРНК BACSU | Отрезок в полном геноме GEOTN | Аннотация в геноме GEOTN |
1 | - | - | + | - | - | - |
2 | - | + | - | - | - | - |
3 | - | + | + | Met 20952 | 87116-87176 | tRNA Pro (87110-87183) |
4 | + | - | - | Ser 20956 | 87032-87105 | tRNA Arg |
5 | + | - | + | - | - | - |
6 | + | + | - | - | - | - |
Команды и их результаты:
3. Met BACSU и Pro GEOTN seqret embl:CP000557 Pro_trna_bacsu.fasta -sask #87110-87183 needle Pro_trna_bacsu.fasta trna_bacsu.fasta:BSn5_t20952 Pro_trna_bacsu.fasta Identity: 49/82 (59.8%) Similarity: 49/82 (59.8%) Gaps: 13/82 (15.9%) 1 cggg-aagtagctcagcttggtagagcaca----tggtttgggaccatggggtcgcaggttcaaatcctgtcttcccga--- 74 ||| ..|||||||||||.|.||||||.|| ||.| .|.|.||.|||||..|||||.|.|||..||...||.| 1 -gggcctgtagctcagctggttagagcgcacgcctgat----aagcgtgaggtcggtggttcgagtccactcaggcccacca 77 4. Ser BACSU и Arg GEOTN seqret embl:CP000557 Arg_trna_bacsu.fasta -sask #87032-87105 needle Arg_trna_bacsu.fasta trna_bacsu.fasta:BSn5_t20956 Arg_trna_bacsu.fasta Identity: 59/83 (71.1%) Similarity: 59/83 (71.1%) Gaps: 16/83 (19.3%) 1 gcgctcgtagctcaattggatagagc------atctg--actacggatcagaaggttaggggttcgaatcctct-cgagcgcg 74 ||||||||||||||.||||||||||| .||.| ||.|||..| ||..||||||||||||| || |||||||| 1 gcgctcgtagctcagttggatagagcggtggtttccggtaccacgtct------gtcgggggttcgaatcc-ctccgagcgcg 76
Проанализировав таблицу с помощью элементарных действий в Exel и находки, выясняю:
1. Изменение весовой матрицы ведет к увеличению числа находок. Объяснение - увеличен reward за совпадение. даже при одинаковой длины выравнивания
2. Изменение к тому же длины слова (уменьшение до минимального) ведет к ещё большему увеличению числа находок.
3. Изменение только длины слова позволяет найти большее число хитов.
4. Выравнивание находки 4 имеет большое число гэпов, из-за чего она не попадает в выдачу blastn c параметрами, когда штрафы за открытие и продолжение гэпов увеличены.