Главная
I Семестр
II Семестр
III Семестр
Проекты
Обратная Связь
|
Программы пакета BLAST (продолжение)
1. Поиск открытых рамок считывания
Поиск открытых рамок считывания (ORF) осуществляется с помощью программы getorf пакета EMBOSS.
Команда "tfm getorf" выдает справку, которую я записал в файл getorf.help.
Открытой рамкой считывания будем считать последовательность, начинающуюся старт-кодоном и оканчивающуюся стоп-кодоном
и имеющая достаточную длинну. Для того чтобы получить набор трансляций всех открытых рамок записи EMBL
d89965 длиной более 30 нуклеотидов, при использовании бактериального кода,
следует запустить программу getorf со следующими параметрами:
getorf -sequence d89965.entret -table 11 -minsize 30 -find 1
где параметр: -sequence = подаваемый на вход файл; -table = коды для разных групп организмов, принимает значения от 0 до 23
(11 для бактериального кода); -minsize = минимальная длина открытых рамок данной последовательности (в нуклеотидах);
-find = тип открытых рамок считывания, принимает значения от 0 до 6 (1 транслирует рамку между старт и стоп кодоном).
Для определения открытых рамок считывания, воспользуемся программой blastp. Для этого сперва нужно создать индексные файлы
(formatdb -i d89965.orf -n base -p T). Затем запустим по ней поиск белковой
последовательности, записанной в поле cds,
а затем белковой последовательности из банка Swiss-Prot, на которую ссылается EMBL
P0A7B8.
blastall -p blastp -d base -i cds.fasta -o cds_res.txt
blastall -p blastp -d base -i hslv_ecoli.fasta -o swiss_res.txt
На основе полученных выравниваний становится ясно, что из полученных рамок пятая соответствует
приведённой в записи CDS, а тринадцатая - записи P0A7B8 SwissProt, на которую ссылается данная запись EMBL.
2. Поиск некодирующих последовательностей программой BLASTN
Требуется определить, сколько существует гомологов каждой из проаннотированных тРНК E.coli K12 в геноме бактерии Pasteurella multocida.
Для этого возьмем проиндексированный геном бактерии из предыдущего задания (см. здесь) и запустим программу blastn по
банку из генома Pasteurella multocida сначала без ограничений на E-value, после с таковым:
blastall -p blastn -d ../Practice8/index -i trna_ecoli.fasta -o trna.out -m 9
blastall -p blastn -d ../Practice8/index -i trna_ecoli.fasta -o trna_lim.out -e 0.001 -m 9
Для нахождения числа находок для каждой последовательности создаем скрипт и запускаем его при помощи команд:
chmod +x count_script.scr
./count_script.scr
Аналогичным образом составляется скрипт для находок с ограничением по E-value. И результат записываем в таблицу TRNA.
3. Поиск некодирующих последовательностей программой Megablast
Теперь ищем гомологов тРНК E.coli K12 при помощи программ Megablast и Discontigous Megablast и осуществлеев это
посредством следующих команд:
megablast -d ../Practice8/index -i trna_ecoli.fasta -o trna_mega.out -m 9
megablast -d ../Practice8/index -i trna_ecoli.fasta -o trna_disc.out -m 9 -D 2 -t 18 -W 11 -N 1
где параметр: -D = тип выдачи результатов (в данном случае используем 2 - стандартная выдача blast); -t = длина последовательности в используемом шаблоне
(с учетом "разрывов", может принимать значения 16, 18 и 21, при этом -W может быть 11 или 12); -W = длина искомого слова, по которому ведется поиск;
-N = тип шаблона для поиска: 0 - кодирующая, 1 - некодирующая, 2 - оба типа последовательностей.
Результат записываем в таблицу TRNA, ссылка на которую дана выше.
4. Анализ результатов
Рассмотрим последовательность thrV E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой Blastn,
но не обнаруженный программой Megablast. Это можно объяснить тем, что Megablast ищет в геноме бактерий слова длиной 28, а таких длинных совпадений
в приведенном примере нет. Аннотация данного участка в записи EMBL:
AC AE004439; AE006034-AE006237;
DE Pasteurella multocida subsp. multocida str. Pm70, complete genome.
OS Pasteurella multocida subsp. multocida str. Pm70
OC Bacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;
OC Pasteurellaceae; Pasteurella.
В EMBL в поле FT данный гомологичный участок (6512-6540) не проаннотирован. Участок 343058..343127 записи AE004439 с помощью команды: seqret -sask,
был вырезан в отдельный файл , исходная последовательность thrV E.coli также вырезана в отдельный
файл. Полученные последовательности были выравнены с помощью программы needle, которая строит полное выравнивание
(в отличие от Blastn). Полученное выравнивание и его основные характеристики:
Длина: 78
Идентичность: 55/78 (70.5%)
Сходство: 55/78 (70.5%)
Гэпы: 10/78 (12.8%)
Счёт: 180.5
Выравнивания Blastn и needle совпадают лишь посередине. Blastn, стремясь улучшить выравнивание, не выравнивает концы последовательностей.
Сравнительно высокий процент идентичности последовательностей, потенциальных гомологов из разных организмов, можно объяснить значимостью тРНК в
клеточных процессах.
5. Поиск некодирующих последовательностей программой Fasta
Для того чтобы воспользоватся программой fasta35, можно было сперва расфасовывается trna_ecoli.fasta на отдельные файлы, с помощью скрипта
расфасовки и потом запускать fasta35 для отдельных файлов. Но можно было сразу запустить fasta35, для этого
я создал скрипт для ответа на вопросы. В результате чего, уже полученные выравнивания были расфасованы по отдельным
файлам. После чего нам надо как-то извлечь из полученных файлов информацию о том, какое количество находок с достаточно низким E-value ( < 0.001 ).
Для этого мы пишем два скрипта: coun_fasta.scr и coun_fasta_2.scr.
Второй скрипт написан для того, чтобы не потерять находки которые лежат в следующем диапазоне: 0.0001 < E-value < 0.001. Полученные
результаты были скомпанованы и записаны в таблицу TRNA.
Рассмотрим последовательность tyrU E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой Blastn,
но не обнаруженный программой Fasta. Это скорей всего объясняется тем, что Fasta ищет длинные области низкого подобия для очень отличающихся
последовательностей, из-за этого у многих находок E-value > 0.001.
|