МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМЕНИ М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ БИОИНЖЕНЕРИИ И БИОИНФОРМАТИКИ

Домашняя страничка Ильи Курочкина

Главная

I Семестр

II Семестр

III Семестр

Проекты

Обратная Связь

Программы пакета BLAST (продолжение)

  • 1. Поиск открытых рамок считывания

    Поиск открытых рамок считывания (ORF) осуществляется с помощью программы getorf пакета EMBOSS. Команда "tfm getorf" выдает справку, которую я записал в файл getorf.help. Открытой рамкой считывания будем считать последовательность, начинающуюся старт-кодоном и оканчивающуюся стоп-кодоном и имеющая достаточную длинну. Для того чтобы получить набор трансляций всех открытых рамок записи EMBL d89965 длиной более 30 нуклеотидов, при использовании бактериального кода, следует запустить программу getorf со следующими параметрами:

    getorf -sequence d89965.entret -table 11 -minsize 30 -find 1
    где параметр: -sequence = подаваемый на вход файл; -table = коды для разных групп организмов, принимает значения от 0 до 23 (11 для бактериального кода); -minsize = минимальная длина открытых рамок данной последовательности (в нуклеотидах); -find = тип открытых рамок считывания, принимает значения от 0 до 6 (1 транслирует рамку между старт и стоп кодоном).

    Для определения открытых рамок считывания, воспользуемся программой blastp. Для этого сперва нужно создать индексные файлы (formatdb -i d89965.orf -n base -p T). Затем запустим по ней поиск белковой последовательности, записанной в поле cds, а затем белковой последовательности из банка Swiss-Prot, на которую ссылается EMBL P0A7B8.

    blastall -p blastp -d base -i cds.fasta -o cds_res.txt
    blastall -p blastp -d base -i hslv_ecoli.fasta -o swiss_res.txt

    На основе полученных выравниваний становится ясно, что из полученных рамок пятая соответствует приведённой в записи CDS, а тринадцатая - записи P0A7B8 SwissProt, на которую ссылается данная запись EMBL.

  • 2. Поиск некодирующих последовательностей программой BLASTN

    Требуется определить, сколько существует гомологов каждой из проаннотированных тРНК E.coli K12 в геноме бактерии Pasteurella multocida. Для этого возьмем проиндексированный геном бактерии из предыдущего задания (см. здесь) и запустим программу blastn по банку из генома Pasteurella multocida сначала без ограничений на E-value, после с таковым:

    blastall -p blastn -d ../Practice8/index -i trna_ecoli.fasta -o trna.out -m 9
    blastall -p blastn -d ../Practice8/index -i trna_ecoli.fasta -o trna_lim.out -e 0.001 -m 9

    Для нахождения числа находок для каждой последовательности создаем скрипт и запускаем его при помощи команд:

    chmod +x count_script.scr
    ./count_script.scr

    Аналогичным образом составляется скрипт для находок с ограничением по E-value. И результат записываем в таблицу TRNA.

  • 3. Поиск некодирующих последовательностей программой Megablast

    Теперь ищем гомологов тРНК E.coli K12 при помощи программ Megablast и Discontigous Megablast и осуществлеев это посредством следующих команд:

    megablast -d ../Practice8/index -i trna_ecoli.fasta -o trna_mega.out -m 9
    megablast -d ../Practice8/index -i trna_ecoli.fasta -o trna_disc.out -m 9 -D 2 -t 18 -W 11 -N 1

    где параметр: -D = тип выдачи результатов (в данном случае используем 2 - стандартная выдача blast); -t = длина последовательности в используемом шаблоне (с учетом "разрывов", может принимать значения 16, 18 и 21, при этом -W может быть 11 или 12); -W = длина искомого слова, по которому ведется поиск; -N = тип шаблона для поиска: 0 - кодирующая, 1 - некодирующая, 2 - оба типа последовательностей.

    Результат записываем в таблицу TRNA, ссылка на которую дана выше.

  • 4. Анализ результатов

    Рассмотрим последовательность thrV E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой Blastn, но не обнаруженный программой Megablast. Это можно объяснить тем, что Megablast ищет в геноме бактерий слова длиной 28, а таких длинных совпадений в приведенном примере нет. Аннотация данного участка в записи EMBL:

    AC   AE004439; AE006034-AE006237;
    DE   Pasteurella multocida subsp. multocida str. Pm70, complete genome.
    OS   Pasteurella multocida subsp. multocida str. Pm70
    OC   Bacteria; Proteobacteria; Gammaproteobacteria; Pasteurellales;
    OC   Pasteurellaceae; Pasteurella.
    

    В EMBL в поле FT данный гомологичный участок (6512-6540) не проаннотирован. Участок 343058..343127 записи AE004439 с помощью команды: seqret -sask, был вырезан в отдельный файл , исходная последовательность thrV E.coli также вырезана в отдельный файл. Полученные последовательности были выравнены с помощью программы needle, которая строит полное выравнивание (в отличие от Blastn). Полученное выравнивание и его основные характеристики:

      Длина: 78
      Идентичность:  55/78 (70.5%)
      Сходство:      55/78 (70.5%)
      Гэпы:          10/78 (12.8%)
      Счёт: 180.5
    

    Выравнивания Blastn и needle совпадают лишь посередине. Blastn, стремясь улучшить выравнивание, не выравнивает концы последовательностей. Сравнительно высокий процент идентичности последовательностей, потенциальных гомологов из разных организмов, можно объяснить значимостью тРНК в клеточных процессах.

  • 5. Поиск некодирующих последовательностей программой Fasta

    Для того чтобы воспользоватся программой fasta35, можно было сперва расфасовывается trna_ecoli.fasta на отдельные файлы, с помощью скрипта расфасовки и потом запускать fasta35 для отдельных файлов. Но можно было сразу запустить fasta35, для этого я создал скрипт для ответа на вопросы. В результате чего, уже полученные выравнивания были расфасованы по отдельным файлам. После чего нам надо как-то извлечь из полученных файлов информацию о том, какое количество находок с достаточно низким E-value ( < 0.001 ). Для этого мы пишем два скрипта: coun_fasta.scr и coun_fasta_2.scr. Второй скрипт написан для того, чтобы не потерять находки которые лежат в следующем диапазоне: 0.0001 < E-value < 0.001. Полученные результаты были скомпанованы и записаны в таблицу TRNA.

    Рассмотрим последовательность tyrU E.coli и один из гомологичных ей участков в бактерии Pasteurella multocida, найденный программой Blastn, но не обнаруженный программой Fasta. Это скорей всего объясняется тем, что Fasta ищет длинные области низкого подобия для очень отличающихся последовательностей, из-за этого у многих находок E-value > 0.001.


© 2008, Илья Курочкин