Занятие 3. Программы пакета BLAST для работы с нуклеотидными последовательностями

    #1 Создание индексных файлов для программ пакета BLAST

    Создание индексных фалов было выполнено командой formadb со следующими параметрами:
    formatdb -i xc_genome.fasta -n xc -p F

    #2 Поиск в геноме участков, кодирующих белки, похожие на DHAS_Ecoli

    Для решения поставленной задачи использовалась программа TBLASTN пакета BLAST. Именно она применяется для поиска по неаннотированных геномах.
    blastall -p tblastn -i gene.fasta -d xc -o result -e 0.001
    Хочу заметить, что для лучшего счета программа обрезала концы входной послетовательности. Но все равно находка сильно отличается от моего белка — 28% совпадений. Следует заметить что запись AE012366 банка EMBL имеет следущие замечания по поводу этого гена:
    Identified by sequence similarity; putative; ORF located using Blastx/Glimmer/Genemark
    То есть исследователи идентифицировали данный ген на основе биоинформатических методов. Вероятно на основе множественных выравниваний были выявлены консервативные участки, которые, скорее всего, обеспечивают функционирование как Аспартатдегидрогеназы. Данные консервативные участки также были обнаружены при выравнивании, выполненым мной с помощью TBLASTN.

    Поиск гомологов DHAS_ECOLI в геноме Xanthomonas campestris
    Число находок с Е-value<0,001   1
    Характеристика лучшей находки:
      E-value находки   4e-24
    AC соответствующей записи EMBL   AE012366 (AE008922)
    Координаты выравнивания в записи EMBL   6858-5902

    #3 Аналогичный поиск в геномах Xanthomonas campestris Salmonella typhimurium, и Pasteurella multocida

    Число находок с Е-value<0,001   3
    E-value лучшей находки (AC AE008863)   0.0
    E-value прошлой находки   9e-24

    E-value лучшей прошлой находки изменился из-за увеличения размеров базы. В каждом организме нашлись белки, схожие с DHAS_ECOLI. В организмах Salmonella typhimurium и Pasteurella multocida белки практически совпадают: 95 и 72 % идентичности соответственно. 28% совпадений с белком из Xanthomonas campestris при первом выглядят неубедительно. Для точного ответа на вопрос о гомологичности недостаточно одного выравнивания. Более обьемное исследование, по видимому дало повод считаеть белок ацетатдегидрогеназой, как и все остальные найденные белки и DHAS_ECOLI. Из этого можно сделать вывод что TBLASTN не подходит для поиска гомологов, только для предварительной обработки данных и, возможно, для каких-то других целей.

    #4 Поиск гомологов с помощью программы BLASTN.

    Всего найдено 2 последовательности — гены из Salmonella typhimurium и Pasteurella multocida, которые также были найдены в прошлом пункте задания. Лучшее значение E-value в выборке равно 0.0
    Анализ резульатов позволяет предположить что найден гомолог белка DHAS_ECOLI. Повод так судить дает нам высокий процент сходства при выравнивании -- 85% и запись в аннотации о функции белка -- аспартатдегидрогеназы, аналогично моему белку. Последовательность из организма Xanthomonas campestris не прошла через фильтр: она имеет небольшой процент совпадений и переход с поиска по аминокислотам на поиск по нуклеотидам сказлся на значении e-value. В целом выходит что, если нужно найти близкого гомолога, стоит воспользоваться BLASTN. При правильном выборе фильтров в выдаче будут наиболее вероятные гомологи. TBLASTN дает возможность как найти гомологов, но и найти отдаленных гомологов, которых потом можно будет проверить с помошью других программ пакета BLAST. Все это соответствует рекомендациям описанным в подсказкам к заданию.