#1 Создание индексных файлов для программ пакета BLAST
Создание индексных фалов было выполнено командой formadb со следующими параметрами:
formatdb -i xc_genome.fasta -n xc -p F
#2 Поиск в геноме участков, кодирующих белки, похожие на DHAS_Ecoli
Для решения поставленной задачи использовалась программа TBLASTN пакета BLAST. Именно она применяется для поиска по неаннотированных геномах.
blastall -p tblastn -i gene.fasta -d xc -o result -e 0.001
Хочу заметить, что для лучшего счета программа обрезала концы входной послетовательности. Но все равно находка сильно отличается от моего белка — 28% совпадений. Следует заметить что запись AE012366 банка EMBL имеет следущие замечания по поводу этого гена:
Identified by sequence similarity; putative; ORF located using Blastx/Glimmer/Genemark
То есть исследователи идентифицировали данный ген на основе биоинформатических методов. Вероятно на основе множественных выравниваний были выявлены консервативные участки, которые, скорее всего, обеспечивают функционирование как Аспартатдегидрогеназы. Данные консервативные участки также были обнаружены при выравнивании, выполненым мной с помощью TBLASTN.
Поиск гомологов DHAS_ECOLI в геноме Xanthomonas campestris |
Число находок с Е-value<0,001 |
|
1 |
Характеристика лучшей находки: |
E-value находки |
|
4e-24 |
AC соответствующей записи EMBL |
|
AE012366 (AE008922) |
Координаты выравнивания в записи EMBL |
|
6858-5902 |
#3 Аналогичный поиск в геномах
Xanthomonas campestris Salmonella typhimurium, и Pasteurella multocida
Число находок с Е-value<0,001 |
|
3 |
E-value лучшей находки (AC AE008863) |
|
0.0 |
E-value прошлой находки |
|
9e-24 |
E-value лучшей прошлой находки изменился из-за увеличения размеров базы. В каждом организме нашлись белки, схожие с DHAS_ECOLI. В организмах Salmonella typhimurium и Pasteurella multocida белки практически совпадают: 95 и 72 % идентичности соответственно. 28% совпадений с белком из Xanthomonas campestris при первом выглядят неубедительно. Для точного ответа на вопрос о гомологичности недостаточно одного выравнивания. Более обьемное исследование, по видимому дало повод считаеть белок ацетатдегидрогеназой, как и все остальные найденные белки и DHAS_ECOLI. Из этого можно сделать вывод что TBLASTN не подходит для поиска гомологов, только для предварительной обработки данных и, возможно, для каких-то других целей.
#4 Поиск гомологов с помощью программы BLASTN.
Всего найдено 2 последовательности — гены из Salmonella typhimurium и Pasteurella multocida, которые также были найдены в прошлом пункте задания. Лучшее значение E-value в выборке равно 0.0
Анализ резульатов позволяет предположить что найден гомолог белка DHAS_ECOLI.
Повод так судить дает нам высокий процент сходства при выравнивании -- 85% и запись в аннотации о функции белка -- аспартатдегидрогеназы, аналогично моему белку. Последовательность из организма Xanthomonas campestris не прошла через фильтр: она имеет небольшой процент совпадений и переход с поиска по аминокислотам на поиск по нуклеотидам сказлся на значении e-value. В целом выходит что, если нужно найти близкого гомолога, стоит воспользоваться BLASTN. При правильном выборе фильтров в выдаче будут наиболее вероятные гомологи. TBLASTN дает возможность как найти гомологов, но и найти отдаленных гомологов, которых потом можно будет проверить с помошью других программ пакета BLAST. Все это соответствует рекомендациям описанным в подсказкам к заданию.