PSI-BLAST

При выполнении задания была использована последовательность белка L-rhamnose isomerase бактерии Bacteroides thetaiotaomicron (идентификатор Q8A1A2). Поиск проводился с помощью алгоритма PSI-BLAST. Результаты итераций поиска представлены в Таблице 1:

Таблица 1. Информация об итерациях PSI-BLAST (под ID подразумевается Identity)
Номер итерации Количество находок Количество новых находок ID лучшей находки Score лучшей находки E-value лучшей находки ID худшей находки Score худшей находки E-value худшей находки
1 54 54 100% 955 0.0 47% 448 4e-141
2 55 1 54% 839 0.0 23% 44.7 0.001
3 56 1 54% 805 0.0 20% 192 3e-151
4 56 0 54% 793 0.0 20% 269 2e-79

В дальнейшем результат стабилизируется. Список всех находок я скачал и положил здесь.

Задание 2. Чтобы проверить, зависит ли список находок от того, с какой из последовательностей начат поиск, я повторил поиск, взяв в качестве исходной последовательность белка L-rhamnose isomerase бактерии Lactobacillus plantarum (АС Q88S51), находящуюся близко к концу списка после завершения итерации 4, и, следовательно, мало похожую на исходный белок. Список находок можно просмотреть по ссылке. Проверка средствами Linux (команда diff) показала, что списки находок идентичны.

Задание 3. На сервере kodomo было построено множественное выравнивание. Команда: muscle -in seqdump1.fasta -out musclealign.fasta.

Задание 4. Далее я построил выравнивание типичных представителей данного семейства - так называемого "seed". Отобрав из всего списка 9 последовательностей с помощью сервиса Remuve redundancy в JalView (порог 70%), я выровнял их с помощью muscle: muscle -in seedseq.fasta -out muscleseed.fasta. [ссылка на результат]

Задание 5. При помощи программы mafft на сервере kodomo было построено множественное выравнивание тех же последовательностей: mafft seedseq.fasta > mafftseed.fasta. [результат]

Задание 6. С помощью программы muscle я сравнил два выравнивания, полученные при выполнении заданий 4-5: muscle -profile -in1 muscleseed.fasta -in2 mafftseed.fasta -out both.fasta. [результат]

Довольно большие участки сходства наблюдаются ближе к концу двух выравниваний - например, на позициях 760-810 или 861-910, между ними так же наблюдаются множественные области со сходными колонками, однако абсолютно консервативных колонок крайне мало. Это может быть связано с разным механизмом действия программ muscle и mafft, например, разной ценой за открытие/продолжение гэпа.

Рисунок 1: сравнение двух выравниваний (фрагмент)

Выравнивание программой ClustalW было получено с помощью обращения к программе emma пакета EMBOSS: emma -sequence muscleseed.fasta -sequence mafftseed.fasta -outseq emma.fasta. [результат]

Полученное выравнивание было оптимизировано (алгоритм refinement) c помощью muscle: muscle -in emma.fasta -out refinedemma.fasta -refine. [результат]

Рисунок 2: построенное с помощью ClustalW выравнивание (фрагмент)

Рисунок 3: оптимизированное выравнивание (фрагмент)

После применения алгоритма оптимизации выравнивание стало короче, положение многих гэпов изменилось, но при этом в самом начале особых изменений не произошло.

Результат в формате .jvp

Назад к странице семестров

© Andrew Sigorskih,2015.