Блок 4.


Задание 1. Построить выравнивание представителей домена Pfam белков с разной доменной архитектурой.

В рамках данного практикума был исследован предполагаемый фосфорибозил трнсферазный домен PF00156.


Представители с данным доменом.


Этот домен содержит 73 доменные архитектуры.

Проект JalView содержит выравнивание всех последовательностей, содержащих данный домен.

Для дальнейшего рассмотрения были выбраны архитектуры, изображённые на рисунке:




Архитектура "1" - содержащая домены Pribosyltran_N, Pribosyltran (559 последовательностей)

Архитектура "2" - содержащая домены PuR_N, Pribosyltran (208 последовательностей)

Далее была получены таблица, содержащая информацию о доменной структуре каждой последовательности, содержащей данный домен. Это было сделано с помощью скрипта swisspfam-to-xls.py. Команда: "python swisspfam-to-xls.py -z /srv/databases/pfam/swisspfam.gz -m domain_AC.txt -o PF00156.txt". Файл domain_AC.txt должен содержать идентификатор исследуемого домена.

Также были получены сведения о таксономии каждой последовательности. Для этого сначала (из файла PF000156.txt) был получен список идентификаторов последовательностей ), затем из базы данных uniprot были скачаны соответствующие записи (файл). И затем с помощью другого скрипта (команда: "python uniprot_to_taxonomy.py -i PF00156_uniprot.txt -o PF00156_taxonomy.txt") был получен файл с таксономией.

На основе всех этих данных с помощью скрипта и ресурсов Excel была получена сводная таблица, содержащая список последовательностей с указанием их доменной архитектуры, длины домена PF00156 и таксономии.

В качестве таксонов, в которых представлены домены этих белков я выбрала два царства (Bacteria, Eukaryota), общий для них таксон - Cellular organisms.

Затем было выбрано примерно по 25-30 представителей с архитектурами "1" и "2" (выбирались последовательности как первого вхождения домена, так и второго).

Соответствующие им последовательности были вырезаны из общего выравнивания с помощью скрипта, открыты в Jalview. Были удалены плохо выравненные последовательности и небольшие участки с C и N концов. Проект получившегося выравнивания можно скачать здесь. Выравнивание в фаста-формате - vur.fasta.


Задание 2. Построение дерева.

По полученному выравниванию в программе MEGA было построено филогенетическое дерево последовательностей методом максимального правдоподобия.

Скобочная формула дерева: здесь.


Изображение дерева:




На дереве буква "B" в названии последовательности означает, что она принадлежит типу Бактерий, "E" - Эукариот. Цифры "1" и "2" - обозначения доменов (вводились выше).

По дереву видно, что последовательности с разными архитектурами чётко разделились на 2 клады. (розовая и зелёная рамки).

Интересно наличие эукариотных организмов (оранжевая рамка) среди бакерий с архитектурой "2"( зелёная рамка). Ещё также интересно, как в последовательностях с первой архитектурой произошло разделение на бактерий и эукарирот (голубая рамка). Присутствие бактериального организма в кладе с голубой рамкой можно объяснить либо ошибкой на этапе определения последовательности, либо явлением горизонтального переноса.

Задание 3. Построить профиль подсемейства и охарактеризовать качество его работы .

Для построения профиля в качестве подсемейства последовательностей были выбраны последовательности из клады, выделенной голубой рамочкой (т. к. они отделены от остального дерева).

Выравнивание всех этих последовательностей можно посмотреть здесь.

По ним с помощью программы hmm2biuld был построен профиль последовательностей и затем он был откалиброван (программа hmm2calibrate). Результат работы этих двух программ можно увидеть здесь. По этому профилю был проведен поиск по всем белкам, включающим семейство доменов Phosphoribosyl transferase с помощью программы hmm2search без каких-либо дополнительных параметров.

Результат поиска можно увидеть здесь.

Данные о всех находках и их E-value были перенесены в таблицу Excel. Находки были отсортированы по увеличению E-value. Далее с помощью функции vlookup последовательности (среди всех находок), участвовавшие в построении профиля были отмечены как "ИСТИНА", а все остальные находки - как "ЛОЖЬ".

Далее рассчитываются параметры чувствительности и специфичности поиска. Для их расчёта найдём TP, TN, FP, FN. Для каждого значения веса предположим, что именно оно является порогом, и посчитаем 4 переменных: 1) количество последовательностей, которое выше этого порога и достоверно содержит искомый домен (переменная TP - TruePositive) , 2) количество последовательностей, которое ниже порога и достоверно не содержит домен (TN - TrueNegative), 3) количество последовательностей, которое выше порога, но на самом деле не содержит домена (FP - FalsePositive), и 4) количество последовательностей, которое ниже порога, но достоверно содержит домен (FN - FalseNegative).

Чувствительность поиска — это доля достоверно предсказанных белков, содержащих домен, от общего количества последовательностей.
A специфичность — доля достоверно предсказанных белков, не содержащих домен, от общего количества последовательностей.

Далее строится график зависимости чувствительности от параметра 1 минус специфичность.

В итоге получаем ROC-кривую.

Таблица Excel, в которой производились расчёты - здесь.



С помощью ROC-кривой я выбрала порог E-value, по которому можно судить о принадлежности последовательности подсемейству.
Пороговое значение E-value оказалось равным 7,6E-43.

Значения при выбранном пороге:

На самом делеприналежит семействуне приналежит семействусумма
Выше порога по профилю144559
Ниже порога по профилю629062912
Сумма2029512971

СПАСИБО ЗА ПРОСМОТР


© Мария Медведева