Домены и профили.

В первом задании требуется выбрать два домена Pfam и найти в UniProt составленные из них белки.
1.Это семейство содержит белки, связанные с алкилгидропероксидредуктазой (AhpC) и тиоловым специфическим антиоксидантом (TSA).
ID:AhpC-TSA
AC:PF00578
Название:AhpC/TSA family
Число последовательностей среди бактерий: 36953
2.Это семейство состоит из трансмембранной (т. е. некаталитической) области белков биогенеза цитохрома с, также известных как дисульфидные обменные белки. Эти белки обладают белковой дисульфидной изомеразой.
ID:DsbD
AC:PF02683
Название:ytochrome C biogenesis protein transmembrane region
Число последовательностей среди бактерий:9876 Поиск по UniProt был проведён со следующим запросом:
taxonomy:"Bacteria [2]" database:(type:pfam pf00578) database:(type:pfam pf02683)
Архитектура домена с описанием:

Pham нашел 150 последовательности с данной архитектурой.
В Uniprot представлена более свежая информация.
Всего было найдено 2710 последовательности, которые я скачала в формате Excel. Сразу же были убраны все белки, содержащие больше этих двух доменов.Осталось 1012 белков. По длине оставшихся белков была построена гистограмма, ее можно увидеть на рисунке.Характерная длина белков с такими доменами лежит между 396 и 445 аминокислотными остатками. Этот интервал и будем считать характерной длиной белка. Из разных отделов и семейств было выбрано 50 белков(столбец select "+" в колонке). Таблицу со всеми данными и гистограммой можно скачать по ссылке.

Таблицаф с белками.

Задание 3.

AC из колонки select были скопированы в окно программы Jalview. Далее:File,Fetch sequences, Uniprot,OK. С помощью Mafft with Defaults последовательности были выровнены. Я удалила 5 не ообо подходящих последовательностей.
С N-концевого конца были удалены 442 последовательности до первого консервативного блока и 4 с C-конца.

N-конец(красным выделены границы удаленных столбцов)

C-конец(Красный-границы удвленных столбцов)

Файл с выравниваниями после обработки:
Файл.
Из Uniprot домен pf02683, так как число бактерий среди бактерий с таким же доменом оказалось меньше, чем с другим. Запрос в Uniprot -"taxonomy:"Bacteria [2]" database:(type:pfam pf02683)"(47,065 структур).
Белки.

Команды для построение профиля:

hmm2build -g build fail.fa
hmm2calibrate build
hmm2search -E 0.1 build download.fasta > table.txt - нужно, чтобы найти среди всех белков с первым доменом, те, которые содержат заданную доменную архитектуру.
с E-value 0.1 (рекомендованное значение).
HMM профиль
Все вычисления
Сравнение исходной таблицы и таблицы белков (HMM профиля) я сравнивала с помощью методов Excel.Одинаковые AC выделены цветом, а затем 1 отмечались одинаковые(колонка совпадения) AC, а 0 несовпадающие. Веса были отсортированы по убыванию.На основе вычисленных данных были построены графики и таблица предсказаний(все есть в Excel в выделенном окне).

График весов.

Моей целью было подобрать оптимальный порог веса для более менее точного предсказания находок с нужной доменной архитектурой.На графике была выбрана точка с весом 185,3. Она расположена в месте (на 1134 строке), где график начинает стремиться к асимптоте.Чувствительность:0,68986694, 1- специфичность:0,002271617. Определяя этут точку, я ориентировалась на max(есть в таблице) значение F1(0,638862559). Ее значения и стали пороговыми, по которым заполнялась таблица предсказаний и истины.

ROS

Таблица предсказаний.

Порог: вес 185,3.По ней можно судить о качестве предсказания.