Домены и профили

Задание 2

В базе данных Pfam я нашла двудоменную архитектуру, которая представлена у бактерий и встречается в 94 белках. Она включает ModA-подобный NTP-трансферазный домен (MobA-like NTP transferase domain) и домен аминотрансфераз класса 1 и 2. Данный представлены в Таблице 1.

Таблица 1. Иноформация о доменах
ID AC Название Число находок в Uniprot
PF12804 NTP_transf_3 MobA-like NTP transferase domain 78607
PF00155 Aminotran_1_2 Aminotransferase class 1 and 2 387845

Поиск бактериальных белков, включающих оба этих домена, я проводила в бд Uniprot. Всего было найдено 466 белков, удовлетворяющих данному запросу.

Таблицу с белками можно загрузить по ссылке.

мотивы
Рисунок 1. Двудоменная архитектура

Задание 3

Для длин белков из таблицы была построена гистограмма. Более половины белков (279) находятся в узком диапазоне длины от 600 до 605 АК - этот интервал и будем считать характерной длиной белка.

мотивы
Рисунок 2. Гистограмма длин белков

Затем из общей таблицы я извлекла 45 белков характерной длины с помощью фильтрации и сортировки данных в Excel. Я выбирала несколько представителей из каждого семейства. Всего в таблице встретилось 32 семейства, в некоторые входило по одному-два представителя. У части бактерий не была указана принадлежность к таксону. Информацию об отборе можно увидеть в Таблице 2.

Выборку можно увидеть в таблице из Задания 2.

Таблица 2. Таксономия отобранных организмов
# Отдел Семейство Размер выборки
1 Firmicutes Clostridiaceae 4
2 Firmicutes Peptoniphilaceae 2
3 Firmicutes Lachnospiraceae 5
4 Firmicutes Peptoniphilaceae 2
5 Firmicutes Oscillospiraceae 2
6 Firmicutes Enterococcaceae 2
7 Eubacteriaceae Eubacterium 3
8 Bacteroidetes Bacteroidaceae 5
9 Bacteroidetes Muribaculaceae 4
10 Bacteroidetes Odoribacteraceae 2
11 Bacteroidetes Prevotellaceae 3
12 Bacteroidetes Tannerellaceae 5
13 Bacteroidetes Porphyromonadaceae 2
14 Spirochaetes Spirochaetaceae 2
15 Actinobacteria Atopobiaceae 2

Выравнивание выборки белков с двухдоменной архитектурой

Затем я получила выравнивание 45 белков в Jalview. Для этого я выбрала Fetch Sequences, затем Uniprot. В открывшемся окне я вставила AC белков, скопированные из колонки Excel. Выравнивание я выполнила с помощью Muscle с параметрами по умолчанию.

Выравнивание в формате fasta доступно по ссылке.

Ревизия белковых последовательностей

N-концевой консервативный блок начинался с первого позиции для всех последовательностей, и удалять ничего не пришлось. Фрагмент выравнивания N-концевого консервативного блока можно увидеть на Рисунке 3.

мотивы
Рисунок 3. Фрагмент выравнивания N-концевого консервативного блока

Я удалила 6 позиций после последнего C-концевого домена. Фрагмент выравнивания C-концевого консервативного блока можно увидеть на Рисунке 4

мотивы
Рисунок 4. Фрагмент выравнивания C-концевого консервативного блока

Проект в Jalview можно загрузить по ссылке.

Построение профиля

Я построения профиля я использовала пакет HMMER. Для начала я построила профиль по полученному выравниванию с помощью команды:

hmm2build -g hmm_build bac_proteins.fasta

Затем я откалибровала профиль с помощью следующей команды:

hmm2calibrate hmm_build

Получить файл с профилем выравнивания после калибровки можно по ссылке.

Проверка профиля

Чтобы проверить полученный профиль, я загрузила белковые последовательности бактерий, содержащий один домен из исследуемых. Из двух доменов я выбрала ModA-подобный NTP-трансферазный домен (PF12804). Таких белков нашлось 78607. Среди белков, содержащих один из доменов, программа ищет белки с двухдоменной архитектурой по профилю выравнивания. Я использовала следующую команду, установив порог по E-value 0.1 и порог по Score 0 (мне показалось, что отрицательный Score выглядит печально):

hmm2search -E 0.1 -T 0  hmm_build1 pr_seq.fasta > hmm_result.fasta 

Скачать файл hmm_result.fasta по ссылке.

Сравнение списка находок

Я захотела сравнить, насколько похож список белков, составленный программой hmm2, со списком белков, полученным из Uniprot по двум доменам. Результат работы программы из файла hmm_result.fasta я загрузила в Excel, в таблице так же находятся расчеты и графики. Ссылка на скачивание таблицы.

Сначала я отсортировала находки по убыванию их веса. Затем я построила график распределения весов находок (Рисунок 5).

мотивы
Рисунок 5. График весов

Поиск порога для предсказания доменной архитектуры

Далее моей целью было подобрать оптимальный порог веса для более менее точного предсказания находок с нужной доменной архитектурой. Для этого нужно найти баланс между чувствительностью теста и его мощностью (1 - специфичность). Справиться с этой задачей помогает построение ROC-кривой. Чтобы её построить, я перебирала всевозможные пороги (строчки в таблице) и для каждого из них показала чувствительность и специфичность предсказания. В отдельной колонке в таблице я посчитала F1-Score и приняла за пороговый вес тот, где этот параметр был наибольшим.

мотивы
Рисунок 6. ROC-кривая

Выбранная специфичность и чувствительность достигается при установлении порога 1127,3 на Score. Такой вес располагается на 372 строке в таблице, отсортированной по убыванию веса. То есть можно увидеть, что данный порог вполне согласуется с графиком весов на Рисунке 5, где примерно на этих позициях происходит резкое снижение Score.

Если бы порог я выбирала, не обращаясь к F1-Score, то я бы стремилась к более высокой специфичности моего предсказания.

Еще я построила таблицу (Рисунок 7), по которой можно судить о качестве моего предсказания. Строила я её относительно таблицы, которую я получила со Score > 0 и E-value < 0.05.

мотивы
Рисунок 7. Таблица на основе установленного порога

Вернуться на главную