Десятый практикум

Я выбрал семейство Eukaryotic aspartyl protease (PF00026), у которых есть консервативное ядро из трех дисульфидных мостиков.

Seed, 24 последовательностей

При remove redundancy 90% ничего не удалилось.

Рисунок 1. Консервативный мотив.

Консервативный мотив был найден путем раскраски above identity threshold 70%. Паттерн - [FLIV]DTGS[SAP] ([FLIV]-D-T-G-S-[SAP]), у всех последовательностей.

В prostite было найдено 380 находок среди 376 последовательностей.

Рисунок 2. 3 бедных находки в выравнивании.

В выравнивании было найдено аж... 3 друг на друг стоящим мотива, а всего в выравнивании было 5 мотивов.

Рисунок 3. Дерево через NJ. Я взял розовую кладу.
Рисунок 4. Мотив в кладе.

Мотив в кладе есть на 82% сходности: G[EA]I[GT]IGTP[SP]Q.F.V.FDTGS[SA]N[LV]WVPS, гораздо длиннее прошлого.

Рисунок 5. Паттерн четко только в кладе.

PSI-blast

Я взял белок с AC:Q7VDL2, Probable septum site-determining protein MinC из бактерии Prochlorococcus marinus. Данный белок ингибирует клеточное деление, предотвращая формирование Z-кольца.

Я взял последовательность генома Nitratireductor kimnyeongensis и всунул ее в cbcalc, потом результат в R и получил гистограмму.

cbcalc -s GATC.txt -M -o term4v2-pr10-5.tsv term4v2-pr9-2.fna

Рисунок 6. Гистограмма.

Для de novo поиска скачал все белки с галочкой reviewed, взял первые 100 из них.

meme term4v2-pr10-7.fasta -o results -mod anr -minw 4 -maxw 8 -nmotifs 4

fimo results/meme.txt term4v2-pr10-6.fasta

Выход. Итого, 1301 результат.

Номер итерации Число находок выше порога (0,005) Идентификатор худшей находки выше порога E-value этой находки Идентификатор лучшей находки ниже порога E-value этой находки
1 146 Q9AG20.1 0.005 A8GFG7.1 0.005
2 188 B6JKX0.1 7e-08 - -
3 189 Q9ZM51.1 2e-12 A7H8E6.1 0.014
3 189 A8MHK8.1 0.001 A7H8E6.1 0.013