Учебный сайт Кирилла Цуканова → Четвертый семестр

Профили

Выравнивание в формате MSF: alignment.msf; с исправленными колонками (вручную): alignment_col.msf; без символов возврата строки (пересохранение в gedit): alignment_nobr.msf; с весами: pfw alignment_nobr.msf > alignment_weighted.msf; профиль: pfmake alignment_weighted.msf /usr/share/pftools23/blosum62.cmp > profile.prf; результаты поиска по рандомизированной базе данных: pfsearch –C 10 –f profile.prf /srv/databases/uniprot/sprot_shuffled.fasta | sort -nr > shuffled_scores.txt (результатов получилось очень даже немало — 173 тысячи; файл был размером 21 мегабайт, поэтому ссылка ведет на gz-архив); нормализованный профиль: pfscale shuffled_scores.txt profile.prf > profile_scaled.prf; находки с отсечением 5.5: pfsearch -C 5.5 -f profile_scaled.prf /srv/databases/uniprot/sprot.fasta | sort -nr > scores.txt (результатов получилось 325 тысяч — совершенно нереально огромное число, поэтому ссылка опять на архив).

Таблица в Excel (scores.xslx) и выявила проблему: по каким-то причинам значения результатов для белков, в которых есть домен CARD, очень велики (примерно в 100 раз больше ожидаемых), поэтому нашлось очень много мусора. В задании обсуждаются значения 5.5 и 8.5, здесь им идеально соответствуют 550 и 850. Такое ощущение, что нормализованные счета считаются как обычные. Хотя они реально нормализованные. Чую, что проблема кроется в нормализации, но обосновать не могу. Ниже значения 550 с доменом CARD были только два белка (405 и 300, примерно), очень сильно обрезанные; в любом случае, нормальными доменами их не назовешь. Таблица была обрезана на таком значении, чтобы ROC-кривая выглядела разумно (хотя она все равно стремится быть очень прямоугольной): оставлено 110 результатов, что соответствует значениям больше 500. Остальное — это слишком уж явный мусор.

Лесенка из значений и ROC-кривая — в той же таблице (если в описании белка указано, что он CARD-containing, то я не обращал внимания на отсутствие домена в Pfam и проставил плюсики вручную).

Я бы остановился на значении порога 675, которое не демонстрирует ложных срабатываний и обнаруживает 98.5% всех белков с CARD. Учитывая, что этот профиль захватил и некоторые белки, которые в Pfam не включены, он круче, да :-)