Анализ протеомов
Первое задание
Т.к. для Ciceribacter thiooxidans нет протеома в UniProt, первым протеомом я выбрал протеом Ciceribacter lividus. Он является референсным, его индикатор UP000252582, общее количество белков в нем - 4276. Данный протеом имеет CPD немного смещенный в меньшую сторону, но близкий к стандартному (Close to standard (low value)). Согласно BUSCO имеет полноту 99.7% (0.2% фрагментировано, 0.2% отсутствует). Все это делает этот протеом хорошим кандидатом для дальнейшего исследования. Я его скачал на kodomo, используя команду wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=UP000252582' -O UP000252582.swiss.gz.
В качестве протеома сравнения я выбрал протеом бактерии Agrobacterium fabrum. Она относится к тому же семейству Rhizobiaceae, но является паразитом растений (на этой особенности будет основываться часть исследований). Этот протеом является референсным, его индикатор UP000000813, общее количество белков в нем - 5344. Данный протеом имеет стандартный CPD, согласно BUSCO имеет полноту 99.4% (99.1% - одна копия, 0.3% - две копии, 0.1% - фрагментировано, 0.5% - отсутствует). Я его также скачал на kodomo, используя команду wget 'https://rest.uniprot.org/uniprotkb/stream?compressed=true&format=txt&query=UP000000813' -O UP000000813.swiss.gz.
Второе задание
Чтобы посчитать количество трансмембранных белков в обоих протеомах, был использован код на Python (1 для Ciceribacter lividus, 2 для Agrobacterium fabrum). Данный способ должен давать точные результаты, т.к. все и только трансмембранные белки имеют в разделе KW свойство Transmembrane. Если бы мы использовали для этого задания запрос в UniProt (по крайней мере все которые мне приходили в голову), мы бы не были застрахованы от ошибок. Например, некий белок связывается с трансмембранным белком, но сам таковым не является, тогда он будет находиться UniProt и сбивать наши подсчеты. Для Ciceribacter lividus число трансмембранных белков 812 (18.99% всех белков в протеоме), для Agrobacterium fabrum 1004 (18.79% всех белков в протеоме).
Чтобы посчитать количество ферментов, был использован расширенный поиск в UniProt. Для Ciceribacter lividus был использован запрос 'UP000252582 AND (ec:*)', для Agrobacterium fabrum был использован аналогичный запрос 'UP000000813 AND (ec:*)'. Данный способ должен давать довольно точные результаты, т.к. только ферментам (и насколько мне известно всем ферментам в протеоме) приписывается код согласно классификации ферментов, поэтому таким запросом мы должны получить все ферменты в протеоме. Исходя из полученных данных, Ciceribacter lividus имеет 701 фермент (16.39% от всех белков в протеоме), а Agrobacterium fabrum имеет 788 ферментов (14.75% от всех белков в протеоме).
Третьей группой белков я выбрал факторы вирулентности. Мы ожидаем, что у Agrobacterium fabrum их количество будет больше, чем у Ciceribacter lividus. Чтобы посчитать их количество, был использован код на Python (3 для Ciceribacter lividus, 4 для Agrobacterium fabrum). Данный код считает, у скольких белков в KW указана вирулентность. С таким подходом все белки, которые мы нашли действительно являются факторами вирулентности, но скорее всего некоторые мы все-таки не обнаружили. Это может быть связано с тем, что не все белки протеома хорошо аннотированны. У некоторых из них в особенностях указано, что они могут отвечать за вирулентность (или просто есть домен, гомологичный домену какого-то фактора вирулентности), но это не подтверждено, и поэтому не вписано в KW. Данным подходом у Agrobacterium fabrum было обнаружено 12 факторов вирулентности, а у Ciceribacter lividus только 3, что подтверждает нашу гипотезу.
Третье задание
В качестве дополнительного исследования я выбрал подсчет количества статей на PubMed, на который ссылается каждый из протеомов. Для выполнения задания был написан код на Python (5 для Ciceribacter lividus, 6 для Agrobacterium fabrum). Используя этот код, я установил, что при описании протеома Agrobacterium fabrum были оставлены ссылки на 107 разных статей в PubMed, а при описании Ciceribacter lividus на 0 статей, что свидетельствует о слабой аннотированности этого протеома.