Данные по моей сборке протеома Vibrio Cholerae:
ID сборки RefSeq: GCF_008369605.1,ссылка на страницу NCBI Datasets Genome
ID последней сборки GenBank для поиска в UniProt Proteoms: GCA_008369605.1
ID UniProt Proteomes: UP000322474,ссылка
Статус: Redundant proteome, т.е. избыточный по отношению к протеому UP000001217.
Запрос для поиска в UniProt Proteomes:
Поиск референсного протеома в базе данных UniProt Proteoms по виду Vibrio cholerae:
3754 результата, из них 2452 удаленных, 1285 избыточных, 16 "других" и один референсный — UP000000584.
Для скачивания белков из протеома на сервер была использована команда:
Может быть проведена методами UniProtKB или методами командной строки. Сначала проведем поиск с помощью UniProtKB.
Например, можно посмотреть, в скольких записях указана классификация фермента, не важно, какая именно. Это можно сделать по полю Enzyme Classification (EC). Такой запрос дал 959 результатов.
Используя средства bash, можно посчитать число строк названий белков, в которых встречается суффикс "-ase", обозначающий фермент. Использовался следующий конвеер:
Изучив записи, я нашла несколько вариантов того, как обеспечить, чтобы слово именно заканчивалось на -ase, а не содержало такое сочетание букв внутри себя, поэтому zgrep использовался с множественным аргументом. Получилось 1162 записи.
При поиске с помощью командной строки найдено на 203 записи больше. Возможно, во втором случае получилось больше результатов, поскольку: а) не для всех ферментов написана классификация и б) "-ase" встречается не только как суффикс названия непосредственно белка. Мы можем проверить вторую гипотезу. Скачаем все записи с наличием классификации фермента, которые мы нашли раньше:
И проведем уже на этих записях поиск по суффиксу:
К удивлению, конвеер выдал 875 результатов, что меньше, чем количество записей. Посмотрим, что это за записи, у которых есть классификация фермента, но нет суффикса в названии, используя опцию zgrep -v. Есть белки, у которых в названии просто "protein", или же название не содержит искомого суффикса. То есть поиск по суффиксу не является достаточно надежным, много белков (80) упущены.
Холерный вибрион является популярной бактерией, было бы интересно посмотреть на количество публикаций для белков. Сделать это можно средствами командной строки по полю в записи RN, которое и отображает число публикаций по данному белку. Посчитаем общее число публикаций по белкам:
В общем 4439 публикаций. Но есть нюанс. В 2000 году была выложена большая статья в Nature с полной расшифровкой генома Vibrio cholerae и были автоматически получены большинство белков. То есть из полученного числа на самом деле больше трех тысяч — одна статья, упоминающаяся много раз в разных записях. Если не делать подсчет, а посмотреть просто на выдачу grep, можно увидеть, что максимальное число публикаций для белка — 29. Самым популярным белком оказался rtxA токсин, что неудивительно. Остальные белки привлекают меньше внимания и ограничиваются в лучшем случае 6-8 публикациями...
Еще захотелось посмотреть распределение количества публикаций по годам. Использовался следующий конвейер:
Выдача конвеера здесь. Мы видим огромный всплеск в 2000 году, связаный с выше упомянутой статьей. В остальном ничего необычного, никаких всплесков или трендов не наблюдается. Хотя, возможно, тренды на определенные белки есть, но количество статей при этом сохраняется. Это ведь не исключено?
Также мне стало интересно посмотреть, кто наиболее часто встречается как первый автор в статьях для этих белков. Это могло бы быть полезно, например, если хочется изучать эту бактерию и узнать, что за люди и где занимаются ее белками. Это можно посмотреть с помощью следующего конвейера:
Выдача.Но и здесь наблюдается огромный перевес в сторону одного человека — первого автора уже упомянутой выше статьи, Джона Гейдельберга. Есть авторы с нескольким числом публикаций, но, если покапаться, то можно обнаружить, что большинство из их публикаций датируются еще прошлым веком... То есть для моей бактерии такой анализ оказывается совсем неактуальным и почти бесполезным. Тем не менее, думаю, если бактерия открыта недавно, или недавно начала представлять особый интерес, то это может быть, наверное, полезно.
Таким образом, глобальная идея для анализа оказалась нерезультативной для моей бактерии. Можно было бы сделать что-то более занятное, связанное с исследованием последовательностей или функций белков, но оставим это для дальнейших исследований.