EMBOSS и протеомы

Частоты остатков в протеомах

Из базы данных о белках UniProt были скачаны два полных протеома Escherichia coli (strain K12) и Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) в формате fasta. Протеомы в UniProt расположены в отдельном разделе Proteomes, куда можно попасть по гиперссылке с главной страницы сайта базы. С применением расширенного поиска по полному названию штамма были найдены оба протеома, причем из всех вариантов выбраны референсные, для бактерии Nitrosomonas europaea единственный существующий в базе протеом является референсным. Референсные протеомы составлены в результате ручного и компьютерного анализа большого количества протеомов одного штамма, они принадлежат хорошо изученным модельным организмам или тем организмам, которые вызывают наибольший интерес у ученых. Подсчёт последовательностей в файле fasta был проведён с помощью команды grep -c ">", которая выдаёт число строк, в которых встречается символ '>', которым маркируется строка с идентификатором последовательности. Число отдельных аминокислот в последовательностях было посчитано программой wordcount из пакета EMBOSS, с помощью опции -wordsize 1 была ограничена длина слова. Общее число аминокислот в каждом из протеомов было посчитано скриптом на Python, который можно скачать. Результаты подсчёта числа последовательностей и общего числа аминокислот в протеомах приведены ниже, результаты рассчётов процентного содержания каждой аминокислоты в протеоме приведены в Таблице 1, они были выполнены при помощи скрипта, который тоже можно скачать.

Команда запуска скрипта: python3.6 table.py ECOLIK12.fasta NITEU.fasta ecolik12.count niteu.count

Escherichia coli strain K12

Идентификатор протеома: UP000000625

Число последовательностей: 4352

Число аминокислот: 1 353 365

Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298)

Идентификатор протеома: UP000001416

Число последовательностей: 2375

Число аминокислот: 777 646

Table 1. Percentage of aminoacids in proteomes
Aminoacid Percentage in E. coli str.K12 proteome, % Percentage in NITEU proteome, % Percentage difference, %
L 10.68 10.71 0.03
A 9.51 9.28 0.23
G 7.37 7.21 0.16
V 7.07 6.71 0.36
I 6.01 6.42 0.41
R 5.52 6.36 0.84
S 5.8 6.01 0.21
E 5.76 6.0 0.24
T 5.39 5.46 0.07
D 5.15 5.35 0.2
P 4.43 4.59 0.16
Q 4.44 4.31 0.13
K 4.41 4.06 0.35
F 3.89 3.93 0.04
N 3.94 3.56 0.38
Y 2.84 2.81 0.03
H 2.27 2.49 0.22
M 2.83 2.44 0.39
W 1.53 1.32 0.21
C 1.16 0.96 0.2

Nitrosomonas europaea Грам-отрицательный облигатный хемоавтотроф, для получения энергии использущий неорганические вещества, а именно, ион аммония, который бактерии окисляют до нитрита. Организм занимает важное место в биогеохимическом цикле азота, стадия, за которую он отвечает называется нитрификацией. Протеом содержит белки, закодированные на одной кольцевой хромосоме. Escherichia coli тоже Грам-отрицательна, факультативный анаэроб, хемоорганотроф. Важный симбионт кишечника животных, подавляющий рост патогенных бактерий за счёт выделения витаминов, жизнеспособна и вне организма. Протеом содержит белки, закодироанные на одной кольцевой хромосоме, раньше к нему относились белки f-плазмиды, но было выяснено, что эта плазмида была утрачена конкретным штаммом. Самые распространённые аминокислотные остатки одинаковы для обеих бактерий, это лейцин, аланин и глицин, причём именно в таком порядке, и он тоже одинаков для обоих протеомов. Разница между процентным содержанием этих аминокислот в протеомах тоже крайне мала, вероятно, потому, что эти аминокислоты впринципе весьма широко распространены и очень часто встречаются в белках. Для E. coli самыми редкими аминокислотами стали гистидин (который у другого организма на четвёртом месте по редкости), триптофан и цистеин, а для моей бактерии - метионин (который у первого организма на четвёртом месте по редкости), триптофан и цистеин, и эти четыре остатка сравнительно редко встречаются в белках ввиду специфичности их структуры и выполнения ими особых функций - цистеин, например, способен к образованию дисульфидных мостиков и взаимодействию атома серы с ароматическими кольцами, что вносит определённый вклад в поддержание третичной и четвертичной структуры белковых молекул. Самое большое отличие в пользу Nitrosomonas у аргинина - 0,84%; тогда как в пользу первого организма у метионина - 0,39%. Это неудивительно, ведь ни одна из бактерий не обитает в экстремальных условиях, а значит, причин для значительных отклонений во встречаемости аминокислот от стандартных значений нет. У кишечной палочки также присутствуют три остатка селеноцистеина, которого нет у нитросомонас и он не указан в таблице, его процентное содержание 0,0000022%

Изучение программы compseq

Эта программа высчитывает для уникальных слов заданной длины число встреч, долю этого слова среди других слов той же длины, ожидаемую долю (считается одинаковой для всех слов одной длины, то есть получается делением единицы на число таких слов) и соотношение реальной и ожидаемой долей.Дополнительно выводит в итоговый файл длину искомых слов и их число, результат сортируется в алфавитном порядке, а не по убыванию числа встреч, первые несколько строк выходного файла начинаются с символа # и содержат общую информацию, в том числе названия колонок. Синтаксис команд во многом схож:
compseq -sequence seqall файл с последовательностью, или USA-код -word integer длина слова -outfile filename файл с выходными данными# Дополнительные опции:-zerocount отменяет вывод слов с нулевой частотой -reverse считает вхождения в комплементарной цепи -ignorebz не считать редкие символы B (аспарагин или аспартат) и Z (глутамин или глутамат) -infile использовать в качестве ожидаемых частот реальные частоты из уже созданного compseq файла (должны быть теми же тип молекулы и длина искомого слова) -frameсдвигает рамку считывания
wordcount -sequence seqall -wordsize integer длина слов -outfile filename. Необязательные опции: -mincount integer минимальное количество встреч, необходимое для поиска слова. Дополнительных опций у этой команды сильно меньше, чем у первой, что делает её менее гибкой и удобной в использовании.

Для задачи, аналогичной поставленной в этом практикуме, я использовала бы команду compseq, потому что она сразу выдаёт частоту встреч аминокислотных остатков, и не нужно подсчитывать долю аминокислот с помощью скрипта python. С помощью дополнительных опций, коих у compseq очень много, можно сделать поиск удобнее для пользователя и получить данные, требующие меньше обработки. Наконец, compseq немного быстрее wordcount, что может внести значительный вклад при выполнении сложных рассчетов с большим количеством опций над большого объёма файлами.

Ссылки на протеомы и fasta-файлы с последовательностями:

  1. протеом Escherichia coli K12, UniProt
  2. протеом Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298), UniProt
  3. скачать протеом Escherichia coli K12, fasta
  4. скачать протеом Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298), UniProt