Протеомы и EMBOSS
Таблица 1. Общая информация о протеомах E.coli K12 и L.citreum KM20 | |||
---|---|---|---|
Название организма | ID протеома | Количество белков | Количество а/о |
E.coli K12 | UP000000625 | 4.306 | 1.356.086 |
L.citreum KM20 | UP000002166 | 1.812 | 556.668 |
Таблица 2. Различие в аминокислотном составе протеомов E.coli K12 и L.citreum KM20 | |||
---|---|---|---|
Аминокислотный остаток | Процентное содержание а/о в протеоме L.citreum KM20, % | Процентное содержание а/о в протеоме E.coli K12, % | Разность процентного содержания а/о, % |
L | 9,7608 | 10,6726 | 0,9118 |
A | 8,6924 | 9,5154 | 0,8230 |
I | 7,3582 | 6,0103 | 1,3479 |
V | 7,3124 | 7,0734 | 0,2390 |
G | 6,5901 | 7,3746 | 0,7845 |
T | 6,4744 | 5,3991 | 1,0753 |
S | 5,8785 | 5,8023 | 0,0762 |
K | 5,8106 | 4,4061 | 1,4045 |
D | 5,7966 | 5,1510 | 0,6456 |
E | 5,0535 | 5,7628 | 0,7093 |
Q | 4,9412 | 4,4401 | 0,5011 |
N | 4,8983 | 3,9454 | 0,9529 |
F | 4,3505 | 3,8905 | 0,4600 |
R | 4,0189 | 5,5110 | 1,4921 |
P | 3,4744 | 4,4254 | 0,9510 |
Y | 3,4435 | 2,8453 | 0,5982 |
M | 2,7102 | 2,8193 | 0,1091 |
H | 2,1665 | 2,2664 | 0,0999 |
W | 1,0723 | 1,5312 | 0,4589 |
C | 0,1965 | 1,1576 | 0,9611 |
U | 0,0000 | 0,0002 | 0,0002 |
'''
Метод, с помощью которого я смог быстро сделать html-таблицу, Вы можете увидеть вот в этом файле. Там также есть все подробные этапы, необходимые для конечной таблицы.
Почему я не делал в порядке убывания процентного состава а/о?
В задании сказано, что нужно составить итоговую таблицу в порядке убывания процентного состава а/о в протеомах. Ниже я показываю, что далеко не каждая аминокислота одного протеома стоит на таком же месте по процентному содержанию, что и аминокислота другого протеома. Иными словами, нельзя корректно составлять таблицу для обоих протеомов одновременно, поэтому решил составить в алфавитном порядке.
'''
Обсуждение данных Таблицы 2 (см. табл. 2).
Для начала посмотрим на самые распространённые аминокислотные остатки в протеомах. Самой распространённой аминокислотой в протеомах оказалась лейцин, она составляет 9.7608% и 10.6726% в протеомах L.citreum KM20 и E.coli K12 соответственно. Следующее место по распространённости занимает аланин, причём примечательно, что это касается обоих протеомов. Изолейцин в протеоме L.citreum KM20 составляет 7.3582% от общего количества аминокислотных остатков, тогда как у E.coli K12 в протеоме на третьем месте оказывется глицин, 7.3746%.
Что касается наименее распространённых аминокислотных остатков, то ситуация в протеомах схожа. У L.citreum KM20 в протеоме меньше всего селеноцистеина (привожу просто для сравнения), цистеина и триптофана (если не брать в расчёт селеноцистеин, то вместо него стоит написать гистидин). У E.coli K12 наименьшую долю составляют селеноцистеин, цистеин и триптофан. Как можете видеть, набор идентичен: селеноцистеин, цистеин и триптофан.
Наибольей абсолютной разницы достигают аригинин и лизин (заряженные аминокислоты).
Краткий обзор compseq и его различия с wordcount.
Синтаксис схож у compseq и wordcount. Compseq: {compseq [имя входного файла] -word [длина последовательности] [имя выходного файла]} и wordcount: {wordcount [имя входного файла] -wordsize=[длина последовательности] [имя выходного файла]}. Конечно же это только основные методы этих программ. Например есть метод [-frame] у compseq, который позволяет считать количество неперекрывающихся последовательностей заданной длины (она задаётся пользователем).
Таблица 3. Различия в работе compseq и wordcount | ||
---|---|---|
Признаки | compseq | wordcount |
Скорость работы с последовательностью длиной 4 | ≈0.5 сек | ≈5 сек |
Вывод программы | Несколько столбиков с посчитанными значениями встречаемости | Две колонки с количеством а/о |
Упорядочение полученных значений | По алфавиту | По убыванию |
Прочее | Указана дополнительная информация в выводном файле | - |
Исходя из данных таблицы 3, можно заключить, что обрабатывать информацию легче и быстрее (!) с помощью compseq. Кроме этого немаловажен вывод программы; в этой рубрике предпочтительнее работать с compseq.
Вывод: я бы использовал compseq, нежели wordcount.
⌘
© Emir Radkevich, 2016