Практикум 7. EMBOSS и протеомы
В рамках данного практикума мы познакомились с пакетом EMBOSS, провели работу с протеомами указанных в задании бактерий.
Organism | Proteome ID | Proteins number | Amino acids number |
Escherichia coli (strain K12) | UP000000625 | 4352 | 1353365* |
Acidithiobacillus ferrooxidans (strain ATCC 23270) | UP000001362 | 3120 | 882239 |
*Включая 8 нераспознанных (X); выявлены с помощью wordcount и вспомогательного скрипта.
Задание 1
С помощью wordcount и специально созданного python-скрипта было обработано два полных протеома: Escherichia coli K12 и Acidithiobacillus ferrooxidans ATCC 23270.
Результат работы представлен в таблице 1. В первом столбце указан однобуквенный код аминокислотного остатка (рассматривались 20 основных аминокислот; в протеоме E.coli также содержится 3 остатка селеноцистеина), во втором и третьем - процентное содержание остатка в указанном протеоме, в четвертом - разница в содержании между рассматриваемыми организмами.
Amino acid | A_ferrooxidans_ATCC23270 (%) | E_coli_K12 (%) | Difference |
---|
A | 11.226 | 9.507 | 1.719 |
L | 10.944 | 10.676 | 0.268 |
G | 8.276 | 7.366 | 0.91 |
R | 7.035 | 5.52 | 1.515 |
V | 7.033 | 7.07 | 0.037 |
S | 5.392 | 5.799 | 0.407 |
P | 5.358 | 4.429 | 0.929 |
E | 5.354 | 5.762 | 0.408 |
I | 5.237 | 6.011 | 0.774 |
D | 5.06 | 5.147 | 0.087 |
T | 4.96 | 5.394 | 0.434 |
Q | 4.211 | 4.443 | 0.232 |
F | 3.56 | 3.894 | 0.334 |
K | 3.04 | 4.407 | 1.367 |
N | 2.805 | 3.938 | 1.133 |
H | 2.708 | 2.269 | 0.439 |
Y | 2.626 | 2.845 | 0.219 |
M | 2.557 | 2.825 | 0.268 |
W | 1.604 | 1.532 | 0.072 |
C | 1.014 | 1.162 | 0.148 |
Самыми распространенными аминокислотными остатками в протеоме A. ferrooxidans являются аланин, лейцин и глицин; лидирующие позиции в протеоме E. coli также занимают лейцин, аланин и глицин, но доля Leu на процент больше доли Ala. Самыми малочисленными в протеоме A. ferrooxidans оказались метионин, триптофан и цистеин. В протеоме E. coli доля метионина немного больше, чем гистидина, поэтому 3 самыми малочисленными аминокислотными остатками оказываются гистидин, триптофан и цистеин.
Самой большой разницей в содержании остатка в пользу A. ferrooxidans является разница в содержании аланина (1.719%), в пользу E. coli - содержание лизина (1.367%).
Используемый скрипт
(синтаксис: python html_table.py prot1.fasta prot2.fasta; сортировка происходит по первому из указанных протеомов)
Acidithiobacillus ferrooxidansATCC 23270 (fasta-файл)
Escherichia coli K12 (fasta-файл)
Задание 2
Программы сompseq и wordcount предназначены для обнаружения и подсчета слов определенной длины в данной последовательности. Синтаксис этих программ выглядит так: сначала в командную строку вводится название программы, затем имя файла с последовательностью. Далее вводится длина слова и название файла, в который будет записан ответ. Wordcount предоставляет только самую основную информацию, представленную в виде двух колонок: первая содержит все найденные слова, вторая - их колличество. Compseq выводит информацию о запросе, общее число найденных сочетаний; в виде таблицы представлены найденные сочетания, ожидаемая и наблюдаемая частота, их отношение.
Для выполнения задания, аналогичного заданию 1, я бы выбрала wordcount, потому что результат, выдаваемый compseq сложнее обрабатывать из-за избытка информации.