Практикум 7: EMBOSS и протеомы

Из базы Uniprot Proteoms были скачаны протеомы двух бактерий, оба референсные. С помощью команды 'grep -c ">" proteomefilename.fasta' были посчитаны количества последовательностей. С помощью команды 'wordcount proteomefilename.fasta' а потом вводом в интерактивном режиме '1' (wordsize) и 'outputfilename.wordcount' были получены файлы с перечисленными аминокислотами.

Таблица 1. Информация о протеомах
Организм Идентификатор протеома Количество последовательностей Количество аминокислот
Hydrogenobacter thermophilus TK-6 UP000002574 1892 555287
Escherichia coli K-12 UP000000625 4352 1353357

Программа, составляющая табличку
В питоне была написана программа, печатающая тело html таблицы в текстовый файл.
Запуск осуществляется через командную строку в виде: "progamname.py sortedfile.wordcount additionalfile.wordcount"
Считывание имен файлов из командной строки при помощи модуля sys. Первый файл считается отсортированным в правильном порядке, вторая колонка печатается в соответствии с последовательностью аминокислот в первом файле.
Для получения данной таблицы использовалась команда "python pr7.py hydrogenobact.wordcount coli.wordcount"
Файлы лежат в папке sofyagdk26/term2/pr7

Таблица 2. Процент аминокислот в геномах Hydrogenobacter thermophilus TK-6 в сравнении с Escherichia coli K-12
Аминокислотный остаток Процент в геноме Hydrogenobacter Процент в геноме Escherichia Разность
L11.0110.680.33
E8.025.762.26
K7.794.413.38
V7.697.070.62
I7.026.011.01
G6.947.37-0.43
A6.289.51-3.23
S5.895.80.09
R5.45.52-0.12
D4.785.15-0.37
F4.753.890.86
Y4.232.841.39
T4.225.39-1.17
P4.044.43-0.39
N3.153.94-0.79
Q2.624.44-1.82
M2.352.83-0.48
H1.782.27-0.49
W1.031.53-0.5
C1.01.16-0.16
Unone0.0-0.0

Три самых частых у Н.thermophilus - LEK, a у E.coli - LAG. Это интересно, тк лизин одновременно самую большую разницу в пользу thermophilus имеет. По сравнению с E.coli у Н.thermophilus перепредставлены (причем в обоих случаях почти в два раза!) глутаминовая кислота и лизин, можно предположить что у нее в белках сильно больше солевых мостиков, что может быть связано с ее обитанием в гипертермальных засоленных местообитаниях - белки с солевыми мостиками возможно более устойчивы к воздействию температур, и уж тем более засолению, чем водородные связи?
Самая большая разница в пользу E.coli у аминокислоты аланин. Я не очень представляю, что это может значить кроме того, что у thermophilus набор аминокислот необычный. Самые редкие аминокислоты - HWC в обоих организмах.