Из базы Uniprot Proteoms были скачаны протеомы двух бактерий, оба референсные. С помощью команды 'grep -c ">" proteomefilename.fasta' были посчитаны количества последовательностей. С помощью команды 'wordcount proteomefilename.fasta' а потом вводом в интерактивном режиме '1' (wordsize) и 'outputfilename.wordcount' были получены файлы с перечисленными аминокислотами.
Организм | Идентификатор протеома | Количество последовательностей | Количество аминокислот |
---|---|---|---|
Hydrogenobacter thermophilus TK-6 | UP000002574 | 1892 | 555287 |
Escherichia coli K-12 | UP000000625 | 4352 | 1353357 |
Программа, составляющая табличку
В питоне была написана программа, печатающая тело html таблицы в текстовый файл.
Запуск осуществляется через командную строку в виде:
"progamname.py sortedfile.wordcount additionalfile.wordcount"
Считывание имен файлов из командной строки при помощи модуля sys. Первый файл считается
отсортированным в правильном порядке, вторая колонка печатается в соответствии с последовательностью
аминокислот в первом файле.
Для получения данной таблицы использовалась команда "python pr7.py hydrogenobact.wordcount coli.wordcount"
Файлы лежат в папке sofyagdk26/term2/pr7
Аминокислотный остаток | Процент в геноме Hydrogenobacter | Процент в геноме Escherichia | Разность |
---|---|---|---|
L | 11.01 | 10.68 | 0.33 |
E | 8.02 | 5.76 | 2.26 |
K | 7.79 | 4.41 | 3.38 |
V | 7.69 | 7.07 | 0.62 |
I | 7.02 | 6.01 | 1.01 |
G | 6.94 | 7.37 | -0.43 |
A | 6.28 | 9.51 | -3.23 |
S | 5.89 | 5.8 | 0.09 |
R | 5.4 | 5.52 | -0.12 |
D | 4.78 | 5.15 | -0.37 |
F | 4.75 | 3.89 | 0.86 |
Y | 4.23 | 2.84 | 1.39 |
T | 4.22 | 5.39 | -1.17 |
P | 4.04 | 4.43 | -0.39 |
N | 3.15 | 3.94 | -0.79 |
Q | 2.62 | 4.44 | -1.82 |
M | 2.35 | 2.83 | -0.48 |
H | 1.78 | 2.27 | -0.49 |
W | 1.03 | 1.53 | -0.5 |
C | 1.0 | 1.16 | -0.16 |
U | none | 0.0 | -0.0 |
Три самых частых у Н.thermophilus - LEK, a у E.coli - LAG. Это интересно,
тк лизин одновременно самую большую разницу в пользу thermophilus имеет. По сравнению
с E.coli у Н.thermophilus перепредставлены (причем в обоих случаях почти в два раза!)
глутаминовая кислота и лизин, можно предположить что у нее в белках сильно больше солевых
мостиков, что может быть связано с ее обитанием в гипертермальных засоленных местообитаниях -
белки с солевыми мостиками возможно более устойчивы к воздействию температур, и уж тем более
засолению,
чем водородные связи?
Самая большая разница в пользу E.coli у аминокислоты аланин. Я не очень представляю, что
это может значить кроме того, что у thermophilus набор аминокислот необычный.
Самые редкие аминокислоты - HWC в обоих организмах.