Для того, чтобы выбрать случайную последовательность для работы, был написан следующий скрипт на Python:
>>> seq = ['Q47404', 'P18196', 'Q8RL96', 'Q8QLF5', 'Q04719', 'Q05121', 'Q3SXS7', 'Q9NXZ6', 'F1SRL9', 'Q246C0', 'Q1AHR3',
'Q3U7X3', 'Q9QCL4', 'Q65664', 'F6STE1']
>>> import random as random_number
>>> random_number.choice(seq)
Q04719
По данным Uniprot, это ME53 белок с массой 53 кДа из вируса Autographa californica nuclear polyhedrosis virus (AcMNPV).
Для данного белка последовательность полная, но существование белка лишь предсказано. Результаты работы с данной
последовательностью представлены в таблице 1.
Номер итерации | Число находок выше порога (0,005) | Идентификатор худшей находки выше порога | E-value этой находки | Идентификатор лучшей находки ниже порога | E-value этой находки |
1 | 62 | NP_258295.1 | 0.000009 | YP_001257085.1 | 0.01 |
2 | 84 | AAB46504.1 | 0.01 | WP_024160893.1 | 0.039 |
3 | 84 | AAB46504.1 | 1*10-30 | CDM28140.1 | 0.055 |
4 | 84 | AAB46504.1 | 6*10-30 | WP_009169989.1 | 0.14 |
5 | 84 | AAB46504.1 | 2*10-30 | XP_006195188.1 | 0.038 |
6 | 84 | AAB46504.1 | 2*10-30 | XP_006195188.1 | 0.038 |
После каждой итерации были исключены белки, не содержащих в названии me53, или же с явно отличной функцией. После получения двух идентичных (по таблице) результатов, база гомологов была сформирована. Графическое представление на рис. 1.
Рис. 1. Результат в виде таблицы счета выравниаваний.
Так же для этих белков было построено выравнивание. Скачать последовательности для выравнивания можно здесь. Проект в формате jar можно скачать здесь. Фрагмент выравнивания показан на рис. 2.
Рис. 2. Фрагмент выравнивания полученных гомологов.
Дата последнего обновления: 15.09.2014
Copyright © Кузнецова Мария, 2013.