Учебная страница курса биоинформатики,
год поступления 2012
Дополнительная информация к практикуму 8
1. Выборка репрезентативных гомологов из прокариот
Скачайте себе данные о таксономии всех организмов в виде таблицы Excel (данные извлечены из база данных NCBI Taxonomy для всех прокариотических организмов с полными геномами из релиза 57 базы данных RefSeq, январь 2013). Найдите в этом списке организм, к которому принадлежит Ваш белок, и определите филум (phylum), к которому он принадлежит.
Филумы - самые крупные единицы дробления у прокариот. Организмы из разных филумов разнообразнее по типам метаболизма, а соответственно и по биологическим последовательностям, чем эукариоты, но можно очень грубо сказать, что деление на филумы похоже на деление эукариот на грибы, растения, животные и несколько групп одноклеточных простейших.
Осуществите поиск BLAST, в качестве исходной последовательности используя Ваш белок. При этом следует немного изменить параметры программы. Так, увеличьте максимальное количество хитов (max target hits), которые будет искать программа, со стандартных 100 до хотя бы 500-1000. В поле Organism введите название филума, к которому принадлежит бактерия, в которой содержится ваш белок (если вы все делаете правильно, программа выдаст выпадающий список, из которого можно будет выбрать название филума), и выставьте галочку напротив "Exclude", тем самым вы запретите BLAST выдавать сходные белки из того же филума. Добавьте еще одно поле Organism, щелкнув на "+" справа от первого поля; аналогичным образом исключите пока что из поля поиска всех эукариот (Eukaryota). Порог e-value оставьте пока высоким - например, e-value = 1. В качестве базы данных используйте RefSeq - крупную базу данных, где представлены полные геномы.
Совет: вы можете создать свой аккаунт в NCBI, и тогда будет немного удобнее работать с уже полученными результатами BLAST. Если вы запускаете BLAST несколько раз, то старые результаты временно сохраняются (вроде бы у тех, кто заходит с аккаунта, сохраняются чуть ли не неделю), и можно запускать BLAST с разных компьютеров, а потом сравнивать результаты.
Просмотрите результаты. Если окажется, что программа уже стала находить белки, для которых e-value и выравнивание очевидно плохие (например, e-value ~ 10-5 и выше, а выравнивание не по всей последовательности белка) - значит, вы близки к тому, чтобы вычерпать доступное разнообразие белков. Если же список обрывается на приличном e-value и хороших выравниваниях, значит, нужно дополнительно увеличить максимальное количество хитов (max target hits). Запомните то e-value, начиная с которого выравнивания для вашего белка уже ненадежны, и при финальном запуске (со всеми подобранными параметрами, включая max target hits) установите его в качестве порога. Обязательно запишите в свой протокол параметры, с которыми вы запускали финальный запуск: они потребуются на сайте.
Обратите внимание, что увеличение количества хитов делает работу BLAST существенно медленнее. Если окно просто зависает (например, в нем видна только первая строка окна с названием BLAST) - щелкните на кнопке "Recent results" и выберите самый верхний результат: может быть ваш запрос уже посчитался, но из-за проблем с сервером не может до вас дойти. Также беспроигрышная идея - пользоваться BLAST в то время, когда в США ночь: это существенно ускоряет работу
Теперь в секции Descriptions окна выдачи BLAST выберите все последовательности (Select: All) и получите о них выдачу GenBank (ссылка GenPept прямо под графическим изображением хитов). Щелкните справа в окошке на "Tree" и посмотрите, к каким таксономическим группам организмов принадлежат хиты (в скобках указано количество хитов для каждого таксона). Сохраните это изображение дерева; его надо будет перевести потом в табличку для web-страницы.
- Щелкая по названиям таксонов, вы будете получать только те хиты, которые им принадлежат. Ваша задача - отобрать примерно 20-30 белков, принадлежащих всех филумам бактерий и архей, в которых белок есть. Например, если вы видите, что белок встречается в большом количестве филумов - берите по одному-двум белкам из каждого, а если встречается только в трех - что же делать, берите по 8-10 из каждого.
Когда вы "вручную" отбираете белок, сохраняйте в отдельном текстовом файле его идентификатор в базе данных RefSeq (что-то вроде "NP_007534.1"). Можно писать по одному идентификатору на каждой строчке, можно разделять их пробелом. Когда закончите отбирать белки, выделите все идентификаторы и вставьте в строку поиска базы данных RefSeq - база данных выдаст все отобранные белки сразу, это намного удобнее, чем сохранять отдельную последовательность каждый раз. Сохраните все эти последовательности, выбрав в правом левом углу опцию "Send to->File"; не забудьте выбрать формат FASTA!
Внимание: если окажется, что за пределами "родного" филума хитов у вашего белка нету, то все равно приготовьтесь описать их поиски в отчете, потому что отрицательный результат - тоже результат. В этом случае сделайте выборку исключением из поиска более мелкой таксономической единицы, к которой принадлежит бактерия с вашим белком - например, семейства или класса.
2. Встречаемость белка у эукариот
Запустите теперь поиск гомологов вашего белка BLAST только по домену Eukaryota (введите Eukaryota в поле "Organism" и не ставьте галочку "Exclude"). Аналогично тому, что делали раньше для прокариот, получите распределение хитов по таксонам эукариот в виде дерева и сохраните его себе для отчета. Если эукариотические белки были найдены, выберите по одному хиту из каждого царства (можно по паре хитов - выберите организмы, с которыми вы уже встречались на практикумах по зоологии и ботанике, так интереснее!).
Теперь вам надо понять, находится ли гомологи вашего белка в геноме ядра или митохондрий и хлоропластов. Хотя между этими структурами произошел обмен генами, зачастую факт наличия белка в ядре может позволить предположить, что это исходно эукариотический белок, а не белок, перебежавший из митохондрии или хлоропласта (по сути - бактериальный). Чтобы это проверить, перейдите на запись RefSeq для эукариотических гомологов из разных царств и найдите поле "DBSOURCE" (должно быть в самом верху записи). Если вы щелкните на него, то попадете на запись базы данных, соответствующую геному или другому элементу ДНК, на которой кодируется соответствующий ген. Посмотрите, как называется эта запись, если в ней указания, что геном принадлежит митохондрии или хлоропласту? Зафиксируйте для отчета свои наблюдения.
3. Анализ множественного выравнивания средствами JalView
Для начала переместите последовательность вашего белка (для которого, собственно, есть 3D-структура) в самую нижнюю строку. Затем вам надо проассоциировать эту последовательность с соответствующим ей PDB-файлом. Как это сделать рассказано в подсказках по JalView. После этого одним из окошек проекта станет привычное уже вам окно Jmol с вашим белком. В этом окне можно делать все манипуляции, обычные для Jmol (например, запускать скрипты или давать команды через консоль). Обратите внимание, что если вы наведете мышь на какой-то остаток в окне Jmol, соответствующий остаток в вашем белке подсветится. Убедитесь, что вы все сделали правильно, и программа при наведении подсвечивает правильный остаток. Обратите внимание, есть ли несоответствие нумерации остатком между последовательностью вашего белка и структурой и подумайте, с чем это может быть связано.
Используйте эту связь между последовательностью и структурой для нанесения информации из структуры на выравнивание. Создайте новую строку аннотации (см. опять-таки подсказки по JalView), назовите ее "SECONDARY" и, используя стандартные "заготовки" для альфа-спиралей и бета-тяжей, внесите информацию о вторичной структуре вашего белка в эту строку.
Создайте еще одну строку аннотации, назовите ее "LIGAND". Используя скрипты Jmol и свои знания об остатках вашего белка, которые связывают лиганд (то, что вы делали в предыдущем семестре), найдите в 3D-структуре вашего белка остатки, которые связывают тот лиганд, с которым вы работали в прошлом семестре (если в белке есть несколько лигандов, и вы опишите остатки, связывающие даже те, с которыми раньше вы не работали - это будет оценено премиальными баллами). Отметьте их в строке аннотации "LIGAND", например, буквой "L".
Создайте еще одну строку аннотации, назовите ее "BLOCKS". Заполните эту строку буквами "B" там, где участок выравнивания кажется вам похожим на "блок". Примеры блоков можно посмотреть в презентации по матрицам BLOSUM (практикум №6 этого семестра). В принципе, жестких критериев для этого понятия не существует, но всегда под "блоками" подразумевают как-то выровненные по всей толщине (не обязательно сильно консервативные) участки выравнивания, противопоставляя им вообще не выровненные "петли". Пользуйтесь этим неформальным определением.
4. Анализ 3D-структуры белка исходя из выравнивания
Настройте выравнивание так, чтобы остатки были покрашены в соответствии с их функциональными группами (используйте ту же цветовую схему, которую создавали для практикумов №6 и 7), и поставьте галочку в меню Colour->By Conservation. После этого заставьте программу заново нарисовать окно Jmol (правой кнопкой по последовательности, а там в меню Structure->View structure for.... Так вы добьетесь того, что цвета остатков, которые видно на выравнивании, будут наложены на остатки структуры. В окне Jmol сделайте так, чтобы весь белок был представлен в виде cartoons, остатки, связывающие лиганд, были выделены в виде толстого wireframe и подписаны, а лиганд был хорошо виден. Сохраните изображение белка, его нужно будет описать в отчете.
5. Сохранение информации
В JalView есть возможность через меню File сохранить выравнивание в трех версиях, из которых 2 у меня работают очень странно:
- HMTL: опция не видит большей части параметров отображения, включая, что самое плохое, строчку аннотаций;
- EPS: векторный файл, похоже, создается с ошибкой, его не удается открыть;
- PNG: пожалуй, пока единственная опция.
Сохраните свое выравнивание, включая привнесенные аннотации, окраску по функиональной группе и консервативности остатков, в формате PNG (File->Export Image->PNG). Этот файл будет использоваться для отчета.