Практикум 8.

Поиск по сходству (BLAST)

Задание 1. Определение таксономии и функции прочтённой в практикуме 6 нуклеотидной последовательности

Используя Blastx, который ищет белки, используя транслированную ДНК, мне удалось получить 100 выравниваний с консенсусной последовательностью из практикума 6. Все найденные по последовательности белки были Цитохром С оксидазой (субъединица I), частичный митохондриальный, из разных видов голожаберных моллюсков (Goniodorididae). Чтобы проверить результат, я использовала Megablast для поиска близких к моей нуклеотидных последовательностей. Результат оказался тот же. Судя по тому, что в обоих случаях лучшие выравнивания (с наибольшими весом, процентами идентичности, покрытием и наименьшим E-value), были связаны с организмом Ancula gibbosa, можно предположить, что и секвенированная последовательность (Пр.6) была выделена из этого организма.
В Megablast лучшей найденной последовательностью с весом 1188 и покрытием 93% была последовательность, содержащая не только частичную кодирующую последовательность 1 субъединицы цитохром C оксидазы, но и гены tRNA-Val и большой рибосомальной субъединицы (полные посл-ти).
CO I является каталитической субъединицей фермента цитохром С оксидазы, катализирующего окисление кислорода в воду. Этот белок участвует в реакциях окислительного фосфорилировании, которое является частью энергетического метаболизма.
Таблица 1. Систематика
Тип Mollusca
Класс Gastropoda
Надотряд Nudipleura
Отряд Nudibranchia
Семейство Goniodorididae
Вид Ancula gibbosa
Красивое изображение зверюшки Ancula gibbosa

Задание 2. Сравнение списков находок нуклеотидных последовательностей.

Сравнение производилось по трем поискам с алгоритмами, представленными в таблице 2. Поиск производился по консенсусной последовательности и по CDS из генома вируса из прошлого практикума
Таблица 2. Параметры поиска по консенсусной последовательности
Алгоритм Word size Match/Mismatch Scores Gap Costs Количество находок с E-value=0 Минимальный E-value Максимальный вес
Megablast 28 (по умолч.) 1, -2 (по умолч.) Linear (по умолч.) 4 2e-151 1188
Blastn (по умолч) 11 2, -3 5, 2 50 0 1167
Blastn (чувствительный) 7 2, -3 6, 2 50 0 1176
megablast taxonomy
Результаты таксономии при поиске консенсусной полседовательности через алгоритм megablast
blastn default taxonomy
Результаты таксономии при поиске консенсусной полседовательности через алгоритм blastn с параметрами по умолчанию.
blastn sensetive taxonomy
Результаты таксономии при поиске консенсусной полседовательности через алгоритм blastn с чувствительными параметрами.
В процессе поиска по трем разным алгоритмам, требуемое время последовательно увеличивалось от megablast к чувствительному blastn. Первое отличие, которое бросилось в глаза при поиске по консенсусной последовательности - это количество последовательностей с нулевым E-value: при использовании megablast таких последовательностей было 4, а в обоих случаях с blastn все 50 (поиск производился с ограничением на количество находок - 50). Вес лучших находок также различался (см. Табл.2). Результаты с точки зрения количества находок по таксономии тоже немного различался от алгоритма к алгоритму.
Таблица 3. Параметры поиска по CDS вируса
Алгоритм Word size Match/Mismatch Scores Gap Costs Количество находок Количество находок с E-value=0 Минимальный E-value Максимальный вес
Megablast 28 (по умолч.) 1, -2 (по умолч.) Linear (по умолч.) 3 0 9e-116 433
Blastn (по умолч) 11 2, -3 5, 2 4 0 0.55 423
Blastn (чувствительный) 7 2, -3 6, 2 4 0 0.45 426
CDS megablast
Результат поиска по CDS вируса с использованием megablast
CDS blastn
Результат поиска по CDS вируса с использованием blastn (с чувствительными параметрами)
При поиске по CDS последовательности вируса нашлось не так много последовательностей, как при предыдущем поиске. Одним из параметров поиска был "Expect threshold" равный 1 (в предыдущем поиске по умолчанию было 10). С помощью megablast удалось найти 3 последовательности с полным покрытием и почти 100% идентичностью. При поиске blastn удалось найти одни и те же 4 последовательности, но при разных параметрах для этих последовательностей незначительно менялись вес и E-value. Таким образом, выдача blastn и megablast в этом случае отличалась всего на одну последовательность.
Вывод по сравнению списков:
Изменение алгоритмов и параметров поиска незначительно влияют на выдачу наилучших последовательностей. Отличия начинают быть заметными при увеличении E-value до тех значений, при которых ценность находок станосится низкой. Кроме того, в моем случае, даже в конце списка находки, имеющие высокое покрытие и низкий E-value, были достаточно уместны, т.е. не выходили за пределы отряда и являлись участками гена одного и того же белка.

Задание 3. Поиск гомологов белков в в неаннотированном геноме.

В этом задании нужно было проверить наличие гомологов трех белков в геноме Amoeboaphelidium protococcarum. Я выбрала белки, которые, как мне кажется, должны быть у всех эукариот: гистон H3 (H31_TETTH), убиквитин-конъюгирующий фермент E2 R1(UB2R1_HUMAN) и хроматин-связывающий белок(регулятор хромосомной конденсации) (RCC1_HUMAN). Информацию о белках я нашла с помощью UniProt. Я использовала следющие команды:
seqret sw:h31_tetth his3.fasta
seqret sw:ub2r1_human ub2.fasta
seqret sw:rcc1_human rcc1.fasta
makeblastdb -in X5.fasta -dbtype nucl -out pr8.db
tblastn -query his3.fasta -db pr8.db -out his.out
tblastn -query ub2.fasta -db pr8.db -out ub2.out
tblastn -query rcc1.fasta -db pr8.db -out rcc1.out

Результаты получились следующие: с большой вероятностью в геноме Amoeboaphelidium protococcarum есть гомолог белка гистона H3 Tetrahymena thermophila (инфузория).
Этот белок является основным компонентом нуклеосомы. Нуклеосомы обертывают и уплотняют ДНК в хроматин, ограничивая доступ к ДНК ферментов, требующих ДНК в качестве субстрата. Таким образом, гистоны играют центральную роль в регуляции транскрипции, репарации ДНК, репликации ДНК и стабильности хромосом.
Для последовательности гистона H3 удалось получить несколько хорших выравниваний с последовательностями из генома Amoeboaphelidium protococcarum, причем три лучших выравнивания были одинаковы (Score = 221 bits (562), Expect = 3e-66, Identities = 112/135 (83%), Positives = 123/135 (91%), Gaps = 1/135 (1%)), но из разных скэффолдов (scaffold-126, scaffold-104 (2x)) и рамками считывания -3 и +3, -2 соответственно. Посчитанное покрытие для нескольких лучших выравниваний составляло более 99% (135/136) Высокий процент идентичности и схожести аминокислотных последовательностей дает возможность говорить о гомологичности данных последовательностей и сохранении одной и той же функции.
С остальными белками ситуация была уже не такая очевидная. Пришлось перебрать несколько других белков, прежде чем найти те, которые имели бы предположительных гомологов. Например, для белка каспаза-3 (caspase-3), который отвечает за апоптоз в клетках, в данном геноме не нашлось ни одного гомолога. Это можно объяснить тем, что каспаза более характерна и изучена для животных клеток, а в растительных ее гомологии отсутсвуют (но есть ее аналог). Поэтому, каспаза, наверно, была неподходящим белком, для того чтобы искать ее в геноме любого эукариота, в частности в геноме Amoeboaphelidium protococcarum (Поэтому не привожу ее в таблице 4).
Регулятор хромосомной конденсации (RCC1_HUMAN) - фактор высвобождения гуаниновых нуклеотидов, который способствует обмену Ran-связанного GDP с помощью GTP и тем самым играет важную роль в RAN-опосредованных функциях при ядерном импорте и митозе (Ran = RAs-related Nuclear protein). С помощью Pham я нашла в RCC1_HUMAN 7 одинаковых доменов. Поэтому я думала, что его гомологи гена этого белка должны присутствовать у всех эукариотов, но, видимо, это не так.
Убиквитин-конъюгирующий фермент E2 R1 (UB2R1_HUMAN) принимает убиквитин из комплекса Е1 и катализирует его ковалентное присоединение к другим белкам, катализирует связанное с Lys-48 полиубиквитинирование. Убиквитин (от англ. ubiquitous — «вездесущий») — небольшой (8,5 кДа) консервативный белок эукариот, участвующий в регуляции процессов внутриклеточной деградации других белков, а также в модификации их функций. Он присутствует почти во всех тканях многоклеточных эукариот, а также у одноклеточных эукариотических организмов. Консервативность убиквитина показалась мне основанием, для того чтобы предположить консервативность связанного с ним фермента. Основываясь на результаты BLAST (Identity 57%), можно сделать вывод о гомологичности UB2R1_HUMAN и белка, кодируемого одним из геном Amoeboaphelidium protococcarum, однако нельзя однозначно говорить о сохранении этими белками одной и той же функции.
Таблица 4. Результаты поиска гомологов белков
H31_TETTH UB2R1_HUMAN (RCC1_HUMAN)
Количество находок 9 39 7
Скэффолд лучшей находки scaffold-126, scaffold-104 unplaced-1014 scaffold-162
Минимальный вес, bits 28.5 35.0 29.6
Максимальный вес, bits 221 160 108
E-value лучшей находки 3e-66 5e-44 3e-25
Identity лучшей находки, % 83 57 30
Покрытие лучшей находки, % 99,26 63,14 90,74
Вывод Функциональный гомолог Гомолог, скорее всего функциональный Гомологичность маловероятна

Задание 4. Поиск гена белка в контиге

После продолжительного поиска контига, в котором был бы какой-нибудь белок, я нашла контиг из того же организма Taeniopygia guttata из прошлого практикума, но из другой сборки, в которй не были аннотированы белки.
Результаты поиска белка в контиге
Результат поиска белка в контиге с помощью BLASTX
Результаты поиска белка в контиге. Выравнивание
Результат BLASTX показал, что, скорее всего, в данном контиге содержится кинезин-подобный белок KIF1C, причем лучшая находка была "kinesin-like protein KIF1C [Taeniopygia guttata]" была из того же организма, что и тот, из генома которого был взят контиг, а большинство других значимых находок принадлежали ддругим птицам. Про белок KIF1C мало написано на UniProt, но известно что он принимает участие в везикулярном транспорте из аппарата Гольджи в ЭПР, и у него есть микротрубочковый мотор.