BLAST

1. Определение функции и таксономии нуклеотидной последовательности

Для выравнивания последовательности я использовала Nucleotide BLAST blastn (с параметрами по умолчанию), поскольку мне было важно понять таксономическое положение организма, геному которого она принадлежит, а нуклеотидные последовательности менее консервативны, чем белковые, и сильнее различаются у разных видов. Я использовала blastn, а не другие варианты Nucleotide BLAST, так как выравнивала последовательность, полученную при расшифровке хроматограммы, соответственно, при секвенирование или в процессе расшифровки могли возникнуть ошибки, из-за которых megablast, к примеру, мог бы не найти по факту очень близкие последовательности.

Первые 20 находок с лучшим весом имели нулевое E-value (ссылка на выдачу). Все они являлись последовательностями субъединицы I цитохром с-оксидазы и принадлежали роду Polycirrus. Также четыре лучшие находки принадлежат Polycirrus medusa. Таким образом, выравниваемая последовательность скорее всего субъединица I цитохром с-оксидазы Polycirrus medusa.

2. Поиск генов белков в неаннотированной нуклеотидной последовательности

Я искала гены в скаффолде, полученном при секвенировании ДНК Haplochromis burtoni: ссылка на последовательность контига.

Различные нуклеотидные последовательности могут кодировать один и тот же белок, поэтому для поиска белок-кодирующих генов целесообразно транслировать нуклеотидную последовательность и выравнивать с последовательностями белков. Для этого я использовала blastx и базу данных с аннотированными белковыми последовательностями swissprot (последнее в том числе чтобы сократить время поиска). Я изменила следующие параметры поиска: database, organism (чтобы исключить таксон, из которого был получен контиг), max target sequences на 50 и word size на 3, чтобы сократить время поиска и найти больше потенциальных выравниваний.

По ссылке доступна выдача BLAST. Как видно, все находки выравниваются примерно с 23732 до 23445 аминокислотного остатка. Находки с наибольшим весом и процентом идентичности более 60% (поскольку речь идет о белках, такой процент идентичности говорит о гомологии) относятся к цитохрому P450 26B1. Таким образом, на этом участке контига скорее всего находится ген, кодирующий цитохром P450 26B1.

3. Интепретация карты локального сходства гомологичных хромосом двух бактерий

Я сравнивала хромосомы Staphylococcus aureus (AP017922) Staphylococcus saprophyticus subsp. saprophyticus (AP008934).

Из графика можно сделать вывод, что геномы, по-видимому, были аннотированы по-разному, из-за чего они ориентированы в разные стороны. Видно, что это хромосомы близкородственных бактерий, присутствуют лишь незначительные геномные перестройки, например, идель в положении 1,35 Mbp, а также небольшой индель на уровне 1 Mbp.