1. Описание контига и одного из его генов, для которого предсказан альтернативный сплайсинг.

В задании представлен скэффолд NW_003303700.1, принадлежащий организму Phytophthora infestans T30-4.

Фитофтора — род грибоподобных протистов из отдела Oomycota. Вызывают фитофтороз — заболевание растений, в основном семейства паслёновых (Solanaceae). Название вида Фитофтора инфестанс происходит от греческого «истребитель растений».

Домен

Eukaryota

Тип

Heterokonta

Класс

Oomycota

Порядок

Peronosporales

Семейство

Pythiaceae

Род

Phytophthora

Вид

P. infestans

Так как, в данном мне образце не было найдено участков альтернативного сплайсинга для работы был взят другой скэффолд (из резерва) NW_016683393.1, принадлежащий организму Xenopus tropicalis.


Характеристики скэффолда:

Длина:118 935 п.о.

Число генов и ген-кодирующих последовательностей: 27 и 26 соответственно.


Рассмотрим ген LOC101732943, для которого известен альтернативный сплайсинг.

Расположение: 412102..458006

Количество экзонов: 9

С этого гена транскрибируется 2 различных формы мРНК: XM_018089481.1 (XP_017944970.1 ) и XM_012955950.2 (XP_012811404.2 )

Описание: кодирует изоформы Х1 и Х2 сывороточного альбумина.

Альбумины (лат.: albus, белый) — простые растворимые в воде белки, умеренно растворимые в концентрированных растворах соли и свёртывающиеся при нагревании (денатурация белка). Их относительная молекулярная масса составляет примерно 65000, не содержат углеводов.

Общая площадь поверхности множества мелких молекул сывороточного альбумина очень велика, поэтому они особенно хорошо подходят для выполнения функции переносчиков многих транспортируемых кровью и плохо растворимых в воде веществ. К веществам, связываемым сывороточным альбумином, относятся билирубинуробилинжирные кислотысоли желчных кислот и т. д.

В обоих изоформах белка присутствуют по 2 консервативных альбуминовых домена (содержит 5 или 6 внутренних дисульфидных связей).

2. Предсказание генов и белок-кодирующих областей в контиге.

Для предсказания генов в контиге организма Xenopus tropicalis, воспользуемся помощью web-сервера AUGUSTUS.


В качестве модели был взят вид Danio rerio, будучи наиболее близким из предложенных. Параметры модели необходимы для того, чтобы получить требуемое предсказание.
Предсказание UTR (предсказание нетранслируемых участков) для выбранной модели недоступно, поэтому выбрано значение параметра false.
Мы знали о наличии нескольких альтернативно сплайсируемых генов и поэтому поставили параметр medium в соответствующем поле.
Значения остальных параметров были взяты по умолчанию.

Описание полученных данных

*.aa

Последовательности белков в формате fasta, полученные после трансляции предсказанных генов

*.gff

Предсказания генов в формате .gff

*.gft

Предсказание генов в формате .gtf (второй версии gff)

*.gbrowse

Файл с координатами для Gbrowse

*.codingseq

Предсказание кодирующих регионов ДНК в формате fasta

*.cdsexons

Предсказание экзонов в формате fasta

Из GenBank скачали таблицу с параметрами контига в формате gff3 (xtinfo.gff). С помощью команды 
grep 'CDS' xtinfo.gff | awk '{print $4,$5,$7}' >> xtinfo.txt
из файла с особенностями был получен файл xtinfo.txt.

Аналогичный файл aug.txt для предсказаний AUGUSTUS был получен командой 
grep 'CDS' augustus.gff | awk '{print $4,$5,$7}' >> aug.txt.

Далее скриптом  из предыдущего практикума было проведено сравнение, в результате которого выяснилось, что AUGUSTUS не смог предсказать правильно ни одного гена (даже частично: по С- или N- концу).