В таблице напротив своей фамилии я нашла код доступа проекта по секвенированию бактерии Buchnera aphidicola str. Tuc7, а именно код SRR4240356. Здесь представлена ссылка на короткие (длины 39) чтения, полученные по технологии Illumina для моего кода.
В директории /mnt/scratch/NGS/
Затем я пометила все адаптеры в один файл при помощи команды:
После этого я прибегла к обрезке адаптеров с одноконцевых ридов при помощи команды:
Результаты были получены следующие: 7358438 (97.96%) чтений осталось, а удалилось: 153091 (2.04%).
Для удаления с правых концов чтений нуклеотидов с качеством ниже 20 и удаления чтений, длина которых меньше 32 нуклеотидов использовалась программа:
Результаты были получены следующие: 7053346 (95.85%) остались, а были удалены: 305092 (4.15%).
Для того, чтобы узнать изменения в размерах файлов использовалась программа du -h
Подготовка k-меров длины k=31 осуществлялась при помощи команды:
Комментарии: 1)входные данные: -fastq.gz - указывает, что файл на вход в формате .fastq.gz, файл с триммированными чтениями; 2)опции: 31 - длина k-меров (hash_length), -short - короткие и непарные чтения
Далее была применена программа для сборки на основе k-меров:
Комментарии: 1)входные данные: файлы, полученные velveth; 2)выходные данные: 8 файлов (contigs.fa, Graph, LastGraph, Log, PreGraph, Roadmaps, Sequences, stats.txt)
В файле Log находим следующую информацию: N50 = 65554, Max = 111962.
Чтобы найти необходимую для нас информацию, поработаем с файлом stats.txt при помощи следующей команды:
Далее найдём 3 самых длинных контига. Для этого прибегнем к использованию следующей команды:
Были получены следующие результаты: 80939, 107488, 111962.
Теперь проверим, есть ли аномальные покрытия:
Аномально низкие от 1 до 5 встречаются в очень большом количестве. Есть и очень большие: 458.429078, 1134.000000, 266951.000000.
Ниже я представлю полученную информацию в виде таблицы с некоторыми характеристиками сборки.
ID | length | coverage |
---|---|---|
6 | 107488 | 34.174029 |
8 | 111962 | 38.660197 |
10 | 80939 | 37.524173 |
Я достала 3 файла с самыми длинными контигами и положила их в верхнюю папку при помощи следующих команд:
Далее я зашла на страницу BLASTN в NCBI и работала там, с отметкой чекбокса "Align two or more sequences". В верхнее окошко я поместила AC генома (CP009253), в нижнее – последовательность контига и нажала "BLAST" "megablast" (данную процедуру я проделала 3 раза, соотвественно). Ниже приведены полученные изображения и комментарии к ним.