В данном практикуме надо было с помощью кода доступа SRR4240382 скачать файл проекта секвенирования бактерии Buchnera aphidicola в формате fastq. Эта бактерия относится к Протеобактериям и является эндосимбионтом тлей.
Чтения были подготовлены программой Trimmomatic
Команда: mek@kodomo:/nfs/srv/databases/ngs/mek/pr15$ java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240382.fastq trimmomatic.fastq MINLEN:30 TRAILING:3 ILLUMI NACLIP:adapters.fasta:2:7:7
Комментарии: MINLEN:30 - удаляет прочтения короче 30; TRAILING:3 - удаляют нуклеотиды ниже качества равного 3-м с конца прочтения; ILLUMINACLIP:adapters.fasta:2:7:7 - вырезает адаптеры, со значениями: 2 - отдельные несовпадения, 7 - порог для палиндромной шпильки, 7 - порог для простой шпильки
В результате работы программы было удалено очень малое количество ридов: Input Reads: 17756177 Surviving: 17723032 (99,81%) Dropped: 33145 (0,19%). Размер файла изменился с 1808 М до 1794 М
Далее была запущена программа velveth для подготовки k-меров. Velveth принимает на вход несколько последовательностей, строит хэш-таблицу и создает в отдельной директории два файла - Sequences и Roadmaps, необходимые для velvetg.
Команда: velveth k_mery 29 -short -fastq trimmomatic.fastq
Комментарии: 29 - длина k-меров; -short - чтения короткие и не парные; -fastq - формат чтений
Потом с помощи программы velvetg была осуществлена сборка на основе k-меров. Velvetg строит граф де Брёйна - ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет m^n вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз.
Команда: velvetg k_mery
Получилось, что N50=298, т.е. контигами данной и большей длины можно покрыть 50% генома.
Три контига с наибольшей длиной:
Все контиги с аномально большим и аномально маленьким покрытием очень маленькой длины. Если отсортировать все контиги больше тысячи, то покрытия лежат в районе от 30 до 80.
Полученный в результате работы velvetg файл stats.txt
Анализ трех контигов наибольшей длины
Три контига наибольшей длины были сравнены с помощью megablast с хромосомой Buchnera aphidicola (CP009253). Контиги с аномально большим и аномально маленьким покрытием не выраниваются в blast из-за маленького размера.
ID контига | Координаты | Идентичность | Число гепов |
24 | 236918 to 247596266073 to 271621260224 to 263784248967 to 252161253244 to 257546234792 to 236859 | 8182/10884(75%)4296/5652(76%)2794/3622(77%)2527/3246(78%)3229/4399(73%)1615/2086(77%) | 390/10884(3%)196/5652(3%)111/3622(3%)94/3246(2%)192/4399(4%)35/2086(1%) |
9 | 295935 to 303252275566 to 283706288181 to 291560294227 to 295755285200 to 286535283963 to 285070 | 5696/7429(77%)6376/8396(76%)2654/3422(78%)1242/1535(81%)1027/1349(76%)864/1132(76%) | 186/7429(2%)421/8396(5%)98/3422(2%)14/1535(0%)27/1349(2%)46/1132(4%) |
21 | 2004 to 11103614190 to 620926 621055 to 62710417962 to 1970614727 to 1791913994 to 14465 | 7229/9221(78%)5390/6853(79%)4678/6170(76%)1507/1749(86%)2450/3225(76%)392/478(82%) | 252/9221(2%)187/6853(2%)240/6170(3%)24/1749(1%)86/3225(2%)9/478(1%) |