Упражнения
Упражнения обязательно нужно выполнить полностью. Если не успели во время занятия, то проделайте после. Но в отчете их отражать не нужно.
Работа с текстовыми файлами
Названия команд приведены не случайно. Прочитайте задание, а потом читайте справку для указанных команд (man или выдачу с опцией --help) и придумывайте, как упражнение можно выполнить. Часто будет нужна не команда в чистом виде, а модифицированная какой-нибудь опцией (а иногда и несколькими).
(mkdir) Создать папку ~/term1/pr5, дальше все делайте в этой папке.
(less) Посмотреть содержимое файла ~/term1/genome/*_feature_table.txt (далее FT), который вы получили при выполнении практикума 2.
(less) Опробовать опции -S, -U и -N команды less на файле FT. Разобраться, как устроен этот файл.
(cut) Вырезать первую колонку файла FT, сохранить её в файл col1.txt. Вырезать две первые колонки из FT, сохранить в cols.tsv.
(wc) Сколько строк в файле FT? Убедитесь, что количество строк в col1.txt и cols.tsv не отличается.
(sort) Определить, какие уникальные пары значений встречаются в колонках из cols.tsv (вывести в терминал).
(sort, uniq) Посчитать (и вывести в терминал) количество вхождений для каждого уникального значения из файла col1.txt. Сколько в исходном файле было строчек CDS? А сколько tRNA?
(head) Сохраните 5 первых строк из файла FT в файл rows.tsv.
(tail, less) Перенаправьте в less все строки FT, кроме первой (иногда нужно удалить строку-заголовок).
(head, tr) Выведите (в терминал или в less) заголовки столбцов из FT, по одному в строке.
(cut, tr) Создайте файл coords.tsv, который будет содержать табличку из трех колонок: start, end и strand, которые будут идентичны соответствующим колонкам файла FT за исключением того, что в колонке strand будут не + и -, а 1 и 0 (для прямой и обратной цепи соответственно).
Более сложные упражнения.
Тоже надо попытаться выполнить, но они могут потребовать времени на раздумья. Лучше выполнять перед обязательными заданиями дома, чтобы закрепить материал.
(sort, uniq, sort, less) Вывести количества встреч каждой уникальной пары значений из колонок файла cols.tsv, отсортированные по убыванию, посмотреть результат в less (не сохраняйте в файл и не печатайте просто так в терминал).
(cut, tr, sort, uniq) Сколько в файле FT всего строчек, для которых в первой колонке указана какая-нибудь РНК?
(cut, tr) Создайте файл coords.tsv, который будет содержать табличку из трех колонок: start, end и strand, которые будут идентичны соответствующим колонкам файла FT за исключением того, что в колонке strand будут не + и -, а 1 и 0 (для прямой и обратной цепи соответственно).
(tail, cut, tr, sort, wc) Посчитайте, сколько уникальных координат (начала или конца участка генома) в файле FT. На выходе должно быть одно число.
Grep
(grep) Выведите все строчки файла /P/y25/term1/pr5.txt, которые содержат слово qwerty.
(grep, less) Выведите все строчки файла /P/y25/term1/pr5.txt, которые содержат слово qwerty в любом регистре букв. Посмотрите эти строки в less.
(grep, wc) Выведите все строчки файла /P/y25/term1/pr5.txt, которые начинаются на qwerty в любом регистре. Сколько таких строк? Как можно посчитать нужные строки с помощью только grep без wc?
(grep) Выведите все строчки файла /P/y25/term1/pr5.txt, которые заканчиваются на qwerty в любом регистре.
Выведите все строчки файла /P/y25/term1/pr5.txt, которые полностью равны qwerty (без учета регистра).
Из файла со скаченным геномом бактерии в формате fasta выведите только строки заголовков (они начинаются на >). Сколько в файле последовательностей "репликонов" (т.е. отдельных молекул ДНК: хромосом или плазмид)?
Более сложные упражнения.
(grep -e) Выведите все строчки файла /P/y25/term1/pr5.txt, которые либо начинаются на qwerty, либо заканчиваются на qwerty.
Выведите все строчки файла /P/y25/term1/pr5.txt, которые содержат "слово" 10$ (десять долларов без пробела).
Выведите все строчки файла /P/y25/term1/pr5.txt, которые содержат слово ^qwerty (именно со знаком крышечки).
Выведите все строчки файла /P/y25/term1/pr5.txt, которые заканчиваются на qwerty$ (да, с символом доллара на конце строки).