前面提到基因组中的趣事(一):这个基因编码98种转录本,现在看看其它还有什么没想到的?序列最长和最短的基因计算基因序列的长度,注意GTF中的位置是前闭后闭。awk 'BEGIN{OFS=FS="\t"}{if($3=="gene") {len1=$5-$4+1; print $10, $14, $18, len1;}}' GRCh38.tab.gtf | sort -k4,4nr | sed '1 i\ID\tGene\tType\tLength' >Gene_length查看最长和最短的3个基因head -n 4 Gene_length; tail -n 3 Gene_lengthID Gene Type LengthENSG00000078328 RBFOX1 protein_coding 2473539ENSG00000174469 CNTNAP2 protein_coding 2304997ENSG00000153707 PTPRD protein_coding 2298478ENSG00000236597 IGHD7-27 IG_D_gene 11ENSG00000237235 TRDD2 TR_D_gene 9ENSG00000223997 TRDD1 TR_D_gene 8可变剪接调控基因RBFOX1以2.7 million的长度超过之前文献报道的最长基因CNTNAP2 (智力语
………………………………