看啥推荐读物
专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
今天看啥  ›  专栏  ›  生信宝典

基因组中的趣事(二)- 最长的基因2.7 million,最短的基因只有8 nt却能编码

生信宝典  · 公众号  · 生物  · 2020-11-21 22:17
前面提到基因组中的趣事(一):这个基因编码98种转录本,现在看看其它还有什么没想到的?序列最长和最短的基因计算基因序列的长度,注意GTF中的位置是前闭后闭。awk 'BEGIN{OFS=FS="\t"}{if($3=="gene") {len1=$5-$4+1; print $10, $14, $18, len1;}}' GRCh38.tab.gtf | sort -k4,4nr | sed '1 i\ID\tGene\tType\tLength' >Gene_length查看最长和最短的3个基因head -n 4 Gene_length; tail -n 3 Gene_lengthID Gene Type LengthENSG00000078328 RBFOX1 protein_coding 2473539ENSG00000174469 CNTNAP2 protein_coding 2304997ENSG00000153707 PTPRD protein_coding 2298478ENSG00000236597 IGHD7-27 IG_D_gene 11ENSG00000237235 TRDD2 TR_D_gene 9ENSG00000223997 TRDD1 TR_D_gene 8可变剪接调控基因RBFOX1以2.7 million的长度超过之前文献报道的最长基因CNTNAP2 (智力语 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照