看啥推荐读物
专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
今天看啥  ›  专栏  ›  生信宝典

机器学习算法-随机森林初探(1)

生信宝典  · 公众号  · 生物  · 2021-01-26 23:34
机器学习算法-随机森林之理论概述表达数据集来源于 https://file.biolab.si/biolab/supp/bi-cancer/projections/。为了展示随机森林的能力,我们用一套早期的淋巴瘤基因表达芯片数据集,包含77个样品,2个分组和7070个变量。读入数据expr_file metadata_file # 每个基因表达值是内部比较,只要是样品之间标准化的数据即可,其它什么转换都关系不大expr_mat metadata dim(expr_mat)## [1] 7070 77基因表达表expr_mat[1:4,1:5]## DLBCL_1 DLBCL_2 DLBCL_3 DLBCL_4 DLBCL_5## A28102 -1 25 73 267 16## AB000114_at -45 -17 91 41 24## AB000115_at 176 531 257 202 187## AB000220_at 97 353 80 138 39Metadata表head(metadata)## class## DLBCL_1 DLBCL## DLBCL_2 DLBCL## DLBCL_3 DLBCL## DLBCL_4 DLBCL## ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照