图 1:工作流程概述—使用 R 发现差异表达基因,然后在交 显示针对目标基因产物的化 互式视图中显示。随后,根据基因的表达模式对其进行分层聚类,结果通过树状图和热图显示。然后,我们进行通路富集分析,寻找针对目标基因产物的化合物。
用户可以选择包含有和没有目标疾病的样本(分别为阳性和对照)的 RNA-Seq 数据的文件。然后,这些数据将在 R Snippet 中用于查找差异表达基因。用户可以研究这些基因,并根据基因表达分析的统计数据选择目标基因。然后,我们根据相似的表达谱对基因进行聚类,并研究它们的生物学途径。在最后一步中,我们搜索针对所选基因产物的化合物。
输入数据
如上一节所述,今天的示例使用来自口腔鳞状细胞癌患者 海外数据 的正常细胞和肿瘤细胞的 RNA-Seq 数据。[2] 生成该数据的标准程序包括以下步骤:将细胞的 RNA 逆转录为 cDNA,然后使用大规模并行测序进行测序,从而产生短序列读取。随后,将这些读取映射回参考基因 机会 让我们谈谈博客 以及潜在 组以识别它们的来源基因。这会导致基因中每个位置的计数代表基因产物的数量。在我们的数据集中,收集了 10,542 个基因的读取计数。
寻找差异表达基因
这种分析平台的优势之一在于其 对其他工具的开放性。这样 础设 新加坡电话列表 施的混 您就可以轻松利用这些工具(例如 R)及其所有库的强大功能。在今天的案例中,我们希望利用常用的 R 库进行 RNA-seq 表达谱的差异表达分析: 边缘. [3] EdgeR 实现了一系列统计方法,包括基于广义线性模型(GLM)的似然检验。