R语言 - 翔宇亭IT乐园

均匀分布及在R语言中的实现

本站 — 2020-07-18 13:25:48

均匀分布也称矩形分布，是最简单的一种连续型分布。一、均匀分布若随机变量X的概率密度函数为：则称X服从区间[a, b]上的均匀分布，记为X~U[a, b]。概率密度图像如下图所示：其分布函数为：分布函数是概率密度函数从负无穷到正无穷上的积分；在坐标轴上，概率密度函数的函数值y表示落在x点上的概率为y；分布函数的函数值y则表示x落在区间(-∞，+∞）上的概率。分布函数图像如下图所示：均匀分布的数学期望与方差分别为：二、R语言与均匀分布相关的函数在R中，unif是用来进行均匀分布分析的，在其前面加上不同的前缀表示...

R语言中使用箱线图检测数据的异常值并进行标注

本站 — 2020-07-14 18:28:58

箱线图概述箱线图又称箱形图或盒须图，主要从四分位数的角度来描述数据的分布。一个箱线图由上边缘线、上四分位数(QU)、中位数(me)，下四分位数(QL)和下边缘线组成。上、下四分位数之差称为四分位差，或内距或四分位数间距，记为IQR: IQR = QU - QL 箱线图中盒子的上、下线分别是上、下四分位数，盒子中间的线是中位数。由触须延长的上、下边缘线分别为：上边缘线的值 = QU + 1.5 IQR 下边缘线的值 = QL - 1.5 IQR 也有用数据的极大值和极小值来表示上下边缘线的值的（但使用这种表示上下边缘的方法无法检测异常值）。一个箱线图的形式如下图所示...

泊松分布及在R语言中的实现

本站 — 2020-07-01 07:33:37

泊松分布（Poisson Distribution）是一种离散型概率分布。泊松分布是描述某一特定时间或空间段内，某一事件发生的次数的分布。如机器每周发生故障的次数，某医院妇产科2小时内出生的婴儿个数，某服务台在某时间段内到达的顾客次数等。一、泊松分布律泊松（Poisson）分布的分布律为：其中，则称X服从参数为的泊松分布，记为或。这里的P即为等同区间内事件发生k次的概率； X：事件次数的变量； k:事件发生的次数，取值为0,1,2,3... λ：区间内事件发生的平均次数（数学期望）同时，显然有：二、泊松分布的数学期望与方差三、适用...

标准分数法检测数据的异常值及在R语言中的实现方法

biye5u.com — 2020-04-27 10:49:04

一、异常值的概念在数据处理与应用中（如训练机器学习算法或应用统计技术），错误值或异常值通常会造成测量误差或异常系统条件的结果。有时数据集中含有一个或多个异常大或者异常小的观测值，像这种极端的值被称为异常值。通常异常值产生的原因可能有：（1）观测、记录或录入时不正确；（2）测量值来自不同的总体；（3）测量值是正确的，但代表一个稀有或偶然的事件。二、异常值的判断之标准分数法目前有许多技术可以检测异常值，并且可以自主选择是否从数据集中删除。这篇文章首先介绍一下一维数据中检测异常值的一个方法：标准分数法。变量值与其平均数的差除以标准差的值称为标准分数，或称Z得分，公...

伯努利分布、二项分布及在R中的实现

biye5u.com — 2019-09-30 09:04:30

1、伯努利分布在我们实际生活中，许多事件发生的结果存在着非此即彼的现象，如抛硬币，正面朝上的结果不是“是”就是“否”，或“正”或“反”；出生婴儿的性别一般是“男”或“女”，抽奖的结果不是“中了”就是“没中”等。这些事件可以被称为伯努利实验。伯努利分布(Bernoulli distribution)又名两点分布或0-1分布。伯努利分布是一个离散型的随机分布，其中的随机变量只有两类取值。伯努利试验是单次随机试验，只有"成功（值为1）"或"失败（值为0）"这两种结果，是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。伯努利试验是只有两种可能结果的单次随机试验，...

R语言中grep函数的使用方法

biye5u.com — 2019-09-10 09:45:03

R语言中的grep函数可以在给定的字符串向量中搜索某个子字符串。其语法格式如下： grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes = FALSE, invert = FALSE) 各参数的含义如下：（1）pattern: 字符串类型，正则表达式，指定搜索模式，当将fixed参数设置为TRUE时，也可以是一个待搜索的字符串。（2）x : 字符串向量，用于被搜索的字符串。（3）ignore.case: 是否忽略大小写。为FALSE时，大小写敏感，...

方差分析中的交互效应图

biye5u.com — 2019-04-26 11:14:52

在进行双因素方差分析中，我们在考虑两个因素之间是否存在着交互作用时，我们还可以借助交互效应图来直观的进行判断。在图中，将某一因素（假设A）作为横轴，用另一因素（假设为B）各水平在目标问题（因变量）上的均值作为纵轴取值，并用线段依此将各点连接起来。 R语言中绘制交互效应图的函数在R语言中可以使用interaction.plot()函数来绘制交互作用图，该函数的原型如下： interaction.plot(x.factor, trace.factor, response, fun = mean, type = c("l", "p", "b", "o", "c"), legend = ...

使用R语言进行有交互作用的双因素方差分析

biye5u.com — 2019-04-21 08:35:09

在前面文章中介绍了双因素方差分析的相关知识以及无交互作用的双因素方差分析的相关理论，并给出了R语言的相关代码。本文将进一步介绍一下有交互作用的双因素方差分析方法，并在R中实现的基本方法。关于无交互作用的方差分析方法，可参见本站的文章：使用R语言进行无交互作用的双因素方差分析在实际中，两个因素往往对要研究的问题存在着交互影响，如适当的施肥量和降雨量对农作物的产量存在着交互影响。有交互作用的方差分析表如下图所示：为检验因素A的影响是否显著，采用统计量：为检验因素B的影响是否显著，采用统计量：为检验因素A、B交互效应的影响是否显著，采用统计量： R语言中进行...

使用R语言进行无交互作用的双因素方差分析

biye5u.com — 2019-04-03 08:42:48

双因素方差分析就是考虑两个因素的方差分析，两个因素可以称之为因素A和因素B，设因素A有r个水平A1，A2，...，Ar，因素B有s个水平B1，B2，...，Bs. 双因素方差分析有两种类型：一种是无交互作用的双因素方差分析，它假定因素A和因素B的效应之间是相互独立的，不存在相互关系；另一种是有交互作用的方差分析，它假定A、B两个因素不是独立的，而是相互起作用的，两个因素同时起作用的结果不是两个因素分别作用的简单相加，两者的结合会产生一个新的效应。这种效应的最典型的例子是，耕地深度和施肥量都会影响产量，但同时深耕和适当的施肥可能使产量成倍增加，这时，耕地深度和施肥量就存在交互作用。...

R语言中进行多重均值检验的方法

biye5u.com — 2019-03-28 19:58:01

本站在《使用R语言进行单因素方差分析》一文中介绍了在R语言中使用aov函数进行方差分析的方法，并给出具体的例子讲解了该函数的使用方法及其正态性检验和方差齐性检验的方法。在实际中，在进行单因素方差分析时，可能检验结果拒绝了零假设，即因素A的r个水平效应具有显著的差异，也就是说r个均值之间有显著区别。但这并不能说明r个均值之间都会存在这个显著差异，只能说明至少2个总体的均值有显著差异。那么，到底是哪些水平之间存在差异呢？我们需要对每两个水平间的均值做一一比较，即多重比较。同时比较任意两个水平均值间有无明显差异的问题称为多重比较。通常采用多重T检验方法进行多重比较，这种方法本质上就是针对每组数据...

使用R语言进行单因素方差分析

biye5u.com — 2019-03-27 08:36:02

1、方差分析的基本概念方差分析(Analysis of Variance, ANOVA),由英国统计学家费雪（Ronald Aylmer Fisher）于1920年前后提出，最初主要应用于生物和农业田间试验，后来推广到各个领域。它直接对多个总体的均值是否相等进行检验。方差分析能够解决多个均值是否相等的检验问题。方差分析是要检验各个水平的均值是否相等，采用的方法是比较各水平的方差。如研究不同的销售点（假设为5个）对销售量是否有有影响，可以收集不同销售点若干天的销售数据来进行研究，则实质上是看这些销售点在这些天中的平均销售量是否相同（或由显著差异）。所要检验的对象称为因素...

使用R语言进行线性相关分析

biye5u.com — 2019-03-13 10:46:04

一、相关分析相关理论 1、什么是相关关系相关分析（correlation analysis），从数量上分析现象之间相关关系的理论和方法。现象之间的关系可以分为确定关系和非确定性关系。确定性关系，可以说是函数关系，也就是说对于某一变量的每个数值都有另一变量的完全确定的值与之对应。非确定性关系，即这里所说的相关关系，现象之间存在一定的依存关系，但不是一一对应的关系，即相随变动关系。我们这里探讨的就是相关分析。 2、相关关系的分类这篇文章主要研究线性相关关系 3、相关分析的基本步骤（1）绘制散点图，初步判断两个变量之间是否存在某种（线性）有规律的变化；（2）...

使用R语言对两独立样本进行t检验

biye5u.com — 2019-03-06 18:25:54

1、什么是两独立样本t检验根据样本数据对两个样本来自的两个独立总体的均值是否有显著差异进行判断。 2、使用的前提条件（1）两个样本应该是相互独立的；（2）样本来自的两个总体应该服从正态分布。 3、问题描述设总体x1服从正态分布N(μ1，σ12)，总体x2服从正态分布N(μ2,σ22)，分别从两个总体中抽取两组样本：(X11,x12,...,x1m)和(x21,x22,...,x2n),且两个样本相互独立。则检验μ1和μ2是否有显著性差异。检验方法：（1）提出假设 H0：μ1 = μ2 H1：μ1 ...

使用R语言进行单样本t检验

biye5u.com — 2019-03-04 19:55:12

一、单样本t检验单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布，如总体标准差未知且样本容量小于30，那么样本平均数与总体平均数的离差统计量呈t分布。（--百度百科）在单样本的情况下，假设数据x1，x2，...,xn来自于服从N(μ,σ2)的独立随机变量。我们希望对假设μ=μ0进行检验。对n个均值为μ，标准差为σ的随机变量求平均值，使用均值的标准误（SEM，standard Error of the Mean)来描述这个均值的波动性，它的表达式是：SEM= σ/sqrt(n) ...

R语言中使用curve函数绘制常用函数曲线

biye5u.com — 2018-11-16 20:03:44

前面文章中介绍了使用plot函数绘制图形的方法。本文介绍一下使用R中curve函数绘制常见函数曲线的方法。 1、curve函数简介 curve函数语法格式如下： curve(expr, from = NULL, to = NULL, n = 101, add = FALSE, type = "l", xname = "x", xlab = xname, ylab = NULL, log = NULL, xlim = NULL, ...) 主要的参数如下： expr：函数名称或一个关于变量x的函数表达式； from，to：表示绘图的起止范围； n：一个整数值，表示x取值的数量； ...

在R语言中实现排列与组合

biye5u.com — 2018-11-12 17:16:38

所谓排列，就是指从给定个数的元素中取出指定个数的元素进行排序。组合则是指从给定个数的元素中仅仅取出指定个数的元素，不考虑排序。（摘自百度百科）一、定义与公式 1、排列的定义及公式从n个不同元素中，任取r（m≤r，r与n均为自然数，下同）个元素按照一定的顺序排成一列，叫做从n个不同元素中取出r个元素的一个排列；从n个不同元素中取出r(r≤n）个元素的所有排列的个数，叫做从n个不同元素中取出r个元素的排列数，用符号 p(n,r)表示。其公式为： 2、组合的定义及公式从n个不同元素中，任取r(r≤n）个元素并成一组，叫做从n个不同元素中取出r个元素的一个组合...

R语言中求解线性方程组的方法

biye5u.com — 2018-10-15 21:41:54

在本站上一篇文章中探讨了在R中求解一元方程的方法，本文将进一步探讨R中求解线性方程组的方法。设有n个未知数的m个方程的线性方程组：可以抽象成下列的形式： Am×n Xn×1 = bm×1 对于该方程组有唯一解的充分必要条件是R(A) = R(A, b) = n；有无限多解的充分必要条件是 R(A) = R(A, b) < n；无解的充分必要条件是 R(A) < R(A, b) 即：其有解的充分必要条件是R(A) = R(A, b) 当n=m时，方程为恰定方程组，则X = A-1b；当n...

R中求解一元方程的方法

biye5u.com — 2018-10-14 11:06:04

在R中可以使用uniroot函数来求解一元方程。 R中uniroot函数的语法形式如下： uniroot(f, interval, ..., lower = min(interval), upper = max(interval), f.lower = f(lower, ...), f.upper = f(upper, ...), extendInt = c("no", "yes", "downX", "upX"), check.conv = FALSE, tol = .Machine$double.eps^0.25, maxiter = 1000, trace = 0) ...

在R语言中实现简单随机抽样

biye5u.com — 2018-10-12 22:47:35

关于抽样的基本概念从总体中抽取样本的方法有很多种，比较常用的就是简单随机抽样。从容量为N的总体中随机抽取出容量为n的样本，每个样本被抽取到的可能性相等，则抽到的样本是一个容量为n的简单样本。如果每次抽取的样本不放回到总体中，一直抽取到n为止，则这种抽样称为无放回抽样。如果每次抽取到一个样本，做记录后，再将样本放回到总体，重复这个过程，直至抽满n个样本为止，则称这种抽样为有放回的抽样。 R语言中随机抽样函数sample简介在R语言中可以使用sample()函数模拟抽样，其语法格式如下： sample(x, size, replace = FALSE, prob = NULL)...

R语言中使用stem()函数绘制茎叶图

biye5u.com — 2018-09-02 15:03:33

茎叶图概述茎叶图（Stem-and-Leaf display)又称“枝叶图”，由统计学家约翰托奇( Arthur Bowley)设计，它的思路是将数组中的数按位数进行比较，将数的大小基本不变或变化不大的位作为一个主干（茎），将变化大的位的数作为分枝（叶），列在主干的后面，这样就可以清楚地看到每个主干后面的几个数，每个数具体是多少。茎叶图是一个与直方图相类似的特殊工具，但又与直方图不同，茎叶图保留原始资料的资讯，直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度，实际上就是一个直方图，可以从中统计出次数，计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分...

R语言中绘制箱线图

biye5u.com — 2018-08-16 09:19:59

箱线图箱线图或箱形图是由5个特征值绘制而成的图形，其有一个箱子和两条线段组成。5个特征值是变量的最大值、最小值、中位数、第一四分位数和第三四分位数。连接两个分位数画出一个箱子，箱子用中位数分割，把两个极值点与箱子用线条连接，即成箱线图。箱线图的形式如下图所示：图片来源于网络在R中绘制箱线图可以使用boxplot函数。 boxplot函数的基本用法为： boxplot(x, ...) 公式形式的用法 boxplot(formula, data = NULL, ..., subset, na.action = NULL, drop = FALSE, sep = "."...

R语言中绘制饼图

biye5u.com — 2018-08-15 17:48:38

饼图英文学名为Sector Graph, 又名Pie Graph。常用于统计学模块。饼图显示一个数据系列中各项的大小与各项总和的比例。也就是说我们想直观的看某一样本值在所有样本总值中所占的比例时，可以使用饼图来表示。在R语言中绘制饼图的函数为pie，其使用格式如下： pie(x, labels = names(x), edges = 200, radius = 0.8, clockwise = FALSE, init.angle = if(clockwise) 90 else 0, density = NULL, angle = 45, col = NULL, border = NU...

R语言中使用par()函数实现同时绘制多幅图

biye5u.com — 2018-08-14 21:49:14

在R绘图时，有时我们想在一个绘图区中同时绘制多幅图。这时，par()函数就派上用场了。当然实现同一绘图区绘制多个图形有多个方法，这里先介绍一下par()函数的使用。 R中的par()函数可以将绘图区分割成规则的几个部分。 par()函数的作用主要是查询或设置绘图环境的参数。这里主要考虑使用它如何在一个绘图区绘制多幅图的情况。多图环境用参数mfrow或参数mfcol来设定，如： par(mforw=c(3,2)) 则是在同一绘图区中绘制3行2列共6个图形，而且是先按行绘制，即绘制完第1行的2个图形后，再绘制第2行的2个图形，最后是第3行的2个图形。同理， par(mfcol=c...

R语言中条形图绘制函数及使用

biye5u.com — 2018-08-13 11:30:33

条形图（bar chart）是用宽度相同的条形的高度或长短来表示数据多少的图形。它主要用来展示不同分类(横轴)下某个数值型变量(纵轴)的取值。条形图横轴上的数据是离散而非连续的。条形图可以横置或纵置。在实际中，条形图主要有简单条形图，组合条形图和堆叠条形图。在R语言的基础包中可以使用barplot()函数来绘制条形图。 R语言中barplot()函数的基本语法格式如下： barplot(height, width = 1, space = NULL, names.arg = NULL, legend.text = NULL, beside = FALSE, horiz = FA...

R语言中使用text()函数给绘图添加文字

biye5u.com — 2018-08-10 22:45:19

R语言中text()函数同abline()函数，lines()函数一样属于低水平函数，即在已有绘图中添加相关图形。 text()函数的作用是在给定的x和y坐标的位置添加字符串。 text()函数的默认使用格式如下： text(x, y = NULL, labels = seq_along(x$x), adj = NULL, pos = NULL, offset = 0.5, vfont = NULL, cex = 1, col = NULL, font = NULL, ...) 其中， x和y为数值型向量，即要书写字符串的位置坐标。如果，x和y向量的长度不同，则短的将会被循环使用...

R语言中使用lines函数绘制直线

biye5u.com — 2018-08-09 19:34:36

在上一篇文章中介绍了abline()函数的使用方法。abline函数主要在当前图中添加一条直线，该直线可以通过给定截距和斜率，或者垂直于横轴或纵轴的向量，或者是回归对象等。 lines()函数也是一个低水平绘图函数。它主要是在当前绘图中通过线段依次将点连接起来。其语法格式为： lines(x, ...) 默认格式为： lines(x, y = NULL, type = "l", ...) x, y是数值向量，表示点的坐标。 type字符串，表示绘图类型。默认为划线。 ...为附加参数，如线型，线的颜色等等。下面举例说明，本例统计了一周当中，工作日和非工作日下午1点到8点的...

R中使用abline函数在当前图中添加直线

biye5u.com — 2018-08-06 11:09:43

在R语言中，使用abline()函数可以在当前绘图中添加一条或多条直线。在绘图中可以设置的参数一般包括：直线的截距（a），直线的斜率（b），水平线的纵轴取值（h）、垂直线的横轴取值（v）等。 abline()函数的使用格式为： abline(a = NULL, b = NULL, h = NULL, v = NULL, reg = NULL, coef = NULL, untf = FALSE, ...) 各参数的含义为：（1）a 要绘制的直线截距（2）b 直线的斜率（3）h 会水平线时的纵轴值（4）v 画垂直线时的横轴值（5）reg 是一个具有coef方法的回...

R中计算方差与标准差

biye5u.com — 2018-08-02 22:25:07

1、概述描述样本值的离散程度，最常用的指标是方差和标准差，它们与前面所说的全距（极差）只使用了两个极值情况不同，它们利用了样本的全部信息去描述数据取值的分散性。 2、计算方差的公式方差是各样本相对均值的偏差平方和的平均。使用s2来表示，其公式如下：当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。 3、计算标准差的公式样本方差的开方称为样本标准差，记为s，其计算公式如下：标准差越大，数据的离散程度越大，...

R语言中计算一组数据全距的方法

biye5u.com — 2018-08-02 00:09:04

1、全距全距是统计学中离散指标的测度之一。全距就是变量的最大值(xmax)与最小值(xmin)之差，也叫极差，表明变量的最大变动范围或绝对幅度。全距通常用R表示，即： R = xmax - xmin 全距一般只根据未分组数据或单项式数列计算。全距是测定变量分布离中趋势最简单的方法，在实际中有较多的应用。如天气预报中的最高温度与最低温度的温差；股票市场中某股票每天的最高成交价与最低成交价之间的价差等。全距只考虑了两个极端变量值之间的差距，没有利用全距变量值的信息，没有考虑变量中间分布的情况，所以不能充分反映全部变量值之间的实际差异程度，因此在应用中有一定的局限性。 2、...

使用R语言绘制散点图

biye5u.com — 2018-07-29 22:39:12

在R语言中可以使用plot函数绘制简单的散点图，在前面的一篇文章中，已经给出了plot函数的具体使用方法（参见R语言中plot函数的使用），在该文章中也给出了绘制散点图的方法。在这里，再给出一个例子，单独来介绍散点图的使用。散点图（scatter diagram）是对两个数量变量间关系的图形表述。某商店在过去三个月内10次利用周末电视广告来促销。管理人员想证实广告播放次数和下一周商店销售额之间是否存在关系。具体数值见下表：（案例来自Statistics for business and economics,11th Edition,作者：David R. Anderson,Dennis...

R语言中计算几何平均数

biye5u.com — 2018-07-21 09:14:53

几何平均数是n个变量值连乘积的n次方根。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时，求各阶段、各环节的一般水平、一般成果，要使用几何平均法计算几何平均数。其特点包括：（1）几何平均数受极端值的影响较算术平均数小；（2）如果变量值有负值，计算出的几何平均数就会成为负数或虚数；（3）它仅适用于具有等比或近似等比关系的数据；（4）几何平均数的对数是各变量值对数的算术平均数。要注意的是变量数列中任何一个变量值不能为0，一个为0，则几何平均数为0。几何平均数要求各观察值之间存在连乘积关系，它的主要用途是：（1）对比率、指数等进行平均；（2）计...

在R中计算加权平均数

biye5u.com — 2018-07-19 23:43:16

对分组的数据可以计算加权平均数（或称为加权平均值）。在计算加权平均数时，先将每组的变量分别乘以各自的频数，然后再除以总次数（或总频数），其计算公式为：其中,xi为变量,fi为xi出现的次数或频数，n为总次数（或总频数）,n = f1 + f2 + ... + fk fi也称之为xi的权. 在R中，使用weighted.mean()函数来计算加权平均数，其使用格式为： weighted.mean(x, w, ..., na.rm = FALSE) 参数x为表示数据的向量，w为向量，是对应x各分量的权重。（1）使用举例如下：某幼儿园共有儿童458名，其中3岁至6岁儿童的人数...

统计中集中趋势的分析及在R语言中的计算

biye5u.com — 2018-07-11 13:25:59

集中趋势是指一组数据向某一中心值靠拢或集中的程度。主要包括平均值、众数、中位数和分位数。先普及一下几个概念：（1）总体在数理统计中，我们把研究对象的全体元素构成的集合称为总体（或母体），而把组成总体的每个元素称为个体。如果总体包含有限个个体，则称为有限总体（或具体总体）。如果总体包含无限个个体，则称为无限总体（或抽象总体）。（2）样本把从总体X中随机抽检（或观察）n个个体的试验，称为随机抽样，简称抽样，n称为容量。（3）样本均值设X1, X2, ..., Xn是总体X中的一个样本，则统计量（4）一组数据中出现次数最多的观测值叫做众数，用M0表示。众数测度数据...

向量的内积及在R语言中的计算方法

biye5u.com — 2018-07-09 20:29:01

本文介绍向量的内积的含义及在R语言中计算向量内积的方法。 1、内积的定义向量的内积也称为点乘，或数量积，对两个向量执行内积运算，就是对这两个向量对应元素位一一相乘之后求和的操作，内积的结果是一个标量。设有向量：向量a和b的内积为：从内积公式可以看出：两个向量的维数应该相同，同时,在1维情况下，a和b的内积与b和a的内积结果是相同的。 2、R语言中的内积运算 R语言中进行内积运算可以使用X%*%Y来进行或crossprod()函数进行计算。（1）一维向量的内积运算 x<-1:5 y<-3:7 x %*% y 结果如下：（2）在R中，矩阵也可以进...

用R语言绘制直方图——hist函数

biye5u.com — 2018-07-08 10:58:34

直方图(Histogram)又称柱状图，是一种统计报告图，由一系列高度不等的纵条纹或线段表示的数据分布情况。可以使用直方图估计数据的概率分布情况。在R语言中，可以使用hist()函数来绘制直方图。其使用的格式为： hist(x, breaks = "Sturges", freq = NULL, probability = !freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste("Histogram of" , ...

R语言中plot函数的使用

biye5u.com — 2018-07-07 11:05:52

R有强大的绘图功能，R提供的绘图函数可以分为三种基本类型：高水平绘图函数、低水平绘图函数和交互式绘图函数。高水平绘图函数是一类能够直接创建图形的函数，该类函数可以自动生成坐标轴、坐标刻度、标题等元素。在高水平绘图函数中，plot()函数是一种常用的绘图函数，用其可以绘制散点图、曲线图等。 R语言中plot()函数的基本格式如下： plot(x,y,...) plot函数中，x和y分别表示所绘图形的横坐标和纵坐标；函数中的...为附加的参数。 plot函数默认的使用格式如下： plot(x, y = NULL, type = "p", xlim = NULL, ylim =...

R语言中向量的四则运算

biye5u.com — 2018-03-06 08:37:17

在本站中，曾经详细介绍了R语言中向量的创建、向量的引用、向量的修改等方法（详见：R语言中向量的使用）。本文将进一步的探讨一下向量的运算。 1、向量的四则运算向量的四则运算包括加（+）、减（-）、乘（*）和除（/），除此之外还有乘方（^）。向量的四则运算是对向量的每一个元素做相应的运算。下面举几个例子 > x<-c(-2,0,3) > y<-c(3,8,4) > r<-2*x+y-1 > r [1] -2 7 9 > v<-x*y > v [1] -6 0 12 > k<-x/y > k [1] -0.6666667 0.0000000 0.7500000 ...

R语言中使用自定义函数

biye5u.com — 2018-01-29 11:45:10

R语言中提供了大量的内置函数为用户解决有关问题，同时，R语言中允许用户编写自己的函数来解决实际问题。 R语言中定义自己的函数语法格式： functionname <- function( arglist ) expr return (value) 上面的语法中，functionname为自己定义的函数名称；arglist是函数的参数列表，可以没有参数，也可以有1个到多个参数；expr是自己编写的相关语句；value是返回值，如没有返回值，可以不写return部分。编写函数时可以使用R编辑器的程序脚本功能来编写：在R软件中选择菜单“文件”—>"新建程序脚本"，打开“R编辑...

R语言break语句用法

biye5u.com — 2018-01-11 20:04:50

在R语言中，break语句主要用于循环语句中跳出循环体（for，while，repeat）。在多重循环中，break语句只跳出包含break语句的最近的循环。下面举几个例子：例子1：找出向量中第一个大于N的数，并输出其所在的位置。 N<-5 index<-0 v<-c(1,-4,3,7,2,9,11) for(i in v) { index<-index+1 if(i > 5) break } print(paste0("第一个大于5的数为：",i,",其位置为：",index)) 上面程序输出的结果为：第一个大于5的数为：7,其位置为：4 例子2：判...

R语言中next语句的使用方法

biye5u.com — 2018-01-02 15:02:34

在R语言中，next语句用于循环中跳过某一次循环。其类似于C#、java或C/C++中的continue语句. 其执行过程为：当在循环体中满足某个条件时，执行next语句，则结束本次循环，next后面的语句不再执行，进而执行下次循环。先举个例子：输出向量中的奇数。 vec<-c(11,123,26,38,29,81) for(el in vec) { if(el %% 2 ==0) next print(el) } 以上程序段中使用for循环找出向量vec中的奇数，并将其打印出来。循环中，每次在vec中取一个元素放在变量el中，如果其能够被2整除，说明其是偶数，...

R语言中repeat循环的使用

biye5u.com — 2017-12-30 11:59:13

R语言中循环控制语句主要包括三种：for循环、while循环和repeat循环。三种循环可以根据实际情况灵活使用。 repeat循环控制的语法格式如下： repeat { 循环语句 } repeat循环是无条件循环，它的退出要在循环语句中进行控制。在循环语句中，当满足某个条件时，可以使用break跳出循环体。到repeat循环后面的第一个语句开始执行。下面举几个例子来说明repeat循环的使用方法：举例1：求1~100所有整数和 i <- 1 sum <- 0 repeat { sum = sum + i if( i >= 100) #如果已循环加...

R语言中while循环的使用

biye5u.com — 2017-12-27 08:51:47

while循环在其它高级语言（如C、C++、C#、Java）中，被称为“当”型循环。即当条件为真时，执行循环体中的相关语句。在R语言中，while循环与之相同。在R语言中，while循环的语法格式如下： while(cond){expr} 其中，cond是一个条件表达式，其值应为TRUE或FALSE；expr是当cond条件为TRUE时要执行的表达式或若干语句。当cond为TRUE时，要反复执行expr，否则停止循环，进入while循环后面的其它语句中去执行。下面举几个例子：举例1：使用while循环输出向量中的元素 x <- c(11,12,13,14,15) i <...

R语言中循环语句for循环的运用

biye5u.com — 2017-12-23 08:09:12

循环语句是指在一定条件下，反复执行相同的语句。这里的条件是循环条件，相同的语句是循环体。在R语言中，循环语句主要有for循环、while循环和repeat循环三种。本文首先介绍一下for循环的使用，在接下来的两篇文章中探讨while循环和repeat循环的使用。 for循环的与法格式为： for(var in seq) { expr } 其中，var为循环变量；seq为向量表达式，通常是一个序列。其执行过程是，每次从序列seq中取一个值放到var中，在循环体expr中进行使用。举例1：输出序列的值 for(n in 1:10) print(n) 此例输...

R语言中switch()函数的使用

biye5u.com — 2017-12-22 17:56:31

在R语言中，switch()函数是多分支结构，其使用方法如下： switch(expr, list) expr为表达式，其值或为一个整数值或为一个字符串。 list为一个列表。其运行机理为：如果expr的计算结果为整数，且值在1~length(list)之间时，则switch()函数返回列表相应位置的值。如果expr的值超出范围，则没有返回值（老版本的R中返回NULL）。举例1： x<-2 switch(x, "翔宇亭IT乐园", "R语言学习", "翔宇亭IT乐园欢迎你来") 举例2： switch(3, 3+5, 3*5, 3-5, 3**5) 举例3： sw...

R语言中ifelse()函数

biye5u.com — 2017-12-21 20:53:31

在R语言中，ifelse()函数可以认为是紧凑的if...else结构。其基本语法格式如下： if(con,statement1,statement2) con是逻辑条件，当逻辑条件的值为TRUE时，则输出statement1的值，否则输出statement2的值。举例1： x<-3 y<-ifelse(x>0, 2*x-1, 2*x) #含义是如果x是个大于0的值，则输出值为2*x-1的计算值，否则为2*x的计算值。举例2： x<-c(1,0,1,0,1,1,0,0) y<-ifelse(x != 0, 0, 1) #如果向量x中的元素值不是0的话，就输出0，否则...

R语言中if结构的使用

biye5u.com — 2017-12-05 12:21:26

与其它高级语言类似，R中也有自己的控制结构，主要包括分支结构和循环结构。灵活使用R的控制结构可以帮助我们处理更加复杂的数据分析任务。本文首先探讨R中分支结构的if...else结构。 if/else分支结构主要用于两种分支情况下，主要使用格式有三种情况：（1）只有一个if的结构 if(cond) {expr} 即当括弧中的cond条件为TRUE时，则执行表达式expr，否则跳过后执行其后的语句。（2）if...else结构 if(cond) {cons.expr} else {alt.expr} 即条件cond为TRUE时，则执行表达式cons.expr，否则执行alt....

R语言中使用read.table()函数读取文件中的数据

biye5u.com — 2017-12-03 20:44:25

在R中，可以使用read.table()函数方便的读取具有多列表格形式的文件数据。文件中的数据一般情况，行对应的是样本，列（字段）对应着相应的变量。读取的数据将组织成数据框的结构。具体形式和参数解释可以参考本站中的这篇文章：R语言中read.table()函数用法详解。本文主要给出一些具体的使用形式。 read.table()函数对于数据文件的扩展名并没有要求。只要数据组织时是按照行和列的形式进行组织，且每个字段的数据以某种形式（如空白、逗号等）进行分隔即可。如下面两个图所示的文件格式都可以，甚至是使用其他分隔符分隔的也可以。图1 数据文件以空白（tab）进行分隔的形式（...

R语言中read.table()函数用法详解

本站 — 2017-11-03 09:25:31

在R语言中使用read.table()函数读取矩形表格数据是非常方便的。 read.table()函数的用法如下： read.table(file, header = FALSE, sep = "", quote = "\"'", dec = ".", numerals = c("allow.loss", "warn.loss", "no.loss"), row.names, col.names, as.is = !stringsAsFactors, na.strings = "NA", colClasses = NA, nrows = -1, skip = 0, check.na...

R语言中使用scan()函数读取文件中的数据

本站 — 2017-10-29 06:55:03

在R语言中可以使用scan()函数从文件中获取数据或从键盘中直接获取用户输入的数据，其语法格式可以参见《R语言中scan()函数参数详解》。这里主要探讨一下从文件中获取数据的方法。 1、从文本文件中读取数据假设在R的当前工作目录中有一个文件：student.txt，其存储的数据如下所示：每个数据以空白分隔。（1）scan("student.txt", what="c") #以字符串的格式读取数据（2）scan("student.txt", what="c", nlines=3) #读取3行（3）scan("student.txt", what="c", skip=...

R语言中使用scan()函数输入数据

本站 — 2017-10-27 21:07:55

在R语言中，可以使用scan()函数从键盘中获取数据。scan()函数的语法格式可以参见《R语言中scan()函数参数详解》。 1、直接输入数据输入数据时，可以每次输完一个数据后换行，也可以以空格作为分隔符输入数据。（1）每行一个数据 scan() 1: 11 2: 12 3: 13 4: Read 3 items [1] 11 12 13 （2）以空格作为数据的分隔符 scan() 1: 11 12 13 4: Read 3 items [1] 11 12 13 （3）可以每行的数据量不同 scan() 1: 11 12 3: 13 4: Re...

R语言中scan()函数参数详解

本站 — 2017-10-23 20:56:32

在R语言中可以使用scan()函数从键盘或文件中读取数据到向量或列表中。 scan()函数的语法格式如下： scan(file = "", what = double(0), nmax = -1, n = -1, sep = "", quote = if(identical(sep, "\n")) "" else "'\"", dec = ".", skip = 0, nlines = 0, na.strings = "NA", flush = FALSE, fill = FALSE, strip.white = FALSE, quiet = FALSE, blank.lines.skip...

R语言中数据对象之数据框的使用

本站 — 2017-10-12 15:18:26

在R语言中，数据框（Dataframe）是一个非常重要的数据结构，其组织数据的结构与矩阵相似，但是其各列的数据类型可以不相同。一般情况，数据框的每列是一个变量，每行是一个观测样本。虽然，数据框内不同的列可以是不同的数据模式，但是数据框内每列的长度必须相同。 1、创建数据框在R语言中，数据框使用data.frame()函数来创建，其格式如下： data.frame(col1,col2,..., row.name=NULL, check.rows = FALSE,check.names=TRUE,stringsAsFactors = default.stringsAsFactors()...

R语言中因子的创建与管理

本站 — 2017-10-10 14:05:43

因子在R语言中可以用来表示名义型变量或有序变量。在统计学中，变量可以分为：区间变量，名义变量和有序变量。区间变量即可以取连续值的变量，如体重，身高，温度等等。名义变量一般表示类别，如性别，种族等等。有序变量是有一定排序顺序的变量，如职称，年级等等。在R语言中，名义变量和有序变量可以使用因子来表示。 1、因子的创建在R语言中可以使用factor()函数和gl()函数来创建因子变量。（1）使用factor()函数函数factor()以一个整数向量的形式存储类别值，整数的取值范围是[1... k ]（其中k 是名义型变量中唯一值的个数），同时一个由字符串（原始值）组...

R语言中列表对象的使用

本站 — 2017-10-06 15:03:20

在R语言中，向量、矩阵和数组的元素要求必须是同一类型的数据。在使用过程中，可能一个数据对象需要保存不同类型的数据，则可以使用列表(list)来实现。列表是对象的集合，可以包含向量、矩阵、数组，数据框，甚至是另外一个列表，且在列表中要求每一个成分都要有一个名称。列表中的对象又称为它的分量（components）。 1、创建列表在R语言中可以使用list()函数来创建列表，其语法格式为： list(name1=object1, name2 = object2,...) 下面举几个例子来说明R语言中创建列表的方法： list1 <- list(studentName=c("小明"...

R语言中数组对象的使用

本站 — 2017-10-06 13:33:16

在学习了R语言的向量和矩阵之后，本文将详细介绍R语言中的另外一个数据对象——数组。在R语言中，可以认为数组是矩阵的扩展，它将矩阵扩展到2维以上。如果给定的数组是1维的则相当于向量，2维的相当于矩阵。 R语言中的数组元素的类型也是单一的，可以是数值型，逻辑型，字符型或复数型等。 1、数组的创建在R语言中，数组使用array()函数创建。array()函数的原型如下： array( data = NA, dim = length(data),dimnames = NULL) 参数中，data为创建数组的元素；dim为数组的维数，是数值型向量；dimnam...

R语言中矩阵的使用

本站 — 2017-10-05 18:01:33

在R语言中，矩阵（matrix）是将数据按行和列组织数据的一种数据对象，相当于二维数组，可以用于描述二维的数据。与向量相似，矩阵的每个元素都拥有相同的数据类型。通常用列来表示来自不同变量的数据，用行来表示相同的数据。 1、R语言中矩阵的创建在R语言中可以使用matrix()函数来创建矩阵，其语法格式如下： matrix(data=NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL) 参数含义如下： data：矩阵的元素，默认为NA，即未给出元素值的话，各项为NA nrow：矩阵的行数，默认为1； ncol：矩阵的列数，默...

R语言中向量的使用

本站 — 2017-10-05 10:27:28

在《R语言的数据对象》一文中提到，R语言的数据对象从结构角度划分，可以分为向量、数组、矩阵、因子、列表和数据框6种。本文首先探讨一下R语言中向量的使用方法。在R语言中，向量（Vector）是相同基本类型元素组成的序列，相当于一维数组。向量的元素可以是数值型、字符型、逻辑值型和复数型，对应分别称为数值型向量、字符串型向量、逻辑型向量和复数型向量。向量中可以包含一个元素，也可以包含多个元素。同一个向量中的数据类型应该相同。 1、向量的创建（1）直接创建 x1<-1:10 #输出：[1] 1 2 3 4 5 6 7 8 9 10 x2<-4.3 #只包含一个值的向量 x3...

R语言的数据对象

佚名 — 2017-09-29 16:22:12

R语言的数据对象可以从两个角度进行划分。 1、从存储角度划分R对象可以划分为数值型、字符串型、逻辑型、复数型、raw型和缺省值。（1）数值类型（numeric）可以是整数、小数、科学计数的方式。默认为双精度型数据。（2）字符型（character）以双引号或单引号夹起来的数据，如"biye5u.com"。（3）逻辑型（logical）只有TRUE和FALSE两种值。（4）复数型（complex）形如a + bi的数据。（5）raw数据二进制形式保存的数据。（6）缺省值（missing value） NA（not available）或者nu...

R的下载与安装

本站 — 2017-09-04 12:25:57

R软件可以通过其站点www.r-project.org免费下载。网站的主页如下图1所示。图1 R主页的内容主要包括R简介，R的最新动态以及R网站的内容导航。 R软件及相关包的下载可以在CRAN镜像页选择相应的镜像地址下载。为确保不同地区的R用户能够顺畅的下载到R系统，在全球很多国家设立了镜像站点。当前提供的镜像站点网页网址为： https://cran.r-project.org/mirrors.html 具体界面形式可以如图2所示：图2 我们从中可以选择R在中国的镜像站点，当前提供的中国大陆的下载站点主要包括清华大学、中国科技大学、兰州大学。点击其中一个中国...

R语言与R软件概述

佚名 — 2017-09-02 17:54:02

R语言是用于统计分析，绘图的语言和操作环境。其前身是1976年美国贝尔实验室开发的S语言。20世纪90年代，R语言正式问世，因两名主要研发者Ross Ihaka和Robert Gentleman姓名首字母均为R而得名。现在由R语言开发核心团队开发和维护。R语言是基于S语言的一个GNU项目，所以也可以当做S语言的一种实现，通常用S语言编写的代码都可以不做修改的在R环境下运行。 R语言的核心是解释计算机语言，其允许分支和循环以及使用函数的模块化编程。 R语言允许与以C，C++，.Net，Python或FORTRAN语言编写的过程集成以提高效率。 R语言在GNU通用公共许可证下免费提供，并为各种...