Data Refinery 中的交互式代码模板 (Data Refinery)
Data Refinery 提供有交互式模板,供您编码操作、函数和逻辑运算符。 请从页面顶部的命令行文本框访问这些模板。 这些模板随附交互式帮助,可帮助您使用语法选项。
重要信息
支持用户界面中的操作和功能。 如果从开放式源代码库插入其他操作或函数,那么 Data Refinery 流程会可能失败。 请参阅命令行帮助,确保使用模板中的操作或函数列表。 使用模板中的示例根据需要进一步定制语法。
运算
arrange
排列 (`<column>`)
按指定列以升序对行进行排序。
排列 (desc (`<column>`))
按指定列按降序对行排序。
排列 ("<column>" , "<column>")
按每个指定的连续列按升序对行进行排序,使先前排序的顺序保持不变。
计数
count ()
按组列出的数据总数。
count (`<column>`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回每个组的总计 (对于数字值)。
count (`<column>` , wt= `<column>`)
按指定列对数据进行分组,并返回具有唯一值的行数 (对于字符串值) 或返回指定权重列中每个组 (对于数字值) 的总计。
count (`<column>` , wt=<func>(`<column>`))
按指定列对数据分组,并返回应用于指定权重列的函数的结果。
count (`<column>` , wt=<func>(`<column>`) , sort = <logical>)
按指定列对数据进行分组,并返回应用于指定权重列的函数的结果 (已排序或未排序)。
不同的
distinct ()
根据所有列或指定的列保留不同的唯一行。
过滤器
filter (`<column>` <logicalOperator> provide_value)
保留符合指定条件的行并过滤掉所有其他行。
对于布尔列类型,provide_value 应该是大写的 TRUE 或 FALSE。
filter (`<column>` == <logical>)
根据逻辑值 TRUE 或 FALSE 保留符合指定过滤条件的行。
filter (<func>(`<column>`) <logicalOperator> provide_value)
保留满足指定条件的行并过滤掉所有其他行。 该条件可以将一个函数应用于运算符左侧的列。
filter (`<column>` <logicalOperator> <func(column)>)
保留符合指定条件的行并过滤掉所有其他行。 该条件可以将一个函数应用于运算符右侧的列。
filter (<logicalfunc(column)>)
保留符合指定条件的行,并过滤掉所有其他行。 该条件可以将一个逻辑函数应用于某一列。
filter (`<column>` <logicalOperator> provide_value <andor> `<column>` <logicalOperator> provide_value)
保留符合指定条件的行并过滤掉所有其他行。
group_by
group_by (`<column>`)
根据指定的列对数据进行分组。
group_by (desc (`<column>`))
根据指定列按降序对数据进行分组。
mutate
mutate (provide_new_column = `<column>`)
添加新列并保留现有列。
mutate (provide_new_column = <func(column)>)
使用指定的表达式添加新列,这会将函数应用于列。 保留现有的列。
mutate (provide_new_column = case_when (`<column>` <operator> provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , `<column>` <operator> provide_value_or_column_to_Compare ~ provide_value_or_column_to_replace , TRUE ~ provide_default_value_or_column))
使用指定的条件表达式添加新列。
mutate (provide_new_column = `<column>` <operator> `<column>`)
使用指定的表达式添加新列,这将对现有列执行计算。 保留现有的列。
mutate (provide_new_column = coalesce (`<column>` , `<column>`))
使用指定的表达式添加新列,这会将新列中的缺失值替换为另一个指定列中的值。 作为替代指定另一列的方法,您可指定一个值、要对某一列执行的函数或者要对某个值执行的函数。 保留现有的列。
mutate (provide_new_column = if_else (`<column>` <logicalOperator> provide_value , provide_value_for_true , provide_value_for_false))
使用指定的条件表达式添加新列。 保留现有的列。
mutate (provide_new_column = `<column>` , provide_new_column = `<column>`)
添加多个新列并保留现有列。
mutate (provide_new_column = n ())
对组中的值进行计数。 请确保已使用 group_by 进行分组。 保留现有的列。
mutate_all
mutate_all (funs (<func>))
将指定的函数应用于所有列,并覆盖这些列中的现有值。 请指定是否移除缺失值。
mutate_all (funs (. <operator> provide_value))
将指定的运算符应用于所有列,并覆盖这些列中的现有值。
mutate_all (funs ("provide_value" =。 <operator> provide_value)
将指定的运算符应用于所有列,并创建新列以保存结果。 对于新列,赋予以指定值结尾的名称。
mutate_at
mutate_at (vars (`<column>`) , funs (<func>))
将函数应用于指定的列。
mutate_if
mutate_if (<predicateFunc>, <func>)
将函数应用于满足指定条件的列。
mutate_if (<predicateFunc>, funs (. <operator> provide_value)
将指定的运算符应用于满足指定条件的列。
mutate_if (<predicateFunc>, funs (<func>))
将函数应用于满足指定条件的列。 请指定是否移除缺失值。
rename
rename (provide_new_column = `<column>`)
重命名指定的列。
sample_frac
sample_frac (provide_number_between_0_and_1, weight= `<column>` , replace=<logical>)
根据数据百分比生成随机样本。 weight 是可选的,它是该行将被选中的概率比。 请提供一个数字列。 replace 是可选的,其缺省值为 FALSE。
sample_n
sample_n (provide_number_of_rows , weight = `<column>` , replace=<logical>)
根据多行生成随机数据样本。 weight 是可选的,它是该行将被选中的概率比。 请提供一个数字列。 replace 是可选的,其缺省值为 FALSE。
选择
select (`<column>`)
保留指定的列。
select (-`<column>`)
除去指定的列。
select (starts_with ("provide_text_value"))
保留名称以指定值开头的列。
select (ends_with ("provide_text_value"))
保留名称以指定值结尾的列。
select (包含 ("provide_text_value"))
保留名称包含指定值的列。
select (匹配 ("provide_text_value"))
保留名称与指定值匹配的列。 指定的值可以是文本或正则表达式。
select (`<column>`: `<column>`)
将列保留在指定范围内。 请将范围指定为一列到另一列。
select (`<column>` , all ())
保留所有列,但使指定的列成为第一列。
select (`<column>` , `<column>`)
保留指定的列。
select_if
select_if(<predicateFunc>)
保留满足指定条件的列。 受支持的函数包括:
- 包含
- ends_with
- 匹配
- num_range
- starts_with
summarize
summarize (provide_new_column = <func>(`<column>`))
将聚集函数应用于指定的列,以将多个列值减少到单个值。 请确保先使用 group_by 操作将列数据分组。
summarize_all
summarize_all (<func>)
将聚集函数应用于所有列,以将多个列值减少为单个值。 请指定是否移除缺失值。 请确保先使用 group_by 操作将列数据分组。
summarize_all (funs (<func>))
将多个聚集函数应用于所有列,以将多个列值减少到单个值。 创建新列以保存结果。 请指定是否移除缺失值。 请确保先使用 group_by 操作将列数据分组。
summarize_if
summarize_if (<predicate_conditions>, ...)
将聚集函数应用于符合指定条件的列,以将多个列值精简为单个值。 请指定是否移除缺失值。 请确保先使用 group_by 操作将列数据分组。 受支持的函数包括:
- 计数
- 最大值
- 均值
- 最小值
- 标准偏差 (standard deviation)
- 总和
tally
计数 ()
按组计算行数 (对于字符串列) 或总计数据 (对于数字值)。 请确保先使用 group_by 操作将列数据分组。
计数 (wt = `<column>`)
计算行数 (对于字符串列) 或按组计算加权列的数据 (对于数字列) 总数。
计数 (wt=<func>(`<column>`) ,排序 = <logical>)
将函数应用于指定的加权列,并按组返回结果,排序或不排序。
top_n
top_n (provide_value)
选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数表示选择前 N 行;指定负整数表示选择后 N 行。
top_n (provide_value , `<column>`)
根据指定的列,选择每个组中的前 N 行或后 N 行 (按值)。 指定正整数表示选择前 N 行;指定负整数表示选择后 N 行。
如果重复行影响计数,请先使用 除去重复项 GUI 操作,然后再使用 top_n () 操作。
transmute
传输 (<new_or_existing_column> = `<column>`)
添加新列或使用指定的表达式覆盖现有列。 仅保留该表达式中指定的列。
传输 (<new_or_existing_column> = <func(column)>)
添加新列或通过对指定列应用函数来覆盖现有列。 仅保留该表达式中指定的列。
(<new_or_existing_column> = `<column>` <operator> `<column>`)
添加新列或通过对指定列应用运算符来覆盖现有列。 仅保留该表达式中指定的列。
传输 (<new_or_existing_column> = `<column>` , <new_or_existing_column> = `<column>`)
添加多个新列。 仅保留该表达式中指定的列。
传输 (<new_or_existing_column> = if_else (provide_value , provide_value_for_true , provide_value_for_false))
添加新列或使用指定的条件表达式覆盖现有列。 仅保留这些表达式中指定的列。
ungroup
ungroup ()
取消对数据的分组。
函数
汇总
- 均值
- 最小值
- n
- sd
- 总和
逻辑
- is.na
数字(U)
- abs
- coalesce
- 割平面
- exp
- floor
文本
- c
- coalesce
- 粘贴
- tolower
- toupper
类型
- as.character
- as.double
- as.integer
- as.logical
逻辑运算符
- <
- <=
- >=
- >
- 介于
- !=
- ==
- %in%
父主题: 优化数据