R语言【CoordinateCleaner】——cc_dupl()：根据物种名称和坐标以及用户定义的附加列删除或标记重复的记录

Package CoordinateCleaner version 2.0-20

Parameters

cc_dupl(
  x,
  lon = "decimallongitude",
  lat = "decimallatitude",
  species = "species",
  additions = NULL,
  value = "clean",
  verbose = TRUE
)

参数【x】：data.frame。包含地理坐标和物种名称。

参数【lon】：字符串。具有经度坐标的列。默认值 = “decimallongitude”。

参数【lat】：字符串。包含纬度坐标的列。默认值 = “decimallatitude”。

参数【species】：字符串。包含物种名称的列。默认值 = “species”。

参数【additions】：字符串的向量。要包含在重复测试中的其他列。例如，如下图所示，收集器名称和收集器编号。

参数【value】：字符串。定义输出值。

参数【verbose】：逻辑。如果为 TRUE，则报告测试的名称和标记的记录数。

Value

根据参数【value】，包含测试认为正确的记录的 data.frame （“clean”）或逻辑向量（“flagged”），其中 TRUE = 测试通过，FALSE = 测试失败/可能有问题。默认值 = “clean”。

Conclusion

cc_dupl()函数是CoordinateCleaner软件包中的一个特定函数，用于检测和处理生物多样性数据集中的重复记录。以下是对cc_dupl()函数的总结性介绍：

cc_dupl()函数用于识别数据集中的重复记录，并根据不同的参数和阈值进行处理。
它可以通过比较记录之间的经纬度坐标、采样日期和其他属性，来确定是否存在重复的数据记录。
该函数还提供了各种选项和方法，以选择处理重复记录的方式，如保留第一次出现的记录、保留最后一次出现的记录或合并重复的记录。
cc_dupl()函数还可以生成一个关于重复记录的详细报告，帮助用户审查和验证相关数据。
该函数返回一个包含处理后数据集的对象，可以继续在其他函数中使用。

总之，cc_dupl()函数是CoordinateCleaner软件包中一个有用的函数，可帮助用户检测和处理生物多样性数据集中的重复记录。它提供了各种选项和报告，以支持用户进行更精确和准确的数据清理。

Example

x <- data.frame(species = letters[1:10], 
                decimallongitude = sample(x = 0:10, size = 100, replace = TRUE), 
                decimallatitude = sample(x = 0:10, size = 100, replace = TRUE),
                collector = "Bonpl",
                collector.number = c(1001, 354),
                collection = rep(c("K", "WAG","FR", "P", "S"), 20))

cc_dupl(x, value = "flagged")
cc_dupl(x, additions = c("collector", "collector.number"))