# Load necessary libraries
library(dplyr, warn.conflicts = FALSE)
library(tidyr, warn.conflicts = FALSE)
library(stringr, warn.conflicts = FALSE)
library(readr, warn.conflicts = FALSE)
library(ggplot2, warn.conflicts = FALSE)
library(jsonlite, warn.conflicts = FALSE)
if (!suppressPackageStartupMessages(require('ggExtra', quiet = TRUE, warn.conflicts = FALSE))) install.packages('ggExtra', quiet = TRUE); suppressPackageStartupMessages(library(ggExtra, warn.conflicts=FALSE))
options(warn = -1)

if(Sys.getenv("COLAB_BACKEND_VERSION") == "") source("../../utility_functions.R")

if(Sys.getenv("COLAB_BACKEND_VERSION") != "") source("http://raw.githubusercontent.com/microbiomedata/nmdc_notebooks/refs/heads/main/utility_functions.R")

nom_dobj_df <- get_all_results(
    collection = "data_object_set", 
    filter_text = '{"data_object_type": {"$regex": "Direct Infusion FT-ICR MS Analysis Results"}}', 
    max_page_size = 100, 
    fields = "id,name,url,was_generated_by,md5_checksum"
    )

head(nom_dobj_df, 3)

# What collection holds records of the analysis that produced our processed data object?
get_collection_by_id(nom_dobj_df$was_generated_by[1])

nom_analysis_df <- get_results_by_id(
    collection = "workflow_execution_set",
    match_id_field = "has_output",
    id_list = nom_dobj_df$id,
    fields = "id,has_input,has_output",
    max_page_size = 20
) %>%

  # Flatten results for viewing
  unnest()

  head(nom_analysis_df, 3)

nom_raw_df <- get_results_by_id(
    collection = "data_object_set",
    match_id_field = "id",
    id_list = nom_analysis_df$has_input,
    fields = "id,was_generated_by,name,md5_checksum,data_object_type",
    max_page_size = 20
) %>%

# Filter to raw FTICR data (retain NAs in case raw data was not labeled)
filter(data_object_type == "Direct Infusion FT ICR-MS Raw Data" |
    is.na(data_object_type))

head(nom_raw_df, 3)

nom_datagen_df <- get_results_by_id(
    collection = "data_generation_set",
    match_id_field = "has_output",
    id_list = nom_raw_df$id,
    fields = "id,has_input,has_output",
    max_page_size = 20
) %>%
  # Flatten results for viewing
  mutate(has_input = unlist(has_input),
         has_output = unlist(has_output))

head(nom_datagen_df, 3)

# Confirm that all has_input fields are NMDC biosample IDs
nom_datagen_df %>%
  mutate(biosample_input = str_detect(has_input, "nmdc:bsm-")) %>%
  mutate(procsm_input = str_detect(has_input, "nmdc:procsm-")) %>%
  count(biosample_input, procsm_input)

# Get the original source biosample for all of the processed samples
# that were inputs to the FT-ICR runs (DataGeneration records)
source_biosample_vec <- get_bsm_source_for_procsm(nom_datagen_df, "has_input")

# Replace the input column of the DataGeneration results with the source biosamples
nom_datagen_df$has_input <- source_biosample_vec

# Confirm that all has_input fields are now NMDC biosample IDs
nom_datagen_df %>%
  mutate(biosample_input = str_detect(has_input, "nmdc:bsm-")) %>%
  count(biosample_input)

nom_biosample_df <- get_results_by_id(
    collection = "biosample_set",
    match_id_field = "id",
    id_list = nom_datagen_df$has_input,
    fields = "id,name,associated_studies,env_broad_scale,env_local_scale,env_medium",
    #fields = "",
    max_page_size = 20
) %>%
  # Remove duplicate rows (some biosamples are used in more than one DataGeneration)
  distinct() %>%
  # Flatten results for viewing
  mutate(associated_studies = as.character(associated_studies)) %>%
  unnest(starts_with("env"), names_sep = ".", keep_empty = TRUE) %>%
  unnest(starts_with("env"), names_sep = ".", keep_empty = TRUE)

head(nom_biosample_df, 3)

# Starting from the biosample dataframe...
nom_objects_joined <- nom_biosample_df %>%
  
  # Rename biosample columns with the prefix "bsm" for clarity
  rename_with(~ paste0("bsm.", .x)) %>%
  
  # Rename sample processing columns with the prefix "datagen"
  # Join records where the biosample ID is the input to the data generation
  full_join(rename_with(nom_datagen_df, ~ paste0("datagen.", .x)), 
            by = join_by(bsm.id == datagen.has_input),
            keep = TRUE) %>%
  
  # Rename raw data object columns with the prefix "raw"
  # Join records where the raw data ID is the output of the data generation
  full_join(rename_with(nom_raw_df, ~ paste0("raw.", .x)), 
            by = join_by(datagen.has_output == raw.id),
            keep = TRUE) %>%
  
  # Rename analysis columns with the prefix "analysis"
  # Join records where the raw data ID is the input of the analysis process
  full_join(rename_with(nom_analysis_df, ~ paste0("analysis.", .x)), 
            by = join_by(raw.id == analysis.has_input),
            keep = TRUE) %>%
  
  # Rename processed data object columns with the prefix "dobj"
  # Join records where the processed data ID is the output of the analysis process
  full_join(rename_with(nom_dobj_df, ~ paste0("dobj.", .x)), 
            by = join_by(analysis.has_output== dobj.id),
            keep = TRUE) %>%
  
  # Clean up: remove duplicate rows produced by joins
  distinct() %>%
  
  # Flatten list-columns
  # List-columns appear when a field included in the query is not flat (e.g. https://microbiomedata.github.io/nmdc-schema/env_medium/)
  unnest(where(is.data.frame), names_sep = ".", keep_empty = TRUE) %>%
  unnest(where(is.data.frame), names_sep = ".", keep_empty = TRUE) %>%
  mutate(across(where(is.list), as.character)) %>%
  
  # Remove duplicate processed data objects, if any are present
  filter(!duplicated(dobj.md5_checksum))


head(nom_objects_joined, 3)

# Are all processed data results from the first query present in the joined dataframe?
all(sort(unique(nom_dobj_df$id)) == sort(unique(nom_objects_joined$dobj.id)))

# How many processed data results are not associated with a biosample?
sum(is.na(nom_objects_joined$bsm.id))

nom_objects_joined$bsm.env_medium.has_raw_value[1]

nom_objects_joined$bsm.env_medium.term.id[1]

nom_objects_joined$bsm.env_medium.term.name[1]

nom_objects_joined_labeled <- nom_objects_joined %>%

  mutate(bsm.sample_type_manual = case_when(
    bsm.env_medium.term.id %in% c("ENVO:00001998", "ENVO:00002259", "ENVO:00002261", 
                                  "ENVO:00005750", "ENVO:00005760", "ENVO:00005761", 
                                  "ENVO:00005773", "ENVO:00005774", "ENVO:00005802", 
                                  "ENVO:01001616") ~ "soil",
    
    bsm.env_medium.term.id %in% c("ENVO:00002007") ~ "sediment",
    bsm.env_medium.term.id %in% c("ENVO:01000017") ~ "sand",
    bsm.env_medium.term.id %in% c("ENVO:00002042") ~ "water",
    
    str_detect(bsm.env_medium.term.name, "soil") ~ "soil",
    str_detect(bsm.env_medium.has_raw_value, "soil") ~ "soil",
    str_detect(bsm.env_medium.term.name, "water") ~ "water"
    ))

head(nom_objects_joined_labeled, 3)

read_csv(nom_objects_joined_labeled$dobj.url[1],
         show_col_types = FALSE,
         name_repair = make.names) %>%
  head(3)

# How many samples of each type are there?
table(nom_objects_joined_labeled$bsm.sample_type_manual)

    sand sediment     soil    water 
     256      619     2554      424

set.seed(413)

processed_data_csvs <- data.frame(data_object_url = nom_objects_joined_labeled$dobj.url,
                                  sample_type = nom_objects_joined_labeled$bsm.sample_type_manual,
                                  biosample_id = nom_objects_joined_labeled$bsm.id) %>%
  filter(!is.na(data_object_url) & !is.na(biosample_id)) %>%

  # Randomly sample a fixed number of data objects
  group_by(sample_type) %>%
  slice_sample(n = 100) %>%
  ungroup() %>%

  # Download processed data results files
  mutate(csv_nested = lapply(data_object_url, read_csv, show_col_types = FALSE, name_repair = make.names))

colnames(processed_data_csvs$csv_nested[[1]])

processed_data_csvs <- processed_data_csvs %>%
  # For each results dataframe
  mutate(csv_nested = lapply(csv_nested, 
    function(x) {
      x %>%
        # Keep the row with the highest confidence score for every m/z value
        arrange(-Confidence.Score) %>%
        distinct(m.z, .keep_all = TRUE)
      }
    )
  )

# Extract relevant columns and calculate some statistics for the processed data
processed_data_qc <- processed_data_csvs %>%
  
  mutate(unassigned_count  = vapply(csv_nested, function(x) sum(is.na(x$Molecular.Formula)), 
                                     FUN.VALUE = 1, USE.NAMES = FALSE),
         
         assigned_count    = vapply(csv_nested, function(x) sum(!is.na(x$Molecular.Formula)), 
                                     FUN.VALUE = 1, USE.NAMES = FALSE),
         
         assigned_perc     = assigned_count / (unassigned_count + assigned_count),
         
         confidence_scores = lapply(csv_nested, function(x) x$Confidence.Score))

# How many data files have x number of peaks assigned?
ggplot(processed_data_qc) +
    geom_histogram(aes(x = assigned_count), bins = 200) +
    ggtitle("Number of Assigned Peaks in Processed Data Files") +
    xlab("Number of peaks assigned") +
    ylab("Number of processed data files") +
    scale_x_continuous(breaks = seq(0, 17500, by = 500)) +
    theme(axis.text.x = element_text(angle = 90, hjust = 1))

# How many data files have x % peaks assigned?
ggplot(processed_data_qc) +
  geom_histogram(aes(x = assigned_perc), bins = 33) +
  ggtitle("Percent Assigned Peaks for Processed Data Files") +
  xlab("Percent of peaks with assigned formula") +
  ylab("Number of processed data files")

# How many peaks across all of our data were assigned x confidence score?
data.frame(All_Confidence_Scores = unlist(processed_data_qc$confidence_scores)) %>%
  ggplot() +
    geom_histogram(aes(x = All_Confidence_Scores), bins = 30) +
    ggtitle("Confidence Scores for All Peak/Formula Assignments") +
    xlab("Confidence score") +
    ylab("Number of peaks")

processed_data_qc <- processed_data_qc %>%

  # Filter out samples with low percent assigned
  filter(assigned_perc >= 0.3) %>%

  # Filter out samples with low NUMBER assigned
  filter(assigned_count >= 250) %>%
  
  # Within data, filter out rows with low confidence score
  mutate(csv_nested = lapply(csv_nested, function(x) filter(x, Confidence.Score >= 0.3))) %>%

  # Now that filtering is done, extract the rest of the data we want
  mutate(molecular_formulae = lapply(csv_nested, function(x) x$Molecular.Formula),
         HC                 = lapply(csv_nested, function(x) x$H.C),
         OC                 = lapply(csv_nested, function(x) x$O.C),
         # re-extract filtered confidence scores
         confidence_scores  = lapply(csv_nested, function(x) x$Confidence.Score)
  ) %>%
  
  # Remove nested dataset column for speed and memory
  select(-csv_nested)

processed_data_qc %>%
  left_join(select(nom_objects_joined_labeled, dobj.url, bsm.sample_type_manual),
              by = join_by(data_object_url == dobj.url)) %>%
  pull(bsm.sample_type_manual) %>%
  table()

.
    sand sediment     soil    water 
      19       37       67       38

set.seed(10)

# Starting from the QC filtered data
samples_for_heatmap <- processed_data_qc %>%
  
  # Add biosample information
  left_join(select(nom_objects_joined_labeled, 
                   dobj.id, dobj.url, bsm.sample_type_manual), #, bsm.part_of, 
                   #bsm.lat_lon.latitude, bsm.lat_lon.longitude), 
            by = join_by(data_object_url == dobj.url)) %>%
  
  # Randomly sample from each sample type
  group_by(bsm.sample_type_manual) %>%
  slice_sample(n = 8) %>%
  ungroup()

filtered_formulae <- samples_for_heatmap$molecular_formulae %>%
  # Get unique list of formulae from each results table
  lapply(unique) %>%
  unlist() %>%
  # Count occurrences of each formula
  table() %>%
  as.data.frame() %>%
  setNames(c("Formula", "Freq")) %>%
  # Remove stray empty strings and filter by frequency
  filter(Formula != "") %>%
  filter(Freq >= 5) %>%
  mutate(Formula = as.character(Formula)) %>%
  # Pull character vector of formulae appearing at least 5x in the random subsample
  pull(Formula)

# Initialize presence absence matrix
# Rows are processed data (results data tables)
# Columns are molecular formulae

formula_presence <- matrix(, nrow = nrow(samples_for_heatmap), ncol = length(filtered_formulae))

for (i in 1:nrow(samples_for_heatmap)) {
  formula_presence[i,] <- ifelse(filtered_formulae %in% samples_for_heatmap$molecular_formulae[[i]], 
                       1, 0)
}

rownames(formula_presence) <- samples_for_heatmap$data_object_url
colnames(formula_presence) <- filtered_formulae

# Set up color vector for side grouping column
sample_type_color_vec <- case_when(
  samples_for_heatmap$bsm.sample_type_manual == "soil" ~ "saddlebrown",
  samples_for_heatmap$bsm.sample_type_manual == "sediment" ~ "slategray",
  samples_for_heatmap$bsm.sample_type_manual == "water" ~ "deepskyblue",
  samples_for_heatmap$bsm.sample_type_manual == "sand" ~ "goldenrod")

options(repr.plot.width = 7, repr.plot.height = 5, repr.plot.res = 250)
par(xpd = TRUE)

heatmap(formula_presence, Colv = NA, RowSideColors = sample_type_color_vec, 
        labRow = FALSE, labCol = FALSE, scale = "none",
        main = "NOM results clustered by similarity in molecular formulae",
        xlab = "Molecular formulae",
        ylab = "Samples", 
        keep.dendro = FALSE, 
        col = c("darkblue", "orange"))

par(cex = 0.8)

legend(x = "bottomright", legend = c("Formula absent", "Formula present"), fill = c("darkblue", "orange"), inset = c(0, -0.2))

legend(x = "bottomleft", legend = c("Soil", "Sediment", "Water", "Sand"), fill = c("saddlebrown", "slategray", "deepskyblue", "goldenrod"), inset = c(0, -0.2))

# Using the same subset of samples chosen for the heatmap
van_krevelen_data <- samples_for_heatmap %>%
  select(bsm.sample_type_manual, HC, OC, molecular_formulae) %>%
  unnest(cols = c(HC, OC, molecular_formulae)) %>% 
  # Filter down to formulae that appear at least 5 times (see above)
  filter(molecular_formulae %in% filtered_formulae) %>% 
  distinct() 

van_krevelen_separate_plot <- ggplot(van_krevelen_data, aes(x = OC, y = HC, color = bsm.sample_type_manual)) +
  geom_point(alpha = 0.5, size = 1) +
  facet_wrap(~bsm.sample_type_manual, nrow = 1) +
  theme_bw() +
  theme(legend.position = "none") +
  coord_fixed() +
  scale_color_manual("legend", values = c("soil" = "saddlebrown",
                                          "sediment" = "slategray",
                                          "water" = "deepskyblue",
                                          "sand" = "goldenrod")) +
  ggtitle("Van Krevelen: formulae by sample type") +
  xlab("Oxygen/Carbon Ratio") +
  ylab("Hydrogen/Carbon Ratio")

options(repr.plot.width = 10, repr.plot.height = 6, repr.plot.res = 250)
van_krevelen_separate_plot

van_krevelen_shared_plot <- van_krevelen_data %>%
  mutate(exists = TRUE) %>%
  pivot_wider(names_from = bsm.sample_type_manual, values_from = exists) %>%
  mutate(across(where(is.logical), ~ !is.na(.x))) %>%
  
  # Label all shared formulae
  mutate(in_soil_only          =  soil & !sediment & !water & !sand,
         in_water_only         = !soil & !sediment &  water & !sand,
         in_sediment_only      = !soil &  sediment & !water & !sand,
         in_sand_only          = !soil & !sediment & !water &  sand,
         in_multi_sample_types = (soil +  sediment +  water) > 1) %>%
  
  # Back to long format for ggplot
  select(-soil, sediment, water) %>% #, sand) %>%
  pivot_longer(cols = starts_with("in_"), 
               names_to = "sample_type", values_to  = "presence") %>%
  filter(presence) %>%
  
  # Make nicer labels for plot
  mutate(sample_type = case_when(
    sample_type == "in_soil_only"          ~ "Unique to soil",
    sample_type == "in_water_only"         ~ "Unique to water",
    sample_type == "in_sediment_only"      ~ "Unique to sediment",
    sample_type == "in_sand_only"          ~ "Unique to sand",
    sample_type == "in_multi_sample_types" ~ "Present in 2+ sample types"
  )) %>%
  
  # Construct scatterplot
  ggplot(aes(x = OC, y = HC, color = sample_type)) +
    geom_point(alpha = 0.5, size = 1) +
    theme_bw() +
    theme(legend.position = "bottom",
          plot.title = element_text(margin = margin(t = 1, unit = "cm"), size = 12)) +
    labs(title = "Van Krevelen: unique and shared molecular formulae by sample type",
         x = "Oxygen/Carbon Ratio", y = "Hydrogen/Carbon Ratio", color = "Sample Type") +
    guides(color = guide_legend(override.aes = list(alpha = 1, size = 3))) +
    scale_color_manual("legend", 
                       values = c("Unique to soil"    = "saddlebrown", 
                                 "Unique to water"    = "deepskyblue", 
                                 "Unique to sediment" = "slategray", 
                                 "Unique to sand"     = "goldenrod",
                                 "Present in 2+ sample types" = "red"))

options(repr.plot.width = 8, repr.plot.height = 6, repr.plot.res = 250)

# Add marginal density plots
ggMarginal(van_krevelen_shared_plot, groupFill = TRUE)

	id	name	md5_checksum	url	was_generated_by
	<chr>	<chr>	<chr>	<chr>	<chr>
1	nmdc:dobj-11-002nyy42	Blanchard_MeOHExt_H-4-AB-M_22Feb18_000001.csv	5cd810390dc64616e28579161fe15029	https://nmdcdemo.emsl.pnnl.gov/nom/blanchard_11_8ws97026/results_20260125/Blanchard_MeOHExt_H-4-AB-M_22Feb18_000001/Blanchard_MeOHExt_H-4-AB-M_22Feb18_000001.csv	nmdc:wfnom-11-twqqjq28.2
2	nmdc:dobj-11-003x7710	Blanchard_CHCl3Ext_H-32-AB-M_19Feb18_Alder_Infuse_p1_1_01_27405.csv	0391d9ff37a1926d5cf0eaec126ad4ff	https://nmdcdemo.emsl.pnnl.gov/nom/blanchard/results/Blanchard_CHCl3Ext_H-32-AB-M_19Feb18_Alder_Infuse_p1_1_01_27405.csv	nmdc:wfnom-11-dv3wck24.1
3	nmdc:dobj-11-00dewm52	1000s_OSBS_FTMS_SPE_BTM_3_01Nov22_Mag_300SA_p025_184_1_7197.csv	2a532dca15798e470103ebd752a0937f	https://nmdcdemo.emsl.pnnl.gov/nom/1000soils/results/1000s_OSBS_FTMS_SPE_BTM_3_01Nov22_Mag_300SA_p025_184_1_7197.csv	nmdc:wfnom-11-0mqv1c63.1

id	has_input	has_output
<chr>	<chr>	<chr>
nmdc:wfnom-11-twqqjq28.2	nmdc:dobj-11-vq0zcy81	nmdc:dobj-11-mfvjhy66
nmdc:wfnom-11-twqqjq28.2	nmdc:dobj-11-6qh8ae86	nmdc:dobj-11-002nyy42
nmdc:wfnom-11-dv3wck24.1	nmdc:dobj-11-2ysghy98	nmdc:dobj-11-003x7710

	id	name	md5_checksum	data_object_type	was_generated_by
	<chr>	<chr>	<chr>	<chr>	<chr>
1	nmdc:dobj-11-2mk4qf09	1000s_DELA_FTMS_SPE_TOP_2_29Oct22_Mag_300SA_p025_126_1_7076.zip	67dd8ab4a5a2eae19d202846cb82a53b	Direct Infusion FT ICR-MS Raw Data	nmdc:omprc-11-7xkvr465
2	nmdc:dobj-11-2ysghy98	Blanchard_CHCl3Ext_H-32-AB-M_19Feb18_Alder_Infuse_p1_1_01_27405.zip	1712a70f607d8fef8d63c7e316e72d59	Direct Infusion FT ICR-MS Raw Data	nmdc:dgms-11-g0phmn40
3	nmdc:dobj-11-3hfzr472	1000s_OSBS_FTMS_SPE_BTM_3_01Nov22_Mag_300SA_p025_184_1_7197.zip	51bf125fdd6edfc73181f47e6b4eac2b	Direct Infusion FT ICR-MS Raw Data	nmdc:omprc-11-2v9hsx10

	id	has_input	has_output
	<chr>	<chr>	<chr>
1	nmdc:omprc-11-9vatav94	nmdc:procsm-11-j9avd879	nmdc:dobj-11-18tyaw19
2	nmdc:omprc-11-7xkvr465	nmdc:procsm-11-vkg85558	nmdc:dobj-11-2mk4qf09
3	nmdc:dgms-11-g0phmn40	nmdc:procsm-11-4h2s2t66	nmdc:dobj-11-2ysghy98

biosample_input	n
<lgl>	<int>
TRUE	5157

How does the natural organic matter data in the NMDC database compare across sample types?¶

1. Query NMDC API¶

Get all data objects with NOM results¶

Example of identifying a collection¶

Get all NOM analysis records¶

Get all data objects containing raw NOM data¶

Get all records of omics analyses that produced raw NOM data¶

Get all records for biosamples that were processed for NOM analysis¶

Join all results dataframes¶

2. Label sample types¶

3. Pull and process results files¶

Select best assignments¶

Quality metrics for processed data¶

4. Visualize natural organic matter by sample type¶

Molecular formula heatmap¶

Van Krevelen plots¶

Index	m.z	Calibrated.m.z	Calculated.m.z	Peak.Height	Peak.Area	Resolving.Power	S.N	Ion.Charge	m.z.Error..ppm.	⋯	Molecular.Formula	C	H	O	N	S	X13C	X18O	X33S	X34S
<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	⋯	<chr>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<lgl>	<dbl>	<lgl>
29	157.1237	157.1235	157.1234	5450448	319.4241	1434667	25.9305	-1	0.6101121	⋯	C9 H18 O2	9	18	2	NA	NA	NA	NA	NA	NA
88	205.1602	205.1599	205.1598	134497368	32387.0214	1098752	655.5911	-1	0.7040380	⋯	C14 H22 O1	14	22	1	NA	NA	NA	NA	NA	NA
90	206.1635	206.1633	206.1631	21752377	5133.1435	1093404	102.8712	-1	0.8243951	⋯	C13 H22 O1 13C1	13	22	1	NA	NA	1	NA	NA	NA

A tibble: 3 × 18
id	env_broad_scale.has_raw_value	env_broad_scale.term.id	env_broad_scale.term.name	env_broad_scale.term.type	env_broad_scale.type	env_local_scale.has_raw_value	env_local_scale.term.id	env_local_scale.term.name	env_local_scale.term.type	env_local_scale.type	env_medium.has_raw_value	env_medium.term.id	env_medium.term.name	env_medium.term.type	env_medium.type	name	associated_studies
<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural soil [ENVO:00002259]	ENVO:00002259	agricultural soil	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	1000 soils - PRS1_CoreB_BTM	nmdc:sty-11-28tm5d36
nmdc:bsm-11-3h770p55	ENVO:00000446	ENVO:00000446	NA	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	ENVO:01000861	ENVO:01000861	area of dwarf scrub	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	ENVO:00001998	ENVO:00001998	soil	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	Lybrand_Permafrost_HE_06	nmdc:sty-11-db67n062
nmdc:bsm-11-6p6mhh86	__temperate shrubland biome [ENVO:01000215]	ENVO:01000215	temperate shrubland biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	slope [ENVO:00002000]	ENVO:00002000	slope	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	bare soil [ENVO:01001616]	ENVO:01001616	bare soil	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	1000 soils - FTA5_CoreB_BTM	nmdc:sty-11-28tm5d36

A tibble: 3 × 34
bsm.id	bsm.env_broad_scale.has_raw_value	bsm.env_broad_scale.term.id	bsm.env_broad_scale.term.name	bsm.env_broad_scale.term.type	bsm.env_broad_scale.type	bsm.env_local_scale.has_raw_value	bsm.env_local_scale.term.id	bsm.env_local_scale.term.name	bsm.env_local_scale.term.type	⋯	raw.data_object_type	raw.was_generated_by	analysis.id	analysis.has_input	analysis.has_output	dobj.id	dobj.name	dobj.md5_checksum	dobj.url	dobj.was_generated_by
<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	⋯	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	Direct Infusion FT ICR-MS Raw Data	nmdc:omprc-11-3zmwnd61	nmdc:wfnom-11-76gh6185.2	nmdc:dobj-11-ye9bmb75	nmdc:dobj-11-01tjmy50	nmdc:dobj-11-01tjmy50	1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	62d11622bcf0549a746eed7e1f28fa9e	https://nmdcdemo.emsl.pnnl.gov/nom/1000s_11_28tm5d36/results_20260125/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	nmdc:wfnom-11-76gh6185.2
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	Direct Infusion FT ICR-MS Raw Data	nmdc:omprc-11-3zmwnd61	nmdc:wfnom-11-76gh6185.1	nmdc:dobj-11-ye9bmb75	nmdc:dobj-11-c61h7c49	nmdc:dobj-11-c61h7c49	1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	1c6baec25e3786fb54c3aef89f009302	https://nmdcdemo.emsl.pnnl.gov/nom/1000soils/results/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	nmdc:wfnom-11-76gh6185.1
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	Direct Infusion FT ICR-MS Raw Data	nmdc:omprc-11-f28j2s20	nmdc:wfnom-11-rv54ea41.1	nmdc:dobj-11-2s1xwr16	nmdc:dobj-11-0ha7pm33	nmdc:dobj-11-0ha7pm33	1000S_PRS1_FTMS_SPE_BTM_1_run1_Fir_22Apr22_300SA_p01_1_1_3355.csv	49d3d2de9be6c7cc556106e4f716f095	https://nmdcdemo.emsl.pnnl.gov/nom/1000soils/results/1000S_PRS1_FTMS_SPE_BTM_1_run1_Fir_22Apr22_300SA_p01_1_1_3355.csv	nmdc:wfnom-11-rv54ea41.1

A tibble: 3 × 35
bsm.id	bsm.env_broad_scale.has_raw_value	bsm.env_broad_scale.term.id	bsm.env_broad_scale.term.name	bsm.env_broad_scale.term.type	bsm.env_broad_scale.type	bsm.env_local_scale.has_raw_value	bsm.env_local_scale.term.id	bsm.env_local_scale.term.name	bsm.env_local_scale.term.type	⋯	raw.was_generated_by	analysis.id	analysis.has_input	analysis.has_output	dobj.id	dobj.name	dobj.md5_checksum	dobj.url	dobj.was_generated_by	bsm.sample_type_manual
<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	⋯	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	nmdc:omprc-11-3zmwnd61	nmdc:wfnom-11-76gh6185.2	nmdc:dobj-11-ye9bmb75	nmdc:dobj-11-01tjmy50	nmdc:dobj-11-01tjmy50	1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	62d11622bcf0549a746eed7e1f28fa9e	https://nmdcdemo.emsl.pnnl.gov/nom/1000s_11_28tm5d36/results_20260125/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	nmdc:wfnom-11-76gh6185.2	soil
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	nmdc:omprc-11-3zmwnd61	nmdc:wfnom-11-76gh6185.1	nmdc:dobj-11-ye9bmb75	nmdc:dobj-11-c61h7c49	nmdc:dobj-11-c61h7c49	1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	1c6baec25e3786fb54c3aef89f009302	https://nmdcdemo.emsl.pnnl.gov/nom/1000soils/results/1000S_PRS1_FTMS_SPE_BTM_2_run1_Fir_22Apr22_300SA_p01_44_1_3401.csv	nmdc:wfnom-11-76gh6185.1	soil
nmdc:bsm-11-2prjdm84	anthropogenic terrestrial biome [ENVO:01000219]	ENVO:01000219	anthropogenic terrestrial biome	nmdc:OntologyClass	nmdc:ControlledIdentifiedTermValue	agricultural field [ENVO:00000114]	ENVO:00000114	agricultural field	nmdc:OntologyClass	⋯	nmdc:omprc-11-f28j2s20	nmdc:wfnom-11-rv54ea41.1	nmdc:dobj-11-2s1xwr16	nmdc:dobj-11-0ha7pm33	nmdc:dobj-11-0ha7pm33	1000S_PRS1_FTMS_SPE_BTM_1_run1_Fir_22Apr22_300SA_p01_1_1_3355.csv	49d3d2de9be6c7cc556106e4f716f095	https://nmdcdemo.emsl.pnnl.gov/nom/1000soils/results/1000S_PRS1_FTMS_SPE_BTM_1_run1_Fir_22Apr22_300SA_p01_1_1_3355.csv	nmdc:wfnom-11-rv54ea41.1	soil