Laden von Daten

Im letzten Kapitel wurden Befehle wie ls, ps, date, and sys vorgestellt um Informationen über Dateien, Prozesse, Zeiten und die Systemumgebung selber zu laden. Jeder Befehl ergibt eine Tabelle aus, mit der gearbeitet werden kann. Es gibt jedoch noch andere Möglichkeiten Tabellen aus Daten zu erhalten.

Dateien öffnen

Einer der mächtigsten Befehle in Nu um mir Daten zu arbeite ist der open Befehl. Er ist ein Multi-Werkzeug, welcher mit verschiedensten Datenformaten umgehen kann. Hier zum Beispiel was passiert, wenn eine json Datei geöffnet wird:

open editors/vscode/package.json
# => ──────────────────┬───────────────────────────────────────────────────────────────────────────────
# =>  name             │ lark
# =>  description      │ Lark support for VS Code
# =>  author           │ Lark developers
# =>  license          │ MIT
# =>  version          │ 1.0.0
# =>  repository       │ [row type url]
# =>  publisher        │ vscode
# =>  categories       │ [table 0 rows]
# =>  keywords         │ [table 1 rows]
# =>  engines          │ [row vscode]
# =>  activationEvents │ [table 1 rows]
# =>  main             │ ./out/extension
# =>  contributes      │ [row configuration grammars languages]
# =>  scripts          │ [row compile postinstall test vscode:prepublish watch]
# =>  devDependencies  │ [row @types/mocha @types/node tslint typescript vscode vscode-languageclient]
# => ──────────────────┴───────────────────────────────────────────────────────────────────────────────

Ähnlich wie beim ls Befehl, bekommen wir mehr als nur Text (oder einen Stream von bytes) zurück, wenn wir einen Dateityp öffnen, den Nu versteht. Hier wurde ein "package.json" von einem JavaScript Projekt geöffnet. Nu erkennt den json text und parst die Daten in eine Tabelle.

Soll nur die Version aus dem Projekt angezeigt werden, kann mit dem get direkt diese Information herausgelesen werden.

open editors/vscode/package.json | get version
# => 1.0.0

Nu unterstützt aktuell die folgenden Formate um Daten direkt als Tabelle zu öffnen:

csv
eml
ics
ini
json
nuon
ods
ssv
toml
tsv
url
vcf
xlsx / xls
xml
yaml / yml

Was aber passiert, wenn eine Text Datei geladen wird, die keinem der angegebenen Formate entspricht?

open README.md

Die Datei wird wie gewohnt als Text ausgegeben.

Im Hintergrund sieht Nu eine reine Text Datei als einen grossen String. Wie man mit einem String umgeht und die benötigten Daten herauszieht, steht im nächsten Kapitel.

Mit Strings umgehen

Ein wichtiger Teil der Arbeit mit Nu ist es, mit externen Daten um zu gehen, die Nu nicht versteht. Oft werden diese Daten als String repräsentiert.

Zum Beispiel wie in dieser Datei:

open people.txt
# => Octavia | Butler | Writer
# => Bob | Ross | Painter
# => Antonio | Vivaldi | Composer

Jeder Datenpunkt ist durch ein pipe ('|') Symbol getrennt. Und jede Person steht auf einer eigenen Zeile. Nu kennt standardmässig kein Dateiformat, welches pipe-getrennt ist, weshalb diese Datei von Hand geparst werden muss.

Zuerst wird die Datei so geladen, dass jede Zeile für sich verarbeitet werden kann:

open people.txt | lines
# => ───┬──────────────────────────────
# =>  0 │ Octavia | Butler | Writer
# =>  1 │ Bob | Ross | Painter
# =>  2 │ Antonio | Vivaldi | Composer
# => ───┴──────────────────────────────

Dadurch wird bereits wieder eine Liste ausgegeben. Im nächsten Schritt sollen die Zeilen in etwas brauchbares aufgeteilt werden. Dafür verwenden wir den split Befehl. Wie der Name schon verräht, kann damit ein String durch ein Trennzeichen aufgesplittet oder aufgetrennt werden. Mit dem column Unterbefehl wird der Inhalt über mehrere Spalten aufgeteilt. Als Parameter reicht das Trennzeichen, der Rest ist automatisch:

open people.txt | lines | split column "|"
# => ───┬──────────┬───────────┬───────────
# =>  # │ column1  │ column2   │ column3
# => ───┼──────────┼───────────┼───────────
# =>  0 │ Octavia  │  Butler   │  Writer
# =>  1 │ Bob      │  Ross     │  Painter
# =>  2 │ Antonio  │  Vivaldi  │  Composer
# => ───┴──────────┴───────────┴───────────

Das sieht fast korrekt aus.Es sieht so aus, als ob sich noch eine zusätzliche Lücke eingeschlichen hat. Mit dem trim Befehl wird dieser beseitigt:

open people.txt | lines | split column "|" | str trim
# => ───┬─────────┬─────────┬──────────
# =>  # │ column1 │ column2 │ column3
# => ───┼─────────┼─────────┼──────────
# =>  0 │ Octavia │ Butler  │ Writer
# =>  1 │ Bob     │ Ross    │ Painter
# =>  2 │ Antonio │ Vivaldi │ Composer
# => ───┴─────────┴─────────┴──────────

Nicht schlecht. Der split Befehl gibt nicht nur brauchbare Daten zurück, sondern bezeichnet auch noch standardmässig die Spaltennamen:

open people.txt | lines | split column "|" | str trim | get column1
# => ───┬─────────
# =>  0 │ Octavia
# =>  1 │ Bob
# =>  2 │ Antonio
# => ───┴─────────

Die Spalten können jedoch auch benannt werden:

open people.txt | lines | split column "|" first_name last_name job | str trim
# => ───┬────────────┬───────────┬──────────
# =>  # │ first_name │ last_name │ job
# => ───┼────────────┼───────────┼──────────
# =>  0 │ Octavia    │ Butler    │ Writer
# =>  1 │ Bob        │ Ross      │ Painter
# =>  2 │ Antonio    │ Vivaldi   │ Composer
# => ───┴────────────┴───────────┴──────────

Jetzt da die Daten in einer Tabelle sind, können alle Befehle, die wir davor schon auf Tabellen angewendet haben wiederverwenden:

open people.txt | lines | split column "|" first_name last_name job | str trim | sort-by first_name
# => ───┬────────────┬───────────┬──────────
# =>  # │ first_name │ last_name │ job
# => ───┼────────────┼───────────┼──────────
# =>  0 │ Antonio    │ Vivaldi   │ Composer
# =>  1 │ Bob        │ Ross      │ Painter
# =>  2 │ Octavia    │ Butler    │ Writer
# => ───┴────────────┴───────────┴──────────

Weitere Befehle, mit denen Texte aus Strings bearbeitet werden können sind:

str
lines
~~size~~

Es gibt ausserdem einige Hilfsbefehle, die verwendet werden können um mit Daten umzugehen, die Nu eigentlich verstehen sollte. Zum Beispiel wenn eine Rust lock Datei geöffnet wird:

open Cargo.lock
# => # This file is automatically @generated by Cargo.
# => # It is not intended for manual editing.
# => [[package]]
# => name = "adhoc_derive"
# => version = "0.1.2"

Eine "Cargo.lock" Datei ist eigentlich eine .toml Datei, aber die Dateiendung ist nicht .toml. Das ist ok, denn mit dem from und seinem Unterbefehl toml können wir dies explizit angeben:

open Cargo.lock | from toml
# => ──────────┬───────────────────
# =>  metadata │ [row 107 columns]
# =>  package  │ [table 130 rows]
# => ──────────┴───────────────────

Der from Befehl kann für jedes strukturierte Datenformat, welches Nu versteht, verwendet werden, indem das Format als entsprechender Unterbefehl verwendet wird.

Öffnen im raw Modus

Auch wenn es hilfreich ist, beim Öffnen einer Datei direkt eine Tabelle zu erhalten, ist dies nicht immer gewünscht. Um den darunter liegenden Text zu erhalten, kann dem open Befehl das Flag --raw mitgegeben werden:

open Cargo.toml --raw
# => [package]
# => name = "nu"
# => version = "0.1.3"
# => authors = ["Yehuda Katz <wycats@gmail.com>", "Sophia Turner <547158+sophiajt@users.noreply.github.com>"]
# => description = "A shell for the GitHub era"
# => license = "MIT"

URLs abrufen

Zusätzlich zum Laden von Dateien vom Dateisystem, können auch URLs mit dem http get Befehl geladen werden. Dies wird den Inhalt der URL aus dem Netz abrufen und zurückgeben:

http get https://blog.rust-lang.org/feed.xml
# => ╭────────────┬──────────────────╮
# => │ tag        │ feed             │
# => │ attributes │ {record 1 field} │
# => │ content    │ [table 18 rows]  │
# => ╰────────────┴──────────────────╯