Gellish Nederlands
Gellish Formeel Nederlands is de Nederlandse variant van Gellish, een kunstmatige taal of declaratieve taal voor het modelleren van kennis, vereisten en informatie in gegevensbanken (databases) en als gemeenschappelijke taal voor de eenduidige uitwisseling van gegevens tussen computers.
Gellish is bedoeld om samenwerking tussen systemen te verbeteren, ofwel voor het verbeteren van de interoperabiliteit. Dat gebeurt door het vastleggen van eenduidige specificaties van producten, apparaten en processen en van informatie over hun ontwerp, fabricage, aankoop, installatie, gebruik en onderhoud. Daarnaast is Gellish een vraagtaal (querytaal) voor gegevens in Gellish databases. Daarvoor is namelijk geen afzonderlijke querytaal nodig, zoals SQL is voor relationele databases. Gellish is geen programmeertaal.
De gegevens worden in Gellish vastgelegd op een manier die zowel door mensen als door een computer geïnterpreteerd kan worden en die toch systeemonafhankelijk is. Daardoor is Gellish geschikt als standaard gemeenschappelijke taal zowel voor de opslag als voor de uitwisseling van gegevens tussen computersystemen van verschillende partijen (als ‘data exchange language’). Formeel Nederlands is een gestructureerde variant van natuurlijk Nederlands. Vanuit het gezichtspunt van gegevensmodellering is het een generiek gegevensmodel ofwel een datamodel dat naast een universele gegevensstructuur tevens een woordenboek omvat.
Inhoud
1 Slim woordenboek
2 Voorbeelden
3 Verschillende relatietypen voor verschillende soorten uitdrukkingen (feittypen of beweringen)
4 Uitbreidbaarheid
5 Toepassingen
6 Automatisch vertalen
7 Gellish Database en Gellish Berichten
8 Gellish Vraagtaal
9 Vergelijking van RDF en OWL en Gellish
10 Geschiedenis
11 Externe links en referenties
Slim woordenboek
Het elektronische Formeel Nederlands woordenboek bevat zowel definities van generieke begrippen, alsook een algemeen Nederlands technisch woordenboek-taxonomie met definities van domeinspecifieke begrippen. Bovendien bevat het definities van soorten relaties (relatietypen) die het mogelijk maken om gedachten en beweringen (zinnen) op een computer interpreteerbare manier uit te drukken. In principe is er voor elke natuurlijke taal een Gellish variant die specifiek is voor die taal. Bijvoorbeeld, naast Formeel Nederlands is er een Engelse variant (Formal English), Formeel Duits, enz. Het Gellish Formeel Nederlands Woordenboek is een elektronische en geavanceerde versie van een normaal Nederlands woordenboek met gewone woorden en hun betekenissen, maar met computer interpreteerbare relaties tussen de begrippen. Formeel Nederlands kent dus geen ‘eigen’ woorden. Het is dus geen nieuwe taal zoals Esperanto en geen 'computertaal, zoals een programmeertaal, maar het kenmerkende van Formeel Nederlands is dat het computer interpreteerbaar Nederlands is, doordat alle zinnen een vaste eenvoudige structuur hebben. De zinsstructuur van gewoon Nederlands is namelijk te ingewikkeld om door computers geïnterpreteerd te kunnen worden.
Het Formeel Nederlands Woordenboek is een 'slim woordenboek' vooral om de volgende redenen:
- Het woordenboek gaat niet uit van woorden (termen) waarvoor meerdere definities gegeven worden, zoals in een gewoon woordenboek, maar het geeft een definitie van een begrip (soort of klasse). Als er een ander begrip bestaat dat aangeduid wordt door dezelfde term (een homoniem) dan heeft dat andere begrip een andere unieke identificatie (UID).
- De begrippen zijn gerangschikt in een subtype-supertype-hiërarchie. Het woordenboek is daarom ook een taxonomie. Die hiërarchie kan door computers gebruikt worden voor het overerven (‘inheritance’) van eigenschappen van de supertype naar zijn subtypen of voor het zoeken niet alleen naar objecten van een bepaalde soort, maar ook naar objecten die geclassificeerd zijn als subtype van die soort.
- Het Gellish woordenboek omvat niet alleen definities van begrippen maar ook definities van relatietypen. Die relatietypen bepalen de uitdrukkingsmogelijkheden van de Gellish taal.
- Het woordenboek omvat relaties tussen de begrippen. Daardoor is kennis over de begrippen vastgelegd. Daarom kan het woordenboek ook een ontologie of kennisbank (‘knowledge base’) genoemd worden.
Voorbeelden
Het Formeel Nederlands woordenboek bevat naast definities voor begrippen zoals 'weg', ‘pomp’ en ‘massa’ ook definities van relatietypen, zoals aangeduid door zinsdelen, zoals ‘is een soort’, ‘is geclassificeerd als een’, 'heeft als deel', ‘heeft als aspect’ en ‘is gekwalificeerd als’, enz. Ook zijn er bijvoorbeeld andere relatietypen waarmee kan worden vastgelegd waarvoor een object gebruikt kan worden, waar het te koop is, in welke documenten vereisten staan, welke functie het heeft, enz., enz. Dit maakt het mogelijk dat een computer bijvoorbeeld de volgende zinnen (expressies) in Formeel Nederlands correct kan interpreteren:
- centrifugaalpomp 'is een soort' pomp, die werkt volgens het centrifugaalprincipe.
- P-123 'is geclassificeerd als een' centrifugaalpomp
- P-123 'heeft als aspect' de massa van P-123
- de massa van P-123 'is geclassificeerd als een' massa
- de massa van P-123 'is gekwalificeerd als' 50 kg
Bovenstaande voorbeeld feiten vormen de kern van een uitdrukking in Formeel Nederlands. De eerste regel (met de definitie van een centrifugaalpomp) is een voorbeeld van een definitie uit het Formeel Nederlands Woordenboek. Ook de concepten massa en 50 kg en de relatietypen zijn daarin gedefinieerd.
Verschillende relatietypen voor verschillende soorten uitdrukkingen (feittypen of beweringen)
De verzameling standaard-relatietypes definiëren de soorten uitdrukkingen die in Gellish mogelijk zijn. Gellish omvat onder andere de volgende drie groepen relatietypen:
- Relatietypen voor relaties tussen soorten dingen (ofwel relaties tussen klassen). Zij zijn bedoeld voor het vastleggen van kennis en vereisten. Bijvoorbeeld, de specialisatierelatie (ook wel de subtype-supertype-relatie genoemd) die in de eerste bovengenoemde voorbeeldregel gebruikt is, of een relatietype die een mogelijke deel-geheel-relatie tussen soorten uitdrukt.
- Relatietypen voor relaties tussen individuele dingen. Die zijn bedoeld voor de uitdrukking van informatie over individuele dingen. Bijvoorbeeld, een relatie tussen een ding en zijn eigenschap die uitdrukt dat dat ding die eigenschap heeft. Bijvoorbeeld de relatie op de derde regel van de bovengenoemde voorbeelden.
- Relatietypen voor relaties tussen individuele dingen en soorten dingen. Zij zijn bedoeld voor verbanden tussen individuele dingen en begrippen in het woordenboek (of begrippen in privé-uitbreidingen van dat woordenboek). Bijvoorbeeld de classificatierelatie en de kwalificatierelatie in de bovengenoemde voorbeelden.
Uitbreidbaarheid
Iedereen kan een Gellish woordenboek en de relatietypen daarin onbeperkt uitbreiden met privé gedefinieerde begrippen of met synoniemen. Wel moet de definitie van nieuwe begrippen natuurlijk eerst uitgewisseld worden met een andere partij voordat die partij die begrippen kent en kan interpreteren. Daarom verdient het aanbeveling om zulke privé-uitbreidingen in te dienen bij de beheerder van de Gellish taal als voorstel voor uitbreiding van de definitie van Formeel Nederlands, Engels, enz.
Toepassingen
Formeel Nederlands, enz. kan gebruikt worden om kennis vast te leggen in een kennisbank (‘knowledge base’). Het Formeel Nederlands woordenboek kan ook afzonderlijk gebruikt worden, bijvoorbeeld als standaardterminologie in systemen, of om verschillende systemen te harmoniseren, als taxonomie in zoekmachines, of als classificatiesysteem om begrippen te selecteren voor de classificatie van objecten.
Automatisch vertalen
Gellish gebruikt een unieke numerieke identificatiecode (UID) voor elk begrip. Bijvoorbeeld, 130206 voor een pomp en 1225 voor een classificatierelatie (‘is geclassificeerd als een’). Dat maakt dat de begrippen geïdentificeerd worden op een manier die taalonafhankelijk is. Een voordeel daarvan is dat de informatie en kennis die in de ene taalvariant van Gellish is uitgedrukt automatisch vertaald kan worden naar elke andere taal waarvan een Gellish woordenboek beschikbaar is. Bijvoorbeeld, een computer kan automatisch de tweede bovenstaande Gellish regel in het Duits als volgt weergeven: - P-123 'ist klassifiziert als ein' Zentrifugalpumpe.
Gellish Database en Gellish Berichten
Een Gellish Bericht bestaat in principe uit slechts één (1) vast format (syntaxis), bijvoorbeeld een gestandaardiseerde tabel, de Gellish Berichtentabel, of een vaste RDF/XML-structuur. Een Gellish Database bestaat gewoonlijk uit twee daarvan afgeleide tabellen: een Naamgevingstabel en een Feitentabel. Elk van die tabellen is een tabel waarvan de kolommen gestandaardiseerd zijn. De Gellish tabellen zijn geschikt om er elke willekeurige uitdrukking in Formeel Nederlands in vast te leggen. Een voorbeeld van een deel van een Gellish Berichtentabel met de belangrijkste kolommen is de volgende:
Taal | Linker UID | Linker term | Feit UID | Relatietype UID | Relatietypenaam | Rechter UID | Rechter term |
---|---|---|---|---|---|---|---|
Nederlands | 1 | P-123 | 101 | 1225 | is geclassificeerd als een | 130206 | pomp |
English | 1 | P-123 | 101 | 1225 | is classified as a | 130206 | pump |
Deutsch | 1 | P-123 | 101 | 1225 | ist klassifiziert als ein | 130206 | Pumpe |
- N.B. De UID's zijn gelijk ook al zijn de talen verschillend! Daaruit is te zien hoe eenvoudig het voor een computer is om hetzelfde feit in verschillende talen om te zetten.
- Meerdere standaard Gellish Tabellen kunnen gecombineerd worden tot delen van een (gedistribueerde) database of als bestanden (‘files’) die uitgewisseld kunnen worden tussen verschillende partijen. Gellish tabellen kunnen geïmplementeerd worden in ieder willekeurig tabelmatig formaat. Bijvoorbeeld, ze kunnen geïmplementeerd worden als SQL databasetabellen, of als RDF/XML of OWL files, of als STEPfiles (volgens ISO 10303-21), of eenvoudig als spreadsheettabellen.
Gellish Vraagtaal
Een vraag in Formeel Nederlands heeft dezelfde vorm als een gewone Formeel Nederlandse uitdrukking. Alleen is de naam van een object vervangen door het woord 'wat' of 'wie' of 'welk aspect', en dergelijke woorden, aangevuld met de aanduiding dat het om een vraag gaat.
Een vraag in Gellish Nederlands zou bijvoorbeeld kunnen zijn:
- vraag: wat is geclassificeerd als een pomp
Het antwoord zou twee pompen kunnen vermelden, bijvoorbeeld:
- antwoord: P-123 is geclassificeerd als een pomp
- antwoord: P-456 is geclassificeerd als een centrifugaalpomp
N.B. Het tweede antwoord kan gevonden worden omdat de computer uit het Formeel Nederlands Woordenboek-Taxonomie kan opmaken dat een centrifugaalpomp ook een pomp is!
Als in de database de unieke identificaties (UID's) gebruikt worden, dan zou de Gellish database die geraadpleegd wordt bijvoorbeeld in het Engels kunnen zijn, terwijl op verzoek het antwoord automatisch in het Nederlands weergegeven kan worden.
Vergelijking van RDF en OWL en Gellish
OWL (Web Ontology Language) en RDF zijn net als Gellish bedoeld voor gebruik als taal voor het semantische web. Toch zijn er belangrijke verschillen tussen die twee talen en Gellish. De belangrijkste verschillen zijn de volgende:
1. Doelgroep en metaniveaus
RDF en OWL zijn Engelstalige metatalen die een grammatica omvatten maar zonder een woordenboek en die uitsluitend bedoeld zijn om gebruikt te worden door ontwikkelaars van computersoftware. Gellish is een taal, bestaande uit uitgebreidere uitdrukkingsmogelijkheden met zowel een Engels als een Nederlands woordenboek. Verder is Gellish bedoeld om gebruikt te worden door zowel systeemontwikkelaars alsook voor de standaardisatie van eindgebruikersterminologie in systemen. Gellish maakt geen onderscheid tussen een metataal en een gebruikerstaal. Het is mogelijk om Gellish te gebruiken als verdere specialisatie van OWL of RDF of Gellish uit te drukken in RDF/XML, zoals gespecificeerd is in ISO 15926-11.
2. Woordenlijsten en ontologieën
RDF en OWL kunnen gebruikt worden voor het vastleggen van de betekenis van termen in woordenlijsten en van de relaties tussen die termen, met andere woorden: voor het definiëren van woordenboeken, taxonomieën en ontologieën. Maar de termen in zo’n woordenlijst zijn geen deel van de RDF of OWL taal. Dus RDF en OWL omvatten geen definities van termen (concepten) uit een natuurlijke taal, zoals weg, auto, bout of lengte.
Gellish kan ook gebruikt worden voor de definitie van concepten met hun namen (termen), synoniemen en homoniemen, maar die gedefinieerde concepten en termen zijn bovendien onderdeel (uitbreidingen) van de Gellish taal zelf. Dus in Gellish Formeel Nederlands zijn concepten zoals weg, auto, bout of lengte wel deel van de Formele Nederlandse taal. Datzelfde geldt voor zinsdelen, zoals 'is een deel van'. Dus Gellish Formeel Nederlands is een deelverzameling van de natuurlijke taal Nederlands.
3. Hogere ontologie
RDF en OWL kunnen een hogere ontologie genoemd worden. OWL die bestaat uit slechts 54 ‘taalkundige concepten’. RDF omvat er ook maar een beperkt aantal.
Gellish bestaat momenteel uit meer dan 40000 concepten waarvan meer dan 1000 concepten behoren tot de basis taaldefinitie (de hogere ontologie). Dit is een aanduiding voor de grote semantische rijkdom en uitdrukkingsmogelijkheden van Gellish. Bovendien bevat Gellish zeer veel definities van feiten die uitgedrukt zijn als relaties tussen die concepten.
4. Uitbreidbaarheid
RDF en OWL bestaan uit een vast aantal concepten (termen) totdat de RDF en OWL standaarden worden uitgebreid. Gellish is uitbreidbaar door elke gebruiker.
5. Synoniemen en meertaligheid
Gellish onderscheidt concepten (die aangeduid worden door unieke identificatoren) en de termen en synoniemen die gebruikt worden om die concepten mee aan te duiden in verschillende contexten en talen. Dit ondersteunt automatisch vertalen tussen diverse natuurlijke taal versies van Gellish. In RDF en OWL zijn synoniemen en termen in andere talen in principe verschillende concepten die via expliciete equivalentierelaties aan elkaar gelijkgesteld moeten worden. Dat is een eenvoudiger concept dat echter automatisch vertalen beduidend moeilijker maakt en foute conclusies oplevert als er equivalentierelaties ontbreken.
Geschiedenis
Gellish Formal English is een verdere ontwikkeling van ISO 10303-221 (AP221) en ISO 15926. Gellish Formal English is een integratie en uitbreiding van de begrippen en uitdrukkingsmogelijkheden die in die beide standaarden gedefinieerd zijn. Een deel van het Gellish Formeel Engels Woordenboek (the Formal English Dictionary-Taxonomy), dat vroeger STEPlib werd genoemd, is gebruikt voor de ontwikkeling van ISO 15926-4. Het Gellish woordenboek is echter uitgebreider en bevat bovendien meer relaties tussen begrippen. Een deel van Gellish Formal English en een implementatie in RDF/XML is opgenomen in ISO 15926-11.
Gellish Formeel Nederlands omvat dezelfde begrippen als Formal English, waarbij de begrippen in beide talen door dezelfde unieke identificaties (Gellish UID's) gerepresenteerd worden. Ook Duitse en Franse varianten zijn in voorbereiding.
Externe links en referenties
- Gellish Formeel Nederlands is gedocumenteerd op http://www.formeelnederlands.nl/.
- De Engelse variant 'Formal English' is gedocumenteerd op de Gellish.net website.
- De achtergrond van Gellish is beschreven in: Formal English (2014) - 2e editie van 'Gellish, a Generic Extensible Ontological Language', PhD (2005), Delft University of Technology. Een pdf versie van het oorspronkelijke proefschrift is beschikbaar via the Delft University repository
Semantic Modeling in Formal English beschrijft de definitie van Formal English en in feite ook van Formeel Nederlands, omdat elk concept wordt gerepresenteerd door een taalonafhankelijke unieke identificatie (UID) met zowel een Nederlandse als een Engelse aanduiding.