Un thesaurus francophone est développé par la communauté francophone de OpenOffice.org. Il est publié sous la licence LGPL. Un thesaurus est un dictionnaire des synonymes. On peut y trouver, pour un mot déterminé, tous les mots ayant une même signification. Chaque utilisateur enregistré peut ajouter des synonymes et corriger des erreurs. En outre, nous essayons d'associer des mots ayant les mêmes rapports de sens. Par la publication des données sous LGPL, le thesaurus peut être utilisé avec OpenOffice.org et KOffice, entre autres. Puis-je aussi télécharger les données du thésaurus ?
En premier lieu, il faut absolument lire l'ensemble de la FAQ (Foire Aux Questions) jusqu'à la fin. Il est important de bien comprendre comment les données du Thesaurus sont structurées, à savoir en fonction de leur significations. Quand il existe, pour un mot comme banque, plusieurs significations, il doit exister une entrée par signification. On ne peut pas ainsi ajouter simplement d'autres synonymes qui signifieraient la même chose mais dans une autre signification. Par exemple, en plus de l'entrée établissement de crédit, on ne peut pas ainsi ajouter comptoir parce qu'il a une autre signification. On peut ajouter ou supprimer des synonymes à des entrées existantes. On peut effectuer des modifications, à l'aide d'un formulaire, qui deviennent immédiatement visibles. Pour insérer de nouvelles significations, il faut utiliser la recherche sur la page d'accueil. Il faut cocher 'Trouver comme sous-chaîne'. Si la signification n'existe pas encore, un lien s'affiche, permettant de l'insérer. Une fois la signification introduite, des synonymes peuvent aussi être ajoutés. Pourquoi doit-on s'enregistrer ? Comme cela, nous voulons empêcher que trop d'absurdités soit introduites dans la base de données. Sans enregistrement, seul l'accès en lecture seule est possible. Quand plusieurs mots ont la même signification dans un contexte déterminé, ils sont des synonymes. Par exemple : adresse - localisation Les paires de mots suivants ne sont au contraire pas des synonymes : chaud - incandescent ( la signification est vraiment trop
différente ) un hyponyme est un mot dans le sens EST INCLUS dans celui
d'un autre mot ( rose est un hyponyme de fleur ). Les synonymes de même signification forment un groupe de synonymes. Un mot avec plusieurs significations - comme banque - est présent dans plusieurs groupes de synonymes car il a différentes significations. Par exemple : Groupe de synonyme 1 : banque, agence de
crédit Les groupes de synonymes correspondent aux 'synsets' de WordNet. Le résultat de la recherche est faux, les synonymes ne conviennent pas non plus ! Les données viennent à l'origine de la partie allemande de Ding, un dictionnaire Allemand-Anglais. Un dictionnaire bilingue n'est pas, en réalité, une base appropriée pour un thesaurus, mais c'était mieux que de commencer de zéro. Celui qui trouve une erreur, peut la corriger lui-même, il suffit de s'enregistrer. Quelles corrections dois-je considérer ? Réponse courte :
Q'entend-on ici par forme de base ? Des formes de base doivent seulement être entrées dans la base de données, c'est-à-dire avec des verbes l'infinitif, avec un substantif (nom) le singulier, avec un adjectif la forme non accordée. Exemples : courir, mais pas couru, courons... Ce projet existe-t-il aussi pour d'autres langues ? En dehors du site initiateur allemand, un projet existe en Espagne et démarre en France Daniel Naber :
Konzept, Datenbank-Struktur, Programmierung, Administration |
Hier wird mit Eurer Hilfe ein deutscher Thesaurus entwickelt, der unter der GPL veröffentlicht wird. Ein Thesaurus ist ein Synonymwörterbuch, man kann dort also zu einem bestimmten Wort bedeutungsgleiche Wörter finden. Jeder registrierte Benutzer kann dem Thesaurus Synonyme hinzufügen und Fehler korrigieren. Durch die Veröffentlichung der Daten unter der GPL kann der Thesaurus u.a. mit OpenOffice.org und KOffice benutzt werden. Kann ich die Thesaurus-Daten auch herunterladen?
Zuerst einmal sollte man unbedingt die gesamte FAQ zu ende lesen. Es ist wichtig, dass man versteht, wie die Thesaurusdaten hier strukturiert sind -- nämlich nach Bedeutungen. Wenn es also von einem Wort wie Bank mehrere Bedeutungen gibt, so muss pro Bedeutung ein Eintrag existieren. Man kann also nicht einfach weitere Synonyme hinzufügen, die nur in einem anderen Zusammenhang das gleiche bedeuten. Zu dem Eintrag Bank, Kreditinstitut kann man also nicht Sitzbank hinzufügen, weil das ja was anderes bedeutet. Synonyme zu vorhandenen Begriffen hinzufügen oder löschen kann man auf der Synonymseite. Dort kann man mit Hilfe der Formularfelder Änderungen vornehmen, die sofort sichtbar werden. Um neue Begriffe einzufügen, benutzt man auf der Homepage die Suche. Dabei muss "Teilworte finden" aktiviert sein. Auf der Ergebnisseite erscheint ein Link, mit dem man den Begriff einfügen kann. Sobald der Begriff angelegt ist, können dann auch Synonyme hinzugefügt werden. Warum muss man sich registrieren? Wir wollen so verhindern, dass zuviel Unsinn in die Datenbank eingegeben wird. Lesezugriff hat man auch ohne Registrierung. Wenn zwei oder mehr Wörter in einem bestimmten Kontext die gleiche Bedeutung haben, sind sie Synonyme. Beispiele: Adresse - Anschrift Folgende Wortpaare sind dagegen keine Synonyme: warm - heiß (die Bedeutung unterscheidet sich zu
sehr) Die Synonyme einer Bedeutung bilden eine Synonymgruppe. Ein Wort mit verschiedenen Bedeutungen -- wie z.B. Bank -- taucht in so vielen Synonymgruppen auf, wie es verschiedene Bedeutungen hat, z.B.: Synonymgruppe 1: Bank, Kreditinstitut Die Synonymgruppen entsprechen den synsets von WordNet. Das Suchergebnis ist falsch, die Synonyme stimmen doch gar nicht! Die Daten stammen ursprünglich aus dem deutschen Teil von Ding, einem Deutsch-Englisch-Wörterbuch. Ein zweisprachiges Wörterbuch ist als Grundlage für einen Thesaurus eigentlich nicht geeignet, es war jedoch immer noch besser, als bei Null anzufangen. Wer einen Fehler findet, kann ihn selber korrigieren, dazu muss man sich nur einloggen. Was soll ich bei Korrektureingaben beachten? In Kurzform:
Was ist hier mit Grundform gemeint? In die Datenbank sollen nur nicht-abgeleitete Wortformen eingefügt werden, d.h. bei Verben der Infinitiv, bei Nomen der Singular, bei Adjektiven die nicht-gesteigerte Form. Beispiele: okay: laufen, aber nicht: lief, läufst, ... Gibt es dieses Projekt auch für anderen Sprachen? Es ist geplant, das gleiche auch mit anderen Sprachen zu machen, sofern für diese ebenfalls noch kein freier Thesaurus zur Verfügung steht und sofern sich Muttersprachler der jeweiligen Sprachen finden, die sich als Administrator intensiv um ihren Bereich kümmern. Daniel Naber
(daniel.naber [at] t-online.de): Konzept, Datenbank-Struktur,
Programmierung, Administration I want to start a thesaurus project for a new language. What should I do? Please read this paper (PDF, 266 KB), it explains how OpenThesaurus works and how it can be adapted to other languages. |