Corpus

Cette page recense progressivement les liens en rapport avec le traitement informatique des textes chinois : dictionnaires et listes de mots chinois, les statistiques lexicales, corpus de chinois (lexicalement, sémantiquement ou syntaxiquement étiquetés), ainsi que les outils permettant l'analyse des corpus monolingues (chinois) ou bilingues (chinois - anglais), concordanciers, étiqueteurs lexicaux et syntaxiques, Wenlin... Merci de nous contacter pour signaler un lien défectueux ou manquant.

 


 
LEXICOGRAPHIE VS DICTIONAIRIQUE


DICTIONNAIRES 'CLASSIQUES' ET ENCYCLOPEDIES

>> Vers un exercice


DICTIONNAIRES EN LIGNE (généralités)

Chercher un dictionnaire de chinois (portails et moteurs de recherche)  
http://www.sinoiseries.org/cidian.html 
WORD LISTS AND ONLINE GLOSSARIES/DICTIONARIES (liens de Marjorie Chan, Ohio)
Your dictionary.com  
Dictionnaires de chinois sur le Web (Inalco-CRIM, C. Levert) 
Lexiconer  
网上词典 

Quelques dictionnaires de chinois 
Zhongwen.com 
当代汉英词典 (Ling Yutang
Chinese-English Online Dictionary (cedict) 
... plus tous ceux que vous aurez trouvez dans l'étage supérieur...

Encyclopédies multilingues
Wikipedia (avec entrées en chinois) 

Quelques exemples de glossaires / lexiques thématiques 
Dictionnaire des termes informatiques 
Glossaire anglais-chinois des termes informatiques (2) 
Database for standard Chinese computeur terminology 
Dictionnaire de Chengyu 
包装词汇英汉对照  

Dictionnaire de synonymes / antonymes 
http://www.hkdictionary.net/synonym/

Taiwanais
EDUTECH French-Taiwanese Dictionary 
台语外语词典(tw) 

Japonais
Kanjidict 

Dictionnaire pédagogique Français chinois
法语帮助 



WENLIN 

Démonstration en classe des fonctionnalités utiles en lexicologie de la plate-forme Wenlin [...]


LISTES DE MOTS - STATISTIQUES LEXICALES

A Review of Chinese Word Lists Accessible on the Internet 

Base de connaissances lexicales et grammaticales du chinois 中華民國計算語言學學會 CKIP Lexicon and Chinese Grammar (Rocling : Association of Computational Linguistics and Chinese Language). 

Listes de mots avec différentes données statistiques établies à partir de 'Sinica Corpus'  「中央研究院平衡語料庫詞集及詞頻統計 Word List with Accumulated Word Frequency in Sinica Corpus 3.0」(payant) 



CORPUS TEXTUELS ELECTRONIQUES DE CHINOIS


Les Corpus  de l'Academia Sinica (chinois contemporain, chinois moderne, chinois classique...)

Concordance de chinois moderne lexicalement informée 'Sinica Corpus',  Balanced Corpus of Modern Chinese 现代汉语平衡语料库   (Chinese Information Processing Laboratory CIPL, Academia Sinica, TW. Possibilité de délimiter le corpus de recherche selon le registre langagier, le type de documents etc... et possibilité de réaménager les résultats de recherches selon différents critères : collocations, catégories syntaxiques ...) Autres adresse en cas d'embouteillage : 「中央研究院現代漢語平衡語料庫」Sinica corpus 

Sinica Treebank Version 2.1  中文句结构树资料库 (Base de données des arbres syntaxiques générée à partir de  Sinica Corpus, avec critères de recherches approfondis)

Les autres corpus de l'Academia Sinica (chinois archaïque > chinois pré-moderne)


Les corpus et bases de données de l'Université de Pékin

现代汉语语法信息词典  (dictionnaire de mot par catégories syntaxiques avec attributs syntaxiques, données de collocations..., à partir du corpus lexicalement étiqueté du Renmin Ribao, année 1998. Centre de recherches en linguistiques computationnelle, Université de Pékin. Sur cette page, on pourra accéder au téléchargement de ficher .dbf.  Sur le site 88data, possibilité de télécharger une partie du dictionnaire au format Access. )


OUTILS D'ANALYSE AUTOMATIQUE DE CORPUS DE CHINOIS


CONCORDANCIERS 

Qu'est-ce qu'une concordance ? [...]
Voir ici une concordance d'une sélection de poèmes de Shelley (réalisée avec CONC). 

A quoi peut servir une concordance ? 

- recherches linguistiques, 

- littérature,

- didactique des langues.

Utilisation des concordanciers en didactique : un outil utile pour le prof. et pour l'élève [...] 
Utilisation des concordanciers électroniques dans les classes de langues étrangères

- Le professeur peut utiliser une concordance pour trouver des exemples authentiques afin d'illustrer des faits de vocabulaire, des collocations caractéristiques, un point de grammaire ou pour faire ressortir la structure d'un texte;

- Le professeur peut créer des exercices (des quiz par exemple) basés sur des exemples tirés de corpus variés;

- Les étudiants peuvent travailler sur les règles de grammaire et les faits lexicaux par eux-même, en recherchant des mots clefs en contexte; en fonction de leur niveau, on peut leur demander d'évaluer les règles acquises sur la base de leur propre observation des modèles dans des corpus de langue authentique.

- Les étudiants peuvent être plus actifs dans l'acquisition du vocabulaire : en fonction de leur niveau, on peut leur demander de découvrir de nouveaux sens, d'observer les collocations usuelles pour un mot, de relier les mots à la syntaxe, les amener à être critique par rapport aux entrées des dictionnaires;

- Les étudiants peuvent être conviés à réfléchir sur l'usage de la langue en général sur la base de leur propre exploration de données des corpus, comme des chercheurs en herbe. Marie-Noëlle Lamy and Hans Jørgen Klarskov Mortensen.

Possibilités des concordanciers électroniques 

Les concordanciers et les textes bilingues alignés 

Le logiciel CONC 
Faire une recherche dans le Concordancier bilingue (chinois/anglais) en ligne de l'équipe de Traduction Automatique de  l'ICT (Institute of Computing Technologie)
http://www.edict.com.hk/concordance/ (textes bilingues parallèles, chinois / anglais) 

 


Segmentation et étiquetage lexical des textes chinois 

ICTCLAS (>> Institute of Computing Technology ICT, Chinese Lexical Analysis System). >>  vers un Exercice 

Analyseurs syntaxiques des textes chinois 

ICTPROP (idem) 


TRADUCTION

[...]



INSTITUTIONS - ÉQUIPES DE RECHERCHES - ASSOCIATIONS - REVUES - COLLOQUES

Chine

Centre de recherches en linguistique computationnelle de l'Université de Pékin (Jisuan yuyanxue yanjiusuo) 
Chinese Natural Language CNLP platform 中文自然语言处理开放平台  Zhongwen ziran yuyan chuli kaifang pingtai
Chinese information process Platform - 中文信息处理平台 Zhongwen xinxi chuli pingtai  
Institute of Computing Technology (ICT) - Chinese Academy of Sciences 

Occident

Atala, Association pour le traitement automatique des langues "Un point d'entrée pour le traitement automatique des langues en France"
TALN congrès francophone d'audience internationale sur le Traitement Automatique des Langues Naturelles. 


 

 

 

 

 

 

 

 

Dernière modification :
mercredi 04 août 2004