SyllabO+

SyllabO+


L’article SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French a été publié dans le journal Behavior Research Methods. Merci de citer cette publication lorsque vous utilisez SyllabO+ ou lorsque vous effectuez des analyses sur le corpus ou la base de données.


The article SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French has been published in Behavior Research Methods. Please cite this publication when using SyllabO+ or conducting any analyses on either the database or corpus. Thank you!

Vous pouvez utiliser SyllabO+ pour télécharger l’une de nos bases de données sous-lexicales (phones ou syllabes) ou lexicales (mots ou lemmes) (à venir). Vous pouvez aussi télécharger seulement une partie des données correspondants aux résultats d’une recherche générée selon des paramètres spécifiques (âge et sexe des locuteurs, contexte de communication). Veuillez noter que les fichiers générés sont au format CSV (comma separated values). Pour plus de renseignements quant à leur utilisation, consultez le guide d’utilisation.

You can use this page to download one of our sublexical (syllables or phonemes) or lexical databases (words or lemmas). You can also search the databases based on specific parameters (speaker age and gender, communication context) and download the result of this search. The output files will be in CSV format (comma separated values). For information on how to handle these files, please consult the user manual.

Si vous souhaitez télécharger la version 2016 (SyllabO+184 locuteurs), cliquez pour obtenir la documentation , les bases de données de syllabes ( API-csv, API-xlsx , SAMPA-csv ) ou de phones ( API-csv, API-xlsx , SAMPA-csv ).

If you wish to download the 2016 version (SyllabO+184), click to download the documentation , the syllable databases ( IPA-csv, IPA-xlsx , SAMPA-csv ) or the phone databases ( IPA-csv, IPA-xlsx , SAMPA-csv ).

Base de données des phones

Lorsque vous téléchargez la base de données des phones, deux fichiers sont inclus dans un document compressé (.ZIP): les phones et les diphones, au format CSV (avec les caractères spéciaux API encodés).

Des versions alternatives de la base de données sont également disponibles ci-dessous au format .XLSX (avec les caractères spéciaux API encodés) et au format .CSV sans caractères spéciaux (transcription avec l'alphabet SAMPA – Speech Assessment Methods Phonetic Alphabet).

Télécharger la base de données de PHONES

Télécharger les phones en format XLSX (transcription API)

Télécharger les phones en format CSV (transcription SAMPA)

Phone database

When you download the entire phone database, two files are included in a .ZIP folder: the single phones and the sequences of two phones (diphones) in .CSV format with special IPA characters already embedded.

Alternative downloads are also available below in the form of .XLSX files (with special IPA characters embedded) and .CSV files transcribed in SAMPA – Speech Assessment Methods Phonetic ALphabet (without any special characters).

Download PHONE database

Download phone database in XLSX format (IPA transcription)

Download phone database in CSV format (SAMPA transcription)

Base de données des syllabes

Lorsque vous téléchargez toute la base de données de syllabes, trois fichiers sont inclus dans un document compressé (.ZIP): soit les syllabes, les paires et les triades au format CSV (avec les caractères spéciaux API encodés).

Des versions alternatives de la base de données sont également disponibles ci-dessous au format .XLSX (avec les caractères spéciaux API déjà encodés) et au format .CSV sans caractères spéciaux (transcription avec l'alphabet SAMPA – Speech Assessment Methods Phonetic Alphabet).

Télécharger la base de données de SYLLABES

Télécharger les syllabes en format XLSX (transcription API)

Télécharger les syllabes en format CSV (transcription SAMPA)

Syllable database

When you download the entire syllable database, three files are included in a .ZIP folder: the single syllables, the sequences of two syllables (pairs), and sequences of three syllables (triads) in .CSV format with special IPA characters embedded.

Alternative downloads are also available below in the form of .XLSX files (with special IPA characters already embedded) and .CSV files transcribed in SAMPA – Speech Assessment Methods Phonetic ALphabet (without any special characters).

Download the SYLLABLE database

Download syllable database in XLSX format (IPA transcription)

Download syllable database in CSV format (SAMPA transcription)


Base de données des mots

Lorsque vous téléchargez la base de données de mots, trois fichiers sont inclus dans un document compressé (.ZIP): soit les mots uniques, les paires et les triades, au format CSV (avec les caractères spéciaux du français encodés). À noter que cette base de données est sous forme orthographique.

Une version alternative de la base de données est également disponible ci-dessous au format .XLSX (avec les caractères spéciaux du français déjà encodés).

Télécharger la base de données de MOTS

Télécharger les mots en format XLSX

Word database

When you download the entire word database, three files are included in a .ZIP folder: the single words, the sequences of two words (pairs), and sequences of three words (triads) in .CSV format with French special characters embedded.

An alternative download is also available below in the form of .XLSX files (with special French characters embedded).

Download the WORD database

Download word database in XLSX format


Base de données des lemmes

Lorsque vous téléchargez toute la base de données de lemmes, trois fichiers sont inclus dans un document compressé (.ZIP): soit les lemmes uniques, les paires et les triades au format CSV (avec les caractères spéciaux du français encodés). À noter que cette base de données est sous forme orthographique.

Une version alternative de la base de données est également disponible ci-dessous au format .XLSX (avec les caractères spéciaux du Français encodés).

Télécharger la base de données de LEMMES
ou
Télécharger les lemmes en format XLSX

Lemma database

When you download the entire lemma database, three files are included in a .ZIP folder: the single lemmas, the sequences of two lemmas (pairs), and sequences of three lemmas (triads) in .CSV format with French special characters embedded.

An alternative download is also available below in the form of .XLSX files (with special French characters embedded).

Download the LEMMA database

Download lemma database in XLSX format


Base de données morphologique

Lorsque vous téléchargez la base de données morphologique, deux fichiers .XLSX (avec les caractères spéciaux API et ceux du français encodés) et un document Word sont inclus dans un document compressé (.ZIP).

Le fichier Morphologie.xlsx inclut les mots uniques de syllabO (orthographe conventionnelle et API), découpés en morphèmes et en syllabes et analysés. Le fichier Legende_morphologie.xlsx contient une description des données incluses dans le fichier Morphologie.xlsx.

Un sous-ensemble de mots de la base de données a été analysé pour la transparence sémantique (Voir Auclair-Ouellet et al. 2024 dans la section publication). Les résultats de ces analyses sont inclus dans le fichier Morphologie.xlsx

Le fichier Word Protocole_Morpho_FR_VF contient le protocole de transcription et d’analyse de la base de données Morphologie.xlsx.

Télécharger la base de données MORPHO

Morphological database

When you download the morphology database, two .XLSX files (with special characters from French and IPA encoded) and a Word document are included in a compressed document (.ZIP).

The Morphology.xlsx file includes syllabO's unique words (orthographic and phonetic transcriptions available), broken down into morphemes and syllables and analyzed. The file Legende_morphologie.xlsx contains a description of the data included in the Morphologie.xlsx file.

A subset of words from the database was analyzed for semantic transparency (see Auclair-Ouellet et al. 2024 in the publication section). The results of these analyses are included in the Morphologie.xlsx file.

The Word file Protocole_Morpho_ENG_VF.docx contains the transcription and analysis protocol for the Morphologie.xlsx database.

Download the MORPHO database

Transparence sémantique

Un sous-ensemble de mots de la base de données a été analysé pour la transparence sémantique. Les résultats de ces analyses sont inclus dans le fichier Morphologie.xlsx

Les données brutes du sondage sont également disponibles en deux fichiers au format .XLMX Le premier fichier (Sondage_Transparence_L1_withLegend.xlsx) contient les données des répondants qui ont le français comme langue maternelle. Il est structuré avec une ligne par paire de mot. Les données socio-démographiques sont répétées pour les participants sur chaque ligne. Le deuxième fichier (Sondage_Transparence_L2_withLegend.xlsx) contient les données des répondants qui ont le français comme langue seconde. Il est organisé dans un format plus traditionnel (une ligne par participant, une colonne par paire de mot). Les documents sont également disponibles en format CSV UTF-8 (avec la vigule comme séparateur). Chaque base de données inclut deux fichiers : les données (Sondage_Transparence_L1.csv, Sondage_Transparence_L2.csv) et la légende (Legend_Sondage_Transparence_L1.csv, Legend_Sondage_Transparence_L2.csv).

Télécharger les fichiers de transparence

Semantic transparency

A subset of words from the database was analyzed for semantic transparency. The results of these analyzes are included in the file Morphology.xlsx

The raw survey data is also available in two files in .XLMX format The first file (Sondage_Transparence_L1_withLegend.xlsx) contains data from respondents who have French as their mother tongue. It is structured with one line per word pair. Socio-demographic data is repeated for participants on each row. The second file (Sondage_Transparence_L2_withLegend.xlsx) contains data from respondents who have French as a second language. It is organized in a more traditional format (one row per participant, one column per word pair). The documents are also available in UTF-8 CSV format (with comma as separator). Each database includes two files: the data (Sondage_Transparence_L1.csv, Sondage_Transparence_L2.csv) and the legend (Legend_Sondage_Transparence_L1.csv, Legend_Sondage_Transparence_L2.csv).

Download transparency files

Corpus brut

Vous pouvez télécharger ici le corpus brut (transcriptions des enregistrements en version orthographique et en version alphabet phonétique international). Ce dossier compressé contient l'ensemble du corpus, soit 225 fichiers XML (un par locuteur), un fichier _Liste_locuteurs.XML et un fichier READ ME (README.md) contenant l’explication de la structure des fichiers XML et de celle du fichier Locuteurs.

Les enregistrements vocaux originaux ne peuvent être partagés pour des raisons éthiques. Lorsque le projet a été approuvé par notre comité éthique local en 2014 (#2014-86, 356-2014, Comité d’éthique de la recherche sectoriel en neurosciences et santé mentale, Institut Universitaire en Santé Mentale de Québec), nous n’avons pas demandé la permission pour partager les enregistrements vocaux, les participants n’y ont donc pas consenti, et il n’est pas possible d’obtenir ce consentement rétroactivement. Ainsi, afin de nous conformer aux les lois et règlements en vigueur au Québec, au Canada ainsi que dans notre centre de recherche, il nous est donc impossible de partager ces fichiers.

Télécharger le corpus

Raw corpus

The raw corpus is available here for download (transcriptions of the recordings, in both orthographic version and International Phonetic Alphabet version). This compressed folder contains the entire corpus, which consists of 225 XML files (one per speaker), a _Liste_locuteurs.XML file and one READ ME file (README.md) containing an explanation of the structure of the XML files and the structure of the Locuteurs file.

The original voice recordings cannot be shared for ethical reasons. When the project was approved by our local research ethics committee in 2014 (#2014-86, 356-2014, Comité d'éthique de la recherche sectoriel en neurosciences et santé mentale, Institut Universitaire en Santé Mentale de Québec), we did not ask permission to share the voice recordings, so the participants did not consent to it, and it is not possible to obtain this consent retroactively. To comply with the laws and regulations of Quebec, Canada and our research centre, it is therefore impossible for us to share these files.

Download corpus

SyllabO+ 184

Pour accéder à la base de données telle que publiée dans Behavior Research Methods en 2016 (avec 184 locuteurs), cliquez pour obtenir la documentation , les bases de données de syllabes ( API-csv, API-xlsx , SAMPA-csv ) ou de phones ( API-csv, API-xlsx , SAMPA-csv ).

SyllabO+ 184

To download the 2016 database (184 speakers) as published in Behavior Research Methods, click to download the documentation , the syllable databases ( IPA-csv, IPA-xlsx , SAMPA-csv ) or the phone databases ( IPA-csv, IPA-xlsx , SAMPA-csv ).