SyllabO+
SyllabO+
L’article SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French a été publié dans le journal Behavior Research Methods.
Merci de citer cette publication lorsque vous utilisez SyllabO+ ou lorsque vous effectuez des analyses sur le corpus ou la base de données.
The article SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French has been published in Behavior Research Methods. Please cite this publication when using SyllabO+ or conducting any analyses on either the database or corpus. Thank you!
Vous pouvez utiliser SyllabO+ pour télécharger l’une de nos bases de données sous-lexicales (phones ou syllabes) ou lexicales (mots ou lemmes) (à venir). Vous pouvez aussi télécharger seulement une partie des données correspondants aux résultats d’une recherche générée selon des paramètres spécifiques (âge et sexe des locuteurs, contexte de communication). Veuillez noter que les fichiers générés sont au format CSV (comma separated values). Pour plus de renseignements quant à leur utilisation, consultez le guide d’utilisation.
You can use this page to download one of our sublexical (syllables or phonemes) or lexical databases (words or lemmas). You can also search the databases based on specific parameters (speaker age and gender, communication context) and download the result of this search. The output files will be in CSV format (comma separated values). For information on how to handle these files, please consult the user manual.
Base de données des phones
Lorsque vous téléchargez la base de données des phones, deux fichiers sont inclus dans un document compressé (.ZIP): les phones et les diphones, au format CSV (avec les caractères spéciaux API encodés).
Des versions alternatives de la base de données sont également disponibles ci-dessous au format .XLSX (avec les caractères spéciaux API encodés) et au format .CSV sans caractères spéciaux (transcription avec l'alphabet SAMPA – Speech Assessment Methods Phonetic Alphabet).
Télécharger la base de données de PHONES
Télécharger les phones en format XLSX (transcription API)
Télécharger les phones en format CSV (transcription SAMPA)
Phone database
When you download the entire phone database, two files are included in a .ZIP folder: the single phones and the sequences of two phones (diphones) in .CSV format with special IPA characters already embedded.
Alternative downloads are also available below in the form of .XLSX files (with special IPA characters embedded) and .CSV files transcribed in SAMPA – Speech Assessment Methods Phonetic ALphabet (without any special characters).
Download PHONE database
Download phone database in XLSX format (IPA transcription)
Download phone database in CSV format (SAMPA transcription)
Base de données des syllabes
Lorsque vous téléchargez toute la base de données de syllabes, trois fichiers sont inclus dans un document compressé (.ZIP): soit les syllabes, les paires et les triades au format CSV (avec les caractères spéciaux API encodés).
Des versions alternatives de la base de données sont également disponibles ci-dessous au format .XLSX (avec les caractères spéciaux API déjà encodés) et au format .CSV sans caractères spéciaux (transcription avec l'alphabet SAMPA – Speech Assessment Methods Phonetic Alphabet).
Télécharger la base de données de SYLLABES
Télécharger les syllabes en format XLSX (transcription API)
Télécharger les syllabes en format CSV (transcription SAMPA)
Syllable database
When you download the entire syllable database, three files are included in a .ZIP folder: the single syllables, the sequences of two syllables (pairs), and sequences of three syllables (triads) in .CSV format with special IPA characters embedded.
Alternative downloads are also available below in the form of .XLSX files (with special IPA characters already embedded) and .CSV files transcribed in SAMPA – Speech Assessment Methods Phonetic ALphabet (without any special characters).
Download the SYLLABLE database
Download syllable database in XLSX format (IPA transcription)
Download syllable database in CSV format (SAMPA transcription)
Base de données des mots
Lorsque vous téléchargez la base de données de mots, trois fichiers sont inclus dans un document compressé (.ZIP): soit les mots uniques, les paires et les triades, au format CSV (avec les caractères spéciaux du français encodés). À noter que cette base de données est sous forme orthographique.
Une version alternative de la base de données est également disponible ci-dessous au format .XLSX (avec les caractères spéciaux du français déjà encodés).
Télécharger la base de données de MOTS
Télécharger les mots en format XLSX
Word database
When you download the entire word database, three files are included in a .ZIP folder: the single words, the sequences of two words (pairs), and sequences of three words (triads) in .CSV format with French special characters embedded.
An alternative download is also available below in the form of .XLSX files (with special French characters embedded).
Download the WORD database
Download word database in XLSX format
Base de données des lemmes
Lorsque vous téléchargez toute la base de données de lemmes, trois fichiers sont inclus dans un document compressé (.ZIP): soit les lemmes uniques, les paires et les triades au format CSV (avec les caractères spéciaux du français encodés). À noter que cette base de données est sous forme orthographique.
Une version alternative de la base de données est également disponible ci-dessous au format .XLSX (avec les caractères spéciaux du Français encodés).
Télécharger la base de données de LEMMES
ou
Télécharger les lemmes en format XLSX
Lemma database
When you download the entire lemma database, three files are included in a .ZIP folder: the single lemmas, the sequences of two lemmas (pairs), and sequences of three lemmas (triads) in .CSV format with French special characters embedded.
An alternative download is also available below in the form of .XLSX files (with special French characters embedded).
Download the LEMMA database
Download lemma database in XLSX format
Base de données morphologique
Lorsque vous téléchargez la base de données morphologique, deux fichiers .XLSX (avec les caractères spéciaux API et ceux du français encodés) et un document Word sont inclus dans un document compressé (.ZIP).
Le fichier Morphologie.xlsx inclut les mots uniques de syllabO (orthographe conventionnelle et API), découpés en morphèmes et en syllabes et analysés. Le fichier Legende_morphologie.xlsx contient une description des données incluses dans le fichier Morphologie.xlsx.
Un sous-ensemble de mots de la base de données a été analysé pour la transparence sémantique (Voir Auclair-Ouellet et al. 2024 dans la section publication). Les résultats de ces analyses sont inclus dans le fichier Morphologie.xlsx
Le fichier Word Protocole_Morpho_FR_VF contient le protocole de transcription et d’analyse de la base de données Morphologie.xlsx.
Morphological database
When you download the morphology database, two .XLSX files (with special characters from French and IPA encoded) and a Word document are included in a compressed document (.ZIP).
The Morphology.xlsx file includes syllabO's unique words (orthographic and phonetic transcriptions available), broken down into morphemes and syllables and analyzed. The file Legende_morphologie.xlsx contains a description of the data included in the Morphologie.xlsx file.
A subset of words from the database was analyzed for semantic transparency (see Auclair-Ouellet et al. 2024 in the publication section). The results of these analyses are included in the Morphologie.xlsx file.
The Word file Protocole_Morpho_ENG_VF.docx contains the transcription and analysis protocol for the Morphologie.xlsx database.
Transparence sémantique
Un sous-ensemble de mots de la base de données a été analysé pour la transparence sémantique. Les résultats de ces analyses sont inclus dans le fichier Morphologie.xlsx
Les données brutes du sondage sont également disponibles en deux fichiers au format .XLMX Le premier fichier (Sondage_Transparence_L1_withLegend.xlsx) contient les données des répondants qui ont le français comme langue maternelle. Il est structuré avec une ligne par paire de mot. Les données socio-démographiques sont répétées pour les participants sur chaque ligne. Le deuxième fichier (Sondage_Transparence_L2_withLegend.xlsx) contient les données des répondants qui ont le français comme langue seconde. Il est organisé dans un format plus traditionnel (une ligne par participant, une colonne par paire de mot). Les documents sont également disponibles en format CSV UTF-8 (avec la vigule comme séparateur). Chaque base de données inclut deux fichiers : les données (Sondage_Transparence_L1.csv, Sondage_Transparence_L2.csv) et la légende (Legend_Sondage_Transparence_L1.csv, Legend_Sondage_Transparence_L2.csv).
Semantic transparency
A subset of words from the database was analyzed for semantic transparency. The results of these analyzes are included in the file Morphology.xlsx
The raw survey data is also available in two files in .XLMX format The first file (Sondage_Transparence_L1_withLegend.xlsx) contains data from respondents who have French as their mother tongue. It is structured with one line per word pair. Socio-demographic data is repeated for participants on each row. The second file (Sondage_Transparence_L2_withLegend.xlsx) contains data from respondents who have French as a second language. It is organized in a more traditional format (one row per participant, one column per word pair). The documents are also available in UTF-8 CSV format (with comma as separator). Each database includes two files: the data (Sondage_Transparence_L1.csv, Sondage_Transparence_L2.csv) and the legend (Legend_Sondage_Transparence_L1.csv, Legend_Sondage_Transparence_L2.csv).
Corpus brut
Vous pouvez télécharger ici le corpus brut (transcriptions des enregistrements en version orthographique et en version alphabet phonétique international). Ce dossier compressé contient l'ensemble du corpus, soit 225 fichiers XML (un par locuteur), un fichier _Liste_locuteurs.XML et un fichier READ ME (README.md) contenant l’explication de la structure des fichiers XML et de celle du fichier Locuteurs.
Les enregistrements vocaux originaux ne peuvent être partagés pour des raisons éthiques. Lorsque le projet a été approuvé par notre comité éthique local en 2014 (#2014-86, 356-2014, Comité d’éthique de la recherche sectoriel en neurosciences et santé mentale, Institut Universitaire en Santé Mentale de Québec), nous n’avons pas demandé la permission pour partager les enregistrements vocaux, les participants n’y ont donc pas consenti, et il n’est pas possible d’obtenir ce consentement rétroactivement. Ainsi, afin de nous conformer aux les lois et règlements en vigueur au Québec, au Canada ainsi que dans notre centre de recherche, il nous est donc impossible de partager ces fichiers.
Raw corpus
The raw corpus is available here for download (transcriptions of the recordings, in both orthographic version and International Phonetic Alphabet version). This compressed folder contains the entire corpus, which consists of 225 XML files (one per speaker), a _Liste_locuteurs.XML file and one READ ME file (README.md) containing an explanation of the structure of the XML files and the structure of the Locuteurs file.
The original voice recordings cannot be shared for ethical reasons. When the project was approved by our local research ethics committee in 2014 (#2014-86, 356-2014, Comité d'éthique de la recherche sectoriel en neurosciences et santé mentale, Institut Universitaire en Santé Mentale de Québec), we did not ask permission to share the voice recordings, so the participants did not consent to it, and it is not possible to obtain this consent retroactively. To comply with the laws and regulations of Quebec, Canada and our research centre, it is therefore impossible for us to share these files.