Bienvenue sur SyllabO+

Welcome to SyllabO+

Introduction

Nous sommes heureux de présenter le projet SyllabO+, le premier outil dédié à l’étude de la langue orale franco-québécoise sur les plans sous-lexical et lexical. SyllabO+ est composé de deux bases de données sous-lexicales et une base de données lexicale (à venir), générées à partir des échantillons de parole de 225 locuteurs franco-québécois adultes. La première base de données, les syllabes, contient plus de 360 000 syllabes alors que la seconde, celle des phones, contient plus de 830 000 phones. Les syllabes et les phones extraits de ce corpus sont transcrits en alphabet phonétique international (API) afin de représenter fidèlement les sons prononcés. Finalement, la base de données lexicale contient 305 605 mots/lemmes.

La base de données de syllabes permet d’effectuer des recherches sur des syllabes uniques, des paires de syllabes et des groupes de trois syllabes. Les statistiques peuvent être extraites en fonction de l'âge et du genre des locuteurs et du contexte de communication. Dans chaque cas, vous obtiendrez un tableau contenant de nombreuses informations et statistiques, telles que la structure syllabique (p. ex. CV, CCV, CCVC), la fréquence (absolue et en pourcentage), le rang centile, la probabilité de transition et le score d’association (pour les groupes de deux à trois unités). La base de données de phones permet également d’effectuer des recherches sur des phones uniques et des diphones, ainsi que sur toutes les informations et statistiques associées. De même, la base de données lexicale permet d'effectuer des recherches sur des mots/lemmes uniques, des paires de mots/lemmes et des groupes de trois mots/lemmes, avec leurs statistiques associées.

SyllabO+ a été publié dans le journal Behavior Research Methods. Pour plus d'informations sur le projet, consultez l’article SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French. Merci de citer cette publication lorsque vous utilisez SyllabO+, aussi bien les bases de données que le corpus!

Introduction

We are very proud to introduce SyllabO+, the very first corpus and databases dedicated spoken French in Québec, at the sub-lexical and lexical levels! No other database focusing on spoken Quebec French exists. The corpus contains the transcriptions of 225 native speakers of Quebec French in formal and informal communication contexts. All recordings represent natural speech, that is, no text was read and conversations were not scripted. SyllabO+ contains a database of over 360,000 syllables and a database of 830,000 phones generated from the corpus, as well as a lexical database of 305,605 words/ lemmas. All syllables and phones are transcribed in international phonetic alphabet (IPA) to represent the articulation accurately.

Single syllables, phones, or words/lemmas can be searched in the database, as well as pairs of units, and groups of three units, together with their associated distributional statistics, including normalized frequency, co-occurrence frequencies, transition probabilities and mutual information (for groups of two to three units). Information about syllable structure is also available. Statistics can be obtained based on speaker age and gender, as well as communication context.

SyllabO+ has been published in the international peer-reviewed journal Behavior Research Methods. For more information, consult the article here: SyllabO+: A new tool to study sublexical phenomena in spoken Quebec French. Please cite this publication when using SyllabO+ or conducting any analysis on either the database or corpus. Thank you!

Le projet

Le projet SyllabO+ a été réalisé par l’équipe de la Dre Pascale Tremblay, Ph.D. au Laboratoire des neurosciences de la parole et de l’audition de l’Université Laval. Il forme le cœur du mémoire de maîtrise de Pascale Bédard, M.Sc., qui a effectué ce travail sous la supervision de la Dre Tremblay, Ph.D., en collaboration avec Patrick Drouin, Ph.D., de l’Université de Montréal et Johanna-Pascale Roy, Ph.D., de l’Université Laval. D’autres étudiants ont également participé au projet: Anne-Marie Audet, Julie Rivard, Claudie Ouellet, Chloé Chagnon-Dumesnil, Micaël Carrier et Catherine Denis. Le corpus original (SyllabO+184), publié en 2016 dans la revue Behavioral Research Methods, contenait 184 locuteurs. À l’hiver 2017, nous avons ajouté 41 nouveaux locuteurs pour atteindre 225 locuteurs. Vous pouvez maintenant effectuer des recherches en ligne dans SyllabO+225, ou encore télécharger la base de données de SyllabO+184.

Ce projet a été financé par le Conseil de recherches en sciences humaines (CRSH), grâce à deux Subventions du Programme Savoir obtenues par la Dre Tremblay en 2013 et en 2016, ainsi qu’une Subvention Connection du CRSH, et rendu possible grâce à une subvention de la Fondation Canadienne pour l’innovation (FCI) également obtenue par la Dre Tremblay. Nous remercions également le Centre de recherche CERVO et le département de réadaptation pour leur soutien.

The project

Project SyllabO+ started in summer 2013 and was carried out by the team of Pascale Tremblay, Ph.D. at the Speech and Hearing Neuroscience Laboratory at Université Laval. It forms the bulk of the master thesis of Pascale Bédard, M.Sc., who completed this work under the supervision of Pascale Tremblay, Ph.D., in collaboration with Patrick Drouin, Ph.D., Université de Montréal, and Johanna-Pascale Roy, Ph.D., Université Laval. Other students have also contributed to the project: Anne-Marie Audet, Julie Rivard, Claudie Ouellet, Chloé Chagnon-Dumesnil, Micaël Carrier and Catherine Denis. The corpus initially included 184 speakers. This corpus – SyllabO+184 – was published in Behavioral Research Methods in 2016. During winter 2017, we added an additional 41 speakers to reach a total of 225 speakers. You can now search online through the SyllabO+225 databases, or download the SyllabO+184 syllable database.

The project was funded by the Social Sciences and Humanities Research Council of Canada (SSHRC) through two Insight Development Grants obtained by P. Tremblay in 2013 and 2016, as well as a Connection grant obtained in 2016 by P. Tremblay. The project was made possible through a Leaders Opportunity Fund (LOF) from the Canada Foundation for Innovation (CFI) also to P. Tremblay. We also thank the CERVO Brain Research Center, and the Rehabilitation Department at Université Laval, for their support.

Documentation

Vous pouvez consulter la documentation supplémentaire, telle que le protocole de transcription phonétique et de syllabation, la description des fichiers de SyllabO+ (incluant la description des colonnes de chaque tableau de résultats avec le détail des calculs effectués), un petit guide d’utilisation avec des exemples et un document où se trouve un résumé des informations sur les enregistrements. Toute la documentation est disponible en français et en anglais. La documentation pour la base de données lexicale se trouve ici (à venir) : protocole de transcription orthographique, description des fichiers, guide d'utilisation, résumé des informations sur les enregistrements.

Documentation

Additional information is available to facilitate the use of the databases and interpretation of the results. This includes a summary of the information on the audio recordings, the detailed protocol used for the phonetic transcription and syllabification, as well as a description of the files generated by the website database (with details of the calculations for the distributional statistics). A detailed user manual is also available. All documentation is available in both French and English. Documentation for the lexical database can be found here (coming soon) : summary of the audio recordings, orthographic transcription protocol, files description >, and user manual.


Pour tout projet nécessitant l'analyse des données brutes – que ce soient les enregistrements audio ou les transcriptions complètes –, veuillez contacter Pascale Tremblay à l'adresse suivante pascale.tremblay@fmed.ulaval.ca.

For projects requiring the analysis of raw data – whether audio recordings or whole transcriptions –, please contact Pascale Tremblay at pascale.tremblay@fmed.ulaval.ca.