Stanford CS25: V3 I Rețetă pentru formarea de chatbot utili

31 octombrie 2023
Nazneen Rajani, HuggingFace

A existat o mulțime de muncă în instruirea agenților conversaționali utili, folosind modele lingvistice mari (LLM). Aceste modele se bazează pe diverse seturi de date, inclusiv depozite open-source, date private și chiar date sintetice generate din LLM-uri precum GPT-4. Cu toate acestea, curatarea seturilor de date pentru reglarea fină supravegheată implică decizii critice, cum ar fi definirea distribuțiilor de sarcini, volumul de date, lungimea promptului și multe altele. În timp ce cercetările anterioare subliniază importanța calității datelor, impactul nuanțat al acestor diferiți factori de seturi de date asupra performanței modelului rămâne neclar. În această discuție, voi prezenta abordarea noastră pentru curatarea datelor pentru reglarea fină supravegheată și învățare prin consolidare pentru feedback uman (RLHF) în contextul antrenării chatbot-urilor utile. În continuare, voi aprofunda în rezultatele experimentelor care luminează efectele nuanțate ale diferitelor atribute ale setului de date asupra procesului de instruire a utilității în chatbot. În cele din urmă, voi oferi o privire de ansamblu asupra stării actuale a metodologiilor de evaluare a chatbot și voi evidenția provocările existente care modelează acest domeniu în evoluție.

Mai multe despre curs puteți găsi aici: https://web.stanford.edu/class/cs25/

Vizualizați întreaga listă de redare CS25 Transformers United: https://www.youtube.com/playlist?list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM

Cursuri interesante:

Leave a Reply