Как я обучил модель, которая понимает русский лучше GPT-3.5 Turbo | файнтюнинг Llama 3

Опубликовано: 02 Июль 2024
на канале: Ruslan Dev
2,462
172

Моя последняя модель обошла GPT-3.5-turbo на русскоязычном MT-Bench.

Для ее обучения я, как и обещал в прошлом видео, расширил свой датасет ответов GPT-4o русскоязычной выборкой из 8K примеров, итого получилось 10K (есть еще примеры на англ и китайском).

В качестве базовой модели я взял в этот раз оригинальную meta-llama/Meta-Llama-3-8B-Instruct.

Модель: https://huggingface.co/ruslandev/llam...
GGUF: https://huggingface.co/ruslandev/llam...
Датасет: https://huggingface.co/datasets/rusla...

Установка gptchain и консольные команды для файнтюнинга - https://vk.com/@immers.cloud-faintuni...
Бенчмарк MT-Bench - https://vk.com/@immers.cloud-benchmar...

💻 immers.cloud – широкий выбор карт для обучения и инференса нейронных сетей: https://immers.cloud/signup/r/2024042...
Один из ведущих поставщиков услуг IaaS (Infrastructure as a Service) в России, специализирующийся на использовании графических процессоров (GPU).
Сервис предлагает конкурентоспособные цены и интуитивно понятный интерфейс, который даже начинающие пользователи могут легко освоить и начать работу с необходимым программным обеспечением.

💻 gptchain – фреймворк для быстрого развертывания AI-ассистентов: https://github.com/RuslanPeresy/gptchain
Поддерживает интеграцию с Telegram-ботом, Retrieval Augmented Generation (RAG), деплой моделей на LLM сервер и файнтюнинг LLM на собственных данных.

Телеграм-канал: https://t.me/ruslandevlive
Дискорд:   / discord  

Это описание содержит реферальные ссылки.


Смотрите видео Как я обучил модель, которая понимает русский лучше GPT-3.5 Turbo | файнтюнинг Llama 3 онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Ruslan Dev 02 Июль 2024, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 2,46 раз и оно понравилось 17 людям.