с 01.01.2023 по 01.01.2024
Томск, Томская область, Россия
Статья посвящена оптимизации дообучения (fine-tuning) больших языковых моделей (LLM) для задач классификации текстов на русском языке в условиях ограниченных вычислительных ресурсов. Предлагаемый метод основан на балансе между размером модели (числом параметров) и объемом обучающих данных: меньшая модель дообучается на большем датасете и сравнивается с большей моделью, дообученной на меньшем датасете. Цель – установить влияние соотношения параметров моделей и данных для дообучения на качество классификации текстов большими языковыми моделями. Выдвигается гипотеза о том, что «слабая» модель, дообученная на большем объеме данных, может показать близкое или более высокое качество классификации в сравнении с «сильной» моделью, дообученной на меньшем количестве данных. Актуальность исследования обусловлена необходимостью адаптации LLM к русскоязычным данным, где увеличение объема датасета может компенсировать меньший размер модели. Гипотеза проверялась на трех видах классификации: классификация тональности отзывов на фильмы, классификация тональности отзывов на сервисы и классификация новостей по топикам. Эксперименты проводились с использованием мультиязычных моделей: XLM-RoBERTa-comet-small (107 млн параметров) – «слабая» модель и XLM-RoBERTa-base (278 млн параметров) – «сильная» модель, на русскоязычных датасетах. Меньшая модель дообучалась на бóльших объемах данных (пропорционально разнице в параметрах), бóльшая – на меньших. Сделан вывод о том, что «слабая» модель стабильно превосходит или достигает сопоставимых метрик по сравнению с «сильной» моделью, при этом затрачивая в 2–3 раза меньше вычислительных ресурсов (FLOPs), что демонстрирует практическую ценность подхода для энергоэффективного дообучения в русскоязычном контексте.
LLM, fine-tuning, XLM-RoBERTa, русскоязычные датасеты, классификация, тональность, топики
1. Гальцева Т. В., Нестеров С. А. Классификация и определение тональности текстов, публикуемых в сети Интернет. Системный анализ в проектировании и управлении: XXVII Междунар. науч.-практ. конф. (Санкт-Петербург, 13–14 октября 2023 г.) СПб.: ПОЛИТЕХ-ПРЕСС, 2024. Ч. 2. С. 491–498. https://doi.org/10.18720/SPBPU/2/id24-202
2. Максименко П. И. Жанровая классификация литературных текстов с применением нейросетевых методов (на материале русскоязычной электронной базы фанфикшн). Человек: образ и сущность. Гуманитарные аспекты. 2025. № 1. С. 184–200. https://doi.org/10.31249/chel/2025.01.13
3. Марков А. К., Семеночкин Д. О., Кравец А. Г., Яновский Т. А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов. International Journal of Open Information Technologies. 2024. Т. 12. № 3. С. 66–77. https://elibrary.ru/tubosi
4. Плешакова Е. С., Гатауллин С. Т., Осипов А. В., Романова Е. В., Самбуров Н. С. Эффективная классификация текстов на естественном языке и определение тональности речи с использованием выбранных методов машинного обучения. Вопросы безопасности. 2022. № 4. С. 1–14. https://doi.org/10.25136/2409-7543.2022.4.38658
5. Челышев Э. А., Оцоков Ш. А., Раскатова М. В., Щеголев П. Сравнение методов классификации русскоязычных новостных текстов с использованием алгоритмов машинного обучения. Вестник кибернетики. 2022. № 1. С. 63–71. https://doi.org/10.34822/1999-7604-2022-1-63-71
6. Anisuzzaman D. M., Malins J. G., Friedman P. A., Attia Z. I. Fine-tuning large language models for specialized use cases. Mayo Clinic Proceedings: Digital Health, 2025, 3(1). https://doi.org/10.1016/j.mcpdig.2024.11.005
7. Blinova O., Tarasov N. A hybrid model of complexity estimation: Evidence from Russian legal texts. Frontiers in Artificial Intelligence, 2022, 5. https://doi.org/10.3389/frai.2022.1008530
8. Brown T. B., Mann B., Ryder N., Subbiah M., Kaplan J., Dhariwal P., Neelakantan A., Shyam P., Sastry G., Askell A., Agarwal A., Herberts-Voss A., Krueger G., Henighan T., Child R., Ramesh A., Ziegler D. M., Wu J., Winter C., Hesse C., Chen M., Sigler E., Litwin M., Gray S., Chess B., Clark J., Berner C., McCandlish S., Radford A., Sutskever I., Amodei D. Language models are few-shot learners. arXiv, 2020. https://doi.org/10.48550/arXiv.2005.14165
9. Chung H. W., Hou L., Longpre S., Zoph B., Tay Y., Fedus W., Li Y., Wang X., Dehghani M., Brahma S., Webson A., Gu S. S., Dai Z., Suzgun M., Chen X., Chowdhery A., Castro-Ros A., Pellat M., Robinson K., Valter D., Narang S., Mishra G., Yu A., Zhao V., Huang Y., Dai A., Yu H., Petrov S., Chi Ed H., Dean J., Devlin J., Roberts A., Zhou D., Le Q. V., Wei J. Scaling instruction-finetuned language models. arXiv, 2022. https://doi.org/10.48550/arXiv.2210.11416
10. Ding N., Qin Y., Yang G., Wei F., Yang Z., Su Y., Hu S., Chen Y., Chan C.-M., Chen W., Yi J., Zhao W., Wang X., Liu Z., Zheng H.-T., Chen J., Liu Y., Tang J., Li J., Sun M. Parameter-efficient fine-tuning of large-scale pre-trained language models. Nature Machine Intelligence, 2023, 5: 220–235. https://doi.org/10.1038/s42256-023-00626-4
11. Hoffmann J., Borgeaud S., Mensch A., Buchatskaya E., Cai T., Rutherford E., de Las Casas D., Hendricks L. A., Welbi J., Clark A., Hennigan T., Noland E., Millican K., Van den Driessche G., Damoc B., Guy A., Osindero S., Simonyan K., Rae J. W., Vinyals O., Sifre L. Training compute-optimal large language models. arXiv, 2022. https://doi.org/10.48550/arXiv.2203.15556
12. Kaplan J., McCandlish S., Henighan T., Brown T. B., Chess B., Child R., Gray S., Radford A., Wu J., Amodei D. Scaling laws for neural language models. arXiv, 2020. https://doi.org/10.48550/arXiv.2001.08361
13. Lialin V., Deshpande V., Yao X., Rumshisky A. Scaling down to scale up: A guide to parameter-efficient fine-tuning. arXiv, 2023. https://doi.org/10.48550/arXiv.2303.15647
14. Liu Y., Ott M., Goyal N., Du J., Joshi M., Chen D., Levy O., Lewis M., Zettlemoyer L., Stoyanov V. RoBERTa: A robustly optimized BERT pretraining approach. arXiv, 2019. https://doi.org/10.48550/arXiv.1907.11692
15. Lu W., Luu R. K., Buehler M. J. Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities. arXiv, 2024. https://doi.org/10.48550/arXiv.2409.03444
16. Nikolich A., Korolev K., Bratchikov S., Kiselev I., Shelmanov A. Vikhr: The family of open-source instruction-tuned large language models for Russian. arXiv, 2024. https://doi.org/10.48550/arXiv.2405.13929
17. Nikolich A., Puchkova A. Fine-tuning GPT-3 for Russian text summarization. arXiv, 2021. https://doi.org/10.48550/arXiv.2108.03502
18. Pratap S., Aranha A. R., Kumar D., Malhotra G., Iyer A. P. N., Shylaja S. S. The fine art of fine-tuning: A structured review of advanced LLM fine-tuning techniques. Natural Language Processing Journal, 2025, 11. https://doi.org/10.1016/j.nlp.2025.100144
19. Sardana N., Portes J., Doubov S., Franke J. Beyond chinchilla-optimal: Accounting for inference in language model scaling laws. arXiv, 2023. https://doi.org/10.48550/arXiv.2401.00448
20. Smetanin S., Komarov M. Deep transfer learning baselines for sentiment analysis in Russian. Information Processing & Management, 2021, 58(3). https://doi.org/10.1016/j.ipm.2020.102484
21. Srinivasan K. P. V., Gumpena P., Yattapu M., Brahmbhatt V. H. Comparative analysis of different efficient fine tuning methods of large language models (LLMs) in low-resource setting. arXiv, 2024. https://doi.org/10.48550/arXiv.2405.13181
22. Wang L., Chen S., Jiang L., Pan S., Cai R., Yang S., Yang F. Parameter-efficient fine-tuning in large language models: A survey of methodologies. Artificial Intelligence Review, 2025, 58. https://doi.org/10.1007/s10462-025-11236-4



