东京工业大学和日本产业技术综合研究所的一个研究小组发布了一种大规模语言模型“Swallow”,它是具有出色日语能力的生成式人工智能的基础。它是支持日语的最大的大规模语言模型,并且开放并可供商业使用。
近年来,大规模语言模型的研发,如OpenAI的ChatGPT和GPT-4,以及Google的PaLM 2和Gemini等,进展迅速。尽管在日语中较强的大规模语言模型的开发方面正在取得进展,但开放且高性能的大规模语言模型还很少。
Meta AI开发的Llama 2系列在英语方面表现出色,但在日语读写方面表现较弱。因此,研究团队基于 Llama 2 的多个模型构建了一个大规模语言模型“Swallow”。对经过训练的大规模语言模型进行额外预训练(连续预训练)的方法在日语方面表现出了很高的性能。
另外,由于Llama 2是一个以英语为中心的模型,词汇中不包含主要的日语单词和字符,文本被划分为不自然的单元(token),文本用更多的token来表达,学习和生成效率下降和计算成本增加。通过添加日语字符和单词(语言模型可以处理的一组标记)等词汇,日语文本的标记长度减少到 56.2%。
此外,研究团队还从非营利组织Common Crawl分发的档案中独立提取和提炼了日语文本,构建了包含约3,121亿字符(约1.73亿页)的日语网络语料库。这是最大的商用日语模型训练语料库。
强大且对日语开放的大规模语言模型的推出,将进一步推动日本大规模语言模型的研究、开发和利用,带动进一步的产品开发和技术创新。