东京工业大学和日本产业技术综合研究所的一个研究小组发布了一种大规模语言模型“Swallow”,它是具有出色日语能力的生成式人工智能的基础。它是支持日语的最大的大规模语言模型,并且开放并可供商业使用。

 近年来,大规模语言模型的研发,如OpenAI的ChatGPT和GPT-4,以及Google的PaLM 2和Gemini等,进展迅速。尽管在日语中较强的大规模语言模型的开发方面正在取得进展,但开放且高性能的大规模语言模型还很少。

 Meta AI开发的Llama 2系列在英语方面表现出色,但在日语读写方面表现较弱。因此,研究团队基于 Llama 2 的多个模型构建了一个大规模语言模型“Swallow”。对经过训练的大规模语言模型进行额外预训练(连续预训练)的方法在日语方面表现出了很高的性能。

 另外,由于Llama 2是一个以英语为中心的模型,词汇中不包含主要的日语单词和字符,文本被划分为不自然的单元(token),文本用更多的token来表达,学习和生成效率下降和计算成本增加。通过添加日语字符和单词(语言模型可以处理的一组标记)等词汇,日语文本的标记长度减少到 56.2%。

 此外,研究团队还从非营利组织Common Crawl分发的档案中独立提取和提炼了日语文本,构建了包含约3,121亿字符(约1.73亿页)的日语网络语料库。这是最大的商用日语模型训练语料库。

 强大且对日语开放的大规模语言模型的推出,将进一步推动日本大规模语言模型的研究、开发和利用,带动进一步的产品开发和技术创新。

参考:【产业技术综合研究所】发布擅长日语的大规模语言模型“Swallow” - 将日语教给擅长英语的大规模语言模型 -

东京工业大学

不断培养有志向和日本精神的理工科人才,掌握创造时代的知识,提高他们的技能的理工科大学的顶峰

东京工业大学于 1881 年(明治 14 年)作为东京工业大学成立,当时迫切需要工业现代化。建校以来,凭借优秀的理工科人才资源,持续产生优秀的研究成果,至今仍处于日本理工科大学的前列。东京工业大学不仅需要高度的专业化,还需要文科 […]

大学学报在线编辑部

这是大学学报的在线编辑部。
文章由对大学和教育具有高水平知识和兴趣的编辑人员撰写。