caution!

このモデルのチャットテンプレートは2025年7月現在のllama.cppに登録されているどのテンプレートとも異なります。
よって、--jinjaオプションによるカスタムテンプレート読み込み機能の使用が必須となります。

補足

なお、llama.cppはplamo2アーキテクチャのモデルにいかなる形でもチャットテンプレートを自動的に登録することはありませんが（参考・https://github.com/ggml-org/llama.cpp/pull/14718）
利便性向上のため手動にてplamo-2-translateの翻訳用チャットテンプレートを登録しております。
ちなみに、チャットテンプレートの登録方法についてですが、gguf_new_metadata.pyの--chat-template-fileオプションを利用するのがベストプラクティスのようです。

What is this?

Preferred Networksによって開発された翻訳向け特化型大規模言語モデルplamo-2-translateを日本語imatrixで量子化したものです。
llama.cpp-b5999によるPLaMo2アーキテクチャの修正コミットを反映しています。
また、一部のアーキテクチャのモデルでのimatrix計算時に「collect_imatrix: inconsistent size for blk.0.shortconv.in_proj.weight」といった警告が出現してしまいPPLが正しく計算できない問題がllama.cppには存在しており、 PLaMo2を対象とする修正は2025年8月6日現在も行われていないようです。しかしこの問題についても「-b 512」オプションによる応急処置によって対応しております（詳細）
なお、商用利用には制限がありますのでご注意ください。

imatrix dataset

日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。

Chat template

<|plamo:op|>dataset
translation
<|plamo:op|>input lang=English
Write the text to be translated here.
<|plamo:op|>output lang=Japanese

Environment

Windows版llama.cpp-b5999を使用して量子化作業を実施しました

License

PLaMo community license

Developer

Preferred Networks

Credit

Built with PLaMo

Downloads last month: 245

GGUF

Model size

10B params

Architecture

plamo2

Hardware compatibility

4-bit

5-bit

6-bit

8-bit

16-bit

View +1 variant

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support