Not-For-All-Audiences

You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

🤗 Hugging Face | 🤖 ModelScope | EN English README(tran from gemini3.0pro)

Sakiko-Lumina Model Card

💡 模型简介 (Introduction)

Sakiko-Lumina 是基于 Neta-Lumina (Eval-Fav Version) 架构深度微调的二次元文生图模型。

针对 Neta-Lumina 原生 Text Encoder (Gemma-2-2b) 的特性，本项目引入了 XML 格式对齐策略。Sakiko-Lumina 在保持（甚至强化）模型对自然语言（Natural Language）优秀理解能力的同时，通过大量针对性训练，使其能够更好响应结构化的 XML Tag 输入。

✨ 核心特性 (Key Features)

双模态高响应: 实现了 自然语言 (NL) 与 XML 结构化标签 的双重对齐。在该模型规格下，NL 与 XML 输入效果等效。
XML 格式支持: 专为 LLM 辅助生成设计的 XML 格式响应，解决了长 Tag 列表容易被 Text Encoder 忽略的问题。
纯净美学: 模型默认画风趋于中性，尽量不引导美学偏好。

📖 使用指南 (How to Use)

Sakiko-Lumina 支持 自然语言 (Natural Language) 与 XML 格式 两种输入方式。您可以根据习惯自由选择，理论上两者在生成质量上是等效的。

1. 输入格式 (Input Formats)

⚠️ 重要提示 (Important Note)

无论使用何种格式（自然语言或 XML），必须在 Prompt 的最开头添加以下固定前缀 (Prefix)：

You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>

方式 A：自然语言 (Natural Language)

直接使用自然语言描述画面，建议直接使用 Sakiko-Prompter 生成，或者任何LLM模型搭配适当的system prompt。

The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic

方式 B：XML 格式 (XML Tagging)

使用 <tags> 容器包裹内容，适合配合辅助工具 Sakiko-Prompter 使用。在此模式下，支持两种写法：

⚠️ 适配 Sakiko-Prompter 的特别说明

注意， Sakiko-Prompter 直接输出的 Tag 格式与 Sakiko Lumina 的输入要求略有不同。

由于 gemma-2-2b 和 qwen 的分词器存在略有不同，故对两个模型做了轻微适应性调整，为了确保 Tag 能被正确识别并获得最佳生成效果，**请在将文本送入 Sakiko Lumina前执行以下字符串替换操作：

将下划线替换为空格。
修正字段名称（将 copyrights 调整为 copyright）。
注入默认 Meta 标签。

建议使用的后处理代码如下：

# 假设 text 为本模型生成的原始 XML 字符串
processed_text = text.replace("_", " ") \
                     .replace("</tags>", "<meta>masterpiece, newest, highres</meta></tags>") \
                     .replace("copyrights>", "copyright>")

写法 1：全分类结构 将 Tag 细分到对应的类别标签中（支持空标签，如 <copyright></copyright>）。

<tags>
  <special>1girl</special>
  <artists>artist_name</artists>
  <characters>character_name</characters>
  <copyright>series_name</copyright>
  <general>blue hair, long hair, school uniform, sky</general>
  <rating>safe</rating>
  <meta>masterpiece, newest, highres</meta>
</tags>

写法 2：简易混合结构 仅将画师 (artists) 作为特殊关键字单独提取，其余所有内容保留为原生的 Tag List。
```
<tags>
  <artists>artist_name</artists>
  anything tag list, solo, 1girl, smile...
</tags>
```

💡 推荐配置 (Recommended) 如果没有特殊的需求，建议使用以下组合作为 <meta> 的默认初始配置：
<meta>masterpiece, newest, highres</meta>

Meta 标签主要用于控制画面的 质量 (Quality)、时间/画风 (Date/Period) 以及 **分辨率 (Resolution)**。

质量标签 (Quality Tags) 为了确保质量标签能精准反映近年来的用户审美趋势，我引入了一套动态评估机制：通过数据归一化处理，并应用**时间衰减 ** 对图像进行加权排序。

这意味着 masterpiece 追踪的并非是 ‘美学’ ，而是热度。基于该加权评分的百分位 (Percentile) 划分如下：

评分范围 (Percentile) 对应标签 (Tag)

> 95% masterpiece

85% - 95% best quality

60% - 85% good quality

30% - 60% normal quality

≤ 30% worst quality
时间标签 (Date Tags)

年份范围对应标签 (Tag)

2021 - 2025 newest

2018 - 2020 recent

2014 - 2017 mid

2011 - 2014 early

2005 - 2010 old

评分范围 (Percentile)	对应标签 (Tag)
> 95%	`masterpiece`
85% - 95%	`best quality`
60% - 85%	`good quality`
30% - 60%	`normal quality`
≤ 30%	`worst quality`

年份范围	对应标签 (Tag)
2021 - 2025	`newest`
2018 - 2020	`recent`
2014 - 2017	`mid`
2011 - 2014	`early`
2005 - 2010	`old`

分辨率标签 (Resolution)

* 像素数 ≥ 1048576 (即 1024x1024): 自动附加 `highres`
* 像素数 ≤ 589824 (即 768x768): 自动附加 `lowres`

B. Special 标签 (`<special>`)

该容器专门用于定义 人物数量 与 主体性别。请从以下预设清单中选择：

女性 (Girls): 1girl, 2girls, 3girls, 4girls, 5girls, 6+girls
男性 (Boys): 1boy, 2boys, 3boys, 4boys, 5boys, 6+boys, male_focus
其他 (Others): 1other, 2others, 3others, 4others, 5others, 6+others

C. Rating 标签 (`<rating>`)

Rating Key	Tags
g (General)	`safe`
s (Sensitive)	`sensitive`
q (Questionable)	`nsfw`
e (Explicit)	`explicit`, `nsfw`

2. ComfyUI 设置 (Recommended Settings)

⚠️ 详细搭建指南 (Setup Guide) 碍于时间有限，关于 ComfyUI 的具体搭建流程、工作流构建及基础组件下载（Text Encoder, VAE 等），建议直接前往基础模型 Neta-Lumina 仓库寻找答案。

本模型基于 Lumina2 Diffusion Transformer (DiT) 架构，请严格参照以下设置：

Sampler: euler_ancestral (或 res_multistep 下的 Euler A)
Scheduler: linear_quadratic (重要)
Steps: 30
CFG: 4.0 – 5.5
Resolution: 建议 ≥ 1024x1024 (e.g., 1024x1024, 832x1216, 1216x832)

模型组件:

DiT (Transformer): 本模型 (.safetensors)
Text Encoder: Gemma-2B (gemma_2_2b_fp16.safetensors)
VAE: 16-Channel FLUX VAE (ae.safetensors)

🛠️ 训练细节 (Training Details)

⚙️ 训练参数配置 (Training Configuration)

使用 LyCORIS 进行微调。：

参数项 (Parameter)	配置值 (Value)
Algorithm	LyCORIS	`algo=lokr`, `factor=3`
Precision	bf16
Optimizer	AdamW	Weight Decay=`0.01`
Learning Rate	5e-4
Batch Size	80 (Effective)	Batch=`5` * Grad Accum=`4` * Gpu num=`4`
Timestep Sampling	NextDiT Shift

概览

硬件: RTX 5090
训练耗时: 2400+ gpu hours with 5090
基础模型: Neta-Lumina-Eval-Fav

阶段一：格式对齐与去偏

数据量: 218 万张 * 4 epochs
Caption 策略:
- 42.8% 自然语言 (NL)
- 57.2% XML 格式标签 (包含随机分组丢弃与空标签保留策略)
特殊处理:
- 多人专项: 58万张经过 YOLO (数量) + CCIP (角色) + Tag 三重校验的多人图。
- 正则化: 针对 Image Num > 30 的 Tag 进行重采样，防止知识遗忘。

阶段二：美学对齐

数据量: 约 3000 张 (2023-2025 年高质量精选)
清洗工具: Anime-Image-Purifier-Kontext-LoRA-v2
目的: 清除 JPEG 噪点、压缩痕迹、偏色等劣化痕迹，建立纯净的中性美学基准。

⚠️ 局限性与偏差 (Limitations & Bias)

文字渲染 (Text Rendering): 模型不具备生成清晰文字的能力，理论上caption自带对于文字的描述，但是未强化这方面性能与测试效果。
无写实能力 (No Photorealism): 训练集完全未包含真人或写实风格图像。理论上模型不具备生成写实画面的能力（虽未验证，但符合预期）。
水印与 Logo 的不确定性 (Watermarks & Logos): 由于训练阶段二使用了 Anime-Image-Purifier 处理训练集，模型倾向于生成纯净画面。虽然理论上该工具仅针对画面瑕疵，但尚未验证这是否会导致模型难以生成用户明确要求的 Logo 或特定水印。
美学对齐与知识保持的权衡 (Trade-off between Aesthetics and Knowledge): 在后训练过程中发现，过度的美学对齐容易导致特定 画师 (Artist) 和 角色 (Character) 的知识丢失。因此，经过反复平衡，为了维持模型的性能上限并确保角色与画风的还原度，我大幅减少了美学对齐的强度（如降低参数量）。这意味着模型现在的画风更加中性和倾向于训练的原生偏好，请自行添加合适的 Artist Tag 以获得预期的视觉风格。

⚖️ 许可证与免责声明 (License & Disclaimer)

基于 Neta-Lumina ，继承apache 2.0 license

License: Apache License 2.0

本模型生成的图像可能包含不可预见的内容。使用者应遵守当地法律法规，不得利用本模型生成非法或有害内容。

🤝 贡献与致谢 (Credits & Acknowledgments)

Sakiko-Lumina Model: Trained by NebulaeWis
Training Dataset Strategy: Designed by NebulaeWis
Related Tools:
- Sakiko-Prompter Trained by NebulaeWis
- Anime-Image-Purifier Trained by NebulaeWis

⚙️ Powered by

Training Scripts: sd-scripts by kohya-ss
LyCORIS: LyCORIS by KohakuBlueleaf

🙏 特别致谢

感谢 Alpha-VLLM 团队开源 Lumina-Image-2.0。
感谢 Neta.art Lab 开发并开源 Neta-Lumina。

📝 Note on SakikoLab

"There is no Sakiko in SakikoLab." 众所周知，SakikoLab 里没有 Sakiko。

Downloads last month: -; Downloads are not tracked for this model. How to track

Model tree for SakikoLab/Sakiko-Lumina

Base model

Alpha-VLLM/Lumina-Image-2.0

Finetuned

(14)

this model