🤗 Hugging Face | 🤖 ModelScope | EN English README(tran from gemini3.0pro)
Sakiko-Lumina Model Card
💡 模型简介 (Introduction)
Sakiko-Lumina 是基于 Neta-Lumina (Eval-Fav Version) 架构深度微调的二次元文生图模型。
针对 Neta-Lumina 原生 Text Encoder (Gemma-2-2b) 的特性,本项目引入了 XML 格式对齐策略。Sakiko-Lumina 在保持(甚至强化)模型对自然语言(Natural Language)优秀理解能力的同时,通过大量针对性训练,使其能够更好响应结构化的 XML Tag 输入。
✨ 核心特性 (Key Features)
- 双模态高响应: 实现了 自然语言 (NL) 与 XML 结构化标签 的双重对齐。在该模型规格下,NL 与 XML 输入效果等效。
- XML 格式支持: 专为 LLM 辅助生成设计的 XML 格式响应,解决了长 Tag 列表容易被 Text Encoder 忽略的问题。
- 纯净美学: 模型默认画风趋于中性,尽量不引导美学偏好。
📖 使用指南 (How to Use)
Sakiko-Lumina 支持 自然语言 (Natural Language) 与 XML 格式 两种输入方式。您可以根据习惯自由选择,理论上两者在生成质量上是等效的。
1. 输入格式 (Input Formats)
⚠️ 重要提示 (Important Note)
无论使用何种格式(自然语言或 XML),必须 在 Prompt 的最开头添加以下固定前缀 (Prefix):
You are an assistant designed to generate anime images based on textual prompts. <Prompt Start>
方式 A:自然语言 (Natural Language)
直接使用自然语言描述画面,建议直接使用 Sakiko-Prompter 生成,或者任何LLM模型搭配适当的system prompt。
The image features a full-body illustration of Sakiko Togawa from the Bang Dream! It's MyGO!!!!! series. She is depicted in a formal suit, with a long black coat and pants. The coat has a red lining, visible at the cuffs. She wears a white shirt and a black necktie, along with a belt. Her blue hair is styled with two side ponytails, each adorned with a black ribbon. Her yellow eyes are wide and she has a slight blush on her cheeks, with a surprised expression. She's wearing white gloves and black dress shoes. The background is a solid, light grey. The overall style is anime-esque with a clean, polished aesthetic
方式 B:XML 格式 (XML Tagging)
使用 <tags> 容器包裹内容,适合配合辅助工具 Sakiko-Prompter 使用。在此模式下,支持两种写法:
⚠️ 适配 Sakiko-Prompter 的特别说明
注意, Sakiko-Prompter 直接输出的 Tag 格式与 Sakiko Lumina 的输入要求略有不同。
由于 gemma-2-2b 和 qwen 的分词器存在略有不同,故对两个模型做了轻微适应性调整,为了确保 Tag 能被正确识别并获得最佳生成效果,**请在将文本送入 Sakiko Lumina前执行以下字符串替换操作:
- 将下划线替换为空格。
- 修正字段名称(将
copyrights调整为copyright)。 - 注入默认 Meta 标签。
建议使用的后处理代码如下:
# 假设 text 为本模型生成的原始 XML 字符串
processed_text = text.replace("_", " ") \
.replace("</tags>", "<meta>masterpiece, newest, highres</meta></tags>") \
.replace("copyrights>", "copyright>")
写法 1:全分类结构 将 Tag 细分到对应的类别标签中(支持空标签,如
<copyright></copyright>)。<tags> <special>1girl</special> <artists>artist_name</artists> <characters>character_name</characters> <copyright>series_name</copyright> <general>blue hair, long hair, school uniform, sky</general> <rating>safe</rating> <meta>masterpiece, newest, highres</meta> </tags>写法 2:简易混合结构 仅将画师 (
artists) 作为特殊关键字单独提取,其余所有内容保留为原生的 Tag List。<tags> <artists>artist_name</artists> anything tag list, solo, 1girl, smile... </tags>
💡 推荐配置 (Recommended) 如果没有特殊的需求,建议使用以下组合作为
<meta>的默认初始配置:<meta>masterpiece, newest, highres</meta>
Meta 标签主要用于控制画面的 质量 (Quality)、时间/画风 (Date/Period) 以及 **分辨率 (Resolution)**。
质量标签 (Quality Tags) 为了确保质量标签能精准反映近年来的用户审美趋势,我引入了一套动态评估机制:通过数据归一化处理,并应用**时间衰减 ** 对图像进行加权排序。
这意味着
masterpiece追踪的并非是 ‘美学’ ,而是 热度 。基于该加权评分的百分位 (Percentile) 划分如下:评分范围 (Percentile) 对应标签 (Tag) > 95% masterpiece85% - 95% best quality60% - 85% good quality30% - 60% normal quality≤ 30% worst quality时间标签 (Date Tags)
年份范围 对应标签 (Tag) 2021 - 2025 newest2018 - 2020 recent2014 - 2017 mid2011 - 2014 early2005 - 2010 old分辨率标签 (Resolution)
* 像素数 ≥ 1048576 (即 1024x1024): 自动附加 `highres` * 像素数 ≤ 589824 (即 768x768): 自动附加 `lowres`
B. Special 标签 (<special>)
该容器专门用于定义 人物数量 与 主体性别。请从以下预设清单中选择:
- 女性 (Girls):
1girl,2girls,3girls,4girls,5girls,6+girls - 男性 (Boys):
1boy,2boys,3boys,4boys,5boys,6+boys,male_focus - 其他 (Others):
1other,2others,3others,4others,5others,6+others
C. Rating 标签 (<rating>)
| Rating Key | Tags |
|---|---|
| g (General) | safe |
| s (Sensitive) | sensitive |
| q (Questionable) | nsfw |
| e (Explicit) | explicit, nsfw |
2. ComfyUI 设置 (Recommended Settings)
⚠️ 详细搭建指南 (Setup Guide) 碍于时间有限,关于 ComfyUI 的具体搭建流程、工作流构建及基础组件下载(Text Encoder, VAE 等),建议直接前往基础模型 Neta-Lumina 仓库寻找答案。
本模型基于 Lumina2 Diffusion Transformer (DiT) 架构,请严格参照以下设置:
- Sampler:
euler_ancestral(或res_multistep下的 Euler A) - Scheduler:
linear_quadratic(重要) - Steps: 30
- CFG: 4.0 – 5.5
- Resolution: 建议 ≥ 1024x1024 (e.g., 1024x1024, 832x1216, 1216x832)
模型组件:
- DiT (Transformer): 本模型 (
.safetensors) - Text Encoder: Gemma-2B (
gemma_2_2b_fp16.safetensors) - VAE: 16-Channel FLUX VAE (
ae.safetensors)
🛠️ 训练细节 (Training Details)
⚙️ 训练参数配置 (Training Configuration)
使用 LyCORIS 进行微调。:
| 参数项 (Parameter) | 配置值 (Value) | |
|---|---|---|
| Algorithm | LyCORIS | algo=lokr, factor=3 |
| Precision | bf16 | |
| Optimizer | AdamW | Weight Decay=0.01 |
| Learning Rate | 5e-4 | |
| Batch Size | 80 (Effective) | Batch=5 * Grad Accum=4 * Gpu num=4 |
| Timestep Sampling | NextDiT Shift |
概览
- 硬件: RTX 5090
- 训练耗时: 2400+ gpu hours with 5090
- 基础模型: Neta-Lumina-Eval-Fav
阶段一:格式对齐与去偏
- 数据量: 218 万张 * 4 epochs
- Caption 策略:
- 42.8% 自然语言 (NL)
- 57.2% XML 格式标签 (包含随机分组丢弃与空标签保留策略)
- 特殊处理:
- 多人专项: 58万张经过 YOLO (数量) + CCIP (角色) + Tag 三重校验的多人图。
- 正则化: 针对 Image Num > 30 的 Tag 进行重采样,防止知识遗忘。
阶段二:美学对齐
- 数据量: 约 3000 张 (2023-2025 年高质量精选)
- 清洗工具: Anime-Image-Purifier-Kontext-LoRA-v2
- 目的: 清除 JPEG 噪点、压缩痕迹、偏色等劣化痕迹,建立纯净的中性美学基准。
⚠️ 局限性与偏差 (Limitations & Bias)
文字渲染 (Text Rendering): 模型不具备生成清晰文字的能力,理论上caption自带对于文字的描述,但是未强化这方面性能与测试效果。
无写实能力 (No Photorealism): 训练集完全未包含真人或写实风格图像。理论上模型不具备生成写实画面的能力(虽未验证,但符合预期)。
水印与 Logo 的不确定性 (Watermarks & Logos): 由于训练阶段二使用了 Anime-Image-Purifier 处理训练集,模型倾向于生成纯净画面。虽然理论上该工具仅针对画面瑕疵,但尚未验证这是否会导致模型难以生成用户明确要求的 Logo 或特定水印。
美学对齐与知识保持的权衡 (Trade-off between Aesthetics and Knowledge): 在后训练过程中发现,过度的美学对齐容易导致特定 画师 (Artist) 和 角色 (Character) 的知识丢失。因此,经过反复平衡,为了维持模型的性能上限并确保角色与画风的还原度,我大幅减少了美学对齐的强度(如降低参数量)。这意味着模型现在的画风更加中性和倾向于训练的原生偏好,请自行添加合适的 Artist Tag 以获得预期的视觉风格。
⚖️ 许可证与免责声明 (License & Disclaimer)
基于 Neta-Lumina ,继承apache 2.0 license
- License: Apache License 2.0
本模型生成的图像可能包含不可预见的内容。使用者应遵守当地法律法规,不得利用本模型生成非法或有害内容。
🤝 贡献与致谢 (Credits & Acknowledgments)
- Sakiko-Lumina Model: Trained by NebulaeWis
- Training Dataset Strategy: Designed by NebulaeWis
- Related Tools:
- Sakiko-Prompter Trained by NebulaeWis
- Anime-Image-Purifier Trained by NebulaeWis
⚙️ Powered by
- Training Scripts: sd-scripts by kohya-ss
- LyCORIS: LyCORIS by KohakuBlueleaf
🙏 特别致谢
- 感谢 Alpha-VLLM 团队开源 Lumina-Image-2.0。
- 感谢 Neta.art Lab 开发并开源 Neta-Lumina。
📝 Note on SakikoLab
"There is no Sakiko in SakikoLab." 众所周知,SakikoLab 里没有 Sakiko。
Model tree for SakikoLab/Sakiko-Lumina
Base model
Alpha-VLLM/Lumina-Image-2.0