TencentARC
/

QA-CLIP-ViT-L-14

Zero-Shot Image Classification

Transformers

PyTorch

chinese_clip

Model card Files Files and versions

xet

Community

Kunyi commited on May 15, 2023

Commit

2e0ed45

1 Parent(s): d7e6ab3

Update README_CN.md

Browse files

Files changed (1) hide show

README_CN.md +2 -107

README_CN.md CHANGED Viewed

@@ -1,30 +1,10 @@
 [**中文说明**](README_CN.md) | [**English**](README.md)
 # 项目介绍
 本项目旨在提供更好的中文CLIP模型。该项目使用的训练数据均为公开可访问的图像URL及相关中文文本描述，总量达到400M。经过筛选后，我们最终使用了100M的数据进行训练。
-本项目于QQ-ARC Joint Lab, Tencent PCG完成
 <br><br>
-# 模型及实验
-<span id="model_card"></span>
-## 模型规模 & 下载链接
-QA-CLIP目前开源3个不同规模，其模型信息和下载方式见下表：
-<table border="1" width="100%">
-    <tr align="center">
-        <th>模型规模</th><th>下载链接</th><th>参数量</th><th>视觉侧骨架</th><th>视觉侧参数量</th><th>文本侧骨架</th><th>文本侧参数量</th><th>分辨率</th>
-    </tr>
-    <tr align="center">
-        <td>QA-CLIP<sub>RN50</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-RN50.pt">Download</a></td><td>77M</td><td>ResNet50</td><td>38M</td><td>RBT3</td><td>39M</td><td>224</td>
-    </tr>
-    <tr align="center">
-        <td>QA-CLIP<sub>ViT-B/16</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-base.pt">Download</a></td><td>188M</td><td>ViT-B/16</td><td>86M</td><td>RoBERTa-wwm-Base</td><td>102M</td><td>224</td>
-    </tr>
-    <tr align="center">
-        <td>QA-CLIP<sub>ViT-L/14</sub></td><td><a href="https://huggingface.co/TencentARC/QA-CLIP/resolve/main/QA-CLIP-large.pt">Download</a></td><td>406M</td><td>ViT-L/14</td><td>304M</td><td>RoBERTa-wwm-Base</td><td>102M</td><td>224</td>
-    </tr>
-</table>
-<br>
 ## 实验结果
 针对图文检索任务，我们在[MUGE Retrieval](https://tianchi.aliyun.com/muge)、[Flickr30K-CN](https://github.com/li-xirong/cross-lingual-cap)和[COCO-CN](https://github.com/li-xirong/coco-cn)上进行了zero-shot测试。
 针对图像零样本分类任务，我们在ImageNet数据集上进行了测试。测试结果见下表：
@@ -156,19 +136,6 @@ QA-CLIP目前开源3个不同规模，其模型信息和下载方式见下表：
 # 使用教程
-## 安装要求
-环境配置要求:
-* python >= 3.6.4
-* pytorch >= 1.8.0 (with torchvision >= 0.9.0)
-* CUDA Version >= 10.2
-安装本项目所需库
-```bash
-cd /yourpath/QA-CLIP-main
-pip install -r requirements.txt
-```
 ## 推理代码
 推理代码示例：
 ```python
@@ -202,78 +169,6 @@ probs = logits_per_image.softmax(dim=1)
 ```
 <br><br>
-## 预测及评估
-### 图文检索测试数据集下载
-<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>项目中已经预处理好测试集，这是他们提供的下载链接：
-MUGE数据：[下载链接](https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/MUGE.zip)
-Flickr30K-CN数据：[下载链接](https://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/Flickr30k-CN.zip)
-另外[COCO-CN](https://github.com/li-xirong/coco-cn)数据的获取需要向原作者进行申请
-### ImageNet数据集下载
-原始数据请自行下载，[中文标签](http://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/ImageNet-1K/label_cn.txt)和[英文标签](http://clip-cn-beijing.oss-cn-beijing.aliyuncs.com/datasets/ImageNet-1K/label.txt)同样由<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>项目提供
-### 图文检索评估
-图文检索评估代码可以参考如下：
-```bash
-split=test # 指定计算valid或test集特征
-resume=your_ckp_path
-DATAPATH=your_DATAPATH
-dataset_name=Flickr30k-CN
-# dataset_name=MUGE
-python -u eval/extract_features.py \
-    --extract-image-feats \
-    --extract-text-feats \
-    --image-data="${DATAPATH}/datasets/${dataset_name}/lmdb/${split}/imgs" \
-    --text-data="${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl" \
-    --img-batch-size=32 \
-    --text-batch-size=32 \
-    --context-length=52 \
-    --resume=${resume} \
-    --vision-model=ViT-B-16 \
-    --text-model=RoBERTa-wwm-ext-base-chinese
-python -u eval/make_topk_predictions.py \
-    --image-feats="${DATAPATH}/datasets/${dataset_name}/${split}_imgs.img_feat.jsonl" \
-    --text-feats="${DATAPATH}/datasets/${dataset_name}/${split}_texts.txt_feat.jsonl" \
-    --top-k=10 \
-    --eval-batch-size=32768 \
-    --output="${DATAPATH}/datasets/${dataset_name}/${split}_predictions.jsonl"
-python -u eval/make_topk_predictions_tr.py \
-    --image-feats="${DATAPATH}/datasets/${dataset_name}/${split}_imgs.img_feat.jsonl" \
-    --text-feats="${DATAPATH}/datasets/${dataset_name}/${split}_texts.txt_feat.jsonl" \
-    --top-k=10 \
-    --eval-batch-size=32768 \
-    --output="${DATAPATH}/datasets/${dataset_name}/${split}_tr_predictions.jsonl"
-python eval/evaluation.py \
-    ${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl \
-    ${DATAPATH}/datasets/${dataset_name}/${split}_predictions.jsonl \
-    ${DATAPATH}/datasets/${dataset_name}/output1.json
-cat  ${DATAPATH}/datasets/${dataset_name}/output1.json
-python eval/transform_ir_annotation_to_tr.py \
-    --input ${DATAPATH}/datasets/${dataset_name}/${split}_texts.jsonl
-python eval/evaluation_tr.py \
-    ${DATAPATH}/datasets/${dataset_name}/${split}_texts.tr.jsonl \
-    ${DATAPATH}/datasets/${dataset_name}/${split}_tr_predictions.jsonl \
-    ${DATAPATH}/datasets/${dataset_name}/output2.json
-cat ${DATAPATH}/datasets/${dataset_name}/output2.json
-```
-### ImageNet零样本分类
-ImageNet零样本分类的代码参考如下
-```bash
-bash scripts/zeroshot_eval.sh 0 \
-    ${DATAPATH} imagenet \
-    ViT-B-16 RoBERTa-wwm-ext-base-chinese \
-    ./pretrained_weights/QA-CLIP-base.pt
-```
-<br><br>
 # 致谢
 项目代码基于<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>实现，非常感谢他们优秀的开源工作。
 <br><br>

 [**中文说明**](README_CN.md) | [**English**](README.md)
 # 项目介绍
 本项目旨在提供更好的中文CLIP模型。该项目使用的训练数据均为公开可访问的图像URL及相关中文文本描述，总量达到400M。经过筛选后，我们最终使用了100M的数据进行训练。
+本项目于QQ-ARC Joint Lab, Tencent PCG完成。
+更详细的信息可以参考[QA-CLIP项目的主页面](https://huggingface.co/TencentARC/QA-CLIP)。
 <br><br>
 ## 实验结果
 针对图文检索任务，我们在[MUGE Retrieval](https://tianchi.aliyun.com/muge)、[Flickr30K-CN](https://github.com/li-xirong/cross-lingual-cap)和[COCO-CN](https://github.com/li-xirong/coco-cn)上进行了zero-shot测试。
 针对图像零样本分类任务，我们在ImageNet数据集上进行了测试。测试结果见下表：
 # 使用教程
 ## 推理代码
 推理代码示例：
 ```python
 ```
 <br><br>
 # 致谢
 项目代码基于<b>[Chinese-CLIP](https://github.com/OFA-Sys/Chinese-CLIP)</b>实现，非常感谢他们优秀的开源工作。
 <br><br>