Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2402.04249

Paper to Read (Agent Safety Benchmark)

List of Paper for AI Agent Safety Benchmark

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

Paper • 2410.09024 • Published Oct 11, 2024 • 1
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Paper • 2410.02644 • Published Oct 3, 2024
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Paper • 2402.04249 • Published Feb 6, 2024 • 6

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Paper • 2401.03065 • Published Jan 5, 2024 • 11
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

Paper • 2305.01210 • Published May 2, 2023 • 3
AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language Models

Paper • 2309.06495 • Published Sep 5, 2023 • 1
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Paper • 2311.16502 • Published Nov 27, 2023 • 37

HarmBench Classifiers

Classifiers for red teaming evaluation in HarmBench

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Paper • 2402.04249 • Published Feb 6, 2024 • 6
cais/HarmBench-Llama-2-13b-cls

Text Generation • 13B • Updated Mar 17, 2024 • 29.5k • • 25
cais/HarmBench-Llama-2-13b-cls-multimodal-behaviors

Text Generation • 13B • Updated Apr 11, 2024 • 25 •
cais/HarmBench-Mistral-7b-val-cls

Text Generation • 7B • Updated Mar 17, 2024 • 15.3k • 6

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Paper • 2401.05566 • Published Jan 10, 2024 • 30
Weak-to-Strong Jailbreaking on Large Language Models

Paper • 2401.17256 • Published Jan 30, 2024 • 16
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks

Paper • 2401.17263 • Published Jan 30, 2024 • 1
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming

Paper • 2311.06237 • Published Nov 10, 2023 • 1

Paper to Read (Agent Safety Benchmark)

List of Paper for AI Agent Safety Benchmark

AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

Paper • 2410.09024 • Published Oct 11, 2024 • 1
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

Paper • 2410.02644 • Published Oct 3, 2024
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Paper • 2402.04249 • Published Feb 6, 2024 • 6

HarmBench Classifiers

Classifiers for red teaming evaluation in HarmBench

HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal

Paper • 2402.04249 • Published Feb 6, 2024 • 6
cais/HarmBench-Llama-2-13b-cls

Text Generation • 13B • Updated Mar 17, 2024 • 29.5k • • 25
cais/HarmBench-Llama-2-13b-cls-multimodal-behaviors

Text Generation • 13B • Updated Apr 11, 2024 • 25 •
cais/HarmBench-Mistral-7b-val-cls

Text Generation • 7B • Updated Mar 17, 2024 • 15.3k • 6

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1, 2024 • 23
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1, 2024 • 85
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 151
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30, 2024 • 25

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

Paper • 2401.05566 • Published Jan 10, 2024 • 30
Weak-to-Strong Jailbreaking on Large Language Models

Paper • 2401.17256 • Published Jan 30, 2024 • 16
Robust Prompt Optimization for Defending Language Models Against Jailbreaking Attacks

Paper • 2401.17263 • Published Jan 30, 2024 • 1
Summon a Demon and Bind it: A Grounded Theory of LLM Red Teaming

Paper • 2311.06237 • Published Nov 10, 2023 • 1

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Paper • 2401.03065 • Published Jan 5, 2024 • 11
Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation

Paper • 2305.01210 • Published May 2, 2023 • 3
AGIBench: A Multi-granularity, Multimodal, Human-referenced, Auto-scoring Benchmark for Large Language Models

Paper • 2309.06495 • Published Sep 5, 2023 • 1
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

Paper • 2311.16502 • Published Nov 27, 2023 • 37

Company

TOS Privacy About Careers

Website

Models Datasets Spaces Pricing Docs