<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MGSM on Producthunt daily</title>
        <link>https://producthunt.programnotes.cn/en/tags/mgsm/</link>
        <description>Recent content in MGSM on Producthunt daily</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>en</language>
        <lastBuildDate>Fri, 16 May 2025 15:29:20 +0800</lastBuildDate><atom:link href="https://producthunt.programnotes.cn/en/tags/mgsm/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>simple-evals</title>
        <link>https://producthunt.programnotes.cn/en/p/simple-evals/</link>
        <pubDate>Fri, 16 May 2025 15:29:20 +0800</pubDate>
        
        <guid>https://producthunt.programnotes.cn/en/p/simple-evals/</guid>
        <description>&lt;img src="https://images.unsplash.com/photo-1704245399181-a58b30509d2f?ixid=M3w0NjAwMjJ8MHwxfHJhbmRvbXx8fHx8fHx8fDE3NDczODA0ODd8&amp;ixlib=rb-4.1.0" alt="Featured image of post simple-evals" /&gt;&lt;h1 id=&#34;openaisimple-evals&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/simple-evals&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;openai/simple-evals&lt;/a&gt;
&lt;/h1&gt;&lt;h1 id=&#34;overview&#34;&gt;Overview
&lt;/h1&gt;&lt;p&gt;This repository contains a lightweight library for evaluating language models.
We are open sourcing it so we can be transparent about the accuracy numbers we&amp;rsquo;re publishing alongside our latest models.&lt;/p&gt;
&lt;h2 id=&#34;benchmark-results&#34;&gt;Benchmark Results
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Model&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Prompt&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;MMLU&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;GPQA &lt;sup id=&#34;fnref:1&#34;&gt;&lt;a href=&#34;#fn:1&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;1&lt;/a&gt;&lt;/sup&gt;&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;MATH &lt;sup id=&#34;fnref:2&#34;&gt;&lt;a href=&#34;#fn:2&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;2&lt;/a&gt;&lt;/sup&gt;&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;HumanEval&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;MGSM&lt;sup id=&#34;fnref:3&#34;&gt;&lt;a href=&#34;#fn:3&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;3&lt;/a&gt;&lt;/sup&gt;&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;DROP&lt;sup id=&#34;fnref1:3&#34;&gt;&lt;a href=&#34;#fn:3&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;3&lt;/a&gt;&lt;/sup&gt;&lt;br&gt;(F1, 3-shot)&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;SimpleQA&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;o3&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3-high &lt;sup id=&#34;fnref:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a &lt;sup id=&#34;fnref:5&#34;&gt;&lt;a href=&#34;#fn:5&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;5&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;93.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;98.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;48.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3 &lt;sup id=&#34;fnref:6&#34;&gt;&lt;a href=&#34;#fn:6&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;6&lt;/a&gt;&lt;/sup&gt; &lt;sup id=&#34;fnref1:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;80.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3-low &lt;sup id=&#34;fnref2:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;78.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;96.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;91.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;o4-mini&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o4-mini-high &lt;sup id=&#34;fnref1:6&#34;&gt;&lt;a href=&#34;#fn:6&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;6&lt;/a&gt;&lt;/sup&gt; &lt;sup id=&#34;fnref3:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;98.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;99.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;93.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;78.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;19.3&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o4-mini &lt;sup id=&#34;fnref2:6&#34;&gt;&lt;a href=&#34;#fn:6&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;6&lt;/a&gt;&lt;/sup&gt; &lt;sup id=&#34;fnref4:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;77.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;93.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;77.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;20.2&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o4-mini-low &lt;sup id=&#34;fnref5:4&#34;&gt;&lt;a href=&#34;#fn:4&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;4&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;96.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;95.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;93.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;76.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;20.2&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;o3-mini&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3-mini-high&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;77.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;80.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;13.8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3-mini&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;74.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;97.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;96.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;13.4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o3-mini-low&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;67.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;95.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;94.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;77.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;13.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;o1&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;91.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;75.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;96.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;-&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o1-preview&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;74.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;o1-mini&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;60.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;07.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;GPT-4.1&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4.1-2025-04-14&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant &lt;sup id=&#34;fnref:7&#34;&gt;&lt;a href=&#34;#fn:7&#34; class=&#34;footnote-ref&#34; role=&#34;doc-noteref&#34;&gt;7&lt;/a&gt;&lt;/sup&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;66.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;94.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;41.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4.1-mini-2025-04-14&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;65.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;93.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;16.8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4.1-nano-2025-04-14&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;80.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;50.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;62.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;07.6&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;GPT-4o&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4o-2024-11-20&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;46.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;68.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;38.8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4o-2024-08-06&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;53.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;75.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;40.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4o-2024-05-13&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;76.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;91.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;39.0&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4o-mini-2024-07-18&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;40.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;70.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;09.5&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;GPT-4.5-preview&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4.5-preview-2025-02-27&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;62.5&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;GPT-4 Turbo and GPT-4&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4-turbo-2024-04-09&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;49.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;24.2&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4-0125-preview&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;41.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;64.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;gpt-4-1106-preview&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;assistant&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;84.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;64.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;Other Models (Reported)&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;/td&gt;
          &lt;td&gt;&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/news/claude-3-5-sonnet&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Claude 3.5 Sonnet&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.3&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;59.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;71.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;92.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;91.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;28.9&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/news/claude-3-family&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Claude 3 Opus&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;50.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;60.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;90.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;23.5&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Llama 3.1 405b&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;50.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;89.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;91.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;84.8&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Llama 3.1 70b&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;41.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;68.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;80.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/meta-llama/llama-models/blob/main/models/llama3_1/MODEL_CARD.md&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Llama 3.1 8b&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;68.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;30.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;51.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;72.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;68.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;59.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://x.ai/blog/grok-2&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Grok 2&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;87.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;56.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;76.1&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://x.ai/blog/grok-2&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Grok 2 mini&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;86.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;51.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;73.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;85.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://goo.gle/GeminiV1-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemini 1.0 Ultra&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;83.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;53.2&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;74.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;79.0&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://goo.gle/GeminiV1-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemini 1.5 Pro&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;81.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;58.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;71.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.7&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;78.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;a class=&#34;link&#34; href=&#34;https://goo.gle/GeminiV1-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemini 1.5 Flash&lt;/a&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;unknown&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;77.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;38.6&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;40.9&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;71.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;75.5&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;78.4&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;n/a&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;background&#34;&gt;Background
&lt;/h2&gt;&lt;p&gt;Evals are sensitive to prompting, and there&amp;rsquo;s significant variation in the formulations used in recent publications and libraries.
Some use few-shot prompts or role playing prompts (&amp;ldquo;You are an expert software programmer&amp;hellip;&amp;rdquo;).
These approaches are carryovers from evaluating &lt;em&gt;base models&lt;/em&gt; (rather than instruction/chat-tuned models) and from models that were worse at following instructions.&lt;/p&gt;
&lt;p&gt;For this library, we are emphasizing the &lt;em&gt;zero-shot, chain-of-thought&lt;/em&gt; setting, with simple instructions like &amp;ldquo;Solve the following multiple choice problem&amp;rdquo;. We believe that this prompting technique is a better reflection of the models&amp;rsquo; performance in realistic usage.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;We will not be actively maintaining this repository and monitoring PRs and Issues.&lt;/strong&gt; In particular, we&amp;rsquo;re not accepting new evals. Here are the changes we might accept.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Bug fixes (hopefully not needed!)&lt;/li&gt;
&lt;li&gt;Adding adapters for new models&lt;/li&gt;
&lt;li&gt;Adding new rows to the table below with eval results, given new models and new system prompts.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;This repository is NOT intended as a replacement for &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/evals&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/openai/evals&lt;/a&gt;, which is designed to be a comprehensive collection of a large number of evals.&lt;/p&gt;
&lt;h2 id=&#34;evals&#34;&gt;Evals
&lt;/h2&gt;&lt;p&gt;This repository currently contains the following evals:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MMLU: Measuring Massive Multitask Language Understanding, reference: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2009.03300&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2009.03300&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/hendrycks/test&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/hendrycks/test&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/hendrycks/test/blob/master/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;MATH: Measuring Mathematical Problem Solving With the MATH Dataset, reference: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2103.03874&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2103.03874&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/hendrycks/math&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/hendrycks/math&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/idavidrein/gpqa/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;GPQA: A Graduate-Level Google-Proof Q&amp;amp;A Benchmark, reference: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2311.12022&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2311.12022&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/idavidrein/gpqa/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/idavidrein/gpqa/&lt;/a&gt;,  &lt;a class=&#34;link&#34; href=&#34;https://github.com/idavidrein/gpqa/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs, reference: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/1903.00161&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/1903.00161&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://allenai.org/data/drop&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://allenai.org/data/drop&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/allenai/allennlp-models/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Apache License 2.0&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;MGSM: Multilingual Grade School Math Benchmark (MGSM), Language Models are Multilingual Chain-of-Thought Reasoners, reference: &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2210.03057&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2210.03057&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/google-research/url-nlp&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/google-research/url-nlp&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/google-research/url-nlp/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Creative Commons Attribution 4.0 International Public License (CC-BY)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;HumanEval: Evaluating Large Language Models Trained on Code, reference &lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2107.03374&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://arxiv.org/abs/2107.03374&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/human-eval&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://github.com/openai/human-eval&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/human-eval/blob/master/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;SimpleQA: Measuring short-form factuality in large language models, reference: &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-simpleqa&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/introducing-simpleqa&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/simple-evals/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, reference: &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/browsecomp&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/browsecomp&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/simple-evals/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;HealthBench: Evaluating Large Language Models Towards Improved Human Health, reference: &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/healthbench&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/healthbench&lt;/a&gt;, &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/simple-evals/blob/main/LICENSE&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MIT License&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;samplers&#34;&gt;Samplers
&lt;/h2&gt;&lt;p&gt;We have implemented sampling interfaces for the following language model APIs:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;OpenAI: &lt;a class=&#34;link&#34; href=&#34;https://platform.openai.com/docs/overview&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.openai.com/docs/overview&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;Claude: &lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/api&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://www.anthropic.com/api&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Make sure to set the &lt;code&gt;*_API_KEY&lt;/code&gt; environment variables before using these APIs.&lt;/p&gt;
&lt;h2 id=&#34;setup&#34;&gt;Setup
&lt;/h2&gt;&lt;p&gt;Due to the optional dependencies, we&amp;rsquo;re not providing a unified setup mechanism. Instead, we&amp;rsquo;re providing instructions for each eval and sampler.&lt;/p&gt;
&lt;p&gt;For &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/human-eval/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HumanEval&lt;/a&gt; (python programming)&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;git clone https://github.com/openai/human-eval
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install -e human-eval
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;For the &lt;a class=&#34;link&#34; href=&#34;https://pypi.org/project/openai/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenAI API&lt;/a&gt;:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install openai
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;For the &lt;a class=&#34;link&#34; href=&#34;https://docs.anthropic.com/claude/docs/quickstart-guide&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic API&lt;/a&gt;:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install anthropic
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;running-the-evals&#34;&gt;Running the evals
&lt;/h2&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m simple-evals.simple_evals --list-models
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;This will list all the models that you can evaluate.&lt;/p&gt;
&lt;p&gt;To run the evaluations, you can use the following command:&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m simple-evals.simple_evals --model &amp;lt;model_name&amp;gt; --examples &amp;lt;num_examples&amp;gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;This will launch evaluations through the OpenAI API.&lt;/p&gt;
&lt;h2 id=&#34;notes&#34;&gt;Notes
&lt;/h2&gt;&lt;h2 id=&#34;legal-stuff&#34;&gt;Legal Stuff
&lt;/h2&gt;&lt;p&gt;By contributing to evals, you are agreeing to make your evaluation logic and data under the same MIT license as this repository. You must have adequate rights to upload any data used in an eval. OpenAI reserves the right to use this data in future service improvements to our product. Contributions to OpenAI evals will be subject to our usual Usage Policies: &lt;a class=&#34;link&#34; href=&#34;https://platform.openai.com/docs/usage-policies&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://platform.openai.com/docs/usage-policies&lt;/a&gt;.&lt;/p&gt;
&lt;div class=&#34;footnotes&#34; role=&#34;doc-endnotes&#34;&gt;
&lt;hr&gt;
&lt;ol&gt;
&lt;li id=&#34;fn:1&#34;&gt;
&lt;p&gt;Includes an answer regex tweak for GPQA benchmark.&amp;#160;&lt;a href=&#34;#fnref:1&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:2&#34;&gt;
&lt;p&gt;For newer models (anything on or after o1) we evaluate on &lt;a class=&#34;link&#34; href=&#34;https://github.com/openai/prm800k/tree/main/prm800k/math_splits&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MATH-500&lt;/a&gt;, which is a newer, IID version of MATH.&amp;#160;&lt;a href=&#34;#fnref:2&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:3&#34;&gt;
&lt;p&gt;We believe these evals are saturated for our newer models, but are reporting them for completeness.&amp;#160;&lt;a href=&#34;#fnref:3&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref1:3&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:4&#34;&gt;
&lt;p&gt;These results are with no tools enabled for o3 or o4-mini&amp;#160;&lt;a href=&#34;#fnref:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref1:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref2:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref3:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref4:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref5:4&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:5&#34;&gt;
&lt;p&gt;o-series models do not support using a system prompt.&amp;#160;&lt;a href=&#34;#fnref:5&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:6&#34;&gt;
&lt;p&gt;The default reasoning level for o3-mini is &amp;ldquo;medium&amp;rdquo;.&amp;#160;&lt;a href=&#34;#fnref:6&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref1:6&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&amp;#160;&lt;a href=&#34;#fnref2:6&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li id=&#34;fn:7&#34;&gt;
&lt;p&gt;assistant system message in &lt;a class=&#34;link&#34; href=&#34;https://platform.openai.com/docs/api-reference/introduction&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;OpenAI API doc&lt;/a&gt;: &amp;ldquo;You are a helpful assistant.&amp;rdquo; .&amp;#160;&lt;a href=&#34;#fnref:7&#34; class=&#34;footnote-backref&#34; role=&#34;doc-backlink&#34;&gt;&amp;#x21a9;&amp;#xfe0e;&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
</description>
        </item>
        
    </channel>
</rss>
