Humanity’s Last Exam: OpenAI’s o1 has already maxed out most major benchmarks
HHuummaanniittyyss LLaasstt EExxaamm:: OOppeennAAIIss oo11 hhaass aallrreeaaddyy mmaaxxeedd oouutt mmoosstt mmaajjoorr bbeenncchhmmaarrkkss