成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
BIG-bench
关注
0
综合
百科
VIP
热门
动态
论文
精华
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
Arxiv
0+阅读 · 7月22日
Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
Arxiv
0+阅读 · 7月29日
Reliable Reasoning Beyond Natural Language
Arxiv
0+阅读 · 7月16日
LiveBench: A Challenging, Contamination-Free LLM Benchmark
Arxiv
0+阅读 · 6月27日
NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli
Arxiv
0+阅读 · 5月12日
Instruction Matters, a Simple yet Effective Task Selection Approach in Instruction Tuning for Specific Tasks
Arxiv
0+阅读 · 4月25日
Toolink: Linking Toolkit Creation and Using through Chain-of-Solving on Open-Source Model
Arxiv
0+阅读 · 3月18日
How predictable is language model benchmark performance?
Arxiv
0+阅读 · 1月9日
LLMs cannot find reasoning errors, but can correct them!
Arxiv
0+阅读 · 1月9日
How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench
Arxiv
0+阅读 · 2023年10月31日
Self-ICL: Zero-Shot In-Context Learning with Self-Generated Demonstrations
Arxiv
0+阅读 · 2023年10月23日
S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Models
Arxiv
0+阅读 · 2023年10月23日
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate
Arxiv
0+阅读 · 2023年10月10日
Large Language Models as Optimizers
Arxiv
0+阅读 · 2023年9月7日
AutoHint: Automatic Prompt Optimization with Hint Generation
Arxiv
0+阅读 · 2023年8月8日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top