Name		Name	Last commit message	Last commit date
parent directory ..
llama		llama
README.md		README.md
run_baseline.sh		run_baseline.sh
run_baseline_commonsense.sh		run_baseline_commonsense.sh
run_baseline_symbolic.sh		run_baseline_symbolic.sh
run_generation_aqua.sh		run_generation_aqua.sh
run_generation_asdiv.sh		run_generation_asdiv.sh
run_generation_csqa.sh		run_generation_csqa.sh
run_generation_date.sh		run_generation_date.sh
run_generation_finqa.sh		run_generation_finqa.sh
run_generation_gsm8k.sh		run_generation_gsm8k.sh
run_generation_gsm8k_cot.sh		run_generation_gsm8k_cot.sh
run_generation_mawps.sh		run_generation_mawps.sh
run_generation_object_counting.sh		run_generation_object_counting.sh
run_generation_penguin.sh		run_generation_penguin.sh
run_generation_saycan.sh		run_generation_saycan.sh
run_generation_sports.sh		run_generation_sports.sh
run_generation_strategyqa.sh		run_generation_strategyqa.sh
run_generation_svamp.sh		run_generation_svamp.sh
run_generation_tabmwp.sh		run_generation_tabmwp.sh
run_self_evaluation.sh		run_self_evaluation.sh

README.md

Running Scripts

Before running, please define EXEHOME, OUTPUTHOME, and DATAHOME accordingly in the script.

e.g.,

EXEHOME=/home/username/SelfEval-Guided-Decoding/src
DATAHOME=/home/username/SelfEval-Guided-Decoding/data
OUTPUTHOME=/home/username/SelfEval-Guided-Decoding/outputs/${dtname}/${split}_outputs

We provide three types of example scripts as follows: (1) baseline running; (2) ours running; (3) LLM evaluating.

PS: please adjust the variables dtname and split to specify the dataset

Baseline Running

(main code: src/generate_code_baseline.py)

arithmetic reasoning -- run_baseline.sh
symbolic reasoning -- run_baseline_symbolic.sh
commonsense reasoning -- run_baseline_commonsense.sh

Ours Running

(main code: src/generate_code.py)

arithmetic reasoning
- GSM8K: Ours (PAL), Ours (CoT)
- AQUA: Ours (PAL)
- SVAMP: Ours (PAL)
- ASDiv: Ours (PAL)
- TabMWP: Ours (PAL)
symbolic reasoning
- Date Understanding: Ours (PAL)
- Object Counting: Ours (PAL)
commonsense reasoning
- CSQA: Ours (CoT)
- StrategyQA: Ours (CoT)
- Sports Understanding: Ours (CoT)

LLM Evaluation

(main code: src/self_evaluate_code.py)

Run run_self_evaluation.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

scripts

scripts

README.md

Running Scripts

Baseline Running

Ours Running

LLM Evaluation

Files

scripts

Directory actions

More options

Directory actions

More options

Latest commit

History

scripts

Folders and files

parent directory

README.md

Running Scripts

Baseline Running

Ours Running

LLM Evaluation