Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

九大スパコン「玄海」と科学大スパコン「TSUBAME4.0」でのインストールについて #189

Open
mitsuaki1987 opened this issue Nov 25, 2024 · 8 comments

Comments

@mitsuaki1987
Copy link
Member

@yoshizk07 @k-ido こちらで整理したいと思います。

  • バージョン 3.5.2
  • テストクリアの条件 : 以下のすべての条件で、すべてのctestにパスする
    • 4プロセス×1スレッド
    • 4プロセス×2スレッド
    • 16プロセス×1スレッド
    • 16プロセス×2スレッド
  • コンパイラ・ライブラリ
    • TSUBAME : Intel2024 LLVM (Classicalは不可)
    • 玄海:?
  • リファレンス環境
    • 物性研システムC kugui, compiler-intel-llvm/2024.1.0, MPI?
  • エラー
    • 23: lobcg_spingc_Sy
      • Dry run 関連→要fix?
    • 40 : spectrum_hubbard_square
      • 原因?
@mitsuaki1987
Copy link
Member Author

mitsuaki1987 commented Nov 25, 2024

システムCにて

wget https://github.com/issp-center-dev/HPhi/releases/download/v3.5.2/HPhi-3.5.2.tar.gz
tar xzvf HPhi-3.5.2.tar.gz
mkdir build
cd build
module purge
module add tbb/2021.12 compiler-rt/2024.1.0 oclfpga/2024.1.0 compiler-intel-llvm/2024.1.0 mpi/2021.12 mkl/2024.1
cmake ../src/ -LA -DCMAKE_C_COMPILER=mpiicx -DCMAKE_Fortran_COMPILER=mpiifx
make VERBOSE=1
qsub -q i2cpu -I -l "select=1:ncpus=32:mpiprocs=16:ompthreads=2"
module purge
module add tbb/2021.12 compiler-rt/2024.1.0 oclfpga/2024.1.0 compiler-intel-llvm/2024.1.0 mpi/2021.12 mkl/2024.1
make test MPIRUN="mpiexec -np 16" MPIRUNFC="mpiexec -np 1"

は40番のみ失敗。内容は1体グリーン関数の計算の途中で異常終了。

@yoshizk07
Copy link

@mitsuaki1987
整理して頂いてどうもありがとうございます。
旧東工大TSUBAME4.0(CPU AMD)にてIntel 2025で試してみます。

@yoshizk07
Copy link

@mitsuaki1987 @k-ido
Intel 2025で試してもらいました。2025でも40番はダメみたいです。下記作業担当者のコメントです。

HPhiのテストジョブ1件が動作しない件,intel2025.0.0を用いた結果をご報告します:

・Tsubame4.0・・・4並列・16並列ともに,テスト#40はFailed.他は全てPassed
・玄界A・・・4並列・16並列ともに,テスト#40はFailed.他はすべてPassed

玄界Aについて:
intel2025.0.0はhome配下にローカルインストールして用いています.システムに導入済みの
intel2023.2, intel2024.1では,「4並列でPassed, 16並列でFailed」という結果でした.

Tsubame4.0について:
今のところ,テスト#40の成功を確認しているのはOpenMPI+GCC+AOCLの場足のみです.
ただしこの場合,計算資源の取り方によってテスト#6がFailedになるケースがあります.

@mitsuaki1987
Copy link
Member Author

40番はHPhiのバグのようです。
メモリの領域外参照があることをみつけました。
なぜほかのシステムでは落ちないのかはわかりませんが、直したいと思います。

@yoshizk07
Copy link

@mitsuaki1987
調べて頂いてどうもありがとうございます。直したら教えてください。

@mitsuaki1987
Copy link
Member Author

@yoshizk07

https://github.com/issp-center-dev/HPhi/archive/refs/heads/fix_test40.zip

こちらのブランチでバグを直しました。
リファレンス環境として物性研システムCのLLVMで試して40番が成功するようになることを確認しましたので、玄海・Tsubame4.0にてお確かめいただければ幸いです。

@yoshizk07
Copy link

@mitsuaki1987
どうもありがとうございます。了解いたしました。玄界とTSUBAME4.0で試してみます。
(なお、今更ですが、「玄界」で、「海」ではありません。)

@yoshizk07
Copy link

@mitsuaki1987
頂いたHPhi-fix_test40.zipが玄界とTSUBAME4.0で無事に全部パスすることを確認いたしました。
どうもありがとうございました。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants