I would like to explain a new addition we have made to our company about problems related to cluster servers and how to deal with them.
I consider it quite important, so please read it.
みなさま、こんにちは。
・・・少し時間が空いてしまいましたね。
とは言いつつ、今回もまずは告知からです。
僭越ながらも、弊社にて検証しました事例もご紹介させて頂きます。
終了後にはお楽しみ満載のパーティータイムもご準備頂けているようですので、ぜひ現地でお会いしましょう!!
さて今回は、以前からサブスクはサーバー立て放題だから、「やるやる!」と言っていたクラスター化を実装致しました。
その中で、弊社で発生したトラブルについて報告致します。
まずクラスターサーバーの作成について、ここでは触れませんので、ご了承ください。
【エラー発生までの流れ】
クラスターサーバーへ全メールデータベース(退職者含め130ほど)の複製を作成しました。
※弊社のメールボックス制限はひとり10GBです。
翌日、一部ユーザーから受信ボックスが空っぽとの報告がありました。
調べると、メールそのものは受信しているのですが、受信ボックスに配信されない(すべての文書には入る)状況となっていました。
なおすべての文書ビューでは、[フォルダ]が表示されているのですが、本来「受信ボックス」となるべき文書がブランクになっていることを確認しました。
なおこの現象は発生している者としていない者がいることも確認されました。
以上から、こちらでの解決は困難と判断し、サポートへ問い合わせしました。
【発生した現象】
結論としては、既にケースとしてリリースされている内容に該当していました。
要はレプリカスタブが実際の複製処理を実施している間に、サーバーメンテナンスのひとつである「designタスク」が実行されてしまうと、設計反映の処理が重複してしまい、トラブルの原因となるそうです。
確かに発生しているユーザーとしていないユーザーがいる点からも、納得です。
【本来実施すべき準備】
notes.ini のパラメータ ServerTasksAT1= で Design タスクが指定されているため、一時的にこの記述を削除する
もし今後、クラスターサーバーを追加されるような場合は、ご注意ください。
【復旧作業①】
それでは実際に弊社のような状況に陥った場合の対処方法です。
①念のため、対象のメールボックス(nsf)をバックアップする
②そのメールボックスをDesignerで開き、[フォルダ]内[$Inbox]を削除する
③Dominoコンソールで、対象メールボックスにconvertコマンドを実行する。
※テンプレートのファイル名は実際に利用しているものを指定します。
load convert mail\ABC.nsf * djxmail12.ntf
ケース文書では、以上で復旧するようです。(例外として、以下記述はあります)
※この対応で復旧できるのは、convert を実施した日から 90 日前までに受信したメッセージのみであることに注意してください。90 日よりも過去に受信したメッセージを受信ボックスに表示させる手段は存在しないため、バックアップからリストアするか、すべての文書ビューから必要なメッセージを受信ボックスにコピーする必要があります。
しかしながら、弊社の現象では、複製作成前のメールはこの時点で受信ボックスには表示されませんでした。
【復旧作業②】
再度サポートに問い合わせたところ、
データベースのトラブルシューティングと問題解決のための管理ツール(Admin Tool)
https://support.hcltechsw.com/csm?id=kb_article&sysparm_article=KB0080492
というものを紹介して頂けました。
ツールの機能はいろいろとあるようですので、先のリンクをご確認ください。
ちなみに画面は以下のようなものになります。
こちらを使って、メールデータベースの復旧を試してみます。
作業は至って簡単で、
①[Darabase Health]-[Rebuild Mail Database Inbox]を選択
②以下のような画面が表示されますので、[Select]をクリックして、対象のメールデータベースを選択します。
③[Rebuild]をクリックして、あとは待つのみになります。
完了したら、メッセージが表示されますので、OKします。
ちなみにRebuildの時間は対象のメールデータベースの容量に比例するようで、個人的なイメージとしては、結構かかったと感じました。
結果として、本ツールを利用することで、障害は解消することができました。
※本ツールはもっと精査しても面白そうですね。
以上で今回のレポートと致します。
以下参考情報として、作業中でひっかかった内容のケースを追記しておきますので、こちらもご参照ください!!
【参考資料】
https://support.hcltechsw.com/csm?id=kb_article&sysparm_article=KB0037843
※2 「再始動可能な圧縮には、db 及び ODS が 55 以上のトランザクションログが必要です。」のメッセージが出力される
https://support.hcltechsw.com/csm?id=kb_article&sysparm_article=KB0105755
→「情報のメッセージになりますので、該当のメッセージが出力されていても、特に問題はありません。」・・・だそうすです。