"ソースコード" のように合成された用語では、FAST ESP がインデックスを別々に作成しない

Document created by Kosei_Oshita Employee on Jun 26, 2015Last modified by shunsuke_katakura on Apr 1, 2016
Version 5Show Document
  • View in full screen mode
文書番号JTEC000343
製品名Service Desk Manager
バージョン12.1, 12.5
OSWindows

 


 

◆ 概要

FAST 検索エンジンで構成された Service Desk Manager の 日本語インストールでは、「ソースコード」のような合成語を含む資料を「ソース」で検索しても、見つけることができません。

これは、「ソースコード」を一語として認識し、そのようにインデックスをつけてしまう FAST 内の制限が原因です。

以下の手順は、 FAST 検索エンジンに「ソース」と「コード」の両方のインデックスをつけるようにさせることでこの問題の解決を支援します。

同じような問題がみつかった合成語は、同様の手順を行ってください。

 

 

◆ 回避方法

  1. character_normalization_ja.xml という xml ファイルを作成し、以下の内容をコピーします

    <?xml version="1.0"?>
    <normalization_data>
    <normalizationlist name="JapaneseNormalization">
    <normalization>
    <input>[ ソースコード ]</input>
    <output>[ ソースコード ソース コード ]</output>
    </normalization>
    </normalizationlist>
    </normalization_data>

  2.   FAST Admin GUI にログインし、 ‘Document Processing' 配下で、 “Default Stages” グループの “CharacterNormalizer” ステージを探します 

  3.   このステージの横にある + ボタンをクリックします 

  4. 次の画面で、名前で “CharacterNormalizercustom” を選択し、 “configfile” パラメータを “etc/character_normalizer.xml” から “etc/character_normalization_ja.xml” に、 “Attributes” を “elemtitle elemsummary elemproblem elemresolution elemattstext” に変更します

    二重引用符は入力しないでください

    036010086_image001.PNG

  5. このステージを [submit] します

  6. Document Processing 画面に戻ります

  7. “Pipelines” セクションで、 “CAServiceDesk (webcluster)” 横の [Edit] ボタンをクリックします

  8. “Available Stages” ボックスで、1~4 で作成したステージを検索し、右向きの矢印をクリックします(2つのボックスの間の上部にあります)

  9. これで選択したステージが “Stages in This Pipeline” ボックスに移動します

  10. 上向きと下向きの矢印を使って、ステージが “Uppercase Extractor” と “Entity Vectorizer” の間にくるまで動かします

  11. [Submit] ボタンをクリックします。 

  12. ‘System Management’ タブにある全てのドキュメント プロセッサを再起動します

  13. このステップが終わったら、ドキュメントをいくつか追加して検索がうまくいくかどうか確認します

  14. 他に分割したい用語を追加するには、以下のセクションをコピーし、ソースコードとソース コードの部分を分割したい用語に変更します。

    <normalization>
    <input>[ ソースコード ]</input>
    <output>[ ソースコード ソース コード ]</output>
    </normalization>

上記完了後は、上記ステップに従って custom Normalization ステージでインデックスされるため、それ以降に追加されたドキュメントはすべて期待した検索結果となります。

既にインデックスされているドキュメントについては、コマンドプロンプトで以下のコマンドを実行することで再インデックスされます。

cmd>pdm_k_reindex

注 : このコマンドはランタイム中に実行する必要があります。このコマンドは既存のインデックス済みドキュメントをすべて再インデックスするため、しばらく時間がかかります。

 


この情報は、CA Support Online に掲載されている以下のナレッジベースを翻訳したものです。

TEC546923: FAST ESP does not create the index separately when the word is structured by a word like "ソースコード" which is "source code" in Japanese. (公開日:2011/5/11)

 

CA は、お客様が本情報を利用されたことによって生じた直接または間接な問題や損害については、いかなる責任を負わないものとします。もし誤訳を発見された場合には、CA サポートまでご連絡ください。

Attachments

    Outcomes