<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
  </head>
  <body bgcolor="#ffffff" text="#000000">
    <font face="Times New Roman">Dear all,<br>
      <br>
      As you know, we are getting an increasing number of complaints
      that the ESG search is returning misleading results.&nbsp; I'm
      providing one more simple example that illustrates the problem (at
      least one problem that seems quite robust):<br>
      <br>
      Go to the BADC, PCMDI, or DKRZ websites and select from the
      "Search Categories" model = inmcm4 (which is being served from the
      PCMDI data node).&nbsp;&nbsp; The search returns 204 datasets, which is the
      correct number, but if you now look under the "Experiment" search
      category, you see only 4 experiments listed, whereas the 204
      datasets are actually from 12 experiments; 8 experiments fail to
      appear.&nbsp; [Note that if you search at the JPL portal, only 4
      experiments are missing, and if you search at NCAR, you'll see all
      the experiments correctly.]<br>
      <br>
      Most users coming to BADC, PCMDI, or DKRZ would think that output
      is only available from 4 experiments from the inmcm4 model.&nbsp; So
      output that modeling groups have so diligently made available
      would be missed by the folks who want to analyze it.&nbsp; <br>
      <br>
      I can see no other problem at this time that should be given
      higher priority.&nbsp; We must make visible to our users all data that
      is actually in the archive as soon as possible.&nbsp; We should devote
      every available resource to fixing this problem. <br>
      <br>
      Another problem with the current search capability (of slightly
      lower priority) is that finding datasets the user is interested in
      (and only those datasets) is currently difficult because of the
      way the variables are identified in the search engine and because
      there is a rather silly mistake in what the search engine is
      doing.&nbsp;&nbsp; Considering first the "Search Categories" method (as
      opposed to the method where you enter "free text"), the search for
      variables is based on the list of standard names (displayed with
      the underscores removed).&nbsp; There are two limitations of listing
      only the standard_name:<br>
      <br>
      1. some variables in the database may not have a standard name
      attribute, so they won't be listed under the "variable" search
      category.&nbsp; <br>
      <br>
      2. the same standard_name can apply to multiple variables.&nbsp; For
      example area_fraction is a standard name that can apply to many
      different variables (e.g., "land cover fraction", "grass
      fraction", "crop fraction")&nbsp; Thus, if a user searches on "area
      fraction", but is only interested in, for example, "grass
      fraction", they will find lots of extraneous datasets.<br>
      <br>
      I think the user should be able to designate whether the list of
      variables under the "variable" search category are displayed as
      standard_names, long_names, or the names of the variables
      themselves (i.e., the netCDF variable name).<br>
      <br>
    </font>If this is not possible (or is too difficult), then the other
    method of searching (i.e., by entering a string after "Search:
    Datasets for: ...." at the top of the esg search page) needs to be
    greatly improved.&nbsp; (It really should be improved in any case.)&nbsp; When
    searching for a variable it is difficult to limit the results to the
    actual variable you are looking for.&nbsp; Here are some problems:<br>
    <br>
    1.&nbsp; If you enter a word like "sometimes" or "the" or "disciplines",
    the search returns lots of datasets.&nbsp; This is because the search
    looks not only through the standard names, the realm names, the
    model names, etc., but also through all the text in the explanatory
    description associated with each standard_name it finds.&nbsp; I think
    whoever coded this made a silly mistake by searching the text that
    explains the meaning of the standard_name, when they meant to look
    through the "long_names" instead.&nbsp; [The search engine doesn't look
    at the long names at all!]&nbsp;&nbsp; You'll note that if you click on any
    dataset returned by a search, you'll get a page that provides 4 tabs
    of information ("summary", "geophysical properties", "variables",
    and "administration").&nbsp; Click on "variables" and you will find
    information about each variable.&nbsp; Among the information is
    "Description", which contains the long_name, followed by "Units" and
    "Standard_Name".&nbsp; Just below the standard_name is *another*
    "Description", which explains what the standard_name means.&nbsp; I think
    it is this description that is being looked at instead of the
    "Description" that contains the long_name.&nbsp; This should be fixed
    immediately!<br>
    <br>
    2.&nbsp; When you enter a string such as "surface air temperature", the
    search returns all variables that contain any one of these 3 words.&nbsp;
    There is no way a user can find surface air temperature and not a
    bunch of other variables with this search capability because it
    returns the *union* of individual searches on "surface", "air", and
    "temperature".&nbsp;&nbsp; If the user looks for a standard name (e.g.,
    air_temperature), an error is returned because an underscore is not
    allowed.&nbsp;&nbsp;&nbsp; Another problem is that if you search by entering the
    text "temperature",&nbsp; variables like "precipitation" still appear&nbsp;
    under the Search Category "Variables" although they should have been
    eliminated.<br>
    <br>
    3.&nbsp; If you enter the name of a variable (as it appears in the netCDF
    file), for example "tas" (surface air temperature), no results are
    returned.&nbsp; The search should include the variable names in the text
    it scans.<br>
    <br>
    I am quite embarrassed that hundreds of users are seeing this
    terribly disfunctional search capability.&nbsp; It makes us look bad.&nbsp;
    Whoever is responsible for this, needs to fix it immediately. &nbsp; <br>
    <font face="Times New Roman"><br>
      &nbsp;If there are things I can do to help, please let me know.<br>
      <br>
      thanks,<br>
      Karl<br>
      <br>
      P.S.&nbsp; Here's a list of additional items which I think would
      improve the ESG user interface:</font><br>
    <p class="MsoNormal" style="text-align: justify;">Highest priority:</p>
    <p class="MsoListParagraphCxSpFirst" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">1.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>A symbol
      next to each dataset in the list should indicate which datasets
      the user can download with current permissions.</p>
    <p class="MsoListParagraphCxSpMiddle" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">2.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>Whenever
      a user is asked to click on (select) items on a page, he should
      always be provided with an option to &#8220;select all&#8221; or &#8220;select all&nbsp;
      for which I currently have permission to download"&nbsp; (as well
      retaining the option to select individual items).<span style="">&nbsp;
      </span>This holds both for the &#8220;dataset&#8221; selection pages and the
      file selection pages.</p>
    <p class="MsoListParagraphCxSpMiddle" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">3.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>The
      interface pages for subscribing to the &#8220;commercial&#8221; group or the
      &#8220;research&#8221; group for CMIP5 need to be modified to prevent users
      from joining the wrong group.<span style="">&nbsp; </span>We need to
      make the whole of the terms of use visible to the user without
      scrolling, if possible.<span style="">&nbsp; </span>We need to add
      text to guide the user to the correct group.<span style="">&nbsp; </span>The

      terms of use should be easily downloadable as a pdf or something.<span
        style="">&nbsp;&nbsp; </span></p>
    <p class="MsoListParagraphCxSpLast" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">4.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>When
      subscribing to one of the CMIP5 groups, if the user forgets to
      click on &#8220;I accept&#8221;, the statement of work should not have to be
      re-entered by the user (the user will likely enter a much shorter
      description the second time through, and we don&#8217;t want that).<span
        style="">&nbsp; </span>Also, we should explain what kind of
      information we are seeking in the &#8220;statement of work&#8221;.<br>
    </p>
    <p class="MsoListParagraphCxSpLast" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;">5.&nbsp;&nbsp;&nbsp; I have not yet
      any experience with the new method of authentication (i.e.,
      tokenless).&nbsp; But it sounds like when users run the wget script,
      they will be required to login (after presumably logging in to
      download the wget script itself).&nbsp; Logging in twice would be a
      nuisance.&nbsp; <br>
    </p>
    <p class="MsoNormal" style="text-align: justify;">Lower priority:</p>
    <p class="MsoListParagraphCxSpFirst" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">6.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>Eliminate
      the prompting to join a group every time you attempt to download
      data that you are not currently authorized to download.<span
        style="">&nbsp; </span>Replace this with something like the
      following statements:<span style="">&nbsp; </span>&#8220;You are not
      authorized to download all of the selected datasets.<span style="">&nbsp;
      </span>You may be able to gain permission to access these datasets
      by joining the following groups:<span style="">&nbsp; </span>group1,
      group2, &#8230; groupN.<span style="">&nbsp; </span>To subscribe to a group,
      click on the &#8220;My account&#8221; tab at the top of the page.<span
        style="">&nbsp;&nbsp; </span>Click HERE to reach those datasets you are
      already authorized to download&#8221;<span style="">&nbsp; </span>[A
      different wording will be required if the user is not authorized
      to download any of the datasets.]</p>
    <p class="MsoListParagraphCxSpMiddle" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">7.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>When
      datasets are listed, the user should be able to set priorities on
      which center(s) he prefers to get them from.<span style="">&nbsp; </span>Then

      in the case when a dataset has been replicated, if the user
      &#8220;selects all&#8221;, ESG will know which center to get the data from
      (when there is more than one center with the data). </p>
    <p class="MsoListParagraphCxSpLast" style="margin-left: 0.25in;
      text-align: justify; text-indent: -0.25in;"><span style=""><span
          style="">8.<span style="">&nbsp;&nbsp;&nbsp;&nbsp; </span></span></span>Add &#8220;more
      information&#8221; or &#8220;help&#8221; buttons in several places to assist the
      users when they become confused.</p>
    <br>
  </body>
</html>