<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>
    <meta content="text/html; charset=ISO-8859-1"
      http-equiv="Content-Type">
    <title></title>
  </head>
  <body bgcolor="#ffffff" text="#000000">
    Hi S&eacute;bastien,<br>
    <br>
    I'm aware this is how it was intended to be. But among the
    increasing number of problems submitted to the esg-support, there
    are a few regarding the retraction of datasets. This tells me that
    either some modelling groups are not aware of this possibility or
    that there are non-modelers accessing the data at this stage. Adding
    the fact that you cannot tell which version was downloaded (AFAIK
    it's only encoded in the DRS structure and lost while downloaded) I
    expect it to cause problems even for modelers.<br>
    <br>
    I'm just thinking how we can minimize the number of complaints we
    get.<br>
    <br>
    Thanks,<br>
    Estani<br>
    Am 25.05.2011 12:57, schrieb S&eacute;bastien Denvil:
    <blockquote cite="mid:4DDCE0AF.50808@ipsl.jussieu.fr" type="cite">
      <meta content="text/html; charset=ISO-8859-1"
        http-equiv="Content-Type">
      Hi all,<br>
      <br>
      On 24/05/2011 09:59, Estanislao Gonzalez wrote:
      <blockquote cite="mid:4DDB6554.3040800@dkrz.de" type="cite">
        <meta content="text/html; charset=ISO-8859-1"
          http-equiv="Content-Type">
        <title></title>
        Hi,<br>
        <br>
        just to be more precise: indeed I think security and CIM data
        (meta-data from experiments and so on) should be kept away from
        the catalogs.<br>
        <br>
      </blockquote>
      <br>
      I also agree that access policy should be decoupled from the
      publication step and that CIM metadata should be kept away from
      the catalogs. CIM instances are exposed through atom feed and
      services ; that's enough. I agree it's not fairly easy to match
      files and associated CIM instances but everything is available to
      do this mapping.<br>
      <br>
      <blockquote cite="mid:4DDB6554.3040800@dkrz.de" type="cite">
        Still, Luca's idea of merging QC level info with the files
        itself might be a valid idea. The difference is that QC is
        pretty much like a "semantic" checksum for a file. AFAIK you
        cannot "downgrade"&nbsp; the QC without altering the file, i.e. if
        the file is QC L2 and while performing QC L3 checks an error is
        found, the file will either be QC L3 approved (the modeler
        defines the "oddity" as "expected") or it doesn't, which implies
        a "QC L2 passed; QC L3 failed" flag or the retraction (and maybe
        re-publication) of it altogether.<br>
        <br>
        Well, that's at least why I think the QC flag is a little
        different and it's *closely* related to the file. The only
        difference with the checksum is IMHO that it takes more time to
        be determined (as well as require other files for it's
        computation) and thus it's performed in an out-of-band fashion.<br>
        <br>
        We need that QC flag somewhere... and it's far more important
        than the rest of the CIM meta-data (getting back to Gavin's
        point about CIM issues and differentiating it to this QC flag:
        yes, you can still get to the file and download it without CIM
        data... but without the QC flag you'll have no clue if you
        *really* want to rely on this data).<br>
      </blockquote>
      <br>
      Generally speaking I don't think QC flag is far more important
      than the rest of the CIM meta-data. At least climate modellers and
      climate scientists will be able to&nbsp; perform their own QC. If
      something is wrong with a file (bad units, bad variable (example :
      precipitation claiming it's a temperature),... , or others
      discrepancy far more difficult to detect) they will most likely
      detect it and gave feedback to the appropriate modelling groups.
      This direct feedback is very important to the whole process. CIM
      metadata will put some more light over those data and will help
      scientists to decide up to which point they can rely on a dataset
      for a particular purpose.<br>
      <br>
      Regarding WG2, WG3, and commercial use of this data the QC flag
      will be something important. But one must keep in mind that
      producing information from a multi model - multi experiment
      project like CMIP5 is a challenging and extremely difficult task.
      One&nbsp; need an incredible amount of information to perform the right
      decision. The QC flag won't be able to summarise that with a "use
      this data : yes or no"<br>
      <br>
      <br>
      <blockquote cite="mid:4DDB6554.3040800@dkrz.de" type="cite"> To be
        honest I can't understand why people download this data if they
        *know* it might get corrected. Would you start writing a paper
        on something that might be altogether wrong?... I suspect they
        don't realize this.<br>
      </blockquote>
      <br>
      The group CMIP5 research know that ; it's 100% part of the job.
      The process they will follow:<br>
      <br>
      - download variables &amp; experiments they are interested in<br>
      - perform a first home made analysis on those files<br>
      - it's very likely they will catch a lot of things the QC tools
      won't<br>
      - give feedbacks to the modelling groups that produced a dataset
      they found "strange"<br>
      - modelling groups will analyse the situation and will decide to
      update or delete or keep the files unchanged<br>
      - perform a more detailled analysis (catching may be a few more
      errors)<br>
      - give feedbacks to the modelling groups that produced a dataset
      they found "strange"<br>
      - modelling groups will analyse the situation and will decide to
      update or delete or keep the files unchanged<br>
      - start to write their paper<br>
      - will do a second round to check if data has been updated (new
      version, erased version)<br>
      - download files that has been updated<br>
      - discard files that has been deleted on esg<br>
      - rerun their analysis procedure<br>
      - update figures and conclusion of the analysis<br>
      - will publish a paper that will include proper datasets<br>
      - this paper will clearly mention a strange dataset. <br>
      <br>
      This process has already started.<br>
      <br>
      So as a modelling group you will pay extra attention to the
      feedbacks your receive (you don't want thousands of paper saying
      your data are strange). And you want to be sure that analyst will
      use the latest version of your files, or won't use it if you
      decided to erase it from ESG.<br>
      <br>
      That worked like a charm for CMIP3. We want it better for CMIP5.<br>
      <br>
      Regards.<br>
      S&eacute;bastien<br>
      <br>
      <blockquote cite="mid:4DDB6554.3040800@dkrz.de" type="cite">
        Anyway, my 2c...<br>
        <br>
        Thanks,<br>
        Estani<br>
        <br>
        Am 24.05.2011 03:06, schrieb Gavin M. Bell:
        <blockquote cite="mid:4DDB0479.2040904@llnl.gov" type="cite">
          <meta content="text/html; charset=ISO-8859-1"
            http-equiv="Content-Type">
          Hi Luca, <br>
          <br>
          I think that the separation of concerns trumps the apparent
          "simplicity".&nbsp; Though it is apparently easy to republish (I am
          not sure I fully agree with that, at least not from the
          anecdotal information I hear from folks)... it is unnecessary
          to publish if we keep concerns separated.<br>
          <br>
          As Estani said, the publisher publishes and does basic
          mechanical sanity checks on data.&nbsp; That should be the full
          extent of its operation.&nbsp; As far as what is easy... one could
          'easily' set up an index over the CIM info and "join" on
          datasetid.&nbsp; This also provides loose coupling.&nbsp; If the CIM
          system has issues, that just means that when you look at your
          search results you won't see CIM info, but you will still see
          the dataset and be able to fetch and manipulate it and
          everything else.&nbsp; Also if the CIM changes it doesn't affect
          the pubblisher or publishing in any way.&nbsp; Catalogs should be
          viewed as "files" in the system... they essentially are
          logical files (containing pointers to physical files).<br>
          <br>
          I am still not convinced by your arguments that fusing and
          coupling these two semantically different aspects of the
          system so tightly is the right long term architectural
          solution.&nbsp; It may be good now, but it not as flexible later.
          We should leave open the avenue for other meta-metadata to be
          imbued onto our system ex-post-facto without much ado.<br>
          <br>
          my $0.02<br>
          <br>
          On 5/23/11 2:08 AM, <a moz-do-not-send="true"
            class="moz-txt-link-abbreviated"
            href="mailto:stephen.pascoe@stfc.ac.uk">stephen.pascoe@stfc.ac.uk</a>
          wrote:
          <blockquote
cite="mid:4C353E6E4A08AE4792B350DAA392B521196329@EXCHMBX01.fed.cclrc.ac.uk"
            type="cite">
            <pre wrap="">I'm with Estani on this.  Authorisation decisions are best decoupled from the application where possible.  Phil is on leave today but I'm sure he'd say the same thing and give much more detailed reasoning.  

I think the catalogue already mixes slightly too much information together: location-independent file metadata and location-specific service information.  If we add access control it becomes too tightly coupled.

Stephen.

---
Stephen Pascoe  +44 (0)1235 445980
Centre of Environmental Data Archival
STFC Rutherford Appleton Laboratory, Harwell Oxford, Didcot OX11 0QX, UK


-----Original Message-----
From: <a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:go-essp-tech-bounces@ucar.edu">go-essp-tech-bounces@ucar.edu</a> [<a moz-do-not-send="true" class="moz-txt-link-freetext" href="mailto:go-essp-tech-bounces@ucar.edu">mailto:go-essp-tech-bounces@ucar.edu</a>] On Behalf Of Estanislao Gonzalez
Sent: 21 May 2011 09:30
To: Cinquini, Luca (3880)
Cc: <a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:go-essp-tech@ucar.edu">go-essp-tech@ucar.edu</a>
Subject: Re: [Go-essp-tech] resolution on securing opendap aggregations via ESGF

Hi,

In my opinion we shouldn't encode the access restriction in the catalog 
for these reasons:
1) Changing the access would involved re-publishing the files. (this 
will be done for instance when QC L2 is reached CMIP5 Research -&gt; CMIP5 
Commercial). And think about what would happen if we want to change the 
access restriction in a couple of years... we should publish everything 
again, and that would involve quite some effort to understand the 
procedure again...
2) I'm not sure of this, but I fear TDS security cannot handle multiple 
roles. Right now you can publish to as many roles as required, and read 
and write access is kept separately. This would involve extending the 
TDS capabilities.
3) There could be potential inconsistencies if the authorization service 
is detached from datanode (like with the gateway right now) and the 
publisher alters the role but forgets to cascade the changes to the 
authorizing service (which would proceed according to the last harvested 
info)
4) And last but not least, I'm not sure we want to mix administration 
with publication. The publisher should only care about making data 
available, the administrator should organize this and be responsible for 
the security.

So basically I don't agree :-) Although I do think, if required, we 
could change "esg-user" for "esgf-controlled" if it's more intuitive.

My 2c anyways,
Estani

Am 20.05.2011 19:17, schrieb Cinquini, Luca (3880):
</pre>
            <blockquote type="cite">
              <pre wrap="">Hi,
        a few points again on the issue of securing opendap aggregations served by the TDS with ESGF filters:

o There's a new release of the ESGF security filters (esg-orp 1.1.2) that maps the TDS request URI to the dataset ID, and should solve this problem. You can experiment with the JPL test TDS server:

<a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://test-datanode.jpl.nasa.gov/thredds/catalog.html">http://test-datanode.jpl.nasa.gov/thredds/catalog.html</a>

where the AIRS dataset (and aggregations) is secured, the MLS is not.

o Now the data node authorization filter will correctly identify the aggregation as secured, and call the configured authorization service. Currently, the p2p Node authorization service can be configured to allow authorization based on URL matching, so it will work. The gateway authorization service will have to implement its own logic to establish authorization.

o Finally, I am wondering if we shouldn't change the way we encode authorization in thredds catalogs. Right now, we use restrictAccess="esg-user" for ALL collections, but should we consider about encoding the proper required access control attribute instead, for example restrictAccess="CMIP5 Research" ? Something to think about - there are prons and cons about this - it's all a question on wether the access control belongs in the catalog (and can be harvested for searching...) or not.

thanks, Luca
_______________________________________________
GO-ESSP-TECH mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:GO-ESSP-TECH@ucar.edu">GO-ESSP-TECH@ucar.edu</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://mailman.ucar.edu/mailman/listinfo/go-essp-tech">http://mailman.ucar.edu/mailman/listinfo/go-essp-tech</a>
</pre>
            </blockquote>
          </blockquote>
          <br>
          <pre class="moz-signature" cols="72">-- 
Gavin M. Bell
--

 "Never mistake a clear view for a short distance."
                      -Paul Saffo

</pre>
        </blockquote>
        <br>
        <br>
        <pre class="moz-signature" cols="72">-- 
Estanislao Gonzalez

Max-Planck-Institut f&uuml;r Meteorologie (MPI-M)
Deutsches Klimarechenzentrum (DKRZ) - German Climate Computing Centre
Room 108 - Bundesstrasse 45a, D-20146 Hamburg, Germany

Phone:   +49 (40) 46 00 94-126
E-Mail:  <a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:gonzalez@dkrz.de">gonzalez@dkrz.de</a> </pre>
        <pre wrap=""><fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
GO-ESSP-TECH mailing list
<a moz-do-not-send="true" class="moz-txt-link-abbreviated" href="mailto:GO-ESSP-TECH@ucar.edu">GO-ESSP-TECH@ucar.edu</a>
<a moz-do-not-send="true" class="moz-txt-link-freetext" href="http://mailman.ucar.edu/mailman/listinfo/go-essp-tech">http://mailman.ucar.edu/mailman/listinfo/go-essp-tech</a>
</pre>
      </blockquote>
      <br>
      <br>
      <pre class="moz-signature" cols="72">-- 
S&eacute;bastien Denvil
IPSL, P&ocirc;le de mod&eacute;lisation du climat
UPMC, Case 101, 4 place Jussieu,
75252 Paris Cedex 5

Tour 45-55 2&egrave;me &eacute;tage Bureau 209
Tel: 33 1 44 27 21 10
Fax: 33 1 44 27 39 02
</pre>
      <pre wrap="">
<fieldset class="mimeAttachmentHeader"></fieldset>
_______________________________________________
GO-ESSP-TECH mailing list
<a class="moz-txt-link-abbreviated" href="mailto:GO-ESSP-TECH@ucar.edu">GO-ESSP-TECH@ucar.edu</a>
<a class="moz-txt-link-freetext" href="http://mailman.ucar.edu/mailman/listinfo/go-essp-tech">http://mailman.ucar.edu/mailman/listinfo/go-essp-tech</a>
</pre>
    </blockquote>
    <br>
    <br>
    <pre class="moz-signature" cols="72">-- 
Estanislao Gonzalez

Max-Planck-Institut f&uuml;r Meteorologie (MPI-M)
Deutsches Klimarechenzentrum (DKRZ) - German Climate Computing Centre
Room 108 - Bundesstrasse 45a, D-20146 Hamburg, Germany

Phone:   +49 (40) 46 00 94-126
E-Mail:  <a class="moz-txt-link-abbreviated" href="mailto:gonzalez@dkrz.de">gonzalez@dkrz.de</a> </pre>
  </body>
</html>