User:OpenScientist/Open grant writing/Testing the efficiency of open science

''This page is part of a workshop at Open Science, Open Issues, aimed at drafting a skeleton for a research proposal to put open science to an efficiency test in comparison to how science is usually performed. See this blogpost for background and this Etherpad for notes from an earlier workshop on the same subject.''

Show of hands

 * People in the room: 19

Alexandre Abidú Frederico Neto | Mestrando CPDOC/FGV-RJ | frederico@sangue.art.br | produtor.org Alessandra Santos (alessbx) | alesantos02@gmail.com Viliani Santos. Estudante de Biblioteconomia da UNIRIO. (viliani.felipe@gmail.com) Daniel Mietchen | daniel.mietchen (at) okfn.org | @EvoMRI | proposal drafting page on the English Wikiversity Elena Martins Ignácio - Professora do Colégio Pedro II (elenaign@hotmail.com) Rubens Ferreira (PPGCI-IBICT/UFRJ) Patricia Henning Professora da UNIRIO Anaiza Gaspar - IBICT Anne Clinio - Ibict Elaine Hipólito - Doutoranda do PPGCI IBICT/UFRJ / (ID: elainehipolito)/@Lainoza/ elaine.hipolito@unifesp.br / http://bibliosascounifesp.blogspot.com.br/ Gustavo Pereyra Irujo (INTA-CONICET, Argentina) Peter Murray-Rust (University of Cambridge) @petermurrayrust peter.murray.rust@googlemail.com Juan Guillermo Dueñas (CBPF) jgduenas@cbpf.br Véronique Hourcade - LabJor/Unicamp – hbvero@hotmail.com Rafael Pezzi - Instituto de Física da UFRGS Fernanda Lobo - UERJ - fernanda.lobo@gmail.com


 * Who knows what open research is?
 * 7
 * Who knows what a research proposal is?
 * 6
 * Who has ever written a research proposal?
 * 8
 * Who has ever written a research proposal in Portuguese?
 * 5
 * Who has ever written a research proposal in English?
 * 6.5
 * Who has ever written a research proposal in other languages?
 * 2
 * Who has ever written a research proposal in the sciences?
 * 5
 * Who has ever written a research proposal in the humanities?
 * 2
 * Who has ever written a research proposal in other fields?
 * 1

Collaborative drafting

 * A Google doc has been started to allow for real-time collaborative drafting. Its content will then be pasted in here to allow for the drafting to continue collaboratively. Real-time collaborative editing for MediaWiki is not yet available but under development (see TogetherJS and test implementation).

Version of record
The following text was copied from the Google Doc at the end of the Wikiversity session at Open Science, Open Issues.

This document is in under CC0/ in the public domain./ Este documento esta sob CC0/ em dominio publico. Portuguese for English, scroll down to bottom Testando a eficiência de ciência aberta vs. tradicional

Acúmulos anteriores Tradução do rascunho em inglês Ideia Básica Outros projetos alinhados Esboço/Rascunho Background Basic idea Possible Funders Draft Further considerations

Acúmulos anteriores http://2014.okfestival.org/can-we-make-research-more-efficient-through-increased-openness/ https://pad.okfn.org/p/open_versus_traditional_science Quanto desse documento vamos citar ou resumir? Traduzido (colocar no fim?):

Tradução do rascunho em inglês Os pesquisadores passam muito do seu tempo pensando sobre como testar suposições ou hipóteses e como separar os diferentes efeitos que influenciam conjuntamente alguma observação ou medições. Em seu experimento famoso na década de 1890, por exemplo, Michaelson e Morley tiveram um grande cuidado para medir a velocidade da luz, tanto no sentido de rotação da Terra, e perpendicular a ela. Dentro de um pequeno erro de observação, as duas velocidades eram idênticas, o que forneceu os primeiros sinais cruciais de que a velocidade da luz pode na realidade ser uma constante num determinado meio, e que pode realmente não ser o éter envolvido na transmissão de luz através do espaço. Surpreendentemente, rigor semelhante não é normalmente aplicado à prática da pesquisa em si: nós não sabemos que tipos de regimes de financiamento de investigação e avaliação são mais adequados para tornar tipos específicos de investigação mais eficientes. Mantemos o Fator de Impacto como meio de avaliação de artigos, pesquisadores, instituições e todos os tipos de outras coisas, apesar de saber que ele não é adequado para o efeito, e não sabemos se o status quo de manter o processo de pesquisa de opinião pública (e publicar um sumário difícil no final) é realmente benéfico para o sistema de pesquisa, como um todo. Embora seja difícil medir a eficácia da investigação, por si só, pode-se chegar a um acordo sobre uma série de critérios para avaliar a produção de projetos de pesquisa e agências de financiamento e os administradores de pesquisa têm muita experiência com isso. Também é difícil ter um grupo de controle independente para algo que acontece em campo aberto. Uma maneira de comparar os resultados da investigação aberta com os da pesquisa tradicional seria dedicar um orçamento significativamente grande para abrir a investigação, para analisar seus resultados e compará-los com as saídas de fundos comparáveis ​​gastos em formas tradicionais de fazer pesquisa. Para o propósito deste teste de eficiência, a investigação aberta será entendida como partilha de resultados de pesquisa com o mundo, logo que eles são registrados, e sob uma licença aberta, isto é, que seja compatível com a Definição Open, de modo a permitir o re-uso.. Hipóteses a serem testadas no caminho: Abrir a ciência reduz o desperdício por meio de: aumento na velocidade - objetivo seja alcançado mais rápido aumento da qualidade (os erros são vistos anteriormente) maior visão comum da estratégia e do processo perda de resíduos através da duplicação (provavelmente o benefício mais óbvio)

Ideia Básica - Aplicar uma quantia significativa de dinheiro (pense em um milhão de dolares ou mais) exclusivamente para ciência aberta usando crowdsourcing? Em princípio, um projeto aberto com os voluntários pode ser muito rentável em termos estritamente monetários porque os voluntários doam seu tempo. Bom exemplo é o Galaxy Zoo, onde Arfon Smith teria catalogado 25K galaxias durante um PhD, mas voluntários teriam catalogado 1 milhão no mesmo tempo. Permitindo o desenvolvimento de infra-estrutura Podemos dizer que este teve > 10 vezes mais custos efetivos. (Nós podemos fazer o cálculo em retrospectiva - e eles provavelmente devem ter sido feitos).

1) Reservar 20% do montante para implantar Repositórios Institucionais nas Universidades Brasileiras. Isso inclui hardware e software e mão de obra para manutenção; 2) Reservar 40% do montante para investir em Ciência Cidadã com a participação da sociedade e da população carente situada nas favelas; 3) Reservar 10% do montante para divulgação científica e inclusão social dos professores, pesquisadores e a população em geral no tema (participação social). Digo conscientização da população ao tema e as práticas; 4) Reservar 20% do montante para investir na Formação inicial e continuada dos professores da Educação Básica em tecnologia educacional para a produção de conteúdo digital aberto em colaboração com os estudantes;

5) Avaliar atitudes e visão dos pesquisadores sobre compartilhamento de dados cientificos; 6) Fazer estudos de melhores práticas e experiências de sucesso sobre compartilhamento de dados cientificas para conhecimento de ferramentas e áreas com maior potencial de resultados imediatos; 7) No Brasil, solicitar o auxílio do IBICT para a implantação dos repositórios de dados científicos abertos; 8) Criar um movimento para fazer com que a Capes apoie também as iniciativas de acesso aberto como o movimento que definiu as duas estratégias básicas: 1) via verde (green road) que trata do arquivamento realizado pelos próprios autores dos artigos científicos já publicados ou aceitos para publicação com autorização (sinal verde) dos editores que os aceitaram, para que possam disponibilizarem em um servidor de arquivo aberto. 2) via dourada (golden road) que abrange os periódicos científicos eletrônicos cujo o acesso aberto aos seus conteúdos é garantido pelos próprios editores; 9) Propor uma plataforma de financiamento colaborativo a partir de doações, onde pessoas e organizações públicas e privadas tenham a possibilidade de colaborar com qualquer valor para um fundo de pesquisa de ciência aberta (crowdfunding); 10) Fazer um mapeamento das pesquisas feitas no Brasil, os institutos, os pesquisadores e o resultado a partir de uma cartografia aberta e colaborativa, com a possibilidade de instrumentalizar os dados, criar gráficos e diagramas - algo para além dos blocões em PDF; 11) Fazer uma análise dos programas de pós-graduação do Brasil com nota 7 na Capes (verificar quantos deles trabalham com colaboração); 12) Identificar possíveis barreiras jurídicas que se imponham como obstáculo às práticas de ciência aberta; 13) Criar uma plataforma de difusão de pesquisas e conhecimentos de e/ou ciência aberta.

- analisar o resultado Reservar 10% do montante restante para realizar análise e avaliação do andamento das ações e promover melhorias;

- comparar o resultado de pesquisa semelhante quando a verba é utilizada em pesquisa tradicional.

Para que uma comparação possa ser mais direta, é preciso criar um ambiente onde, ao menos localmente, os incentivos, financiamento e infraestrutura sejam compatíveis com a prática aberta da ciência. Há também uma questão de cultura mais difícil de equilibrar para permitir uma comparação, que precisa ser considerada de formas indiretas.

Outros projetos alinhados O Instituto Brasileiro de Informação em Ciência e Tecnologia - IBICT está desenvolvendo um projeto sobre Ciência Aberta para a definição de uma estratégia nacional baseada em estudos e levantamentos sobre a situação dos dados científicos abertos no Brasil, em seus diferentes aspectos, e estado da arte em segmentos chave dos componentes da iniciativa: Políticas de preservação de dados nas agências financiadoras e instituições de pesquisa (situação atual e impacto, oportunidades, desafios e restrições, quando de sua implementação) Visão dos pesquisadores em diferentes áreas de pesquisa (tipos e categorias de dados que os pesquisadores criam e coletam no decorrer de suas pesquisas, e as categorias de dados que eles desejam ver preservados e compartilhados com seus pares, em cada caso) Perspectiva tecnológica (não é mais apenas uma questão de ampliação de ferramentas e técnicas antigas; a infraestrutura de TI demanda concepção de maneira totalmente nova: desde a forma como armazenar dados, às ferramentas e algoritmos para consulta e análise, até formas de visualização e de reutilização de dados) Metadados (novos processos de produção baseiam-se no uso e reutilização de metadados para aumentar a eficiência e reduzir custos na produção de dados Educação e programas de treinamento (desenvolvimento de habilidades necessárias para compreensão dos princípios e dos processos de gestão e de preservação de dados de pesquisa e do uso de ferramentas colaborativas em nuvem. Novos usos dos dados em diferentes áreas científicas (exemplos de como os dados vêm sendo explorados na inovação da ciência, tecnologia e da saúde, e desafios que precisam ser enfrentados; estudos de caso de práticas de preservação bem sucedidas que permitem a descoberta de novos recursos e acesso por parte de multiplos usuários ao redor do mundo).

Nesse contexto o IBICT já iniciou dois projetos para atender em parte ao que está proposto acima: a) o primeiro para desenvolver o marco referencial de estudos no âmbito da ciência aberta  que poderão ser objeto de financiamento  em diferentes áreas  da pesquisa por agencias de fomento federal e estadual; b) ´Desenvolvimento do  Mapa da Competência para proposição de politicas e projetos de sistema de informação no âmbito das Agências de Financiamento e universidades brasileiras que poderão estar interligadas por repositorios institucionais de dados cientifico em plataforma interoperavel. A ideia para os repositorios de dados de cientificos è que estes atendam a dois requistos básicos: a) para as agencias de financiamento da pesquisa o projeto a ser financiado deve apresentar desde o inicio um plano de gestão dos dados, indicando institução responsavel pela curadoria e preservação: 2) para as editoras de publicações cientificas deve ser estimulada a publicação dos dados cientificos subjacente aos artigos.

Pensar em como conseguirmos os metadados dos artigos científicos publicados. A base de curriculos Lattes provê dados de publicações dos pesquisadores, sendo porém de indexação livre. Pode-se pensar nas wikis para coleta de metadados que têm vocabulário controlado. Esboço/Rascunho

English para Português role para cima até o topo This document is in under CC0/ in the public domain. Testing the efficiency of open versus traditional science

Acúmulos anteriores Tradução do rascunho em inglês Ideia Básica Outros projetos alinhados Esboço/Rascunho Background Basic idea Possible Funders Draft Further considerations

Background http://2014.okfestival.org/can-we-make-research-more-efficient-through-increased-openness/ https://pad.okfn.org/p/open_versus_traditional_science How much are we quoting from this, and summarising?

Basic idea - I think the aim of this project is to convince researchers and funders that research projects that are usually carried out in a closed fashion can be open. So, projects which are inherently open (e.g. based on thousands of volunteers gathering or analyzing data) are not useful to test the hypothesis. I think the funds should be directed to projects that could indeed be carried out as traditional closed research, so that we can later extrapolate our results.

- use a significant amount of money (think USD 1M or more) exclusively for open science - using crowdsourcing? in principle an open project with volunteers can be very cost effective in strict monetary terms because the volunteers donate their time. Good example is Galaxy Zoo where Arfon Smith would have catalogued 25K galaxies in one PhD, but volunteers catalogued 1 million in same time. Allowing for infrastructure development Can we say this was >10 times more costs effective. (We can do the calculation in hindsight - and they probably have been done). - analyse its output How are projects usually evaluated? by peers. Peers evaluate projects all the time, using a mixture of quantitative metrics (publications, phds, etc) and their opinion on the results. I think one could design a double-blind test with a lot of evaluators that have to grade projects, without knowing if those projects are open or closed research (maybe that´s difficult). There are conventional metrics and also a realisation that these don’t measure total value. Example see Batelle’s study on Human Genome value in US. Outputs included: The updated report, titled “The Impact of Genomics on the U.S. Economy,” demonstrates that the HGP and related research continue to yield significant U.S. economic growth. It showed $965 billion in impact, more than 53,000 direct genomics-related jobs and $293 billion in personal income, leveraged from a total federal research and development investment of $14.5 billion from 1988 through 2012. But these are very difficult to measure without considerable work. (PMR I count my ex-group as a major contribution the UK - they all work in high tech or related - and most adopted a measure of openness in their work and output. Difficult to measure)

- compare to the output of the same amount of money spent on traditional research Will be very difficult to create precise equivalents in both domains. Matt Todd did this with resolution of Praziquantel where WHO funded him and (independently and unknown) another closed agency to do the same work. This would be a great example of how it can (ideally) be done. But it’s difficult to command people to do equivalent research - More likely to get open studies which are compared post hoc with other attempts in the field. example: Polymath project has solved several maths problems in apparently short time and very low cost (effectively unfunded). But there can be no control in these types of project. Should find other examples in Michael Nielsen’s work/book. The Human Genome Project is a major traditional example of where “Open won the race”. But the investments and scale were not controlled to be equal - just what happened historically.

Should it be one big project? or many little projects? Maybe we could split the money in 20 USD 50K projects, and then randomly assign them to open or closed research. If your project is assigned to ´open´, then you have to publish everything, etc. If it is assigned to ´closed´ you are not allowed to do so. Rules for open projects: open laboratory notebook open data open-source software (maybe limited to the science software. RMS hairshirt is too restricting) publication in open access journals everything under an open license universal franchise (anyone can participate). project governance open and transparent (c.f. Wikimedia) Rules for closed projects: data are (is?) secret publication in paywalled journals patents should be filed if possible Projects could be selected as pairs, as similar as possible (e.g. two biology projects, two social sciences projects, etc). Applicants should be willing and able to pursue their research either openly o closedly. Institutions sometimes have rules about this (either way), so it could be difficult to meet this criteria. Materials, protocols, etc. Bench projects may require use of communal equipment, access to services, which are often traditionally closed. This may be a pressure to open them or may prove impossible in some institutions. Would not be easy to set up lots of controlled studies with lots of closed versus open. Might be possible to have lots of small retrospective studies. But then people would be repeating work so it wouldn’t be research.

Problems with “costs” Traditional research involves paying people in Universities and overheads are often 100% of labour costs. Open volunteer projects often cost very little in monetary terms. Examples (PMR, anecdotal) Blue Obelisk Open Source chemoinformatics development. Monetary cost 10 (sic) USD / year (for obelisk). Hidden “costs” volunteer time, mailing list, travel, dinner (once/year). Output millions of lines of open code, variable quality. Creation of de facto standards, so loss of waste. So impossible to create analogous closed system Open Street Map. For several year didn’t have bank account but attracted 100,000 + volunteers. Marginal costs on Server provided (IIRC) by University College London.

the cost-saving through not having overheads and conventional employees is often considerable.

Bench Research or Interview or ...?

We can imagine meta-studies where scientists who have undertaken open or closed research are examined in detail during or after the research as to what parts of their research would have been diffirent if they had been reversed. This requires an experienced person/group but if they are credible it could be a believable way of gathering high quality information Questions like: would you have made more / less rapid progress if… Try to quantify the cost in time, materials, people. Would (not) haring your output with other groups have caused significant problems / benefits? At this stage of the project would you consider swapping to the other protocol?

Possible Funders

There is a traditional of grants, often personal, in the “open” communities where there are often overt political agendas. Examples of funders: Sloan Knight-Mozilla OSI/OSF Amidyar Shuttleworth ?Mellon? Several of these may be sympathetic to our proposed research. Draft

Summary Researchers spend a lot of their time thinking about how to test assumptions or hypotheses and how to separate different effects that jointly influence some observation or measurements. In their famous experiment in the late 1890s, for instance, Michaelson and Morley took great care to measure the speed of light both in the direction of the Earth’s rotation, and perpendicular to it. Within a small observational error, the two speeds were identical, which provided the first crucial hints that the speed of light might actually be a constant in a given medium, and that there may actually be no ether involved in transmitting light through space.

Surprisingly, similar rigor is not normally applied to the practice of research itself: we do not know what research funding and evaluation schemes are best suited to make specific kinds of research most efficient, we keep the Journal Impact Factor as a means of evaluating articles, researchers, institutions and all sorts of other non-journal things despite knowing that it is ill-suited for those purposes, and we do not know whether the status quo of keeping the research process out of public view (and publishing some rough summary at the end) is actually beneficial to the research system as a whole.

While it is difficult to measure the efficiency of research per se, one can agree on a number of criteria for evaluating the output of research projects, and funding agencies and research administrators have a lot of experience with this. It is also difficult to have an independent control group for something happening in the open.

One way to compare the outcomes of open research with those of traditional research would be to dedicate a significantly large budget to open research, to analyze its outputs and to compare them to the outputs of comparable funds spent on traditional ways of doing research.

The details of how to allocate this budget (e.g. whether one big project should be funded or a number of smaller ones, and who is eligible) should be worked out in close cooperation with funding agencies interested in the general idea of putting open science to a test.

For the purpose of this efficiency test, open research will be understood as sharing research results with the world as soon as they are recorded, and under an open license, i.e. one that is compliant with the Open Definition, so as to allow for re-use.

Hypotheses to be tested on the way: Open science reduces waste through: increase in speed - goal is reached quicker increase in quality (mistakes are spotted earlier) greater communal vision of strategy and process loss of waste through duplication (probably the most obvious benefit)

There is anecdotal evidence for each of these hypotheses, but they have never been tested systematically. Such a test would, however, provide some very valuable data points on how research communication and collaboration can be organized efficiently. Once these data are available, they will provide important reference points in debates around open research - or about modernizing research workflows more generally.

Further considerations - why do we need a test of open science? Politicians (and hence funders) often want a pseudo-monetary justification for the value of changing strategy - what will it save or what new wealth will it generate? A larger number of interested people can be involved in the process. Examples are health professionals, planners, government and other decision makers so benefits are passed to other sectors of society

- describe this test scenario: compare output of 1M open vs. 1M traditional PAD: The design of a persuasive test is a non-trivial problem: . (1)One needs to consider the criteria for the ´projects outputs´, which in general will be vector-valued, but which realization also also will vary in the time dimension. (2) The size of the sample of projects funded in this experiment must be designed to permit

Follow-up

 * Open Science mailing list (English)