STIS 2011

29/novembro: Prospecção de dados baseados em corpora

registro 29/novembro

Registro da Conferência em chat escrito, de 29 de novembro de 2011:

 

A linguagem da ciência: prospecção de dados baseados em corpora

conferencistas: Heliana Mello e Renato Rocha

moderador: Equipe STIS


[20:30] [woodsonfc] Vamos dar início ao STIS com a palestra
[20:30] [woodsonfc] da Heliana Ribeiro de Mello
[20:31] [woodsonfc] que é doutora pela City University of New York (1992) (1997) e pós-doutora (1998) em Linguística pela City University of New York.
[20:32] [woodsonfc] sobre A linguagem da ciencia: prospecção de dados baseados em corpora
[20:32] [woodsonfc] em seguida ouviremos Renato Rocha Souza
[20:32] [woodsonfc] Me corrijam se cometer algum erro :-P
[20:33] [hugleo] :P
[20:33] [woodsonfc] `que é doutor em Ciência da Informação pela Universidade Federal de Minas Gerais (2005) e pós-doutorado (01/2009-01/2010) em Tecnologias Semânticas para Recuperação de Informação - University of Glamorgan, UK, sob supervisão de Douglas Tudhope e com bolsa do CNPQ.
[20:33] [woodsonfc] Heliana Atua na área de Estudos Linguísticos, com ênfase em análises relacionadas a mudanças de sistemas gramaticais e contato linguístico, semântica e pragmática. Seu foco em Linguística de Corpus abarca a compilação de corpora e metodologias de análise linguística baseadas em corpora.
[20:34] [woodsonfc] e Renato é atualmente professor e pesquisador da Escola de Matemática Aplicada (EMAp) da Fundação Getúlio Vargas e professor colaborador da Escola de Ciência da Informação da Universidade Federal de Minas Gerais.
[20:34] [woodsonfc] Passo a palavra a profa Heliana
[20:35] [Heliana] Obrigada!
[20:35] [Heliana] Boa noite! é um prazer interagir com vocês e trazer algumas idéias relacionadas ao nosso trabalho para que vocês possam pensar sobre elas e sua utilidade em seus próprios contextos.
[20:35] [acris] bem vinda, Heliana!
[20:35] [Heliana] Obrigada, Ana!
[20:35] [Heliana] Agradecemos o convite da Profa. Ana Cristina Fricke-Matte para estar aqui e esperamos ter uma interação produtiva com vocês. Esta apresentação será iniciada por mim, Heliana Mello, e concluída pelo Renato Souza . Passemos, então ao nosso assunto.
[20:36] [Heliana] A ciência, qualquer que seja a sua conceitualização, não existe fora da linguagem. Pensamentos são organizados e expressos através de sistemas semióticos distintos, de linguagens formais, mas a linguagem escrita e a oral estão sempre presentes em sua articulação e expressão.
[20:36] [Heliana] As práticas científicas são variadas e dependem da linguagem em sua configuração; há a necessidade da linguagem na circulação e divulgação da ciência a especialistas e não-especialistas, etc.
[20:36] [Heliana] Ciência e linguagem formam um par convencionalizado – quase um bigrama, nos termos da lingüística de corpus.
[20:36] [Heliana] Nesta apresentação falaremos sobre a utilização de corpora para a prospecção da linguagem científica.
[20:37] [Heliana] Tal ação pode ter vários objetivos: identificação de palavras-chave de uma dada área, extração de dados para análise e organização de conceitos e entidades de uma área específica (garimpagem de dados),
[20:37] [Heliana] criação de perfis de pesquisa, comparação de práticas profissionais entre distintas áreas do saber, auxílio na escrita de textos científicos, etc.
[20:37] [Heliana] Primeiramente discutiremos a definição de corpora, sua caracterização e alguns exemplos.
[20:37] [Heliana] Passaremos, a seguir, à apresentação de algumas ferramentas úteis na compilação e tratamento de corpora.
[20:38] [Heliana] Exemplificaremos, então, estudos que utilizam corpora como objeto para discussão da linguagem científica.
[20:38] [Heliana] Na última parte desta apresentação, apresentaremos alguns exemplos do trabalho de garimpagem de dados que vem sendo desenvolvido na Fundação Getúlio Vargas pelo grupo do Renato.
[20:38] [Heliana] Passemos aos Corpora e à Linguística de Corpus.
[20:38] [acris] o codigo dos slides: helianaMello2011
[20:39] [Heliana] A Linguística de Corpus se ocupa da coleta e análise de corpora, que são um conjunto de dados linguísticos coletados criteriosamente para serem objeto de pesquisa linguística.
[20:39] [Heliana] A linguística de corpus surgiu da necessidade que estudiosos da língua sentiram de se apoiar em usos reais para fazerem generalizações ou esboçarem teorias a respeito do funcionamento linguístico.
[20:39] [Heliana] Atualmente, a Linguística de Corpus está intimamente ligada ao uso do computador, visto que os corpora são eletrônicos.
[20:39] [Heliana] Assim, a Linguística de Corpus contemporânea caracteriza-se pela coleta e análise de corpora eletrônicos com o auxílio de ferramentas eletrônicas.
[20:39] [Heliana] Antes do computador, já se fazia uso de corpus. Na Grécia Antiga foi criado o Corpus Helenístico.
[20:40] [Heliana] Na Antiguidade e Idade Média, produziam-se corpora de citações da bíblia.
[20:40] [Heliana] Durante boa parte do século XX, foi feito o uso de corpora para a descrição de várias línguas e seus dialetos.
[20:40] [Heliana] Os corpora dessas épocas eram coletados, armazenados e analisados manualmente. A dificuldade de se realizar estudos desse tipo era enorme.
[20:40] [Heliana] Mesmo assim, havia grande interesse na coleta e exploração de dados sistemáticos.
[20:40] [Heliana] é importante ressaltar o papel dos estudos baseados em corpora realizados manualmente pela dificuldade e pelo pioneirismo na época.
[20:41] [Heliana] O período crítico para os estudos baseados em corpus se deu com a ‘mudança’ de paradigma da linguística, com as ideias de Chomsky por volta de 1950.
[20:41] [Heliana] Houve uma preferência muito forte por estudos baseados em teorias racionalistas da linguagem que utilizavam a metodologia introspectiva para seus propósitos.
[20:41] [Heliana] Os estudos empíricos receberam muitas críticas nessa época. As críticas eram relacionadas à necessidade de se coletar dados empíricos e o meio pelo qual se realizava a coleta e a análise dos dados.
[20:41] [Heliana] Um dos argumentos era a falta de confiabilidade das análises manuais de grandes quantidades de dados linguísticos e o universo parcial e tendencioso que qualquer conjunto de dados lingüísticos representa.
[20:41] [Heliana] Embora o cenário fosse desfavorável, os estudos baseados em corpora não pararam.
[20:42] [Heliana] Muitos pesquisadores continuaram seus estudos por meio de corpora. Firth (1957) e os neo-firthianos defendiam a descrição da linguagem por meio de dados reais.
[20:44] [acris] a pagina da Heliana caiu, ela esta abrindo outra
[20:45] [acris] :)
[20:45] [Heliana__] Oi pessoal, estou de volta
[20:45] [acris] pode continuar, Heliana__
[20:45] [Heliana__] O corpus SEU (Survey of English Usage), por exemplo, foi compilado e etiquetado manualmente em 1959. O SEU influenciou a criação de corpora eletrônicos e serviu para o desenvolvimento de etiquetadores computadorizados contemporâneos.
[20:45] [Heliana__] Com o advento do computador nos anos de 1960 e a queda de prestígio das pesquisas puramente racionalistas, o cenário começou a mudar. O lançamento do corpus Brown em 1964, com 1 milhão de palavras, é considerado como o fato propulsor do desenvolvimento da Linguística de Corpus.
[20:46] [Heliana__] O corpus Brown é o pioneiro dos corpora eletrônicos por ter nascido em um período ainda desfavorável para os estudos empiristas e, também, pela dificuldade de compilação em computadores mainframe.
[20:46] [Heliana__] A popularização dos estudos com corpora ocorreu nos anos de 1980 com o aparecimento dos computadores pessoais. Pesquisadores individuais puderam compilar seus corpora, o que antes somente poderia ser realizado por equipes, com grande custo financeiro.
[20:46] [Heliana__] Com o desenvolvimento dos computadores, especificamente o aumento da capacidade de armazenar e processar dados, maiores números de corpora e ferramentas foram disponibilizadas para pesquisas, contribuindo para a consolidação da Linguística de Corpus.
[20:47] [Heliana__] Um corpus deve ser constituído de dados autênticos legíveis por computador e representativos de uma língua ou da variedade da língua a qual se deseja estudar.
[20:47] [Heliana__] Como já dito, computador desempenha um papel importante para os estudos na área. As ferramentas computacionais são geralmente utilizadas para reorganização e extração de informações do corpus para observação e interpretação de dados, fornecendo novas perspectivas para a análise linguística.
[20:47] [Heliana__] Algumas ferramentas computacionais utilizadas na lingüística de corpus comumente são:
[20:47] [Heliana__]  Programas para listar palavras (frequenciadores) - fazem a contagem das palavras em um corpus – oferecem listas de frequência de formas. As formas individuais são conhecidas como tipos - types e suas ocorrências, como tokens.
[20:47] [Heliana__]  Concordanciadores – são programas que permitem que o usuário procure por palavras específicas em um corpus, fornecendo listas para as ocorrências da palavra em contexto, o qual pode, normalmente ser expandido para a citação completa em que a forma procurada ocorre;
[20:48] [Heliana__]  Etiquetadores - fazem análises automáticas do corpus e inserem etiquetas (códigos) de ordem morfossintática, sintática, semântica, prosódica ou discursiva.
[20:48] [Heliana__] A Linguística de Corpus faz uso de uma abordagem empirista, contrária à abordagem racionalista, do ponto de vista linguístico, e tem como central a noção de linguagem enquanto sistema probabilístico.
[20:48] [Heliana__] De acordo com essa noção, os traços linguístico não ocorrem de forma aleatória, sendo possível evidenciar e quantificar regularidades (padrões).
[20:48] [Heliana__] é comum na área afirmar que a linguagem é padronizada (patterned), isto é, existe uma correlação entre os traços linguísticos e os contextos situacionais de uso da linguagem.
[20:49] [Heliana__] Na Linguística de Corpus, a padronização se evidencia por colocações, coligações ou estruturas que se repetem significativamente.
[20:49] [Heliana__] Para muitos pesquisadores, a Linguística de Corpus revolucionou o modo como a linguagem é estudada.
[20:49] [Heliana__] Seus achados contribuem para diversas áreas de pesquisa linguística, dentre elas, comumente se mencionam a lexicografia, o ensino-aprendizagem de línguas, a tradução, dentre outras.
[20:49] [Heliana__] As principais áreas da Linguística de Corpus são:
[20:50] [Heliana__]  Compilação de corpora;
[20:50] [Heliana__]  Desenvolvimento de ferramentas para análise de corpora;
[20:50] [Heliana__]  Descrição da linguagem;
[20:50] [Heliana__]  Exploração do uso de descrições baseadas em corpora para várias aplicações -como ensino-aprendizagem de línguas e gêneros linguísticos,
[20:50] [Heliana__] processamento da linguagem natural por máquinas, reconhecimento de voz, construção de gramáticas e dicionários, etc.
[20:51] [Heliana__] Há diversos tipos de corpora, que servem também a propósitos distintos. Aliás, uma das máximas da Linguística de Corpus,
[20:51] [Heliana__] é que um corpus vale tanto quanto a sua adequação ao propósito a que se destina.
[20:51] [Heliana__] Assim, quanto à diamesia, os corpora podem ser: escritos (que são os mais comuns e mais facilmente compiláveis),
[20:51] [Heliana__] orais (trabalhasos e custosos, dependem de alta qualidade acústica, transcrição e alinhamento do sinal sonoro à sua transcrição através de programas específicos) e corpora multimodais (normalmente incluem imagens, som e texto transcrito.
[20:51] [Heliana__] São ainda raros e muito custosos. Há muitas questões éticas relacionadas à exposição de imagens ainda sendo debatidas. Dependem de programas específicos para o seu alinhamento).
[20:52] [Heliana__] Há corpora diacrônicos e sincrônicos. Um exemplo de um corpus diacrônico do português é o Corpus do Português, de Mark Davies e Michael Ferreira, que pode ser acessado gratuitamente via link http://www.corpusdoportugues.org/ .
[20:52] [Heliana__] O Corpus do Português não é um corpus totalmente balanceado, mas tem uma cobertura de textos do século XIV ao XX, obviamente cobrindo textos portugueses antigos exclusivamente, e nos períodos possíveis, também textos brasileiros. Há vários corpora sincrônicos do português acessíveis através do portal Linguateca http://www.linguateca.pt/ .
[20:52] [Heliana__] Há corpora monitores, que servem para documentar uma dada língua com o passar do tempo, são alimentados com frequência e têm um tamanho gigantesco. Para o inglês há, por exemplo, o Bank of English (http://www.titania.bham.ac.uk) e o Corpus of Contemporary American English – COCA (http://corpus.byu.edu/coca/).
[20:52] [Heliana__] Para o português, contamos com alguns corpora eletrônicos disponíveis à comunidade em geral. O Banco de Português (http://www2.lael.pucsp.br/corpora/bp/) tem parte de seu acervo na Web, assim como o Corpus Brasileiro, com 1 bilhão de palavras (http://corpusbrasileiro.pucsp.br/x/).
[20:53] [Heliana__] O Lácio Web já se encontra na Web e tende a crescer (http://www.nilc.icmc.usp.br/lacioweb/). O Tycho-Brahe, de português histórico (http://www.tycho.iel.unicamp.br/~tycho/), também está na Web há muitos anos. Fora do Brasil, como mencionado, a Linguateca (http://www.linguateca.pt/) já disponibiliza vários corpora em português.
[20:53] [Heliana__] Como mencionado anteriormente, por serem objetos de tratamento computacional, os corpora eletrônicos necessitam de ferramentas computacionais para sua compilação e tratamento.
[20:53] [Heliana__] Há diferentes parâmetros que podem instruir a compilação e anotação de um corpus, entretanto busca-se hoje a adoção de diretrizes que facilitem a padronização dos critérios adotados.
[20:53] [Heliana__] Essas diretrizes podem ser encontradas, por exemplo, nos documentos do Text Encoding Initiative – TEI (http://www.tei-c.org/index.xml) que buscam a padronização da representação de textos em formato digital.
[20:53] [Heliana__] Outro exemplo de tentativa de padronização de critérios relacionados ao tratamento de corpora é o Expert Advisory Group on Language Engineering Standards – EAGLES (http://www.ilc.cnr.it/EAGLES/browse.html).
[20:54] [Heliana__] Ferramentas podem estar associadas à compilação de corpora ou ao tratamento de corpora. Alguns programas executam ambas as funções. Esse é o caso do software livre TextSTAT (www.niederlandistik.fu-berlin.de/textstat/). Cf. slide 3: http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img2.jpg .
[20:54] [Heliana__] O TextSTAT é um programa leve, que serve para compilar corpora buscando textos na web ou em pastas específicas, listar formas e sua freqüência (http://alcinoviana.files.wordpress.com/2011/02/textstatocorrencias.jpg?w=640&h=544),
[20:55] [Heliana__] listar concordâncias (http://alcinoviana.files.wordpress.com/2011/02/textstat-concordancias.jpg?w=640&h=544) e citações (http://alcinoviana.files.wordpress.com/2011/02/textstat-citacoes.jpg?w=640&h=544)
[20:55] [Heliana__] Outro programa livre para compilação de corpora através da web é o Bootcat (http://bootcat.sslmit.unibo.it/) – cf. slide 4 http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img3.jpg .
[20:55] [acris] voces podem aompanhar os slides aqui no chatslide com o codigo helianaMello2011
[20:55] [Heliana__] O Bootcat dispõem de scripts que a partir de palavras-chave (seeds) busca páginas específicas na web. Sua utilidade é ilimitada para a compilação de corpora especializados (corpora científicos, por exemplo),
[20:55] [Heliana__] corpora paralelos para tradução, corpora para fins lexicográficos, etc (cf. http://www.cs.utah.edu/nlp/readinglist/BaroniB04.pdf) .
[20:56] [Heliana__] Uma terceira ferramenta gratuita interessante é o concordanceador AntConc (http://www.antlab.sci.waseda.ac.jp/software.html) - cf. slide 5 http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img4.jpg .
[20:56] [Heliana__] O AntConc oferece um conjunto de sete ferramentas que servem para listar as linhas de concordância de uma dada forma, exibir a linha de concordância em contexto,
[20:56] [Heliana__] visualizar o arquivo de texto, listar clusters/n-gramas, listar frequências, palavras-chave e colocados (http://www.antlab.sci.waseda.ac.jp/software/README_AntConc3.2.4.pdf)
[20:57] [Heliana__] Temos software para análise de corpus em português, alguns disponíveis livremente (http://www2.lael.pucsp.br/corpora/ e http://beta.visl.sdu.dk/visl/pt/ ).
[20:57] [Heliana__] Temos também literatura sobre corpora em português e muitas apresentações nos mais variados encontros científicos relacionados à linguagem, como a série Encontro de Linguística de Corpus, que acabou de realizar a sua décima edição entre 11 e 12 de novembro de 2011, aqui na FALE-UFMG (www.letras.ufmg.br/linguisticacorpus2011).
[20:57] [Heliana__] A área tem crescido consideravelmente nos últimos anos aqui no Brasil.
[20:57] [Heliana__] Existem muitas bases de divulgação e disponibilização de corpora, algumas de livre acesso e outras pagas.
[20:58] [Heliana__] Uma importante base internacional, sobretudo pelos corpora orais que disponibiliza é a Linguistic Data Consortium (http://www.ldc.upenn.edu/) cf. slide 6: http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img5.jpg
[20:58] [Heliana__] Para o português, está disponível gratuitamente a Linguateca (http://www.linguateca.pt/) cf. slide 7 http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img6.jpg
[20:59] [Heliana__] Passemos a algumas aplicações ligadas à linguagem científica.
[20:59] [Heliana__] A Linguística de Corpus explora diferentes possibilidades analíticas, com fins específicos. O nosso foco nesta apresentação é a prospecção de dados da linguagem científica. Para tal, é necessário que se compilem corpora científicos especializados.
[20:59] [Heliana__] Esses corpora normalmente não são disponibilizados para a comunidade e são propriedade dos grupos que os utilizam em seus estudos.
[20:59] [Heliana__] Há algumas exceções, que normalmente voltam-se para o estudo da linguagem científica de um modo geral.
[21:00] [Heliana__] Um exemplo é o projeto Scientext (http://scientext.msh-alpes.fr./scientext-site/spip.php?article19) cf. slide 2 http://www.textolivre.pro.br/chatslide/apresentacoes/melloSouza2011/img1.jpg
[21:00] [Heliana__] 1. Uma das principais aplicações da Linguística de Corpus nesse setor é o estudo lexicográfico-terminológico. A partir da exploração de corpora específicos, constroem-se dicionários, glossários, ontologias, implementam-se traduções, etc.
[21:00] [Heliana__] Um exemplo de grupo de trabalho nessa área é o projeto TERMISUL (http://www6.ufrgs.br/termisul/index.php) .
[21:01] [Heliana__] O grupo explicita como seu objetivo “Avançar na pesquisa teórica e aplicada da Terminologia é seu objetivo primeiro. Sua opção teórico-metodológica coloca a Terminologia na perspectiva da linguagem especializada, manifestada no texto especializado.”
[21:01] [Heliana__] Outro grupo que trabalha nessa perspectiva desenvolve o projeto TEXTQUIM (http://www6.ufrgs.br/textquim/index.php) , enfocando a linguagem da química.
[21:01] [Heliana__] Seus objetivos são: “Fazemos estudos das linguagens técnico-científicas , não restritos às terminologias, considerando o todo dos textos, os modos de dizer,
[21:01] [Heliana__] as convencionalidades e as combinatórias de palavras, a enunciação específica de cada gênero textual em diferentes áreas de conhecimento e em diferentes línguas.
[21:02] [Heliana__] Nosso usuário principal é o estudante de tradução, o interessado em conhecer os usos da língua através das abordagens da Linguística de Corpus. “
[21:02] [Heliana__] Um terceiro grupo de trabalho na área, com foco em várias áreas científicas como biocombustíveis, nonotecnologia, fiioterapisa, etc, é o GETERM, da UFSCAR (http://www.geterm.ufscar.br/). Seus objetivos são:
[21:02] [Heliana__] “estudar conteúdos pertinentes à Terminologia/Terminografia; desenvolver pesquisas que gerem produtos terminológicos em língua portuguesa, tais como: glossários, dicionários, enciclopédias e assemelhados, que satisfaçam demandas reais.”
[21:03] [Heliana__] Alguns exemplos de produções nessa área podem ser vistos em: Terminologia Verde: http://www.lume.ufrgs.br/bitstream/handle/10183/565/000507515.pdf?sequence=1
[21:03] [Heliana__] Terminologia jurídica: http://projeto.lexml.gov.br/arqs/MACIEL.pdf
[21:03] [Heliana__] TEXTQUIM: http://www6.ufrgs.br/textquim/arquivos/perspectivas.pdf
[21:03] [Heliana__] Artigos Científicos Tutorial: http://www6.ufrgs.br/textquim/tutorial.php
[21:04] [Heliana__] 2. Estilística, palavras-chave, textualização: Estudos relacionados a esses aspectos, ligados à composição do texto científico propriamente dito, são muito explorados através de corpora de textos acadêmico-científicos orais e escritos e são grandemente utilizados para o ensino de escrita e expressão acadêmico-científica.
[21:04] [Heliana__] Exemplos de corpora desta natureza são o Scientext (já visto no slide 1) e o famoso Micase (http://quod.lib.umich.edu/m/micase/) desenvolvido por John Swales na Universidade de Michigan.
[21:04] [Heliana__] Swales é um dos precursores do estudo da linguagem da ciência (http://www.elicorpora.info/).
[21:04] [Heliana__] 3. Filosofia da ciência: comparação de marcos epistemológicos A comparação entre o fazer científico de diversas áreas vem sendo estudado por filósofos através de instrumentos computacionais
[21:05] [Heliana__] e processamento estatístico de textos.
[21:05] [Heliana__] Nesse campo de estudos comparam-se concepções científicas, que levam a distintas metodologias exploratórias, através de padrões da articulação discursiva,
[21:05] [Heliana__] especificada via índices lexicais, construções e colocados, e palavras funcionais.
[21:06] [Heliana__] Um exemplo desse tipo de abordagem é a comparação entre textos científicos de áreas científicas experimentais e históricas (http://lingcog.iit.edu/doc/scientometrics2007.pdf , www.abdn.ac.uk/~csc323/lrecAZCoreSCfinal.pdf )
[21:06] [Heliana__] 4. Alimentação de ferramentas de sistemas de informação e bancos de dados O tratamento computacional de dados de corpora científicos tem servido à pesquisa na Ciência da Informação como um manancial para testagem de ferramentas desenvolvidas na área,
[21:06] [Heliana__] via mensuração de sua eficácia, acurácia e validade, além de alimentar o desenvolvimento de novas ferramentas voltadas para a determinação de domínios e suas tarefas co-associadas.
[21:06] [Heliana__] Um exemplo de trabalho abordando essa visão foi desenvolvido por John McMullen, da Universidade da Carolina do Norte (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.117.9537&rep=rep1&type=pdf) .
[21:07] [Heliana__] Um outro exemplo da aplicabilidade da prospecção de dados de corpora para o tratamento da linguagem da ciência e criação de recursos para gerenciamento de informação é o trabalho na área médica (http://www.clt.gu.se/swedish-scientific-medical-corpus-terminology-management-and-linguistic-exploration)
[21:07] [Heliana__] que vem sendo desenvolvido no Centro de Tecnologia da Linguagem na Universidade de Gotemburgo (http://www.clt.gu.se/research) , na Suécia.
[21:07] [Heliana__] Trata-se do projeto MEDLEX, que compilou um corpus científico médico (em expansão), com anotações em vários níveis, i.e., morfossintático,
[21:07] [Heliana__] informação semântica (entidade, Medical Subject Heading, terminologia), analisadas por um parser (http://spraakbanken.gu.se/swe/publikationer/collection-encoding-and-linguistic-processing-swedish-medical-corpus-medlex-experience) .
[21:08] [Heliana__] 5. Detecção de tendências emergentes ( Emergent Trend Detection): esta é uma nova área na garimpagem de dados, para a qual existem métodos específicos. Sua aplicabilidade se dá tanto no campo científico (identificação de temas e áreas de pesquisa emergentes)
[21:08] [Heliana__] quanto no comercial (criação de produtos que atinjam novas faixas e interesses de mercado).
[21:08] [Heliana__] No campo científico, a detecção de novas tendências é feitas a partir do tratamento de corpora científicos, normalmente compostos por artigos publicados em revistas de grande reconhecimento.
[21:09] [Heliana__] Estudos nessa área são normalmente desenvolvidos por cientistas da computação ou da informação. Um exemplo de artigo que trata o assunto é: www.jaist.ac.jp/~bao/papers/HoangKSS.pdf
[21:09] [acris] Heliana__: 5 minutos
[21:10] [Heliana__] Uma área de crescente importância é a garimpagem de dados da linguagem da ciência – tal aplicação é explorada em diversos projetos em desenvolvimento pela equipe de trabalho do Renato, a quem passo a palavra nesse momento.
[21:10] [RenatoRocha] Obrigado, Heliana!
[21:10] [RenatoRocha] Parabéns pela apresentação!
[21:10] [RenatoRocha] Pessoal, boa noite. é um prazer estar (aqui e aí) com vocês.
[21:10] [acris] boa noite, RenatoRocha, obrigada, Heliana__
[21:10] [RenatoRocha] Não sei se vou ser tão rápido no gatilho como a Heliana,
[21:11] [RenatoRocha] Mas espero poder exemplificar algumas das coisas de que ela falou.
[21:11] [RenatoRocha] vou apenas exemplificar alguns das pesquisas que temos desenvolvido, baseadas em corpora.
[21:11] [woodsonfc] O prazer é todo nosso (Heliana e Renato)
[21:11] [RenatoRocha] Na Ciência da Informação, há muitas atividades que dependem de grandes volumes de textos, como a extração de conceitos
[21:11] [RenatoRocha] para estruturação de sistemas de organização do conhecimento (tesauros, esquemas de classificação, ontologias - como citado pela Heliana)
[21:12] [RenatoRocha] Estes sistemas são representações de domínios de conhecimento através de conceitos e suas relações,
[21:12] [RenatoRocha] de modo a auxiliar processos de indexação, classificação e a desambiguação terminológica.
[21:12] [RenatoRocha] Ultimamente meu uso de técnicas de PLN e corpora tem sido mais voltado para aplicações de text mining, onde buscamos relações ocultas em dados não estruturados, de natureza eminentemente textual.
[21:13] [RenatoRocha] ...como também falou Heliana.
[21:13] [RenatoRocha] A partir das análises destes corpora, buscamos representações e visualizações que nos permitam depreender informações que não se mostram à primeira vista.
[21:13] [RenatoRocha] O problema com os documentos dos projetos em que precisamos "mineirar" informações é a grande heterogeneidade
[21:13] [RenatoRocha] - de formatos, de codificação, etc. Estes documentos por vezes são campos de bancos de dados, ou em outras ocasiões têm que ser "extraídos" diretamente da web.
[21:14] [RenatoRocha] Para possibilitar estas pesquisas, estamos construindo um processador genérico de textos,
[21:14] [RenatoRocha] que possa ser acoplado a quaisquer das fontes com que temos trabalhado.
[21:14] [RenatoRocha] Vocês podem seguir os slides com o código:
[21:14] [RenatoRocha] renatoRocha2011
[21:15] [RenatoRocha] A nossa motivação em criar um processador genérico de textos se deu em parte por algumas demandas que estávamos recebendo,
[21:15] [RenatoRocha] e pelas características das ferramentas gratuitas disponíveis, que na maioria das vezes dependem de condições especiais,
[21:15] [RenatoRocha] plataformas específicas ou contém limitações ao uso.
[21:16] [RenatoRocha] Nós recebemos com fonte documentos mal formatados,
[21:16] [RenatoRocha] que precisam ser transformados, convertidos, etc.
[21:16] [RenatoRocha] São formatos como PDF, DOC, XML, HTML, ODT
[21:16] [RenatoRocha] e por vezes planilhas, bancos de dados, etc.
[21:17] [RenatoRocha] Então quisemos um mecanismo de processamento anterior à análsie sintática
[21:17] [RenatoRocha] Esse é o que chamamos de PyPLN.
[21:17] [RenatoRocha] Depois que tratamos das conversões, e temos os textos em formato Plain Text e na codificação UTF-8,
[21:18] [RenatoRocha] podemos realizar a marcação morfossintática, da qual falou a Heliana.
[21:18] [RenatoRocha] As palavras são marcadas em suas categorias sintáticas usando dois softwares:
[21:18] [RenatoRocha] O Palavras, para o português - http://beta.visl.sdu.dk/visl/pt/
[21:19] [RenatoRocha] E o Python NLTK para o Inglês: http://www.nltk.org/
[21:19] [RenatoRocha] E então estas palavras são armazenadas em um banco de dados.
[21:19] [RenatoRocha] A partir daí, podemos fazer estudos como a extração de entidades nomeadas,
[21:19] [RenatoRocha] a identificação de expressões regulares,
[21:20] [RenatoRocha] e a extração de "conhecimento", ou seja, afirmações sobre conceitos de interesse de um domínio.
[21:20] [RenatoRocha] Também se pode fazer o que se chama "análise de sentimentos",
[21:20] [RenatoRocha] que é a tentativa de descobrir "polaridades" positiva ou negativa de sentenças a respeito de algo que se quer avaliar.
[21:21] [RenatoRocha] Há um exemplo desta atividade em:http://text-processing.com/demo/sentiment/
[21:21] [RenatoRocha] Também se podem fazer estudos culturais, como o descrito em: http://www.sciencemag.org/content/early/2010/12/15/science.1199644
[21:22] [RenatoRocha] Em nosso caso, é interessante fazer, na análise de redes sociais, um panorama do "gradiente terminológico" de um domínio de conhecimento.
[21:22] [RenatoRocha] Como o Google tem permitido, através do http://books.google.com/ngrams/
[21:22] [RenatoRocha] Vou mostrar alguns dos projetos em que tenho trabalhado, porque tempus fugit...
[21:23] [RenatoRocha] No segundo slide:
[21:23] [RenatoRocha] Aqui no CPDOC, da FGV, estamos construindo um tesauro da Ditadura.
[21:23] [RenatoRocha] Para identificar Pessoas, Entidades, Processos, Eventos, Lugares e atributos,
[21:24] [RenatoRocha] podemos fazer a extração de conceitos a partir dos textos que temos disponíveis.
[21:24] [RenatoRocha] o segundo slide mostra o projeto do portal semantico que estamos projetando.
[21:24] [RenatoRocha] O objetivo é, através da PLN, construir uma triplestore em formato RDF que associe os descritores - conceitos - de ontologias de domínio
[21:25] [RenatoRocha] aos itens dos vários acervos, de modo que os pesquisadores e usuários possam fazer buscas por conceitos independentemente das bases.
[21:25] [RenatoRocha] No slide seguinte, há outro projeto em que estamos participando, o Supremo em Números.
[21:26] [RenatoRocha] A partir de uma base de mais de um milhão de decisões de processos que tramitaram no Supremo,
[21:26] [RenatoRocha] Podemos fazer visualizações interessantes sobre o comportamento dos processos e dos juízes.
[21:26] [RenatoRocha] Há um site: http://www.supremoemnumeros.com.br/
[21:27] [RenatoRocha] em que são publicados os resultados; dentre eles, uma proposta de mudança constitucional, motivada pela descoberta pelos pesquisdores da FGV
[21:27] [RenatoRocha] que a grande maioria dos processos que chegam ao Supremo são recursais, e pouquíssimos são constitucionais -
[21:27] [RenatoRocha] a verdadeira vocação desta corte.
[21:27] [RenatoRocha] Nós fizemos uma taxonomia dos assuntos de processos (slide seguinte)
[21:28] [RenatoRocha] a partir de conceitos extraídos de decisões e campos do banco de dados.
[21:28] [RenatoRocha] E construímos uma visualização interessante http://www.youtube.com/watch?v=IHnJyfNoEgg
[21:28] [RenatoRocha] a partir dos dados extraídos dos textos - neste caso, o nome dos Juízes que fizeram despachos em processos específicos.
[21:29] [RenatoRocha] Também usamos grafos como técnicas de visualização (slide seguinte)
[21:29] [acris] RenatoRocha: 5 min
[21:29] [RenatoRocha] Neste caso, associamos juízes às leis que foram usadas em processos, e pudemos descobrir
[21:29] [RenatoRocha] que alguns juízes citavam mais determinadas leis do que outras,
[21:29] [RenatoRocha] Ok.
[21:30] [RenatoRocha] Para fechar, há um projeto com a Light, em que tentamos descobrir causas de litígios (slides seguintes)
[21:30] [RenatoRocha] ... através da identificação de termos associados à Light e "ré" nos processos.
[21:31] [RenatoRocha] e, para terminar, um último projeto em que estamos tentando mapear, em textos sobre dengue.
[21:31] [RenatoRocha] a citação a modelos matemáticos, para auxiliar os pesquisadores da Fiocruz
[21:32] [RenatoRocha] em suas pesquisas, identificando os modelos que podem ser usados para cada um dos processo que a doença apresenta
[21:32] [RenatoRocha] Enfim: nada muito científico, mas imensamente prático.
[21:32] [RenatoRocha] O que é interessante de se notar é que
[21:33] [RenatoRocha] existe uma grande diferença dos corpora para uso acadêmico - tratados, homogêneos e bastante conhecidos,
[21:33] [RenatoRocha] e os que tem que ser preparados "on the fly" para estudos pontuais e específicos, consumindo muito tempo e processamento.
[21:34] [RenatoRocha] Eu tenho o prazer de ser parceiro da Heliana em pesquisas,
[21:34] [RenatoRocha] e temos alguns planos para criar sinergia entre as coisas que estamos fazendo.
[21:34] [RenatoRocha] Pessoal: agradeço por assistirem a apresentação.
[21:34] [acris] Heliana, Renato, nossa, que delícia de palestra, muito obrigada!
[21:34] [RenatoRocha] E aos organizadores, parabéns!
[21:35] [acris] clap clap clap clap clap clap clap clap
[21:35] [acris] clap clap clap clap clap clap clap clap
[21:35] [acris] está aberto a perguntas!
[21:35] [Heliana__] Obrigada a todos! Obrigada, Renato!
[21:35] [woodsonfc] clap(y)
[21:35] [LucasCoelho] tenho várias...
[21:35] [andresouza] eu tenho algumas tb
[21:35] [andresouza] :)
[21:35] [andresouza] vai la Lucas!
[21:35] [woodsonfc] E eu tb
[21:35] [woodsonfc] na fila
[21:35] [LucasCoelho] primeiro, mas que poderia ser a última por hierarquia: Quais as questões éticas dessa obtenção de textos publicados em outras fontes que não periódicos, como na internet?
[21:36] [Heliana__] Posso?
[21:36] [RenatoRocha] Claro!
[21:36] [LucasCoelho] desde aquela conversa com RenatoRocha e Heliana__ no fim da escola de linguística computacional fiquei com isso em mente...
[21:36] [LucasCoelho] e acho importante para todos
[21:36] [Heliana__] Bem, os textos disponíveis na internet, normalmente são domínio público.
[21:37] [Heliana__] O grande problema são textos extraídos de outras fontes, com direitos autorais, por exemplo.
[21:37] [Heliana__] é por isso, que nos megacorpora online
[21:38] [Heliana__] a gente não tem acesso direto aos textos, e sim, utiliza as plataformas disponibilizadas, ou apenas a listas de palavras e concordâncias.
[21:38] [LucasCoelho] mas como fazer nossa própria compilação, evitando incorrer nesses problemas?
[21:39] [LucasCoelho] tentando explicar melhor: se eu conseguir acessar quer dizer que é público e posso usar?
[21:40] [Heliana__] Sim, em princípio, sim. A não ser que haja alguma advertência específica, o que está na rede, é visível e baixável, pode ser utilizado.
[21:40] [RenatoRocha] Na verdade,
[21:40] [RenatoRocha] muita gente acha que "está na rede, é texto..."
[21:41] [RenatoRocha] Mas é difícil de traçar uma linha clara do que é ético ou não, em alguns casos.
[21:41] [LucasCoelho] bom, e como resolver?
[21:41] [RenatoRocha] No caso de textos de jornais, blogs, ou fontes que não demandam autenticação,
[21:41] [acris] acredito que seja como o direito autoral de uma música: nada te impede de analisá-la e publicar a análise, mas se ela estiver com copyright voce precisa de autorização para reproduzí-la
[21:41] [RenatoRocha] não vejo - mas é minha opinião - problema.
[21:42] [LucasCoelho] ok, obrigado. Vai lá, andresouza, depois mando as outras
[21:42] [RenatoRocha] Sim. trabalha-se com dados donsolidados.
[21:42] [andresouza] primeiramente, obrigado Heliana e Renato! Muito bom. A minha primeira pergunta é para o Renato: no projeto relacionado à dengue, o que os modelos matemáticos que vocês aplicam predizem exatamente? Fiquei curioso com o projeto!
[21:42] [RenatoRocha] Oi André,
[21:43] [RenatoRocha] cada pesquisador de dengue tem um interesse diverso.
[21:43] [RenatoRocha] Alguns estudam a transmissão, outros os inseticidas, e outros o comportamento dos ovos, etc.
[21:43] [RenatoRocha] Ainda tem outros que estudam as interações entre os quatro tipos de dengue nos imunes...
[21:44] [RenatoRocha] O que a gente busca é oferecer uma base que sugira os melhores modelos matemáticos a serem usados - equações diferenciais, séries temporais,
[21:44] [RenatoRocha] etc. que se apliquem - que tenham sido aplicados - às áreas específicas de
[21:45] [RenatoRocha] estudo da Dengue.
[21:45] [RenatoRocha] E para isso estamos buscando o alinhamento de duas ontologias: uma de modelos matemáticos
[21:45] [RenatoRocha] e outra de dengue.
[21:45] [RenatoRocha] Mas não predizemos nada... :-)
[21:45] [andresouza] legal!
[21:45] [andresouza] A segunda pergunta (para Heliane e Renato) é com relação aos modelos estatísticos que extraem essas relações menos superficiais. Tradicionalmente, a linguistica de corpora tem utilizado modelos lineares mais tradicionais (me corrijam se eu estiver errado). Como a linguistica de corpora vem acompanhando esse movimento "somewhat recent" de utilização de modelos nao-lineares, e outras tecnicas de "parameter estimation"qu
[21:46] [acris] depois do woodson é minha vez de perguntar :)
[21:46] [Heliana__] Bem, como ás da estatísca, vc, André, sabe que na linguística propriamente dita, são
[21:47] [Heliana__] poucas as pessoas que dominam técnicas estatísticas mais sofisticadas. Entretanto, tem havido um movimento, que envolve sobretudo
[21:47] [adelmaa] Eu também quero!!!
[21:47] [andresouza] verdade
[21:47] [Heliana__] jovens pesquisadores, como você,
[21:48] [LucasCoelho] acris: como sei a ordem de perguntas? nem vi q o wood son ia perguntar...
[21:48] [Heliana__] que vem alavancando a necessidade de estudos com técnicas mais sofisticadas, multifatoriais, etc.
[21:49] [woodsonfc] Posso?
[21:49] [woodsonfc] acris
[21:49] [acris] se a Heliana__ terminou
[21:50] [acris] pode
[21:50] [andresouza] Obrigado, Heliana e Renato!!! :-)
[21:50] [Heliana__] sim :-)
[21:50] [woodsonfc] blz
[21:50] [woodsonfc] Na pressa, esqueci de dizer na apresentação em nome do STISS do prazer de têlos aqui! A pergunta é para os dois : Como é feito o mapeamento para identificar e fazer a "análise de sentimentos" em redes sociais usando esse "gradiente terminológico" e como o Google ngrams permite fazer isso?
[21:50] [Heliana__] vai lá, Renato!
[21:50] [acris] :)
[21:51] [woodsonfc] é que estudo as paixòes em redes
[21:51] [RenatoRocha] Na verdade, o Google Ngrams é um exemplo de corpus imeenso em que se fazem estudos de variações de sentidos - acepções - de termos ao longo do tempo.
[21:51] [RenatoRocha] Aquele artigo que citei fala disso. Esse campo - culturonomics - estuda os processos sociais que fazem com que certas palavras sejam hits em uma época e caiam no ostracismo em outra.
[21:52] [RenatoRocha] E a mudança de sentido destas.
[21:52] [RenatoRocha] A análsie de sentimentos é a tentativa de interpretar as atitudes dos atores em relação a um objeto - que pode ser uma entidade, empresa, ações na bolsa,
[21:52] [RenatoRocha] etc.
[21:53] [RenatoRocha] através de (tentativa de interpretar) suas palavras
[21:53] [woodsonfc] é mais sociológico o estudo!
[21:53] [RenatoRocha] - se positivas u negativas.
[21:53] [RenatoRocha] Faz-se muito isso com comentários de clientes, como na Amazon,
[21:53] [RenatoRocha] para saber se determinado produto teve feedback favorável ...
[21:53] [woodsonfc] e funciona?
[21:54] [RenatoRocha] Sim.
[21:54] [RenatoRocha] Bem,
[21:54] [RenatoRocha] tem gente que acredita nisso como algo quase determinístico,
[21:54] [RenatoRocha] mas é um estudo muitíssimo limitado...
[21:54] [RenatoRocha] existem figuras como a ironia, anáforas ou mesmo longos apostos, que destróem qualquer interpretação.
[21:54] [acris] bom, precisamos passr a outras perguntas, o tempo ta passando, ok?, deixo passar minha vez. adelmaa?
[21:55] [woodsonfc] Pensei na polissemia
[21:55] [RenatoRocha] Também.
[21:55] [adelmaa] Prezada professora Heliana, prezado professor Renato... obrigada pela linha do tempo na história da Linguistica de corpora que vocês nos proporcionaram.
[21:55] [adelmaa] Parabéns pelas palestras extremamente didáticas.
[21:55] [RenatoRocha] Gente, acho que vou ser expulso da minha sala aqui no trabalho às 22:00h.
[21:55] [adelmaa] é um prazer imenso tê-los conosco abrilhantando nosso STIS e encerrando as atividades de nossa agenda STIS de 2011, não é Acris?
[21:55] [RenatoRocha] A moça da limpeza está lá me esperando... :-)
[21:55] [adelmaa] Minha pergunta é a seguinte: quais são os entraves legais para publicação para se fazer um pesquisa com os dados que se coleta na web?
[21:56] [woodsonfc] hehehe
[21:56] [RenatoRocha] Heliana?
[21:56] [acris] entendo, RenatoRocha, poderiamos fazer um levantamento de perguntas e passar por email?
[21:56] [RenatoRocha] Com certeza!
[21:56] [woodsonfc] tem 3 minutos
[21:56] [acris] obrigada, RenatoRocha :)
[21:56] [RenatoRocha] 3 minutos, vamos lá!"
[21:57] [woodsonfc] p\ 22h
[21:57] [Heliana__] Dos estudos que conheço, não há problemas com o uso de dados da web, mesmo porque existem web as corpus corpora...
[21:58] [Heliana__] e compiladores de corpora, como disse, que extraem dados da web.
[21:58] [Heliana__] A grande discussão é a validade dessas análises
[21:58] [Heliana__] por conta da falta de estruitura desses dados, as repetições, etc, que vc limpa em corpora compilados
[21:59] [adelmaa] Minha pergunta deve-se a um artio simples que escrevesmo eu e a Acris , um simples artigo, mostrando o passo a passo de como se faz uma coleta de dados usando o corpus do NILC/São Carlos
[21:59] [Heliana__] com outros tipos de metodologias.
[21:59] [adelmaa] intitulado ALIMENTAçãO DE UM BANCO DE DADOS DO SETFON, VIA CORPUS NILC/SãO CARLOS, COM PALAVRAS CUJAS
[21:59] [adelmaa] VOGAIS MéDIAS SE ENCONTRAM EM POSIçãO TôNICA NAS PALAVRAS
[21:59] [acris] desculpem interromper...
[21:59] [acris] Estou encantada com o trabalho de vocês, queria ter conhecido antes. Tenho algumas questões, aliás muitas, mas vou deixar para continuarmos em outras formas de comunicação. Muitíssimo obrigada pela belíssima apresentação!
[21:59] [adelmaa] mas para me sentir segura para publicação, por exemplo, eu escrevi para a Diana Santos da Linguateca do Polo Portugues da Linguateca sobre como citar esses dados, entende?
[21:59] [RenatoRocha] Acris, Adelma, Heliana, Woodson, pessoal: obrigado por tudo e parabéns. Desculpe-me por sair assim à francesa.
[21:59] [acris] RenatoRocha: foi um prazer!
[22:00] [RenatoRocha] O prazer foi meu!
[22:00] [Heliana__] Obrigadíssima a todos!
[22:00] [andresouza] obrigado Renato
[22:00] [RenatoRocha] Vamos manter contato.
[22:00] [acris] com certeza!
[22:00] [acris] clap clap clap clap clap clap clap clap
[22:00] [acris] clap clap clap clap clap clap clap clap
[22:00] [RenatoRocha] :-)
[22:00] [Heliana__] :-)
[22:00] [RenatoRocha] A gente se fala. abração!
[22:00] [woodsonfc] Prazer e espero nos conhecer ao vivo tb !
[22:00] [adelmaa] clap clap
[22:00] [RenatoRocha] Com certeza!
[22:00] [woodsonfc] Convidar para uma palestra na Letras
[22:00] [woodsonfc] Fale
[22:01] [woodsonfc] Ufmg
[22:01] [RenatoRocha] Demorou mas saiu. Vocês estão de parabéns epla plataforma e pelo nível das discussões.
[22:01] [Heliana__] Até breve, pessoal. Aguardo as perguntas.
[22:01] [adelmaa] O espaço é de vocês. Parabéns!
[22:01] [acris] grande abraço! Heliana__muito feliz em sber do teu trabalho, muito lindo
[22:01] [woodsonfc] Parabéns!
[22:02] [acris] bom, se alguém quiser encaminhar perguntas, pode usar meu email
[22:02] [acris] acris@textolivre.org
[22:02] [Heliana__] Obrigada, Ana! Fiquei feliz de estar com vcs. E muito obrigada! Aguardo as suas instruções para eu também dar esse passo metodológico na comunicação virtual...
[22:03] [adelmaa] Parabés a Acris por este grande empreendimento de abrir sempre e em todolugar espaços para interlocução.
[22:03] [Heliana__] Como disse, aguardo as perguntas e queria ouvir a pergunta da adelmaa para entender o que houve.
[22:03] [acris] pode deixar, Heliana__ :) vou escrever algumas instruções e passo por e-mail, pra ficar registrado, ok? bom, pra mim, memórica virtual é imprescindível :D
[22:04] [acris] se voce puder, Heliana__, podem terminar essa pergunta da adelmaa agora
[22:04] [Heliana__] ok, posso, sim. Vc termina a pergunta adelmaa?
[22:04] [acris] eu precisei encerrar, mas a gente inclui isso no log
[22:05] [Heliana__] ok
[22:05] [acris] adelmaa: pode terminar sua pergunta?
[22:06] [adelmaa] A todos os presentes nossos sinceros agradecimentos. No próximo ano, STIS 2012, voltaremos com uma agenda maravilhosa, nNão é Acris, Woodson e Beth?
[22:06] [belcoimbra] nossa que palestra... qta informação...
[22:06] [acris] com certeza, adelmaa
[22:06] [acris] muuita informação! :D
[22:06] [adelmaa] Bel também que é parte desta dinâmica toda.
[22:06] [belcoimbra] parabens! aos palstrantes e á organização do evento!
[22:07] [acris] parabéns ao público de primeira :)
[22:07] [andresouza] :)
[22:07] [belcoimbra] nossa nao tenho nem palavrs..
[22:07] [woodsonfc] =:)
[22:07] [acris] Heliana__: acho que enviamos as perguntas a você, tudo bem?
[22:07] [Heliana__] Obrigada, gente! Então aguardo as perguntas por email! Boa noite a todos e, mais uma vez, parabéns!!!!!!
[22:07] [acris] Heliana__: boa noite! beijos!
[22:08] [Heliana__] Beijos! Ciao.
[22:08] [adelmaa] é o Grupo Texto Livre que veste a camisa para oferecer uma contribuição aos Estudos da Linguagem. Boa noite!!!
[22:08] [belcoimbra] boas noite!
[22:08] [acris] boa noite!
[22:08] [belcoimbra] by!
[22:08] [andresouza] boa noite a todos!
[22:08] [acris] boa noite, andresouza, prazer em conhece-lo
[22:09] [andresouza] :) prazer é meu! Muito bacana a iniciativa! Achei legal demais!

Como citar este texto:

MELLO, Heliana; ROCHA, Renato. A linguagem da ciência: prospecção de dados baseados em corpora. In: STIS - Seminários Teóricos Interdisciplinares do Semiotec. Ano I, 2011. Disponível em: <http://stis.textolivre.org/site/index.php/artigos/12-stis/registros-das-palestras-logs/26-log-qa-linguagem-da-ciencia-prospeccao-de-dados-baseados-em-corporaq>. Acesso em: 26 fev. 2014.

 

Todos os trabalhos aqui publicados estão licenciados segundo a Creative Commons

Creative Commons TL Esta obra está licenciada sob uma Licença Creative Commons.

Based on a work at Texto Livre.