[Forum SIS] Avviso di seminario - "Scraping Data from the Web" - Università di Brescia

Marica Manisera marica.manisera a unibs.it
Gio 1 Dic 2016 12:30:07 CET


*/Giovedì 15 dicembre 2016/,/alle ore 14.30/*//

*/
Patrick Mair
/*

Harvard University , USA


terrà un seminario dal titolo:


*/Scraping Data from the Web/*

//

presso il Dipartimento di Economia e Management dell’Università degli 
Studi di Brescia
Sala della Biblioteca, sede di San Faustino, via San Faustino 74/b


Iniziativa finanziata dal Fondo di Ateneo per attività a carattere 
internazionale e

svolta nell'ambito delle attività del Big&Open Data Innovation 
Laboratory (BODaI-Lab) e

del Data Methods and Systems Statistical Laboratory (DMS StatLab)//

*/Abstract/*

The biggest data source is the Internet. Web scraping describes the 
technique that extracts data from websites.
Since the creation of the "Web Technologies Task View" on CRAN (Mair & 
Chamberlain, 2014), a vast amount of
packages has been implemented in order to facilitate the communication 
between R and the Web.
This talk gives a tour through various scraping tools that allow the 
user to collect numeric data, texts, and images
from the Web, subject to further statistical analyses.  We focus on two 
different levels of scraping. First, a selection
of (easy-to-use) high-level package implementations is shown which 
interface R with well-known (social) web
platforms.  Second, it is discussed how R communicates with APIs 
(Application Programming Interface) through
JSON (JavaScript Object Notation), and how general HTTP form requests 
can be launched from R. /


/ /Tutti gli interessati sono cordialmente invitati a partecipare. Il 
seminario è gratuito; per questioni organizzative si pregano tutti 
coloro che intendono partecipare ad inviare un'email a 
marica.manisera a unibs.it
/

-- 

Informativa sulla Privacy: http://www.unibs.it/node/8155
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://www.stat.unipg.it/pipermail/sis/attachments/20161201/50950bcc/attachment.html>


Maggiori informazioni sulla lista Sis