Libri

Di seguito gli Abstract delle tesi di laurea triennale e magistrale,  tesi di dottorato e pubblicazioni scientifiche.

Abstract Laurea Triennale

abstract triennale

Abstract Laurea Magistrale

abstract magistrale

Abstract Tesi di Dottorato

Pubblicazioni Scientifiche

Tracking interacting objects in complex situations by using contextual reasoning
Leggi Abstract

In this paper we propose a novel real-time tracking algorithm robust with respect to several common errors occurring in object detection systems, especially in the presence of total or partial occlusions. The algorithm takes into account the history of each object, whereas most other methods base their decisions on only the last few frames. More precisely, it associates each object with a state encoding the relevant information of its past history, that enable the most appropriate way of assigning an identity to the object on the basis of its current and past conditions. Thus, strategies that are more complex but also riskier are only applied when the algorithm is confident that is appropriate to do so. An experimental evaluation of the algorithm has been performed using the PETS2010 database, comparing the obtained performance with the results of the PETS 2010 contest participants.

 

Csurka, Gabriela; Braz, José (Ed.): Proceedings of International Conference on Computer Vision Theory and Applications (VISAPP), Page(s): 104-113, SciTePress, 2012, ISSN: 978-989-8565-04-4.

A robust people tracking algorithm using contextual reasoning for recovering detection errors
Leggi abstract

In this paper we propose an efficient and robust real-time tracking algorithm, able to deal with the common errors occurring in the object detection systems, like total or partial occlusions. Most of the common tracking algorithms make their tracking decisions by comparing the evidence at the current frame with the objects known at the previous one; the main novelty of our method lies in the fact that it takes into account also the history of each object. To exploit this idea, the algorithm adopts an object model based on a set of scenarios, implemented by a Finite State Automaton (FSA), in order to differently deal with objects depending on their recent history. An experimental evaluation of the algorithm has been performed using the PETS2010 database, comparing the obtained performance with the results of the PETS2010 contest participants.

Heidelberg, Springer-Verlag Berlin (Ed.): Communications in Computer and Information Science CCIS 359, pp. 225-241, 2013. (invited paper).

A real time algorithm for people tracking using contextual reasoning
Computer Vision and Image Understanding
leggi abstract

In this paper we present a real-time tracking algorithm that is able to deal with complex occlusions involving a plurality of moving objects simultaneously. The rationale is grounded on a suitable representation and exploitation of the recent history of each single moving object being tracked. The object history is encoded using a state, and the transitions among the states are described through a Finite State Automata (FSA). In presence of complex situations the tracking is properly solved by making the FSA’s of the involved objects interact with each other. This is the way for basing the tracking decisions not only on the information present in the current frame, but also on conditions that have been observed more stably over a longer time span. The object history can be used to reliably discern the occurrence of the most common problems affecting object detection, making this method particularly robust in complex scenarios. An experimental evaluation of the proposed approach has been made on two publicly available datasets, the ISSIA Soccer Dataset and the PETS 2010 database.

(CVIU), 117 (8), pp. 892 – 908, 2013, ISBN: 1077-3142.

Improving fire detection reliability by a combination of videoanalytics
leggi abstract

In this paper we propose a novel method for detecting fires in both indoor and outdoor environments. The videos acquired by traditional surveillance cameras are analyzed and different typologies of information, respectively based on color and movement, are combined into a multi expert system in order to increase the overall reliability of the approach, making it possible its usage in real applications. The proposed algorithm has been tested on a very large dataset acquired in real environments and downloaded on the web. The obtained results confirm a consistent reduction in the number of false positive detected by the system, without paying in terms of accuracy.

 

11th International Conference on Image Analysis and Recognition, ICIAR 2014, Vilamoura, Portugal, October 22-24, Proceedings, Part I, pages 477-484, 2014.

Pupil localization by a template matching method
leggi abstract

In this paper, a new algorithm for pupil localization is proposed. The algorithm is based on a template matching approach; the original contribution is that the model of the pupil that is used is not fixed, but it is automatically constructed on the first frame of the video sequence to be examined. Therefore the model is adaptively tuned to each subject, in order to improve the robustness and the accuracy of the detection. The results show the effectiveness of the proposed algorithm.

 

Proceedings of International Conference on Computer Vision, Imaging and Applications (VISAPP 2013)

A Semantic Reasoner using Attributed Graphs based on Intelligent Fusion of Security multi-sources Information
leggi abstract

Recently, the need of monitoring both real and virtual en-vironments is growing up, especially in security contexts. Virtual envi-ronments are rich of data produced by human interactions that can not be extracted using classical physical sensors. Thus, new kind of sensors allow to obtain and collect a huge quantity of data from these virtual environment. In order to monitor complex environments, in which the human factor is essential, arises the need of combining both data de-rived from objective measurements (hard data) and data derived from human interaction (soft data). In this paper we present a method and a software architecture for the fusion of heterogeneous data. The nov-elty of this method is the joint use of a rule-based inference engine, of a graph matcher and of semantic ontology reasoning to combine and pro-cess structured data coming for hard and soft sources. An application of the proposed system is presented within the framework of a Security Intelligence project.

 

Activity Monitoring by Multiple Distributed Sensing, AMMDS 2014

Recently, the need of monitoring both real and virtual en-vironments is growing up, especially in security contexts. Virtual envi-ronments are rich of data produced by human interactions that can not be extracted using classical physical sensors. Thus, new kind of sensors allow to obtain and collect a huge quantity of data from these virtual environment. In order to monitor complex environments, in which the human factor is essential, arises the need of combining both data de-rived from objective measurements (hard data) and data derived from human interaction (soft data). In this paper we present a method and a software architecture for the fusion of heterogeneous data. The nov-elty of this method is the joint use of a rule-based inference engine, of a graph matcher and of semantic ontology reasoning to combine and pro-cess structured data coming for hard and soft sources. An application of the proposed system is presented within the framework of a Security Intelligence project.

 

Activity Monitoring by Multiple Distributed Sensing, AMMDS 2014

Attività di ricerca

Attività di assistenza alle Tesi di Laurea

 

Rosario Di Lascio è stato co-relatore di più di venti tesi di Laurea Triennale e Magistrale in Ingegneria Informatica

Attività di Ricerca

 

Rosario Di Lascio svolge la sua attività di ricerca nel settore della visione artificiale, dell’elaborazione delle immagini, del riconoscimento audio e della progettazione di sistemi complessi, in particolare sulle tematiche di:

  • Interpretazione automatica di immagini biomedicali prodotte da apparecchiature RMI per il supporto diagnostico medico;
  • Analisi Video in tempo reale per applicazioni intelligenti nell’ambito della video sorveglianza e del monitoraggio del traffico;
  • Analisi Video per applicazioni medicali nell’ambito della video-nistagmografia;
  • Analisi Audio in tempo reale per applicazioni intelligenti nell’ambito dell’audio sorveglianza.
  • Progettazione di sistemi distribuiti real-time per la fusione e la visualizzazione di informazioni provenienti da sensori eterogenei.

Interpretazione automatica di immagini biomedicali prodotte da apparecchiature RMI per il supporto diagnostico medico

 

 L’immagine è uno strumento potente, ampiamente usato nella comunicazione ed anche un mezzo semplice, compatto e diffuso per la rappresentazione del mondo fisico, quindi potente strumento di comunicazione e di rappresentazione della realtà in maniera bidimensionale o tridimensionale. Per tali motivi anche in campo scientifico ci si è interessati all’elaborazione, all’analisi ed all’interpretazione delle immagini essendo esse degli accumulatori di numerose informazioni.

Negli ultimi decenni sono stati sviluppati diversi tipi di sistemi medicali non invasivi, atti all’acquisizione di immagini tridimensionali degli organi interni di persone viventi.

I compiti di questa disciplina consistono essenzialmente nel connettere e ulteriormente sviluppare le conoscenze acquisite in campi tra loro diversi e complementari, come l’elaborazione di immagini e la visualizzazione scientifica.

L’interpretazione di tali immagini ha posto le basi per la nascita di una tematica scientifica che, in terminologia anglosassone, viene definita “medical imaging” ed in italiano, con una più precisa connotazione, “diagnostica per immagini“.

Tra le varie tecniche utilizzate nell’analisi delle immagini medicali, le due fondamentali sono: segmentazione e registrazione.

La segmentazione è il processo che consente di identificare e quindi classificare i dati di un’immagine digitale.

La registrazione è il processo che consente di determinare una corrispondenza tra dati non omogenei, cioè permette di determinare un sistema di riferimento geometrico comune tra due insiemi di dati.

Il candidato ha lavorato alla ricerca di una nuova tecnica per la registrazione di immagini medicali tridimensionali derivanti da risonanza magnetica ponendo particolare attenzione all’analisi del distretto polso e alla registrazione delle singole ossa in esso presenti.

Successivamente ha lavorato alla realizzazione di un metodo di ricerca automatica di erosioni ossee sempre applicato al distretto polso.

Le immagini utilizzate per la sperimentazione, acquisite in formato DICOM, sono state prodotte da apparecchiature MRI a basso campo (0,2T) dedicate all’acquisizione da distretti locali come gli arti, con una risoluzione di 256×256 pixel e una risoluzione spaziale di 0,4mm.

 

Tale attività di ricerca è stata svolta lavorando al progetto di ricerca Esalab[1]avviato dall’azienda Esaote in collaborazione con l’Università di Salerno.

[1]Progetto ESALAB

Laboratorio pubblico – privato per lo sviluppo di tecnologie innovative per la diagnostica

medica avanzata – Progetto di ricerca e formazione DM18604 “Imaging non invasivo per

diagnostica morfo-funzionale avanzata” – Bando Laboratori – DD MIUR 14.5.2005

n.602/Ric/2005

Analisi Video in Tempo Reale per Applicazioni Intelligenti nell’ambito della video sorveglianza e del monitoraggio del traffico

 

Negli anni recenti, sempre più attenzione è rivolta ai problemi della sicurezza e del controllo su persone o cose negli ambiti più svariati: controllo della sicurezza in stazioni o aeroporti, controllo del traffico su strade di rilevante importanza, gestione dei trasporti di persone e merci per assicurare un elevato livello di affidabilità e sicurezza, etc. I vantaggi dell’introduzione delle tecnologie basate sull’analisi video (quindi sull’elaborazione di immagini) ha completamente stravolto il modo di pensare di coloro che si occupano di sicurezza e controllo. Oggi, infatti, il raggiungimento degli obiettivi sulla sicurezza e il controllo è ottenuto, ormai quasi esclusivamente, attraverso il supporto di telecamere che rendono semplice e immediata l’osservazione, e l’eventuale registrazione, degli eventi che possono accadere in un determinato luogo sotto osservazione.

È nato dunque, nella comunità scientifica della Visione Artificiale, un grande interesse verso le problematiche di analisi video in tempo reale ai fini della interpretazione delle scene di un video. L’analisi video è finalizzata alla individuazione, in una sequenza video, degli oggetti in movimento ed all’inseguimento degli stessi al fine di calcolarne le traiettorie lungo tutta la loro permanenza nella scena.

Sistemi di analisi video che effettuano un’interpretazione della scena sono utilizzati in diverse applicazioni quali ad esempio video sorveglianza intelligente (riconoscimento di eventi quali comportamenti scorretti delle persone sorvegliate, eventi anomali presenti sulla scena controllata, etc.) oppure monitoraggio del traffico (calcolo di parametri statistici ai fini del controllo intelligente di strade, incroci, etc.).

Normalmente un sistema di tal genere si divide in due parti:

  • riconoscimento in una singola immagine degli oggetti di interesse (object detection)
  • inseguimento degli oggetti lungo la sequenza di frame nei quali essi sono presenti (object tracking)

La fase di object detection presenta numerosi problemi aperti ancora irrisolti nella comunità scientifica: cambiamenti di luminosità nella scena che rendono particolarmente sensibile il sistema ai falsi positivi (riconoscimento di oggetti in movimento inesistenti); presenza di ombre che rendono ardua la corretta classificazione degli oggetti; mimetizzazione degli oggetti in movimento con lo sfondo della scena; etc. Negli ultimi anni sono state proposte diverse tecniche per l’individuazione degli oggetti di interesse in una scena. Nessuna tecnica però è sufficientemente generale da poter essere applicata in qualsiasi contesto applicativo, soprattutto quando il sistema viene utilizzato in ambiti reali (e non attraverso video di scene generate artificialmente allo scopo). Il candidato, già dal suo lavoro di tesi magistrale, si è dedicato allo studio delle problematiche inerenti l’object tracking.

Nell’object tracking vi sono due principali problematiche ancora aperte: la robustezza del sistema in contesti di impiego reali e la gestione delle occlusioni che si generano in ambienti affollati.

Un sistema di object tracking deve essere robusto rispetto ai cambiamenti degli oggetti in movimento nella scena. In altre parole il sistema deve essere in grado di identificare l’oggetto lungo tutta la sequenza, anche se quest’ultimo subisce significativi cambiamenti tra una immagine ed un’altra della sequenza. Le funzioni di somiglianza normalmente usate nella letteratura scientifica, basandosi di solito su una singola caratteristica (colore, forma o posizione), non sono in grado di garantire la robustezza richiesta in tutte le situazioni che si presentano. Il candidato ha mostrato come un’opportuna combinazione delle caratteristiche visuali dell’oggetto può incrementare il grado di robustezza di un sistema di object tracking.

La principale novità di tale metodo rispetto allo stato dell’arte riguarda però l’introduzione di un automa a stati finiti per la formalizzazione dei diversi scenari associati ad un singolo oggetto. Tale metodo è stato realizzato dal candidato durante la sua tesi magistrale e i brillanti risultati ottenuti nel confronto con altri metodi allo stato dell’arte ne hanno permesso la pubblicazione alla conferenza VISAPP 2012 [1].

Tale lavoro è stato inoltre selezionato tra i migliori lavori di tale conferenza e una versione estesa è stata pubblicata come capitolo di libro in [2].

Infine una versione a rivista è stata pubblicata su uno dei journal di riferimento del settore, Computer Vision and Image Understanding. Rispetto alle versioni precedenti, le principali novità di tale versione del lavoro [3] riguardano la giustificazione formale all’automa a stati finiti scelto e una più completa sperimentazione: il metodo proposto è stato confrontato con tutti i partecipanti ad una competizione internazionale (PETS 2012) utilizzando indici prestazionali e data set standard e i risultati ottenuti hanno confermato la sua robustezza rispetto alle diverse situazioni reali che possono occorrere.

Analisi Video in tempo reale per applicazioni medicali nell’ambito della video-nistagmografia

 

Uno degli ambiti di applicazione dell’analisi di immagini biomediche, di notevole interesse sia dal punto di vista scientifico che medico, è quello del tracciamento dei movimenti oculari in relazione a un input da osservare (eye tracking). L’Eye tracking risulta essere un componente importante in molte applicazioni che includono l’interazione uomo-macchina, realtà virtuale, psicologia cognitiva, negli studi sull’attenzione e la lettura e, soprattutto, nella ricerca di problemi legati all’equilibrio.

La funzione dell’equilibrio, ossia l’orientamento del corpo rispetto allo spazio, è regolata dal sistema “vestibolare”, che opera in sinergia con quelli “propriocettivo” e “visivo”.

Infatti, i movimenti dell’occhio sono strettamente legati ai riflessi motori. Per questo motivo, nell’ambito medico, vengono analizzati i movimenti oculari per diagnosticare problemi di equilibrio causati da malfunzionamenti dell’apparato vestibolare.

Diversi sistemi sono nati per questo scopo e i più utilizzati sono quelli che analizzano i movimenti oculari per mezzo di telecamere ad infrarossi montate su una maschera indossata dal paziente (videonistagmografia).

I sistemi di videonistagmografia analizzano le immagini provenienti dalla telecamera ad infrarossi, riconoscono la posizione della pupilla e da questa ne calcolano informazioni quali posizione e velocità di spostamento, in questo modo è possibile mostrare su grafico l’andamento di posizione e velocità di spostamento della pupilla per aiutare il medico nella fase di diagnosi.

Una delle questioni centrali è quella del riconoscimento della pupilla e del calcolo del suo centro di massa. I problemi sono tanti ed in particolare vanno da errori di riconoscimento dovuto ad un‘occlusione parziale o totale della pupilla da parte di ciglia e palpebra, oppure problemi dovuti alla presenza di trucco intorno all’occhio.

Il candidato ha recentemente proposto una soluzione a tale problematica in [4] basata su template matching. La principale innovazione sta nel fatto che il template di ciascun paziente viene costruito a run time e non è definito a priori. Il modello della pupilla viene calcolato nei primi frame della sequenza; nei successivi frame un operatore di threshold viene applicato all’immagine al fine di identificare i pixel in movimento e un template matching viene applicato tra la maschera appena elaborata e il modello creato in fase d’inizializzazione.

Una ulteriore fase di stabilizzazione è stata proposta al fine di ridurre gli errori locali dovuti al rumore nell’immagine.

Le sperimentazioni effettuate, utilizzando un data set di circa 13000 frame, hanno dimostrato l’efficacia del metodo.

Tale attività di ricerca è stata svolta da A.I. Tech in collaborazione col laboratorio M.I.V.I.A. dell’Università degli studi di Salerno.

Analisi Audio in tempo reale per applicazioni intelligenti nell’ambito dell’audio sorveglianza

 

 Nell’epoca moderna i sistemi di sorveglianza hanno un ruolo fondamentale.

Soprattutto dall’utilizzo dei sistemi video, nasce, però una grande questione sociale, legata alla violazione della privacy, inoltre sorgono dei dubbi sulle installazioni di apparati video legate ai punti deboli che questi comportano: costi elevati, punti ciechi, scarsa efficacia in alcune condizioni ambientali. Le difficoltà intrinseche dei sistemi video hanno portato a un’enorme diffusione dei sistemi di audio sorveglianza, quantomeno a supporto delle sole immagini. Il suono a differenza delle immagini non comporta così tante limitazioni, è di semplice gestione e con costi irrisori, paragonati a quelli del video, pur avendo la stessa, o in alcuni casi anche una maggiore, efficacia.

I suoni possiedono delle caratteristiche fortemente discriminanti che, in determinate situazioni, potrebbero fornire un efficace supporto alle immagini o addirittura sostituirsi ad esse.

Sicuramente un sistema di audio sorveglianza è meno invasivo di un sistema video, e in alcuni luoghi l’installazione delle telecamere è altamente sconsigliato, o addirittura impossibile, per non intralciare la privacy delle persone.

Gli apparati audio, grazie all’utilizzo delle moderne tecniche d’intelligenza artificiale, sono in grado di rilevare e classificare in modo rapido ed efficiente, i suoni derivanti da situazioni di pericolo.

In tale contesto si inserisce l’attuale lavoro del candidato, che prevede la realizzazione di un sistema di audio sorveglianza intelligente per il monitoraggio di ambienti indoor e outdoor.

Il suo lavoro consiste nella realizzazione di un modulo in grado di analizzare il flusso audio proveniente da microfoni IP e di classificare il singolo frame allo scopo di riconoscere particolari tipologie di eventi quali urla, vetri infranti e spari. La fase di classificazione prevede la ricerca di caratteristiche discriminanti da estrarre dal flusso audio e l’uso di un classificatore multi-esperto in grado di operare in real-time.

Tale attività di ricerca è svolta in collaborazione con il Dipartimento di Ingegneria dell’Informazione, Ingegneria Elettrica e Matematica Applicata (DIEM) dell’Università degli studi di Salerno nell’ambito del progetto SINTESYS[1].

[1]SINTESYS “SECURITY AND INTELLIGENCE SYSTEM” – Progetto PON01_01687 –

Programma Operativo Nazionale “Ricerca e Competitività” (R&C) 2007-2013

Progettazione di sistemi distribuiti real-time per la fusione e la visualizzazione di informazioni provenienti da sensori eterogenei

 

 Oggi si sente parlare sempre più di sicurezza e con essa la sorveglianza di cose e persone. Tale considerazione ha portato, nel corso degli ultimi anni, ad incentivare lo sviluppo di applicazioni di video analisi intelligente per supportare gli operatori umani nei loro compiti di controllo.

La tecnologia moderna permette di realizzare degli applicativi di video-analisi direttamente a bordo camera e di sfruttare la rete per la comunicazione diretta con tali dispositivi. Purtroppo questi applicativi generano degli eventi che sono limitati alla vista della singola camera, immaginiamo un sensore “virtuale” su telecamera che conta le auto che lo attraversano. E se volessi sapere le auto che in un determinato istante si trovano all’interno di un parcheggio? Ho bisogno di un sistema di alto livello che acquisisce i singoli eventi generati dai sensori posti in ingresso ed in uscita al parcheggio e ne fa una sottrazione per ottenerne lo stato.

E se volessi sapere cosa sta accadendo in un ambiente, ad esempio una piazza, rilevando gli eventi di basso livello generati da più sensori eterogenei per poi generare eventi semantici di alto livello?

In tale contesto si inserisce l’attuale lavoro del candidato, che prevede la realizzazione di un sistema multipiattaforma distribuito per l’acquisizione di eventi grezzi generati da sensori eterogenei (sistemi embedded, telecamere IP, sistemi di I/O IP, applicativi desktop), la  loro fusione per la generazione automatica di eventi semantici di alto livello attraverso tecniche di Hard Data Sources Fusion.

Tale attività di ricerca è svolta in collaborazione con il Dipartimento di Ingegneria dell’Informazione, Ingegneria Elettrica e Matematica Applicata (DIEM) dell’Università degli studi di Salerno nell’ambito del progetto SINTESYS[1].

[1]SINTESYS “SECURITY AND INTELLIGENCE SYSTEM” – Progetto PON01_01687 –

Programma Operativo Nazionale “Ricerca e Competitività” (R&C) 2007-2013

Attività di ricerca

Attività di assistenza alle Tesi di Laurea

 

Rosario Di Lascio è stato co-relatore di più di venti tesi di Laurea Triennale e Magistrale in Ingegneria Informatica

Interpretazione automatica di immagini biomedicali prodotte da apparecchiature RMI per il supporto diagnostico medico

 

 L’immagine è uno strumento potente, ampiamente usato nella comunicazione ed anche un mezzo semplice, compatto e diffuso per la rappresentazione del mondo fisico, quindi potente strumento di comunicazione e di rappresentazione della realtà in maniera bidimensionale o tridimensionale. Per tali motivi anche in campo scientifico ci si è interessati all’elaborazione, all’analisi ed all’interpretazione delle immagini essendo esse degli accumulatori di numerose informazioni.

Negli ultimi decenni sono stati sviluppati diversi tipi di sistemi medicali non invasivi, atti all’acquisizione di immagini tridimensionali degli organi interni di persone viventi.

I compiti di questa disciplina consistono essenzialmente nel connettere e ulteriormente sviluppare le conoscenze acquisite in campi tra loro diversi e complementari, come l’elaborazione di immagini e la visualizzazione scientifica.

L’interpretazione di tali immagini ha posto le basi per la nascita di una tematica scientifica che, in terminologia anglosassone, viene definita “medical imaging” ed in italiano, con una più precisa connotazione, “diagnostica per immagini“.

Tra le varie tecniche utilizzate nell’analisi delle immagini medicali, le due fondamentali sono: segmentazione e registrazione.

La segmentazione è il processo che consente di identificare e quindi classificare i dati di un’immagine digitale.

La registrazione è il processo che consente di determinare una corrispondenza tra dati non omogenei, cioè permette di determinare un sistema di riferimento geometrico comune tra due insiemi di dati.

Il candidato ha lavorato alla ricerca di una nuova tecnica per la registrazione di immagini medicali tridimensionali derivanti da risonanza magnetica ponendo particolare attenzione all’analisi del distretto polso e alla registrazione delle singole ossa in esso presenti.

Successivamente ha lavorato alla realizzazione di un metodo di ricerca automatica di erosioni ossee sempre applicato al distretto polso.

Le immagini utilizzate per la sperimentazione, acquisite in formato DICOM, sono state prodotte da apparecchiature MRI a basso campo (0,2T) dedicate all’acquisizione da distretti locali come gli arti, con una risoluzione di 256×256 pixel e una risoluzione spaziale di 0,4mm.

 

Tale attività di ricerca è stata svolta lavorando al progetto di ricerca Esalab[1]avviato dall’azienda Esaote in collaborazione con l’Università di Salerno.

[1]Progetto ESALAB

Laboratorio pubblico – privato per lo sviluppo di tecnologie innovative per la diagnostica

medica avanzata – Progetto di ricerca e formazione DM18604 “Imaging non invasivo per

diagnostica morfo-funzionale avanzata” – Bando Laboratori – DD MIUR 14.5.2005

n.602/Ric/2005

Analisi Video in Tempo Reale per Applicazioni Intelligenti nell’ambito della video sorveglianza e del monitoraggio del traffico

 

Negli anni recenti, sempre più attenzione è rivolta ai problemi della sicurezza e del controllo su persone o cose negli ambiti più svariati: controllo della sicurezza in stazioni o aeroporti, controllo del traffico su strade di rilevante importanza, gestione dei trasporti di persone e merci per assicurare un elevato livello di affidabilità e sicurezza, etc. I vantaggi dell’introduzione delle tecnologie basate sull’analisi video (quindi sull’elaborazione di immagini) ha completamente stravolto il modo di pensare di coloro che si occupano di sicurezza e controllo. Oggi, infatti, il raggiungimento degli obiettivi sulla sicurezza e il controllo è ottenuto, ormai quasi esclusivamente, attraverso il supporto di telecamere che rendono semplice e immediata l’osservazione, e l’eventuale registrazione, degli eventi che possono accadere in un determinato luogo sotto osservazione.

È nato dunque, nella comunità scientifica della Visione Artificiale, un grande interesse verso le problematiche di analisi video in tempo reale ai fini della interpretazione delle scene di un video. L’analisi video è finalizzata alla individuazione, in una sequenza video, degli oggetti in movimento ed all’inseguimento degli stessi al fine di calcolarne le traiettorie lungo tutta la loro permanenza nella scena.

Sistemi di analisi video che effettuano un’interpretazione della scena sono utilizzati in diverse applicazioni quali ad esempio video sorveglianza intelligente (riconoscimento di eventi quali comportamenti scorretti delle persone sorvegliate, eventi anomali presenti sulla scena controllata, etc.) oppure monitoraggio del traffico (calcolo di parametri statistici ai fini del controllo intelligente di strade, incroci, etc.).

Normalmente un sistema di tal genere si divide in due parti:

  • riconoscimento in una singola immagine degli oggetti di interesse (object detection)
  • inseguimento degli oggetti lungo la sequenza di frame nei quali essi sono presenti (object tracking)

La fase di object detection presenta numerosi problemi aperti ancora irrisolti nella comunità scientifica: cambiamenti di luminosità nella scena che rendono particolarmente sensibile il sistema ai falsi positivi (riconoscimento di oggetti in movimento inesistenti); presenza di ombre che rendono ardua la corretta classificazione degli oggetti; mimetizzazione degli oggetti in movimento con lo sfondo della scena; etc. Negli ultimi anni sono state proposte diverse tecniche per l’individuazione degli oggetti di interesse in una scena. Nessuna tecnica però è sufficientemente generale da poter essere applicata in qualsiasi contesto applicativo, soprattutto quando il sistema viene utilizzato in ambiti reali (e non attraverso video di scene generate artificialmente allo scopo). Il candidato, già dal suo lavoro di tesi magistrale, si è dedicato allo studio delle problematiche inerenti l’object tracking.

Nell’object tracking vi sono due principali problematiche ancora aperte: la robustezza del sistema in contesti di impiego reali e la gestione delle occlusioni che si generano in ambienti affollati.

Un sistema di object tracking deve essere robusto rispetto ai cambiamenti degli oggetti in movimento nella scena. In altre parole il sistema deve essere in grado di identificare l’oggetto lungo tutta la sequenza, anche se quest’ultimo subisce significativi cambiamenti tra una immagine ed un’altra della sequenza. Le funzioni di somiglianza normalmente usate nella letteratura scientifica, basandosi di solito su una singola caratteristica (colore, forma o posizione), non sono in grado di garantire la robustezza richiesta in tutte le situazioni che si presentano. Il candidato ha mostrato come un’opportuna combinazione delle caratteristiche visuali dell’oggetto può incrementare il grado di robustezza di un sistema di object tracking.

La principale novità di tale metodo rispetto allo stato dell’arte riguarda però l’introduzione di un automa a stati finiti per la formalizzazione dei diversi scenari associati ad un singolo oggetto. Tale metodo è stato realizzato dal candidato durante la sua tesi magistrale e i brillanti risultati ottenuti nel confronto con altri metodi allo stato dell’arte ne hanno permesso la pubblicazione alla conferenza VISAPP 2012 [1].

Tale lavoro è stato inoltre selezionato tra i migliori lavori di tale conferenza e una versione estesa è stata pubblicata come capitolo di libro in [2].

Infine una versione a rivista è stata pubblicata su uno dei journal di riferimento del settore, Computer Vision and Image Understanding. Rispetto alle versioni precedenti, le principali novità di tale versione del lavoro [3] riguardano la giustificazione formale all’automa a stati finiti scelto e una più completa sperimentazione: il metodo proposto è stato confrontato con tutti i partecipanti ad una competizione internazionale (PETS 2012) utilizzando indici prestazionali e data set standard e i risultati ottenuti hanno confermato la sua robustezza rispetto alle diverse situazioni reali che possono occorrere.

Analisi Video in tempo reale per applicazioni medicali nell’ambito della video-nistagmografia

 

Uno degli ambiti di applicazione dell’analisi di immagini biomediche, di notevole interesse sia dal punto di vista scientifico che medico, è quello del tracciamento dei movimenti oculari in relazione a un input da osservare (eye tracking). L’Eye tracking risulta essere un componente importante in molte applicazioni che includono l’interazione uomo-macchina, realtà virtuale, psicologia cognitiva, negli studi sull’attenzione e la lettura e, soprattutto, nella ricerca di problemi legati all’equilibrio.

La funzione dell’equilibrio, ossia l’orientamento del corpo rispetto allo spazio, è regolata dal sistema “vestibolare”, che opera in sinergia con quelli “propriocettivo” e “visivo”.

Infatti, i movimenti dell’occhio sono strettamente legati ai riflessi motori. Per questo motivo, nell’ambito medico, vengono analizzati i movimenti oculari per diagnosticare problemi di equilibrio causati da malfunzionamenti dell’apparato vestibolare.

Diversi sistemi sono nati per questo scopo e i più utilizzati sono quelli che analizzano i movimenti oculari per mezzo di telecamere ad infrarossi montate su una maschera indossata dal paziente (videonistagmografia).

I sistemi di videonistagmografia analizzano le immagini provenienti dalla telecamera ad infrarossi, riconoscono la posizione della pupilla e da questa ne calcolano informazioni quali posizione e velocità di spostamento, in questo modo è possibile mostrare su grafico l’andamento di posizione e velocità di spostamento della pupilla per aiutare il medico nella fase di diagnosi.

Una delle questioni centrali è quella del riconoscimento della pupilla e del calcolo del suo centro di massa. I problemi sono tanti ed in particolare vanno da errori di riconoscimento dovuto ad un‘occlusione parziale o totale della pupilla da parte di ciglia e palpebra, oppure problemi dovuti alla presenza di trucco intorno all’occhio.

Il candidato ha recentemente proposto una soluzione a tale problematica in [4] basata su template matching. La principale innovazione sta nel fatto che il template di ciascun paziente viene costruito a run time e non è definito a priori. Il modello della pupilla viene calcolato nei primi frame della sequenza; nei successivi frame un operatore di threshold viene applicato all’immagine al fine di identificare i pixel in movimento e un template matching viene applicato tra la maschera appena elaborata e il modello creato in fase d’inizializzazione.

Una ulteriore fase di stabilizzazione è stata proposta al fine di ridurre gli errori locali dovuti al rumore nell’immagine.

Le sperimentazioni effettuate, utilizzando un data set di circa 13000 frame, hanno dimostrato l’efficacia del metodo.

Tale attività di ricerca è stata svolta da A.I. Tech in collaborazione col laboratorio M.I.V.I.A. dell’Università degli studi di Salerno.

Analisi Audio in tempo reale per applicazioni intelligenti nell’ambito dell’audio sorveglianza

 

 Nell’epoca moderna i sistemi di sorveglianza hanno un ruolo fondamentale.

Soprattutto dall’utilizzo dei sistemi video, nasce, però una grande questione sociale, legata alla violazione della privacy, inoltre sorgono dei dubbi sulle installazioni di apparati video legate ai punti deboli che questi comportano: costi elevati, punti ciechi, scarsa efficacia in alcune condizioni ambientali. Le difficoltà intrinseche dei sistemi video hanno portato a un’enorme diffusione dei sistemi di audio sorveglianza, quantomeno a supporto delle sole immagini. Il suono a differenza delle immagini non comporta così tante limitazioni, è di semplice gestione e con costi irrisori, paragonati a quelli del video, pur avendo la stessa, o in alcuni casi anche una maggiore, efficacia.

I suoni possiedono delle caratteristiche fortemente discriminanti che, in determinate situazioni, potrebbero fornire un efficace supporto alle immagini o addirittura sostituirsi ad esse.

Sicuramente un sistema di audio sorveglianza è meno invasivo di un sistema video, e in alcuni luoghi l’installazione delle telecamere è altamente sconsigliato, o addirittura impossibile, per non intralciare la privacy delle persone.

Gli apparati audio, grazie all’utilizzo delle moderne tecniche d’intelligenza artificiale, sono in grado di rilevare e classificare in modo rapido ed efficiente, i suoni derivanti da situazioni di pericolo.

In tale contesto si inserisce l’attuale lavoro del candidato, che prevede la realizzazione di un sistema di audio sorveglianza intelligente per il monitoraggio di ambienti indoor e outdoor.

Il suo lavoro consiste nella realizzazione di un modulo in grado di analizzare il flusso audio proveniente da microfoni IP e di classificare il singolo frame allo scopo di riconoscere particolari tipologie di eventi quali urla, vetri infranti e spari. La fase di classificazione prevede la ricerca di caratteristiche discriminanti da estrarre dal flusso audio e l’uso di un classificatore multi-esperto in grado di operare in real-time.

Tale attività di ricerca è svolta in collaborazione con il Dipartimento di Ingegneria dell’Informazione, Ingegneria Elettrica e Matematica Applicata (DIEM) dell’Università degli studi di Salerno nell’ambito del progetto SINTESYS[1].

[1]SINTESYS “SECURITY AND INTELLIGENCE SYSTEM” – Progetto PON01_01687 –

Programma Operativo Nazionale “Ricerca e Competitività” (R&C) 2007-2013

Attività di Ricerca

 

Rosario Di Lascio svolge la sua attività di ricerca nel settore della visione artificiale, dell’elaborazione delle immagini, del riconoscimento audio e della progettazione di sistemi complessi, in particolare sulle tematiche di:

  • Interpretazione automatica di immagini biomedicali prodotte da apparecchiature RMI per il supporto diagnostico medico;
  • Analisi Video in tempo reale per applicazioni intelligenti nell’ambito della video sorveglianza e del monitoraggio del traffico;
  • Analisi Video per applicazioni medicali nell’ambito della video-nistagmografia;
  • Analisi Audio in tempo reale per applicazioni intelligenti nell’ambito dell’audio sorveglianza.
  • Progettazione di sistemi distribuiti real-time per la fusione e la visualizzazione di informazioni provenienti da sensori eterogenei.

Progettazione di sistemi distribuiti real-time per la fusione e la visualizzazione di informazioni provenienti da sensori eterogenei

 

 Oggi si sente parlare sempre più di sicurezza e con essa la sorveglianza di cose e persone. Tale considerazione ha portato, nel corso degli ultimi anni, ad incentivare lo sviluppo di applicazioni di video analisi intelligente per supportare gli operatori umani nei loro compiti di controllo.

La tecnologia moderna permette di realizzare degli applicativi di video-analisi direttamente a bordo camera e di sfruttare la rete per la comunicazione diretta con tali dispositivi. Purtroppo questi applicativi generano degli eventi che sono limitati alla vista della singola camera, immaginiamo un sensore “virtuale” su telecamera che conta le auto che lo attraversano. E se volessi sapere le auto che in un determinato istante si trovano all’interno di un parcheggio? Ho bisogno di un sistema di alto livello che acquisisce i singoli eventi generati dai sensori posti in ingresso ed in uscita al parcheggio e ne fa una sottrazione per ottenerne lo stato.

E se volessi sapere cosa sta accadendo in un ambiente, ad esempio una piazza, rilevando gli eventi di basso livello generati da più sensori eterogenei per poi generare eventi semantici di alto livello?

In tale contesto si inserisce l’attuale lavoro del candidato, che prevede la realizzazione di un sistema multipiattaforma distribuito per l’acquisizione di eventi grezzi generati da sensori eterogenei (sistemi embedded, telecamere IP, sistemi di I/O IP, applicativi desktop), la  loro fusione per la generazione automatica di eventi semantici di alto livello attraverso tecniche di Hard Data Sources Fusion.

Tale attività di ricerca è svolta in collaborazione con il Dipartimento di Ingegneria dell’Informazione, Ingegneria Elettrica e Matematica Applicata (DIEM) dell’Università degli studi di Salerno nell’ambito del progetto SINTESYS[1].

[1]SINTESYS “SECURITY AND INTELLIGENCE SYSTEM” – Progetto PON01_01687 –

Programma Operativo Nazionale “Ricerca e Competitività” (R&C) 2007-2013