La tesi doctoral d'Antoni Oliver proposa metodologies per accelerar el processament de bases de dades moleculars a partir de la implementació en maquinari de sistemes de computació no convencionals com la computació estocàstica
Els sistemes de computació estocàstica, que es varen desenvolupar els anys seixanta, varen caure en desús per la falta de precisió que proporcionaven en els resultats per la seva naturalesa probabilística. Malgrat això, els sistemes de computació estocàstica tenen certs avantatges, com ara un baix requeriment en àrea de circuit en comparació amb els sistemes de computació basats en processadors convencionals. A més, es poden implementar en paral·lel amb relativa facilitat, de manera que fan possible la realització simultània d'una gran quantitat d'operacions. Amb l'adequada elecció dels generadors aleatoris, els sistemes de computació estocàstica ofereixen una precisió que és suficient per als sistemes de reconeixement de patrons, alhora que permeten incrementar la densitat dels circuits a implementar.
En aquest sentit, la tesi doctoral d'Antoni Oliver Gelabert, defensada a la Universitat de les Illes Balears, proposa i analitza els resultats experimentals sobre la influència de diversos generadors aleatoris en diferents funcions estocàstiques. Més concretament s’han estudiat els resultats derivats de la implementació digital de la funció semblança estocàstica. Aquesta funció s'utilitza per a la identificació molt ràpida d'objectes similars en bases de dades. Les implementacions digitals s'han efectuat emprant plaques programables Field Programmable Gate Array (FPGA) i se n'ha determinat la sortida mitjançant una anàlisi a temps real.
A més de l'optimització del processament de bases de dades emprant sistemes de computació estocàstica, també s’han presentat solucions per a la generació eficient de bases de dades moleculars orientades a la cerca de composts anàlegs. La caracterització molecular es duu a terme mitjançant la proposta i l’avaluació de diferents models de descriptors que quantifiquen la distribució de càrrega molecular (descriptors MPK) i que mesuren els extrems de la distribució d'energia electroestàtica entre parells atòmics (descriptors PED). Els models proposats es poden aplicar al cribratge virtual molt ràpid de bases de dades moleculars tant en programari com en maquinari. A més, els descriptors moleculars proposats han demostrat ser competitius en comparació amb altres mètodes, especialment pel que fa als factors d'enriquiment a l'1 per cent obtinguts mitjançant corbes Receiving Operating Characteristic (ROC). En aquestes corbes es determina l'evolució del nombre de vertaders positius detectats enfront dels falsos positius en funció de l'estimació de la similitud emprant bases de dades estandarditzades com la base de dades Directory of Useful Decoys (DUD).
Els descriptors proposats s'han aplicat també a tècniques d'aprenentatge de màquina supervisat com les finestres de Parzen. Així, s'estima la funció de distribució de la probabilitat de diferents classes de molècules (com poden ser els actius contra una diana o fàrmacs amb activitats terapèutiques específiques). Aquesta funció es fa servir per determinar la probabilitat a posteriori que un compost pertanyi a una classe particular per aplicació de la regla de Bayes. Seguint aquest esquema s'ha implementat un sistema de predicció de dianes terapèutiques que empra la informació continguda en una base de dades coneguda per determinar si una molècula, atenent les seves característiques, és un candidat potencial a pertànyer a una classe. S’ha vist que amb aquesta metodologia es millora la taxa d'èxit en les prediccions quan el nombre de composts en el conjunt d'entrenament s'incrementa.
Respecte a la caracterització molecular, s’han presentat mesures per a la millora en la velocitat de l'estimació dels punts d'interacció sobre la superfície molecular (SSIP) obtinguts a partir del potencial electroestàtic molecular (MEP) calculat amb la teoria del funcional de la densitat (DFT). Els SSIP tenen aplicacions en l'estat sòlid i líquid com ara el cribratge virtual de cocristalls o la predicció d'energies lliures d’interacció.
Els resultats presentats en aquesta tesi es basen en el càlcul d'una superfície molecular propera als centres atòmics emprant superfícies de densitat electrònica de 0,01 au i en la parametrització del potencial electroestàtic en funció del tipus atòmic per acceptors i donadors d'enllaços d'hidrogen. Els valors teòrics sobre la superfície amb densitat electrònica 0,01 au demostren tenir una bona correlació amb valors experimentals. A més, el càlcul a 0,01 au ha resultat ser, de mitjana, cinc vegades més ràpid.
Finalment s’ha proposat un mètode eficient per al càlcul del MEP emprant les càrregues parcials atòmiques MMFF94 i el càlcul directe de diverses propietats electroestàtiques sobre la superfície de van der Waals (vdW) considerant la molècula com un conjunt de càrregues atòmiques discretes. El mètode inclou l’exclusió automàtica de regions inaccessibles per al dissolvent i proporciona correlacions acceptables amb els valors experimentals. L’avantatge del mètode proposat és l’alta velocitat de processament del MEP (fins a cinc mil àtoms per segon emprant un sol processador), que el fa adequat per determinar els SSIP en grans bases de dades i en macromolècules.
Fitxa de la tesi doctoral
- Títol: Desarrollo y aceleración hardware de metodologías de descripción y comparación de compuestos orgánicos
- Autor: Antoni Oliver Gelabert
- Departament: Física
- Programa de doctorat: Enginyeria Electrònica
- Directors: Josep Lluís Rosselló Sanz i Rafael Prohens López
Data de publicació: 15/03/2018