Tutvustus

BIIT on Tartu Ülikooli arvutiteaduse instituudi juures tegutsev teadusrühm, mis tegeleb bioinformaatika, andmekaeve ja algoritmide arendamisega.

Allolev on valik võimalikest projektidest.

Tekstide kaevandamine

Laiemalt on andmete "kaevandamise" või andmekaeve eesmärk leida andmetest huvitavaid seoseid ja uut informatsiooni. Tekstide kaevandamisel on aluseks tavaline tekst, kas siis loomuliku keele või ka DNA/valkude järjestuste kujul.

Antud projektis oleme huvitatud tekstis "varjatud kujul" peidus olevast infost. Näiteks olulistest sõnadest, lausetest mis on "üle esindatud" võrreldes mingi eeldusega. DNA-s või valgujärjestustes on need bioloogiliselt huvitavad või olulised signaalid, mis lubavad rakul reguleerida, milliseid geene sisse või välja "lülitada"; spämmivastases võitluses aga hoopis spämmi "signatuurid".

Projekti eesmärk on luua uus programm, mis realiseeriks seniste tööriistade ja kogemuse põhjal välja arendatud uued meetodid ja algoritmid praktiliseks uueks tööriistaks, millel oleks rakendusi bioinformaatikas, arvutiturvalisuses, tekstide analüüsis jne.

Programmeerimise võtmesõnadeks on algoritmide efektiivsus ja programmi kiirus. Arendus võiks toimuda C/C++ baasil Linuxi keskkonnas, mille jaoks on olemas meil juba mitmeid valmis mooduleid.

Töö põhijuhendajaks on Jaak Vilo ning BIIT-i doktorandid, kes on pidanud ka TÜ-s andmekaeve ja tekstialgoritmide alaseid loenguid ja seminare.

Info-otsingu mootor

Info otsingud (information retrieval) on tänapäeval ehk kõige laiemalt märgatavaid IT valdkondi, mida saab seostada otsi-hiiu Google jt edulugudega.

WoC teemaks on efektiivse otsimootori tuuma programmeerimine, mis lubaks kasutada otsingutes ligikaudse otsingu ja eesti keele morfoloogia jaoks olulisi laiendusi. See on otseselt seotud Eesti riikliku programmiga eesti keele keeletehnoloogia edendamiseks. Projekti eesmärk on luua intelligentse(ma)id päringusüsteeme, mis oleks suunatud ühelt poolt tavalisele lõppkasutajale ja teisalt pakkuda ka palju võimsamaid vahendeid professionaalsele kasutajale.

Ennekõike on soov integreerida praeguseid algoritmilisi ideid regulaaravaldiste ligikaudsest sobitamisest (Kristo Tammeoja), universaalsest teisenduskaugusest (Reina Käärik), ligikaudset otsingut tõhustavatest indeksitest (Hendrik Nigul) jmt.

Arendus võiks toimuda C/C++ baasil Linuxi keskkonnas.

Andmete visuaalne kirjeldamine

Eelmise aasta WoC teemaks sai pakutud veebipõhise masinõppe keskkond. Seda projekti on edukalt realiseerinud oma magistritööks Jaanus Hansen.

Käesoleva aasta WoC teema oleks andmete visuaalne kirjeldamine veebikeskkonnas. Andmete visualiseerimine on tavaliselt esimene samm andmete edasist analüüsi planeerides.

Projekti ülesanne on luua sellised universaalsed moodulid mis lubaks andmeid kiiresti ja efektiivselt "brausida", kasutades visuaaliseerimist ja andmete automaatset kirjeldamist.

Arenduseks sobib Java ja Jaanus Hanseni poolt arendatud SWOG teek (Perli või Java versioon).

SWOG on aluseks paljudele BIIT-is programmeeritud töövahenditele, nagu g:Profiler, KEGGAnim jt.