<div dir="ltr"><br><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr"></div><div class="msg-4151723306665320812"><div dir="ltr"><div id="m_-1130202538578094693divRplyFwdMsg" dir="ltr"><font face="Calibri, sans-serif" style="font-size:11pt" color="#000000"><b>Subject:</b> Academic Seminar of Data Science with Gabriel Goldstein of Instituto de Biociências - USP - In Person</font>
<div> </div>
</div>

<div lang="PT-BR" link="#0563C1" vlink="#954F72">
<div>
<p> </p>
<div align="center">
<table border="0" cellspacing="0" cellpadding="0" width="600" style="width:450.05pt">
<tbody>
<tr style="height:23.25pt">
<td width="600" valign="top" style="width:450.0pt;padding:0cm 0cm 0cm 0cm;height:23.25pt">
<div align="center">
<table border="0" cellspacing="0" cellpadding="0" width="540" style="width:405.0pt">
<tbody>
<tr>
<td width="146" style="width:109.5pt;padding:0cm 0cm 0cm 0cm">
<p><img width="87" height="31" id="m_-1130202538578094693x_m_-2377000505100490816Imagem_x0020_12" alt="Logo Insper" style="width:.9062in;height:.3229in" src="cid:186a4bac1014cff311"></p>
</td>
<td width="394" style="width:295.5pt;padding:0cm 0cm 0cm 0cm">
<div align="center">
<table border="0" cellspacing="0" cellpadding="0" width="100%" style="width:100.0%">
<tbody>
<tr style="height:23.25pt">
<td style="padding:0cm 0cm 0cm 0cm;height:23.25pt">
<p align="center" style="text-align:center"><a href="https://e.allin.insper.edu.br/bendar/?atmca=10094556&atmme=339&atmte=1&atmso=ck&utm_content=277659976&atmem=cm9kcmlnb2ZzM0BpbnNwZXIuZWR1LmJy" target="_blank"><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:#7b7b7b">Insper</span></a></p>
</td>
<td width="1" style="width:.75pt;padding:0cm 0cm 0cm 0cm;height:23.25pt">
<p align="center" style="text-align:center"><span style="font-size:1.0pt"><img border="0" width="1" height="15" id="m_-1130202538578094693x_m_-2377000505100490816Imagem_x0020_11" alt="http://arquivos.insper.edu.br/2019/fundo_programa_bolsas/images/div.jpg" style="width:.0104in;height:.1562in" src="cid:186a4bac1015b006a2"></span></p>
</td>
<td style="padding:0cm 0cm 0cm 0cm;height:23.25pt">
<p align="center" style="text-align:center"><a href="https://e.allin.insper.edu.br/bendar/?atmca=10094556&atmme=339&atmte=1&atmso=ck&utm_content=277659977&atmem=cm9kcmlnb2ZzM0BpbnNwZXIuZWR1LmJy" target="_blank"><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:#7b7b7b">Accreditations</span></a></p>
</td>
<td width="1" style="width:.75pt;padding:0cm 0cm 0cm 0cm;height:23.25pt">
<p align="center" style="text-align:center"><span style="font-size:1.0pt"><img border="0" width="1" height="15" id="m_-1130202538578094693x_m_-2377000505100490816Imagem_x0020_10" alt="http://arquivos.insper.edu.br/2019/fundo_programa_bolsas/images/div.jpg" style="width:.0104in;height:.1562in" src="cid:186a4bac1015b006a2"></span></p>
</td>
<td width="189" style="width:5.0cm;padding:0cm 0cm 0cm 0cm;height:23.25pt">
<p align="center" style="text-align:center"><a href="https://e.allin.insper.edu.br/bendar/?atmca=10094556&atmme=339&atmte=1&atmso=ck&utm_content=277659975&atmem=cm9kcmlnb2ZzM0BpbnNwZXIuZWR1LmJy" target="_blank"><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:#7b7b7b">Academic
 Programs</span></a></p>
</td>
</tr>
</tbody>
</table>
</div>
</td>
</tr>
</tbody>
</table>
</div>
</td>
</tr>
<tr style="height:22.5pt">
<td valign="top" style="padding:0cm 0cm 0cm 0cm;height:22.5pt"></td>
</tr>
<tr>
<td style="background:white;padding:0cm 0cm 0cm 0cm">
<table border="0" cellspacing="0" cellpadding="0" width="100%" style="width:100.0%">
<tbody>
<tr>
<td style="padding:0cm 0cm 0cm 0cm">
<p> <img border="0" width="600" height="149" id="m_-1130202538578094693x_m_-2377000505100490816Imagem_x0020_9" alt="https://arquivos.insper.edu.br/2023/pesquisa/imagens/Data-Science-hybrid.jpg" style="width:6.25in;height:1.552in" src="cid:186a4bac1016917eb3"></p>
</td>
</tr>
</tbody>
</table>
</td>
</tr>
<tr>
<td style="background:white;padding:0cm 0cm 0cm 0cm">
<table border="0" cellspacing="0" cellpadding="0" width="540" style="width:405.0pt">
<tbody>
<tr>
<td style="padding:0cm 0cm 0cm 0cm">
<p><span lang="EN-US"> </span><span></span></p>
<table border="0" cellspacing="0" cellpadding="0" width="100%" style="width:100.0%">
<tbody>
<tr style="height:22.5pt">
<td style="padding:0cm 0cm 0cm 0cm;height:22.5pt"></td>
</tr>
<tr>
<td style="padding:0cm 0cm 0cm 0cm">
<p style="line-height:18.0pt"><strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black">Title:</span></strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black"> Identifying Drosophila new genes
 using machine learning</span><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black"></span></p>
</td>
</tr>
<tr style="height:26.25pt">
<td width="100%" style="width:100.0%;padding:0cm 0cm 0cm 0cm;height:26.25pt">
<p><span lang="EN-US"> </span></p>
</td>
</tr>
<tr>
<td style="padding:0cm 0cm 0cm 0cm">
<p style="line-height:18.0pt"><strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black">Speaker:</span></strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black"> 
<a href="http://buscatextual.cnpq.br/buscatextual/visualizacv.do;jsessionid=B7AB908F0ABDE2DBFB98AB7EFE30A5BC.buscatextual_3" target="_blank">
Gabriel Goldstein</a></span></p>
<p style="line-height:18.0pt"><strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black">University:</span></strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:black"> 
<a href="https://www.ib.usp.br/" target="_blank">Instituto de Biociências - USP</a></span></p>
</td>
</tr>
<tr style="height:11.25pt">
<td width="100%" style="width:100.0%;padding:0cm 0cm 0cm 0cm;height:11.25pt">
<p><span lang="EN-US"> </span></p>
</td>
</tr>
<tr style="height:56.2pt">
<td style="padding:0cm 0cm 0cm 0cm;height:56.2pt">
<p style="text-align:justify;line-height:115%"><strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:#414042"> </span></strong></p>
<p style="text-align:justify;line-height:115%"><strong><span lang="EN-US" style="font-family:"Verdana",sans-serif">Abstract:</span></strong><span lang="EN-US" style="font-family:"Verdana",sans-serif;color:#414042"> </span><span lang="EN-US" style="font-family:"Verdana",sans-serif">There
 is a class of genes that emerged recently in the history of a taxon: new genes. These genes are so classified because, despite their presence in a taxon, they are absent in a sister taxon and outgroups. To identify new genes in a genome it is necessary to
 date all genes of a focal species to the point in the phylogeny of the taxon in which each gene originated. The main gene dating method for identifying new genes uses synteny and parsimony when comparing genomes of related species to date all genes of a focal
 species. Despite the precision of the method, it is extremely dependent on the assembly and annotation of the genome of interest, which limits its application to model species that have a manual and curated annotation. There are a number of biological characteristics
 that are known to differ between new and old genes in a wide range of analyzed taxa, such as humans, mice and plants. An example of this is the expression profile of these groups, since new genes are mostly expressed in male gametogenesis and old genes are
 expressed in a general way. With these facts in mind, we propose in this work a new gene identification method that uses biological information to separate new genes from old ones through the use of machine learning. For this, we collected information from
 databases and generated expression, orthology and <i>dn/ds</i> data information for
<i>D. melanogaster</i>, the species of the genus that had its new genes dated and makes it possible to train a supervised machine learning model. In addition to this information, we use orthology data to eliminate old genes while losing few new genes. This
 is possible because old genes have, on average, more species with orthologs than new genes, since they appeared earlier in the evolutionary history of the taxon. First, we tested whether information from databases would be able to inform a machine learning
 model that would separate new genes from old ones. For this, we generated several models with different levels of complexity and different combinations of variables, reaching a model that had 0.702 precision (fraction of relevant instances among retrieved
 instances) and 0.733 recall (fraction of relevant instances that were retrieved). After this step, we needed to generate a model that approximated the reality expected in species without information available in databases, such as
<i>D. melanogaster</i>. So, we did similar tests with different sets of variables, however, we used data that we generated ourselves in this work. After performing these tests, we generated a model with 0.508 precision and 0.718 recall, demonstrating that it
 is possible, even with data generated in our own experiments, to identify and classify new genes in
<i>D. melanogaster</i>. To verify whether the method we are proposing works in other species of the Drosophila genus, we date the genes of another species to identify its new genes. We used the method based on synteny and parsimony in the species
<i>D. pseudoobscura</i> and identified 1523 new genes and 12648 old genes.</span><span lang="EN-US"></span></p>
</td>
</tr>
<tr style="height:18.75pt">
<td width="100%" style="width:100.0%;padding:0cm 0cm 0cm 0cm;height:18.75pt">
<p><span lang="EN-US"> </span></p>
</td>
</tr>
<tr style="height:75.0pt">
<td style="padding:0cm 0cm 0cm 0cm;height:75.0pt">
<div align="center">
<table border="0" cellspacing="0" cellpadding="0" width="540" style="width:405.0pt">
<tbody>
<tr style="height:15.0pt">
<td style="padding:0cm 0cm 0cm 0cm;height:15.0pt"></td>
</tr>
<tr style="height:3.9pt">
<td style="padding:0cm 0cm 0cm 0cm;height:3.9pt"></td>
</tr>
<tr style="height:11.25pt">
<td width="100%" style="width:100.0%;padding:0cm 0cm 0cm 0cm;height:11.25pt">
<p><span lang="EN-US"> </span><span lang="EN-US"></span></p>
</td>
</tr>
<tr style="height:22.5pt">
<td style="padding:0cm 0cm 0cm 0cm;height:22.5pt">
<table border="0" cellspacing="0" cellpadding="0" width="100%" style="width:100.0%">
<tbody>
<tr style="height:30.0pt">
<td width="40" style="width:30.0pt;padding:1.5pt 1.5pt 1.5pt 1.5pt;height:30.0pt">
<p><img border="0" width="30" height="30" id="m_-1130202538578094693x_Imagem_x0020_8" alt="àcone Data" style="width:.3125in;height:.3125in" src="cid:186a4bac1017745b44"></p>
</td>
<td style="padding:1.5pt 1.5pt 1.5pt 1.5pt;height:30.0pt">
<p><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black">March 9, 2023</span></p>
</td>
</tr>
<tr style="height:15.0pt">
<td style="padding:1.5pt 1.5pt 1.5pt 1.5pt;height:15.0pt">
<p><img border="0" width="30" height="31" id="m_-1130202538578094693x_Imagem_x0020_7" alt="àcone Hora" style="width:.3125in;height:.3229in" src="cid:186a4bac101855d355"></p>
</td>
<td style="padding:1.5pt 1.5pt 1.5pt 1.5pt;height:15.0pt">
<p><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black">12pm de São Paulo, Brasil (UTC/GMT -03:00)</span></p>
</td>
</tr>
<tr style="height:30.0pt">
<td style="padding:1.5pt 1.5pt 1.5pt 1.5pt;height:30.0pt">
<p><img border="0" width="30" height="30" id="m_-1130202538578094693x_Imagem_x0020_6" alt="àcone Data" style="width:.3125in;height:.3125in" src="cid:186a4bac1019374b66"></p>
</td>
<td style="padding:1.5pt 1.5pt 1.5pt 1.5pt;height:30.0pt">
<p><span lang="EN-US" style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black"> </span></p>
<p><span lang="EN-US" style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black">Paulo Renato de Souza room, 2nd floor - Building 1</span></p>
<p><span lang="EN-US" style="font-size:8.0pt;font-family:"Verdana",sans-serif;color:black"> </span></p>
<p><span lang="EN-US" style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black">The seminar will be streamed at
</span><span style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black"><a href="https://zoom.us/j/95781336030" target="_blank"><span lang="EN-US">link</span></a> - </span><span lang="EN-US" style="font-size:10.5pt;font-family:"Verdana",sans-serif;color:black"></span><a href="https://zoom.us/j/95781336030">https://zoom.us/j/95781336030</a></p><p><br></p>
</td>
</tr>
</tbody>
</table>
</td>
</tr>
<tr style="height:15.0pt">
<td style="padding:0cm 0cm 0cm 0cm;height:15.0pt"></td>
</tr>
</tbody>
</table>
</div>
</td>
</tr>
</tbody>
</table>
</td>
</tr>
</tbody>
</table>
</td>
</tr>
<tr>
<td style="background:white;padding:0cm 0cm 0cm 0cm">
<p><span lang="EN-US"> </span></p>
</td>
</tr>
<tr style="height:22.5pt">
<td style="background:white;padding:0cm 0cm 0cm 0cm;height:22.5pt"></td></tr></tbody></table></div></div></div></div></div></div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><br></div></div></div>