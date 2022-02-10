Mientras trabajaba en TakeTwo, quedó muy claro que, aunque la solución tiene como objetivo detectar sesgos mediante el campo y la evaluación de cantidades masivas de datos, es importante reconocer que los datos en sí mismos pueden contener sesgos implícitos. Al aprovechar la inteligencia artificial y las tecnologías de código abierto como Python, FastAPI, JavaScript y CouchDB, la solución TakeTwo puede continuar evaluando los datos que ingiere y detectar mejor cuándo existe un sesgo dentro de ellos. Por ejemplo, una palabra o frase que puede ser aceptable para usar en los Estados Unidos puede no ser aceptable en Japón, por lo que debemos ser conscientes de esto lo mejor que podamos y hacer que nuestra solución funcione en consecuencia. Como apasionado de la ciencia de datos, sé de primera mano que nuestro modelo es tan bueno como los datos con los que lo alimentamos. En ese sentido, una cosa que aprendí al trabajar en este proyecto es que necesitamos mejores conjuntos de datos que puedan ayudarnos a entrenar los modelos de machine learning (ML) que sustentan estos sistemas. Los conjuntos de datos de Kaggle han sido un excelente punto de partida para nosotros, pero si queremos expandir el proyecto para enfrentar el racismo dondequiera que exista, necesitaremos datos más diversos.

En una nota relacionada, las habilidades necesarias en proyectos como estos van mucho más allá de la ciencia de datos. Particularmente para este proyecto, fue importante aprovechar a los expertos en lingüística que pueden ayudar a definir algunos de los matices culturales que existen en el lenguaje que un sistema como TakeTwo necesita codificar o ignorar. Sólo trabajando de manera interdisciplinaria podemos llegar a una solución viable.