Recuperado xa do susto de fai uns dias, aquí berto de novo informándovos dunha nova feature en chuza.
Se es usuario activo de chuza é probable que teñas debilidade por furar na información, gardar marcadores, comparar fontes, etc… polo que esta nova función de chuza pode que che pareza interesante. E se non o es pode que tamén: A partir de agora no interior das novas e antes dos comentarios mostraranse novas relacionadas á chuzada en outros sitios, como podedes ver neste exemplo. Creo que co exemplo está bastante claro, pero vamos a ver un pouco como se vai comporta e como está feito usando este pequeno FAQ inventado:
Como está feito así en poucas palabras?
Pois a cousa execútase en 2 servidores, o primeiro (o server de probas de chuza) encárgase de rastrear novas cada media hora en diferentes medios (ver abaixo) e indexalas nunha base de datos mysql e o servidor de chuza cada vez que se mostra unha nova fai unha consulta a ese servidor que devolve as novas relacionadas.
E que medios son os que indexa?
Os medios nos que o sistema busca as novas non son arbitrarios, son os 40 medios que teñen máis relevancia en chuza: ou sexa, que acumulan máis historias chuzadas, é unha lista que comeza así:
- http://www.lavozdegalicia.es
- http://www.vieiros.com
- http://www.elpais.com
- http://www.galicia-hoxe.com
- http://www.elcorreogallego.es
- http://www.20minutos.es
- http://www.farodevigo.es
- http://www.gznacion.com
- http://www.xornal.com
- http://www.youtube.com
- http://www.laopinioncoruna.es
- http://www.elmundo.es
- http://www.xeracion.com (agora galiciae)
- http://www.blogoteca.com
- http://www.codigocero.com
- http://www.agnix.org
- http://www.bbc.co.uk
- http://www.europapress.es
- http://www.culturagalega.org
- …
Hai casos flagrantes no ano 2007 como xornal.com que non dispón de RSS polo tanto queda excluído da lista.
Cantas relacionadas mostrará?
Pois vai mostrar ata 10 novas relacionadas, pero so se mostrarán 3 por defecto, para ver o resto haberá que facer clic nun enlace. É así para non cargar de máis a páxina de cada nova.
Son un pouco geek e molaríame saber máis sobre como está feito?
Ben, o servidor que indexa as novas faino nunha táboa de items que ten definidos 2 campos Fulltext de mysql: o titular e a texto da nova. Cada vez que se vai ao interior da nova o servidor de bases de datos de chuza fai unha comparación entre o titular, descrición e tags da nova chuzada e eses campos da base de datos de novas externas e devolve as 10 mellores coincidencias.
Antes de facer a comparación o texto de chuza é procesado para eliminar palabras que non teñen valor nas comparacións e outras leves modificacións. Os resultados que devolve son procesados de novo antes de mostralos na páxina.
Pero se son comparacións textuais, que pasa coas novas que por ser escritas en tal normativa ou tal outra?
Pois que será menos eficiente relacionando novas, igual que cando compara o texto dunha nova en galego con unha fonte en castelán. Pero si, pola natureza das fontes que indexa (están desprazadas cara o castelán) esta nova función é pouco reintegrata-friendly.
E falla moito?
Pois a pesar de ser un proceso automatizado falla máis ben pouco, pero de vez en cando relaciona novas que non teñen nada que ver. Outro erro habitual é que duplica entradas, pero esto xa non é cousa do sistema, é problema dos CMS dos sitios dos que indexa novas: os que crean as novas, cando actualizan, corrixen os erros de cada unha teñen a costume de crear outra nova co texto da primeira, polo tanto cambia o guid no RSS e o sistema xa a considera outra nova, con outra url e outro titulo e outro texto. Contra esto non hai moito que facer máis que esperar que esta práctica acabe.
Como curiosidade, un sitio donde non fan isto é GZnation donde ocurren casos simpáticos como que actualizaran unha nova de fai 2 dias sobre Benazir Bhutto coa morte dela o dia de onte facendo que para o este sistema GZNation publicara a nova da morte de Bhutto horas antes de que morrera. Iso si que é avanzar novas :D.
Tanto unha práctica coma outra están mal: se vas correxir ou engadir información a unha nova ou post non crees outra entrada diferente. E se vas crear unha historia nova, non edites unha anterior.
E todo isto está en probas non?
Pois si, hai varias cousas que quedan por probar no campo de batalla: poderá seguir sendo a tempo real cando a base de datos de novas sexa xigantesca? haberá que incluír algún tipo de control humano (estilo votos) por se a caga moito? … E máis cousas. O sistema este levo probándoo 15 dias e creo que foi suficientemente afinado como para saír a produción, pero segue sendo beta.
Algunha consideración filosófica máis?
Eu coma moita outra xente creo que probablemente as novas máis interesantes en chuza son as que non teñan ningunha nova relacionada, polo menos cando se envíen. Pero tamén é verdá que chuza aliméntase moito de novas que se replican en moitos medios, e isto non é nin máis nin menos que unha ferramenta para axudar no seguimento, ver como se expande unha nova, etc… Pero que a entropía non baixe, seguide chuzando de fontes raras!
Pois nada máis, espero que vos sexa útil.