Archive for December, 2007

Novas relacionadas noutros sitios

Friday, December 28th, 2007

Recuperado xa do susto de fai uns dias, aquí berto de novo informándovos dunha nova feature en chuza.

Se es usuario activo de chuza é probable que teñas debilidade por furar na información, gardar marcadores, comparar fontes, etc… polo que esta nova función de chuza pode que che pareza interesante. E se non o es pode que tamén: A partir de agora no interior das novas e antes dos comentarios mostraranse novas relacionadas á chuzada en outros sitios, como podedes ver neste exemplo. Creo que co exemplo está bastante claro, pero vamos a ver un pouco como se vai comporta e como está feito usando este pequeno FAQ inventado:

Como está feito así en poucas palabras?

Pois a cousa execútase en 2 servidores, o primeiro (o server de probas de chuza) encárgase de rastrear novas cada media hora en diferentes medios (ver abaixo) e indexalas nunha base de datos mysql e o servidor de chuza cada vez que se mostra unha nova fai unha consulta a ese servidor que devolve as novas relacionadas.

E que medios son os que indexa?

Os medios nos que o sistema busca as novas non son arbitrarios, son os 40 medios que teñen máis relevancia en chuza: ou sexa, que acumulan máis historias chuzadas, é unha lista que comeza así:

  1. http://www.lavozdegalicia.es
  2. http://www.vieiros.com
  3. http://www.elpais.com
  4. http://www.galicia-hoxe.com
  5. http://www.elcorreogallego.es
  6. http://www.20minutos.es
  7. http://www.farodevigo.es
  8. http://www.gznacion.com
  9. http://www.xornal.com
  10. http://www.youtube.com
  11. http://www.laopinioncoruna.es
  12. http://www.elmundo.es
  13. http://www.xeracion.com (agora galiciae)
  14. http://www.blogoteca.com
  15. http://www.codigocero.com
  16. http://www.agnix.org
  17. http://www.bbc.co.uk
  18. http://www.europapress.es
  19. http://www.culturagalega.org

Hai casos flagrantes no ano 2007 como xornal.com que non dispón de RSS polo tanto queda excluído da lista.
Cantas relacionadas mostrará?

Pois vai mostrar ata 10 novas relacionadas, pero so se mostrarán 3 por defecto, para ver o resto haberá que facer clic nun enlace. É así para non cargar de máis a páxina de cada nova.

Son un pouco geek e molaríame saber máis sobre como está feito?

Ben, o servidor que indexa as novas faino nunha táboa de items que ten definidos 2 campos Fulltext de mysql: o titular e a texto da nova. Cada vez que se vai ao interior da nova o servidor de bases de datos de chuza fai unha comparación entre o titular, descrición e tags da nova chuzada e eses campos da base de datos de novas externas e devolve as 10 mellores coincidencias.

Antes de facer a comparación o texto de chuza é procesado para eliminar palabras que non teñen valor nas comparacións e outras leves modificacións. Os resultados que devolve son procesados de novo antes de mostralos na páxina.

Pero se son comparacións textuais, que pasa coas novas que por ser escritas en tal normativa ou tal outra?

Pois que será menos eficiente relacionando novas, igual que cando compara o texto dunha nova en galego con unha fonte en castelán. Pero si, pola natureza das fontes que indexa (están desprazadas cara o castelán) esta nova función é pouco reintegrata-friendly.
E falla moito?

Pois a pesar de ser un proceso automatizado falla máis ben pouco, pero de vez en cando relaciona novas que non teñen nada que ver. Outro erro habitual é que duplica entradas, pero esto xa non é cousa do sistema, é problema dos CMS dos sitios dos que indexa novas: os que crean as novas, cando actualizan, corrixen os erros de cada unha teñen a costume de crear outra nova co texto da primeira, polo tanto cambia o guid no RSS e o sistema xa a considera outra nova, con outra url e outro titulo e outro texto. Contra esto non hai moito que facer máis que esperar que esta práctica acabe.

Como curiosidade, un sitio donde non fan isto é GZnation donde ocurren casos simpáticos como que actualizaran unha nova de fai 2 dias sobre Benazir Bhutto coa morte dela o dia de onte facendo que para o este sistema GZNation publicara a nova da morte de Bhutto horas antes de que morrera. Iso si que é avanzar novas :D.

Tanto unha práctica coma outra están mal: se vas correxir ou engadir información a unha nova ou post non crees outra entrada diferente. E se vas crear unha historia nova, non edites unha anterior.

E todo isto está en probas non?

Pois si, hai varias cousas que quedan por probar no campo de batalla: poderá seguir sendo a tempo real cando a base de datos de novas sexa xigantesca? haberá que incluír algún tipo de control humano (estilo votos) por se a caga moito? … E máis cousas. O sistema este levo probándoo 15 dias e creo que foi suficientemente afinado como para saír a produción, pero segue sendo beta.

Algunha consideración filosófica máis?

Eu coma moita outra xente creo que probablemente as novas máis interesantes en chuza son as que non teñan ningunha nova relacionada, polo menos cando se envíen. Pero tamén é verdá que chuza aliméntase moito de novas que se replican en moitos medios, e isto non é nin máis nin menos que unha ferramenta para axudar no seguimento, ver como se expande unha nova, etc… Pero que a entropía non baixe, seguide chuzando de fontes raras! :D

Pois nada máis, espero que vos sexa útil.

Neve, incomunicación, discos duros e copias de seguridade

Sunday, December 23rd, 2007

Ola, aquí Berto posteando dende Villablino a baixo 0. Consigo recuperar conectividade tanto de datos como de voz despois dunha noite baixo a neve en Murias de Paredes. Pero todo esto é outra historia que non ven moito a conto, ao que vamos: onte as 7 da tarde chamoume ascarida informándome que chuza levaba caída dende cerca das 6 da tarde. Ascarida é unha das persoas que ten acceso ao server para recuperalo en caso de problemas deste tipo, pero desta volta non habia forma de conectarse por ssh, nin respondía ao ping nin nada… ascarida dilixentemente fixo todas estas comprobacións ata que decidiu mandar un correo ao soporte da empresa que dá servizo a chuza, que se puxo a investigar o problema. Eu conseguín algo de cobertura 3G antes de chegar a Murias de Paredes e falei con ascarida, que me puxo ao dia dos problemas, xa pasaran case 4 horas de caída e xa me temia o peor: o fallo físico.

A eso das 11:30 da noite ascarida confirmoume as peores previsións: o RAID do servidor petara fisicamente e houbo perda de datos. Horror.

Chuza cada noite a iso das tres e dez da mañá fai unha copia de seguridade da base de datos e do código, eses datos son copiados a outro disco duro que lamentablemente (e por erro gordo meu que non volverá ocorrer) estaba no mesmo RAID que petara. Super-horror.

Só quedaba recuperar o último backup completo do servidor, que por sorte foi da tarde/noite do venres, cousa que fixeron os do soporte durante a noite do sábado e a iso das 5 da mañá chuza volvia responder aos pings e ascarida -despois de pasar a noite en vela tentando manexar a situación e informándome puntualmente de cada avance- encargouse de levantar o servidor web e poñelo a funcionar xusto como estaba a noite do venres.

Só me queda pedir desculpas aos usuarios por este lamentábel erro, pero por outro lado os erros físicos son completamente incontrolábeis e non queda outra que tirar de copia de seguridade, neste caso a perda de datos foi mínima (pouco máis de 24 horas), pero aínda sería menor (sobre 14 horas) no caso de que as copias de seguridade dos datos se replicaran noutro server (cousa que vou facer agora). Ou sexa, que o dia 22 de decembro de 2007 non existiu en chuza, desapareceu completamente e volvemos 24 horas ao pasado. As novas, comentarios, chios, etc… dese dia simplemente non existen a ningun efecto. Síntoo moito se foi ese o dia donde enviaches 4 novas e todas pasaron á portada, ou fixeches o comentario da túa vida, ou… non sei.

Ah, si, outra cousa: Ascarida, you are the fuckin woman. Gracias por manexar esta situación tan ben e facer máis levadeira a miña impotencia perdido en terras de Omaña.

PD: aquí o reporte de mantemento do servidor

Imaxes en chuza! (en probas)

Monday, December 10th, 2007

Hello.

Unha das cousas que moitas veces critican de chuza é a sequedade textual da portada e das novas en xeral, despois da implementación da xeolocalización os interiores das novas eran un pouco máis coloridos pero aínda asi os mapas non deixaban de ser mapas.

Polo que ao longo de esta última finde estiven probando as posibilidades de que os usuarios asocien unha imaxe ás novas que chuzan, para destacalas, decorar, etc… podería quedar ben. Despois de moito probar, anuncio que xa está disponíbel (en probas) esta nova característica.

Imaxes en chuza

Como funciona?

Non é un proceso automático: o usuario que envia ten que escoller a imaxe, seguide lendo:
Ben, non se pode asociar calquera imaxe ás novas de chuza, senon imaxes que existan na web que se envia. O proceso é simple: cando envias unha nova debaixo de donde escolles a categoría verás que hai unha nova sección para esto das imaxes. O primeiro que tes que facer é clicar en Cargar Imaxes, nese momento o servidor de chuza analizará a url enviada e buscará imaxes maiores de 100×100 píxles. Cando acabe de analizar aparecerán unhas miniaturas das imaxes válidas (tal e como se van ver en chuza) e poderás escoller a que queiras asociar. Nada máis. Cando envies a nova esa imaxe aparecerá en pequeno (70×70) nos listados e en grande (120×120) no interior das novas.

Cambiar e borrar a imaxe

Aínda que poderás ver como queda a imaxe na previsualización da nova antes de enviala definitivamente pode que queiras cambiala ou quitala. Para iso so tes que editar a nova que enviache (lembra que so o podes facer durante 1 hora despois do envio se non eres usuario con karma maior que 16). Na edición da nova informaráseche que a historia xa ten unha imaxe asociada e poderás eliminala clicando na caixiña correspondente ou ben escoller outra mediante un proceso exactamente igual que o do envio.

Simple.

Notas, avisos e recordatorios

  • Pode que teñades que vaciar a caché dos vosos navegadores para que isto funcione.
  • Trátase dun servizo en probas, polo que ás veces pode petar de formas raras. Tamén pode tardar bastante tempo en analizar as páxinas buscando imaxes, de todos modos a min nunca me tardou máis de 30 segundos. En calquera de estas eventualidades por favor dade razón a bertez@gmail.com.
  • O sistema presupón que as páxinas que analiza teñen ben metidas as rutas das imaxes e as etiquetas html pero esto non sempre é asi polo que pode ocurrir que ti vexas que na páxina que chuzas hai imaxes que poderían valer pero o sistema non as detecte. Nalgúns casos esto pode arranxarse pero noutros o arranxo é que a xente faga ben as páxinas e teña coidado ao meter as imaxes. No caso de que esto ocurra, dade razón ao mail de arriba, please.
  • Están pendentes varias cousas como por exemplo: que faga a miniatura automáticamente se o que se chuza é unha imaxe en si mesma, que faga miniaturas das imaxes dos videos de youtube que se chuzan, etc…
  • De vez en cando o sistema asume como válida unha imaxe que corresponde a un banner publicitario ou similar. Calquera imaxe non relacionada coa nova será borrada do sistema.
  • Xa dixen que esto está en probas e que pode petar epicamente en calquera momento?

Problemas coñecidos:

  • As imaxes das novas de A Nosa Terra escríbense dinámicamente no navegador do visitante mediante JavaScript, por esa razón non poderán ser extraidas por chuza.
  • As imaxes que teñen espazos no nome de arquivo ás veces dan problemas. Estou buscando o patrón.