Evaluations des IA du concours de chasse au Wumpus en cours

→ **MyCalcs** profile · by **critor** » 07 Nov 2013, 17:21

Nous avons reçu 10 intelligences artificielles pour notre concours de chasse au Wumpus sur TI-Nspire, de la part de:

AnToX98
compu
David E.
Extra44
fortytwo
le solutionneur
Max G.
mdr1
oakwood
zero44

Vos productions sont actuellement dans une première phase d'évaluation semi-automatisée grâce à la technologie sans-fil TI-Nspire Navigator. Vos IA se voient en effet distribuées sur un réseau sans-fil de calculatrices TI-Nspire sur lesquelles elles vont tourner pendant des heures sur plusieurs types de labygraphes.

Précisons qu'à des fins de validation chaque IA se voit testée deux fois pour chaque type de labygraphe, sur deux machines différentes - et il y a vérification que les deux machines ont bel et bien reporté des performances similaires.

Il y a actuellement 22 calculatrices que j'ai sécurisées pour cette tâche:

1 TI-Nspire CX CAS munie de l'OS 3.2.4
4 TI-Nspire CX CAS munies de l'OS 3.2.3
2 TI-Nspire CX munies de l'OS 3.2.3
15 TI-Nspire CAS TouchPad munies de l'OS 3.2.3

Des captures des 22 écrans de calculatrices sont régulièrement prises de façon centralisée sans aucun besoin d'intervention individuelle sur les calculatrices:

Toutefois, nous sommes au regret de vous annoncer que nous ne pourrons probablement pas vous donner les résultats cette semaine. Certes, avec 10 heures environ par type de labygraphe (pour cibler 100'000 parties), deux sessions par jour ouvrable (une en journée et une nocturne) et 4 types de labygraphes prévus pour le moment, cela aurait normalement pu être achevé pour ce week-end.

Mais d'une part, l'une des IA soumise est près de 15 fois plus lente que les autres sur de simples labygraphes à n=10 salles, et une semaine de travail supplémentaire ne lui sera pas de trop.

Et d'autre part parmi les productions reçues, quelques-unes finissent plus ou moins rapidement (après quelques dizaines ou centaines de parties) par déclencher des problèmes probablement spécifiques à certains des labygraphes générés automatiquement:

désactivation du mode automatique de l'interface (effet de bord avec mise à zéro de la variable mode de l'interface à laquelle il ne fallait pas toucher)
erreur Lua
boucle infinie interne (l'une des fonctions de l'IA ne renvoie jamais de réponse et continue éternellement de s'exécuter)
redémarrage de la machine (probablement par épuisement des ressources mémoire)

Nous souhaitons, dans la mesure du possible, classer ces IA avec les autres au nom de l'équité, au lieu de recourir à un classement de second choix sur liste complémentaire ou pire à la disqualification. En effet tout travail mérite salaire, et nous souhaitons donc que chaque participant ayant fait des efforts reçoive son pourcentage d'efficacité ayant même valeur que celui des autres.

Aussi, il nous faut du temps pour analyser ces IA problématiques et les corriger.
Nous ne corrigeons pas afin de rendre le code meilleur, mais uniquement afin de le rendre évaluable. Toute éventuelle correction de notre part consiste en l'application d'une pénalité (abandon de la partie courante qui sera comptée comme une partie perdue) *avant* que le problème ne se déclenche.

Les deux premiers points cités ci-dessus ont déjà été corrigés puisqu'il s'agissait de problèmes mineurs:

remplacement de la ligne "mode=0" qui désactivait le mode automatique de l'interface par une ligne "forfeit=true" faisant perdre la partie courante
passage à une version 4 de l'interface avec un gestionnaire d'erreurs - ce dernier intercepte toutes les erreurs Lua déclenchées dans les fonctions de l'IA et provoque l'abandon de la partie courante avec "forfeit=true", ce qui permet le passage de l'interface à la partie suivante et donc la réinitialisation de l'IA

Les deux derniers points risquent de nous causer davantage de problèmes et de nous prendre plus de temps. Il nous faudrait idéalement achever leur correction ce week-end, afin de pouvoir terminer l'évaluation la semaine prochaine.

A bientôt

Liste complète de mes programmes · by **AnToX98** » 07 Nov 2013, 17:30

Et bien, 10 participations, au moins, il y en aura pour tout le monde

Des captures des 22 écrans de calculatrices sont régulièrement prises de façon centralisée sans aucun besoin d'intervention individuelle sur les calculatrices:

Impressionnant, je ne savais pas que c'était possible de montrer ce que chaque calculatrice voyait via le Teacher Software, une vraie prouesse

Toutefois, nous sommes au regret de vous annoncer que nous ne pourrons probablement pas vous donner les résultats cette semaine. Certes, avec 10 heures environ par type de labygraphe (pour cibler 100'000 parties), deux sessions par jour ouvrable (une en journée et une nocturne) et 4 types de labygraphes prévus pour le moment, cela aurait normalement pu être achevé pour ce week-end.

C'est pas du tout grave. Il vaut mieux prendre son temps et évaluer avec équité ces IA plutôt que faire ça à l'arrache

→ **MyCalcs** profile · by **Hayleia** » 07 Nov 2013, 17:40

AnToX98 wrote:
Toutefois, nous sommes au regret de vous annoncer que nous ne pourrons probablement pas vous donner les résultats cette semaine. Certes, avec 10 heures environ par type de labygraphe (pour cibler 100'000 parties), deux sessions par jour ouvrable (une en journée et une nocturne) et 4 types de labygraphes prévus pour le moment, cela aurait normalement pu être achevé pour ce week-end.

C'est pas du tout grave. Il vaut mieux prendre son temps et évaluer avec équité ces IA plutôt que faire ça à l'arrache

Je suis d'accord. Mieux vaut attendre une semaine pour des résultats sérieux et mérités plutôt que d'attendre une semaine pour finalement se rendre compte que les résultats ont été tirés au hasard et que certains gagnants ont un prix qu'ils ne méritent pas (en prenant une photo de sa calculatrice sur un tapis) tandis que d'autres méritaient mieux que ce qu'ils ont (la photo d'AnToX98 méritait une CX CAS Ndlessable).
Je félicite donc les organisateurs de ce concours pour leur sérieux, même si je n'y participe pas.

→ **MyCalcs** profile · by **critor** » 07 Nov 2013, 18:07

@Hayleia: merci pour ta remarque qui nous va droit au coeur!

AnToX98 wrote:
Des captures des 22 écrans de calculatrices sont régulièrement prises de façon centralisée sans aucun besoin d'intervention individuelle sur les calculatrices:

Impressionnant, je ne savais pas que c'était possible de montrer ce que chaque calculatrice voyait via le Teacher Software, une vraie prouesse

Il faut plus que le TI-Nspire Teacher Software en fait.
Il faut le TI-Nspire Navigator Software - c'est en réalité un Teacher Software étendu de nombre d'onglets pour gérer les classes et réseaux de TI-Nspire.
Il est téléchargeable sur notre site, mais il n'y a pas de période d'essai. Si tu n'as pas de licence valide, tu ne verras rien.

→ **MyCalcs** profile · by **mdr1** » 07 Nov 2013, 18:53

Merci infiniment critor pour le mal que tu t'es donné à préparer le concours, encourager les gens à participer, et enfin que tu te donnes pour évaluer les IA de la manière la plus juste possible. Et deux semaines, je trouve cela extrêmement rapide, comparé à certains autres concours. Il n'y a donc aucune excuse à faire. Bref, merci pour ce concours, malgré les quelques soucis qu'il y a pu avoir et le fait que le nombre de participants n'en est pas à la hauteur. Et en plus, il est très appréciable d'être prévenu en temps réel de l'état d'avancement de l'évaluation.

Liste complète de mes programmes · by **AnToX98** » 07 Nov 2013, 18:56

Je suis totalement en accord avec mdr1 et Hayleia : Il faudra que tu nous en organises d'autres des concours comme ça

→ **MyCalcs** profile · by **mdr1** » 07 Nov 2013, 19:01

AnToX98 wrote:Je suis totalement en accord avec mdr1 et Hayleia : Il faudra que tu nous en organises d'autres des concours comme ça

Je ne crois pas avoir rien dit de tel. Les concours de critor sont véritablement géniaux, mais il a dit qu'il ne s'occuperait pas du prochain concours. Je ne le forcerai en rien moralement, il a déjà dépensé beaucoup d'énergie pour des concours précédents qui ont eu un succès insuffisant par rapport à celui qu'ils méritaient, et il me semble donc logique qu'il puisse se reposer et penser un peu à lui-même après ce dur labeur.

Liste complète de mes programmes · by **AnToX98** » 07 Nov 2013, 19:05

Pardon, je me suis mal exprimé. Je suis d'accord dans le fait du remerciement de critor pour l'organisation de ce concours. Après j'espère juste qu'on en retrouvera d'autres comme celui-ci (je ne dis pas que j'en veux d'autres demain ou dans une semaine, mais dans les années à venir

). Parce que les concours plus "libres" c'est bien, mais ça devient vite lassant

My calculator programs · by **Adriweb** » 07 Nov 2013, 19:07

En gros, on alterne un peu, le prochain (vers Noel), je vais m'en occuper un peu plus. ( Ca sera un concours plus grand public que d'habitude, pour varier, d'ailleurs

)
Et celui d'après encore, on l'a déjà préparé globalement