Заговор нейросетей? Почему-то все они называют «27», если попросить угадать число от 1 до 50
Причина может быть в жадной (greedy) или почти-жадной стратегии декодирования — большинство реализаций при температуре близкой к нулю (или при использовании жадного выбора) всегда берут токен с наибольшей вероятностью. В этой конкретной задаче «27» оказывается самым «частотным» вариантом в обучающих данных, и потому модель на него «подсаживается».
Ассистент Глиста с вами не согласится