Баг в GetPVarString / GetSVarString и как его исправить

**Daniel_Cortez** · 16.12.2015, 20:25

Всем привет.
Начну с того, что это не совсем обычный урок - скорее, повествование. Но нигде на pro-pawn я не видел статей подобного жанра, так что...

Всё началось с того, что Untonyst, проверяя работу своего инклуда fix_K2BEx.inc, наткнулся на странный баг: при использовании функции BanEx в samp.ban вместо текста бана записывалась какая-то "каша" из букв.
Об этом он вскоре написал мне и, как оказалось, баг наблюдался и в моём инклуде dc_kickfix.inc, поэтому я решил разобраться.

Для начала я взял тестовый мод, в котором использовался инклуд dc_kickfix.inc, и ввёл в нём команду "/ban 0 проверка":

А вот содержимое файла samp.ban после бана:

Пример кода, с помощью которого можно воспроизвести этот баг:

PHP код:


    SetPVarString(playerid, "ban_reason", "проверка");
    new reason[128];
    GetPVarString(playerid, "ban_reason", reason, sizeof(reason));
    DeletePVar(playerid, "ban_reason");
    BanEx(playerid, reason);

Поскольку задачей инклудов fix_K2BEx.inc и dc_kickfix.inc было сделать кик/бан с задержкой, чтобы успеть показать игроку причину, функции Kick, Ban и BanEx вызывались с помощью таймера.
А чтобы как-то передать функции BanEx строку с причиной бана (в функции SetTimerEx спецификатор "s" не работает), эта строка предварительно сохранялась в PVar.
Можно было бы сделать сохранение в одномерном массиве, но если забанить 2 игроков за полсекунды, то последний игрок перезапишет причину бана первого (массив-то общий!) и первому игроку будет показана та же причина бана, что и последнему.
Если же сделать двухмерный массив, то его придётся делать размером MAX_PLAYERS * 128 ячеек (вместо 128 может быть и меньшее число - главное, чтобы вместилась причина бана), но резервировать участок памяти сразу под всех игроков и никогда не высвобождать его тоже не целесообразно.
Именно поэтому было решено использовать PVar'ы - с ними память выделяется только тогда, когда это нужно, а после использования её можно высвободить, удалив PVar.

Со слов Untonyst, баг проявлялся только в тех случаях, когда в причине бана были русские буквы, и если в коде выше поставить "print(reason);" перед вызовом BanEx, то причина бана с символами кириллицы будет выведена, как ни в чём не бывало, но в samp.ban текст запишется неправильно. Очень странно.
С его же слов, если вместо хранения причины в PVar сделать двухмерный массив и сохранять причину бана в нём, то никаких проблем с сохранением русского текста в samp.ban не будет.
Значит причина, скорее всего, кроется в PVar'ах.
Я решил проверить эту догадку, но только на SVar'ах, чтобы можно было провести тесты на пустом сервере. Всё равно механизм хранения в SVar'ах примерно тот же самый, разве что без привязки к игрокам.

PHP код:


#include <a_samp>

main()
{
    static str[] = "AaBbZzАаБбЯя";
    new str1[20], str2[20];
    str1[0] = '\0', strcat(str1, str, sizeof(str1));
    SetSVarString("reason", str);
    GetSVarString("reason", str2, sizeof(str2));
    print(str1);
    print(str2);
    for (new i = 0;; ++i)
    {
        printf("[%d]\t%d\t%08x\t%c", i, str1[i], str1[i], str1[i]);
        if (str1[i] == '\0')
            break;
    }
    for (new i = 0;; ++i)
    {
        printf("[%d]\t%d\t%08x\t%c", i, str2[i], str2[i], str2[i]);
        if (str2[i] == '\0')
            break;
    }
}

Здесь в один массив строка копируется прямиком из строковой константы, а в другой она копируется с промежуточным сохранением в SVar.
После этого содержимое массивов выводится сначала полностью, а затем и посимвольно (с номерами позиций в строке и кодами символов).
Вывод:

Открыть/закрыть

Как и говорил Untonyst, второй массив после сохранения в SVar'е с помощью print и printf выводится нормально, но посмотрите внимательно на коды его последних символов:

Код:

[4]     90      0000005A        Z
[5]     122     0000007A        z
[6]     -64     FFFFFFC0        А
[7]     -32     FFFFFFE0        а
[8]     -63     FFFFFFC1        Б
[9]     -31     FFFFFFE1        б
[10]    -33     FFFFFFDF        Я
[11]    -1      FFFFFFFF        я
[12]    0       00000000

Ага, у русских символов старшие байты ячеек установлены в FF (255) вместо 00 !
Неудивительно, что они некорректно сохранялись в файл.

Опытным путём удалось выяснить, что все символы с кодом от 0 до 127 обрабатываются корректно.
Сам баг проявляется только в символах с кодами от 128 до 255 - среди них как раз и находятся символы кириллицы.
Скорее всего, Kalcor перед возвратом строки в GetPVarString конвертировал символы из char в cell (т.е. с расширением знакового бита, т.к. оба типа данных не беззнаковые), из-за чего коды символов больше 127 после получения из PVar/SVar'а становились неправильными.

Чтобы исправить символ, достаточно лишь установить старшие байты ячейки в 0, при этом оставив младший байт, как есть.
Это можно легко сделать, выполнив побитовое "И" кода символа с числом 0x000000FF, т.к. будут действовать следующие правила:

X & 0xFF = X
X & 0x00 = 0

В итоге получаем функцию:

PHP код:


FixSVarString(str[], size = sizeof(str))
    for (new i = 0; ((str[i] &= 0xFF) != '\0') && (++i != size);) {}

(Ещё вместо побитового "И" можно было вычислить остаток от деления на 256, но для процессора эта операция куда более дорогостоящая.)

Проверка. В отрывок кода, приведённый выше, ставим вызов получившейся функции:

PHP код:


    SetPVarString(playerid, "ban_reason", "проверка");
    new reason[128];
    GetPVarString(playerid, "ban_reason", reason, sizeof(reason));
    DeletePVar(playerid, "ban_reason");
    FixSVarString(reason);
    BanEx(playerid, reason);

Вывод:

Открыть/закрыть

Всё работает так, как и должно.

Примерно то же самое я сделал в инклуде dc_kickfix.inc.
Для проверки в тестовом моде снова ввёл команду /ban. В игре отличий никаких, но другое дело в samp.ban:

Символы кириллицы записались так, как и должны были. Проблема решена.

P.S.: Инклуд dc_kickfix.inc обновлён, баг с записью символов кириллицы исправлен.

UPD: Инклуд fix_K2BEx.inc тоже дождался обновления.

UPD[2]: Фикс принят в fixes.inc (вернее, в форк fixes.inc от ziggi - насколько я понял, он единственный, кто сейчас работает над обновлением инклуда):

https://github.com/ziggi/sa-mp-fixes

UPD (10.05.18): Как удалось выяснить, причина бага кроется во всё той же самопальной функции set_amxstring, уже успевшей отметиться в баге с выходом за пределы массива - видимо, создатели SA-MP решили использовать эту кривую самоделку, не осилив стандартную функцию amx_SetString.

int set_amxstring(AMX* amx, cell amx_addr, const char* source, int max)
{
    cell* dest = (cell *)(amx->base + (int)(((AMX_HEADER *)amx->base)->dat + amx_addr));
    cell* start = dest;
    while (max--&&*source)
        *dest++=(cell)*source++;
    *dest = 0;
    return dest-start;
}

Обратите внимание на эту строку:

*dest++=(cell)*source++;

Как и предполагалось, при записи символа в массив Pawn происходит конверсия из char в cell, т.е. с расширением знакового бита. Значения больше 127 воспринимаются как отрицательные, например 128 => -128 (0x80), 129 => -127 (0x81), 130 => -126 (0x82), ..., 255 => -1 (0xFF), соответственно при конверсии в cell эти значения всё так же получаются отрицательными (0x80 => 0xFFFFFF80, 0x81 => 0xFFFFFF81, ..., 0xFF => 0xFFFFFFFF), со старшими байтами равными FF - отсюда и баг.
Чтобы устранить эту проблему, достаточно указанную выше строку заменить на:

*dest++=(cell)(unsigned char)*source++;

После этого конверсия будет происходить из беззнакового типа (без расширения знакового бита) и баг будет устранён.

Автор: Daniel_Cortez

Специально для Pro-Pawn.ru

Копирование данной статьи на других ресурсах без разрешения автора запрещено!

**Nexius_Tailer** · 15.01.2016, 23:25

Полезная информация, спасибо за решение.
Может, стоит написать об этом на официальный форум? (в раздел багов)

**$continue$** · 15.01.2016, 23:39

Сообщение от Nexius_Tailer

Полезная информация, спасибо за решение.
Может, стоит написать об этом на официальный форум? (в раздел багов)

Зачем мне это фиксить? Это же не ошибка безопасности. Да и есть возможность зафиксить скриптово (С) Kyeman

**Nexius_Tailer** · 15.01.2016, 23:58

Сообщение от $continue$

Зачем мне это фиксить? Это же не ошибка безопасности. Да и есть возможность зафиксить скриптово (С) Kyeman

Отрепортить всё-же лучше, чем думать за него.

**ziggi** · 16.01.2016, 00:15

Сообщение от Nexius_Tailer

Отрепортить всё-же лучше, чем думать за него.

Не исправят, не надейся. Существуют целые библиотеки, которые исправляют баги сампа.
По поводу функции: не понимаю, зачем так усложнять код?

PHP код:


stock FixAscii(text[])
{
    for (new i = 0; text[i] != '\0'; i++) {
        text[i] &= 0xFF;
    }
}

**Nexius_Tailer** · 16.01.2016, 00:26

Сообщение от ziggi

Не исправят, не надейся. Существуют целые библиотеки, которые исправляют баги сампа.
По поводу функции: не понимаю, зачем так усложнять код?

PHP код:


stock FixAscii(text[])
{
    for (new i = 0; text[i] != '\0'; i++) {
        text[i] &= 0xFF;
    }
}

Если конкретно это уже есть в fixes.inc или ещё где, то и не надеялся бы)
Думал, обнаружили недавно

Хотя с другой стороны, мелкие баги медленно, но всё-же исправляются (просто об этом в релизе не упоминается)

**ziggi** · 16.01.2016, 01:15

Сообщение от Nexius_Tailer

Если конкретно это уже есть в fixes.inc или ещё где, то и не надеялся бы)
Думал, обнаружили недавно

Хотя с другой стороны, мелкие баги медленно, но всё-же исправляются (просто об этом в релизе не упоминается)

Добавил в свой форк fixes.inc (выключено по умолчанию): https://github.com/ziggi/sa-mp-fixes

**Daniel_Cortez** · 16.01.2016, 05:39

Сообщение от Nexius_Tailer

Полезная информация, спасибо за решение.
Может, стоит написать об этом на официальный форум? (в раздел багов)

[sarcasm]Кому написать? Калькору, что ли?..[/sarcasm]

Сообщение от ziggi

Не исправят, не надейся. Существуют целые библиотеки, которые исправляют баги сампа.
По поводу функции: не понимаю, зачем так усложнять код?

PHP код:


stock FixAscii(text[])
{
    for (new i = 0; text[i] != '\0'; i++) {
        text[i] &= 0xFF;
    }
}

Производительность. Чем она больше, тем лучше, т.к. от фикса должно быть как можно меньше дополнительной нагрузки.
К тому же, функция не такая уж и сложная сама по себе, чтобы запутаться в коде.

ziggi, в твоём варианте "text[i] != '\0'" и "text[i] &= 0xFF" компилируются в два отдельных предложения, а компилятор оптимизирует код только в пределах одного предложения. Именно поэтому и приходится многие оптимизации делать вручную - ладно бы один раз происходило лишнее действие, но в цикле...
Вообще из-за for получается пара лишних джампов, поэтому я бы порекомендовал вариант с циклом do-while:

PHP код:


static i; i = -1;
do {} while((text[++i] &= 0xFF) != '\0');

Код получится довольно простой, поэтому есть смысл подставить его прямиком в функции с фиксами для Get(P/S)VarString, а не выносить в отдельную функцию.

P.S.: Описание бага в fixes.inc тоже неправильное. Багу подвержены не только символы кириллицы, а вообще все символы, код которых >= 128.

**ziggi** · 16.01.2016, 06:06

Сообщение от Daniel_Cortez

ziggi, в твоём варианте "text[i] != '\0'" и "text[i] &= 0xFF" компилируются в два отдельных предложения, а компилятор оптимизирует код только в пределах одного предложения. Именно поэтому и приходится многие оптимизации делать вручную - ладно бы один раз происходило лишнее действие, но в цикле...
Вообще из-за for получается пара лишних джампов, поэтому я бы порекомендовал вариант с циклом do-while:

PHP код:


do {} while((text[i] &= 0xFF) != '\0');

Код получится довольно простой, поэтому есть смысл подставить его прямиком в функции с фиксами для Get(P/S)VarString, а не выносить в отдельную функцию.

P.S.: Описание бага в fixes.inc тоже неправильное. Багу подвержены не только символы кириллицы, а вообще все символы, код которых >= 128.

Спасибо, исправил.
Просто я руководствуюсь простым правилом: если один код нужно выполнить больше, чем в одном месте, то его следует вынести в функцию. Но в данном случае согласен, скорость важнее.

**Daniel_Cortez** · 16.01.2016, 06:12

Сообщение от ziggi

Спасибо, исправил.
Просто я руководствуюсь простым правилом: если один код нужно выполнить больше, чем в одном месте, то его следует вынести в функцию. Но в данном случае согласен, скорость важнее.

Если код достаточно простой, есть смысл инлайнить его. Многие компиляторы C/C++ обычно так и делают.
Btw, я только что исправил свой пост выше, в примере не было инкремента переменной i и сама переменная не была объявлена (немного поспешил, у нас тут пары сейчас - я записываю конспекты на планшете быстрее, чем остальные в тетради, поэтому остаётся немного свободного времени). Замечу, здесь лучше использовать static, т.к. с new компилятору придётся вставить лишние опкоды для создания локальной переменной в стеке и высвобождения места. Лучше потратить 4 байта в секции данных, чем 16 в секции кода (4 на опкод push, 4 на операнд опкода, 4 на опкод stack и ещё 4 на операнд).

Тема: Баг в GetPVarString / GetSVarString и как его исправить

Опции темы

Поиск по теме

Баг в GetPVarString / GetSVarString и как его исправить

Информация о теме

Пользователи, просматривающие эту тему

Ваши права