XGM Forum - Программирование.

Да, память действительно выделяется блоками, размер которых кратен степени 2. Хотя на asm можно выделять блок произвольного размера. Тут причина ещё в выравнивании: доступ к данным, выровненным на величину, кратную их размеру, осуществляется быстрее.
Поэтому все современные компиляторы выравнивают данные. Переменные, занимающие 1 байт, могут располагаться по любому адресу. 2-байтовые переменные располагаются только по чётным адресам. 4-байтовые - по адресам, делящимся на 4. За счёт перерасхода памяти достигается значительное увеличение быстродействия. Поэтому объявление вида:
a:byte;
b:integer;
b:byte;
займёт в памяти не (4+2), а (4+4+1), т.к. между a и b компилятор оставит 3 пустых байта - для выравнивания. А вот если объявить
b:integer;
a,b:byte;
то всё "уляжется" вплотную.
Впрочем, всё сказанное относится только к глобальным переменным. Локальные переменные - разговор особый (там всё куда сложнее).
.
Вообще, чтение данных из оперативной памяти осуществляется ОЧЕНЬ медленно. Если тактовые частоты процессоров уже давно перевалили за 3000МГц, то памяти - всего 200МГц.
Вот как осуществляется чтение данных из памяти (растактовка из документации):

Получив запрос на чтение ячейки, процессор выполняет арбитраж и передаёт чипсету адрес и длину запрашиваемого блока памяти. При условии, что шина свободна, эта операция укладывается в 4 такта.
Контроллер шины, получив запрос, ставит его в очередь и, если контроллер памяти свободен, передаёт ему запрос с началом следующего такта.
В течение следующего такта контроллер памяти декодирует адрес и ставит его в свою внутреннюю очередь запросов на чтение памяти.
В следующем такте запрос извлекается из очереди, и контроллер, при необходимости дождавшись прихода фронта тактового импульса микросхемы памяти, передаёт ей адрес ячейки:
1. Если соответствующая страница открыта и банк памяти не находится на регенерации, то чипсет выставляет сигнал CAS и передаёт сокращённый адрес ячейки. Спустя 2-3 такта частоты памяти на шине появляется первая порция считанных данных.
2. Контроллер памяти считывает её за 1 такт. Дальнейшее поведение контроллера зависит от его типа. Синхронный контроллер с началом следующего такта передаёт считанные данные контроллеру шины и в дальнейшем пересылка осуществляется параллельно с чтением, но с задержкой в 1 такт. Асинхронный контроллер памяти "благодаря" расхождению частот не может передавать данные одновременно с чтением, и вынужден накапливать их во временном буфере. После завершения пакетного цикла чтения контроллер памяти по приходу фронта следующего синхроимпульса начинает передавать содержимое временного буфера контроллеру шины на требуемой частоте.
  <...опускаю пару примечаний, касающихся дешёвых моделей контроллеров и чипсетов...>
3. На чтение "хвоста" (tail) пакета в зависимости от его длины уходит ещё 3 или 7 тактов частоты оперативной памяти.
4. Если длина запроса превышает длину пакета, вернуться к пункту I.
5. Контроллер шины, получив считанные данные, формирует запрос на передачу данных от чипсета к процессору и ставит его в очередь, на что расходуется 1 такт.
6. Если в очереди не находится ничего другого и шина ничем не занята, контроллер шины извлекает запрос из очереди и выставляет его на шину, передавая за один такт одну, две или четыре порции данных (на K6/P-II/PIII, Athlon и P-4 соответственно).
7. Как только запрошенная ячейка попадает в процессор, она становится немедленно доступной, даже если пакетный цикл ещё не завершён
  <...>
Если требуемая DRAM-страница закрыта, но банк не находится на регенерации, контроллер памяти передаёт адрес строки, вырабатывает сигнал RAS, ждёт 2-3 такта, пока микросхема его обработает и переходит к п. I.
Если же банк находится на регенерации, контроллер ждёт 1-3 такта, пока она не завершится.

Впечатляет? Да, оперативка - весьма тормозное устройство. К счастью, реально процессор обращается к ней нечасто - почти все данные оседают в кэше, который реализован на триггерах, интегрирован в процессор и работает очень быстро.
Современные процессоры пользуются четырёхассоциативным кэшем. И вышеуказанный цикл построен так, что "заваливает" кэш мусором и процессору всё время приходится ждать, пока данные считаются из оперативки. Отсюда - 6-кратное падение производительности (кэш не может хранить более 4 ячеек с одинаковыми "установочными" адресами – т.е. адресами, отличающимися на n*4096).
Код на ASM действительно великолепно поддаётся оптимизации, но это уже требует глубокого знания архитектуры процессора.

Ваши права в разделе

Вы не можете создавать темы

Вы не можете отвечать на сообщения

Вы не можете прикреплять файлы

Вы можете скачивать файлы

BB-коды Вкл.

Смайлики Вкл.

[IMG] код Вкл.

HTML код Выкл.

Опции темы	Поиск в этой теме
Версия для печати	Поиск в этой теме: Расширенный поиск