Поговорим о том, в чем слабо разбираемся - технологиях и скоростях в микросхемах/контроллерах. Раздел «Общение». Форум программистов «Весельчак У»

Если сравнивать транзит регистр-регистр и само вычисление суммы, думаю всё-таки считает он дольше.

Типичный 64-разрядный сумматор с параллельным переносом имеет задержку порядка 5td (т.е. в 5 раз превышает задержку на стандартном вентиле). Для того, чтобы доставить на его входы данные из РОН, необходимо подать адрес регистра на шину памяти, произвести цикл чтения, зафиксировать содержимое выборки в буфере, произвести суммирование. Затем нужно еще сохранить результат в РОН (т.е. опять подать его адрес на шину адреса и провести цикл записи). Сомневаюсь, что все это в сумме окажется меньше 5td. Если операнды/результат хранятся не в РОН, а в ОЗУ, все будет еще гораздо мрачнее.

Мне интересно: как правильно сравнивать эффективность?

Нужно подобрать задачу, на которой процессор, который Вы хотите продать, выглядит существенно круче конкурентов. Почти всем это удается.

Если серьезно, вот Вам пример из практики. На излете СССР у меня было два основных инструмента для работы: 16-разрядная СМ-1420 и 32-разрядная СМ-1700. СМ-1420 превосходила СМ-1700 приблизительно в 4 раза на коротких операциях (типа регистровых сложений/пересылок и т.п.), если закрыть глаза на разницу в длине слова. А вот на относительно большой (не на пару секунд) вычислительной задаче СМ-1700 опережала СМ-1420 приблизительно в 7 раз. Вопрос: кто из них эффективнее? Правильный ответ: а смотря что нужно сделать.

Еще вариант (из 8-битного мира). Нужно сложить 2 байта. На i8080: пересылаем операнд в аккумулятор; выполняем сложение со вторым операндом (в одном из регистров); пересылаем результат из аккумулятора по месту назначения. На ATmega: складываем два регистра. То есть на одной архитектуре может понадобиться выполнить множество операций (например, гонять данные с места не место, потому что только специализированный регистр может выполнить некое действие), которые на другой просто не потребуются.

В пользовательских ПК обычно есть одна тяжёлая задача и сотня маленьких. В этом режиме более эффективен процессор с одним или двумя ядрами, но с высокой частотой и скоростью работы.

Вот у меня в системе сейчас выполняются 240 процессов и 2516 потоков, хотя нет серьезной нагрузки. Они просто порвут в клочья единственное ядро, которое постоянно будет переключать контекст.

С повышением частоты растут расходы на вычисления, причём нелинейно.

Почему? Я считаю, что чем больше работы выполняется на один тик, тем меньше накладные расходы на мультизадачность (каждое переключение что-то стоит).

Цитата: Dale от 02-09-2017 22:23

Обычно пытаются сравнивать ARM с x86, первый работает на 400 МГц, условно, а второй на 3 ГГц. Полагаю, что если сравнивать в условии равных частот, равного, хотя бы условно, ПО, то преимущества RISC будут не такими уж и значимыми.

"Чистый" x86 сегодня уже не найти. Последние модели, как утверждают разработчики, имеют RISC-подобное ядро, которое интерпретирует команды x86. Без этого вряд ли удалось бы добиться конвейерности, суперскалярности и прочих фишек, которые позволяют увеличивать производительность без наращивания тактовых частот. Ядро 8086, как гиря на ноге каторжника, надежно удерживает от движения вперед.


	Записан

Aether

Специалист

Offline
Пол: Мужской

Re: HELP me ошибка при создании файла fatal command line can't locate file

« Ответ #27 : 04-09-2017 13:00 »

Не порвут. Даже если будет десять ядер, то критическое число задач можно оттянуть, но не разрешить ситуацию принципиально. Вот пример: пользователь запускает интерактивное приложение, которое представляет собой один процесс, который "потребляет" 2 ГГц, а у Вас десять ядер по 200 МГц. Что будет? Разделить один поток на разные ядра не выйдет, поэтому либо дикие тормоза (одно ядро тянет, остальные отдыхают), либо покупка другого процессора. Одноядерный процессор ПК с 3 ГГц этот поток осилит, и оставшиеся 1 ГГц запросто съедят 2516 микропотоков, многие из которых в полусонном состоянии. А теперь обратная задача: 10000 потоков по 1 МГц, получается одно ядро потребуется в виде 10 ГГц, и тут лучше иметь сервер с 50 ядрами по 200 МГц, так как суммарное потребление энергии окажется ниже, но есть и другие плюсы.

Цитата: Dale от 02-09-2017 22:23

С повышением частоты растут расходы на вычисления, причём нелинейно.

Я имел ввиду характеристику потребления электроэнергии логическим элементом, в данном случае КМОП образным. То есть, тут как у реактивного самолёта - с одной стороны летим мы как бы быстрее, но при этом запас топлива закончится ещё быстрее, и суммарный пролёт в сверх звуке окажется короче. Исторически принимались схемотехнические решения в виде ЭСЛ, и технологические в виде перехода на арсенид-галлиевые кристаллы, но цена за скорость остаётся прежней.

К чему собственно я говорил о свободном ПО: пользователь, заинтересованный в полезности работы своего ПК, будет стремиться не допустить к исполнению мусорные задачи, и только при полном доступе к ресурсам он имеет шанс это сделать. А без этого будут со временем и стоядерные по 10 ГГц аппараты, которые будут успешно тормозить при загрузке Word 5000. К сожалению, это одна из теней современной экономики, когда есть куча товаров, в каждом из которых отсутствует эксплуатационное качество лишь для обеспечения экономического тока.


	Записан

Dale

Блюзмен
Команда клуба

Offline
Пол: Мужской

Re: HELP me ошибка при создании файла fatal command line can't locate file

« Ответ #28 : 04-09-2017 13:40 »

Вот пример: пользователь запускает интерактивное приложение, которое представляет собой один процесс, который "потребляет" 2 ГГц, а у Вас десять ядер по 200 МГц. Что будет?

Ничего хорошего, разумеется. Современное успешное приложение просто не имеет права быть однопоточным. Законы физики наложили вето на дальнейший рост тактовой частоты при нынешних технологиях, а это значит, что рост производительности будет продолжаться исключительно за счет распараллеливания, если только не придумают принципиально иную элементную базу.

Потоков должно быть больше, чем ядер, благо у ширпотребных процессоров ядер пока не слишком много.

А теперь обратная задача: 10000 потоков по 1 МГц, получается одно ядро потребуется в виде 10 ГГц

Вы совсем не учитываете накладные расходы при переключении контекстов, а это вовсе не так мало. Может оказаться, что единственное ядро истратит весь ресурс на переключения потоков, на саму работу ничего не останется.

С повышением частоты растут расходы на вычисления, причём нелинейно.
...
Я имел ввиду характеристику потребления электроэнергии логическим элементом, в данном случае КМОП образным.

Для КМОП как раз характеристика достаточно линейна. До такой степени, что производители приводят такой параметр, как энергия переключения элемента (затраты энергии на один переход 0/1 или 1/0), считая, что в статике потребление настолько мало, что им можно вовсе пренебречь.

Но тут еще один фактор: это все верно в пределах одного семейства вентилей. Чем выше быстродействие, тем меньше эта самая энергия переключения, т.к. уменьшаются габариты элементов, а с ними и паразитные емкости, на перезаряд которых в основном и расходуется энергия.

Сопоставьте мизерное потребление современных быстродействующих микроконтроллеров с раскаленным утюгом КР580ВМ80 на паре жалких мегагерц тактовой частоты.

Исторически принимались схемотехнические решения в виде ЭСЛ, и технологические в виде перехода на арсенид-галлиевые кристаллы, но цена за скорость остаётся прежней.

ЭСЛ - это исключительно битва за скорость. Энергоэкономичностью там даже и не пахло, требовалось принудительное охлаждение корпусов.

Арсенид галлия нашел применение в основном в аналоговых микросхемах СВЧ, с цифровыми в массовом производстве у него не сложилось. Да и в принципе не должно было: полевой транзистор с барьером Шоттки - не самый удачный элемент для построения вентилей, а именно такие транзисторы лучше всего шли на арсениде.

будут со временем и стоядерные по 10 ГГц аппараты, которые будут успешно тормозить при загрузке Word 5000.

Так ведь при желании его всегда можно будет заменить на OpenOffice 7000 (который правда, тоже отнюдь не летает, несмотря на доступность исходников).


	Записан

Aether

Специалист

Offline
Пол: Мужской

Re: HELP me ошибка при создании файла fatal command line can't locate file

« Ответ #29 : 04-09-2017 15:03 »

Современное успешное приложение просто не имеет права быть однопоточным.

Есть задачи связанные, а есть не связанные. Какой смысл делать десять потоков, каждый из которых будет ждать все результаты работы предыдущего?

Я вижу так: технологический уровень настоящего времени намного перекрывает бытовую потребность. Но есть специализированные задачи, которые процессор ПК решать и не должен, для этого нужны специализированные комплексы. ПК - это прежде всего инструмент индивидуума, важно удобство обращения с ним.

Потоков должно быть больше, чем ядер, благо у ширпотребных процессоров ядер пока не слишком много.

У процессоров с большим числом ядер появляются новые проблемы, на первый план выходит их совместная работа с памятью. При десяти ядрах допустимо иметь общую память, а при ста ядрах накладные расходы у аппаратного менеджера памяти начнут перекрывать ожидаемый выигрыш в производительности. Таким образом, с какого-то момента появляется переход от многоядерных к многопроцессорным системам.

Накладные расходы это сложная тема, можно и десять процессов переключать так часто, что 30% ресурсов сдует моментом, но это будет платой за высокую скорость реакции. С другой стороны, можно один процесс выделять для пользователя так, чтобы не было проблем с интерфейсом, а остальным остаток делить пропорционально - тут и десять тысяч потоков могут занять лишь 5% ресурсов на переключение. Самый плохой подход это, например, оконный режим, когда несколько приложений требуют интерактивности - приходится как-то поделить квант рисования видео кадра на всех, вот тут и выясняется, что чего-то не хватает.

Для КМОП как раз характеристика достаточно линейна.

Если рассматривать затвор, как ёмкость, то всё действительно более-менее линейно, а если прибавить омическое сопротивление проводников, то часть мощности пойдёт на нагрев дополнительно. Ни и это не единственные причины, ведь есть ещё и скин-эффект и излучение. Возможно, у нас немного разные данные, и все они правильные, просто каждые в рамках конкретного устройства и технологии.