Eine Erklaerung fuer a[i] vs i[a]

Discussion:

(zu alt für eine Antwort)

Rainer Weikusat

2018-04-24 19:27:45 UTC

Bislang hatte ich das fuer einen mehr oder minder unbeabsichtigten
Seiteneffekt einer fruehen Compiler-Implementierung gehalten. Allerdings
handelt es sich in Wirklichkeit um eine zweifellos beabsichtiges
B-Kompatibilitaetsfeature:

Bestandteil der Laufzeitumgebung eine B-Programms ist ein Speicherfeld
dessen einzelne Zellen jeweils in Wort speichern koennen und von 0 .. n
fortlaufend addressiert sind. Ein B-Feld wird durch eine Speicherzelle,
deren Inhalt die Addresse einer andern Speicherzelle ist,
repraesentiert. Seien also a und i symbolische Namen fuer zwei dieser
Speicherstellen so ist a[i] das i-te Element des Feldes, dessen Adresse
in a steht, und i[a] das a-te Element des Feldes, dessen Addresse in i
gespeichert ist. Relativ zum Anfang des Speicherfeldes ist das in beiden
Faellen diesselbe Speicherzelle.

Juergen Ilse

2018-04-25 03:36:12 UTC

Permalink

Hallo,

Post by Rainer Weikusat
Bislang hatte ich das fuer einen mehr oder minder unbeabsichtigten
Seiteneffekt einer fruehen Compiler-Implementierung gehalten. Allerdings
handelt es sich in Wirklichkeit um eine zweifellos beabsichtiges
Bestandteil der Laufzeitumgebung eine B-Programms ist ein Speicherfeld
dessen einzelne Zellen jeweils in Wort speichern koennen und von 0 .. n
fortlaufend addressiert sind. Ein B-Feld wird durch eine Speicherzelle,
deren Inhalt die Addresse einer andern Speicherzelle ist,
repraesentiert. Seien also a und i symbolische Namen fuer zwei dieser
Speicherstellen so ist a[i] das i-te Element des Feldes, dessen Adresse
in a steht, und i[a] das a-te Element des Feldes, dessen Addresse in i
gespeichert ist. Relativ zum Anfang des Speicherfeldes ist das in beiden
Faellen diesselbe Speicherzelle.

Ich denke nicht, dass es hier um "Kompatibilitaet mit B" geht. Vielmehr ist
letztendlinch a[i] nur etwas wie eine alternative Schreibweise fuer den Aus-
druck *((a)+(i)). Aufgrund der Kommutativitaet der Addition (auch bei Addi-
tion von Pointer und integer) ergibt sich die Gleichhheit von a[i] und i[a].

Tschuess,
Juergen Ilse (***@usenet-verwaltung.de)

Rainer Weikusat

2018-04-25 13:59:12 UTC

Permalink

Post by Juergen Ilse

Aufgrund der Kommutativitaet der Addition ergibt sich hier ueberhaupt
gar nichts, denn a[i] ist keine Addition. Es per Definition equivalent
zu *(a + i) oder auch *(i + a) weil letzteres per C-Definition identisch
zu ersterem ist obwohl a und i unterschiedliche Typen haben. Daraus
folgt jetzt aber nichts ueber einen Ausdruck i[a]. Dieser ist
gleichwertig zu a[i] weil das ausdruecklich so definiert ist.

Das beanwortet allerding nicht die Frage, warum das so definiert
ist. Wie man "The Development of the C Language" unschwer entnehmen
kann, war weitestmoegliche Kompatibilitaet zu B beabsichtigt[*], um
existierenden Code, vor allem ein fruehe Yacc-Version, mit moeglichst
geringem Aufwand weiternutzen zu koennen. Und in B ist die Aequivalenz
von a[i] und i[a] ein logisches Resultat der Speicherorganisation und
nicht bloss etwas, worueber Leute dann und wann schlechte Witze machem,
wenn sie etwas unfreundliches ueber C sagen wollen.

[*] Using assembler was dreary enough that B, despite its performance
problems, had been supplemented by a small library of useful service
routines and was being used for more and more new programs. Among
the more notable results of this period was Steve Johnson's first
version of the yacc parser-generator.

[...]

This invention ['pointer to first element'] enabled most existing B
code to continue to work, despite the underlying shift in the
language's semantics.

Thomas Koenig

2018-04-26 18:25:55 UTC

Permalink

Post by Rainer Weikusat
Aufgrund der Kommutativitaet der Addition ergibt sich hier ueberhaupt
gar nichts, denn a[i] ist keine Addition.

Nicht ganz, es steht ja auch noch das * davor...

Post by Rainer Weikusat
Es per Definition equivalent
zu *(a + i)

Korrekt. Das ist ein Ausdruck, der in C sowohl für einen Pointer
a und ein int i als auch umgekehrt definiert wird. Wenn man
Pointer-Arithmetik zulässt, ist sowas durchaus sinnvoll.

Post by Rainer Weikusat
oder auch *(i + a) weil letzteres per C-Definition identisch
zu ersterem ist obwohl a und i unterschiedliche Typen haben. Daraus
folgt jetzt aber nichts ueber einen Ausdruck i[a]. Dieser ist
gleichwertig zu a[i] weil das ausdruecklich so definiert ist.

Man hätte natürlich auch a+i zulassen und i+a verbieten können.
Das wäre aber definitiv eine "Warze" der Programmiersprache
gewesen, den + - Operator asymmetrisch zu machen.

Es ist also durchaus sinnvoll, (a+i) und (i+a) gleich zu behandeln,
unabhängig von den Typen, und damit auch *(a+i] und *(i+a).

Wenn man darüber noch syntaktischen Zucker gießt und a[i]
als *(a+i) definiert, ist die Äquvialent von a[i] und i[a]
durchaus zu verstehen: Man hat sich einfach eine (nicht nötige)
Einschränkung gespart.

Kompatibilität mit B mag bei dieser Entscheidung eine Rolle gespielt
haben oder auch nicht, das kann ich nicht beurteilen.

Rainer Weikusat

2018-04-26 19:13:43 UTC

Permalink

Post by Thomas Koenig

Post by Rainer Weikusat
Aufgrund der Kommutativitaet der Addition ergibt sich hier ueberhaupt
gar nichts, denn a[i] ist keine Addition.

Nicht ganz, es steht ja auch noch das * davor...

Das ist fuer das 'irgendein +-Operator, der auf irgendwelchen irgendwo
irgendwie definitert ist hat Eigenschaft ... UND DESHALB ...'-Argument
belanglos.

Post by Thomas Koenig

Post by Rainer Weikusat
Es per Definition equivalent
zu *(a + i)

Korrekt. Das ist ein Ausdruck, der in C sowohl für einen Pointer
a und ein int i als auch umgekehrt definiert wird. Wenn man
Pointer-Arithmetik zulässt, ist sowas durchaus sinnvoll.

Zeigerarithmetik ist das C-Aequivalent von B-Addressarithmetik.

Post by Thomas Koenig

Man hätte natürlich auch a+i zulassen und i+a verbieten können.
Das wäre aber definitiv eine "Warze" der Programmiersprache
gewesen, den + - Operator asymmetrisch zu machen.

Hier koennte man genau umgekehrt argumentierern: Sei a ein Zeiger und b
eine Ganzahl, dann ist das Resultat von a + b ein Zeiger und das von b +
a eine Zahl. Es ist durchaus 'asymmetrisch' in einem Fall den Typ des
ersten und im anderen Fall den Typ des zweiten Arguments den des
Ergebnisses bestimmen zu lassen ...

Post by Thomas Koenig
Es ist also durchaus sinnvoll, (a+i) und (i+a) gleich zu behandeln,
unabhängig von den Typen, und damit auch *(a+i] und *(i+a).

... allerdings ist es egal, was man hier fuer 'durchaus sinnvoll' haelt:
Die Semantik von C-Ausdruecken wird durch die C-Sprachdefinition
bestimmt und insofern diese der Semantik von anderen Ausdruecken
aehnelt, dient das lediglich dazu, Kompatibilitaet mit existierenden
Vorurteilen zu waren.

[...]

Post by Thomas Koenig
Kompatibilität mit B mag bei dieser Entscheidung eine Rolle gespielt
haben oder auch nicht, das kann ich nicht beurteilen.

Das kann man aufgrund der existierenden Literatur zu diesem Thema sehr
wohl beurteilen:

Because pointers in BCPL and B are merely integer indices in the
memory array, arithmetic on them is meaningful: if p is the
address of a cell, then p+1 is the address of the next cell. This
convention is the basis for the semantics of arrays in both
languages. When in BCPL one writes

let V = vec 10

or in B,

auto V[10];

the effect is the same: a cell named V is allocated, then another
group of 10 contiguous cells is set aside, and the memory index
of the first of these is placed into V. By a general rule, in B
the expression

*(V+i)

adds V and i, and refers to the i-th location after V. Both BCPL
and B each add special notation to sweeten such array accesses;
in B an equivalent expression is

V[i]

and in BCPL

V!i

This approach to arrays was unusual even at the time; C would
later assimilate it in an even less conventional way.

["Development of C", S. 4, siehe auch S. 6, 7, "The Problems of
B" und "Embryonic C"]

Juergen Ilse

2018-04-27 03:10:15 UTC

Permalink

Hallo,