DE10117870A1 - Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank - Google Patents
Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer DatenbankInfo
- Publication number
- DE10117870A1 DE10117870A1 DE10117870A DE10117870A DE10117870A1 DE 10117870 A1 DE10117870 A1 DE 10117870A1 DE 10117870 A DE10117870 A DE 10117870A DE 10117870 A DE10117870 A DE 10117870A DE 10117870 A1 DE10117870 A1 DE 10117870A1
- Authority
- DE
- Germany
- Prior art keywords
- music signal
- note
- frequency
- time
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0033—Recording/reproducing or transmission of music for electrophonic musical instruments
- G10H1/0041—Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
Bei einem Verfahren zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung wird zunächst eine Frequenz-Zeit-Darstellung des Musiksignals erzeugt, wobei die Frequenz-Zeit-Darstellung Koordinatentupel aufweist, wobei ein Koordinatentupel einen Frequenzwert und einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auftretens der zugeordneten Frequenz in dem Musiksignal angibt. Hierauf wird eine Fitfunktion als Funktion der Zeit berechnet, deren Verlauf durch die Koordinatentupel der Frequenz-Zeit-Darstellung bestimmt ist. Zur zeitlichen Segmentierung der Frequenz-Zeit-Darstellung werden zumindest zwei benachbarte Extremwerte der Fitfunktion ermittelt. Auf der Basis der ermittelten Extremwerte wird dann eine Segmentierung durchgeführt, wobei ein Segment durch zwei benachbarte Extremwerte der Fitfunktion begrenzt ist, wobei die zeitliche Länge des Segments auf eine zeitliche Länge einer Note für das Segment hinweist. Zur Tonhöhenbestimmung wird eine Tonhöhe für das Segment unter Verwendung von Koordinaten-Tupeln in dem Segment bestimmt. Durch Berechnen der Fitfunktion und Ermitteln von Extremwerten der Fitfuktion zur Segmentierung werden keine Anforderungen an das Musiksignal, das in eine Noten-basierte Darstellung überführt werden soll, gestellt. Das Verfahren ist somit auch für kontinuierliche Musiksignale geeignet.
Description
Die vorliegende Erfindung bezieht sich auf das Gebiet der
Verarbeitung von Musiksignalen und insbesondere auf das Um
setzen eines Musiksignals in eine Noten-basierte Beschrei
bung.
Konzepte, mit denen Lieder durch Vorgabe einer Tonfolge re
ferenziert werden, sind für viele Anwender nützlich. Wer
kennt nicht die Situation, daß man die Melodie eines Liedes
vor sich her singt, sich aber außer der Melodie nicht an
den Titel des Liedes erinnern kann. Wünschenswert wäre, ei
ne Melodiesequenz vorzusingen oder mit einem Musikinstru
ment vorzuspielen, und mit diesen Informationen die Melo
diesequenz in einer Musikdatenbank zu referenzieren, wenn
die Melodiesequenz in der Musikdatenbank enthalten ist.
Eine standardmäßige Noten-basierte Beschreibung von Musik
signalen ist das MIDI-Format (MIDI = Music Interface Desc
ription). Eine MIDI-Datei umfaßt eine Noten-basierte Be
schreibung derart, daß der Tonanfang und das Tonende eines
Tons bzw. der Tonanfang und die Dauer des Tons als Funktion
der Zeit aufgezeichnet sind. MIDI-Dateien können beispiels
weise in elektronischen Keyboards eingelesen werden und
"abgespielt" werden. Selbstverständlich existieren auch
Soundkarten zum Abspielen eines MIDI-Files über die mit der
Soundkarte eines Computers verbundenen Lautsprecher. Daraus
ist zu sehen, daß das Umformen einer Noten-basierten Be
schreibung, welches in seiner ursprünglichsten Form durch
einen Intrumentalisten "manuell" durchgeführt wird, der ein
durch Noten aufgezeichnetes Lied mittels eines Musikinstruments
spielt, auch ohne weiteres automatisch durchgeführt
werden kann.
Das Gegenteil ist jedoch ungleich aufwendiger. Die Umfor
mung eines Musiksignals, das eine gesungene Melodiesequenz,
eine gespielte Melodiesequenz, eine von einem Lautsprecher
aufgezeichnete Melodiesequenz oder eine in Form einer Datei
vorhandene digitalisierte und optional komprimierte Melo
diesequenz ist, in eine Noten-basierte Beschreibung in Form
einer MIDI-Datei oder in eine konventionelle Notenschrift
ist mit großen Einschränkungen verbunden.
In der Dissertation "Using Contour as a Mid-Level Represen
tation of Melody" von A. Lindsay, Massachusetts Institute
of Technology, September 1996, ist ein Verfahren zum Umfor
men eines gesungenen Musiksignals in eine Folge von Noten
beschrieben. Ein Lied muß unter Verwendung von Stoppkonso
nanten vorgetragen werden, d. h. als eine Folge von "da",
"da", "da". Anschließend wird die Leistungsverteilung des
von dem Sänger erzeugten Musiksignals über der Zeit be
trachtet. Aufgrund der Stoppkonsonanten ist zwischen dem
Ende eines Tons und dem Beginn des darauffolgenden Tons ein
deutlicher Leistungseinbruch in einem Leistungs-Zeit-
Diagramm zu erkennen. Auf der Basis der Leistungseinbrüche
wird eine Segmentierung des Musiksignals durchgeführt, so
daß in jedem Segment eine Note vorhanden ist. Eine Fre
quenzanalyse liefert die Höhe des gesungenen Tons in jedem
Segment, wobei die Folge von Frequenzen auch als Pitch-
Contourlinie bezeichnet wird.
Das Verfahren ist dahingehend nachteilig, daß es auf eine
gesungene Eingabe beschränkt ist. Als Vorgabe muß die Melo
die durch einen Stoppkonsonanten und einen Vokalpart gesun
gen werden, in der Form "da" "da" "da", damit eine Segmen
tierung des aufgezeichneten Musiksignals vorgenommen werden
kann. Dies schließt bereits eine Anwendung des Verfahrens
auf Orchesterstücke aus, in denen ein dominantes Instrument
gebundenen Noten, d. h. nicht durch Pausen getrennte Noten,
spielt.
Nach einer Segmentierung berechnet das bekannte Verfahren
Intervalle jeweils zwei aufeinanderfolgender Pitch-Werte,
d. h. Tonhöhenwerte, in der Pitchwertfolge. Dieser Inter
vallwert wird als Abstandsmaß angenommen. Die sich ergeben
de Pitchfolge wird dann mit in einer Datenbank gespeicher
ten Referenzfolgen verglichen, wobei das Minimum einer Sum
me quadrierter Differenzbeträge über alle Referenzfolgen
als Lösung, d. h. als in der Datenbank referenzierte Noten
folge, angenommen wird.
Ein weiterer Nachteil dieses Verfahrens besteht darin, daß
ein Pitch-Tracker eingesetzt wird, welcher Oktav-
Sprungfehler aufweist, die nachträglich kompensiert werden
müssen. Ferner muß der Pitch-Tracker fein abgestimmt wer
den, um gültige Werte zu liefern. Das Verfahren nutzt le
diglich die Intervallabstände zweier aufeinanderfolgender
Pitch-Werte. Eine Grobquantisierung der Intervalle wird
durchgeführt, wobei diese Grobquantisierung lediglich grobe
Schritte aufweist, die als "sehr groß", "groß", "gleich
bleibend" eingeteilt sind. Durch diese Grobquantisierung
gehen die absoluten Tonangaben in Hertz verloren, wodurch
eine feinere Bestimmung der Melodie nicht mehr möglich ist.
Um eine Musikerkennung durchführen zu können, ist es wün
schenswert, aus einer gespielten Tonfolge eine Noten-
basierte Beschreibung beispielsweise in Form eines MIDI-
Files oder in Form einer konventionellen Notenschrift zu
bestimmen, wobei jede Note durch Tonanfang, Tonlänge und
Tonhöhe gegeben ist.
Ferner ist zu bedenken, daß die Eingabe nicht immer exakt
ist. Insbesondere für eine kommerzielle Nutzung muß davon
ausgegangen werden, daß die gesungene Notenfolge sowohl
hinsichtlich der Tonhöhe als auch hinsichtlich des Ton
rhythmus und der Tonfolge unvollständig sein kann. Wenn die
Notenfolge mit einem Instrument vorgespielt werden soll, so
muß davon ausgegangen werden, daß das Instrument unter Um
ständen verstimmt ist, auf einen anderen Frequenzgrundton
gestimmt ist (beispielsweise nicht auf den Kammerton A von
440 Hz sondern auf das "A" bei 435 Hz). Ferner kann das In
strument in einer eigenen Tonart gestimmt sein, wie z. B.
die B-Klarinette oder das Es-Saxophon. Die Melodietonfolge
kann auch bei instrumentaler Darbietung unvollständig sein,
indem Töne weggelassen sind (Delete), indem Töne einge
streut sind (Insert), oder indem andere (falsche) Töne ge
spielt werden (Replace). Ebenso kann das Tempo variiert
sein. Weiterhin ist zu berücksichtigen, daß jedes Instru
ment eine eigene Klangfarbe aufweist, so daß ein von einem
Instrument gespielter Ton eine Mischung aus Grundton und
anderen Frequenzanteilen, den sogenannten Obertönen, ist.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein
robusteres Verfahren und eine robustere Vorrichtung zum Ü
berführen eines Musiksignals in eine Noten-basierte Be
schreibung zu schaffen.
Diese Aufgabe wird durch ein Verfahren gemäß Patentanspruch
1 oder durch eine Vorrichtung gemäß Patentanspruch 31 ge
löst.
Eine weitere Aufgabe der vorliegenden Erfindung besteht
darin, ein robusteres Verfahren und eine robustere Vorrich
tung zum Referenzieren eines Musiksignals in einer Daten
bank, die eine Noten-basierte Beschreibung einer Mehrzahl
von Datenbank-Musiksignalen aufweist, zu schaffen.
Diese Aufgabe wird durch ein Verfahren nach Patentanspruch
23 oder durch eine Vorrichtung nach Patentanspruch 32 ge
löst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde,
daß für eine effiziente und robuste Überführung eines Mu
siksignals in eine Noten-basierte Beschreibung eine Einschränkung
dahingehend nicht akzeptabel ist, daß eine ge
sungene oder gespielte Notenfolge durch Stoppkonsonanten
dargeboten werden muß, die dazu führen, daß die Leistungs-
Zeit-Darstellung des Musiksignals scharfe Leistungseinbrü
che aufweist, welche dazu verwendet werden können, eine
Segmentierung des Musiksignals durchzuführen, um einzelne
Töne der Melodiefolge voneinander abgrenzen zu können.
Erfindungsgemäß wird aus dem vorgesungenen oder vorgespiel
ten oder in einer sonstigen Form vorliegenden Musiksignal
eine Noten-basierte Beschreibung dadurch gewonnen, daß zu
nächst eine Frequenz-Zeit-Darstellung des Musiksignals er
zeugt wird, wobei die Frequenz-Zeit-Darstellung Koordina
tentupel aufweist, wobei ein Koordinatentupel einen Fre
quenzwert und einen Zeitwert aufweist, wobei der Zeitwert
die Zeit des Auftretens des zugeordneten Frequenz in dem
Musiksignal angibt. Anschließend wird eine Fitfunktion als
Funktion der Zeit berechnet, deren Verlauf durch die Koor
dinatentupel der Frequenz-Zeit-Darstellung bestimmt ist.
Aus der Fitfunktion werden zumindest zwei benachbarte Ex
tremwerte ermittelt. Die zeitliche Segmentierung der Fre
quenz-Zeit-Darstellung, um Töne einer Melodiefolge vonein
ander abgrenzen zu können, wird auf der Basis der ermittel
ten Extremwerte durchgeführt, wobei ein Segment durch die
zumindest zwei benachbarten Extremwerte der Fitfunktion be
grenzt ist, wobei die zeitliche Länge des Segments auf eine
zeitliche Länge einer Note für das Segment hinweist. Damit
wird ein Notenrhythmus erhalten. Die Notenhöhen werden
schließlich unter Verwendung lediglich von Koordinaten-
Tupeln in jedem Segment bestimmt, so daß für jedes Segment
ein Ton ermittelt wird, wobei die Töne in den aufeinander
folgenden Segmenten auf die Melodiefolge hinweisen.
Ein Vorteil der vorliegenden Erfindung besteht darin, daß
eine Segmentierung des Musiksignals unabhängig davon er
reicht wird, ob das Musiksignal von einem Instrument ge
spielt wird oder vorgesungen wird. Erfindungsgemäß ist es
nicht mehr erforderlich, daß ein zu verarbeitendes Musiksignal
einen Leistungs-Zeit-Verlauf hat, der scharfe Ein
brüche aufweisen muß, um die Segmentierung vornehmen zu
können. Die Eingabeart ist bei dem erfindungsgemäßen Ver
fahren somit nicht mehr beschränkt. Während das erfindungs
gemäße Verfahren bei monophonen Musiksignalen, wie sie
durch eine einzelne Stimme oder durch ein einzelnes Instru
ment erzeugt werden, am besten funktioniert, ist es auch
für eine polyphone Darbietung geeignet, wenn in der poly
phonen Darbietung ein Instrument bzw. eine Stimme vorherr
schend ist.
Aufgrund der Tatsache, daß die zeitliche Segmentierung der
Noten der Melodiefolge, die das Musiksignal darstellt,
nicht mehr durch Leistungsbetrachtungen durchgeführt wird,
sondern durch Berechnen einer Fitfunktion unter Verwendung
einer Frequenz-Zeit-Darstellung, ist eine kontinuierliche
Eingabe möglich, wie sie einem natürlichen Gesang oder ei
nem natürlichen Instrumentenspiel am ehesten entspricht.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung wird eine Instrumenten-spezifische Nachbearbei
tung der Frequenz-Zeit-Darstellung durchgeführt, um die
Frequenz-Zeit-Darstellung unter Kenntnis der Charakteristi
ka eines bestimmten Instruments nachzubearbeiten, um eine
genauere Pitch-Contour-Linie und damit eine genauere Tonhö
henbestimmung zu erreichen.
Ein Vorteil der vorliegenden Erfindung besteht darin, daß
das Musiksignal von jedem beliebigen Harmonic-Sustained Mu
sikinstrument vorgetragen werden kann, wobei zu den Harmo
nic-Sustained-Musikinstrumenten die Blechinstrumente, die
Holzblasinstrumente oder auch die Saiteninstrumente, wie z. B.
Zupfinstrumente, Streichinstrumente oder Anschlaginstru
mente, zählen. Aus der Frequenz-Zeit-Verteilung wird unab
hängig von der Klangfarbe des Instrumentes der gespielte
Grundton, der durch eine Note einer Notenschrift vorgegeben
ist, extrahiert.
Das erfindungsgemäße Konzept zeichnet sich somit dadurch
aus, daß die Melodiesequenz, d. h. das Musiksignal, von ei
nem beliebigen Musikinstrument vorgetragen werden kann. Das
erfindungsgemäße Konzept ist robust gegenüber verstimmten
Instrumenten, "schiefen" Tonlagen beim Singen oder Pfeifen
von ungeübten Sängern und unterschiedlich vorgetragenen
Tempi im zu bearbeitenden Liedausschnitt.
Ferner kann das Verfahren in seiner bevorzugten Ausfüh
rungsform, bei der eine Hough-Transformation zur Erzeugung
der Frequenz-Zeit-Darstellung des Musiksignals eingesetzt
wird, Rechenzeit-effizient implementiert werden, wodurch
eine hohe Ausführungsgeschwindigkeit erreicht werden kann.
Ein weiterer Vorteil des erfindungsgemäßen Konzepts besteht
darin, daß zur Referenzierung eines gesungenen oder ge
spielten Musiksignals aufgrund der Tatsache, daß eine No
ten-basierte Beschreibung, die eine Rhythmus-Darstellung
und eine Darstellung der Notenhöhen liefert, eine Referen
zierung in einer Datenbank vorgenommen werden kann, in der
eine Vielzahl von Musiksignalen abgespeichert sind. Insbe
sondere aufgrund der großen Verbreitung des MIDI-Standards
existiert ein reicher Schatz an MIDI-Dateien für eine große
Anzahl von Musikstücken.
Ein weiterer Vorteil des erfindungsgemäßen Konzepts besteht
darin, daß auf der Basis der erzeugten Noten-basierten Be
schreibung mit den Methoden der DNA-Sequenzierung Musikda
tenbanken beispielsweise im MIDI-Format mit leistungskräf
tigen DNA-Sequenzierungs-Algorithmen, wie z. B. dem Boyer-
Moore-Algorithmus, unter Verwendung von Repla
ce/Insert/Delete-Operationen durchsucht werden können. Die
se Form des zeitlich sequentiell ablaufenden Vergleichs un
ter gleichzeitiger gesteuerter Manipulation des Musiksig
nals liefert ferner die benötigte Robustheit gegenüber un
genauen Musiksignalen, wie sie durch ungeübte Instrumenta
listen oder ungeübte Sänger erzeugt werden können. Dieser
Punkt ist wesentlich für einen hohen Verbreitungsgrad eines
Musikerkennungssystems, da die Anzahl geübter Instrumenta
listen und geübter Sänger unter der Bevölkerung naturgemäß
eher gering ist.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung
werden nachfolgend bezugnehmend auf die beiliegenden Zeich
nungen näher erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer erfindungsgemäßen Vor
richtung zum Überführen eines Musiksignals in ei
ne Noten-basierte Darstellung;
Fig. 2 ein Blockschaltbild einer bevorzugten Vorrichtung
zum Erzeugen einer Frequenz-Zeit-Darstellung aus
einem Musiksignal, bei der zur Flankendetektion
eine Hough-Transformation eingesetzt wird;
Fig. 3 ein Blockschaltbild einer bevorzugten Vorrichtung
zum Erzeugen einer segmentierten Zeit-Frequenz-
Darstellung aus der durch Fig. 2 gelieferten Fre
quenz-Zeit-Darstellung;
Fig. 4 eine erfindungsgemäße Vorrichtung zum Ermitteln
einer Folge von Notenhöhen auf der Basis der von
Fig. 3 ermittelten segmentierten Zeit-Frequenz-
Darstellung;
Fig. 5 eine bevorzugte Vorrichtung zum Ermitteln eines
Noten-Rhythmus auf der Basis der segmentierten
Zeit-Frequenz-Darstellung von Fig. 3;
Fig. 6 eine schematische Darstellung einer Design-Rule-
Überprüfungseinrichtung, um unter Kenntnis der
Notenhöhen und des Notenrhythmus zu überprüfen,
ob die ermittelten Werte nach kompositorischen
Regeln sinnvoll sind;
Fig. 7 ein Blockschaltbild einer erfindungsgemäßen Vor
richtung zum Referenzieren eines Musiksignal in
einer Datenbank; und
Fig. 8 ein Frequenz-Zeit-Diagramm der ersten 13 Sekunden
des Klarinettenquintetts A-Dur von W. A. Mozart,
KV 581, Larghetto, Jack Bryner, Klarinette, Auf
nahme: 12/1969, London, Philips 420 710-2 ein
schließlich Fitfunktion und Notenhöhen.
Fig. 1 zeigt ein Blockschaltbild einer erfindungsgemäßen
Vorrichtung zum Überführen eines Musiksignals in eine No
ten-basierte Darstellung. Ein Musiksignal, das gesungen,
gespielt oder in Form von digitalen zeitlichen Abtastwerten
vorliegt, wird in eine Einrichtung 10 zum Erzeugen einer
Frequenz-Zeit-Darstellung des Musiksignals eingespeist, wo
bei die Frequenz-Zeit-Darstellung Koordinatentupel auf
weist, wobei ein Koordinatentupel einen Frequenzwert und
einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auf
tretens der zugeordneten Frequenz in dem Musiksignal an
gibt. Die Frequenz-Zeit-Darstellung wird in eine Einrich
tung 12 zum Berechnen einer Fitfunktion als Funktion der
Zeit eingespeist, deren Verlauf durch die Koordinatentupel
der Frequenz-Zeit-Darstellung bestimmt ist. Aus der Fit
funktion werden mittels einer Einrichtung 14 benachbarte
Extrema ermittelt, welche dann von einer Einrichtung 16 zum
Segmentieren der Frequenz-Zeit-Darstellung verwendet wer
den, um eine Segmentierung durchzuführen, die auf einen No
tenrhythmus hinweist, der an einem Ausgang 18 ausgegeben
wird. Die Segmentierungsinformationen werden ferner von ei
ner Einrichtung 20 verwendet, die zur Bestimmung der Tonhö
he pro Segment vorgesehen ist. Die Einrichtung 20 verwendet
zur Bestimmung der Tonhöhe pro Segment lediglich die Koor
dinaten-Tupel in einem Segment, um für die aufeinanderfol
genden Segmente aufeinanderfolgende Notenhöhen an einem
Ausgang 22 auszugeben. Die Daten am Ausgang 18, also die
Rhythmusinformationen, und die Daten an dem Ausgang 22, al
so die Ton- bzw. Notenhöheninformationen, bilden zusammen
eine Noten-basierte Darstellung, aus der eine MIDI-Datei
oder mittels einer graphischen Schnittstelle auch eine No
tenschrift erzeugt werden kann.
Im nachfolgenden wird anhand von Fig. 2 auf eine bevorzugte
Ausführungsform zum Erzeugen einer Frequenz-Zeit-
Darstellung des Musiksignals eingegangen. Ein Musiksignal,
das beispielsweise als Folge von PCM-Samples vorliegt, wie
sie durch Aufzeichnen eines gesungenen oder gespielten Mu
siksignals und anschließendes Abtasten und Analog/Digital-
Wandeln erzeugt werden, wird in einen Audio-I/O-Handler 10a
eingespeist. Alternativ kann das Musiksignal in digitalem
Format auch direkt von der Festplatte eines Computers oder
von der Soundkarte eines Computers kommen. Sobald der Au
dio-I/O-Handler 10a eine Ende-Datei-Marke erkennt,
schließt er die Audiodatei und lädt je nach Bedarf das
nächste zu bearbeitende Audiofile oder terminiert den Ein
lesevorgang. Die stromförmig vorliegenden PCM-Samples (PCM
= Pulse Code Modulation) werden nacheinander an eine Vor
verarbeitungseinrichtung 10b übermittelt, in der der Daten
strom auf eine einheitliche Abtastrate umgewandelt wird. Es
wird bevorzugt, in der Lage zu sein, mehrere Abtastraten zu
verarbeiten, wobei die Abtastrate des Signals bekannt sein
soll, um aus der Abtastrate Parameter für die nachfolgende
Signalflankendetektionseinheit 10c zu ermitteln.
Die Vorverarbeitungseinrichtung 10b umfaßt ferner eine Pe
gelanpassungseinheit, die allgemein eine Normierung der
Lautstärke des Musiksignals durchführt, da die Lautstärke
information des Musiksignals in der Frequenz-Zeit-
Darstellung nicht benötigt wird. Damit die Lautstärkeinfor
mationen die Bestimmung der Frequenz-Zeit-Koordinatentupel
nicht beeinflussen, wird eine Lautstärkenormierung folgen
dermaßen vorgenommen. Die Vorverarbeitungseinheit zur Nor
mierung des Pegels des Musiksignals umfaßt einen Look-
Ahead-Buffer und bestimmt daraus die mittlere Lautstärke
des Signals. Das Signal wird dann mit einem Skalierungsfak
tor multipliziert. Der Skalierungsfaktor ist das Produkt
aus einem Gewichtungsfaktor und dem Quotienten aus Vollaus
schlag und mittlerer Signallautstärke. Die Länge des Look-
Ahead-Buffers ist variabel.
Die Flankendetektionseinrichtung 10c ist angeordnet, um aus
dem Musiksignal Signalflanken spezifizierter Länge zu ext
rahieren. Die Einrichtung 10c führt vorzugsweise eine
Hough-Transformation durch.
Die Hough-Transformation ist in dem U.S.-Patent Nr.
3,069,654 von Paul V. C. Hough beschrieben. Die Hough-
Transformationdient zur Erkennung von komplexen Strukturen
und insbesondere zur automatischen Erkennung von komplexen
Linien in Photographien oder anderen Bilddarstellungen. In
ihrer Anwendung gemäß der vorliegenden Erfindung wird die
Hough-Transformation dazu verwendet, um aus dem Zeitsignal
Signalflanken mit spezifizierten zeitlichen Längen zu ext
rahieren. Eine Signalflanke wird zunächst durch ihre zeit
liche Länge spezifiziert. Im Idealfall einer Sinuswelle wä
re eine Signalflanke durch die ansteigende Flanke der Si
nusfunktion von 0 bis 90° definiert. Alternativ könnte die
Signalflanke auch durch den Anstieg der Sinus-Funktion von
-90° bis +90° spezifiziert sein.
Liegt das Zeitsignal als Folge von zeitlichen Abtastwerten
vor, so entspricht die zeitliche Länge einer Signalflanke
unter Berücksichtigung der Abtastfrequenz, mit der die Sam
ples erzeugt worden sind, einer bestimmten Anzahl von Ab
tastwerten. Die Länge einer Signalflanke kann somit ohne
weiteres durch Angabe der Anzahl der Abtastwerte, die die
Signalflanke umfassen soll, spezifiziert werden.
Darüber hinaus wird es bevorzugt, eine Signalflanke nur
dann als Signalflanke zu detektieren, wenn dieselbe stetig
ist und einen monotonen Verlauf hat, also im Falle einer
positiven Signalflanke einen monoton steigenden Verlauf
hat. Selbstverständlich können auch negative Signalflanken,
also monoton fallende Signalflanken detektiert werden.
Ein weiteres Kriterium zur Klassifizierung von Signalflan
ken besteht darin, daß eine Signalflanke nur dann als Sig
nalflanke detektiert wird, wenn sie einen bestimmten Pegel
bereich überstreicht. Um Rauschstörungen auszublenden, wird
es bevorzugt, für eine Signalflanke einen minimalen Pegel
bereich oder Amplitudenbereich vorzugeben, wobei monoton
steigende Signalflanken unterhalb dieses Bereichs nicht als
Signalflanken detektiert werden.
Die Signalflankendetektionseinheit 12 liefert somit eine
Signalflanke und den Zeitpunkt des Auftretens der Signal
flanke. Hierbei ist es unerheblich, ob als Zeitpunkt der
Signalflanke der Zeitpunkt des ersten Abtastwerts der Sig
nalflanke, der Zeitpunkt des letzten Abtastwerts der Sig
nalflanke oder der Zeitpunkt irgendeines Abtastwerts inner
halb der Signalflanke genommen wird, so lange aufeinander
folgende Signalflanken gleich behandelt werden.
Dem Flankendetektor 10c ist eine Frequenzberechnungseinheit
10d nachgeschaltet. Die Frequenzberechnungseinheit 10d ist
ausgebildet, um zwei zeitlich aufeinander folgende gleiche
oder innerhalb eines Toleranzwerts gleiche Signalflanken zu
suchen und dann die Differenz der Auftrittszeiten der Sig
nalflanken zu bilden. Der Kehrwert der Differenz ent
spricht der Frequenz, die durch die beiden Signalflanken
bestimmt ist. Wenn ein einfacher Sinuston betrachtet wird,
so ist eine Periode des Sinustons durch den zeitlichen Ab
stand zwei aufeinanderfolgender gleich langer z. B. positi
ver Signalflanken gegeben.
Es sei darauf hingewiesen, daß die Hough-Transformation ei
ne hohe Auflösung beim Detektieren von Signalflanken in dem
Musiksignal aufweist, so daß durch die Frequenzberechnungs
einheit 10d eine Frequenz-Zeit-Darstellung des Musiksignals
erhalten werden kann, die mit hoher Auflösung die zu einem
bestimmten Zeitpunkt vorhandenen Frequenzen aufweist. Eine
solche Frequenz-Zeit-Darstellung ist in Fig. 8 gezeigt. Die
Frequenz-Zeit-Darstellung hat als Abszisse eine Zeitachse,
entlang der die absolute Zeit in Sekunden aufgetragen ist,
und hat als Ordinate eine Frequenzachse, in der bei der in
Fig. 8 gewählten Darstellung die Frequenz in H2 aufgetragen
ist. Sämtliche Bildpunkte in Fig. 8 stellen Zeit-Frequenz-
Koordinatentupel dar, wie sie erhalten werden, wenn die er
sten 13 Sekunden des Werks von W. A. Mozart, Köchel-
Verzeichnis Nr. 581, einer Hough-Transformation unterzogen
werden. In den ersten etwa 5,5 Sekunden dieses Stückes fin
det sich ein relativ polyphoner Orchesterpart mit einer
großen Bandbreite von relativ gleichmäßig auftretenden Fre
quenzen zwischen etwa 600 und etwa 950 Hz. Dann, etwa ab
5,5 Sekunden, setzt eine dominante Klarinettenstimme ein,
die die Tonfolge H1, C2, Cis2, D2, H1 und A1 spielt. Die
Orchestermusik tritt gegenüber der Klarinette in den Hin
tergrund, was sich in der Frequenz-Zeit-Darstellung von
Fig. 8 dadurch bemerkbar macht, daß die hauptsächliche Ver
teilung von Frequenz-Zeit-Koordinatentupeln innerhalb eines
begrenzten Bandes 800 liegt, das auch als Pitch-Contour-
Streifenband bezeichnet wird. Eine Häufung von Koordinaten
tupeln um einen Frequenzwert deutet darauf hin, daß das Mu
siksignal einen relativ monophonen Anteil hat, wobei zu be
achten ist, daß übliche Blech/Holzblasinstrumente neben dem
Grundton eine Vielzahl von Obertönen erzeugen, wie z. B.
die Oktave, die nächste Quint, etc. Auch diese Obertöne
werden mittels der Hough-Transformation und anschließender
Frequenzberechnung durch die Einheit 10d ermittelt und tra
gen zu dem verbreiterten Pitch-Contour-Streifenband bei.
Auch das Vibrato eines Musikinstruments, das sich durch ei
ne schnelle Frequenzänderung über der Zeit des gespielten
Tons auszeichnet, trägt zu einer Verbreiterung des Pitch-
Contour-Streifenbands bei. Wird eine Folge von Sinustönen
erzeugt, so würde das Pitch-Contour-Streifenband zu einer
Pitch-Contour-Linie degenerieren.
Der Frequenzberechnungseinheit 10d ist eine Einrichtung 10e
zur Ermittlung von Häufungsgebieten nachgeschaltet. In der
Einrichtung 10e zur Ermittlung der Häufungsgebiete werden
die charakteristischen Verteilungspunktwolken (Cluster),
die sich bei der Bearbeitung von Audiodateien als stationä
res Merkmal ergeben, herausgearbeitet. Hierzu kann eine E
limination aller isolierten Frequenz-Zeit-Tupel durchge
führt werden, welche einen vorgegebenen Mindestabstand zum
nächsten räumlichen Nachbarn überschreiten. So wird eine
solche Verarbeitung dazu führen, daß nahezu sämtliche Koor
dinatentupel oberhalb des Pitch-Contour-Streifenbands 800
eliminiert werden, wodurch am Beispiel von Fig. 8 in dem
Bereich von 6 bis 12 Sekunden lediglich das Pitch-Contour-
Streifenband und einige Häufungsgebiete unterhalb des
Pitch-Contour-Streifenbands verbleiben.
Das Pitch-Contour-Streifenband 800 besteht somit aus Clu
stern bestimmter Frequenzbreite und zeitlicher Länge, wobei
diese Cluster von den gespielten Tönen hervorgerufen wer
den.
Die durch die Einrichtung 10e erzeugte Frequenz-Zeit-
Darstellung, in der die isolierten Koordinatentupel bereits
eliminiert sind, wird vorzugsweise zur Weiterverarbeitung
anhand der Vorrichtung, die in Fig. 3 gezeigt ist, verwen
det. Alternativ könnte jedoch auf die Elimination von Tu
peln außerhalb des Pitch-Contour-Streifenbands verzichtet
werden, um ein Segmentieren der Zeit-Frequenz-Darstellung
zu erreichen. Dies könnte jedoch dazu führen, daß die zu
berechnende Fitfunktion "irre geführt" wird, und Extremwer
te liefert, die nicht Tongrenzen zugeordnet sind, sondern
die aufgrund der außerhalb des Pitch-Contour-Streifenbands
liegende Koordinatentupel vorhanden sind.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden
Erfindung wird, wie es in Fig. 3 gezeigt ist, eine instru
mentenspezifische Nachbearbeitung 10f durchgeführt, um aus
dem Pitch-Contour-Streifenband 800 wenn möglich eine einzi
ge Pitch-Contour-Linie zu erzeugen. Hierzu wird das Pitch-
Contour-Streifenband einer instrumentenspezifischen Fall
analyse unterzogen. Bestimmte Instrumente, wie z. B. Oboe
oder Waldhorn, weisen charakteristische Pitch-Contour-
Streifenbänder auf. Bei der Oboe treten beispielsweise zwei
parallele Streifenbänder auf, da durch das Doppelrohrblatt
des Oboen-Mundstücks die Luftsäule zu zwei Longitudi
nalschwingungen unterschiedlicher Frequenz angeregt wird,
und die Schwingungsform zwischen diesen beiden Modi oszil
liert. Die Einrichtung 10f zur instrumentenspezifischen
Nachbearbeitung untersucht die Frequenz-Zeit-Darstellung
auf das Vorliegen charakteristischer Merkmale, und schal
tet, wenn diese Merkmale festgestellt wurden, ein instru
mentenspezifisches Nachbehandlungsverfahren ein, welches
auf beispielsweise in, einer Datenbank gespeicherte Spezia
litäten verschiedener Instrumente eingeht. Eine Möglichkeit
würde beispielsweise sein, von den zwei parallelen Strei
fenbändern der Oboe entweder das obere oder das untere zu
nehmen, oder, je nach Bedarf, einen Mittelwert oder Median
wert zwischen beiden Streifenbändern der weiteren Verarbei
tung zugrunde zu legen. Prinzipiell ist es möglich, für
einzelne Instrumente eigene Charakteristika im Frequenz-
Zeit-Diagramm festzustellen, da jedes Instrument eine typi
sche Klangfarbe aufweist, die durch die Zusammensetzung der
Oberwellen und dem zeitlichen Verlauf der Grundfrequenz und,
der Oberwellen bestimmt ist.
Idealerweise wird am Ausgang der Einrichtung 10f eine
Pitch-Contour-Linie, also ein sehr schmales Pitch-Contour-
Streifenband erhalten. Im Falle eines polyphonen Klanggemi
sches mit dominanter monophoner Stimme, wie z. B. der Kla
rinettenstimme in der rechten Hälfte von Fig. 8, wird je
doch trotz instrumentenspezifischer Nachverarbeitung keine
Pitch-Contour-Linie erreichbar sein, da auch die Hinter
grundinstrumente Töne spielen, die zu einer Verbreiterung
führen.
Im Falle einer monophonen Singstimme oder eines einzelnen
Instruments ohne Hintergrundorchester liegt jedoch nach der
instrumentenspezifischen Nachbearbeitung durch die Einrich
tung 10f eine schmale Pitch-Contour-Linie vor.
An dieser Stelle sei darauf hingewiesen, daß die Frequenz-
Zeit-Darstellung, wie sie beispielsweise hinter der Einheit
10d von Fig. 2 vorliegt, alternativ auch durch ein Fre
quenztransformationsverfahren erzeugt werden kann, wie es
beispielsweise eine schnelle Fourier-Transformation ist.
Durch eine Fourier-Transformation wird aus einem Block von
zeitlichen Abtastwertes des Musiksignals ein Kurzzeitspekt
rum erzeugt. Problematisch bei der Fourier-Transformation
ist jedoch die Tatsache der geringen Zeitauflösung, wenn
ein Block mit vielen Abtastwerten in den Frequenzbereich
transformiert wird. Ein Block mit vielen Abtastwerten ist
jedoch erforderlich, um eine gute Frequenzauflösung zu er
reichen. Wird dagegen, um eine hohe Zeitauflösung zu errei
chen, ein Block mit wenigen Abtastwerten verwendet, so wird
eine geringere Frequenzauflösung erreicht. Daraus wird er
sichtlich, daß bei einer Fourier-Transformation entweder
eine hohe Frequenzauflösung oder eine hohe Zeitauflösung
erreicht werden kann. Eine hohe Frequenz- und eine hohe
Zeitauflösung schließen sich, wenn die Fourier-
Transformation verwendet wird, gegenseitig aus. Wenn dage
gen eine Flankendetektion mittels der Hough-Transformation
und eine Frequenzberechnung, um die Frequenz-Zeit-
Darstellung zu erhalten, durchgeführt wird, ist sowohl eine
hohe Frequenzauflösung als auch eine hohe Zeitauflösung zu
erreichen. Um einen Frequenzwert bestimmen zu können, benö
tigt die Vorgehensweise mit der Hough-Transformation ledig
lich z. B. zwei ansteigende Signalflanken und daher ledig
lich zwei Periodendauern. Im Gegensatz zur Fourier-
Transformation wird die Frequenz jedoch mit hoher Auflösung
bestimmt, wobei gleichzeitig eine hohe Zeitauflösung er
reicht wird. Aus diesem Grund wird die Hough-Transformation
zur Erzeugen der Frequenz-Zeit-Darstellung gegenüber einer
Fourier-Transformation bevorzugt.
Um einerseits die Tonhöhe eines Tons zu bestimmen, und um
andererseits den Rhythmus eines Musiksignals ermitteln zu
können, muß aus der Pitch-Contour-Linie bestimmt werden,
wann ein Ton beginnt und wann derselbe endet. Hierzu wird
erfindungsgemäß eine Fitfunktion verwendet, wobei bei einem
bevorzugten Ausführungsbeispiel der vorliegenden Erfindung
eine Polynomfitfunktion mit einem Grad n verwendet wird.
Obgleich andere Fitfunktionen auf der Basis von beispiels
weise Sinusfunktionen oder Exponentialfunktionen möglich
sind, wird gemäß der vorliegenden Erfindung eine Polynom
fitfunktion mit einem Grad n bevorzugt. Wenn eine Polynom
fitfunktion verwendet wird, geben die Abstände zwischen
zwei Minima der Polynomfitfunktion einen Hinweis auf die
zeitliche Segmentierung des Musiksignals, d. h. auf die
Folge von Noten des Musiksignals. Eine solche Polynomfit
funktion 820 ist in Fig. 8 eingezeichnet. Es ist zu sehen,
daß die Polynomfitfunktion 820 zu Anfang des Musiksignals
und nach etwa 2,8 Sekunden zwei Polynomfitnullstellen 830,
832 aufweist, welche die beiden polyphonen Häufungsgebiete
am Beginn des Mozart-Stücks "einleiten". Dann geht das Mo
zart-Stück in eine monophone Gestalt über, da die Klarinet
te dominant gegenüber den begleitenden Streichern hervor
tritt und die Tonfolge h1 (Achtel), c2 (Achtel), cis2 (Ach
tel), d2 (punktierte Achtel), h1 (Sechzehntel) und a1
(Viertel) spielt. Entlang der Zeitachse sind die Minima der
Polynomfitfunktion durch die kleinen Pfeile (z. B. 834)
markiert. Obgleich es bei einem bevorzugten Ausführungsbei
spiel der vorliegenden Erfindung bevorzugt wird, nicht un
mittelbar das zeitliche Auftreten der Minima zur Segmentie
rung zu verwenden, sondern noch eine Skalierung mit einer
vorher berechneten Skalierungskennlinie durchzuführen,
führt auch bereits eine Segmentierung ohne Verwendung der
Skalierungskennlinie zu brauchbaren Ergebnissen, wie es aus
Fig. 8 zu sehen ist.
Die Koeffizienten der Polynomfitfunktion, welche einen ho
hen Grad im Bereich von über 30 aufweisen kann, werden mit
Methoden der Ausgleichsrechnung unter Verwendung der Fre
quenz-Zeit-Koordinatentupel, die in Fig. 8 gezeigt sind,
berechnet. Bei dem in Fig. 8 gezeigten Beispiel werden
hierzu sämtliche Koordinatentupel verwendet. Die Polynom
fitfunktion wird so in die Frequenz-Zeit-Darstellung ge
legt, daß die Polynomfitfunktion in einem bestimmten Ab
schnitt des Stücks, in Fig. 8 die ersten 13 Sekunden, opti
mal in die Koordinaten-Tupel gelegt wird, so daß der Ab
stand der Tupel zur Polynomfitfunktion insgesamt gerechnet
minimal wird. Dadurch können "Scheinminima" entstehen, wie
beispielsweise das Minima der Polynomfitfunktion bei etwa
10,6 Sekunden. Dieses Minima rührt daher, daß unter dem
Pitch-Contour-Streifenband Cluster sind, die bevorzugter
weise durch die Einrichtung 10e zur Ermittlung der Häu
fungsgebiete (Fig. 2) beseitigt werden.
Nachdem die Koeffizienten der Polynomfitfunktion berechnet
worden sind, können mittels einer Einrichtung 10h die Mini
ma der Polynomfitfunktion bestimmt werden. Da die Polynom
fitfunktion analytisch vorliegt, ist eine einfache Diffe
renzierung und Nullstellensuche ohne weiteres möglich. Für
andere Polynomfitfunktionen können numerische Verfahren zum
Ableiten und Nullstellensuchen eingesetzt werden.
Wie es bereits ausgeführt worden ist, wird durch die Ein
richtung 16 eine Segmentierung der Zeit-Frequenz-
Darstellung auf der Basis der ermittelten Minima vorgenom
men.
Im nachfolgenden wird darauf eingegangen, wie der Grad der
Polynomfitfunktion, deren Koeffizienten durch die Einrich
tung 12 berechnet werden, gemäß einem bevorzugten Ausfüh
rungsbeispiel bestimmt wird. Hierzu wird eine Standardton
folge mit festgelegten Standardlängen zur Kalibrierung der
erfindungsgemäßen Vorrichtung vorgespielt. Daraufhin wird
für Polynome verschiedener Grade eine Koeffizientenberech
nung und Minimaermittlung durchgeführt. Der Grad wird dann
so gewählt, daß die Summe der Differenzen zweier aufeinan
derfolgender Minima des Polynoms von der gemessenen Tonlän
ge, d. h. durch Segmentierung bestimmten Tonlänge, der vor
gespielten Standardreferenztöne minimiert wird. Ein zu geringer
Grad des Polynoms führt dazu, daß das Polynom zu
grob vorgeht und den einzelnen Tönen nicht folgen kann,
während ein zu hoher Grad des Polynoms dazu führen kann,
daß die Polynomfitfunktion zu stark "zappelt". Bei dem in
Fig. 8 gezeigten Beispiel wurde ein Polynom fünfzigster
Ordnung gewählt. Diese Polynomfitfunktion wird dann für ei
nen nachfolgenden Betrieb zugrunde gelegt, so daß die Ein
richtung zum Berechnen der Fitfunktion (12 in Fig. 1) vor
zugsweise lediglich die Koeffizienten der Polynomfitfunkti
on und nicht zusätzlich den Grad der Polynomfitfunktion be
rechnen muß, um eine Rechenzeitersparnis zu erreichen.
Der Kalibrierungslauf unter Verwendung der Tonfolge aus
Standardreferenztönen vorgegebener Länge kann ferner dazu
verwendet werden, um eine Skalierungskennlinie zu ermit
teln, die in die Einrichtung 16 zum Segmentieren einge
speist werden kann (30), um den zeitlichen Abstand der Mi
nima der Polynomfitfunktion zu skalieren. Wie es aus Fig. 8
ersichtlich ist, liegt das Minima der Polynomfitfunktion
nicht unmittelbar am Beginn des Haufens, der den Ton h1
darstellt, also nicht unmittelbar bei etwa 5,5 Sekunden,
sondern etwa bei 5,8 Sekunden. Wenn eine Polynomfitfunktion
höherer Ordnung gewählt wird, würde das Minima mehr zum
Rand des Haufens hin bewegt werden. Dies würde jedoch unter
Umständen dazu führen, daß die Polynomfitfunktion zu stark
zappelt und zu viele Scheinminima erzeugt. Daher wird es
bevorzugt, die Skalierungskennlinie zu erzeugen, die für
jeden berechneten Minimaabstand einen Skalierungsfaktor be
reit hält. Je nach Quantelung der vorgespielten Standardre
ferenztöne kann eine Skalierungskennlinie mit frei wählba
rer Auflösung erzeugt werden. Es sei darauf hingewiesen,
daß diese Kalibrierungs- bzw. Skalierungskennlinie ledig
lich einmal vor Inbetriebnahme der Vorrichtung erzeugt wer
den muß, um dann während eines Betriebs der Vorrichtung zum
Überführen eines Musiksignals in eine Noten-basierte Be
schreibung verwendet werden zu können.
Die zeitliche Segmentierung der Einrichtung 16 erfolgt so
mit durch den Polynomfit n-ter Ordnung, wobei der Grad vor
Inbetriebnahme der Vorrichtung so gewählt wird, daß die
Summe der Differenzen zweier aufeinanderfolgender Minima
des Polynoms von den gemessenen Tonlängen von Standardrefe
renztönen minimiert wird. Aus der mittleren Abweichung wird
die Skalierungskennlinie bestimmt, die den Bezug zwischen
der mit dem erfindungsgemäßen Verfahren gemessenen Tonlänge
und der tatsächlichen Tonlänge herstellt. Obgleich ohne
Skalierung bereits brauchbare Ergebnisse erhalten werden,
wie es Fig. 8 deutlich macht, kann durch die Skalierungs
kennlinie die Genauigkeit des Verfahrens noch verbessert
werden.
Im nachfolgenden wird auf Fig. 4 Bezug genommen, um einen
bevorzugten Aufbau der Einrichtung 20 zum Bestimmen der
Tonhöhe pro Segment darzustellen. Die durch die Einrichtung
16 von Fig. 3 segmentierte Zeit-Frequenz-Darstellung wird
in eine Einrichtung 20a eingespeist, um einen Mittelwert
aller Frequenz-Tupel oder aber einen Medianwert aller Koor
dinatentupel pro Segment zu bilden. Die besten Ergebnisse
ergeben sich, wenn lediglich die Koordinatentupel innerhalb
der Pitch-Contour-Linie verwendet werden. In der Einrich
tung 20a wird somit für jeden Cluster, dessen Intervall
grenzen durch die Einrichtung 16 zum Segmentieren (Fig. 3)
bestimmt worden sind, ein Pitchwert, d. h. ein Tonhöhen
wert, gebildet. Das Musiksignal liegt am Ausgang der Ein
richtung 20a somit bereits als eine Folge von absoluten
Pitchhöhen vor. Prinzipiell könnte diese Folge von absolu
ten Pitchhöhen bereits als Notenfolge bzw. Noten-basierte
Darstellung verwendet werden.
Um jedoch eine robustere Notenberechnung zu erhalten, und
um von der Stimmung der verschiedenen Instrumente etc. un
abhängig zu werden, wird anhand der Folge von Pitchwerten
am Ausgang der Einrichtung 20a die absolute Stimmung, die
durch die Angabe der Frequenzverhältnisse zweier benachbar
ter Halbtonstufen und den Referenzkammerton spezifiziert
ist, bestimmt. Hierzu wird aus den absoluten Pitchwerten
der Tonfolge ein Tonkoordinatensystem durch die Einrichtung
20b berechnet. Sämtliche Töne des Musiksignals werden ge
nommen, und es werden sämtliche Töne von den anderen Tönen
jeweils subtrahiert, um möglichst sämtliche Halbtöne der
Tonleiter, die dem Musiksignal zugrunde liegt, zu erhalten.
Beispielsweise sind die Intervallkombinationspaare für eine
Notenfolge der Länge im einzelnen: Note 1 minus Note 2, No
te 1 minus Note 3, Note 1 minus Note 4, Note 1 minus Note
5, Note 2 minus Note 3, Note 2 minus Note 4, Note 2 minus
Note 5, Note 3 minus Note 4, Note 3 minus Note 5, Note 4
minus Note 5.
Der Satz von Intervallwerten bildet ein Tonkoordinatensys
tem. Dieses wird nunmehr in eine Einrichtung 20c einge
speist, die eine Ausgleichsrechnung durchführt und das
durch die Einrichtung 20b berechnete Tonkoordinatensystem
mit Tonkoordinatensystemen vergleicht, die in einer Stim
mungen-Datenbank 40 gespeichert sind. Die Stimmung kann
gleichschwebend (Unterteilung einer Oktave in 12 gleich
große Halbtonintervalle), enharmonisch, natürlich harmo
nisch, pythagoräisch, mitteltönig, nach Huygens, zwölftei
lig mit natürlicher harmonischer Basis nach Kepler, Euler,
Mattheson, Kirnberger I + II, Malcolm, mit modifizierten
Quinten nach Silbermann, Werckmeister III, IV; V, VI, Neid
hardt I, II, III sein. Ebenso kann die Stimmung instrumen
tenspezifisch sein, bedingt durch die Bauart des Instru
ments, d. h. beispielsweise durch die Anordnung der Klappen
und Tasten etc. Die Einrichtung 20c bestimmt mittels der
Methoden der Ausgleichsrechnung die absoluten Halbtonstu
fen, indem durch Variationsrechnung die Stimmung angenommen
wird, die die Gesamtsumme der Residuen der Abstände der
Halbtonstufen von den Pitchwerten minimiert. Die absoluten
Tonstufen werden dadurch bestimmt, daß die Halbtonstufen
parallel in Schritten von 1 Hz geändert werden und diejeni
gen Halbtonstufen als absolut angenommen werden, die die
Gesamtsumme der Residuen der Abstände der Halbtonstufen von
den Pitchwerten minimieren. Für jeden Pitchwert ergibt sich
dann ein Abweichungswert von der nächstliegenden Halbton
stufe. Extremausreißer sind dadurch bestimmbar, wobei diese
Werte ausgeschlossen werden können, indem iterativ ohne die
Ausreißer die Stimmung neu berechnet wird. Am Ausgang der
Einrichtung 20c liegt somit für jeden Pitchwert eines Seg
ments eine nächstliegende Halbtonstufe der dem Musiksignal
zugrunde liegenden Stimmung vor. Durch eine Einrichtung 20d
zum Quantisieren wird der Pitchwert durch die nächstliegen
de Halbtonstufe ersetzt, so daß am Ausgang der Einrichtung
20d eine Folge von Notenhöhen sowie Informationen über die
Stimmung, die dem Musiksignal zugrunde liegt, und den Refe
renzkammerton vorliegen. Diese Informationen am Ausgang der
Einrichtung 20c könnten nunmehr ohne weiteres dazu verwen
det werden, um Notenschrift zu erzeugen, oder um eine MIDI-
Datei zu schreiben.
Es sei darauf hingewiesen, daß die Quantisierungseinrich
tung 20d bevorzugt wird, um unabhängig von dem Instrument,
das das Musiksignal liefert, zu werden. Wie es nachfolgend
anhand von Fig. 7 dargestellt werden wird, ist die Einrich
tung 20d vorzugsweise ferner ausgestaltet, um nicht nur die
absoluten quantisierten Pitchwerte auszugeben, sondern um
auch die Intervallhalbtonsprünge zwei aufeinanderfolgender
Noten zu bestimmen und diese Folge von Halbtonsprüngen dann
als Suchfolge für einen bezugnehmend auf Fig. 7 beschriebe
nen DNA-Sequenzer zu verwenden. Da das vorgespielte oder
vorgesungene Musiksignal in eine andere Tonart transponiert
sein kann, abhängig auch von der Grundstimmung des Instru
ments (z. B. B-Klarinette, Es-Saxophon), wird für die be
zugnehmend auf Fig. 7 beschriebene Referenzierung nicht die
Folge von absoluten Tonhöhen verwendet, sondern die Folge
von Differenzen, da die Differenzfrequenzen von der absolu
ten Tonhöhe unabhängig sind.
Im nachfolgenden wird anhand von Fig. 5 auf eine bevorzugte
Ausgestaltung der Einrichtung 16 zum Segmentieren der Fre
quenz-Zeit-Darstellung Bezug genommen, um den Notenrhythmus
zu erzeugen. So könnten zwar bereits die Segmentierungsinformationen
als Rhythmusinformationen verwendet werden, da
durch dieselben die Dauer eines Tons gegeben ist. Es wird
jedoch bevorzugt, die segmentierte Zeit-Frequenz-
Darstellung bzw. die aus derselben durch Abstand zwei be
nachbarter Minima bestimmten Tonlängen mittels einer Ein
richtung 16a in normierte Tonlängen zu transformieren. Die
se Normierung wird mittels einer Subjective-Duration-
Kennlinie aus der Tonlänge berechnet. So zeigen psychoakus
tische Forschungen, daß beispielsweise eine 1/8-Pause län
ger als eine 1/8-Note dauert. Solche Informationen gehen in
die Subjective-Duration-Kennlinie ein, um die normierten
Tonlängen und damit auch die normierten Pausen zu erhalten.
Die normierten Tonlängen werden dann in eine Einrichtung
16b zur Histogrammierung eingespeist. Die Einrichtung 16b
liefert eine Statistik darüber, welche Tonlängen auftreten
bzw. um welche Tonlängen Häufungen stattfinden. Auf der Ba
sis des Tonlängenhistogramms wird durch eine Einrichtung
16c eine Grundnotenlänge festgelegt, indem die Unterteilung
der Grundnotenlänge so vorgenommen wird, daß die Notenlän
gen als ganzzahlige Vielfache dieser Grundnotenlänge angeb
bar sind. So kann man zu Sechzehntel-, Achtel-, Viertel-,
Halb- oder Vollnoten gelangen. Die Einrichtung 16c basiert
darauf, daß in üblichen Musiksignalen keineswegs beliebige
Tonlängen vorgegeben sind, sondern die verwendeten Noten
längen üblicherweise in einem festen Verhältnis zueinander
stehen.
Nachdem die Grundnotenlänge festgelegt worden ist und damit
auch die zeitliche Länge von Sechzehntel-, Achtel-, Vier
tel-, Halb- oder Vollnoten werden die durch die Einrichtung
16a berechneten normierten Tonlängen in einer Einrichtung
16d dahingehend quantisiert, daß jede normierte Tonlänge
durch die nächstliegende durch die Grundnotenlänge bestimm
te Tonlänge ersetzt wird. Damit liegt eine Folge von quan
tisierten normierten Tonlängen vor, welche vorzugsweise in
einen Rhythmus-Fitter/Takt-Modul 16e eingespeist wird. Der
Rhythmus-Fitter bestimmt die Taktart, indem er berechnet,
ob mehrere Noten zusammengefaßt jeweils Gruppen von Dreiviertelnoten,
Vierviertelnoten, etc. bilden. Als Taktart
wird diejenige angenommen, bei der ein über die Anzahl der
Noten normiertes Maximum an richtigen Einträgen vorliegt.
Damit liegen Notenhöheninformationen und Notenrhythmusin
formationen an den Ausgängen 22 (Fig. 4) und 18 (Fig. 5)
vor. Diese Informationen können in einer Einrichtung 60 zur
Design-Rule-Überprüfung zusammengeführt werden. Die Ein
richtung 60 überprüft, ob die gespielten Tonfolgen nach
kompositorischen Regeln der Melodieführung aufgebaut sind.
Noten in der Folge, die nicht in das Schema passen, werden
markiert, damit diese markierten Noten von dem DNA-
Sequenzer, der anhand von Fig. 7 dargestellt wird, geson
dert behandelt werden. Die Einrichtung 16 sucht nach sinn
vollen Konstrukten und ist ausgebildet, um beispielsweise
zu erkennen, ob bestimmte Notenfolgen unspielbar sind bzw.
üblicherweise nicht auftreten.
Im nachfolgenden wird auf Fig. 7 Bezug genommen, um ein
Verfahren zum Referenzieren eines Musiksignals in einer Da
tenbank gemäß einem weiteren Aspekt der vorliegenden Erfin
dung darzustellen. Das Musiksignal liegt am Eingang bei
spielsweise als Datei 70 vor. Durch eine Einrichtung 72 zum
Überführen des Musiksignals in eine Noten-basierte Be
schreibung, die gemäß den Fig. 1 bis 6 erfindungsgemäß auf
gebaut ist, werden Notenrhythmus-Informationen und/oder No
tenhöhen-Informationen erzeugt, die eine Suchfolge 74 für
einen DNA-Sequenzer 76 bilden. Die Folge von Noten, die
durch die Suchfolge 74 dargestellt ist, wird nunmehr entwe
der hinsichtlich des Notenrhythmus und/oder hinsichtlich
der Notenhöhen mit einer Vielzahl von Noten-basierten Be
schreibungen für verschiedene Stücke (Track_1 bis Track_n)
verglichen, die in einer Notendatenbank 78 abgespeichert
sein können. Der DNA-Sequenzer, der eine Einrichtung zum
Vergleichen des Musiksignals mit einer Noten-basierten Be
schreibung der Datenbank 78 darstellt, prüft eine Überein
stimmung bzw. Ähnlichkeit. Somit kann eine Aussage hin
sichtlich des Musiksignals auf der Basis des Vergleichs getroffen
werden. Der DNA-Sequenzer 76 ist vorzugsweise mit
einer Musik-Datenbank verbunden, in der die verschiedenen
Stücke (Track_1 bis Track_n), deren Noten-basierte Be
schreibungen in der Notendatenbank gespeichert sind, als
Audiodatei abgelegt sind. Selbstverständlich können die No
tendatenbank 78 und die Datenbank 80 eine einzige Datenbank
sein. Alternativ könnte auch auf die Datenbank 80 verzich
tet werden, wenn der Notendatenbank Metainformationen über
die Stücke, deren Noten-basierten Beschreibungen abgespei
chert sind, umfassen, wie z. B. Autor, Name des Stücks, Mu
sikverlag, Pressung, etc.
Allgemein wird durch die in Fig. 7 gezeigte Vorrichtung ei
ne Referenzierung eines Lieds erreicht, bei dem ein Audio
fileabschnitt, in dem eine gesungene oder mit einem Musik
instrument gespielte Tonfolge aufgezeichnet ist, in eine
Folge von Noten überführt wird, wobei diese Folge von Noten
als Suchkriterium mit gespeicherten Notenfolgen in der No
tendatenbank verglichen wird und das Lied aus der Notenda
tenbank referenziert wird, bei dem die größte Übereinstim
mung zwischen Noteneingabefolge und Notenfolge in der Da
tenbank vorliegt. Als Noten-basierte Beschreibung wird die
MIDI-Beschreibung bevorzugt, da MIDI-Dateien für riesige
Mengen von Musikstücken bereits existieren. Alternativ
könnte die in Fig. 7 gezeigte Vorrichtung auch aufgebaut
sein, um die Noten-basierte Beschreibung selbst zu erzeu
gen, wenn die Datenbank zunächst in einem Lern-Modus be
trieben wird, der durch einen gestrichelten Pfeil 82 ange
deutet ist. Im Lern-Modus (82) würde die Einrichtung 72 zu
nächst für eine Vielzahl von Musiksignalen eine Noten-
basierte Beschreibung erzeugen und in der Notendatenbank 78
abspeichern. Erst wenn die Notendatenbank ausreichend ge
füllt ist, würde die Verbindung 82 unterbrochen werden, um
eine Referenzierung eines Musiksignals durchzuführen. Nach
dem MIDI-Dateien bereits für viele Stücke vorliegen, wird
es jedoch bevorzugt, auf bereits vorhandene Notendatenban
ken zurückzugreifen.
Insbesondere sucht der DNA-Sequenzer 76 die ähnlichste Me
lodietonfolge in der Notendatenbank, indem er die Melodie
tonfolge durch die Operationen Replace/Insert/Delete vari
iert. Jede Elementaroperation ist mit einem Kostenmaß ver
bunden. Optimal ist, wenn alle Noten ohne spezielle Opera
tionen übereinstimmen. Suboptimal ist es dagegen, wenn n
von m Werte übereinstimmen. Dadurch wird gewissermaßen au
tomatisch ein Ranking der Melodiefolgen eingeführt, und die
Ähnlichkeit des Musiksignals 70 zu einem Datenbank-
Musiksignal Track_1 . . . Track_n kann quantitativ angegeben
werden. Es wird bevorzugt, die Ähnlichkeit von beispiels
weise den besten fünf Kandidaten aus der Notendatenbank als
absteigende Liste auszugeben.
In der Rhythmusdatenbank werden die Noten als Sechzehntel-,
Achtel-, Viertel-, Halb- und Vollton abgelegt. Der DNA-
Sequenzer sucht die ähnlichste Rhythmusfolge in der Rhyth
musdatenbank, indem er die Rhythmusfolge durch die Operati
onen Replace/Insert/Delete variiert. Jede Elementaroperati
on ist ebenfalls wieder mit einem Kostenmaß verbunden. Op
timal ist, wenn alle Notenlängen übereinstimmen, suboptimal
ist es, wenn n von m Werte übereinstimmen. Dadurch wird
wieder ein Ranking der Rhythmusfolgen eingeführt, und die
Ähnlichkeit der Rhythmusfolgen kann in einer absteigenden
Liste ausgegeben werden.
Der DNA-Sequenzer umfaßt bei einem bevorzugten Ausführungs
beispiel der vorliegenden Erfindung ferner eine Melo
die/Rhythmus-Abgleicheinheit, die feststellt, welche Folgen
sowohl von der Pitchfolge als auch von der Rhythmusfolge
zusammen passen. Die Melodie/Rhythmus-Abgleicheinheit sucht
die größtmögliche Übereinstimmung beider Folgen, indem die
Zahl der Matches als Referenzkriterium angenommen wird. Op
timal ist es, wenn alle Werte übereinstimmen, suboptimal
ist es, wenn n von m Werte übereinstimmen. Dadurch wird
wieder ein Ranking eingeführt, und die Ähnlichkeit der Me
lodie/Rhythmusfolgen kann wieder in einer absteigenden Lis
te ausgegeben werden.
Der DNA-Sequenzer kann ferner angeordnet sein, um von dem
Design-Rule-Checker 60 (Fig. 6) markierte Noten entweder zu
ignorieren bzw. mit einer geringeren Gewichtung zu verse
hen, damit das Ergebnis nicht durch Ausreißer unnötig ver
fälscht wird.
Claims (32)
1. Verfahren zum Überführen eines Musiksignals in eine
Noten-basierte Beschreibung, mit folgenden Schritten:
Erzeugen (10) einer Frequenz-Zeit-Darstellung des Mu siksignals, wobei die Frequenz-Zeit-Darstellung Koor dinatentupel aufweist, wobei ein Koordinatentupel ei nen Frequenzwert und einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auftretens der zugeordneten Fre quenz in dem Musiksignal angibt;
Berechnen (12) einer Fitfunktion als Funktion der Zeit, deren Verlauf durch die Koordinatentupel der Frequenz-Zeit-Darstellung bestimmt ist;
Ermitteln (14) zumindest zwei benachbarter Extrema der Fitfunktion;
zeitliches Segmentieren (16) der Frequenz-Zeit- Darstellung auf der Basis der ermittelten Extrema, wo bei ein Segment durch zwei benachbarte Extrema der Fitfunktion begrenzt, wobei die zeitliche Länge des Segments auf eine zeitliche Länge einer diesem Segment zugeordneten Note hinweist; und
Bestimmen (20) einer Tonhöhe der Note für das Segment unter Verwendung von Koordinaten-Tupeln in dem Seg ment.
Erzeugen (10) einer Frequenz-Zeit-Darstellung des Mu siksignals, wobei die Frequenz-Zeit-Darstellung Koor dinatentupel aufweist, wobei ein Koordinatentupel ei nen Frequenzwert und einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auftretens der zugeordneten Fre quenz in dem Musiksignal angibt;
Berechnen (12) einer Fitfunktion als Funktion der Zeit, deren Verlauf durch die Koordinatentupel der Frequenz-Zeit-Darstellung bestimmt ist;
Ermitteln (14) zumindest zwei benachbarter Extrema der Fitfunktion;
zeitliches Segmentieren (16) der Frequenz-Zeit- Darstellung auf der Basis der ermittelten Extrema, wo bei ein Segment durch zwei benachbarte Extrema der Fitfunktion begrenzt, wobei die zeitliche Länge des Segments auf eine zeitliche Länge einer diesem Segment zugeordneten Note hinweist; und
Bestimmen (20) einer Tonhöhe der Note für das Segment unter Verwendung von Koordinaten-Tupeln in dem Seg ment.
2. Verfahren nach Anspruch 1, bei dem die Fitfunktion ei
ne analytische Funktion ist, wobei die Einrichtung
(14) zum Ermitteln benachbarter Extrema eine Differen
zierung der analytischen Funktion und Nullstellenbe
stimmung durchführt.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Extrem
werte, die durch die Einrichtung (14) ermittelt wer
den, Minima der Fitfunktion sind.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem die Fitfunktion eine Polynomfitfunktion des Grads
n ist, wobei n größer als 2 ist.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt des Segmentierens (16) die zeitliche
Länge einer Note unter Verwendung eines Kalibrierwerts
aus dem zeitlichen Abstand zweier benachbarter Extrem
werte bestimmt wird, wobei der Kalibrierwert das Ver
hältnis einer vorgegebenen zeitlichen Länge eines Tons
zu einem Abstand zwischen zwei Extremwerten, der für
den Ton unter Verwendung der Fitfunktion bestimmt wur
de, ist.
6. Verfahren nach Anspruch 4 oder 5, bei dem der Grad der
Fitfunktion unter Verwendung von vorgegebenen Tönen
verschiedener bekannter Längen und für Fitfunktionen
verschiedener Grade im voraus bestimmt wird, wobei der
Grad im Schritt des Berechnens (12) verwendet wird,
für den sich eine spezifizierte Übereinstimmung zwi
schen durch benachbarte Extremwerte bestimmten Tonlän
gen und bekannten Tonlängen ergibt.
7. Verfahren nach einem der Ansprüche 3 bis 6, bei dem im
Schritt des zeitlichen Segmentierens (16) nur an einem
solchen Minima der Fitfunktion segmentiert wird, des
sen Frequenzwert zu dem Frequenzwert eines benachbar
ten Maximas um mindestens einen Minima-Maxima-
Schwellenwert unterschiedlich ist, um Schein-Minima zu
eliminieren.
8. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt des Erzeugens (10) folgende Schritte
durchgeführt werden:
Detektieren (10c) des zeitlichen Auftretens von Sig nalflanken in dem Zeitsignal;
Ermitteln (10d) eines zeitlichen Abstands zwischen zwei ausgewählten detektierten Signalflanken und Be rechnen eines Frequenzwerts aus dem ermittelten zeit lichen Abstand und Zuordnen des Frequenzwerts zu einer Auftrittszeit des Frequenzwerts in dem Musiksignal, um einen Koordinatentupel aus dem Frequenzwert und der Auftrittszeit für diesen Frequenzwert zu erhalten.
Detektieren (10c) des zeitlichen Auftretens von Sig nalflanken in dem Zeitsignal;
Ermitteln (10d) eines zeitlichen Abstands zwischen zwei ausgewählten detektierten Signalflanken und Be rechnen eines Frequenzwerts aus dem ermittelten zeit lichen Abstand und Zuordnen des Frequenzwerts zu einer Auftrittszeit des Frequenzwerts in dem Musiksignal, um einen Koordinatentupel aus dem Frequenzwert und der Auftrittszeit für diesen Frequenzwert zu erhalten.
9. Verfahren nach Anspruch 8, bei dem im Schritt des De
tektierens (10c) eine Hough-Transformation durchge
führt wird.
10. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt des Erzeugens (10) die Frequenz-Zeit-
Darstellung gefiltert wird (10e), so daß ein Pitch-
Contour-Streifenband verbleibt, und bei dem im Schritt
des Berechnens (12) einer Fitfunktion lediglich die
Koordinatentupel in dem Pitch-Contour-Streifenband be
rücksichtigt werden.
11. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem das Musiksignal monophon oder polyphon mit domi
nantem monophonen Anteil ist.
12. Verfahren nach Anspruch 11, bei dem das Musiksignal
eine gesungene oder eine mit einem Instrument gespiel
te Notenfolge ist.
13. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt (10) des Erzeugens einer Frequenz-Zeit-
Darstellung eine Abtastratenumwandlung auf eine vorbe
stimmte Abtastrate durchgeführt wird (10b).
14. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt (10) des Erzeugens einer Frequenz-Zeit-
Darstellung eine Lautstärkenormierung (10b) durch Mul
tiplikation mit einem Skalierungsfaktor, der von der
mittleren Lautstärke eines Abschnitts und einer vorbe
stimmten maximalen Lautstärke abhängt, durchgeführt
wird.
15. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt des Erzeugens (10) eine instrumenten
spezifische Nachbehandlung (10f) der Frequenz-Zeit-
Darstellung durchgeführt wird, um eine instrumenten
spezifische Frequenz-Zeit-Darstellung zu erhalten, und
bei dem im Schritt des Berechnens (12) der Fitfunktion
die instrumentenspezifische Frequenz-Zeit-Darstellung
zugrunde gelegt wird.
16. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem im Schritt des Bestimmens (20) der Tonhöhe pro
Segment der Mittelwert der Koordinatentupel in einem
Segment oder der Medianwert der Koordinatentupel in
dem Segment verwendet wird, wobei der Mittelwert oder
der Medianwert in einem Segment auf einen absoluten
Tonhöhenwert der Note für das Segment hinweist.
17. Verfahren nach Anspruch 16, bei dem der Schritt des
Bestimmens (20) der Tonhöhe den Schritt des Ermittelns
(20b, 20c) einer dem Musiksignal zugrunde liegenden
Stimmung unter Verwendung der absoluten Tonhöhenwerte
von Noten für Segmente des Musiksignals aufweist.
18. Verfahren nach Anspruch 17, bei dem der Schritt des
Ermittelns der Stimmung folgende Merkmale aufweist:
Bilden (20b) einer Mehrzahl von Frequenzdifferenzen aus den Tonhöhenwerten des Musiksignals, um ein Fre quenzdifferenz-Koordinatensystem zu erhalten;
Ermitteln (20c) der absoluten Stimmung, die dem Musik signal zugrunde liegt, unter Verwendung des Frequenz differenzkoordinatensystems und unter Verwendung einer Mehrzahl von abgespeicherten Stimmungskoordinatensys temen (40) mittels einer Ausgleichsrechnung.
Bilden (20b) einer Mehrzahl von Frequenzdifferenzen aus den Tonhöhenwerten des Musiksignals, um ein Fre quenzdifferenz-Koordinatensystem zu erhalten;
Ermitteln (20c) der absoluten Stimmung, die dem Musik signal zugrunde liegt, unter Verwendung des Frequenz differenzkoordinatensystems und unter Verwendung einer Mehrzahl von abgespeicherten Stimmungskoordinatensys temen (40) mittels einer Ausgleichsrechnung.
19. Verfahren nach Anspruch 18, bei dem der Schritt des
Bestimmens (20) der Tonhöhe einen Schritt des Quanti
sierens (20d) der absoluten Tonhöhenwerte auf der Ba
sis der absoluten Stimmung und des Referenz-Kammertons
aufweist, um eine Note pro Segment zu erhalten.
20. Verfahren nach einem der vorhergehenden Ansprüche, bei
dem der Schritt des Segmentierens (16) folgenden
Schritt aufweist:
Transformieren (16a) der zeitlichen Länge von Tönen in normierte Notenlängen durch Histogrammieren (16b) der zeitlichen Länge und Festlegen (16c) einer Grundnoten länge, derart, daß die zeitlichen Längen der Töne als ganzzahlige Vielfache oder ganzzahlige Bruchteile der Grundnotenlänge angebbar sind, und Quantisieren (16c) der zeitlichen Längen der Töne auf das nächstliegende ganzzahlige Vielfache oder den nächstliegenden ganz zahligen Bruchteil, um quantisierte Notenlängen zu er halten.
Transformieren (16a) der zeitlichen Länge von Tönen in normierte Notenlängen durch Histogrammieren (16b) der zeitlichen Länge und Festlegen (16c) einer Grundnoten länge, derart, daß die zeitlichen Längen der Töne als ganzzahlige Vielfache oder ganzzahlige Bruchteile der Grundnotenlänge angebbar sind, und Quantisieren (16c) der zeitlichen Längen der Töne auf das nächstliegende ganzzahlige Vielfache oder den nächstliegenden ganz zahligen Bruchteil, um quantisierte Notenlängen zu er halten.
21. Verfahren nach Anspruch 20, bei dem der Schritt des
Segmentierens (16) ferner einen Schritt des Bestimmens
(16e) eines Takts aus den quantisierten Notenlängen
durch Untersuchen umfaßt, ob aufeinanderfolgende Noten
zu einem Taktschema gruppiert werden können.
22. Verfahren nach Anspruch 21, das ferner folgenden
Schritt aufweist:
Untersuchen (60) einer Folge von Noten, die das Musik signal darstellt, wobei jede Note durch Anfang, Länge und Tonhöhe spezifiziert ist, hinsichtlich komposito rischer Regeln und Markieren einer Note, die mit den kompositorischen Regeln nicht vereinbar ist.
Untersuchen (60) einer Folge von Noten, die das Musik signal darstellt, wobei jede Note durch Anfang, Länge und Tonhöhe spezifiziert ist, hinsichtlich komposito rischer Regeln und Markieren einer Note, die mit den kompositorischen Regeln nicht vereinbar ist.
23. Verfahren zum Referenzieren eines Musiksignals (70) in
einer Datenbank (78), die eine Noten-basierte Be
schreibung einer Mehrzahl von Datenbank-Musiksignalen
aufweist, mit folgenden Schritten:
Überführen (72) des Musiksignals in eine Noten- basierte Beschreibung (74) gemäß einem der Patentansprüche 1 bis 22;
Vergleichen (76) der Noten-basierten Beschreibung (74) des Musiksignals mit der Noten-basierten Beschreibung der Mehrzahl von Datenbank-Musiksignalen in der Daten bank (78); und
Treffen (76) einer Aussage hinsichtlich des Musiksig nals (70) auf der Basis des Schritts des Vergleichens.
Überführen (72) des Musiksignals in eine Noten- basierte Beschreibung (74) gemäß einem der Patentansprüche 1 bis 22;
Vergleichen (76) der Noten-basierten Beschreibung (74) des Musiksignals mit der Noten-basierten Beschreibung der Mehrzahl von Datenbank-Musiksignalen in der Daten bank (78); und
Treffen (76) einer Aussage hinsichtlich des Musiksig nals (70) auf der Basis des Schritts des Vergleichens.
24. Verfahren nach Anspruch 23, bei dem die Noten-basierte
Beschreibung für die Datenbank-Musiksignale ein MIDI-
Format hat, wobei ein Tonanfang und ein Tonende als
Funktion der Zeit spezifiziert sind, und bei dem vor
dem Schritt des Vergleichens folgende Schritte ausge
führt werden:
Bilden von Differenzwerten zwischen zwei benachbarten Noten des Musiksignals, um eine Differenz-Notenfolge zu erhalten;
Bilden von Differenzwerten zwischen zwei benachbarten Noten der Noten-basierten Beschreibung des Datenbank- Musiksignals, und
bei dem im Schritt des Vergleichens die Differenz- Notenfolge des Musiksignals mit der Differenz- Notenfolge eines Datenbank-Musiksignals verglichen wird.
Bilden von Differenzwerten zwischen zwei benachbarten Noten des Musiksignals, um eine Differenz-Notenfolge zu erhalten;
Bilden von Differenzwerten zwischen zwei benachbarten Noten der Noten-basierten Beschreibung des Datenbank- Musiksignals, und
bei dem im Schritt des Vergleichens die Differenz- Notenfolge des Musiksignals mit der Differenz- Notenfolge eines Datenbank-Musiksignals verglichen wird.
25. Verfahren nach Anspruch 23 oder 24, bei dem der
Schritt des Vergleichens (76) unter Verwendung eines
DNA-Sequenzing-Algorithmus und insbesondere unter Ver
wendung des Boyer-Moore-Algorithmus durchgeführt wird.
26. Verfahren nach einem der Ansprüche 23 bis 25, bei dem
der Schritt des Treffens einer Aussage das Feststellen
der Identität des Musiksignals (70) und, eines Daten
bank-Musiksignals aufweist, falls die Noten-basierte
Beschreibung des Datenbank-Musiksignals und die Noten-
basierte Beschreibung des Musiksignals identisch sind.
27. Verfahren nach einem der Ansprüche 23 bis 25, bei dem
der Schritt des Treffens einer Aussage hinsichtlich
des Musiksignals eine Ähnlichkeit zwischen dem Musik
signal (70) und einem Datenbank-Musiksignal fest
stellt, wenn nicht alle Tonhöhen und/oder Tonlängen
des Musiksignals mit Tonhöhen und/oder Tonlängen des
Datenbank-Musiksignals übereinstimmen.
28. Verfahren nach einem der Ansprüche 23 bis 27, bei dem
die Noten-basierte Beschreibung eine Rhythmusbeschrei
bung aufweist, und bei dem im Schritt des Vergleichens
(76) ein Vergleich der Rhythmen des Musiksignals und
des Datenbank-Musiksignals durchgeführt wird.
29. Verfahren nach einem der Ansprüche 23 bis 28, bei dem
die Noten-basierte Beschreibung eine Tonhöhenbeschrei
bung aufweist, und bei dem im Schritt des Vergleichens
(76) die Tonhöhen des Musiksignals mit den Tonhöhen
eines Datenbank-Musiksignals verglichen werden.
30. Verfahren nach einem der Ansprüche 25 bis 29, bei dem
im Schritt des Vergleichens (26) Einfügen-, Ersetzen-
oder Löschen-Operationen mit der Noten-basierten Be
schreibung (74) des Musiksignals (70) durchgeführt
werden, und bei dem im Schritt des Treffens einer Aus
sage eine Ähnlichkeit zwischen dem Musiksignal (70)
und einem Datenbank-Musiksignal auf der Basis der An
zahl von Einfügen-, Ersetzen- oder Löschen-Operationen
festgestellt wird, die erforderlich sind, um eine
größtmögliche Übereinstimmung zwischen der Noten-
basierten Beschreibung (74) des Musiksignals (70) und
der Noten-basierten Beschreibung eines Datenbank-
Musiksignals zu erreichen.
31. Vorrichtung zum Überführen eines Musiksignals in eine
Noten-basierte Beschreibung, mit folgenden Merkmalen:
einer Einrichtung zum Erzeugen (10) einer Frequenz- Zeit-Darstellung des Musiksignals, wobei die Frequenz- Zeit-Darstellung Koordinatentupel aufweist, wobei ein Koordinatentupel einen Frequenzwert und einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auftretens der zugeordneten Frequenz in dem Musiksignal angibt;
einer Einrichtung zum Berechnen (12) einer Fitfunktion als Funktion der Zeit, deren Verlauf durch die Koordi natentupel der Frequenz-Zeit-Darstellung bestimmt ist;
einer Einrichtung zum Ermitteln (14) zumindest zwei benachbarter Extrema der Fitfunktion;
einer Einrichtung zum zeitlichen Segmentieren (16) der Frequenz-Zeit-Darstellung auf der Basis der ermittel ten Extrema, wobei ein Segment durch zwei benachbarte Extrema der Fitfunktion begrenzt, wobei die zeitliche Länge des Segments auf eine zeitliche Länge einer die sem Segment zugeordneten Note hinweist; und
einer Einrichtung zum Bestimmen (20) einer Tonhöhe der Note für das Segment unter Verwendung von Koordinaten- Tupeln in dem Segment.
einer Einrichtung zum Erzeugen (10) einer Frequenz- Zeit-Darstellung des Musiksignals, wobei die Frequenz- Zeit-Darstellung Koordinatentupel aufweist, wobei ein Koordinatentupel einen Frequenzwert und einen Zeitwert umfaßt, wobei der Zeitwert die Zeit des Auftretens der zugeordneten Frequenz in dem Musiksignal angibt;
einer Einrichtung zum Berechnen (12) einer Fitfunktion als Funktion der Zeit, deren Verlauf durch die Koordi natentupel der Frequenz-Zeit-Darstellung bestimmt ist;
einer Einrichtung zum Ermitteln (14) zumindest zwei benachbarter Extrema der Fitfunktion;
einer Einrichtung zum zeitlichen Segmentieren (16) der Frequenz-Zeit-Darstellung auf der Basis der ermittel ten Extrema, wobei ein Segment durch zwei benachbarte Extrema der Fitfunktion begrenzt, wobei die zeitliche Länge des Segments auf eine zeitliche Länge einer die sem Segment zugeordneten Note hinweist; und
einer Einrichtung zum Bestimmen (20) einer Tonhöhe der Note für das Segment unter Verwendung von Koordinaten- Tupeln in dem Segment.
32. Vorrichtung zum Referenzieren eines Musiksignal (70)
in einer Datenbank (78), die eine Noten-basierte Be
schreibung einer Mehrzahl von Datenbank-Musiksignalen
aufweist, mit folgenden Merkmalen:
einer Einrichtung zum Überführen (72) des Musiksignals in eine Noten-basierte Beschreibung (74) durch ein Verfahren gemäß einem der Patentansprüche 1 bis 22;
einer Einrichtung zum Vergleichen (76) der Noten- basierten Beschreibung (74) des Musiksignals mit der Noten-basierten Beschreibung der Mehrzahl von Daten bank-Musiksignalen in der Datenbank (78); und
einer Einrichtung zum Treffen (76) einer Aussage hin sichtlich des Musiksignals (70) auf der Basis des Schritts des Vergleichens.
einer Einrichtung zum Überführen (72) des Musiksignals in eine Noten-basierte Beschreibung (74) durch ein Verfahren gemäß einem der Patentansprüche 1 bis 22;
einer Einrichtung zum Vergleichen (76) der Noten- basierten Beschreibung (74) des Musiksignals mit der Noten-basierten Beschreibung der Mehrzahl von Daten bank-Musiksignalen in der Datenbank (78); und
einer Einrichtung zum Treffen (76) einer Aussage hin sichtlich des Musiksignals (70) auf der Basis des Schritts des Vergleichens.
Priority Applications (8)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10117870A DE10117870B4 (de) | 2001-04-10 | 2001-04-10 | Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank |
| EP02730100A EP1377960B1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
| JP2002581512A JP3964792B2 (ja) | 2001-04-10 | 2002-04-04 | 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置 |
| PCT/EP2002/003736 WO2002084641A1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
| HK04103410.2A HK1060428B (en) | 2001-04-10 | 2002-04-04 | Method for converting a music signal into a note-based description and for referencing a music signal in a data bank |
| DE50201624T DE50201624D1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
| AT02730100T ATE283530T1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
| US10/473,462 US7064262B2 (en) | 2001-04-10 | 2002-04-04 | Method for converting a music signal into a note-based description and for referencing a music signal in a data bank |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE10117870A DE10117870B4 (de) | 2001-04-10 | 2001-04-10 | Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE10117870A1 true DE10117870A1 (de) | 2002-10-31 |
| DE10117870B4 DE10117870B4 (de) | 2005-06-09 |
Family
ID=7681082
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE10117870A Expired - Fee Related DE10117870B4 (de) | 2001-04-10 | 2001-04-10 | Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank |
| DE50201624T Expired - Lifetime DE50201624D1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE50201624T Expired - Lifetime DE50201624D1 (de) | 2001-04-10 | 2002-04-04 | Verfahren zum überführen eines musiksignals in eine noten-basierte beschreibung und zum referenzieren eines musiksignals in einer datenbank |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US7064262B2 (de) |
| EP (1) | EP1377960B1 (de) |
| JP (1) | JP3964792B2 (de) |
| AT (1) | ATE283530T1 (de) |
| DE (2) | DE10117870B4 (de) |
| WO (1) | WO2002084641A1 (de) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102006062061A1 (de) | 2006-12-29 | 2008-07-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, Verfahren und Computerprogramm zum Bestimmen einer Position basierend auf einem Kamerabild von einer Kamera |
| WO2008101126A1 (en) * | 2007-02-14 | 2008-08-21 | Museami, Inc. | Web portal for distributed audio file editing |
| US7667125B2 (en) | 2007-02-01 | 2010-02-23 | Museami, Inc. | Music transcription |
| US8494257B2 (en) | 2008-02-13 | 2013-07-23 | Museami, Inc. | Music score deconstruction |
Families Citing this family (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE10232916B4 (de) * | 2002-07-19 | 2008-08-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals |
| US7247782B2 (en) * | 2003-01-08 | 2007-07-24 | Hennings Mark R | Genetic music |
| AU2003304560A1 (en) * | 2003-11-21 | 2005-06-08 | Agency For Science, Technology And Research | Method and apparatus for melody representation and matching for music retrieval |
| DE102004049517B4 (de) * | 2004-10-11 | 2009-07-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Extraktion einer einem Audiosignal zu Grunde liegenden Melodie |
| DE102004049457B3 (de) * | 2004-10-11 | 2006-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie |
| DE102004049478A1 (de) * | 2004-10-11 | 2006-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments |
| DE102004049477A1 (de) * | 2004-10-11 | 2006-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur harmonischen Aufbereitung einer Melodielinie |
| US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
| US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
| US20060293089A1 (en) * | 2005-06-22 | 2006-12-28 | Magix Ag | System and method for automatic creation of digitally enhanced ringtones for cellphones |
| KR100735444B1 (ko) * | 2005-07-18 | 2007-07-04 | 삼성전자주식회사 | 오디오데이터 및 악보이미지 추출방법 |
| JP2008500559A (ja) * | 2005-10-19 | 2008-01-10 | ▲調▼頻文化事▲いえ▼有限公司 | 音声周波数調整方法 |
| US7467982B2 (en) * | 2005-11-17 | 2008-12-23 | Research In Motion Limited | Conversion from note-based audio format to PCM-based audio format |
| US20070276668A1 (en) * | 2006-05-23 | 2007-11-29 | Creative Technology Ltd | Method and apparatus for accessing an audio file from a collection of audio files using tonal matching |
| AU2007252225A1 (en) * | 2006-05-24 | 2007-11-29 | National Ict Australia Limited | Selectivity estimation |
| US20090288547A1 (en) * | 2007-02-05 | 2009-11-26 | U.S. Music Corporation | Method and Apparatus for Tuning a Stringed Instrument |
| US8084677B2 (en) * | 2007-12-31 | 2011-12-27 | Orpheus Media Research, Llc | System and method for adaptive melodic segmentation and motivic identification |
| JP4862003B2 (ja) * | 2008-02-28 | 2012-01-25 | Kddi株式会社 | 再生順序決定装置、楽曲再生システムおよび再生順序決定方法 |
| DE102008013172B4 (de) | 2008-03-07 | 2010-07-08 | Neubäcker, Peter | Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen |
| US8119897B2 (en) * | 2008-07-29 | 2012-02-21 | Teie David Ernest | Process of and apparatus for music arrangements adapted from animal noises to form species-specific music |
| JP5728888B2 (ja) * | 2010-10-29 | 2015-06-03 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
| JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
| US20120294457A1 (en) * | 2011-05-17 | 2012-11-22 | Fender Musical Instruments Corporation | Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function |
| US20180144729A1 (en) * | 2016-11-23 | 2018-05-24 | Nicechart, Inc. | Systems and methods for simplifying music rhythms |
| CN115472143B (zh) * | 2022-09-13 | 2024-10-01 | 天津大学 | 一种调性音乐音符起始点检测与音符解码方法及装置 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0331107A2 (de) * | 1988-02-29 | 1989-09-06 | Nec Home Electronics, Ltd. | Verfahren und Gerät zur Musiktranskribierung |
| DE3415792C2 (de) * | 1983-04-27 | 1991-05-23 | Victor Company Of Japan, Ltd., Yokohama, Kanagawa, Jp | |
| US5874686A (en) * | 1995-10-31 | 1999-02-23 | Ghias; Asif U. | Apparatus and method for searching a melody |
| US6124542A (en) * | 1999-07-08 | 2000-09-26 | Ati International Srl | Wavefunction sound sampling synthesis |
| WO2001004870A1 (en) * | 1999-07-08 | 2001-01-18 | Constantin Papaodysseus | Method of automatic recognition of musical compositions and sound signals |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3069654A (en) * | 1960-03-25 | 1962-12-18 | Paul V C Hough | Method and means for recognizing complex patterns |
| US5210820A (en) * | 1990-05-02 | 1993-05-11 | Broadcast Data Systems Limited Partnership | Signal recognition system and method |
| EP0944033B1 (de) * | 1998-03-19 | 2003-05-28 | Tomonari Sonoda | Vorrichtung und Verfahren zum Wiederauffinden von Melodien |
| US6438530B1 (en) | 1999-12-29 | 2002-08-20 | Pitney Bowes Inc. | Software based stamp dispenser |
| US20070163425A1 (en) * | 2000-03-13 | 2007-07-19 | Tsui Chi-Ying | Melody retrieval system |
-
2001
- 2001-04-10 DE DE10117870A patent/DE10117870B4/de not_active Expired - Fee Related
-
2002
- 2002-04-04 WO PCT/EP2002/003736 patent/WO2002084641A1/de not_active Ceased
- 2002-04-04 DE DE50201624T patent/DE50201624D1/de not_active Expired - Lifetime
- 2002-04-04 US US10/473,462 patent/US7064262B2/en not_active Expired - Lifetime
- 2002-04-04 AT AT02730100T patent/ATE283530T1/de not_active IP Right Cessation
- 2002-04-04 EP EP02730100A patent/EP1377960B1/de not_active Expired - Lifetime
- 2002-04-04 JP JP2002581512A patent/JP3964792B2/ja not_active Expired - Fee Related
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE3415792C2 (de) * | 1983-04-27 | 1991-05-23 | Victor Company Of Japan, Ltd., Yokohama, Kanagawa, Jp | |
| EP0331107A2 (de) * | 1988-02-29 | 1989-09-06 | Nec Home Electronics, Ltd. | Verfahren und Gerät zur Musiktranskribierung |
| US5874686A (en) * | 1995-10-31 | 1999-02-23 | Ghias; Asif U. | Apparatus and method for searching a melody |
| US6124542A (en) * | 1999-07-08 | 2000-09-26 | Ati International Srl | Wavefunction sound sampling synthesis |
| WO2001004870A1 (en) * | 1999-07-08 | 2001-01-18 | Constantin Papaodysseus | Method of automatic recognition of musical compositions and sound signals |
Cited By (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102006062061A1 (de) | 2006-12-29 | 2008-07-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung, Verfahren und Computerprogramm zum Bestimmen einer Position basierend auf einem Kamerabild von einer Kamera |
| US8121350B2 (en) | 2006-12-29 | 2012-02-21 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for determining a position on the basis of a camera image from a camera |
| US7667125B2 (en) | 2007-02-01 | 2010-02-23 | Museami, Inc. | Music transcription |
| US7884276B2 (en) | 2007-02-01 | 2011-02-08 | Museami, Inc. | Music transcription |
| US7982119B2 (en) | 2007-02-01 | 2011-07-19 | Museami, Inc. | Music transcription |
| US8471135B2 (en) | 2007-02-01 | 2013-06-25 | Museami, Inc. | Music transcription |
| WO2008101126A1 (en) * | 2007-02-14 | 2008-08-21 | Museami, Inc. | Web portal for distributed audio file editing |
| US7714222B2 (en) | 2007-02-14 | 2010-05-11 | Museami, Inc. | Collaborative music creation |
| US7838755B2 (en) | 2007-02-14 | 2010-11-23 | Museami, Inc. | Music-based search engine |
| US8035020B2 (en) | 2007-02-14 | 2011-10-11 | Museami, Inc. | Collaborative music creation |
| US8494257B2 (en) | 2008-02-13 | 2013-07-23 | Museami, Inc. | Music score deconstruction |
Also Published As
| Publication number | Publication date |
|---|---|
| EP1377960A1 (de) | 2004-01-07 |
| ATE283530T1 (de) | 2004-12-15 |
| US20040060424A1 (en) | 2004-04-01 |
| US7064262B2 (en) | 2006-06-20 |
| DE50201624D1 (de) | 2004-12-30 |
| JP3964792B2 (ja) | 2007-08-22 |
| WO2002084641A1 (de) | 2002-10-24 |
| HK1060428A1 (en) | 2004-08-06 |
| DE10117870B4 (de) | 2005-06-09 |
| EP1377960B1 (de) | 2004-11-24 |
| JP2004526203A (ja) | 2004-08-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE10117870B4 (de) | Verfahren und Vorrichtung zum Überführen eines Musiksignals in eine Noten-basierte Beschreibung und Verfahren und Vorrichtung zum Referenzieren eines Musiksignals in einer Datenbank | |
| EP2099024B1 (de) | Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen | |
| DE69907498T2 (de) | Verfahren zur schnellen erfassung der tonhöhe | |
| EP1368805B1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
| DE10232916B4 (de) | Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals | |
| WO2003009273A1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
| EP1388145B1 (de) | Vorrichtung und verfahren zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen | |
| DE10157454B4 (de) | Verfahren und Vorrichtung zum Erzeugen einer Kennung für ein Audiosignal, Verfahren und Vorrichtung zum Aufbauen einer Instrumentendatenbank und Verfahren und Vorrichtung zum Bestimmen der Art eines Instruments | |
| WO2005122135A1 (de) | Vorrichtung und verfahren zum umsetzen eines informationssignals in eine spektraldarstellung mit variabler auflösung | |
| EP1377924B1 (de) | VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals | |
| DE68911858T2 (de) | Verfahren und Vorrichtung zum automatischen Transkribieren. | |
| Ciamarone et al. | Automatic Dastgah recognition using Markov models | |
| Holzapfel et al. | Improving tempo-sensitive and tempo-robust descriptors for rhythmic similarity | |
| WO2006005448A1 (de) | Verfahren und vorrichtung zur rhythmischen aufbereitung von audiosignalen | |
| Wegener et al. | On the robustness of audio features for musical instrument classification | |
| Shelke et al. | An effective feature calculation for analysis & classification of Indian musical instruments using timbre measurement | |
| Pérez Fernández et al. | A comparison of pitch chroma extraction algorithms | |
| WO2005114650A1 (de) | Vorrichtung und verfahren zum charakterisieren eines tonsignals | |
| WO2005114651A1 (de) | Vorrichtung und verfahren zum analysieren eines informationssignals | |
| HK1060428B (en) | Method for converting a music signal into a note-based description and for referencing a music signal in a data bank |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| OP8 | Request for examination as to paragraph 44 patent law | ||
| 8364 | No opposition during term of opposition | ||
| R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |
Effective date: 20111102 |