Disclosed is an audio signal encoding/decoding method that uses an encoding downmix strategy applied at an encoder that is different than a decoding re-mix/upmix strategy applied at a decoder. Based on the type of downmix coding scheme, the method comprises: computing input downmixing gains to be applied to the input audio signal to construct a primary downmix channel; determining downmix scaling gains to scale the primary downmix channel; generating prediction gains based on the input audio signal, the input downmixing gains and the downmix scaling gains; determining residual channel(s) from the side channels by using the primary downmix channel and the prediction gains to generate side channel predictions and subtracting the side channel predictions from the side channels; determining decorrelation gains based on energy in the residual channels; encoding the primary downmix channel, the residual channel(s), the prediction gains and the decorrelation gains; and sending the bitstream to a decoder.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/083 - Détermination ou codage de la fonction d'excitation; Détermination ou codage des paramètres de prédiction à long terme la fonction d’excitation étant un gain d’excitation
H04S 7/00 - Dispositions pour l'indication; Dispositions pour la commande, p.ex. pour la commande de l'équilibrage
2.
END-TO-END GENERAL AUDIO SYNTHESIS WITH GENERATIVE NETWORKS
An aspect of the present disclosure relates to a neural network-based system for general audio synthesis comprising a generator configured to generate synthesized audio. The generator comprising an encoder configured to transform an input audio signal with a first rate into a sequence of hidden features with a second rate, lower than the first rate and process the hidden features to aggregate temporal information. The generator comprises a decoder configured to convert the hidden features back to the first rate by upsampling to form a processed signal and output a synthesized audio signal based on the processed signal as the generated synthesized audio.
G10L 21/045 - Compression ou expansion temporelles par changement de la vitesse en réduisant ou en insérant une forme d’onde
G10L 25/30 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse utilisant des réseaux neuronaux
G10L 13/02 - Procédés d'élaboration de parole synthétique; Synthétiseurs de parole
G10L 21/00 - Traitement du signal de parole ou de voix pour produire un autre signal audible ou non audible, p.ex. visuel ou tactile, afin de modifier sa qualité ou son intelligibilité
3.
METHODS, APPARATUS AND SYSTEMS FOR ENCODING AND DECODING OF MULTI-CHANNEL AMBISONICS AUDIO DATA
Conventional audio compression technologies perform a standardized signal transformation, independent of the type of the content. Multi-channel signals are decomposed into their signal components, subsequently quantized and encoded. This is disadvantageous due to lack of knowledge on the characteristics of scene composition, especially for e.g. multi-channel audio or Higher-Order Ambisonics (HOA) content. A method for decoding an encoded bitstream of multi-channel audio data and associated metadata is provided, including transforming the first Ambisonics format of the multi-channel audio data to a second Ambisonics format representation of the multi-channel audio data, wherein the transforming maps the first Ambisonics format of the multi-channel audio data into the second Ambisonics format representation of the multi-channel audio data. A method for encoding multi-channel audio data that includes audio data in an Ambisonics format, wherein the encoding includes transforming the audio data in an Ambisonics format into encoded multi-channel audio data is also provided.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
H04S 3/00 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques
4.
CONVERSION OF SCENE BASED AUDIO REPRESENTATIONS TO OBJECT BASED AUDIO REPRESENTATIONS
A mixing matrix, suitable for converting a scene-based audio (SBA) input signal to an object-based audio (OBA) signal, is constructed so that the resulting OBA signal is composed of object signals with amplitudes that are biased according to amplitude preference coefficients. The amplitude preference coefficients are chosen to place dominant spatial audio objects in a fewer number of output object channels, to provide a more discrete OBA rendering of the SBA input signal.
H04S 3/02 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques du type matriciel, c. à d. dans lesquels les signaux d'entrée sont combinés algébriquement, p.ex. après avoir été déphasés les uns par rapport aux autres
Methods and systems for canvas size scalability across the same or different bitstream layers of a video coded bitstream are described. Offset parameters for a conformance window, a reference region of interest (ROI) in a reference layer, and a current ROI in a current layer are received. The width and height of a current ROI and a reference ROI are computed based on the offset parameters and they are used to generate a width and height scaling factor to be used by a reference picture resampling unit to generate an output picture based on the current ROI and the reference ROI.
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p.ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine spatial
6.
METHOD, APPARATUS, AND MEDIUM FOR ENCODING AND DECODING OF AUDIO BITSTREAMS AND ASSOCIATED RETURN CHANNEL INFORMATION
A method, performed by a device with one or more microphones, for generating an encoded bitstream, the method comprising, capturing, by the one or more microphones, one or more audio signals, analyzing the captured audio signals to determine presence of a wake word, upon detecting presence of a wake word, setting a flag to indicate a speech recognition task is to be performed on the captured audio signals, encoding the captured audio signals, assembling the encoded audio signals and the flag into the encoded bitstream.
G10L 15/22 - Procédures utilisées pendant le processus de reconnaissance de la parole, p.ex. dialogue homme-machine
G10L 15/30 - Reconnaissance distribuée, p.ex. dans les systèmes client-serveur, pour les applications en téléphonie mobile ou réseaux
G10L 25/18 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant l’information spectrale de chaque sous-bande
G10L 25/24 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant le cepstre
7.
METHODS, APPARATUS AND SYSTEMS FOR PERFORMING PERCEPTUALLY MOTIVATED GAIN CONTROL
Systems, methods, and computer program products for performing gain control on audio signals are provided. An automatic gain control system obtains a downmixed audio signal of an audio signal to be encoded. The system determines that an overload condition has occurred for a frame of the downmixed audio signal. Responsive to the overload condition, the system determines a gain transition function for the frame, wherein the gain transition function is based at least on a gain transition step size. The system applies the gain transition function to the frame to generate a gain adjusted frame of the downmixed audio signal. The system provides the gain adjusted frame and information indicative of the gain transition function for encoding by an encoder.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
8.
METHOD, APPARATUS, AND MEDIUM FOR ENCODING AND DECODING OF AUDIO BITSTREAMS WITH PARAMETRIC FLEXIBLE RENDERING CONFIGURATION DATA
A method for generating an encoded bitstream from an audio program comprising a plurality of audio signals, the method comprising receiving, for each of the plurality of audio signals, information indicating a playback device with which the respective audio signal is associated, receiving, for each playback device, information indicating at least one of a delay, a gain, and an equalization curve associated with the respective playback device, determining, from the plurality of audio signals, a group of two or more related audio signals, applying one or more joint-coding tools to the two or more related audio signals of the group to obtain jointly-coded audio signals, and combining the jointly-coded audio signals, an indication of the playback devices with which the jointly-coded audio signals are associated, and indications of the delay and the gain associated with the respective playback devices with which the jointly-coded audio signals are associated, into an independent block of an encoded bitstream.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
A method for generating a frame of an encoded bitstream of an audio program comprising a plurality of audio signals, wherein the frame comprises two or more independent blocks of encoded data, the method comprising receiving, for one or more of the plurality of audio signals, information indicating a playback device with which the one or more audio signals are associated, receiving, for the indicated playback device, information indicating one or more additional associated playback devices, receiving one or more audio signals associated with the indicated one or more additional associated playback devices, encoding the one or more audio signals associated with the playback device, encoding the one or more audio signals associated with the indicated one or more additional associated playback devices, combining the one or more encoded audio signals associated with the playback device and signaling information indicating the one or more additional associated playback devices into a first independent block, combining the one or more encoded audio signals associated with the one or more additional associated playback devices into one or more additional independent blocks, and combining the first independent block and the one or more additional independent blocks into the frame of the encoded bitstream.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
Methods, systems, and devices implement intra-prediction for hexagonally-sampled compression and decompression of videos and images having a regular grid of hexagonally-shaped pixels. For encoding, a prediction unit (PU) shape is selected at a sequence level from the group consisting of parallelogram, zigzag-square, hexagonal super-pixel, a rectangular zigzag and an arrow, and the hexagonally-sampled image is divided into regions based on the PU shape. For each region: a prediction mode and a PU size are determined; reference pixels are determined for each predicted pixel in the PU shape based on the prediction mode; a weighted factor is determined for each of the reference pixels based on a distance between the reference pixel and the predicted pixel; and a predicted value of each of the predicted pixels in the PU shape is determined using the corresponding reference pixels and the weighted factors.
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p.ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/119 - Aspects de subdivision adaptative, p.ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/159 - Type de prédiction, p.ex. prédiction intra-trame, inter-trame ou de trame bidirectionnelle
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
11.
REPRESENTING SPATIAL AUDIO BY MEANS OF AN AUDIO SIGNAL AND ASSOCIATED METADATA
There is provided encoding and decoding methods for representing spatial audio that is a combination of directional sound and diffuse sound. An exemplary encoding method includes inter alia creating a single- or multi-channel downmix audio signal by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing the spatial audio; determining first metadata parameters associated with the downmix audio signal, wherein the first metadata parameters are indicative of one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; and combining the created downmix audio signal and the first metadata parameters into a representation of the spatial audio.
H04S 3/02 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques du type matriciel, c. à d. dans lesquels les signaux d'entrée sont combinés algébriquement, p.ex. après avoir été déphasés les uns par rapport aux autres
12.
FREQUENCY DOMAIN MULTIPLEXING OF SPATIAL AUDIO FOR MULTIPLE LISTENER SWEET SPOTS
Some methods involve receiving, by a control system that is configured for implementing a plurality of renderers, audio data and listening configuration data for a plurality of listening configurations, each listening configuration of the plurality of listening configurations corresponding to a listening position and a listening orientation in an audio environment, and rendering, by each renderer and according to the listening configuration data, the received audio data to obtain a set of renderer-specific loudspeaker feed signals for a corresponding listening configuration. Each renderer may be configured to render the audio data for a different listening configuration. Some such methods may involve decomposing each set of renderer-specific loudspeaker feed signals into a renderer-specific set of frequency bands and combining the renderer-specific frequency bands of each renderer to produce an output set of loudspeaker feed signals.
Some examples involve rendering received audio data by determining a first relative activation of a set of loudspeakers in an environment according to a first rendering configuration corresponding to a first set of speaker activations, receiving a first rendering transition indication indicating a transition from the first rendering configuration to a second rendering configuration and determining a second set of speaker activations corresponding to a simplified version of the second rendering configuration. Some examples involve performing a first transition from the first set of speaker activations to the second set of speaker activations, determining a third set of speaker activations corresponding to a complete version of the second rendering configuration and performing a second transition to the third set of speaker activations without requiring completion of the first transition.
A first image and a second image of different dynamic ranges are derived from the same source image. Based on a chroma sampling format of the first image, it is determined whether edge preserving filtering is to be used to generate chroma upsampled image data in a reconstructed image. If so, image metadata for performing the edge preserving filtering is generated. The first image, the second image and the image metadata are encoded into an image data container to enable a recipient device to generate the reconstructed image.
H04N 19/184 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant des bits, p.ex. de flux vidéo compressé
G06V 10/25 - Détermination d’une région d’intérêt [ROI] ou d’un volume d’intérêt [VOI]
H04N 19/117 - Filtres, p.ex. pour le pré-traitement ou le post-traitement
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/59 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage spatial ou une interpolation spatiale, p.ex. modification de la taille de l’image ou de la résolution
H04N 19/98 - Codage de plage-dynamique adaptative [ADRC]
An multi-input, multi-output audio process is implemented as a linear system for use in an audio filterbank to convert a set of frequency-domain input audio signals into a set of frequency-domain output audio signals. A transfer function from one input to one output is defined as a frequency dependent gain function. In some implementations, the transfer function includes a direct component that is substantially defined as a frequency dependent gain, and one or more decorrelated components that have frequency-varying group phase response. The transfer function is formed from a set of sub-band functions, with each sub-band function being formed from a set of corresponding component transfer functions including direct component and one or more decorrelated components.
H04S 3/02 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques du type matriciel, c. à d. dans lesquels les signaux d'entrée sont combinés algébriquement, p.ex. après avoir été déphasés les uns par rapport aux autres
H04S 5/00 - Systèmes pseudo-stéréophoniques, p.ex. dans lesquels les signaux d'un canal supplémentaire sont dérivés du signal monophonique par déphasage, retardement ou réverbération
16.
NEURAL SEGMENTATION FIELDS FOR REPRESENTING THREE-DIMENSIONAL SCENES
Methods and apparatus for rendering segmentation maps of a 3D scene using machine learning. According to an example embodiment, a method of training a neural network to render segmentation maps corresponding to arbitrarily selected views of a 3D scene comprises: computing color texture and volume density corresponding to a selected training view of the 3D scene, the computing being performed using a 3D representation pretrained to represent the 3D scene; generating a predicted segmentation map corresponding to the selected training view of the 3D scene, the generating being performed using the neural network based on said color texture and said volume density; and adjusting configuration parameters of network nodes of the neural network based on a loss function configured to receive, as a first input thereof, a ground-truth segmentation map corresponding to the selected training view and further configured to receive, as a second input thereof, the predicted segmentation map.
Some methods involve receiving, by a control system configured for implementing a plurality of Tenderers, audio data and listening configuration data for a plurality of listening configurations, each listening configuration of the plurality of listening configurations corresponding to a listening position and a listening orientation in an audio environment, and rendering, by each Tenderer and according to the listening configuration data, the received audio data to obtain a set of Tenderer-specific loudspeaker feed signals for a corresponding listening configuration. Each Tenderer may be configured to render the audio data for a different listening configuration. Some such methods may involve decomposing each set of renderer-specific loudspeaker feed signals into a Tenderer-specific set of frequency bands and combining the renderer-specific frequency bands of each Tenderer to produce an output set of loudspeaker feed signals. Some such methods may involve outputting the output set of loudspeaker feed signals to a plurality of loudspeakers.
Embodiments are disclosed for spatial noise filling in multi-channel codecs. In an embodiment, a method of regenerating background noise ambience in a multi-channel codec by generating spatial hole filling noise comprises: computing noise estimates based on a primary downmix channel generated from an input audio signal representing a spatial audio scene with background noise ambience; computing spectral shaping filter coefficients based on the noise estimates; spectrally shaping the multi-channel noise signal using the spectral shaping filter coefficients and a noise distribution, the spectral shaping resulting in a diffused, multi-channel noise signal with uncorrelated channels; spatially shaping the diffused, uncorrelated multi-channel noise signal with uncorrelated channels based on a noise ambience of the spatial audio scene; and adding the spatially and spectrally shaped multi-channel noise to a multi-channel codec output to synthesize the background noise ambience of the spatial audio scene.
G10L 19/03 - Prédiction spectrale pour empêcher le pré-écho; Mise en forme de bruit temporaire [TNS], p.ex. dans MPEG2 ou MPEG4
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 21/0216 - Filtration du bruit caractérisée par le procédé d’estimation du bruit
19.
SINGLE CHANNEL ENCODING INTO A MULTI-CHANNEL CONTAINER FOLLOWED BY IMAGE COMPRESSION
Coding methods and apparatus for packing single-channel data into a multi-channel container, e.g., an MP4, TIFF, or JPEG container, to at least achieve good utilization of the container's data capacity. In some examples, a coding method comprises: converting a plurality of scalar values of a received data stream into a corresponding plurality of n-dimensional values, the converting being performed using a mapper; assigning each of the n-dimensional values as a pixel value to a respective pixel of a virtual-image frame, where n is an integer greater than one; and compressing the virtual-image frame according to a type of a container for image data. The mapper is configured to map a scalar value to a corresponding n-dimensional value based on a relationship represented by an n-dimensional curve or by a plurality of 2n-way tree partitions of n-dimensional space.
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/88 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la réorganisation de données entre différentes unités de codage, p.ex. redistribution, entrelacement, brouillage ou permutation de données de pixel ou permutation de données de coefficients de transformée entre différents blocs
H04N 19/90 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques de codage non prévues dans les groupes , p.ex. les fractales
Embodiments are directed to a method and system for receiving, in a bitstream, metadata associated with the audio data, and analyzing the metadata to determine whether a loudness parameter for a first group of audio playback devices are available in the bitstream. Responsive to determining that the parameters are present for the first group, the system uses the parameters and audio data to render audio. Responsive to determining that the loudness parameters are not present for the first group, the system analyzes one or more characteristics of the first group, and determines the parameter based on the one or more characteristics.
A method for encoding an input audio stream including the steps of obtaining a first playback stream presentation of the input audio stream intended for reproduction on a first audio reproduction system, obtaining a second playback stream presentation of the input audio stream intended for reproduction on a second audio reproduction system, determining a set of transform parameters suitable for transforming an intermediate playback stream presentation to an approximation of the second playback stream presentation, wherein the transform parameters are determined by minimization of a measure of a difference between the approximation of the second playback stream presentation and the second playback stream presentation, and encoding the first playback stream presentation and the set of transform parameters for transmission to a decoder.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
An attenuation or “gap” may be inserted into at least a first frequency range of at least first and second audio playback signals of a content stream during at least a first time interval to generate at least first and second modified audio playback signals. Corresponding audio device playback sound may be provided by at least first and second audio devices. At least one microphone may detect at least the first audio device playback sound and the second audio device playback sound and may generate corresponding microphone signals. Audio data may be extracted from the microphone signals in at least the first frequency range, to produce extracted audio data. A far-field audio environment impulse response and/or audio environment noise may be estimated based, at least in part, on the extracted audio data.
A first reshaping mapping is performed on a first image represented in a first domain to generate a second image represented in a second domain. The first domain is of a first dynamic range different from a second dynamic range of which the second domain is. A second reshaping mapping is performed on the second image represented in the second domain to generate a third image represented in the first domain. The third image is perceptually different from the first image in at least one of: global contrast, global saturation, local contrast, local saturation, etc. A display image is derived from the third image and rendered on a display device.
G06V 10/60 - Extraction de caractéristiques d’images ou de vidéos relative aux propriétés luminescentes, p.ex. utilisant un modèle de réflectance ou d’éclairage
24.
METHOD AND DEVICE FOR APPLYING DYNAMIC RANGE COMPRESSION TO A HIGHER ORDER AMBISONICS SIGNAL
A method for performing DRC on a HOA signal comprises transforming the HOA signal to the spatial domain, analyzing the transformed HOA signal, and obtaining, from results of said analyzing, gain factors that are usable for dynamic compression. The gain factors can be transmitted together with the HOA signal. When applying the DRC, the HOA signal is transformed to the spatial domain, the gain factors are extracted and multiplied with the transformed HOA signal in the spatial domain, wherein a gain compensated transformed HOA signal is obtained. The gain compensated transformed HOA signal is transformed back into the HOA domain, wherein a gain compensated HOA signal is obtained. The DRC may be applied in the QMF-filter bank domain.
H04S 3/00 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
H04S 3/02 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques du type matriciel, c. à d. dans lesquels les signaux d'entrée sont combinés algébriquement, p.ex. après avoir été déphasés les uns par rapport aux autres
25.
SYSTEMS AND METHODS FOR LOCAL DIMMING IN MULTI-MODULATION DISPLAYS
Dual and multi-modulator projector display systems and techniques are disclosed. In one embodiment, a projector display system comprises a light source; a controller, a first modulator, receiving light from the light source and rendering a halftone image of said the input image; a blurring optical system that blurs said halftone image with a Point Spread Function (PSF); and a second modulator receiving the blurred halftone image and rendering a pulse width modulated image which may be projected to form the desired screen image. Systems and techniques for forming a binary halftone image from input image, correcting for misalignment between the first and second modulators and calibrating the projector system—e.g. over time—for continuous image improvement are also disclosed.
H04N 9/31 - Dispositifs de projection pour la présentation d'images en couleurs
B65B 11/04 - Enveloppement d'objets ou de quantités de matériaux sans changer leur position durant l'opération, p.ex. dans des moules avec des plieurs à charnières en faisant tourner les objets
B65B 11/48 - Enserrage d'objets ou quantités de matériaux, par pliage de l'enveloppe, p.ex. une enveloppe en forme de poche, et en amarrant ses bords opposés libres pour enfermer le contenu
B65B 11/58 - Application de plusieurs enveloppes, p.ex. successivement
B65B 49/08 - Plioirs oscillants ou à mouvement alternatif
B65B 55/00 - Préservation, protection ou stérilisation des paquets ou de l'ensemble paquet et contenu
B65B 61/06 - Dispositifs accessoires, non prévus ailleurs, opérant sur feuilles, flans, bandes, attaches, réceptacles ou paquets pour découper les bandes ou pour séparer les paquets joints par coupe
B65B 61/26 - Dispositifs accessoires, non prévus ailleurs, opérant sur feuilles, flans, bandes, attaches, réceptacles ou paquets pour marquer ou coder les paquets achevés
G03B 21/00 - Projecteurs ou visionneuses du type par projection; Leurs accessoires
G03B 21/13 - Projecteurs pour produire des effets particuliers sur les bords de l'image, p.ex. flou
Images are acquired through image sensors operating in conjunction with a media consumption system. The acquired images are used to determine a user's movement in a plurality of degrees of freedom. Sound images depicted in spatial audio rendered by audio speakers operating in conjunction with the media consumption system are adapted based at least in part on the user's movement in the plurality of degrees of freedom.
A computer implemented system for rendering captured audio soundfields to a listener comprises apparatus to deliver the audio soundfields to the listener. The delivery apparatus delivers the audio soundfields to the listener with first and second audio elements perceived by the listener as emanating from first and second virtual source locations, respectively, and with the first audio element and/or the second audio element delivered to the listener from a third virtual source location. The first virtual source location and the second virtual source location are perceived by the listener as being located to the front of the listener, and the third virtual source location is located to the rear or the side of the listener.
The present invention is directed to methods and apparatus for translating a first plurality of audio input channels to a second plurality of audio output channels. This includes determining that there is pair-wise coding among any of the first plurality of audio input channels, determining an input/output-mapping matrix for mapping at least a first set of the first plurality of audio input channels to at least a second set of the second plurality of audio output channels; and deriving the second plurality of audio output channels based on first plurality of audio input channels, the input/output-mapping matrix and the determined pair-wise coding. The first plurality of audio input channels represent the same soundfield represented by the second plurality of audio output channels.
H04S 5/00 - Systèmes pseudo-stéréophoniques, p.ex. dans lesquels les signaux d'un canal supplémentaire sont dérivés du signal monophonique par déphasage, retardement ou réverbération
29.
VIDEO CODING METHOD AND APPARATUS USING ANY TYPES OF BLOCK PARTITIONING
The present invention relates to a block partitioning structure in video coding technology, and a video encoding and decoding method and apparatus using the same, wherein the video encoding and decoding method includes the steps of: acquiring quad-partitioning information of a block; acquiring bi-partitioning information of the block when the acquired quad-partitioning information of the block does not indicate four partitions; acquiring partitioning direction information for bi-partitioning of the block when the acquired bi-partitioning information of the block indicates two partitions; acquiring information on whether to perform any other type of partitioning, when the acquired bi-partitioning information of the block does not indicate two partitions; and acquiring additional information required for the any other type of partitioning, when the acquired information on whether to perform any other type of partitioning indicates that the any other type of partitioning is performed.
H04N 19/119 - Aspects de subdivision adaptative, p.ex. subdivision d’une image en blocs de codage rectangulaires ou non
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/66 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant la tolérance aux erreurs mettant en œuvre la séparation des données, c. à d. la séparation des données en paquets ou en partitions selon leur importance
30.
HEAD-TRACKED SPLIT RENDERING AND HEAD-RELATED TRANSFER FUNCTION PERSONALIZATION
Systems, methods and computer program products for direction of arrival (DOA) based head-tracked split rendering and head-related transfer function (HRTF) personalization are described. Head-tracked audio rendering is split between two devices. A first device receives a main bitstream representation of encoded audio. A second device tracks head pose information. The first device decodes the main bitstream using a main decoder, and encodes the decoded bitstream into pre-rendered binaural signals and post-render metadata. The second device decodes the pre-rendered binaural signals and post-renderer metadata from the intermediate bitstream, and provides the decoded pre-rendered binaural signals and post-renderer metadata to a lightweight renderer. The lightweight renderer renders the pre-rendered binaural signals into binaural audio based on the post-renderer metadata, the head pose information, generic HRTF, and personalized HRTF.
Methods, systems, and media for utilizing head tracking data are provided. In some embodiments, a method involves receiving, at each earbud of a pair of communicatively coupled earbuds, sensor data from one or more sensors. The method may involve determining, at each earbud of the pair of communicatively coupled earbuds, head orientation information. The method may involve transmitting the determined head orientation information between the pair of communicatively coupled earbuds such that a leader earbud transmits head orientation information determined by the leader earbud to a follower earbud. The method may involve synchronizing, at each earbud, the determined head orientation data based at least in part on timing information associated with a timestamp at which the head orientation information was transmitted. The method may involve utilizing the synchronized head orientation data to present audio content by each earbud of the pair of communicatively coupled earbuds.
A system and method for the generation of automatic audio-visual analytics for object rendering in capture. One example provides a method of processing audiovisual content. The method includes receiving content including a plurality of audio frames and a plurality of video frames, classifying each of the plurality of audio frames into a plurality of audio classifications, and classifying each of the plurality of video frames into a plurality of video classifications. The method includes processing the plurality of audio frames based on the respective audio classifications and processing the plurality of video frames based on the respective video classifications. Each audio classification is processed with a different audio processing operation, and each video classification is processed with a different video processing operation. The method includes generating an audio/video representation of the content by merging the processed plurality of audio frames and the processed plurality of video frames.
H04N 21/233 - Traitement de flux audio élémentaires
H04N 5/14 - Circuits de signal d'image pour le domaine des fréquences vidéo
H04N 21/234 - Traitement de flux vidéo élémentaires, p.ex. raccordement de flux vidéo ou transformation de graphes de scènes MPEG-4
H04N 21/439 - Traitement de flux audio élémentaires
H04N 21/44 - Traitement de flux élémentaires vidéo, p.ex. raccordement d'un clip vidéo récupéré d'un stockage local avec un flux vidéo en entrée ou rendu de scènes selon des graphes de scène MPEG-4
A loudspeaker assembly including a wedge-shaped acoustic waveguide and an audio driver. The wedge-shaped acoustic waveguide includes a first face including a slot opening formed therein, a second face joined at an edge with the first face, the second face tilted relative to the first face by a first angle, and a surface disposed opposite the edge and connected between the first face and the second face. The audio driver is coupled to the second face such that the audio driver is tilted at the first angle relative to the first face. The first face is oriented to face in a first direction and the audio driver is oriented to face in a second direction. A pressure level of sound energy emitted by the audio driver is greater along the second direction than the first direction. A vehicle comprising: a passenger cabin, a pillar extending upwards at a first angle relative to the passenger cabin, and the loudspeaker assembly installed on the pillar.
H04R 1/34 - Dispositions pour obtenir la fréquence désirée ou les caractéristiques directionnelles pour obtenir la caractéristique directionnelle désirée uniquement en utilisant un seul transducteur avec des moyens réfléchissant, diffractant, dirigeant ou guidant des sons
B60R 11/02 - Autres aménagements pour tenir ou monter des objets pour postes radio, de télévision, téléphones, ou objets similaires; Disposition de leur commande
Methods and systems for frame rate scalability are described. Support is provided for input and output video sequences with variable frame rate and variable shutter angle across scenes, or for input video sequences with fixed input frame rate and input shutter angle, but allowing a decoder to generate a video output at a different output frame rate and shutter angle than the corresponding input values. Techniques allowing a decoder to decode more computationally-efficiently a specific backward compatible target frame rate and shutter angle among those allowed are also presented.
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/31 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine temporel
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
35.
IMAGE ENCODING AND DECODING APPARATUS, AND IMAGE ENCODING AND DECODING METHOD
According to the present invention, an adaptive scheme is applied to an image encoding apparatus that includes an inter-predictor, an intra-predictor, a transformer, a quantizer, an inverse quantizer, and an inverse transformer, wherein input images are classified into two or more different categories, and two or more modules from among the inter-predictor, the intra-predictor, the transformer, the quantizer, and the inverse quantizer are implemented to perform respective operations in different schemes according to the category to which an input image belongs. Thus, the invention has the advantage of efficiently encoding an image without the loss of important information as compared to a conventional image encoding apparatus which adopts a packaged scheme.
H04L 45/745 - Recherche de table d'adresses; Filtrage d'adresses
H04N 19/11 - Sélection du mode de codage ou du mode de prédiction parmi plusieurs modes de codage prédictif spatial
H04N 19/117 - Filtres, p.ex. pour le pré-traitement ou le post-traitement
H04N 19/12 - Sélection parmi plusieurs transformées ou standards, p.ex. sélection entre une transformée en cosinus discrète [TCD] et une transformée en sous-bandes ou sélection entre H.263 et H.264
H04N 19/136 - Caractéristiques ou propriétés du signal vidéo entrant
H04N 19/14 - Complexité de l’unité de codage, p.ex. activité ou estimation de présence de contours
H04N 19/159 - Type de prédiction, p.ex. prédiction intra-trame, inter-trame ou de trame bidirectionnelle
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/61 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée combiné avec un codage prédictif
A projection system for pixel shifting comprising a light source configured to emit light and a spatial light modulator configured to receive the light and generate a modulated light. The spatial light modulator includes a plurality of micromirrors. The projection system includes a wobulation device configured to shift the modulated light by fractional pixels. The projection system includes a controller configured to, for each of a plurality of subperiods, control the light source to emit the light onto the spatial light modulator, and between each of the plurality of subperiods and with the wobulation device, shift the modulated light by a partial pixel distance greater than a half-pixel distance.
H04N 9/31 - Dispositifs de projection pour la présentation d'images en couleurs
H04N 5/74 - Dispositifs de projection pour reproduction d'image, p.ex. eidophor
G02B 26/08 - Dispositifs ou dispositions optiques pour la commande de la lumière utilisant des éléments optiques mobiles ou déformables pour commander la direction de la lumière
G03B 21/00 - Projecteurs ou visionneuses du type par projection; Leurs accessoires
G09G 3/00 - Dispositions ou circuits de commande présentant un intérêt uniquement pour l'affichage utilisant des moyens de visualisation autres que les tubes à rayons cathodiques
Methods, systems, and bitstream syntax are described for a scalable 3D scene representation. A general framework presents a dual-layer architecture where a base layer provides a baseline scene representation, and an enhancement layer provides enhancement information under a variety of scalability criteria. The enhancement information is coded using a trained neural field. Example systems are provided using a PSNR criterion and a baseline multi-plane image (MPI) representation. Examples of bitstream syntax for metadata information are also provided.
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
38.
METHODS AND SYSTEMS FOR RENDERING OBJECT BASED AUDIO
Methods for generating an object based audio program, renderable in a personalizable manner, and including a bed of speaker channels renderable in the absence of selection of other program content (e.g., to provide a default full range audio experience). Other embodiments include steps of delivering, decoding, and/or rendering such a program. Rendering of content of the bed, or of a selected mix of other content of the program, may provide an immersive experience. The program may include multiple object channels (e.g., object channels indicative of user-selectable and user-configurable objects), the bed of speaker channels, and other speaker channels. Another aspect is an audio processing unit (e.g., encoder or decoder) configured to perform, or which includes a buffer memory which stores at least one frame (or other segment) of an object based audio program (or bitstream thereof) generated in accordance with, any embodiment of the method.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/20 - Vocodeurs utilisant des modes multiples utilisant un codage spécifique de la catégorie de son, des encodeurs hybrides ou un codage basé objet
H04S 3/00 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques
H04S 7/00 - Dispositions pour l'indication; Dispositions pour la commande, p.ex. pour la commande de l'équilibrage
Sampled data is packaged in checkerboard format for encoding and decoding. The sampled data may be quincunx sampled multi-image video data (e.g., 3D video or a multi-program stream), and the data may also be divided into sub-images of each image which are then multiplexed, or interleaved, in frames of a video stream to be encoded and then decoded using a standardized video encoder. A system for viewing may utilize a standard video decoder and a formatting device that de-interleaves the decoded sub-images of each frame reformats the images for a display device. A 3D video may be encoded using a most advantageous interleaving format such that a preferred quality and compression ratio is reached. In one embodiment, the invention includes a display device that accepts data in multiple formats.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 13/139 - Conversion du format, p.ex. du débit de trames ou de la taille
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
H04N 19/112 - Sélection du mode de codage ou du mode de prédiction selon un mode d’affichage donné, p.ex. le mode d’affichage entrelacé ou progressif
H04N 19/132 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’élément, le paramètre ou la sélection affectés ou contrôlés par le codage adaptatif Échantillonnage, masquage ou troncature d’unités de codage, p.ex. ré-échantillonnage adaptatif, saut de trames, interpolation de trames ou masquage de coefficients haute fréquence de transformée
H04N 19/16 - Mode de codage attribué, c. à d. le mode de codage étant prédéfini ou présélectionné pour être utilisé ultérieurement afin de sélectionner un autre élément ou paramètre pour un mode donné d’affichage, p.ex. pour un mode d'affichage entrelacé ou progressif
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/33 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine spatial
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/587 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage ou une interpolation temporels, p.ex. décimation ou interpolation subséquente d’images dans une séquence vidéo
H04N 19/60 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée
H04N 19/61 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée combiné avec un codage prédictif
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 21/2365 - Multiplexage de plusieurs flux vidéo
H04N 21/2383 - Codage de canal d'un flux binaire numérique, p.ex. modulation
H04N 21/434 - Désassemblage d'un flux multiplexé, p.ex. démultiplexage de flux audio et vidéo, extraction de données additionnelles d'un flux vidéo; Remultiplexage de flux multiplexés; Extraction ou traitement de SI; Désassemblage d'un flux élémentaire mis en paquets
H04N 21/438 - Interfaçage de la voie descendante du réseau de transmission provenant d'un serveur, p.ex. récupération de paquets MPEG d'un réseau IP
A quantization parameter signalling mechanism for both SDR and HDR content in video coding is described using two approaches. The first approach is to send the user-defined QpC table directly in high level syntax. This leads to more flexible and efficient QP control for future codec development and video content coding. The second approach is to signal luma and chroma QPs independently. This approach eliminates the need for QpC tables and removes the dependency of chroma quantization parameter on luma QP.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
41.
PERCEPTUALLY-BASED LOSS FUNCTIONS FOR AUDIO ENCODING AND DECODING BASED ON MACHINE LEARNING
Computer-implemented methods for training a neural network, as well as for implementing audio encoders and decoders via trained neural networks, are provided. The neural network may receive an input audio signal, generate an encoded audio signal and decode the encoded audio signal. A loss function generating module may receive the decoded audio signal and a ground truth audio signal, and may generate a loss function value corresponding to the decoded audio signal. Generating the loss function value may involve applying a psychoacoustic model. The neural network may be trained based on the loss function value. The training may involve updating at least one weight of the neural network.
A method of audio processing includes capturing a binaural audio signal, calculating noise reduction gains using a machine learning model, and generating a modified binaural audio signal. The method may further including performing various corrections to the audio to account for video captured by different cameras such as a front camera and a rear camera. The method may further include performing smooth switching of the binaural audio when switching between the front camera and the rear camera. In this manner, noise may be reduced in the binaural audio, and the user perception of the combined video and binaural audio may be improved.
Methods and systems for frame rate scalability are described. Support is provided for input and output video sequences with variable frame rate and variable shutter angle across scenes, or for input video sequences with fixed input frame rate and input shutter angle, but allowing a decoder to generate a video output at a different output frame rate and shutter angle than the corresponding input values. Techniques allowing a decoder to decode more computationally-efficiently a specific backward compatible target frame rate and shutter angle among those allowed are also presented.
H04N 19/31 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine temporel
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
44.
DETERMINING DIALOG QUALITY METRICS OF A MIXED AUDIO SIGNAL
Disclosed is a method for determining one or more dialog quality metrics of a mixed audio signal comprising a dialog component and a noise component, the method comprising separating an estimated dialog component from the mixed audio signal by means of a dialog separator using a dialog separating model determined by training the dialog separator based on the one or more quality metrics; providing the estimated dialog component from the dialog separator to a quality metrics estimator; and determining the one or more quality metrics by means of the quality metrics estimator based on the mixed signal and the estimated dialog component. Further disclosed is a method for training a dialog separator, a system comprising circuitry configured to perform the method, and a non-transitory computer-readable storage medium.
G10L 25/60 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation pour mesurer la qualité des signaux de voix
The present disclose related to a system (1) and method for evaluating the performance of an audio processing scheme. The system (1) comprises an acoustic feature extractor (10A, 10B), configured to receive a plurality of segment pairs, each segment pair comprising a segment (101) and a processed segment (201). The acoustic feature extractor (10A, 10B) determines an acoustic feature associated with each segment and the system (1) further comprises an event detector (11), configured to receive the at least one acoustic feature of each segment (101, 201) and determine, for each segment pair and acoustic feature, if a difference between the acoustic feature of the segment and processed segment exceeds an event threshold. The system also comprises an event analyzer (12), configured to determine a performance metric based on each segment pair associated with a difference exceeding the event threshold.
G10L 25/60 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation pour mesurer la qualité des signaux de voix
G10L 25/27 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse
Disclosed is a method for separating audio objects in a mixed audio signal, the mixed audio signal comprising a plurality of audio objects. Further disclosed is a computer-implemented method for training a sparse audio object separation model and a method for separating a sparse audio object from a mixed audio signal, the mixed audio signal comprising at least a sparse audio object, a non-sparse audio object, and at least one further audio object. Further disclosed is a computer-implemented method for processing audio based on a signal-to-noise ratio, SNR and a computer-implemented method for processing audio based on a scene environment classification. Disclosed is a non-transitory computer-readable medium and a system configured to perform one or more of the methods.
G10L 21/028 - Séparation du signal de voix utilisant les propriétés des sources sonores
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
A method of audio processing includes receiving user-generated content having two audio sources, extracting audio objects and a residual signal, adjusting the audio objects and the residual signal according to the listener's head movements, and mixing the adjusted audio signals to generate a binaural audio signal. In this manner, the binaural signal adjusts according to the listener's head movements without requiring perfect audio objects.
Dual or multi-modulation display systems comprising a first modulator and a second modulator are disclosed. The first modulator may comprise a plurality of analog mirrors (e.g. MEMS array) and the second modulator may comprise a plurality of mirrors (e.g., DMD array). The display system may further comprise a controller that sends control signals to the first and second modulator. The display system may render highlight features within a projected image by affecting a time multiplexing scheme. In one embodiment, the first modulator may be switched on a sub-frame basis such that a desired proportion of the available light may be focused or directed onto the second modulator to form the highlight feature on a sub-frame rendering basis.
A video encoding method according to an embodiment of the present invention includes generating header information that includes information about resolutions of motion vectors of respective blocks, determined based on motion prediction for a unit image. Here, the header information includes flag information indicating whether resolutions of all motion vectors included in the unit image are integer-pixel resolutions. Further, a video decoding method according to another embodiment of the present invention includes extracting information about resolutions of motion vectors of each unit image from header information included in a target bitstream to be decoded; and a decoding unit for decoding the unit image based on the resolution information. Here, the header information includes flag information indicating whether resolutions of all motion vectors included in the unit image are integer-pixel resolutions.
H04N 19/53 - Estimation de mouvement multi-résolution; Estimation de mouvement hiérarchique
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p.ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/136 - Caractéristiques ou propriétés du signal vidéo entrant
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet
H04N 19/27 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage d'objets vidéo mettant en œuvre à la fois des composantes d’image synthétiques et naturelles, p.ex. codage hybride synthétique naturel [SNHC]
H04N 19/50 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif
H04N 19/51 - Estimation ou compensation du mouvement
H04N 19/523 - Estimation ou compensation du mouvement avec précision supérieure au sous-pixel
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
50.
SMART DIALOGUE ENHANCEMENT BASED ON NON-ACOUSTIC MOBILE SENSOR INFORMATION
Described herein is a method of performing environment-aware processing of audio data for a mobile device. In particular, the method may comprise obtaining non-acoustic sensor information of the mobile device. The method may further comprise determining scene information indicative of an environment of the mobile device based on the non-acoustic sensor information. The method may yet further comprise performing audio processing of the audio data based on the determined scene information.
Disclosed herein are techniques for processing streaming data. In some embodiments, the techniques involve obtaining input data representative of a frame of streaming data. The techniques may involve identifying a query transformation, a key transformation, and a value transformation based on the input data. The techniques may involve updating a query buffer, a key buffer, and a value buffer, such that the buffers are each configured to store parameters associated with previous frames of streaming data and the frame of streaming data. The techniques may involve retrieving one or more query frames from the query buffer. The techniques may involve determining a dot product of the query frames and frames in the key buffer to determine a set of weights. The techniques may involve determining a weighted sum between the set of weights and frames in the value buffer, and utilizing the weighted sum to generate a streaming attention vector.
Some disclosed methods involve: receiving an observation sequence including a plurality of extracted features, each of which corresponds to a sequential signal of a sequence of sequential signals; determining a lattice of posterior possibilities, the lattice including a possibility of each observation sequence corresponding to one label class of a plurality of label classes; and applying a loss function to the lattice of posterior possibilities according to ground truth values, where applying the loss function involves applying both sequential information and cluster boundary information. Some methods involve updating parameters for determining the lattice according to losses determined by the loss function and performing the foregoing operations until one or more convergence criteria are met.
In a method to improve backwards compatibility when decoding high-dynamic range images coded in a wide color gamut (WCG) space which may not be compatible with legacy color spaces, hue and/or saturation values of images in an image database are computed for both a legacy color space (say, YCbCr-gamma) and a preferred WCG color space (say, IPT-PQ). Based on a cost function, a reshaped color space is computed so that the distance between the hue values in the legacy color space and rotated hue values in the preferred color space is minimized HDR images are coded in the reshaped color space. Legacy devices can still decode standard dynamic range images assuming they are coded in the legacy color space, while updated devices can use color reshaping information to decode HDR images in the preferred color space at full dynamic range.
H04N 19/87 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la détection de coupure ou de changement de scène en combinaison avec la compression vidéo
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/98 - Codage de plage-dynamique adaptative [ADRC]
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
Some methods may involve receiving a first content stream that includes first audio signals, rendering the first audio signals to produce first audio playback signals, generating first direct sequence spread spectrum (DSSS) signals, generating first modified audio playback signals by inserting the first DSSS signals into the first audio playback signals, and causing a loudspeaker system to play back the first modified audio playback signals, to generate first audio device playback sound. The method(s) may involve receiving microphone signals corresponding to at least the first audio device playback sound and to second through Nth audio device playback sound corresponding to second through Nth modified audio playback signals (including second through Nth DSSS signals) played back by second through Nth audio devices, extracting second through Nth DSSS signals from the microphone signals and estimating at least one acoustic scene metric based, at least partly, on the second through Nth DSSS signals.
Improved methods and/or apparatus for decoding an encoded audio signal in soundfield format for L loudspeakers. The method and/or apparatus can render an Ambisonics format audio signal to 2D loudspeaker setup(s) based on a rendering matrix. The rendering matrix has elements based on loudspeaker positions and wherein the rendering matrix is determined based on weighting at least an element of a first matrix with a weighting factor
Improved methods and/or apparatus for decoding an encoded audio signal in soundfield format for L loudspeakers. The method and/or apparatus can render an Ambisonics format audio signal to 2D loudspeaker setup(s) based on a rendering matrix. The rendering matrix has elements based on loudspeaker positions and wherein the rendering matrix is determined based on weighting at least an element of a first matrix with a weighting factor
ℊ
=
1
L
.
Improved methods and/or apparatus for decoding an encoded audio signal in soundfield format for L loudspeakers. The method and/or apparatus can render an Ambisonics format audio signal to 2D loudspeaker setup(s) based on a rendering matrix. The rendering matrix has elements based on loudspeaker positions and wherein the rendering matrix is determined based on weighting at least an element of a first matrix with a weighting factor
ℊ
=
1
L
.
The first matrix is determined based on positions of the L loudspeakers and at least a virtual position of at least a virtual loudspeaker that is added to the positions of the L loudspeakers.
H04S 3/02 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques du type matriciel, c. à d. dans lesquels les signaux d'entrée sont combinés algébriquement, p.ex. après avoir été déphasés les uns par rapport aux autres
H04S 7/00 - Dispositions pour l'indication; Dispositions pour la commande, p.ex. pour la commande de l'équilibrage
A method of audio processing includes performing spatial analysis on a binaural signal to estimate level differences and phase differences characteristic of a binaural filter of the binaural signal, performing object extraction on the binaural audio signal using the estimated level and phase differences to generate a left/right main component signal and a left/right residual component signal. The system may process the left/right main and left/right residual components differently using different object processing parameters for e.g. repositioning, equalization, compression, upmixing, channel remapping or storage to generate a processed binaural signal that provides an improved listening experience. Repositioning may be based on head tracking sensor data.
A method for delivering media content to one or more clients over a distributed system is disclosed. The method may include generating a plurality of network-coded symbols from a plurality of original symbols representing a first media asset. The method may further include generating an original plurality of coded variants of the first media asset. The method may further include distributing a first coded variant of the original plurality of coded variants to a first cache on a first server device for storage in the first cache. The method may further include distributing a second coded variant of the original plurality of coded variants to a second cache on a second server device for storage in the second cache.
H04N 21/60 - Distribution sélective de contenu, p.ex. télévision interactive ou vidéo à la demande [VOD] - Détails de la communication entre serveur et client
Methods are described to communicate source color volume information in a coded bitstream using SEI messaging. Such data include at least the minimum, maximum, and average luminance values in the source data plus optional data that may include the color volume x and y chromaticity coordinates for the input color primaries (e.g., red, green, and blue) of the source data, and the color x and y chromaticity coordinates for the color primaries corresponding to the minimum, average, and maximum luminance values in the source data. Messaging data signaling an active region in each picture may also be included.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/14 - Complexité de l’unité de codage, p.ex. activité ou estimation de présence de contours
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
H04N 19/20 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage d'objets vidéo
59.
METHOD FOR ENCODING AND DECODING IMAGE USING ADAPTIVE DEBLOCKING FILTERING, AND APPARATUS THEREFOR
Disclosed is an encoding/decoding method and apparatus related to adaptive deblocking filtering. There is provided an image decoding method performing adaptive filtering in inter-prediction, the method including: reconstructing, from a bitstream, an image signal including a reference block on which block matching is performed in inter-prediction of a current block to be encoded; obtaining, from the bitstream, a flag indicating whether the reference block exists within a current picture where the current block is positioned; reconstructing the current block by using the reference block; adaptively applying an in-loop filter for the reconstructed current block based on the obtained flag; and storing the current block to which the in-loop filter is or is not applied in a decoded picture buffer (DPB).
H04N 19/82 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p.ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
H04N 19/60 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant un codage par transformée
H04N 19/51 - Estimation ou compensation du mouvement
H04N 19/117 - Filtres, p.ex. pour le pré-traitement ou le post-traitement
H04N 19/50 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif
H04N 19/58 - Compensation de mouvement par prédiction à long terme, c. à d. que la trame de référence pour une trame courante n’est pas la plus proche temporellement
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/577 - Compensation de mouvement avec interpolation de trame bidirectionnelle, p.ex. utilisation d’images B
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/137 - Mouvement dans une unité de codage, p.ex. différence moyenne de champs, de trames ou de blocs
H04N 19/593 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre des techniques de prédiction spatiale
H04N 19/107 - Sélection du mode de codage ou du mode de prédiction entre codage prédictif spatial et temporel, p.ex. rafraîchissement d’image
H04N 19/184 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant des bits, p.ex. de flux vidéo compressé
H04N 19/91 - Codage entropique, p.ex. codage à longueur variable ou codage arithmétique
Methods, systems, and media for enhancing audio content are provided. In some embodiments, a method for enhancing audio content involves receiving a multi-channel audio signal from a first audio capture device and a binaural audio signal from a second audio capture device. The method may further involve extracting one or more objects from the multi-channel audio signal. The method may further involve generating a spatial enhancement mask based on spatial information associated with the one or more objects. The method may further involve applying the spatial enhancement mask to the binaural audio signal to enhance spatial characteristics of the binaural audio signal to generate an enhanced binaural audio signal. The method may further involve generating output binaural audio signal based on the enhanced binaural audio signal.
An apparatus and method of generating personalized HRTFs. The system is prepared by calculating a model for HRTFs described as the relationship between a finite example set of input data, namely anthropometric measures and demographic information for a set of individuals, and a corresponding set of output data, namely HRTFs numerically simulated using a high-resolution database of 3D scans of the same set of individuals. At the time of use, the system queries the user for their demographic information, and then from a series of images of the user, the system detects and measures various anthropometric characteristics. The system then applies the prepared model to the anthropometric and demographic data as part of generating a personalized HRTF. In this manner, the personalized HRTF can be generated with more convenience than by performing a high-resolution scan or an acoustic measurement of the user, and with less computational complexity than by numerically simulating their HRTF.
Some methods may involve receiving a first content stream that includes first audio signals, rendering the first audio signals to produce first audio playback signals, generating first direct sequence spread spectrum (DSSS) signals, generating first modified audio playback signals by inserting the first DSSS signals into the first audio playback signals, and causing a loudspeaker system to play back the first modified audio playback signals, to generate first audio device playback sound. The method(s) may involve receiving microphone signals corresponding to at least the first audio device playback sound and to second through Nth audio device playback sound corresponding to second through Nth modified audio playback signals (including second through Nth DSSS signals) played back by second through Nth audio devices, extracting second through Nth DSSS signals from the microphone signals and estimating at least one acoustic scene metric based, at least partly, on the second through Nth DSSS signals.
Techniques and corresponding systems for estimating an audiogram for a user of a media playback device including obtaining user hearing threshold data for the user, sample hearing threshold data, at least one of sample calibration data and sample noise data, and determining an estimate of the audiogram for the user based on such data. Related techniques for estimating calibration data for a media playback device, as well as corresponding computing apparatus, computer programs, and computer-readable storage media are also described.
A system is programmed to build a machine learning model that comprises a series of masking blocks. Each masking block receives a certain feature vector of an audio segment. Each masking block comprises a first component that generates a first mask for extracting clean speech and a second component that generates a second mask for extracting residual speech masked by the first mask. Each masking block also generates a specific feature vector based on the first mask and the second mask, which becomes the certain feature vector for the next masking block. The second component, which may comprise a gated recurrent unit layer, is computationally less complex than the first component, which may comprise multiple convolutional layers. Furthermore, the system is programmed to receive an input feature vector of an input audio segment and execute the machine learning model to obtain an output feature vector of an output audio segment.
A method of audio content identification includes using a two-stage classifier. The first stage includes previously-existing classifiers and the second stage includes a new classifier. The outputs of the first and second stages calculated over different time periods are combined to generate a steering signal. The final classification results from a combination of the steering signal and the outputs of the first and second stages. In this manner, a new classifier may be added without disrupting existing classifiers.
Disclosed is a method for managing acoustic feedback in real-time audio communications in a communications system, the method comprising determining, by means of a detection module, whether a first communication device is in loudspeaker mode, whether the first communication device is in real-time audio communications with a second communication, and whether the first communication device and the second communication device are in a same acoustic space. Upon determining that this is the case a request signal for requesting one or more measures against acoustic feedback is provided to a mitigation module. Further disclosed are a device and a system configured to perform the method, a non-transitory computer-readable medium, an encoder and a decoder.
H04M 9/08 - Systèmes téléphoniques à haut-parleur à double sens comportant des moyens pour conditionner le signal, p.ex. pour supprimer les échos dans l'une ou les deux directions du trafic
H04M 3/40 - Applications des amplificateurs de parole
H04R 3/02 - Circuits pour transducteurs pour empêcher la réaction acoustique
Volume leveler controller and controlling method are disclosed. In one embodiment, A volume leveler controller includes an audio content classifier for identifying the content type of an audio signal in real time; and an adjusting unit for adjusting a volume leveler in a continuous manner based on the content type as identified. The adjusting unit may configured to positively correlate the dynamic gain of the volume leveler with informative content types of the audio signal, and negatively correlate the dynamic gain of the volume leveler with interfering content types of the audio signal.
H03G 7/00 - Compression ou expansion de volume dans les amplificateurs
H03G 3/30 - Commande automatique dans des amplificateurs comportant des dispositifs semi-conducteurs
H03G 3/32 - Commande automatique dans des amplificateurs comportant des dispositifs semi-conducteurs le réglage dépendant du niveau de bruit ambiant ou du niveau sonore ambiant
G10L 25/30 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse utilisant des réseaux neuronaux
G10L 25/51 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes spécialement adaptées pour un usage particulier pour comparaison ou différentiation
G10L 21/0364 - Amélioration de l'intelligibilité de la parole, p.ex. réduction de bruit ou annulation d'écho en changeant l’amplitude pour améliorer l'intelligibilité
68.
METHOD AND DEVICE FOR DECODING A HIGHER-ORDER AMBISONICS (HOA) REPRESENTATION OF AN AUDIO SOUNDFIELD
The invention discloses rendering sound field signals, such as Higher-Order Ambisonics (HOA), for arbitrary loudspeaker setups, where the rendering results in highly improved localization properties and is energy preserving. This is obtained by rendering an audio sound field representation for arbitrary spatial loudspeaker setups and/or by a a decoder that decodes based on a decode matrix (D). The decode matrix (D) is based on smoothing and scaling of a first decode matrix {circumflex over (D)} with smoothing coefficients. The first decode matrix {circumflex over (D)} is based on a mix matrix G and a mode matrix {tilde over (ψ)}, where the mix matrix G was determined based on L speakers and positions of a spherical modelling grid related to a HOA order N, and the mode matrix {tilde over (ψ)} was determined based on the spherical modelling grid and the HOA order N.
Encoding/decoding an audio signal having one or more audio components, wherein each audio component is associated with a spatial location. A first audio signal presentation (z) of the audio components, a first set of transform parameters (w(f)), and signal level data (β2) are encoded and transmitted to the decoder. The decoder uses the first set of transform parameters (w(f)) to form a reconstructed simulation input signal intended for an acoustic environment simulation, and applies a signal level modification (α) to the reconstructed simulation input signal. The signal level modification is based on the signal level data (β2) and data (p2) related to the acoustic environment simulation. The attenuated reconstructed simulation input signal is then processed in an acoustic environment simulator. With this process, the decoder does not need to determine the signal level of the simulation input signal, thereby reducing processing load.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/012 - Codage du bruit de confort ou du silence
G10L 19/00 - Techniques d'analyse ou de synthèse de la parole ou des signaux audio pour la réduction de la redondance, p.ex. dans les vocodeurs; Codage ou décodage de la parole ou des signaux audio utilisant les modèles source-filtre ou l’analyse psychoacoustique
G10L 19/02 - Techniques d'analyse ou de synthèse de la parole ou des signaux audio pour la réduction de la redondance, p.ex. dans les vocodeurs; Codage ou décodage de la parole ou des signaux audio utilisant les modèles source-filtre ou l’analyse psychoacoustique utilisant l'analyse spectrale, p.ex. vocodeurs à transformée ou vocodeurs à sous-bandes
70.
SPATIAL AUDIO RENDERING ADAPTIVE TO SIGNAL LEVEL AND LOUDSPEAKER PLAYBACK LIMIT THRESHOLDS
Rendering audio signals may involve a mapping for each audio signal to the loudspeaker signals computed as a function of an audio signal's intended perceived spatial position, physical positions associated with the loudspeakers and a time- and frequency-varying representation of loudspeaker signal level relative to a maximum playback limit of each loudspeaker. Each mapping may be computed to approximately achieve the intended perceived spatial position of an associated audio signal when the loudspeaker signals are played back. A representation of loudspeaker signal level relative to a maximum playback limit may be computed for each audio signal. The mapping of an audio signal into a particular loudspeaker signal may be reduced as loudspeaker signal level relative to a maximum playback limit increases above a threshold, while the mapping may be increased into one or more other loudspeakers for which the maximum playback limits are less than a threshold.
The positions of a plurality of speakers at a media consumption site are determined. Audio information in an object-based format is received. Gain adjustment value for a sound content portion in the object-based format may be determined based on the position of the sound content portion and the positions of the plurality of speakers. Audio information in a ring-based channel format is received. Gain adjustment value for each ring-based channel in a set of ring-based channels may be determined based on the ring to which the ring-based channel belongs and the positions of the speakers at a media consumption site.
Methods and systems for frame rate scalability are described. Support is provided for input and output video sequences with variable frame rate and variable shutter angle across scenes, or for input video sequences with fixed input frame rate and input shutter angle, but allowing a decoder to generate a video output at a different output frame rate and shutter angle than the corresponding input values. Techniques allowing a decoder to decode more computationally-efficiently a specific backward compatible target frame rate and shutter angle among those allowed are also presented.
H04N 19/31 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine temporel
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
73.
MULTIPLE-INTENT COMPOSITE IMAGE ENCODING AND RENDERING
Techniques for multiple-intent composite image encoding and rendering are disclosed. The techniques can include obtaining a set of constituent images for a composite image, determining a common rendering intent to be applied to the set of constituent images, adjusting one or more of the set of constituent images according to the common rendering intent, resulting in an adjusted set of constituent images, creating the composite image based on the adjusted set of constituent images, generating metadata characterizing the common rendering intent, and encoding the composite image and the metadata to create an encoded multiple-intent composite image.
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
G06T 11/60 - Edition de figures et de texte; Combinaison de figures ou de texte
74.
PROCESSING OF EXTENDED DIMENSION LIGHT FIELD IMAGES
In one embodiment, methods, media, and systems process and display light field images using a view function that is based on pixel locations in the image and on the viewer's distance (observer's Z position) from the display. The view function can be an angular view function that specifies different angular views for different pixels in the light field image based on the inputs that can include: the x or y pixel location in the image, the viewer's distance from the display, and the viewer's angle relative to the display. In one embodiment, light field metadata, such as angular range metadata and/or angular offset metadata can be used to process and display the image. In one embodiment, color volume mapping metadata can be used to adjust color volume mapping based on the determined angular views; and the color volume mapping metadata can also be adjusted based on angular offset metadata.
H04N 13/117 - Transformation de signaux d’images correspondant à des points de vue virtuels, p.ex. interpolation spatiale de l’image les positions des points de vue virtuels étant choisies par les spectateurs ou déterminées par suivi du spectateur
H04N 13/388 - Affichages volumétriques, c. à d. systèmes où l’image est réalisée à partir d’éléments répartis dans un volume
H04N 13/232 - Générateurs de signaux d’images utilisant des caméras à images stéréoscopiques utilisant un seul capteur d’images 2D utilisant des lentilles du type œil de mouche, p.ex. dispositions de lentilles circulaires
H04N 13/178 - Métadonnées, p.ex. informations sur la disparité
H04N 23/957 - Caméras ou modules de caméras à champ lumineux ou plénoptiques
75.
COLOR-GRADING CONTENT BASED ON SIMILARITY TO EXEMPLARS
Systems and methods for color grading of images and video based on similarity to exemplars. In preparation for color-grading new content, exemplar frames related to the expected new content may be obtained and color grading parameters for the exemplar frames may be obtained. To color grade the new content as it is created or received, similarities between frames of the new content and the exemplar frames may be determined. The similarities between frames of the new content and the exemplar frames may be determined may be combined with the obtained color-grading parameters from the exemplar frames to determine suitable color-grading parameters to apply to the new content. The new content may then be color-graded using the determined color-grading parameters.
H04N 9/64 - Circuits pour le traitement de signaux de couleur
H04N 9/77 - Circuits pour le traitement l'un par rapport à l'autre des signaux de luminance et de chrominance, p.ex. ajustement de la phase du signal de luminance par rapport au signal de couleur, correction différentielle du gain ou de la phase
76.
Alias cancelling during audio coding mode transitions
An apparatus for processing an audio signal and method thereof are disclosed. The present invention includes receiving, by an audio processing apparatus, an audio signal including a first data of a first block encoded with rectangular coding scheme and a second data of a second block encoded with non-rectangular coding scheme; receiving a compensation signal corresponding to the second block; estimating a prediction of an aliasing part using the first data; and, obtaining a reconstructed signal for the second block based on the second data, the compensation signal and the prediction of aliasing part.
G10L 19/00 - Techniques d'analyse ou de synthèse de la parole ou des signaux audio pour la réduction de la redondance, p.ex. dans les vocodeurs; Codage ou décodage de la parole ou des signaux audio utilisant les modèles source-filtre ou l’analyse psychoacoustique
G10L 25/45 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de fenêtre d’analyse
G10L 21/00 - Traitement du signal de parole ou de voix pour produire un autre signal audible ou non audible, p.ex. visuel ou tactile, afin de modifier sa qualité ou son intelligibilité
G10L 19/04 - Techniques d'analyse ou de synthèse de la parole ou des signaux audio pour la réduction de la redondance, p.ex. dans les vocodeurs; Codage ou décodage de la parole ou des signaux audio utilisant les modèles source-filtre ou l’analyse psychoacoustique utilisant des techniques de prédiction
G10L 19/022 - Constitution de blocs, c. à d. regroupement d’échantillons temporels; Choix des fenêtres d’analyse; Facteur de recouvrement
G10L 19/18 - Vocodeurs utilisant des modes multiples
G10L 19/005 - Correction d’erreurs induites par le canal de transmission, lorsqu’elles sont liées à l’algorithme de codage
77.
AUTOMATIC GENERATION AND SELECTION OF TARGET PROFILES FOR DYNAMIC EQUALIZATION OF AUDIO CONTENT
In an embodiment, a method comprises: filtering reference audio content items to separate the reference audio content items into different frequency bands; for each frequency band, extracting a first feature vector from at least a portion of each of the reference audio content items, wherein the first feature vector includes at least one audio characteristic of the reference audio content items; obtaining at least one semantic label from at least a portion of each of the reference audio content items; obtaining a second feature vector consisting of the first feature vectors per frequency band and the at least one semantic label; generating, based on the second feature vector, cluster feature vectors representing centroids of clusters; separating the reference audio content items according to the cluster feature vectors; and computing an average target profile for each cluster based on the reference audio content items in the cluster.
H03G 5/00 - Commande de tonalité ou commande de largeur de bande dans les amplificateurs
H04R 3/04 - Circuits pour transducteurs pour corriger la fréquence de réponse
G10L 25/21 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant l’information sur la puissance
G10L 25/18 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant l’information spectrale de chaque sous-bande
G10L 15/18 - Classement ou recherche de la parole utilisant une modélisation du langage naturel
78.
SYSTEM FOR MAINTAINING REVERSIBLE DYNAMIC RANGE CONTROL INFORMATION ASSOCIATED WITH PARAMETRIC AUDIO CODERS
On the basis of a bitstream (P), an n-channel audio signal (X) is reconstructed by deriving an m-channel core signal (Y) and multichannel coding parameters (a) from the bitstream, where 1≤m
E21B 33/138 - Plâtrage de la paroi du trou de forage; Injections dans la formation
E21B 41/00 - Matériel ou accessoires non couverts par les groupes
E21B 21/00 - Procédés ou appareils pour nettoyer les trous de forage par jet de fluide, p.ex. en utilisant l'air d'échappement du moteur
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/18 - Vocodeurs utilisant des modes multiples
G10L 19/24 - Codecs à débit variable, p.ex. pour générer différentes qualités en utilisant une représentation évolutive comme le codage hiérarchique ou le codage par couches
A method may involve: receiving direction of arrival (DOA) data corresponding to sound emitted by at least a first smart audio device of the audio environment that includes a first audio transmitter and a first audio receiver, the DOA data corresponding to sound received by at least a second smart audio device of the audio environment that includes a second audio transmitter and a second audio receiver, the DOA data corresponding to sound emitted by at least the second smart audio device and received by at least the first smart audio device; receiving one or more configuration parameters corresponding to the audio environment, to one or more audio devices, or both; and minimizing a cost function based at least in part on the DOA data and the configuration parameter(s), to estimate a position and an orientation of at least the first smart audio device and the second smart audio device.
Disclosed are methods and systems which convert a multi-microphone input signal to a multichannel output signal making use of a time- and frequency-varying matrix. For each time and frequency tile, the matrix is derived as a function of a dominant direction of arrival and a steering strength parameter. Likewise, the dominant direction and steering strength parameter are derived from characteristics of the multi-microphone signals, where those characteristics include values representative of the inter-channel amplitude and group-delay differences.
H04R 1/40 - Dispositions pour obtenir la fréquence désirée ou les caractéristiques directionnelles pour obtenir la caractéristique directionnelle désirée uniquement en combinant plusieurs transducteurs identiques
Methods, systems, bitstream syntax, and fixed-point implementations are described for loop filtering using neural networks in image and video processing. Given an input image, a hybrid luma-chroma filter is proposed, wherein luma and chroma components are first processed by a first neural network and the output of the first network is subsequently processed by separate luma and chroma subnetworks. Finally, the outputs of the separate luma and chroma subnetworks are concatenated to generate the filtered output of the input image. Computational efficient methods using CP-decomposition are also described. Methods indicating the position of the neural-net loop filter relatively to other filters, such as the adaptive loop filter (ALF) are also discussed.
H04N 19/82 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p.ex. pour l'interpolation de pixels mettant en œuvre le filtrage dans une boucle de prédiction
In some embodiments, a method, comprises: dividing, using at least one processor, an audio input into speech and non-speech segments; for each frame in each non-speech segment, estimating, using the at least one processor, a time-varying noise spectrum of the non-speech segment; for each frame in each speech segment, estimating, using the at least one processor, speech spectrum of the speech segment; for each frame in each speech segment, identifying one or more non-speech frequency components in the speech spectrum; comparing the one or more non-speech frequency components with one or more corresponding frequency components in a plurality of estimated noise spectra and selecting the estimated noise spectrum from the plurality of estimated noise spectra based on a result of the comparing.
G10L 21/0232 - Traitement dans le domaine fréquentiel
G10L 21/028 - Séparation du signal de voix utilisant les propriétés des sources sonores
G10L 25/18 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant l’information spectrale de chaque sous-bande
G10L 25/84 - Détection de la présence ou de l’absence de signaux de voix pour différencier la parole du bruit
G10L 21/0364 - Amélioration de l'intelligibilité de la parole, p.ex. réduction de bruit ou annulation d'écho en changeant l’amplitude pour améliorer l'intelligibilité
G10L 25/21 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par le type de paramètres extraits les paramètres extraits étant l’information sur la puissance
83.
ROTATION OF SOUND COMPONENTS FOR ORIENTATION-DEPENDENT CODING SCHEMES
Method for encoding scene-based audio is provided. In some implementations, the method involves determining, by an encoder, a spatial direction of a dominant sound component in a frame of an input audio signal. In some implementations, the method involves determining rotation parameters based on the determined spatial direction and a direction preference of a coding scheme to be used to encode the input audio signal. In some implementations, the method involves rotating sound components of the frame based on the rotation parameters such that, after being rotated, the dominant sound component has a spatial direction that aligns with the direction preference of the coding scheme. In some implementations, the method involves encoding the rotated sound components of the frame of the input audio signal using the coding scheme in connection with an indication of the rotation parameters or an indication of the spatial direction of the dominant sound component.
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
Methods and systems for frame rate scalability are described. Support is provided for input and output video sequences with variable frame rate and variable shutter angle across scenes, or for input video sequences with fixed input frame rate and input shutter angle, but allowing a decoder to generate a video output at a different output frame rate and shutter angle than the corresponding input values. Techniques allowing a decoder to decode more computationally-efficiently a specific backward compatible target frame rate and shutter angle among those allowed are also presented.
H04N 19/31 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage dans le domaine temporel
H04N 19/187 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couche de vidéo échelonnable
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/46 - Inclusion d’information supplémentaire dans le signal vidéo pendant le processus de compression
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
85.
METHODS AND DEVICES FOR ENCODING AND/OR DECODING IMMERSIVE AUDIO SIGNALS
The present document describes a method (700) for encoding a multi-channel input signal (201). The method (700) comprises determining (701) a plurality of downmix channel signals (203) from the multi-channel input signal (201) and performing (702) energy compaction of the plurality of downmix channel signals (203) to provide a plurality of compacted channel signals (404). Furthermore, the method (700) comprises determining (703) joint coding metadata (205) based on the plurality of compacted channel signals (404) and based on the multi-channel input signal (201), wherein the joint coding metadata (205) is such that it allows upmixing of the plurality of compacted channel signals (404) to an approximation of the multi-channel input signal (201). In addition, the method (700) comprises encoding (704) the plurality of compacted channel signals (404) and the joint coding metadata (205).
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/18 - Vocodeurs utilisant des modes multiples
86.
WRAPPED RESHAPING FOR CODEWORD AUGMENTATION WITH NEIGHBORHOOD CONSISTENCY
An input image of a first bit depth in an input domain is received. Forward reshaping operations are performed on the input image to generate a forward reshaped image of a second bit depth in a reshaping domain. An image container containing image data derived from the forward reshaped image is encoded into an output video signal of the second bit depth.
H04N 19/98 - Codage de plage-dynamique adaptative [ADRC]
H04N 19/105 - Sélection de l’unité de référence pour la prédiction dans un mode de codage ou de prédiction choisi, p.ex. choix adaptatif de la position et du nombre de pixels utilisés pour la prédiction
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
87.
INTER CODING USING DEEP LEARNING IN VIDEO COMPRESSION
Methods, systems, and bitstream syntax are described for inter-frame coding using end-to-end neural networks used in image and video compression. Inter-frame coding methods include one or more of: joint luma-chroma motion compensation for YUV pictures, joint luma-chroma residual coding for YUV pictures, using attention layers, enabling temporal motion prediction networks for motion vector prediction, using a cross-domain network which combines motion vector and residue information for motion vectors decoding, using the cross-domain network for decoding residuals, using weighted motion-compensated inter prediction, and using temporal only, spatial only, or both temporal and spatial features in entropy decoding. Methods to improve training of neural networks for inter-frame coding are also described.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/90 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques de codage non prévues dans les groupes , p.ex. les fractales
The present disclosure relates to a method and system for processing audio, as well as a computer program product comprising instructions which, when the program is executed by a computer, causes the computer to carry out the method. The method comprises obtaining an input audio signal and processing the input audio signal to extract a height audio object from the input audio signal, wherein the height audio object is extracted using a source separation module configured to extract an audio object of a predetermined height audio source type. The method further comprises rendering the input audio signal to a multi-channel presentation such that the at least one height audio object is included in at least one height channel of the multi-channel presentation.
H04S 5/00 - Systèmes pseudo-stéréophoniques, p.ex. dans lesquels les signaux d'un canal supplémentaire sont dérivés du signal monophonique par déphasage, retardement ou réverbération
elsdd. With the proposed approach, a "soft" separation of the real AIR into an early AIR and a late AIR. Specifically, the early AIR will decay to zero during a transition period d, while the late AIR will gradually increase from zero during the transition period. The sum of the early AIR and late AIR will still be equal to the real AIR.
H04S 7/00 - Dispositions pour l'indication; Dispositions pour la commande, p.ex. pour la commande de l'équilibrage
G10L 25/30 - Techniques d'analyses de la parole ou de la voix qui ne se limitent pas à un seul des groupes caractérisées par la technique d’analyse utilisant des réseaux neuronaux
90.
FRAME-LEVEL PERMUTATION INVARIANT TRAINING FOR SOURCE SEPARATION
Described is a method of training a deep-learning-based system for sound source separation. The system comprises a separation stage for frame-wise extraction of representations of sound sources from a representation of an audio signal, and a clustering stage for generating, for each frame, a vector indicative of an assignment permutation of extracted frames of representations of sound sources to respective sound sources. The representation of the audio signal is a waveform-based representation. The separation stage is trained using frame-level permutation invariant training. Further, the clustering stage is trained to generate embedding vectors for the frames of the audio signal that allow to determine estimates of respective assignment permutations between extracted sound signals and labels of sound sources that had been used for the frames. Also described is a method of using the deep-learning-based system for sound source separation.
A method for compressing a HOA signal being an input HOA representation with input time frames (C(k)) of HOA coefficient sequences comprises spatial HOA encoding of the input time frames and subsequent perceptual encoding and source encoding. Each input time frame is decomposed (802) into a frame of predominant sound signals (XPS(k−1)) and a frame of an ambient HOA component ({tilde over (C)}AMB(k−1)). The ambient HOA component ({tilde over (C)}AMB(k−1)) comprises, in a layered mode, first HOA coefficient sequences of the input HOA representation (cn(k−1)) in lower positions and second HOA coefficient sequences (cAMB,n(k−1)) in remaining higher positions. The second HOA coefficient sequences are part of an HOA representation of a residual between the input HOA representation and the HOA representation of the predominant sound signals.
H04S 3/00 - Systèmes utilisant plus de deux canaux, p.ex. systèmes quadriphoniques
G10L 19/008 - Codage ou décodage du signal audio multi-canal utilisant la corrélation inter-canaux pour réduire la redondance, p.ex. stéréo combinée, codage d’intensité ou matriçage
G10L 19/24 - Codecs à débit variable, p.ex. pour générer différentes qualités en utilisant une représentation évolutive comme le codage hiérarchique ou le codage par couches
H04S 7/00 - Dispositions pour l'indication; Dispositions pour la commande, p.ex. pour la commande de l'équilibrage
92.
SIGNAL RESHAPING AND CODING FOR HDR AND WIDE COLOR GAMUT SIGNALS
In a method to improve the coding efficiency of high-dynamic range (HDR) images, a decoder parses sequence processing set (SPS) data from an input coded bitstream to detect that an HDR extension syntax structure is present in the parsed SPS data. It extracts from the HDR extension syntax structure post-processing information that includes one or more of a color space enabled flag, a color enhancement enabled flag, an adaptive_reshaping_enabled_flag, a dynamic range conversion flag, a color correction enabled flag, or an SDR_viewable_flag. It decodes the input bitstream to generate a preliminary output decoded signal, and generates a second output signal based on the preliminary output signal and the post-processing information.
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/186 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une couleur ou une composante de chrominance
H04N 19/30 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant des techniques hiérarchiques, p.ex. l'échelonnage
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
Image-processing technique directed at improving the quality of viewable images generated by rendering a multiplane image having a plurality of pixels and represented by a plurality of layers corresponding to different respective distances from the reference camera position. In an example embodiment, the image-processing technique includes one or more of the following operations: (A) for a first set of pixels, scaling respective weights of the layers to cause a sum of the scaled weights to be normalized to one; (B) for a second set of pixels, replacing respective alpha and texture values in the layers by the corresponding local average values; and (C) for a third set of pixels, scaling corresponding texture values in the layers such that, for the resulting viewable image rendered for the reference camera position, texture values of the third set match the respective texture values of the source image captured from the reference camera position.
Embodiments are disclosed for timestamp smoothing to remove jitter. In some embodiments, a method of smoothing timestamps associated with audio packets comprises: receiving, using at least one processor, a series of input timestamps for audio packets and their respective packet lengths; estimating, using the at least one processor, an initial timestamp based on the series of input timestamps, the packet lengths and a sample time; calculating, using the at least one processor, a predicted timestamp based on the estimated initial timestamp; and smoothing, using the at least one processor, the predicted timestamp.
H04L 47/283 - Commande de flux; Commande de la congestion par rapport à des considérations temporelles en réponse à des retards de traitement, p.ex. causés par une gigue ou un temps d'aller-retour [RTT]
H04L 43/106 - Surveillance active, p.ex. battement de cœur, utilitaire Ping ou trace-route en utilisant des informations liées au temps dans des paquets, p.ex. en ajoutant des horodatages
H04L 41/147 - Analyse ou conception de réseau pour prédire le comportement du réseau
95.
SUBBAND DOMAIN ACOUSTIC ECHO CANCELLER BASED ACOUSTIC STATE ESTIMATOR
Some implementations involve receiving, from a first subband domain acoustic echo canceller (AEC) of a first audio device in an audio environment, first adaptive filter management data from each of a plurality of first adaptive filter management modules, each first adaptive filter management module corresponding to a subband of the first subband domain AEC, each first adaptive filter management module being configured to control a first plurality of adaptive filters. The first plurality of adaptive filters may include at least a first adaptive filter type and a second adaptive filter type. Some implementations involve extracting, from the first adaptive filter management data, a first plurality of extracted features corresponding to a plurality of subbands of the first subband domain AEC and estimating a current local acoustic state based, at least in part, on the first plurality of extracted features.
A method, an apparatus, and logic to post-process raw gains determined by input processing to generate post-processed gains, comprising using one or both of delta gain smoothing and decision-directed gain smoothing. The delta gain smoothing comprises applying a smoothing filter to the raw gain with a smoothing factor that depends on the gain delta: the absolute value of the difference between the raw gain for the current frame and the post-processed gain for a previous frame. The decision-directed gain smoothing comprises converting the raw gain to a signal-to-noise ratio, applying a smoothing filter with a smoothing factor to the signal-to-noise ratio to calculate a smoothed signal-to-noise ratio, and converting the smoothed signal-to-noise ratio to determine the second smoothed gain, with smoothing factor possibly dependent on the gain delta.
G10L 21/0364 - Amélioration de l'intelligibilité de la parole, p.ex. réduction de bruit ou annulation d'écho en changeant l’amplitude pour améliorer l'intelligibilité
G10L 21/0316 - Amélioration de l'intelligibilité de la parole, p.ex. réduction de bruit ou annulation d'écho en changeant l’amplitude
G10K 11/16 - Procédés ou dispositifs de protection contre le bruit ou les autres ondes acoustiques ou pour amortir ceux-ci, en général
H03G 3/32 - Commande automatique dans des amplificateurs comportant des dispositifs semi-conducteurs le réglage dépendant du niveau de bruit ambiant ou du niveau sonore ambiant
G10L 21/0224 - Traitement dans le domaine temporel
An encoding device evaluates a plurality of processing and/or post-processing algorithms and/or methods to be applied to a video stream, and signals a selected method, algorithm, class or category of methods/algorithms either in an encoded bitstream or as side information related to the encoded bitstream. A decoding device or post-processor utilizes the signaled algorithm or selects an algorithm/method based on the signaled method or algorithm. The selection is based, for example, on availability of the algorithm/method at the decoder/post-processor and/or cost of implementation. The video stream may comprise, for example, downsampled multiplexed stereoscopic images and the selected algorithm may include any of upconversion and/or error correction techniques that contribute to a restoration of the downsampled images.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/80 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p.ex. pour l'interpolation de pixels
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
H04N 13/172 - Traitement de signaux d’images les signaux d’images comprenant des composantes non requises pour l’affichage de l’image, p.ex. des titres ou des informations sur le format
H04N 13/178 - Métadonnées, p.ex. informations sur la disparité
H04N 13/218 - Générateurs de signaux d’images utilisant des caméras à images stéréoscopiques utilisant un seul capteur d’images 2D utilisant le multiplexage spatial
H04N 19/154 - Qualité visuelle après décodage mesurée ou estimée de façon subjective, p.ex. mesure de la distorsion
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/44 - Décodeurs spécialement adaptés à cet effet, p.ex. décodeurs vidéo asymétriques par rapport à l’encodeur
H04N 19/895 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre des procédés ou des dispositions de détection d'erreurs de transmission au niveau du décodeur combiné à la dissimulation d’erreurs
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/86 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la diminution des artéfacts de codage, p.ex. d'artéfacts de blocs
H04N 21/434 - Désassemblage d'un flux multiplexé, p.ex. démultiplexage de flux audio et vidéo, extraction de données additionnelles d'un flux vidéo; Remultiplexage de flux multiplexés; Extraction ou traitement de SI; Désassemblage d'un flux élémentaire mis en paquets
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/587 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage ou une interpolation temporels, p.ex. décimation ou interpolation subséquente d’images dans une séquence vidéo
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/423 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p.ex. la mise en œuvre de logiciels spécialisés caractérisés par les dispositions des mémoires
An encoding device evaluates a plurality of processing and/or post-processing algorithms and/or methods to be applied to a video stream, and signals a selected method, algorithm, class or category of methods/algorithms either in an encoded bitstream or as side information related to the encoded bitstream. A decoding device or post-processor utilizes the signaled algorithm or selects an algorithm/method based on the signaled method or algorithm. The selection is based, for example, on availability of the algorithm/method at the decoder/post-processor and/or cost of implementation. The video stream may comprise, for example, downsampled multiplexed stereoscopic images and the selected algorithm may include any of upconversion and/or error correction techniques that contribute to a restoration of the downsampled images.
H04N 19/597 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif spécialement adapté pour l’encodage de séquences vidéo multi-vues
H04N 19/80 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - Détails des opérations de filtrage spécialement adaptées à la compression vidéo, p.ex. pour l'interpolation de pixels
H04N 19/17 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet
H04N 13/161 - Encodage, multiplexage ou démultiplexage de différentes composantes des signaux d’images
H04N 13/172 - Traitement de signaux d’images les signaux d’images comprenant des composantes non requises pour l’affichage de l’image, p.ex. des titres ou des informations sur le format
H04N 13/178 - Métadonnées, p.ex. informations sur la disparité
H04N 13/218 - Générateurs de signaux d’images utilisant des caméras à images stéréoscopiques utilisant un seul capteur d’images 2D utilisant le multiplexage spatial
H04N 19/154 - Qualité visuelle après décodage mesurée ou estimée de façon subjective, p.ex. mesure de la distorsion
H04N 19/85 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo
H04N 19/44 - Décodeurs spécialement adaptés à cet effet, p.ex. décodeurs vidéo asymétriques par rapport à l’encodeur
H04N 19/895 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre des procédés ou des dispositions de détection d'erreurs de transmission au niveau du décodeur combiné à la dissimulation d’erreurs
H04N 19/70 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques caractérisés par des aspects de syntaxe liés au codage vidéo, p.ex. liés aux standards de compression
H04N 19/86 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le pré-traitement ou le post-traitement spécialement adaptés pour la compression vidéo mettant en œuvre la diminution des artéfacts de codage, p.ex. d'artéfacts de blocs
H04N 21/434 - Désassemblage d'un flux multiplexé, p.ex. démultiplexage de flux audio et vidéo, extraction de données additionnelles d'un flux vidéo; Remultiplexage de flux multiplexés; Extraction ou traitement de SI; Désassemblage d'un flux élémentaire mis en paquets
H04N 19/176 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant un bloc, p.ex. un macrobloc
H04N 19/587 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage prédictif mettant en œuvre un sous-échantillonnage ou une interpolation temporels, p.ex. décimation ou interpolation subséquente d’images dans une séquence vidéo
H04N 19/172 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques utilisant le codage adaptatif caractérisés par l’unité de codage, c. à d. la partie structurelle ou sémantique du signal vidéo étant l’objet ou le sujet du codage adaptatif l’unité étant une zone de l'image, p.ex. un objet la zone étant une image, une trame ou un champ
H04N 19/423 - Procédés ou dispositions pour le codage, le décodage, la compression ou la décompression de signaux vidéo numériques - caractérisés par les détails de mise en œuvre ou le matériel spécialement adapté à la compression ou à la décompression vidéo, p.ex. la mise en œuvre de logiciels spécialisés caractérisés par les dispositions des mémoires
99.
MULTI-HALF-TONE IMAGING AND DUAL MODULATION PROJECTION/DUAL MODULATION LASER PROJECTION
Smaller halftone tiles are implemented on a first modulator of a dual modulation projection system. This techniques uses multiple halftones per frame in the pre-modulator synchronized with a modified bit sequence in the primary modulator to effectively increase the number of levels provided by a given tile size in the halftone modulator. It addresses the issue of reduced contrast ratio at low light levels for small tile sizes and allows the use of smaller PSFs which reduce halo artifacts in the projected image and may be utilized in 3D projecting and viewing.
H04N 9/31 - Dispositifs de projection pour la présentation d'images en couleurs
G09G 3/20 - Dispositions ou circuits de commande présentant un intérêt uniquement pour l'affichage utilisant des moyens de visualisation autres que les tubes à rayons cathodiques pour la présentation d'un ensemble de plusieurs caractères, p.ex. d'une page, en composant l'ensemble par combinaison d'éléments individuels disposés en matrice
Methods, systems, and media for processing audio are provided. In some embodiments, a method involves receiving, from a plurality of microphones, an input audio signal. The method may involve identifying an angle of arrival associated with the input audio signal. The method may involve determining a plurality of gains corresponding to a plurality of bands of the input audio signal based on a combination of at least: 1) a representation of a covariance of signals associated with microphones of the plurality of microphones on a per-band basis; and 2) the angle of arrival. The method may involve applying the plurality of gains to the plurality of bands of the input audio signal such that at least a portion of the input audio signal is suppressed to form an enhanced audio signal.
G10L 21/0264 - Filtration du bruit caractérisée par le type de mesure du paramètre, p.ex. techniques de corrélation, techniques de passage par zéro ou techniques prédictives
G10L 21/0216 - Filtration du bruit caractérisée par le procédé d’estimation du bruit