[go: up one dir, main page]

WO2015012720A1 - Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method - Google Patents

Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method Download PDF

Info

Publication number
WO2015012720A1
WO2015012720A1 PCT/RU2013/001055 RU2013001055W WO2015012720A1 WO 2015012720 A1 WO2015012720 A1 WO 2015012720A1 RU 2013001055 W RU2013001055 W RU 2013001055W WO 2015012720 A1 WO2015012720 A1 WO 2015012720A1
Authority
WO
WIPO (PCT)
Prior art keywords
stream
streams
links
database
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/RU2013/001055
Other languages
French (fr)
Russian (ru)
Inventor
Денис Олегович ОРЕЛ
Алексей Николаевич ФОМИЧЕВ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OBSHCHESTVO S OGRANICHENNOY OTVETSTVENNOSTYU "BALAKAM"
Original Assignee
OBSHCHESTVO S OGRANICHENNOY OTVETSTVENNOSTYU "BALAKAM"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OBSHCHESTVO S OGRANICHENNOY OTVETSTVENNOSTYU "BALAKAM" filed Critical OBSHCHESTVO S OGRANICHENNOY OTVETSTVENNOSTYU "BALAKAM"
Publication of WO2015012720A1 publication Critical patent/WO2015012720A1/en
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Definitions

  • the present invention relates to computer and network technologies, namely, to search engines on the Internet, the purpose of which is to download, analyze, save and index Web pages containing targeted content, which is, for example, a real-time multimedia stream or, so called "live" stream or "live” content.
  • the invention relates to a technology for rechecking web pages previously found by search robots on the Internet that host real-time multimedia streams.
  • rechecking is carried out according to a schedule that determines the order (using the coefficient of significance for the page) and the period (frequency) of rechecking. All web pages containing real-time multimedia streams should be double-checked for a certain period in order to store up-to-date data in the search system in order to further provide the user with the ability to search.
  • the invention can be applied both to search for specific media objects (on-line radio streams, streams from webcams, video streams, etc.), and to search for objects in the form of links to external sources of a certain type, signaling the presence of target audio and / or real-time video content, for example, data transfer schemes - rtmp, rtsp, mms, etc.
  • search engines are widely known and massively used in the world, which provide users with the ability to search the Internet for web pages containing the information they need for the search queries they enter.
  • Popular search engines are, in particular, Yahoo!, Google, Yandex, Rambler.
  • search engines The general principle of operation of well-known search engines is based on the collection of information on web pages on the Internet, its processing and indexing to • further provide the user with the opportunity to search for the necessary information to the extent that has been processed by the search engine.
  • Each search engine includes search robots, the purpose of which is to scan web pages on the Internet and load them. After the search robot contacts the specified web page address, it scans, for example, http-headers, checking when the page was last modified. If the search robot has already viewed this web page, and the date of the last modification of the page has changed, then it will load it again for processing, if the web page it browses has not been viewed at all, then it will be immediately loaded for processing.
  • Web pages loaded by the search robot are processed by the corresponding software and hardware components of the search engine.
  • the purpose of this processing is to analyze the page: as a rule, the title is first extracted from the web page, since it carries general information about the web page. Next, all the text is extracted and processed, which is somehow highlighted, for example, in italics, underline or size (in particular, its font size is larger than the font size of the main text), since the search engine assumes that these are key places in the text and they are emphasized .
  • Some search engines look at the meta tags of web pages, suggesting that they contain keywords or phrases on the page. At the same time, since the content of meta tags is often given inaccurate information, some search engines do not use them to determine the keywords of the page.
  • the entire text of the web page is fully processed.
  • those search engines that do not use meta tags to determine the keywords of a web page search for keywords by checking for how often a particular word appears in the text, and for this all “stop words” are removed from the text such as ⁇ a>, ⁇ he>, ⁇ you>, ⁇ b>, as well as all the characters and numbers, as they create noise when searching for keywords.
  • the processed text of the web page is properly indexed by the search engine so as to provide the user with a web interface (for example, a browser) the ability to conveniently search the search engine database based on the input of search queries.
  • a web interface for example, a browser
  • search engines constructed in this way cease to meet today's requirements due to the ever-increasing volume and variety of information presented on the Internet.
  • an extensive resulting list of web pages is produced in which the proportion of pages that truly meet the requirements and requirements of the user is small, since this list , due to the specifics of the search engines described, those web pages that contain mentions, discussions, advertisements, reviews about pictures or videos, but do not directly contain the search pictures or and video.
  • the proportion of relevant web pages for such specific searches will only decrease, and as a result, users will be forced to build repeated search queries and spend time sifting through large arrays of search results.
  • This problem determines the relevance of creating specialized (so-called, vertical) search engines that are strictly focused on searching on thematic Internet resources, including a system for re-checking found objects according to a special schedule.
  • the invention provides a method for constructing a re-check schedule for web documents based on information about the document being checked.
  • the frequency of change of the web document itself is determined based on the history of its previous check, which allows one to determine the time interval within which the web document has changed, and based on this information, calculate the optimal time interval for double-checking it.
  • the known solution is based on double-checking all possible web documents on the Internet. This decision does not take into account the possibility of excluding non-target data from verification. Also, such a solution requires storing the history of a previous check of web documents, which is a highly costly solution, given the amount of data available on the Internet. Moreover, in the well-known technical solution, there is no possibility of making a decision on rechecking operatively, since the construction of a rechecking schedule is based on the history of the previous page check.
  • the objective of the present invention is to provide a method and system focused on identifying web pages with link (s) to the real-time multimedia stream based on the results of checking an array of web pages according to a specific schedule.
  • the technical result of the invention is to increase the efficiency (including performance) of detecting multimedia streams in real time, the links to which are contained in the checked web pages, as well as reducing the number of resource-intensive operations (optimization of the used computing and network resources) used in checking the web pages that do not contain such content, as well as reducing the time to save and maintain data up to date, while increasing the reliability of the results.
  • the inventive method can be implemented with significantly lower costs, including temporary (in comparison with well-known counterparts) required to search for web pages with target content while increasing the relevance of the detected web pages to the presence of the target content.
  • the results produced by the search program practically do not contain information noise.
  • the results obtained correspond to the search criteria of the real-time multimedia content set by the user and contain only reliable content, so the user spends less time filtering the search results.
  • a web page is a file directly containing the text of the web page and / or a script file associated with this web page.
  • Downloading a web page by reference can be done by emulating the operation of a web browser by building a model of a web document and creating all objects that potentially contain links to multimedia streams.
  • the period of checking links to streams from the database of streams having the status of a multimedia stream of real time to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, can be selected from the interval of values 2-5 minutes.
  • the state of the stream is determined based on whether it is on or off.
  • the relationship database has a structure showing that a link to a web page belongs to one or more links to multimedia streams, while in the relationship database, streams that are of the type of real-time multimedia streams are noted.
  • characteristics of the stream a description of the multimedia stream and technical characteristics of the stream can be used.
  • a description of a multimedia stream use the text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and displaying its essence.
  • bitrate, format, information about audio or video codecs or any other technical characteristics of the stream are used.
  • the availability of web pages is additionally determined, and if inaccessible web pages are detected, an appropriate check mark is made in the check schedule. If an unavailable web page is in this state for a week, the link to this web page is excluded from the scan schedule.
  • T con st is the specified check period, for example, 24 hours
  • T m j n the minimum validation period
  • a computer-implemented system for checking web pages for the presence of multimedia streams in real time includes:
  • Schedule database including a list of links to web pages with a period for each link and the procedure for checking it
  • Stream database including a list of links to multimedia streams, as well as information about the type, status and characteristics of streams,
  • Relationship database storing information about the affiliation of the multimedia stream to the corresponding web page, as well as the type of multimedia stream
  • Data loading module configured to download web pages via a link from the schedule database and analyze downloaded web pages for links to multimedia streams in them
  • a data management module configured to save multimedia streams of links found by the data loading module to the database streams, as well as saving and / or changing information about the relationship between the multimedia stream and the web page in the relationship database,
  • a module for checking streams from a database of streams configured to determine the type of a multimedia stream, as well as periodically check references to multimedia streams in real time to detect changes in the type of stream and / or in the state and / or characteristics of the stream, followed by storing the received information in the stream database
  • a flow control module configured to detect changes made to the flows database, followed by recording information about changes in the relationships database
  • Schedule management module configured to change the schedule in the schedule database by adding new links to web pages into it, on which links to real-time multimedia streams are revealed, and / or by changing the check period for existing links to web pages in the schedule, for which there are changes in the stream, and / or changes in the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to The present, while maintaining the verification period; when detecting changes in the type and / or status of the stream associated with an increase in the number of links to real-time multimedia streams on a web page, the verification period is reduced, and when the number of links to real-time multimedia streams on a web page is reduced, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes equal to zero, this link to a web page is excluded from the scan schedule.
  • the data loading module is also configured to emulate the operation of a web browser by building a model of a web document and creating all objects potentially containing links to multimedia streams. Additionally, the data loading module is configured to determine the availability of a web page, and in case of unavailable web pages, information about this is recorded in the schedule database. If an unavailable web page is in this state for a week, the schedule management module is implemented with the ability to exclude links to this web page from the schedule database.
  • the module for checking streams is also configured to change the period for checking links to streams from the database of streams having the status of a multimedia stream of real time from 2 to 5 minutes. The module for checking flows when checking the status of a real-time stream determines whether a given stream is on or off.
  • a description of the multimedia stream and technical characteristics of the stream are present; as a description of a multimedia stream, there is a text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and showing its essence; as the technical characteristics of the stream there is bitrate, format, information about audio or video codecs or any other technical characteristics of the stream.
  • the data loading module is configured to download web pages and analyze them starting from a link to a web page from the schedule database that has the highest coefficient K.
  • a distinctive feature of the claimed technical solution is that the criterion for rechecking the web page (or web document) is not the web page itself, but the connection of this web page with a link to the real-time multimedia stream (or information about the multimedia stream belonging to the web -page).
  • the criterion for checking a web page is the presence in this page of a link to a multimedia server that broadcasts the multimedia stream in real time.
  • the claimed solution allows you to dynamically exclude or include from the check web pages that link to multimedia streams in case of data changes in the type, condition or characteristics of the stream, for example, if the multimedia stream Since real-time is disabled, then all web pages that link to this stream are excluded from re-checking. This decision is based not on the dynamics of changes in these web pages, but on an independent resource, such as a multimedia server, changes in which lead to a double-check of the web page that refers to this multimedia resource.
  • FIG. 1 presents a block diagram of the inventive system for checking web pages for the presence of a multimedia stream of real time
  • FIG. 2 is a flowchart showing a flowchart of calculating web page verification parameters
  • Fig. 3 shows a mapping of a link to a web page with links to multimedia streams
  • figure 4 presents an example of linking links to web pages and links to streams
  • figure 5 is an example of data communication after re-verification
  • figure 6 presents the algorithm for storing threads in the database of threads
  • figure 7 presents the display of changes in the structure of relations;
  • 1 a schematic representation of the movement of data between the modules of the system; 2 - data loading module, receiving links to web pages from the database of schedule 9; 3 - a data management module that creates and modifies associative links between links to web pages and links to multimedia streams; 4 - stream database, which contains links to multimedia streams and all information about them; 5 is a module for checking streams, which determines the type, status and characteristics of the multimedia stream; 6 is a database of relationships, which stores relevant associative links between links to web pages and links to multimedia streams; 7 is a flow control module that detects changes in the type, condition, or characteristics of flows in a stream database 4, followed by a record of changes in the relationship database 6; 8 - schedule management module, which makes changes to the schedule database 9 by adding new records to it or by modifying existing records; 9 - schedule database, which contains a list of links to web pages with a period for checking it for each link and the verification procedure.
  • the claimed invention allows to optimize the scan schedule of web pages that contain links to real-time multimedia streams by calculating the optimal scan period. Changing the validation period of a web page is based on the change:
  • - type of multimedia stream - is the link to the multimedia stream a real-time stream; and / or
  • the basis for calculating the period of checking the web page are multimedia streams of real time, located on the web page.
  • Search robots find web pages on the Internet that host multimedia streams. All web pages containing real-time multimedia streams should be re-checked for a certain period in order to store up-to-date data in the search engine related to the checked web page to further enable the user to search.
  • the schedule is used, which is located in the database of schedule 9, in which the coefficient of significance for the checked link to the web page is set, as well as the period of verification and the time of the end of the last check and the start of the next check. All links to web pages containing multimedia streams are stored in the system in the schedule database 9. The streams located on the page are checked to determine their membership in real-time multimedia streams.
  • the purpose of re-checking web pages is to search on web pages for new links to multimedia streams and confirm the presence on the web page of links to multimedia streams found during the previous check of the web page, as well as updating the availability of the page and the information contained on it that displays it essence.
  • Data loading module 2 receives a list of links to web pages, which must be checked in accordance with the schedule from schedule database 9.
  • the loaded pages of data loading module 2 are analyzed, which searches for multimedia links to streams.
  • information related to the multimedia stream is extracted in the form of a text description, which in the future used as part of the media stream description.
  • the obtained information of the downloaded and analyzed web page and the links to the multimedia streams found in it is transmitted to the data management module 3.
  • the data management module stores the found links to the multimedia streams in the stream database 4.
  • the data management module receives information from the database of streams 4 about the current type of multimedia stream to mark in the database of relationships 6.
  • the module data management 3 begins to check and make changes to the database linkages 6:
  • All multimedia streams located in the database of streams 4 are checked by the streaming check module 5. All new streams are checked to identify real-time multimedia streams, as well as all multimedia streams that are defined as real-time streams and are in working (on) state, or were in the on state, but currently turned off. A regular check of multimedia streams in real-time status is carried out in order to store relevant information about streams, in the framework of which it is determined:
  • the status of the multimedia stream (for example, the server transmitting the multimedia stream is on or off); • Specifications and a description of the multimedia stream, as well as track their changes.
  • the flow control module 7 receives from the stream database 4 a list of real-time multimedia streams that have changes in type, and / or status, and / or technical characteristics, and / or description. Next, the flow control module 7 makes a note of the changes in the relationship database 6 for all links to web pages that have associative links with the resulting list of multimedia streams. It should be noted that with a single link to a multimedia stream can be associated with many links to web pages.
  • Schedule management module 8 retrieves a list of links to web pages from the relationship database 6, for which there is a mark on changes in real-time multimedia streams. For the received links to web pages, the degree of changes in the flow is determined, the significance coefficient is calculated, and the verification period is also calculated.
  • Schedule management module 8 saves the results to the database of schedule 9 for the received list of links to web pages, changing the start time of the next check for links to web pages, and also adds or excludes links to web pages from re-checking. Links available for download on schedule 9 are sent for download and analysis to data loading module 2.
  • the algorithm for checking links to streams from the database of streams for the presence of multimedia streams in them in real time includes the following steps:
  • protocol headers can be additionally used.
  • the value of the parameter characterizing the duration of the stream (Duration) is in the range from zero to the specified limit, reconnect to the media server and determine the values of this parameter and the parameter characterizing the position from which playback starts (Start Time), which compared with the values of similar parameters obtained during the initial connection, and if at least one of the parameter values does not match, it is concluded that the analyzed stream is the source multimedia broadcasting in real time; in case the parameter values coincide, they search for signs of the multimedia stream in the server response headers, upon detection of which they conclude that the stream being checked is a multimedia source broadcast in real time.
  • the established limit of the values of the parameter characterizing the duration of the flow is selected experimentally and can be in the range of values from 5 to 9 hours.
  • the server has not received the values of the stream duration and / or playback position parameters, it is concluded that the stream being checked is a multimedia source broadcast in real time.
  • the thread verification module for implementing the above algorithm contains:
  • a multimedia client configured to connect to a media server via a link and download information about the media stream, including the characteristics of the stream in a given format and / or a specific part of the stream, intended for playback on the client side and / or information about the protocol headers received from the server ,
  • - a unit for analyzing information about the media stream, which is configured to check the received information about the media stream, which consists in searching for signs indicating that the analyzed stream is a multimedia source broadcast in real time, where any sequence is used as the signs characters or bytes in the media stream, based on which they conclude that the media stream meets the criterion of "live" stream.
  • Such applications as MPlayer or VLC media player can be used, as well as any other product, including a self-developed multimedia client, configured to communicate, process and provide the necessary information.
  • the technology for determining the type of stream consists in analyzing meta-information obtained from the media stream itself.
  • the media client connects to the media server, after which receives from him meta-information about the stream in a given format, as well as a certain part of the stream intended for playback on the client side.
  • the received meta-information, as well as the transmitted media stream buffer pass the verification stage in order to determine the type of stream.
  • the main purpose of the check is to analyze the data and search for signs that indicate that the analyzed stream is a multimedia source, the broadcast of which is carried out in real time.
  • a characteristic feature of a “live” stream (content) is the inability to perform “fast forward” with respect to it using the means of a client playback application.
  • Typical examples of “live” AV content on the Internet are television (TV) and radio broadcasting on-air studios, special Internet broadcasting by professional and amateur studios, and images from a webcam for streaming broadcasting.
  • Schedule Management Module 8 determines the changes in the stream. If there are changes in the characteristics of the stream, which may include data such as a description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and showing its essence, as well as changes in the technical characteristics of the stream, such as bit rate, format, information about audio or video codecs, or any other technical characteristics of the stream, then for the checked link to the stream, the start time of the next check is set equal to the current th time. Setting the start time of the next link check to a web page equal to the current time causes the link to be checked immediately.
  • Schedule Control Module 8 changes the significance factor, period and time of the next check of the link to web pages. If the multimedia stream is on, then the significance coefficient of the link to the web page increases by one; if the stream was turned on and now it is off, the significance coefficient decreases by one. For example, for one link to a web page there may be more than one “working” stream, if there are three, then the coefficient of significance will accordingly be equal to three. In the particular case, the significance coefficient fully corresponds to the number of links to real-time multimedia streams located on a web page.
  • the conditions for determining the rules for choosing a significance factor for checking links on a web page may not depend on the number of links to real-time multimedia streams located at the specified address of the web page and, as a result, can be determined on the basis of other conditions. If the checked link to the web page has, for example, two links to real-time multimedia streams, and both links to the streams have state changes, for example, the streams have stopped working (are off), in this case, the link check value is per web page will be zero, which will exclude the page from scanning. Based on the significance coefficient, the period for checking the link to the web page is calculated, and the sequence of loading the web pages in the loading module 2, for which the time has come to check, is established.
  • the rule for calculating the validation period may vary, depending on the events that are the reason for the double-checking of the web page.
  • the proposed system can be implemented on one or more server computers, combined to jointly implement the prescribed functionality, while the above modules can be implemented in software and hardware components of these server computers, known to specialists and widely used in technology.
  • the above databases can be implemented on one or more commonly known computer-readable media, for example, hard disk drives, RAID arrays, solid state memory, etc.
  • the data download module can be connected and can interact with the Internet based on well-known wired and / or wireless network technologies and equipment, in particular, based on the protocol stack http / tcp / ip.
  • the operator can use any known terminal equipment that supports the ability to execute commands of the database interaction language (for example, SQL).
  • Such equipment may be, for example, a suitably configured personal / laptop / handheld computer.
  • the following are specific examples of the schedule for rechecking links to web pages with real-time multimedia streams placed on them.
  • the first example shows the appearance of new links on a web page in the schedule database 9.
  • the search engine found a new web page using the link l link, after analyzing which it was revealed that the page has two links to the multimedia streams Stream l and Stream_2.
  • Data management module 3 the information about the web page is transmitted, which contains various meta-information about the page itself and the detected links to multimedia streams (see Fig. 3).
  • the data management module sends links to the stream to the database of streams 4, where along with it it requests status for the transferred streams. If this link to the multimedia stream has already been transferred to the database of streams 4, then the data management module will receive information about it, if the link to the stream is new, then the stream information will remain unknown until it is verified by the streaming check module 5.
  • Next data management module 3 checks the information about the link Reference l in the relationship database 6 to determine the associative relationship of this link to a web page with links to multimedia streams obtained from a previous check of this page. If this link to a web page is not in the database of relationships (that is, new), then it will be added to it, where the link of this link to the web page and links to multimedia streams will be indicated (see Fig. 3).
  • Information about this link to a web page will remain unchanged in the database of relationships until links to the multimedia streams that were found on it are checked.
  • Database changes interrelations 6 and further work with this link to the web page will be carried out only if after checking the links to the streams it will be determined that at least one of them refers to links to multimedia streams in real time.
  • the module for checking streams 5 takes references to the verification from the database of streams 4, after which it determines that one of the links refers to multimedia streams in real time (see Table N ° 1).
  • the thread control module 7 requests information from the thread database 4 about real-time streams that have changes in type, state or characteristics. After the request, the flow control module 7 will receive a link to the stream Stream l, which will indicate that the stream has switched to the type of streams that belong to live streams (see table N ° 2).
  • the flow control module 7 makes a mark in the database of relationships 6 for all links to web pages that have a link to this link to a multimedia stream that this stream has switched to the status of a "live" stream.
  • the schedule management module 8 takes from the relationship database 6 all links to web pages that have changes in the type, state or characteristics of links to real-time streams.
  • Schedule management module 8 will receive a Reference l link for which the number of real-time streams and a mark on changes in the streams will be indicated (see table H).
  • Data loading module 2 receives from the database of schedule 9 (see table N ° 5) three links to web pages for which it is time to start the scan.
  • the reference_5 web page contains two links to real-time streams, while Reference_6 has a common stream with it, and the web page link Reference_7 contains an independent link to a stream that has no intersections with other web pages.
  • Data Download Module 2 downloads web pages from the specified links. After analyzing the content, links to streams that have the connection shown in FIG. 5 were found in the downloaded documents.
  • the found data is transmitted to the data management module 3.
  • the data management module sends the found links to the streams to the database of streams 4 in order to save new links to the streams and obtain information for already known streams (see Fig. 6).
  • the received information about streams from the stream database 4 indicates that the links to the stream Stream_10 and Stream_50 are checked and are real-time streams, the link Stream ll pointed to the real-time stream, is in the off state, a Stream_51 is a new link to a multimedia stream and requires verification by the stream verification module 5.
  • the data management module starts checking the previous association for the data of links to web pages in the relationship database 6. Based on the check, it is determined that some web pages have changed links to multimedia streams, which leads to changes in the associations in the relationship database 6 for these links to web pages (see FIG. 7).
  • the data management module notes that the web page at Reference_7 no longer contains a link to the Stream_12 stream and assigns new links to it, indicating that it contains Stream_50 and Stream_51 streams. Along with the changes in the associative relations, information on streams, which was obtained from the stream database 4. It is noted that the status of the stream ll link has changed, where it is indicated that the stream is turned off, and the links to Stream lO and Stream_50 streams are operational and are real-time multimedia streams. Since Stream_51 is a new link to a stream, there is no information for it that can affect changes in the schedule 9.
  • Schedule management module 8 requests links to web pages that have changes in real-time streams from the relationship database 6 (see table N ° 7)
  • the schedule management module makes changes to the schedule 9 database (see table N ° 8).
  • Reference_5 the significance coefficient decreases and, as a result, the period increases.
  • Reference_6 is excluded from the scan because it does not currently have real-time streams working.
  • Reference_7 There are currently no changes for Reference_7, since before the scheduled check this link to a web page had an associative connection with Stream_12, after checking it began to point to two streams, but the type of stream was known only for one link to the stream, the second link to the stream was new, therefore the significance coefficient for this link currently remains equal to 1.
  • Data loading module 2 revealed a new link to the Stream_51 stream for which the type was not determined, after it was checked by the thread verification module 5, Roedel that the link points to a live stream.
  • the flow control module 7 requests data from the database of streams 4 and receives information (see table N ° 9) that Stream_51 refers to multimedia links to real-time streams.
  • the flow control module makes changes to the relationship database 6, where for all links to web pages that have a link to Stream 51, a mark is made about the change in the type of stream.
  • Module Schedule Management 8 again requests from the relationship database 6 information about links to web pages that have changes in the type, state or characteristics of real-time streams and receives data (see table ° 10) about the changes for Reference_7.
  • the significance coefficient, the verification period and the time of the next verification start are calculated, after which changes are made to the database of schedule 9 (see table ⁇ ° 11).
  • Reference_7 Since Reference_7 now has 2 links to real-time streams, accordingly, it increases the significance coefficient and the recheck period changes, which leads to a change for the next time that the link to the web page is checked.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

The method for checking websites for the presence of real-time multimedia streams on said websites comprises downloading a website for checking the schedule, and analyzing the downloaded websites in respect of the presence of references to multimedia streams on said websites followed by storage of the references found in a database of streams, wherein information relating to the fact of a multimedia stream belonging to a website is stored in a database of interrelations. A check is then performed on the given streams for determining the type of streams, namely whether the multimedia stream is a real-time stream, and for identifying changes in the type of stream and/or the state of the stream and/or in the characteristics of the stream, with information relating to the changes subsequently being stored in the database of streams. Furthermore, a record of the fact of changes is made in the database of interrelations, new references to websites on which references to real-time multimedia streams have been identified are added to the schedule and/or the check period for references to websites for which changes in the stream have been identified which are already in the schedule is changed and/or the start time of a subsequent check is changed. The computer-implementable system comprises modules and databases which reproduce the algorithm of the method.

Description

СПОСОБ ПРОВЕРКИ ВЕБ-СТРАНИЦ НА НАЛИЧИЕ В НИХ  METHOD FOR checking WEB PAGES FOR AVAILABILITY IN THEM

МУЛЬТИМЕДИЙНЫХ ПОТОКОВ РЕАЛЬНОГО ВРЕМЕНИ И КОМПЬЮТЕРНО-РЕАЛИЗУЕМАЯ СИСТЕМА ДЛЯ ОСУЩЕСТВЛЕНИЯ  REAL-TIME MULTIMEDIA STREAMS AND COMPUTER-IMPLEMENTABLE SYSTEM FOR IMPLEMENTATION

СПОСОБА  METHOD

1. Область техники, к которой относится изобретение  1. The technical field to which the invention relates.

Настоящее изобретение относится к компьютерным и сетевым технологиям, а именно, к поисковым системам в Интернете, целью которых является загрузка, анализ, сохранение и индексация Веб-страниц, содержащих в себе целевой контент, представляющий собой, например, мультимедийный поток реального времени или, так называемый «живой» поток или «живой» контент.  The present invention relates to computer and network technologies, namely, to search engines on the Internet, the purpose of which is to download, analyze, save and index Web pages containing targeted content, which is, for example, a real-time multimedia stream or, so called "live" stream or "live" content.

Более конкретно, изобретение относится к технологии перепроверки веб- страниц, предварительно найденных поисковыми роботами в сети Интернет, на которых размещены мультимедийные потоки реального времени. При этом перепроверка осуществляется по расписанию, определяющему порядок (с использованием коэффициента значимости для страницы) и период (частоту) перепроверки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны быть перепроверены за определенный период с целью хранения в поисковой системе актуальных данных для дальнейшего предоставления пользователю возможности поиска.  More specifically, the invention relates to a technology for rechecking web pages previously found by search robots on the Internet that host real-time multimedia streams. In this case, rechecking is carried out according to a schedule that determines the order (using the coefficient of significance for the page) and the period (frequency) of rechecking. All web pages containing real-time multimedia streams should be double-checked for a certain period in order to store up-to-date data in the search system in order to further provide the user with the ability to search.

Изобретение может быть применено как для поиска специфических медиа- объектов (он-лайн радио потоков, потоков с веб-камер, видео потоков и др.), так и для поиска объектов в виде ссылок на внешние источники определенного вида, сигнализирующие о наличии целевого аудио и/или видео контента реального времени, например, схемы передачи данных - rtmp, rtsp, mms, и т.д.  The invention can be applied both to search for specific media objects (on-line radio streams, streams from webcams, video streams, etc.), and to search for objects in the form of links to external sources of a certain type, signaling the presence of target audio and / or real-time video content, for example, data transfer schemes - rtmp, rtsp, mms, etc.

2. Предшествующий уровень техники  2. The prior art

В настоящее время в мире широко известны и массово используются поисковые машины, которые обеспечивают пользователям возможность осуществлять в Интернете поиск веб-страниц, содержащих нужную для них информацию по вводимым ими поисковым запросам. Популярными поисковыми машинами являются, в частности, Yahoo !, Google, Yandex, Rambler.  Currently, search engines are widely known and massively used in the world, which provide users with the ability to search the Internet for web pages containing the information they need for the search queries they enter. Popular search engines are, in particular, Yahoo!, Google, Yandex, Rambler.

Общий принцип работы известных поисковых машин основан на сборе информации по веб-страницам в Интернете, её обработке и индексировании для дальнейшего предоставления пользователю возможности поиска необходимой информации в том объеме, который был обработан поисковой машиной. В состав каждой поисковой машины входят поисковые роботы, целью которых является сканирование веб-страниц Интернета и их загрузка. После обращения поискового робота по указанному адресу веб-страницы он просматривает, например, http- заголовки, проверяя, когда в последний раз была модифицирована эта страница. Если поисковый робот уже просматривал данную веб-страницу, а дата последней модификации страницы изменилась, тогда он загрузит её для обработки вновь, если же просматриваемая им веб-страница вообще не просматривалась, тогда она сразу будет загружена для обработки. The general principle of operation of well-known search engines is based on the collection of information on web pages on the Internet, its processing and indexing to further provide the user with the opportunity to search for the necessary information to the extent that has been processed by the search engine. Part Each search engine includes search robots, the purpose of which is to scan web pages on the Internet and load them. After the search robot contacts the specified web page address, it scans, for example, http-headers, checking when the page was last modified. If the search robot has already viewed this web page, and the date of the last modification of the page has changed, then it will load it again for processing, if the web page it browses has not been viewed at all, then it will be immediately loaded for processing.

Веб-страницы, загруженные поисковым роботом, обрабатываются соответствующими программно-аппаратными компонентами поисковой машины. Целью такой обработки является анализ страницы: как правило, вначале из веб- страницы извлекается заголовок (Title), поскольку он несет в себе общую информацию о веб-странице. Далее извлекается и обрабатывается весь текст, который так или иначе выделен, например, курсивом, подчеркиванием или размером (в частности, размер его шрифта больше размера шрифта основного текста), поскольку поисковая машина предполагает, что это ключевые места в тексте и на них сделан акцент.  Web pages loaded by the search robot are processed by the corresponding software and hardware components of the search engine. The purpose of this processing is to analyze the page: as a rule, the title is first extracted from the web page, since it carries general information about the web page. Next, all the text is extracted and processed, which is somehow highlighted, for example, in italics, underline or size (in particular, its font size is larger than the font size of the main text), since the search engine assumes that these are key places in the text and they are emphasized .

Некоторые поисковые машины просматривают метатеги веб-страниц, предполагая, что в них имеются ключевые слова или словосочетания страницы. В то же время, поскольку в содержимом метатегов зачастую дается недостоверная информация, некоторые поисковые машины не используют их для определения ключевых слов страницы.  Some search engines look at the meta tags of web pages, suggesting that they contain keywords or phrases on the page. At the same time, since the content of meta tags is often given inaccurate information, some search engines do not use them to determine the keywords of the page.

Также, весь текст веб-страницы подвергается полной обработке. Например, те поисковые машины, которые не используют метатеги для определения ключевых слов веб-страницы, ищут ключевые слова путем выполнения проверки на предмет того, как часто встречается то или иное слово в тексте, и для этого из текста удаляются все "стоп-слова", такие как <а>, <он>, <ты>, <в>, а также все символы и цифры, поскольку они создают шум при поиске ключевых слов.  Also, the entire text of the web page is fully processed. For example, those search engines that do not use meta tags to determine the keywords of a web page search for keywords by checking for how often a particular word appears in the text, and for this all “stop words” are removed from the text such as <a>, <he>, <you>, <b>, as well as all the characters and numbers, as they create noise when searching for keywords.

Наконец, обработанный текст веб-страницы индексируется поисковой системой надлежащим образом, так чтобы предоставить пользователю посредством веб-интерфейса (например, браузера) возможность удобного поиска по базе данных поисковой машины на основе ввода поисковых запросов.  Finally, the processed text of the web page is properly indexed by the search engine so as to provide the user with a web interface (for example, a browser) the ability to conveniently search the search engine database based on the input of search queries.

Более подробно структура и базовые принципы функционирования поисковых машин изложены, в частности, в "The anatomy of a large-scale hypertextual Web search engine", Brin, S., Page, L., Computer Networks and ISDN Systems, 30(1 -7): 107-1 17, 1998; "Effective Web Crawling", Castillo, C, PhD thesis, University of Chile, 2004; "Crawling the Web". Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P., Menczer, F., 2004. The structure and basic principles of the functioning of search engines are described in more detail, in particular, in "The anatomy of a large-scale hypertextual Web search engine ", Brin, S., Page, L., Computer Networks and ISDN Systems, 30 (1 -7): 107-1 17, 1998;" Effective Web Crawling ", Castillo, C, PhD thesis, University of Chile, 2004; "Crawling the Web." Web Dynamics: Adapting to Change in Content, Size, Topology and Use, ed. by M. Levene, A. Poulovassilis, 153-178, Pant, G., Srinivasan, P. , Menczer, F., 2004.

Однако, построенные таким образом поисковые машины перестают отвечать требованиям сегодняшнего дня в силу все увеличивающегося объема и разнообразия информации, представляемой в Интернете. В частности, при проведении такого основывающегося на тексте поиска веб-страниц, где содержались бы интересующие пользователя картинки или видео, выдается обширный результирующий список веб-страниц, в котором доля страниц, действительно отвечающих требованиям и запросам пользователя, оказывается невелика, поскольку в данный список, в силу специфики описываемых поисковых машин, также попадут те веб-страницы, которые содержат упоминания, обсуждения, рекламу, отзывы о картинках или видео, но не содержат непосредственно искомых картинок или видео. По мере же роста совокупного объема и разнообразия веб-контента в Интернете доля релевантных веб-страниц при таких специфических поисках будет лишь снижаться, и, как следствие, пользователи вынуждены строить неоднократные поисковые запросы и тратить время на просеивание больших массивов результатов поиска.  However, search engines constructed in this way cease to meet today's requirements due to the ever-increasing volume and variety of information presented on the Internet. In particular, when conducting such a text-based search of web pages that contain pictures or videos of interest to the user, an extensive resulting list of web pages is produced in which the proportion of pages that truly meet the requirements and requirements of the user is small, since this list , due to the specifics of the search engines described, those web pages that contain mentions, discussions, advertisements, reviews about pictures or videos, but do not directly contain the search pictures or and video. As the aggregate volume and variety of web content on the Internet grows, the proportion of relevant web pages for such specific searches will only decrease, and as a result, users will be forced to build repeated search queries and spend time sifting through large arrays of search results.

Этой проблемой обуславливается актуальность создания специализированных (так называемых, вертикальных) поисковых систем, строго ориентированных на поиск по тематическим ресурсам Интернета, включающих систему повторной проверки найденных объектов по специальному расписанию.  This problem determines the relevance of creating specialized (so-called, vertical) search engines that are strictly focused on searching on thematic Internet resources, including a system for re-checking found objects according to a special schedule.

В частности, из уровня техники известны технические решения, обеспечивающие построение расписаний повторной проверки веб-страниц с целью хранения и индексации актуальных данных, размещенных в сети Интернет (патент на изобретение US7886042B2). Данное решение относится к поисковым системам, выполненным с возможностью загрузки веб-страниц, их дальнейшим сохранением в базе данных и индексацией с целью предоставления конечному пользователю возможности поиска по сформированной базе данных. Повторная проверка веб- страниц приводит к сохранению в индексе актуальных данных. Поскольку объем данных в сети Интернет является огромным, задача повторной проверки требует поиска более оптимальных решений с целью экономии ресурсов и выявления целевых страниц для перепроверки. In particular, technical solutions are known from the prior art that provide scheduling of re-checking web pages in order to store and index relevant data posted on the Internet (patent for invention US7886042B2). This solution relates to search engines capable of loading web pages, their further storage in the database and indexing in order to provide the end user with the ability to search the generated database. Re-checking web pages keeps the current data in the index. Since the amount of data on the Internet is huge, the task of re-checking requires search for more optimal solutions in order to save resources and identify landing pages for double-checking.

Наиболее близким к заявляемому техническому решению является способ и система для повторной проверки веб-документов по расписанию, представленные в патенте на изобретение US8386459В 1 - «Scheduling a recrawb. В изобретении представлен способ, обеспечивающий построение расписания повторной проверки веб-документов, основываясь на информации о самом проверяемом документе. Согласно данному изобретению для построения расписания перепроверки веб- документа определяют частоту изменения самого веб-документа на основании истории его предыдущей проверки, что позволяет определить временной интервал, в рамках которого веб-документ изменялся, и, основываясь на данной информации, вычисляют оптимальный временной интервал для его перепроверки.  Closest to the claimed technical solution is a method and system for re-checking scheduled web documents presented in the patent for invention US8386459В 1 - “Scheduling a recrawb. The invention provides a method for constructing a re-check schedule for web documents based on information about the document being checked. According to the present invention, for constructing a web document rechecking schedule, the frequency of change of the web document itself is determined based on the history of its previous check, which allows one to determine the time interval within which the web document has changed, and based on this information, calculate the optimal time interval for double-checking it.

Однако известное решение основывается на перепроверке всех возможных веб-документов в сети Интернет. В данном решении не учитывается возможность исключения из проверки нецелевых данных. Так же подобное решение требует хранения истории предыдущей проверки веб-документов, что является высоко затратным решением, учитывая имеющиеся объемы данных в Интернете. Более того в известном техническом решении отсутствует возможность принятия решения о перепроверке оперативно, так как построение расписания перепроверки основано на истории предыдущей проверки страницы.  However, the known solution is based on double-checking all possible web documents on the Internet. This decision does not take into account the possibility of excluding non-target data from verification. Also, such a solution requires storing the history of a previous check of web documents, which is a highly costly solution, given the amount of data available on the Internet. Moreover, in the well-known technical solution, there is no possibility of making a decision on rechecking operatively, since the construction of a rechecking schedule is based on the history of the previous page check.

3. Раскрытие изобретения  3. Disclosure of invention

Задачей настоящего изобретения является создание способа и системы, ориентированных на выявление веб-страниц со ссылкой(ами) на мультимедийный поток реального времени по итогам проверки массива веб-страниц по определенному расписанию.  The objective of the present invention is to provide a method and system focused on identifying web pages with link (s) to the real-time multimedia stream based on the results of checking an array of web pages according to a specific schedule.

Техническим результатом изобретения является повышение эффективности (в т.ч. производительности) обнаружения мультимедийных потоков реального времени, ссылки на которые содержатся в проверяемых веб-страницах, а также снижение количества ресурсоёмких операций (оптимизация используемых вычислительных и сетевых ресурсов), применяемых при проверке веб-страниц, которые такой контент не содержат, а также сокращение времени на сохранение и поддержание данных в актуальном состоянии, при повышении достоверности получаемых результатов. Таким образом, заявляемый способ может быть реализован со значительно меньшими затратами, в т.ч. временными (по сравнению с известными аналогами), необходимыми для поиска веб-страниц с целевым контентом при повышении степени релевантности обнаруженных веб-страниц на наличие в них целевого контента. The technical result of the invention is to increase the efficiency (including performance) of detecting multimedia streams in real time, the links to which are contained in the checked web pages, as well as reducing the number of resource-intensive operations (optimization of the used computing and network resources) used in checking the web pages that do not contain such content, as well as reducing the time to save and maintain data up to date, while increasing the reliability of the results. Thus, the inventive method can be implemented with significantly lower costs, including temporary (in comparison with well-known counterparts) required to search for web pages with target content while increasing the relevance of the detected web pages to the presence of the target content.

При использовании заявляемого способа перепроверки веб-страниц, результаты, выдаваемые поисковой программой, практически не содержат информационного шума. Таким образом, получаемые результаты максимально соответствуют заданному пользователем критерию поиска мультимедийного контента реального времени и содержат только достоверное информационное наполнение, благодаря чему пользователь тратит меньше времени на фильтрацию результатов поиска.  When using the proposed method of double-checking web pages, the results produced by the search program, practically do not contain information noise. Thus, the results obtained correspond to the search criteria of the real-time multimedia content set by the user and contain only reliable content, so the user spends less time filtering the search results.

Поставленная задача решается тем, что способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно изобретению, осуществляют следующим образом:  The problem is solved in that the method of checking web pages for the presence of multimedia streams in real time, according to the invention, is as follows:

• загружают веб-страницы (например, в модуль загрузки данных) для проверки по расписанию, определяющему период и порядок (последовательность) проверки ссылок на веб-страницы,  • load web pages (for example, in the data loading module) for checking according to a schedule that determines the period and order (sequence) of checking links to web pages,

• анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей (или, другими словами, сохраняют взаимосвязь ссылок на веб- страницы и ассоциированных с ними ссылок на мультимедийные потоки), · при выявлении ссылок на мультимедийные потоки, отсутствующих в БД потоков, добавляют в БД потоков, после чего осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений, • при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки. • analyze downloaded web pages for the presence of links to multimedia streams in them and then save the found links to multimedia streams in the stream database, while information about the membership of the multimedia stream to the web page is stored in the relationship database (or, in other words, maintain the link relationship to web pages and their associated links to multimedia streams), · when identifying links to multimedia streams that are not in the stream database, add to the stream database, and then check the data streams to determine their type, whether the multimedia stream is a real-time stream or not, and also periodically check links to real-time streams located in the stream database to detect changes in the type of stream and / or state of the stream and / or in the characteristics flow, with the subsequent storage of information about changes in the database flows, while in the database of relationships make a note about the fact of changes, • at the same time, new links to web pages on which links to real-time multimedia streams are identified are added to the schedule, and / or the check period for existing links to web pages for which changes in the stream are detected are changed and / or are changed the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to the current one, if changes in the type and / or status of the stream are detected due to an increase in the number of links on the web page lock on real-time multimedia streams, the verification period is reduced, and if the number of links to real-time multimedia streams on a web page decreases, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes zero, this link to the web - The page is excluded from the scan schedule.

В заявляемом изобретении веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей.  In the claimed invention, a web page is a file directly containing the text of the web page and / or a script file associated with this web page.

Загрузка веб-страницы по ссылке может быть осуществлена посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки.  Downloading a web page by reference can be done by emulating the operation of a web browser by building a model of a web document and creating all objects that potentially contain links to multimedia streams.

Период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, может быть выбран из интервала значений 2-5 минут.  The period of checking links to streams from the database of streams having the status of a multimedia stream of real time to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, can be selected from the interval of values 2-5 minutes.

Состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.  The state of the stream is determined based on whether it is on or off.

БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.  The relationship database has a structure showing that a link to a web page belongs to one or more links to multimedia streams, while in the relationship database, streams that are of the type of real-time multimedia streams are noted.

В качестве характеристик потока могут быть использованы описание мультимедийного потока и технические характеристики потока. В качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока, или любые другие данные передающиеся в рамках потока и отображающие его суть. В качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока. As characteristics of the stream, a description of the multimedia stream and technical characteristics of the stream can be used. As a description of a multimedia stream, use the text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and displaying its essence. As the technical characteristics of the stream, bitrate, format, information about audio or video codecs or any other technical characteristics of the stream are used.

По итогам анализа загруженных веб-страниц дополнительно определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки. В случае, если недоступная веб- страница находится в данном состоянии в течение недели, ссылку на данную веб- страницу исключают из расписания проверки.  Based on the analysis of the loaded web pages, the availability of web pages is additionally determined, and if inaccessible web pages are detected, an appropriate check mark is made in the check schedule. If an unavailable web page is in this state for a week, the link to this web page is excluded from the scan schedule.

В одном из вариантов реализации для каждой ссылки на веб-страницу может быть определен коэффициент значимости (К), который может быть выбран равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки может быть вычислен исходя из соотношения Т= Tconst/K, где Tconst - заданный период проверки, например, 24 часа, и в случае, если Т < Tmjn, то

Figure imgf000009_0001
где Tmjn - минимально допустимый период проверки, например, 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки. При этом загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента (К). In one embodiment, for each link to a web page, a significance coefficient (K) can be determined, which can be chosen equal to the number of links to real-time multimedia streams on this page, and the verification period can be calculated based on the relation T = T con st / K, where T con st is the specified check period, for example, 24 hours, and if T <T m j n , then
Figure imgf000009_0001
where T m j n is the minimum validation period, for example, 1 hour, followed by storing the results for (K) and (T) in the scan schedule. In this case, the loading of web pages and their analysis is carried out starting with a link to a web page from the schedule that has the highest coefficient (K).

Поставленная задача решается также тем, компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени, включает:  The problem is also solved by the fact that a computer-implemented system for checking web pages for the presence of multimedia streams in real time includes:

БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки,  Schedule database, including a list of links to web pages with a period for each link and the procedure for checking it,

БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков,  Stream database, including a list of links to multimedia streams, as well as information about the type, status and characteristics of streams,

БД взаимосвязей, хранящую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока,  Relationship database storing information about the affiliation of the multimedia stream to the corresponding web page, as well as the type of multimedia stream,

Модуль загрузки данных, выполненный с возможностью загрузки веб- страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки,  Data loading module, configured to download web pages via a link from the schedule database and analyze downloaded web pages for links to multimedia streams in them,

Модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей, A data management module configured to save multimedia streams of links found by the data loading module to the database streams, as well as saving and / or changing information about the relationship between the multimedia stream and the web page in the relationship database,

Модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков,  A module for checking streams from a database of streams, configured to determine the type of a multimedia stream, as well as periodically check references to multimedia streams in real time to detect changes in the type of stream and / or in the state and / or characteristics of the stream, followed by storing the received information in the stream database

Модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей,  A flow control module, configured to detect changes made to the flows database, followed by recording information about changes in the relationships database,

Модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб- страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб- страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.  Schedule management module, configured to change the schedule in the schedule database by adding new links to web pages into it, on which links to real-time multimedia streams are revealed, and / or by changing the check period for existing links to web pages in the schedule, for which there are changes in the stream, and / or changes in the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to The present, while maintaining the verification period; when detecting changes in the type and / or status of the stream associated with an increase in the number of links to real-time multimedia streams on a web page, the verification period is reduced, and when the number of links to real-time multimedia streams on a web page is reduced, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes equal to zero, this link to a web page is excluded from the scan schedule.

Модуль загрузки данных также выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки. Дополнительно модуль загрузки данных выполнен с возможностью определения доступности веб- страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания. В случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием вьтолнен с возможностью исключения ссылки на данную веб-страницу из БД расписания. Модуль проверки потоков также выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени от 2 до 5 минут. Модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном. The data loading module is also configured to emulate the operation of a web browser by building a model of a web document and creating all objects potentially containing links to multimedia streams. Additionally, the data loading module is configured to determine the availability of a web page, and in case of unavailable web pages, information about this is recorded in the schedule database. If an unavailable web page is in this state for a week, the schedule management module is implemented with the ability to exclude links to this web page from the schedule database. The module for checking streams is also configured to change the period for checking links to streams from the database of streams having the status of a multimedia stream of real time from 2 to 5 minutes. The module for checking flows when checking the status of a real-time stream determines whether a given stream is on or off.

В БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока; в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока, или любые другие данные, передающиеся в рамках потока и отображающие его суть; в качестве технических характеристик потока присутствует битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.  In the stream database, as a stream characteristic, a description of the multimedia stream and technical characteristics of the stream are present; as a description of a multimedia stream, there is a text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and showing its essence; as the technical characteristics of the stream there is bitrate, format, information about audio or video codecs or any other technical characteristics of the stream.

Модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т= TCOnst/ , где TCOnst - заданный период проверки, например, 24 часа, и в случае, если Т < Tmjn, то T=Tmjn, где Tmjn - минимально допустимый период проверки, например, 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания. При этом модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К. The schedule management module is configured to determine a significance coefficient (K) for each link to a web page, which is chosen equal to the number of links on this page to real-time multimedia streams, and to calculate the verification period based on the relation T = T CO nst /, where T CO nst is the specified verification period, for example, 24 hours, and if T <T m j n , then T = T m j n , where T m j n is the minimum validation period, for example, 1 hour, s subsequent storage of the results for (K) and (T) in the schedule database. At the same time, the data loading module is configured to download web pages and analyze them starting from a link to a web page from the schedule database that has the highest coefficient K.

Отличительной особенностью заявляемого технического решения является то, что критерием для перепроверки веб-страницы (или веб-документа) является не сама веб-страница, а связь данной веб-страницы со ссылкой на мультимедийный поток реального времени (или информация о принадлежности мультимедийного потока к веб-странице). Критерием для проверки веб-страницы является наличие в данной странице ссылки на мультимедийный сервер, который вещает мультимедийный поток в реальном времени. Более того, заявляемое решение позволяет динамически исключать или включать из проверки веб-страницы, которые ссылаются на мультимедийные потоки в случае изменений данных в типе, состоянии или характеристиках потока, например, если мультимедийный поток реального времени отключается, то все веб-страницы, ссылающиеся на данный поток, исключаются из повторной проверки. Данное решение основывается не на динамике изменений данных веб-страниц, а на независимом ресурсе, таком как мультимедийный сервер, изменения в котором приводят к перепроверке веб- страницы, ссылающейся на данный мультимедийный ресурс. A distinctive feature of the claimed technical solution is that the criterion for rechecking the web page (or web document) is not the web page itself, but the connection of this web page with a link to the real-time multimedia stream (or information about the multimedia stream belonging to the web -page). The criterion for checking a web page is the presence in this page of a link to a multimedia server that broadcasts the multimedia stream in real time. Moreover, the claimed solution allows you to dynamically exclude or include from the check web pages that link to multimedia streams in case of data changes in the type, condition or characteristics of the stream, for example, if the multimedia stream Since real-time is disabled, then all web pages that link to this stream are excluded from re-checking. This decision is based not on the dynamics of changes in these web pages, but on an independent resource, such as a multimedia server, changes in which lead to a double-check of the web page that refers to this multimedia resource.

4. Краткое описание чертежей  4. Brief Description of the Drawings

Изобретение поясняется чертежами, где на фиг. 1 представлена блок-схема заявляемой системы проверки веб-страниц на наличие в них мультимедийного потока реального времени; на фиг. 2 представлена блок-схема, на которой отображена последовательность операций вычисления параметров проверки веб- страниц; на фиг.З представлено отображение связи ссылки на веб страницу со ссылками на мультимедийные потоки; на фиг.4 представлен пример связи ссылок на веб-страницы и ссылок на потоки; на фиг.5 - пример связи данных после повторной проверки; на фиг.6 представлен алгоритм сохранения потоков в базе данных потоков; на фиг.7 представлено отображение изменений в структуре связей;  The invention is illustrated by drawings, where in FIG. 1 presents a block diagram of the inventive system for checking web pages for the presence of a multimedia stream of real time; in FIG. 2 is a flowchart showing a flowchart of calculating web page verification parameters; Fig. 3 shows a mapping of a link to a web page with links to multimedia streams; figure 4 presents an example of linking links to web pages and links to streams; figure 5 is an example of data communication after re-verification; figure 6 presents the algorithm for storing threads in the database of threads; figure 7 presents the display of changes in the structure of relations;

Позициями на фиг. 1 обозначены: 1 - схематическое представление движения данных между модулями системы; 2 - модуль загрузки данных, получающий ссылки на веб-страницы из базы данных расписания 9; 3 - модуль управления данными, который создает и модифицирует ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 4 - база данных потоков, которая содержит ссылки на мультимедийные потоки и всю информацию о них; 5 - модуль проверки потоков, который определяет типа, статус и характеристики мультимедийного потока; 6 - база данных взаимосвязей, которая хранит актуальные ассоциативные связи между ссылками на веб-страницы и ссылками на мультимедийные потоки; 7 - модуль управления потоками, который выявляет изменения в типе, состоянии или характеристиках потоков в базе данных потоков 4 с последующей записью об изменениях в базе данных взаимосвязей 6; 8 - модуль управления расписанием, который вносит изменения в базу данных расписания 9 посредствам добавления в неё новых записей или посредствам модификаций уже существующих записей; 9 - база данных расписания, которая содержит список ссылок на веб-страницы с установленным для каждой ссылки периодом её проверки и порядком проверки.  With reference to FIG. 1 marked: 1 - a schematic representation of the movement of data between the modules of the system; 2 - data loading module, receiving links to web pages from the database of schedule 9; 3 - a data management module that creates and modifies associative links between links to web pages and links to multimedia streams; 4 - stream database, which contains links to multimedia streams and all information about them; 5 is a module for checking streams, which determines the type, status and characteristics of the multimedia stream; 6 is a database of relationships, which stores relevant associative links between links to web pages and links to multimedia streams; 7 is a flow control module that detects changes in the type, condition, or characteristics of flows in a stream database 4, followed by a record of changes in the relationship database 6; 8 - schedule management module, which makes changes to the schedule database 9 by adding new records to it or by modifying existing records; 9 - schedule database, which contains a list of links to web pages with a period for checking it for each link and the verification procedure.

5. Лучший вариант осуществления изобретения Заявляемое изобретение позволяет оптимизировать расписание проверки веб-страниц, на которых находится ссылки на мультимедийные потоки реального времени, посредством вычисления оптимального периода проверки. Изменение периода проверки веб-страницы основано на изменении: 5. The best embodiment of the invention The claimed invention allows to optimize the scan schedule of web pages that contain links to real-time multimedia streams by calculating the optimal scan period. Changing the validation period of a web page is based on the change:

- типа мультимедийного потока - является ли ссылка на мультимедийный поток, потоком реального времени; и/или  - type of multimedia stream - is the link to the multimedia stream a real-time stream; and / or

- состояния мультимедийного потока - поток находится во включенном или выключенном состоянии; и/или  - state of the multimedia stream - the stream is on or off; and / or

- характеристик или описания мультимедийного потока реального времени. Основанием для вычисления периода проверки веб-страницы выступают мультимедийные потоки реального времени, размещенные на веб-странице.  - Characteristics or descriptions of the real-time multimedia stream. The basis for calculating the period of checking the web page are multimedia streams of real time, located on the web page.

Поисковые роботы находят в интернете веб-страницы, на которых размещены мультимедийные потоки. Все веб-страницы, содержащие мультимедийные потоки реального времени, должны повторно проверяться за определенный период с целью хранения в поисковой системе актуальных данных, связанных с проверяемой веб-страницей для дальнейшего предоставления пользователю возможности поиска. Для перепроверки веб-страниц используется расписание, которое находится в базе данных расписания 9, в котором задается коэффициент значимости для проверяемой ссылки на веб-страницу, а так же период проверки и время окончания последней проверки и начала следующей проверки. Все ссылки на веб-страницы, содержащие мультимедийные потоки, сохраняются в системе в базе данных расписания 9. Сами потоки, расположенные на странице, подвергаются проверке с целью определения их принадлежности к мультимедийным потокам реального времени. Целью повторной проверки веб- страниц является поиск на веб-страницах новых ссылок на мультимедийные потоки и подтверждение наличия на веб-странице ссылок на мультимедийные потоки, найденных при предыдущей проверке веб-страницы, а также актуализация доступности страницы и содержащейся на ней информации, отображающей её суть.  Search robots find web pages on the Internet that host multimedia streams. All web pages containing real-time multimedia streams should be re-checked for a certain period in order to store up-to-date data in the search engine related to the checked web page to further enable the user to search. To double-check the web pages, the schedule is used, which is located in the database of schedule 9, in which the coefficient of significance for the checked link to the web page is set, as well as the period of verification and the time of the end of the last check and the start of the next check. All links to web pages containing multimedia streams are stored in the system in the schedule database 9. The streams located on the page are checked to determine their membership in real-time multimedia streams. The purpose of re-checking web pages is to search on web pages for new links to multimedia streams and confirm the presence on the web page of links to multimedia streams found during the previous check of the web page, as well as updating the availability of the page and the information contained on it that displays it essence.

Модуль загрузки данных 2, получает список ссылок на веб-страницы, который необходимо проверить в соответствии с расписанием из БД расписания 9. Загруженные страницы модулем загрузки данных 2, подвергаются анализу, в рамках которого осуществляется поиск мультимедийных ссылок на потоки. Помимо ссылок из страницы извлекается сопутствующая к мультимедийным потока информация в виде текстового описания, которое в дальнейшем используется как часть описания мультимедийного потока. Полученная информация загруженной и проанализированной веб-страницы и найденных в ней ссылках на мультимедийные потоки передается модулю управления данными 3. Модуль управления данными сохраняет найденные ссылки на мультимедийные потоки в базе данных потоков 4. Для всех переданных ссылок на мультимедийные потоки, модуль управления данными получает информацию из базы данных потоков 4 о текущем типе мультимедийного потока для отметки в базе данных взаимосвязей 6. После получения информации для найденных ссылок на мультимедийные потоки, модуль управления данными 3 начинает проверять и вносить изменения в базу данных взаимосвязей 6: Data loading module 2 receives a list of links to web pages, which must be checked in accordance with the schedule from schedule database 9. The loaded pages of data loading module 2 are analyzed, which searches for multimedia links to streams. In addition to links from the page, information related to the multimedia stream is extracted in the form of a text description, which in the future used as part of the media stream description. The obtained information of the downloaded and analyzed web page and the links to the multimedia streams found in it is transmitted to the data management module 3. The data management module stores the found links to the multimedia streams in the stream database 4. For all the transmitted links to the multimedia streams, the data management module receives information from the database of streams 4 about the current type of multimedia stream to mark in the database of relationships 6. After receiving information for the found links to multimedia streams, The module data management 3 begins to check and make changes to the database linkages 6:

• Проверяет предыдущую ассоциативную связь данной ссылки на веб- страницу и ссылок на мультимедийные потоки в базе данных взаимосвязей 6;  • Checks the previous associative link of this link to the web page and links to multimedia streams in the database of relationships 6;

• Вносит изменения в ассоциативные связи между ссылкой на веб-страницу и ссылками на мультимедийные потоки, на основании новых ассоциативных связей межу ссылкой на веб-страницу и найденными на веб-странице ссылками на мультимедийные потоки в базу данных взаимосвязей 6;  • Changes the associative relations between the link to the web page and the links to the multimedia streams, based on the new associative links between the link to the web page and the links to the multimedia streams found on the web page to the relationship database 6;

• Сохраняет изменения или в случае отсутствия изменений, подтверждает предыдущую ассоциативную связь в базе данных взаимосвязей 6.  • Saves changes or, if there are no changes, confirms the previous associative relationship in the relationship database 6.

Все мультимедийные потоки, расположенные в базе данных потоков 4 подвергаются проверке модулем проверки потоков 5. Проверке подвергаются все новые потоки с целью выявления мультимедийных потоков реального времени, а так же все мультимедийные потоки, которые определены как потоки реального времени и находятся в рабочем (включенном) состоянии, либо находились во включенном состоянии, но в данный момент выключены. Регулярная проверка мультимедийных потоков, находящихся в статусе реального времени, осуществляется с целью хранения актуальной информации о потоках, в рамках которой определяют:  All multimedia streams located in the database of streams 4 are checked by the streaming check module 5. All new streams are checked to identify real-time multimedia streams, as well as all multimedia streams that are defined as real-time streams and are in working (on) state, or were in the on state, but currently turned off. A regular check of multimedia streams in real-time status is carried out in order to store relevant information about streams, in the framework of which it is determined:

• Тип мультимедийного потока, с целью подтверждения принадлежности ссылки на поток к мультимедийным потокам реального времени;  • Type of multimedia stream, in order to confirm that the link to the stream belongs to real-time multimedia streams;

• Статус мультимедийного потока (например, сервер, передающий мультимедийный поток, находится во включенном состоянии или выключенном); • Технические характеристики и описание мультимедийного потока, а так же отслеживаются их изменения. • The status of the multimedia stream (for example, the server transmitting the multimedia stream is on or off); • Specifications and a description of the multimedia stream, as well as track their changes.

Модуль управления потоками 7 получает из базы данных потоков 4 список мультимедийных потоков реального времени, у которых есть изменения в типе, и/или статусе, и/или технических характеристиках, и/или описании. Далее модуль управления потоками 7 делает отметку об изменениях в базе данных взаимосвязей 6 для всех ссылок на веб-страницы, которые имеют ассоциативные связи с полученным списком мультимедийных потоков. Следует отметить, что с одной ссылкой на мультимедийный поток может быть связанно множество ссылок на веб- страницы. Модуль управления расписанием 8 извлекает список ссылок на веб- страницы из базы данных взаимосвязей 6, для которых есть отметка об изменениях в мультимедийных потоках реального времени. Для полученных ссылок на веб- страницы определяется степень изменений в потоке, выполняется вычисление коэффициента значимости, а так же вычисление периода проверки. На основании полученных данных происходит вычисление времени начала следующей проверки. Модуль управления расписанием 8 сохраняет полученные результаты в базу данных расписания 9 для полученного списка ссылок на веб-страницы, изменяя время начала следующей проверки ссылок на веб-страницы, а так же добавляет или исключает ссылки на веб-страницы из повторной проверки. Ссылки, доступные для загрузки по расписанию 9, отправляются на загрузку и анализ в модуль загрузки данных 2.  The flow control module 7 receives from the stream database 4 a list of real-time multimedia streams that have changes in type, and / or status, and / or technical characteristics, and / or description. Next, the flow control module 7 makes a note of the changes in the relationship database 6 for all links to web pages that have associative links with the resulting list of multimedia streams. It should be noted that with a single link to a multimedia stream can be associated with many links to web pages. Schedule management module 8 retrieves a list of links to web pages from the relationship database 6, for which there is a mark on changes in real-time multimedia streams. For the received links to web pages, the degree of changes in the flow is determined, the significance coefficient is calculated, and the verification period is also calculated. Based on the received data, the calculation of the start time of the next check is performed. Schedule management module 8 saves the results to the database of schedule 9 for the received list of links to web pages, changing the start time of the next check for links to web pages, and also adds or excludes links to web pages from re-checking. Links available for download on schedule 9 are sent for download and analysis to data loading module 2.

Ниже представлено более подробное описание структуры модуля проверки потоков 6 и алгоритма его работы.  Below is a more detailed description of the structure of the module for checking threads 6 and the algorithm of its operation.

Алгоритм проверки ссылок на потоки из БД потоков на наличие в них мультимедийных потоков реального времени, включает следующие этапы:  The algorithm for checking links to streams from the database of streams for the presence of multimedia streams in them in real time includes the following steps:

- подключение к медиа серверу по ссылке,  - connection to the media server via the link,

- получение (загрузку) от медиа сервера информации о медиа потоке, включающей характеристики потока в заданном формате и/или часть потока, предназначенную для воспроизведения на клиентской стороне,  - receiving (downloading) from the media server information about the media stream, including the characteristics of the stream in a given format and / or part of the stream, intended for playback on the client side,

- анализ полученной информации о медиа потоке, заключающийся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени, при этом в качестве признаков используют любую последовательность символов и/или байт в медиа потоке, на основе которых делают вьшод о том, что медиа поток соответствует критерию мультимедийного потока реального времени («живой» поток). - analysis of the information received about the media stream, consisting in the search for signs indicating that the analyzed stream is a source of multimedia broadcasting which is carried out in real time, however, any sequence of characters and / or bytes in the media stream is used as signs, on the basis of which it is concluded that the media stream meets the criterion of a real-time multimedia stream (“live” stream).

В качестве информации о медиа потоке дополнительно могут быть использованы заголовки протокола.  As information about the media stream, protocol headers can be additionally used.

При получении от сервера последовательности байт, их анализ осуществляют в непрерывном режиме до получения данных, предназначенных непосредственно для воспроизведения, и при получении сообщения с информацией о том, что поток является записанным, делают вывод о том, что проверяемый поток не является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.  When a sequence of bytes is received from the server, their analysis is carried out in continuous mode until the data intended for direct reproduction is received, and upon receipt of a message with information that the stream is recorded, it is concluded that the stream being tested is not a multimedia source, broadcasting which is carried out in real time.

В качестве признаков могут быть использованы:  As signs can be used:

- параметр, характеризующий продолжительность потока (Duration), и/или - параметр, характеризующий позицию, с которой начинается воспроизведение в потоке (Start Time) и/или  - a parameter characterizing the duration of the stream (Duration), and / or - a parameter characterizing the position at which playback starts in the stream (Start Time) and / or

- параметр возможности перемотки в рамках передаваемого потока (Seekable).  - parameter of the ability to rewind within the transmitted stream (Seekable).

В случае, если значение параметра, характеризующего продолжительность потока (Duration), является отрицательным или нулевым, или больше заданного предела, осуществляют анализ значения параметра возможности перемотки в рамках передаваемого потока (Seekable), в случае, если он указывает на запрет перемотки в потоке, делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.  If the value of the parameter characterizing the duration of the stream (Duration) is negative or zero, or more than a specified limit, an analysis of the value of the parameter of the possibility of rewinding within the transmitted stream (Seekable) is carried out, if it indicates the prohibition of rewinding in the stream, conclude that the stream being analyzed is a multimedia source, the broadcast of which is carried out in real time.

В случае, если значение параметра, характеризующего продолжительность потока (Duration), находится в интервале от нуля до заданного предела, осуществляют повторное подключение к медиа серверу и определение значений данного параметра и параметра, характеризующего позицию, с которой начинается воспроизведение (Start Time), которые сравнивают со значениями аналогичных параметров, полученных при первоначальном подключении, и в случае не совпадения хотя бы одного из значений параметров делают вывод о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени; в случае если значения параметров совпадают, осуществляют поиск признаков мультимедийного потока в заголовках ответа сервера, при обнаружении которых делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени. If the value of the parameter characterizing the duration of the stream (Duration) is in the range from zero to the specified limit, reconnect to the media server and determine the values of this parameter and the parameter characterizing the position from which playback starts (Start Time), which compared with the values of similar parameters obtained during the initial connection, and if at least one of the parameter values does not match, it is concluded that the analyzed stream is the source multimedia broadcasting in real time; in case the parameter values coincide, they search for signs of the multimedia stream in the server response headers, upon detection of which they conclude that the stream being checked is a multimedia source broadcast in real time.

Установленный предел значений параметра, характеризующего продолжительность потока, подобран экспериментально и может находиться в интервале значений от 5 до 9 часов.  The established limit of the values of the parameter characterizing the duration of the flow is selected experimentally and can be in the range of values from 5 to 9 hours.

В случае если от сервера не получены значения параметров продолжительности потока и/или позиции воспроизведения, делают вывод о том, что проверяемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени.  If the server has not received the values of the stream duration and / or playback position parameters, it is concluded that the stream being checked is a multimedia source broadcast in real time.

Модуль проверки потоков для реализации описанного выше алгоритма содержит:  The thread verification module for implementing the above algorithm contains:

- мультимедийный клиент, выполненный с возможностью подключения к медиа серверу по ссылке и загрузки информации о медиа потоке, включающей характеристики потока в заданном формате и/или определенной части потока, предназначенной для воспроизведения на клиентской стороне и/или информации о заголовках протоколов, полученных от сервера,  - a multimedia client, configured to connect to a media server via a link and download information about the media stream, including the characteristics of the stream in a given format and / or a specific part of the stream, intended for playback on the client side and / or information about the protocol headers received from the server ,

- блок анализа информации о медиа потоке, который выполнен с возможностью проверки полученной информации о медиа потоке, заключающейся в поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени, где в качестве признаков использована любая последовательность символов или байт в медиа потоке, на основе которых делают вывод о том, что медиа поток соответствует критерию «живой» поток.  - a unit for analyzing information about the media stream, which is configured to check the received information about the media stream, which consists in searching for signs indicating that the analyzed stream is a multimedia source broadcast in real time, where any sequence is used as the signs characters or bytes in the media stream, based on which they conclude that the media stream meets the criterion of "live" stream.

В качестве мультимедийного клиента могут быть использованы такие приложения как MPlayer или VLC media player, а так же любой другой продукт, в том числе самостоятельно разработанный мультимедийный клиент, выполненный с возможностью коммуникации, обработки и предоставления необходимой информации.  As a multimedia client, such applications as MPlayer or VLC media player can be used, as well as any other product, including a self-developed multimedia client, configured to communicate, process and provide the necessary information.

Таким образом, технология определения типа потока, является ли он потоком реального времени или статическим файлом фиксированной продолжительности, заключается в анализе метаинформации, получаемой из самого медиа потока. Медиа клиент подключается к медиа серверу, после чего получает от него метаинформацию о потоке в заданном формате, а также определенную часть потока, предназначенную для воспроизведения на клиентской стороне. Полученная метаинформация, а также переданный буфер медиа потока, проходят стадию проверки с целью определения типа потока. Основная цель проверки заключается в анализе данных и поиске признаков, свидетельствующих о том, что анализируемый поток является источником мультимедиа, вещание которого осуществляется в масштабе реального времени. При этом характерной чертой «живого» потока (контента) является невозможность выполнения в отношении него «перемотки вперед» с помощью средств клиентского воспроизводящего приложения. Thus, the technology for determining the type of stream, whether it is a real-time stream or a static file of a fixed duration, consists in analyzing meta-information obtained from the media stream itself. The media client connects to the media server, after which receives from him meta-information about the stream in a given format, as well as a certain part of the stream intended for playback on the client side. The received meta-information, as well as the transmitted media stream buffer, pass the verification stage in order to determine the type of stream. The main purpose of the check is to analyze the data and search for signs that indicate that the analyzed stream is a multimedia source, the broadcast of which is carried out in real time. At the same time, a characteristic feature of a “live” stream (content) is the inability to perform “fast forward” with respect to it using the means of a client playback application.

Типичными примерами «живого» AV контента в Интернете являются телевизионное (ТВ) и радиовещание эфирных студий, специальное Интернет- вещание профессиональных и любительских студий, изображение с Веб-камеры потокового вещания.  Typical examples of “live” AV content on the Internet are television (TV) and radio broadcasting on-air studios, special Internet broadcasting by professional and amateur studios, and images from a webcam for streaming broadcasting.

Ниже более детально представлен принцип построения расписания 9.  The principle of building a schedule 9 is presented in more detail below.

Для ссылки на веб-страницу модуль управления расписанием 8 определяет изменения в потоке. Если присутствуют изменения в характеристиках потока, которые могут включать в себя такие данные, как описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока, или любые другие данные, передающиеся в рамках потока, и отображающие его суть, а так же изменения в технических характеристика потока, таких как битрейт, формат, информация об аудио или видео кодеках, или любых других технических характеристиках потока, тогда для проверяемой ссылки на поток устанавливается время начала следующей проверки, равное текущему времени. Установка времени начала следующей проверки ссылки на веб-страницу, равное текущему времени, приводит к тому, что ссылка будет проверена немедленно. Если для ссылки на мультимедийный поток реального времени изменяется тип или состояние, которое может принимать два значения, поток включен или поток выключен, тогда модуль управления расписанием 8 изменяет коэффициент значимости, период и время следующей проверки ссылки на веб-страницы. Если мультимедийный поток находится во включенном состоянии, тогда коэффициент значимости ссьшки на веб-страницу увеличивается на единицу, если же поток был включен, а теперь он выключен, коэффициент значимости уменьшается на единицу. Например, для одной ссьшки на веб-страницу может быть боле одного «работающего» потока, если их будет три, тогда коэффициент значимости соответственно будет равен трем. В частном случае, коэффициент значимости полностью соответствует количеству ссылок на мультимедийные потоки реального времени находящихся на веб-странице. Условия для определения правил выбора коэффициента значимости для проверки ссылки на веб-странице может не зависеть от количества ссылок на мультимедийные потоки реального времени, находящихся по указанному адресу веб-страницы и, как следствие, может быть определен исходя из других условий. Если у проверяемой ссылки на веб-страницу имеется, например, две ссылки на мультимедийные потоки реального времени, и у обеих ссылок на потоки есть изменения в состоянии, например, потоки перестали работать (находятся в выключенном состоянии), в таком случае коэффициент значимости проверки ссылки на веб-страницу будет равен нулю, что приведет к исключению страницы из проверки. На основании коэффициента значимости осуществляется вычисление периода проверки ссылки на веб-страницу, а также устанавливается последовательность загрузки веб-страниц в модуле загрузки 2, для которых наступило время перепроверки. Правило расчета периода проверки может меняться, в зависимости от событий, являющихся причиной для перепроверки веб- страницы. В частном случае для каждой ссылки на веб-страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной веб-странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т= Tconst/K, где Tconst - заданный период проверки, например, 24 часа, и в случае, если Т < Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например, 1 час. Все изменения заносятся в базу данных расписания 9, из которой в дальнейшем данные поступают в модуль загрузки данных 2. To link to a web page, Schedule Management Module 8 determines the changes in the stream. If there are changes in the characteristics of the stream, which may include data such as a description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and showing its essence, as well as changes in the technical characteristics of the stream, such as bit rate, format, information about audio or video codecs, or any other technical characteristics of the stream, then for the checked link to the stream, the start time of the next check is set equal to the current th time. Setting the start time of the next link check to a web page equal to the current time causes the link to be checked immediately. If a link or a state that can take two values changes for a link to a real-time multimedia stream, the stream is turned on or the stream is turned off, then Schedule Control Module 8 changes the significance factor, period and time of the next check of the link to web pages. If the multimedia stream is on, then the significance coefficient of the link to the web page increases by one; if the stream was turned on and now it is off, the significance coefficient decreases by one. For example, for one link to a web page there may be more than one “working” stream, if there are three, then the coefficient of significance will accordingly be equal to three. In the particular case, the significance coefficient fully corresponds to the number of links to real-time multimedia streams located on a web page. The conditions for determining the rules for choosing a significance factor for checking links on a web page may not depend on the number of links to real-time multimedia streams located at the specified address of the web page and, as a result, can be determined on the basis of other conditions. If the checked link to the web page has, for example, two links to real-time multimedia streams, and both links to the streams have state changes, for example, the streams have stopped working (are off), in this case, the link check value is per web page will be zero, which will exclude the page from scanning. Based on the significance coefficient, the period for checking the link to the web page is calculated, and the sequence of loading the web pages in the loading module 2, for which the time has come to check, is established. The rule for calculating the validation period may vary, depending on the events that are the reason for the double-checking of the web page. In a particular case, for each link to a web page, a significance coefficient (K) is determined, which is chosen equal to the number of links to real-time multimedia streams on this web page, and the verification period is calculated based on the ratio T = Tconst / K, where Tconst is a predetermined verification period, for example, 24 hours, and if T <Tmin, then T = Tmin, where Tmin is the minimum validation period, for example, 1 hour. All changes are recorded in the database of schedule 9, from which later the data goes to the data loading module 2.

Предлагаемая система может быть воплощена на одном или более серверных компьютерах, объединенных для совместной реализации предписанной функциональности, при этом вышеуказанные ее модули могут быть реализованы программными и аппаратными составляющими этих серверных компьютеров, известными специалистам и широко применяемыми в технике. В частности, вышеуказанные базы данных могут быть реализованы на одном или более широко известных машиночитаемых носителях, например, накопителях на жестких дисках, RAID-массивах, твердотельной памяти и т.п. Модуль загрузки данных может быть подключен и может взаимодействовать с Интернет на основе широко известных проводных и/или беспроводных сетевых технологий и оборудования, в частности, на основе стека протоколов http/tcp/ip. Для взаимодействия с модулями баз данных оператор может использовать любое известное терминальное оборудование, поддерживающее возможность исполнения команд языка взаимодействия с базой данных (например SQL). Таковым оборудованием может быть, например, соответствующим образом сконфигурированный персональньш/переносной/наладонный компьютер. The proposed system can be implemented on one or more server computers, combined to jointly implement the prescribed functionality, while the above modules can be implemented in software and hardware components of these server computers, known to specialists and widely used in technology. In particular, the above databases can be implemented on one or more commonly known computer-readable media, for example, hard disk drives, RAID arrays, solid state memory, etc. The data download module can be connected and can interact with the Internet based on well-known wired and / or wireless network technologies and equipment, in particular, based on the protocol stack http / tcp / ip. To interact with database modules, the operator can use any known terminal equipment that supports the ability to execute commands of the database interaction language (for example, SQL). Such equipment may be, for example, a suitably configured personal / laptop / handheld computer.

Ниже представлены конкретные примеры работы расписания перепроверки ссылок на веб-страницы с размещенными на них мультимедийными потоками реального времени.  The following are specific examples of the schedule for rechecking links to web pages with real-time multimedia streams placed on them.

Пример JV»1: Example JV " 1:

Первый пример демонстрирует появление новых ссылок на веб-странице в базе данных расписаний 9.  The first example shows the appearance of new links on a web page in the schedule database 9.

Поисковой системой была найдена новая веб-страница по ссылке Reference l, после анализа которой было выявлено, что на странице размещено две ссылки на мультимедийные потоки Stream l и Stream_2. Модулю управления данными 3, передается информация о веб-странице, которая содержит различную метаинформацию о самой странице и обнаруженные ссылки на мультимедийные потоки (см. фиг. 3).  The search engine found a new web page using the link l link, after analyzing which it was revealed that the page has two links to the multimedia streams Stream l and Stream_2. Data management module 3, the information about the web page is transmitted, which contains various meta-information about the page itself and the detected links to multimedia streams (see Fig. 3).

Модуль управления данными отправляет ссылки на поток в базу данных потоков 4, где попутно запрашивает статус для переданных потоков. Если в базу данных потоков 4 уже передавалась данная ссылка на мультимедийный поток, то модуль управления данными получит о ней информацию, если ссылка на поток новая, тогда информация о потоке останется не известной до тех пор, пока не будет проверена модулем проверки потоков 5. Далее модуль управления данными 3 проверяет информацию о ссылке Reference l в базе данных взаимосвязей 6 с целью определения ассоциативной связи данной ссылки на веб-страницу со ссылками на мультимедийные потоки, полученную при предыдущей проверке данной страницы. Если данная ссылка на веб-страницу отсутствует в базе данных взаимосвязей (то есть является новой), тогда она будет в нее добавлена, где будет указана связь данной ссылки на веб-страницу и ссылками на мультимедийные потоки (см.фиг.З). Информация о данной ссылке на веб-страницу останется без изменений в базе данных взаимосвязей до тех пор, пока не будут проверены ссылки на мультимедийные потоки, которые были найдены на ней. Изменения в базе данных взаимосвязей 6 и дальнейшая работа с данной ссылкой на веб-страницу будет осуществляться только в том случае, если после проверки ссылок на потоки будет определено, что хотя бы одна из них относится к ссылкам на мультимедийные потоки реального времени. Модуль проверки потоков 5 берет ссылки на проверку из базы данных потоков 4, после чего определяет, что одна из ссылок относится к мультимедийным потокам реального времени (см. Таблицу N° 1). The data management module sends links to the stream to the database of streams 4, where along with it it requests status for the transferred streams. If this link to the multimedia stream has already been transferred to the database of streams 4, then the data management module will receive information about it, if the link to the stream is new, then the stream information will remain unknown until it is verified by the streaming check module 5. Next data management module 3 checks the information about the link Reference l in the relationship database 6 to determine the associative relationship of this link to a web page with links to multimedia streams obtained from a previous check of this page. If this link to a web page is not in the database of relationships (that is, new), then it will be added to it, where the link of this link to the web page and links to multimedia streams will be indicated (see Fig. 3). Information about this link to a web page will remain unchanged in the database of relationships until links to the multimedia streams that were found on it are checked. Database changes interrelations 6 and further work with this link to the web page will be carried out only if after checking the links to the streams it will be determined that at least one of them refers to links to multimedia streams in real time. The module for checking streams 5 takes references to the verification from the database of streams 4, after which it determines that one of the links refers to multimedia streams in real time (see Table N ° 1).

Таблица N°l  Table N ° l

Figure imgf000021_0001
Figure imgf000021_0001

Модуль управления потоками 7 запрашивает из базы данных потоков 4 информацию о потоках реального времени, у которых есть изменения в типе, состоянии или характеристиках. После запроса модуль управления потоками 7 получит ссылку на поток Stream l, где будет указано, что поток перешел в тип потоков, которые относятся к живым потокам (см. таблицу N°2). The thread control module 7 requests information from the thread database 4 about real-time streams that have changes in type, state or characteristics. After the request, the flow control module 7 will receive a link to the stream Stream l, which will indicate that the stream has switched to the type of streams that belong to live streams (see table N ° 2).

Талица N°2

Figure imgf000021_0002
Talits N ° 2
Figure imgf000021_0002

Модуль управления потоками 7 делает отметку в базе данных взаимосвязей 6 для всех ссылок на веб-страницы у которых есть связь с данной ссылкой на мультимедийный поток, что данный поток перешел в статус «живого» потока. Далее модуль управления расписанием 8 берет из базы данных взаимосвязей 6 все ссылки на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках для ссылок на потоки реального времени. Модуль управления расписанием 8 получит ссылку Reference l для которой будет указано количество потоков реального времени и отметка об изменениях в потоках (см. таблицу З). The flow control module 7 makes a mark in the database of relationships 6 for all links to web pages that have a link to this link to a multimedia stream that this stream has switched to the status of a "live" stream. Next, the schedule management module 8 takes from the relationship database 6 all links to web pages that have changes in the type, state or characteristics of links to real-time streams. Schedule management module 8 will receive a Reference l link for which the number of real-time streams and a mark on changes in the streams will be indicated (see table H).

Таблица Ν°3

Figure imgf000021_0003
Поскольку для данной ссылки на веб-страницу приходится только одна ссылка на поток реального времени, ей будет установлен коэффициент значимости равный единице, а также период проверки страницы, например равный 24 часам, после чего данные будут сохранены в базе данных расписаний 9 (см. таблицу N°4). Поскольку ссылка Reference l ещё не участвовала в расписании повторной проверки, то для неё будет создана отдельная запись, в которой будет указано время после которого она будет перепроверена. Время следующей проверки для новой ссылки на веб-страницу определяется как текущее время плюс период. Ν ° 3 table
Figure imgf000021_0003
Since for this link to a web page there is only one link to a real-time stream, it will be set to a significance factor of one, as well as a page verification period, for example, equal to 24 hours, after which the data will be stored in the schedule database 9 (see table N ° 4). Since the Reference l link has not yet participated in the rechecking schedule, a separate record will be created for it, in which the time after which it will be re-checked will be indicated. The next check time for a new link to a web page is defined as the current time plus period.

Таблица N°4  Table N ° 4

Figure imgf000022_0001
Figure imgf000022_0001

Пример JVs 2  JVs example 2

Рассмотрим ситуацию повторной проверки веб-страниц, которые уже присутствуют в расписании. Модуль загрузки данных 2 получает из базы данных расписания 9 (см. таблицу N°5) три ссылки на веб-страницы, для которых наступило время начала проверки.  Consider the situation of re-checking web pages that are already on the schedule. Data loading module 2 receives from the database of schedule 9 (see table N ° 5) three links to web pages for which it is time to start the scan.

Таблица N°5  Table N ° 5

Figure imgf000022_0002
Figure imgf000022_0002

В базе данных взаимосвязей 6 до момента проверки ссылки на веб-страницы имеют следующие связи с мультимедийными ссылками на потоки реального времени (см. фиг. N°4). In the relationship database 6, until verification, links to web pages have the following relationships with multimedia links to real-time streams (see FIG. N ° 4).

Веб-страница по ссылке Reference_5 содержит две ссылки на потоки реального времени, при этом Reference_6 имеет с ней общий поток, а веб-страница по ссылке Reference_7 содержит независимую ссылку на поток, у которой нет пересечений с другими веб-страницами. Модуль загрузки данных 2 загружает веб- страницы по указанным ссылкам. Проанализировав содержимое, в загруженных документах были найдены ссылки на потоки, которые имеют связь, представленную на фиг.5. The reference_5 web page contains two links to real-time streams, while Reference_6 has a common stream with it, and the web page link Reference_7 contains an independent link to a stream that has no intersections with other web pages. Data Download Module 2 downloads web pages from the specified links. After analyzing the content, links to streams that have the connection shown in FIG. 5 were found in the downloaded documents.

Найденные данные, передаются модулю управления данными 3. Далее модуль управления данными отправляет найденные ссылки на потоки в базу данных потоков 4 с целью сохранения новых ссылок на потоки и получения информации для уже известных потоков (см. фиг.6).  The found data is transmitted to the data management module 3. Next, the data management module sends the found links to the streams to the database of streams 4 in order to save new links to the streams and obtain information for already known streams (see Fig. 6).

Полученная информация о потоках из базы данных потоков 4 (см. таблицу N° 6) указывает на то, что ссылки на поток Stream_10 и Stream_50 проверены и являются потоками реального времени, ссылка Stream l l указывала на поток реального времени, находится в выключенном состоянии, a Stream_51 является новой ссьшкой на мультимедийный поток и требует проверки модулем проверки потоков 5.  The received information about streams from the stream database 4 (see table N ° 6) indicates that the links to the stream Stream_10 and Stream_50 are checked and are real-time streams, the link Stream ll pointed to the real-time stream, is in the off state, a Stream_51 is a new link to a multimedia stream and requires verification by the stream verification module 5.

Таблица N°6  Table N ° 6

Figure imgf000023_0001
Figure imgf000023_0001

Далее модуль управления данными начинает проверку предыдущей ассоциативной связи для данных ссылок на веб-страницы в базе данных взаимосвязей 6. На основании проверки определяется, что у некоторых веб-страниц изменились ссылки на мультимедийные потоки, что приводит к изменениям в ассоциативных связях в базе данных взаимосвязей 6 для данных ссылок на веб- страницы (см. фиг.7). Next, the data management module starts checking the previous association for the data of links to web pages in the relationship database 6. Based on the check, it is determined that some web pages have changed links to multimedia streams, which leads to changes in the associations in the relationship database 6 for these links to web pages (see FIG. 7).

Модуль управления данными отмечает, что веб-страница по ссылке Reference_7 больше не содержит в себе ссылку на поток Stream_12 и присваивает ей новые связи, указывая, что она содержит потоки Stream_50 и Stream_51. Попутно с внесением изменений в ассоциативные связи вносится информация о потоках, которая была получена из базы данных потоков 4. Отмечается, что изменилось состояние ссылки на поток Stream l l, где указьшается, что поток выключен, а ссылки на потоки Stream lO и Stream_50 находятся в рабочем состоянии и являются мультимедийными потоками реального времени. Поскольку Stream_51 является новой ссылкой на поток, для него нет информации, которая может влиять на изменения в работе расписания 9. Модуль управления расписанием 8 запрашивает ссылки на веб-страницы, у которых есть изменения в потоках реального времени из базы данных взаимосвязей 6 (см. таблицу N° 7) The data management module notes that the web page at Reference_7 no longer contains a link to the Stream_12 stream and assigns new links to it, indicating that it contains Stream_50 and Stream_51 streams. Along with the changes in the associative relations, information on streams, which was obtained from the stream database 4. It is noted that the status of the stream ll link has changed, where it is indicated that the stream is turned off, and the links to Stream lO and Stream_50 streams are operational and are real-time multimedia streams. Since Stream_51 is a new link to a stream, there is no information for it that can affect changes in the schedule 9. Schedule management module 8 requests links to web pages that have changes in real-time streams from the relationship database 6 (see table N ° 7)

Таблица >Г°7  Table> G ° 7

Figure imgf000024_0001
Figure imgf000024_0001

Для ссылки Reference_5 будет вычислен коэффициент значимости, равный единицы, так как один из двух доступных потоков перестал работать, для ссылки Reference_6 коэффициент значимости будет равен нулю, поскольку у неё нет на текущий момент потоков реального времени, находящихся во включенном состоянии, для ссылки Reference_7 коэффициент значимости останется равным единице. После вычисления коэффициента значимости и вычисления периода проверки для текущих ссылок на веб-страницы, модуль управления расписанием вносит изменения в базу данных расписания 9 (см. таблицу N°8). For reference_5, a coefficient of significance equal to one will be calculated, since one of the two available streams has stopped working, for reference_6, the coefficient of significance will be zero, because it does not currently have real-time streams in the on state, for reference_7 the coefficient significance will remain equal to one. After calculating the significance coefficient and calculating the validation period for current links to web pages, the schedule management module makes changes to the schedule 9 database (see table N ° 8).

Таблица N°8 Table N ° 8

Figure imgf000025_0001
Figure imgf000025_0001

Изменения касаются только двух записей, для Reference_5 понижается коэффициент значимости и, как следствие, увеличивается период. Ссылка Reference_6 исключается из проверки, так как для нее нет на текущий момент работающих потоков реального времени. Для ссылки Reference_7 изменений на текущий момент нет, так как до начала проверки по расписанию данная ссылка на веб-страницу имела ассоциативную связь с потоком Stream_12, после проверки она стала указывать на два потока, но только для одной ссылки на поток был известен тип потока, вторая ссылка на поток являлась новой, поэтому коэффициент значимости для данной ссылки на текущий момент остается равный 1. Модулем загрузки данных 2 была выявлена новая ссылка на поток Stream_51 для которой не был определен тип, после её проверки модулем проверки потоков 5, определено, что данная ссылка указывает на поток реального времени. Модуль управления потоками 7 запрашивает данные из базы данных потоков 4 и получает информацию (см. таблицу N°9), что Stream_51 относится к мультимедийным ссылкам на потоки реального времени. The changes concern only two records, for Reference_5 the significance coefficient decreases and, as a result, the period increases. Reference_6 is excluded from the scan because it does not currently have real-time streams working. There are currently no changes for Reference_7, since before the scheduled check this link to a web page had an associative connection with Stream_12, after checking it began to point to two streams, but the type of stream was known only for one link to the stream, the second link to the stream was new, therefore the significance coefficient for this link currently remains equal to 1. Data loading module 2 revealed a new link to the Stream_51 stream for which the type was not determined, after it was checked by the thread verification module 5, Roedel that the link points to a live stream. The flow control module 7 requests data from the database of streams 4 and receives information (see table N ° 9) that Stream_51 refers to multimedia links to real-time streams.

Талица Ν°9  Taliza Ν ° 9

Figure imgf000025_0002
Figure imgf000025_0002

Далее модулем управления потоков вносятся изменения в базу данных взаимосвязей 6, где для всех ссылок на веб-страницы, у которых есть связь с потоком Stream 51, делается отметка об изменении в типе потока. Модуль управления расписанием 8 вновь запрашивает из базы данных взаимосвязей 6 информацию о ссылках на веб-страницы, у которых есть изменения в типе, состоянии или характеристиках потоков реального времени и получает данные (см. таблицу Ν°10) об изменениях для ссылки Reference_7. Then, the flow control module makes changes to the relationship database 6, where for all links to web pages that have a link to Stream 51, a mark is made about the change in the type of stream. Module Schedule Management 8 again requests from the relationship database 6 information about links to web pages that have changes in the type, state or characteristics of real-time streams and receives data (see table ° 10) about the changes for Reference_7.

Таблица N° 10  Table N ° 10

Figure imgf000026_0001
Figure imgf000026_0001

Для ссылки Reference_7 вычисляется коэффициент значимости, период проверки и время следующего начала проверки, после чего вносятся изменения в базу данных расписания 9 (см таблицу Ν°11). For reference_7, the significance coefficient, the verification period and the time of the next verification start are calculated, after which changes are made to the database of schedule 9 (see table Ν ° 11).

Таблица .N l 1  Table .N l 1

Figure imgf000026_0002
Figure imgf000026_0002

Поскольку на Reference_7 теперь приходится 2 ссылки на потоки реального времени, соответственно у неё повышается коэффициент значимости и изменяется период перепроверки, что приводит к изменению для следующего времени начала проверки ссылки на веб-страницу. Since Reference_7 now has 2 links to real-time streams, accordingly, it increases the significance coefficient and the recheck period changes, which leads to a change for the next time that the link to the web page is checked.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM 1. Способ проверки веб-страниц на наличие в них мультимедийных потоков реального времени, согласно которому 1. A method of checking web pages for the presence of multimedia streams in real time, according to which загружают веб-страницы для проверки по расписанию, включающему ссылки на веб-страницы и определяющему период и порядок проверки ссылок на веб-страницы,  load web pages for checking according to a schedule that includes links to web pages and determines the period and procedure for checking links to web pages, анализируют загруженные веб-страницы на наличие в них ссылок на мультимедийные потоки, с последующим сохранением найденных ссылок на мультимедийные потоки в БД потоков, при этом информацию о принадлежности мультимедийного потока к веб-странице сохраняют в БД взаимосвязей,  analyze downloaded web pages for the presence of links to multimedia streams in them, followed by saving the found links to multimedia streams in the stream database, while information about the membership of the multimedia stream to the web page is stored in the relationship database, затем осуществляют проверку данных потоков для определения их типа, является ли мультимедийный поток потоком реального времени или нет, а также осуществляют периодическую проверку ссылок на потоки реального времени, находящихся в БД потоков, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, с последующим сохранением информации об изменениях в БД потоков, при этом в БД взаимосвязей делают отметку о факте изменений,  then check the data streams to determine their type, whether the multimedia stream is a real-time stream or not, and also periodically check links to real-time streams in the stream database to detect changes in the type of stream and / or stream status, and / or in the characteristics of the stream, with subsequent storage of information about changes in the database of flows, while in the database of relationships make a note about the fact of changes, при этом в расписание добавляют новые ссылки на веб-страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или изменяют период проверки для существующих в расписании ссылок на веб- страницы, для которых выявлены изменения в потоке, и/или изменяют время начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб-страницы изменяют на текущее, при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки.  at the same time, new links to web pages on which links to real-time multimedia streams are detected are added to the schedule, and / or the check period for existing links to web pages for which changes in the stream are detected are changed and / or the time is changed the beginning of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to the current one, when changes in the type and / or status of the stream are detected due to an increase in the number of links on the web page to real-time multimedia streams, the verification period is reduced, and if the number of links to real-time multimedia streams on a web page decreases, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes zero, this link to the web - The page is excluded from the scan schedule. 2. Способ по п.1, характеризующийся тем, что веб-страница представляет собой файл, непосредственно содержащий текст веб-страницы, и/или скрипт-файл, ассоциированный с данной веб-страницей. 2. The method according to claim 1, characterized in that the web page is a file directly containing the text of the web page, and / or a script file associated with this web page. 3. Способ по п.1, характеризующийся тем, что загрузку веб-страницы по ссылке осуществляют посредством эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссылки на мультимедийные потоки. 3. The method according to claim 1, characterized in that the download of the web page by reference is carried out by emulating the operation of the web browser by building a model of the web document and creating all objects that potentially contain links to multimedia streams. 4. Способ по п.1, характеризующийся тем, что период проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени, для выявления изменений в типе потока, и/или состоянии потока, и/или в характеристиках потока, выбирают из интервала значений 2-5 минут.  4. The method according to claim 1, characterized in that the period of checking links to streams from the database of streams having the status of a multimedia stream of real time, to detect changes in the type of stream, and / or the state of the stream, and / or in the characteristics of the stream, is selected from an interval of values of 2-5 minutes. 5. Способ по п.1, характеризующийся тем, что состояние потока определяют исходя из того, находится ли он во включенном состоянии или выключенном.  5. The method according to claim 1, characterized in that the state of the stream is determined based on whether it is in the on state or off. 6. Способ по п.1, характеризующийся тем, что БД взаимосвязей имеет структуру, отображающую принадлежность ссылки на веб-страницу к одной или нескольким ссылкам на мультимедийные потоки, при этом в БД взаимосвязей отмечают потоки, которые относятся к типу мультимедийных потоков реального времени.  6. The method according to claim 1, characterized in that the relationship database has a structure that displays the link of a web page to one or more links to multimedia streams, while in the relationship database mark streams that are of the type of multimedia streams in real time. 7. Способ по п.1, характеризующийся тем, что в качестве характеристик потока используют описание мультимедийного потока и технические характеристики потока.  7. The method according to claim 1, characterized in that the characteristics of the stream use the description of the multimedia stream and the technical characteristics of the stream. 8. Способ по п.1, характеризующийся тем, что в качестве описания мультимедийного потока используют текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока, или любые другие данные передающиеся в рамках потока и отображающие его суть.  8. The method according to claim 1, characterized in that as a description of the multimedia stream using a text description of the stream, the title of the stream, an indication of the owner of the stream, a link to the site of the stream, or any other data transmitted within the stream and displaying its essence. 9. Способ по п.1, характеризующийся тем, что в качестве технических характеристик потока используют битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока.  9. The method according to claim 1, characterized in that as the technical characteristics of the stream using bitrate, format, information about audio or video codecs or any other technical characteristics of the stream. 10. Способ по п.1, характеризующийся тем, что по итогам анализа загруженных веб-страниц определяют доступность веб-страниц, и в случае выявления недоступных веб-страниц делают соответствующую отметку в расписании проверки.  10. The method according to claim 1, characterized in that according to the results of the analysis of the loaded web pages, the availability of the web pages is determined, and in the case of unavailable web pages, an appropriate check mark is made in the check schedule. 11. Способ по п.10, характеризующийся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, ссылку на данную веб-страницу исключают из расписания проверки.  11. The method according to claim 10, characterized in that if the unavailable web page is in this state for a week, the link to this web page is excluded from the check schedule. 12. Способ по п.1, характеризующийся тем, что для каждой ссылки на веб- страницу определяют коэффициент значимости (К), который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, а период проверки вычисляют исходя из соотношения Т= Tconst/K, где Tconst - заданный период проверки, например, 24 часа, и в случае, если Т < Tmjn, то
Figure imgf000029_0001
где Tmin - минимально допустимый период проверки, например, 1 час, с последующим сохранением полученных результатов для (К) и (Т) в расписании проверки.
12. The method according to claim 1, characterized in that for each link to a web page determine the significance coefficient (K), which is chosen equal the number of links on this page to real-time multimedia streams, and the verification period is calculated based on the relation T = Tconst / K, where Tconst is the specified verification period, for example, 24 hours, and if T <T m jn, then
Figure imgf000029_0001
where T m in is the minimum validation period, for example, 1 hour, followed by storing the results for (K) and (T) in the scan schedule.
13. Способ по п.12, характеризующийся тем, что загрузку веб-страниц и их анализ осуществляют начиная со ссылки на веб-страницу из расписания, имеющей наибольшее значение коэффициента К.  13. The method according to p. 12, characterized in that the loading of web pages and their analysis is carried out starting with a link to a web page from the schedule that has the highest coefficient K. 14. Компьютерно-реализуемая система проверки веб-страниц на наличие в них мультимедийных потоков реального времени, включающая:  14. A computer-implemented system for checking web pages for the presence of real-time multimedia streams, including: БД расписания, включающую список ссылок на веб-страницы с установленным для каждой ссылки периодом и порядком ее проверки;  Schedule database, including a list of links to web pages with a period for each link and the procedure for checking it; БД потоков, включающую список ссылок на мультимедийные потоки, а также информацию о типе, статусе и характеристиках потоков;  Database of streams, including a list of links to multimedia streams, as well as information about the type, status and characteristics of streams; БД взаимосвязей, включающую информацию о принадлежности мультимедийного потока к соответствующей веб-странице, а также о типе мультимедийного потока;  Relationship database, including information on the affiliation of the multimedia stream to the corresponding web page, as well as the type of multimedia stream; Модуль загрузки данных, выполненный с возможностью загрузки веб- страниц по ссылке из БД расписания и анализа загруженных веб-страниц на наличие в них ссылок на мультимедийные потоки;  Data loading module, configured to download web pages via a link from the schedule database and analyze downloaded web pages for links to multimedia streams in them; Модуль управления данными, выполненный с возможностью сохранения найденных модулем загрузки данных ссылок на мультимедийные потоки в БД потоков, а также сохранения и/или изменения информации о взаимосвязи между мультимедийным потоком и веб-страницей в БД взаимосвязей;  A data management module, configured to save the links found to the multimedia streams found by the download module to the streaming database, as well as to save and / or change the information about the relationship between the multimedia stream and the web page in the interconnection database; Модуль проверки потоков из БД потоков, выполненный с возможностью определения типа мультимедийного потока, а также периодической проверки ссылок на мультимедийные потоки реального времени для выявления изменений в типе потока, и/или в состоянии, и/или в характеристиках потока, с последующим сохранением полученной информации в БД потоков;  A module for checking streams from a database of streams, configured to determine the type of a multimedia stream, as well as periodically check references to multimedia streams in real time to detect changes in the type of stream and / or in the state and / or characteristics of the stream, followed by storing the received information in the stream database; Модуль управления потоками, выполненный с возможностью выявления внесенных изменений в БД потоков с последующей записью информации о наличии изменений в БД взаимосвязей; Модуль управления расписанием, выполненный с возможностью изменения расписания в БД расписания посредством добавления в него новых ссылок на веб- страницы, на которых выявлены ссылки на мультимедийные потоки реального времени, и/или посредством изменения периода проверки для существующих в расписании ссылок на веб-страницы, для которых выявлены изменения в потоке, и/или изменения времени начала следующей проверки, при этом при изменении характеристик потока время начала следующей проверки соответствующей веб- страницы изменяют на текущее при сохранении периода проверки; при выявлении изменений в типе и/или статусе потока, связанных с увеличением на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки уменьшают, а при уменьшении на веб-странице количества ссылок на мультимедийные потоки реального времени, период проверки увеличивают, и в случае, когда количество ссылок на мультимедийные потоки реального времени становится равным нулю, данную ссылку на веб-страницу исключают из расписания проверки. A flow control module configured to detect changes made to the database of streams with subsequent recording of information about the presence of changes in the database of relationships; Schedule management module, configured to change the schedule in the schedule database by adding new links to web pages into it, on which links to real-time multimedia streams are revealed, and / or by changing the check period for existing links to web pages in the schedule, for which there are changes in the stream, and / or changes in the start time of the next check, while changing the characteristics of the stream, the start time of the next check of the corresponding web page is changed to The present while preserving the verification period; when detecting changes in the type and / or status of the stream associated with an increase in the number of links to real-time multimedia streams on a web page, the verification period is reduced, and when the number of links to real-time multimedia streams on a web page is reduced, the verification period is increased, and in the case when the number of links to real-time multimedia streams becomes equal to zero, this link to a web page is excluded from the scan schedule. 15. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью эмуляции работы веб-браузера через построение модели веб-документа и создание всех объектов, потенциально содержащих ссьшки на мультимедийные потоки.  15. The system of claim 14, characterized in that the data loading module is configured to emulate a web browser by building a model of a web document and creating all objects potentially containing links to multimedia streams. 16. Система по п.14, характеризующаяся тем, что модуль проверки потоков выполнен с возможностью изменения периода проверки ссылок на потоки из БД потоков, имеющих статус мультимедийного потока реального времени от 2 до 5 минут.  16. The system of claim 14, characterized in that the module for checking streams is configured to change the period of checking links to streams from the database of streams having the status of a multimedia stream of real time from 2 to 5 minutes. 17. Система по п.14, характеризующаяся тем, что модуль проверки потоков при проверке состояния потока реального времени определяет, находится ли данный поток во включенном состоянии или выключенном.  17. The system according to 14, characterized in that the flow check module, when checking the status of the real-time stream, determines whether a given stream is on or off. 18. Система по п.14, характеризующаяся тем, что в БД потоков в качестве характеристик потока присутствует описание мультимедийного потока и технические характеристики потока.  18. The system according to 14, characterized in that in the stream database as a stream characteristics there is a description of the multimedia stream and technical characteristics of the stream. 19. Система по п.14, характеризующаяся тем, что в БД потоков в качестве описания мультимедийного потока присутствует текстовое описание потока, заголовок потока, указание на владельца потока, ссылку на сайт потока, или любые другие данные, передающиеся в рамках потока и отображающие его суть. 19. The system according to 14, characterized in that in the stream database as a description of the multimedia stream there is a text description of the stream, the stream title, an indication of the owner of the stream, a link to the stream website, or any other data transmitted within the stream and displaying it essence. 20. Система по п.14, характеризующаяся тем, что в БД потоков в качестве технических характеристик потока присутствует битрейд, формат, информацию об аудио или видео кодеках или любых других технических характеристиках потока. 20. The system of claim 14, characterized in that the stream database contains bitstream, format, information about audio or video codecs or any other technical characteristics of the stream as technical characteristics of the stream. 21. Система по п.14, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью определения доступности веб-страницы, и в случае выявления недоступных веб-страниц информацию об этом заносят в БД расписания.  21. The system according to 14, characterized in that the data loading module is configured to determine the availability of a web page, and in the event that inaccessible web pages are detected, information about this is recorded in the schedule database. 22. Система по п.21, характеризующаяся тем, что в случае, если недоступная веб-страница находится в данном состоянии в течение недели, модуль управления расписанием выполнен с возможностью исключения ссылки на данную веб- страницу из БД расписания.  22. The system according to item 21, characterized in that if the unavailable web page is in this state for a week, the schedule management module is configured to exclude links to this web page from the schedule database. 23. Система по п.14, характеризующаяся тем, что модуль управления расписанием выполнен с возможностью определения коэффициента значимости (К) для каждой ссылки на веб-страницу, который выбирают равным количеству находящихся на данной странице ссылок на мультимедийные потоки реального времени, и вычисления периода проверки исходя из соотношения Т= Tconst K, где const - заданный период проверки, например, 24 часа, и в случае, если Т < Tmin, то T=Tmin, где Tmin - минимально допустимый период проверки, например, 1 час, с последующим сохранением полученных результатов для (К) и (Т) в БД расписания. 23. The system of claim 14, characterized in that the schedule management module is configured to determine a significance coefficient (K) for each link to a web page that is selected equal to the number of links on this page to real-time multimedia streams, and calculating a period checks based on the relation T = T con st K, where const is the given verification period, for example, 24 hours, and if T <T m i n , then T = T m in, where T m in is the minimum allowable period checks, for example, 1 hour, followed by saving the received cut Ltats for (K) and (T) in the schedule database. 24. Система по п.23, характеризующаяся тем, что модуль загрузки данных выполнен с возможностью загрузки веб-страниц и их анализа начиная со ссылки на веб-страницу из БД расписания, имеющей наибольшее значение коэффициента К.  24. The system according to claim 23, characterized in that the data loading module is configured to download web pages and analyze them starting from a link to a web page from the schedule database having the highest coefficient K.
PCT/RU2013/001055 2013-07-26 2013-11-25 Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method Ceased WO2015012720A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2013134965 2013-07-26
RU2013134965/08A RU2530672C1 (en) 2013-07-26 2013-07-26 Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method's implementation

Publications (1)

Publication Number Publication Date
WO2015012720A1 true WO2015012720A1 (en) 2015-01-29

Family

ID=52393617

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2013/001055 Ceased WO2015012720A1 (en) 2013-07-26 2013-11-25 Method for checking websites for the presence of real-time multimedia streams on said websites and computer-implementable system for performing said method

Country Status (2)

Country Link
RU (1) RU2530672C1 (en)
WO (1) WO2015012720A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689377A (en) * 2019-09-30 2020-01-14 北京达佳互联信息技术有限公司 Data detection method and device and electronic equipment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2399090C2 (en) * 2008-12-03 2010-09-10 Общество С Ограниченной Ответственностью "Мералабс" System and method for real time internet search of multimedia content
US7886042B2 (en) * 2006-12-19 2011-02-08 Yahoo! Inc. Dynamically constrained, forward scheduling over uncertain workloads
US8386459B1 (en) * 2005-04-25 2013-02-26 Google Inc. Scheduling a recrawl

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386459B1 (en) * 2005-04-25 2013-02-26 Google Inc. Scheduling a recrawl
US7886042B2 (en) * 2006-12-19 2011-02-08 Yahoo! Inc. Dynamically constrained, forward scheduling over uncertain workloads
RU2399090C2 (en) * 2008-12-03 2010-09-10 Общество С Ограниченной Ответственностью "Мералабс" System and method for real time internet search of multimedia content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689377A (en) * 2019-09-30 2020-01-14 北京达佳互联信息技术有限公司 Data detection method and device and electronic equipment
CN110689377B (en) * 2019-09-30 2023-04-18 北京达佳互联信息技术有限公司 Data detection method and device and electronic equipment

Also Published As

Publication number Publication date
RU2530672C1 (en) 2014-10-10

Similar Documents

Publication Publication Date Title
CN112115299B (en) Video search method, device, recommendation method, electronic device and storage medium
US9594826B2 (en) Co-selected image classification
US10277696B2 (en) Method and system for processing data used by creative users to create media content
US7860878B2 (en) Prioritizing media assets for publication
US7966341B2 (en) Estimating the date relevance of a query from query logs
US20090043749A1 (en) Extracting query intent from query logs
US20080282186A1 (en) Keyword generation system and method for online activity
US20100042615A1 (en) Systems and methods for aggregating content on a user-content driven website
US10691664B1 (en) User interface structural clustering and analysis
CN101477527A (en) Multimedia resource retrieval method and apparatus
US20170155939A1 (en) Method and System for Processing Data Used By Creative Users to Create Media Content
CN111104583A (en) Live broadcast room recommendation method, storage medium, electronic device and system
JP2011517822A (en) Method for aggregating web feeds that minimize duplication
CN112035534A (en) Real-time big data processing method and device and electronic equipment
TWI709905B (en) Data analysis method and data analysis system thereof
RU2399090C2 (en) System and method for real time internet search of multimedia content
US11108717B1 (en) Trends in a messaging platform
US20200151227A1 (en) Computing system with dynamic web page feature
RU2530671C1 (en) Checking method of web pages for content in them of target audio and/or video (av) content of real time
RU2530672C1 (en) Checking method of web pages for availability in them of real time multimedia flows, and computer-implemented system for method&#39;s implementation
CN119557127A (en) Abnormal business analysis method, device and electronic equipment
US20110258187A1 (en) Relevance-Based Open Source Intelligence (OSINT) Collection
US20250348498A1 (en) Providing context for an image
KR101984773B1 (en) Classifier recall estimation for sparse topics
US11500908B1 (en) Trends in a messaging platform

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13890248

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13890248

Country of ref document: EP

Kind code of ref document: A1