Методы классификации и кодирования (ТЭСИ)

Страница 2

5 ПР 50-733-93 Правила по стандартизации. Основные положения Единой системы классификации и кодирования технико-экономической и социальной информации и унифицированных систем документации Российской Федерации.

Отраслевые классификаторы разрабатываются в тех случаях, когда они включают информацию, содержащуюся в унифицированных отраслевых формах документов и отсутствующую в общероссийских классификаторах, или представляют собой выборки из общероссийских классификаторов, в которых допускается перекодирование объектов классификации, дополнение отсутствующими в них объектами и признаками классификации. Статус этой категории классификаторов соответствует отраслевым стандартам. Классификатор ТЭСИ предприятия – классификатор, принятый предприятием или объединением предприятий и применяемый только этими хозяйствующими субъектами. Классификаторы предприятий разрабатываются в тех случаях, когда они включают информацию, содержащуюся в унифицированных формах документов предприятия и отсутствующую в общероссийских и отраслевых классификаторах. Они могут быть и выборками из общероссийских или отраслевых классификаторов, в которых допускается перекодирование объектов классификации, дополнение отсутствующими в них объектами классификации и признаками классификации. Статус классификаторов предприятий соответствует стандартам предприятий. Структура классификатора, как правило, должна иметь три блока: блок идентификации, включающий коды объектов классификации и классификационных группировок, блок наименований объектов и классификационных группировок на естественном языке и блок дополнительных признаков объектов, включающий наименования и коды дополнительных признаков объектов классификации. Кроме трехблочной структуры классификаторы могут иметь и двухблочную структуру, когда выделяются только блоки идентификации и наименований. В структуре классификаторов могут выделяться и другие виды блоков, а также разделы. Выбор структуры построения классификаторов определяется характером объектов классификации, типом задач, для решения которых предназначен классификатор, и используемыми методами классификации и кодирования. В классификаторах технико-экономической и социальной информации используются иерархический и фасетный методы классификации. Эти методы классификации должны отвечать следующим основным требованиям: – обладать достаточной емкостью; – иметь достаточную и экономически оправданную глубину; – обладать определенной гибкостью и избыточностью для возможности расширения множества классифицируемых объектов, группировок и признаков и внесения необходимых изменений без нарушения структуры классификации; – учитывать необходимость сопряжения с другими классификациями однородных объектов; – обеспечивать наибольшую эффективность обработки информации средствами вычислительной техники при решении комплекса конкретных задач АСУ как внутри данной системы, так и при обмене информацией с взаимодействующими системами; – предоставлять возможность ведения создаваемого классификатора как в ручном, так и автоматизированном варианте организации процессов ведения. Под иерархическим методом классификации понимается такой метод, при котором заданное множество объектов последовательно делится на подчиненные подмножества. При построении классификаторов иерархическим методом классификации необходимо соблюдать следующие правила: – деление каждой классификационной группировки должно производиться только по одному основанию; – получаемые в результате деления группировки не должны пересекаться, то есть содержать аналогичной информации, и должны относиться только к одной вышестоящей группировке; – деление исходного множества на подмножества должно быть последовательным, без пропусков и без добавления промежуточного уровня классификации; – классифицирование должно производиться таким образом, чтобы сумма подмножеств деления составляла делимое множество. Иерархический метод классификации характеризуется глубиной классификации и емкостью. Количество ступеней определяет глубину классификации, которая устанавливается в зависимости от степени конкретизации группировок и числа признаков, необходимых для решения конкретных задач. От глубины и количества группировок, образуемых на каждой ступени классификации, зависит емкость системы. Как правило, наибольшее количество последующих группировок устанавливается постоянным, либо для всей классификации, либо для данной ступени. Для систем классификации технико-экономической информации это число всегда равно десяти или кратному десяти. При иерархическом методе классификации практически не ограничивается глубина классификации информации, что дает возможность более детально анализировать предметы, явления или документы. Большая информационная емкость иерархического метода классификации позволяет использовать его для кодирования больших объемов технико-экономической информации. Несмотря на вышеперечисленные преимущества, этот метод имеет ряд существенных недостатков. Во-первых, это недостаточная гибкость структуры, обусловленная фиксированностью признаков классификации и заранее установленным порядком их следования, не допускающим включения новых объектов и классификационных группировок. Вследствие этого, изменение любого признака ведет к перераспределению классификационных группировок и необходимости переработки классификатора. Поэтому в классификаторах, построенных на основе иерархического метода, должны предусматриваться значительные резервные емкости. Во-вторых, этот метод классификации не позволяет осуществлять информационный поиск по любому произвольному сочетанию признаков. Под фасетным методом классификации понимается такой метод, при котором классифицируемое множество делится на группировки независимо, по различным признакам классификации. Он не имеет жесткой классификационной структуры и заранее построенных конечных группировок. Классификационные группировки при фасетном методе классификации образуются путем комбинаций значений признаков, взятых из соответствующих фасетов (списков признаков, характеризующих объекты классификации). Последовательность использования фасетов при образовании классификационной группировки задается фасетной формулой. В каждом конкретном случае фасетная формула устанавливается в зависимости от характера решаемых задач и алгоритма обработки информации. Емкость классификатора, построенного на основе фасетного метода классификации, зависит от числа фасетов и от количества признаков в фасетах. При построении классификаторов на основе фасетного метода необходимо соблюдать следующие правила: – значения признаков из различных фасетов не должны пересекаться; – из всевозможных фасетов, характеризующих классифицируемое множество объектов, отбираются только существенные, то есть фасеты, обеспечивающие решение конкретных технико-экономических задач; – фасеты должны занимать в классификаторе строго определенное место и иметь определенные идентификационные коды. Основные преимущества фасетного метода классификации обусловлены его гибкостью. Изменения в любом из фасетов не оказывают влияния на остальные. Большая гибкость обуславливает приспосабливаемость метода классификации к меняющемуся характеру решаемых задач, для которых он создается. Фасетный метод классификации позволяет не только образовывать новые классификационные группировки из имеющихся фасетов, но и включать новые и исключать старые фасеты. Гибкость системы дает возможность осуществлять информационный поиск по любому сочетанию признаков. Это определяет хорошую приспосабливаемость метода к машинной обработке информации. Методы кодирования технико-экономической и социальной информации тесно взаимосвязаны с методами классификации. Каждому методу классификации соответствует один или несколько методов кодирования. В процессе кодирования объектам классификации и их группировкам по определенным правилам присваиваются цифровые, буквенные и буквенно-цифровые коды. Код характеризуется алфавитом, то есть знаками, используемыми для его образования, основанием кода – числом знаков в алфавите кода и длиной кода. В классификаторах ТЭСИ используются четыре метода кодирования информации. Порядковый метод кодирования – это такой метод, при котором кодами служат числа натурального ряда. В этом случае кодом каждого из объектов классифицируемого множества является его порядковый номер. Данный метод кодирования обеспечивает довольно большую долговечность классификатора при незначительной избыточности кода. Этот метод обладает наибольшей простотой, использует наиболее короткие коды и лучше обеспечивает однозначность определения каждого объекта классификации. Кроме того, он обеспечивает наиболее простое присвоение кодов новым объектам, появляющимся в процессе ведения классификатора. Каждому новому объекту присваивается следующий по порядку номер. Существенным недостатком порядкового метода кодирования является отсутствие в коде какой-либо конкретной информации о свойствах объекта, а также сложность машинной обработки информации при получении итогов по группе объектов классификации с одинаковыми признаками. Этот метод кодирования не обеспечивает возможности размещения вновь появившихся объектов классификации в необходимом месте классификатора, так как резервные коды располагаются в конце ряда. По этим причинам порядковый метод кодирования чаще всего применяется в сочетании с другими методами кодирования. Серийно-порядковый метод кодирования – это такой метод, при котором кодами служат числа натурального ряда с закреплением отдельных серий этих чисел за объектами классификации с одинаковыми признаками. Серийно-порядковый метод кодирования целесообразно применять для объектов, имеющих два соподчиненных признака. В каждой серии, кроме кодов имеющихся объектов классификации, предусматривается определенное количество кодов для резерва. Резерв кодов располагается в середине или в конце серии. Это является большим преимуществом данного метода по сравнению с порядковым методом кодирования. Данный метод кодирования обладает всеми преимуществами и недостатками порядкового метода кодирования. Последовательный метод кодирования – это такой метод, при котором код объекта классификации и (или) классификационной группировки образуется с использованием кодов последовательно расположенных подчиненных группировок, полученных при иерархическом методе классификации. В этом случае код нижестоящей группировки образуется путем добавления соответствующего количества разрядов к коду вышестоящей группировки. Последовательный метод кодирования чаще всего используется при иерархическом методе классификации. Преимуществами последовательного метода кодирования являются логичность построения кода и большая емкость. Вместе с тем он обладает всеми недостатками, присущими иерархическому методу классификации, а также ограниченными возможностями идентификации объектов. Использование последовательного метода кодирования связано с определенными трудностями, обусловленными тем, что в результате зависимости значений последующих разрядов кода от предыдущих применять этот код по частям нельзя, группировать объекты по различным сочетаниям имеющихся признаков сложно, практически невозможно вносить новые признаки и производить изменения в коде без коренной перестройки классификатора. Поэтому применять последовательный метод кодирования целесообразно в тех случаях, когда набор признаков классификации и их последовательность стабильны в течение длительного времени. Параллельный метод кодирования – это метод, при котором код объекта классификации и (или) классификационной группировки образуется с использованием кодов независимых группировок, полученных при фасетном методе классификации. Параллельный метод кодирования имеет ряд преимуществ. К достоинствам рассматриваемого метода кодирования относится гибкость структуры кода, обусловленная блочностью его построения. Метод позволяет использовать при решении конкретных технико-экономических и социальных задач коды только тех признаков объектов, которые необходимы, что дает возможность работать в каждом отдельном случае с кодами небольшой длины. При этом методе кодирования можно осуществлять группировку объектов по любому сочетанию признаков. Параллельный метод кодирования хорошо приспособлен для машинной обработки информации. По конкретной кодовой комбинации легко указать, набором каких характеристик описывается рассматриваемый объект. Набор признаков при необходимости может легко пополняться присоединением кода нового признака. Это свойство параллельного метода кодирования особенно важно при решении технико-экономических задач, состав которых меняется со временем. В утвержденном Госстандартом РФ в декабре 1995 года Общероссийском классификаторе информации об общероссийских классификаторах (ОКОК) все общероссийские классификаторы были распределены на восемь групп в зависимости от вида информации, на которую они разработаны: 1 – социальная информация; 2 – информация по описанию организации экономики; 3 – информация о продукции, видах экономической деятельности и оказываемых услугах; 4 – информация о природных и трудовых ресурсах; 5 – информация о финансово-кредитной сфере; 6 – информация об управленческой документации, показателях и единицах измерения; 7 – информация о стандартах и технологических процессах; 8 – прочие виды технико-экономической и социальной информации. Общероссийские классификаторы ТЭСИ, кроме основной функции стандартного языка формализованного описания данных в информационном обеспечении управления, могут выполнять следующие функции: – быть самостоятельными массивами справочной информации по основным объектам народного хозяйства; – служить системой идентификаторов для обозначения объектов народного хозяйства; – быть основой построения структур различного рода информационно-поисковых систем, баз и банков данных; – являться средством унификации управленческой документации и технико-экономических и социальных показателей; – служить инструментом стандартизации информационного обеспечения управления. Как было сказано выше, основной функцией общероссийских классификаторов ТЭСИ, входящих в состав ЕСКК РФ, является функция стандартного языка формализованного описания данных. Классификаторы позволяют преобразовать данные на естественном языке в язык кодов, лучше приспособленный для обработки информации с помощью средств вычислительной техники. 1.1. Использование классификаторов ТЭСИ в текущей работе отдела труда и зар.платы управления «Челябэнерго».